Так там используется ffmpeg, я тоже его использую, но через Winff. Можно конечно составить команду и закинуть в Smtube, но я себя этим не утруждал, надо же маны читать для составления команды, а Winff без всяких манов в пару кликов конвертирует.
Осталось изучить использование CUDA.
И еще добавлю.
На ютубе аудио и видео лежат отдельными файлами, только 360p единым файлом, так что извлекать аудио из видео через youtube-dl - надо проверять что эта команда делает.
Может она скачивает видео, потом извлекает из него аудио, потом конвертирует. Если скачивать сразу аудио и конвертировать, то получается меньше преобразований ухудшающих качество, и меньше времени и меньше нагрузка на железо.