Это простой способ транскрибации любого аудио или видео. Бесплатно (нужен Windows + Google аккаунт) и без ограничений (подразумевается использования для личных задач на уровне 100 видео в день).

Раньше я пользовался Otter и Descript. Они платные (10–30$/месяц) + есть лимиты — 600 минут в месяц, 90 минут за раз.

Короче, внедряйте и пользуйтесь.

Подготовка

Переходим в папку C:\Users\[имя пользователя]\Downloads\ или «Загрузки» (где [имя пользователя] это ваш логин, под которым вы входите в Windows).

Например, ваш вариант C:\Users\petia\Downloads или C:\Users\katia\Downloads

Создаём в папке «Загрузки» папку «audio».

Переходим на Гитхаб проекта https://github.com/yt‑dlp/yt‑dlp/releases/ и скачиваем в созданную папку «audio» файл «yt‑dlp.exe».

Переходим по ссылке https://www.gyan.dev/ffmpeg/builds/

Скачиваем в папку «audio» файл «ffmpeg‑git‑full.7z»

Думаю, что у любого пользователя Хабра архиватор точно есть, так что архив откроете без проблем:)

Распаковываем скачанный архив «ffmpeg-2026-01-29-git‑c898ddb8fe‑full_build.7z»

Заходим в распакованную папку и переходим в папку «bin» по адресу Downloads\audio\ffmpeg-2026-01-29-git‑c898ddb8fe‑full_build\bin и копируем в ней 3 файла

Переходим в папку «audio» по адресу Downloads\audio\ и вставляем в неё скопированные файлы ffmpeg, ffplay, ffprobe. Архив «ffmpeg...» и разархивированную папку «ffmpeg...» можно удалить.

Конвертация

Копируем в папку «audio» по адресу Downloads\audio\ любое видео, которое хотим транскрибировать. Я скопировал видео с названием «video.mp4»

Теперь нужно запустить командную строку

cd C:\Users\[имя пользователя]imia\Downloads\audio\

Вместо [имя пользователя] нужно написать того пользователя, под которым вы входите в Windows.

Чтобы извлечь аудиодрожку из нашего видео — в командную строку вставляем текст и жмём Ввод (в тексте «video» — это название вашего видео, из которого мы извлекаем аудиодорожку, а «audio» это названия аудиофайла который мы получим).

ffmpeg -i "video.mp4" -q:a 0 -map a "audio.mp3"

Немного ждём и получаем сообщение:

Всё прошло успешно. Мы получили файл audio.mp3 около 55Мб. Таким образом вы можете извлечь аудио из любого видео.

Какие могут возникнуть сложности?

Если ваш аудиофайл весит больше 200мб — его нужно уменьшить до объёма 200мб. 15.1. Первый вариант уменьшить размер аудио, если аудио будет больше 200 мб. В командную строку вставляем текст и жмём Ввод (в тексте «video» — это название вашего видео, а «audio1» — это названия аудиофайла который мы получим).

ffmpeg -i "video.mp4" -b:a 96k "audio1.mp3"

Получаем аудиофайл в 2 раза меньшего размера

Второй вариант уменьшить размер аудио, если аудио будет больше 200 мб. В командную строку вставляем текст и жмём Ввод (в тексте «audio» — это название вашего аудио, и «1800» — это 30 минут в секундах).

ffmpeg -i "audio.mp3" -vn -acodec copy -f segment -segment_time 1800 -reset_timestamps 1
"часть_%03d.mp3"

В итоге мы получим разбивку нашего аудио на отрезки по 30 минут.

Приступаем к транскрибации

Переходим по ссылке https://notebooklm.google.com/

Если нет аккаунта Google, то нужно его зарегистрировать. В некоторых случаях могут понадобиться сами знаете какие сервисы, чтобы заходить всюду.

Жмём кнопку «Создать», потом «Загрузить файл» и выбираем наш аудиофайл размером до 200Мб.

Ждём несколько секунд/минут (зависит от размера файла) и у нас появляется транскрибация этого аудио.

Нажимаем на название аудио и переходим к его текстовой версии.

Копируем текст транскрибации в текстовый файл.

Готово! Всё просто и быстро. Пользуйтесь!

Комментарии (11)


  1. nerudo
    26.06.2026 19:20

    А на ПК с линуксом на https://notebooklm.google.com/ никак не выйдет зайти?


  1. nick758
    26.06.2026 19:20

    А зачем нужен " yt‑dlp.exe"?


  1. ImagineTables
    26.06.2026 19:20

    Можно просто написать:

    yt-dlp -x --embed-thumbnail -f "bestaudio[ext=m4a]/bestaudio[ext=webm]/bestaudio" https://www.youtube.com/watch?v=xxxxxxxxxx -P "C:\Audio\"
    

    …и получить готовый аудиофайл. Ещё и с картинкой, чтобы не запутаться, от какого он видоса.

    Мне тут подсказали, что нехрен греть воздух, перекодируя в .mp3, лучше просто извлечь аудиопоток. Так оно и оказалось. Размер аудио одинаковый, а команда выше выполняется со скоростью скачивания (перекодирование заняло бы ещё примерно столько же времени).


  1. danilovmy
    26.06.2026 19:20

    Эээ. Я бы мог себе представить статью, которая покрывает компилляциию crispasr с учётом ffmpeg\openblas для запуска parakett, причем разрешается на вход подавать vorbis ogg. Вот это я понимаю решение вопроса бесплатной транскибации НА Компьютере с Windows, как обещал заголовок.

    А в статье оказалось описание облачного решения. Печалька...


  1. zelenin
    26.06.2026 19:20

    в ffmpeg 8.0+ есть whisper от openai для транскрибирования аудио


    1. danilovmy
      26.06.2026 19:20

      Виспер, к сожалению, проигрывает по скорости parakeet примерно в 60 раз на моей машине без GPU.
      Почему к сожалению? Потому, что он видит иноязычные слова и транскрибирует их, чаще всего, правильно. Попугай же, работает мгновенно, но выдает, например, "часть джипити" - это "Chat GPT" у whisper.


  1. Kyoki
    26.06.2026 19:20

    Вместо [имя пользователя] нужно написать того пользователя, под которым вы входите в Windows.

    В такой статье можно хотя бы вспомнить про %USERPROFILE%\Downloads и не заниматься фигней с именем пользователя.


  1. qwe101
    26.06.2026 19:20

    На винде: Я это делаю xmedia-recode. Это и MKVToolNix у меня для всего.


  1. atomlib
    26.06.2026 19:20

    Половина перечисленных операций (установка yt-dlp и FFmpeg) решается установкой Chocolatey и последующей установкой любого софта через него.

    Если есть немного денег, то любая настройка — это вообще просьба в Codex. У меня сейчас на рабочем столе лежит ярлык, при перетаскивании в который файла или ссылки (или этот скрипт попросит УРЛ на видеохостинг) он автоматически скачает видеоролик, транскрибирует его в полноценные субтитры через Whisper на видеокарте и раздербанит на интересные кадры, готовые к публикации на Хабре и уже отсортированные базовыми алгоритмами машинного зрения.


  1. lnix
    26.06.2026 19:20

    использовать платное? vlc программе сколько лет и им подобным? на winodws и linux запихиваете десятки видео в раздел Конвертировать/сохранить и извлекаете аудио из видео, без лишних телодвижений


  1. ForestQ
    26.06.2026 19:20

    Если стоит nvidia то 2 команды и файл расшифрован

    pip install -U whisper-ctranslate2 nvidia-cublas-cu12 nvidia-cudnn-cu12

    whisper-ctranslate2 audio.mp3 --device cuda --compute_type float16 --model turbo --language ru