
На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:
Все прошлые фишки и улучшения были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);
Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);
Был изменён принцип тренировки, что сделало детектор более устойчивым;
Общее число ошибок на мульти-доменной валидации было снижено на 11%;
На шумных данных число ошибок было снижено на 16%;
Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.
Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.
Сравнение с аналогами
Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка - портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:

Больше всего проблем с шумными данными (методология по ссылке):
Модель |
ESC-50 |
Приватный шум |
---|---|---|
Webrtc |
0 |
0.15 |
Silero v4 |
0.51 |
0.24 |
Silero v3 |
0.51 |
0.06 |
Unnamed commercial VAD |
0.53 |
0.18 |
Silero v5 |
0.61 |
0.44 |
TenVad |
0.42 |
0.47 |
Silero v6 |
0.65 |
0.53 |
Цитирование и аффилиации
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
Ссылки
Репозиторий - https://github.com/snakers4/silero-vad;
Более подробное описание изменений - https://github.com/snakers4/silero-vad/releases/tag/v6.0;
Метрики - https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;
Комментарии (16)
zoldaten
26.08.2025 12:361.
КодИИ-427407
Современный нейросетевой модуль для расстановки ударений и буквы "ё" Силеро
3 000 000
Неплохо сейчас букву "ё" финансируют https://fasie.ru/press/fund/kod-ai-7-results/Как вы два гранта получили в рамках одного отбора ?
snakers4 Автор
26.08.2025 12:36Рекомендую вам хотя бы проверить информацию и внимательно ознакомиться с правилами конкурса прежде чем набрасывать.
zoldaten
26.08.2025 12:36да вы не обижайтесь. у вас отличный проект. только про ё и ударения у вас гораздо раньше было (или это про другое?):
в целом интересно было посмотреть, на что государство деньги выдает.
тоже пользовался вашими открытыми моделями - https://youtu.be/yzllC1Es6VQ . они, правда, тогда цифры не озвучивали.
поэтому перешел на piper. но, возможно, стоит вернуться.
zoldaten
26.08.2025 12:36p.s. все так же не читает цифры в text-to-speech:
example_text = 'в списке 4 элемента' - 4 не было переведено в "четыре"
тот же piper это делает:
os.system(f'echo {l} | ./piper/piper --model piper/ru_RU-irina-medium.onnx --output_file waves/{l}.wav')
а в speech-to-text вообще нет русских моделей!, не говоря об их onnx имплементации:за что вам вообще гранты выдают ?
так что правильно вам "накидали".snakers4 Автор
26.08.2025 12:36Объясните, какое отношение нормализация в синтезе и 4+ года не обновляемые иностранные модели имеют к теме гранта и этой статье? Потрудитесь подумать и почитать, а то совсем как-то некрасиво получается.
zoldaten
26.08.2025 12:36а очень даже прямое: грант выдается под модуль, который уже, судя по issue реализован (про букву "ё" и т.д.)
модели, выложенные в рамках средств гранта, не содержат русскую модель. возможно ее и вообще нет. но тогда непонятно под что выделялся грант "Современный нейросетевой синтез речи Силеро для языков народов России и СНГ". Речь именно про синтез. Да, среди моделей, есть "Ukrainian", но все остальные явно не народов России.
к данной статье эти позиции, понятно, не имеют отношения. но вы предложили проверить информацию.
так что теперь вы потрудитесь объяснить, чтобы красиво получилось.snakers4 Автор
26.08.2025 12:36Да, среди моделей, есть "Ukrainian", но все остальные явно не народов России.
так что теперь вы потрудитесь объяснить, чтобы красиво получилось.
модели, выложенные в рамках средств гранта, не содержат русскую модель
Все ответы, на самом деле, находятся по первой ссылке в гугле и документах, на которые вы ссылаетесь.
Видимо модели, выложенные в 2022 году, должны были быть выложены в рамках средств гранта, решение конкурсной комиссии по которому было от ~декабря 2024 (!). А отсутствие модуля нормализации текста в демке от 2022 года как-то должно быть связано с обсуждением публичного детектора голоса и / или гранта конца 2024 года.
а очень даже прямое: грант выдается под модуль, который уже, судя по issue реализован (про букву "ё" и т.д.)
Можете, пожалуйста, подсказать точную дату выдачи этого гранта? Можете также привести выдержку из ТЗ этого гранта и результаты тестирования, которые показывают, что кто-то где-то там реализован?
Но тогда непонятно под что выделялся грант "Современный нейросетевой синтез речи Силеро для языков народов России и СНГ"
к данной статье эти позиции, понятно, не имеют отношения. но вы предложили проверить информацию.
Вы сами ответили на свой вопрос. По сути вы просто нашли какую-то случайную информацию (в том числе информацию от 2021-2022 года, лол) только ради наброса и набросили под статьёй, которая вообще про другое. Было бы неплохо, если бы вы публично извинились.
Newm
26.08.2025 12:36А какие вообще впечатления о piper? Меня вполне устраивает silero_tts, кроме одного момента... Если "убрать акцент", тогда она не дает проставить жестко ударение, в результате "мука" всегда читается с единственным вариантом ударения, в то время как в русском от ударения это слово имеет 2 совершенно различных значения. Ну и еще куча проблем с ударениями. Вопрос с цифрами решается предварительной обработкой строки на вход, преобразуя числа в текст, это в принципе решаемо. А вот отсутствие возможности ударение поставить - это для меня неприятно. Или же это я может быть косяк и ударения все же можно ставить вручную?
zoldaten
26.08.2025 12:36Видимо модели, выложенные в 2022 году, должны были быть выложены в рамках средств гранта, решение конкурсной комиссии по которому было от ~декабря 2024 (!).
Ну, во-первых, не декабря 2024, а пораньше (Победители_Код-ИИ (очередь VII) (21.08.2024-23.09.2024)).
Во-вторых, нет, модели от 2022 г. не должны были быть выложены в 2024г. Это так. Но среди них нет ни одной, которая была бы в составе "языков народов России и СНГ ". То есть за год не появилось ни одной новой модели, а уж тем более модели из списка. Вы же грант под языки народов России и СНГ брали ?Можете, пожалуйста, подсказать точную дату выдачи этого гранта? Можете также привести выдержку из ТЗ этого гранта и результаты тестирования, которые показывают, что кто-то где-то там реализован?
Нет, это я подсказать не могу. У меня нет публичного доступа к информации о ваших грантах, кроме той, что публично доступна. Может вы подскажете ?
По сути вы просто нашли какую-то случайную информацию (в том числе информацию от 2021-2022 года, лол) только ради наброса и набросили под статьёй, которая вообще про другое.
Эта информация не случайная. Она взята с официального сайта фонда, на который вы ссылались в статье. Информация от 2021-2022 (если вы про changelog от 2020 г.) тоже не случайная, она взята с вашего репозитория на github. Моя информация подтверждена ссылками на документы. А ваша ссылками на что подтверждена ?
По поводу несоответствия тематике статьи, под которым был оставлен комментарий, - вы сами решили развить тему выдачи грантов и обсудить это.snakers4 Автор
26.08.2025 12:36Ну, во-первых, не декабря 2024, а пораньше (Победители_Код-ИИ (очередь VII) (21.08.2024-23.09.2024)).Во-вторых, нет, модели от 2022 г. не должны были быть выложены в 2024г. Это так. Но среди них нет ни одной, которая была бы в составе "языков народов России и СНГ ". То есть за год не появилось ни одной новой модели, а уж тем более модели из списка. Вы же грант под языки народов России и СНГ брали ?
Документ на который вы ссылаетесь датирован 27 ноября 2024 года. Это дата вынесения решения о предоставлении гранта. Подписание договора может занимать какое-то время. Работы по гранту могут занимать до 12-18 месяцев, согласно регламенту фонда.
Большая часть этой информации написана буквально в шапке документа, на который вы ссылаетесь.
Отсюда очевидный вывод - работа над этим проектом ведется как раз сейчас. К нему не имеют никакого отношения:
Модели 2021 года;
Модели 2022 года;
Эта статья;
Пункт ниже.
Может вы подскажете ?
Ну у вас какие-то претензии, плюс вы явно очень выборочно читаете даже публичную информацию.
Если вы прочитаете документ внимательнее, то узнаете, что именно этот второй грант, скорее всего никогда не выдавали.
zoldaten
26.08.2025 12:36Отсюда очевидный вывод - работа над этим проектом ведется как раз сейчас.
что ж, чудно. время еще есть. очень надеюсь, что у вас все получится.
Если вы прочитаете документ внимательнее, то узнаете, что именно этот второй грант, скорее всего никогда не выдавали.
из документа это не следует. там написано (мы же заголовок обсуждаем) -
при появлении средств для их финансирования
Сам факт, что государство готово вложиться в букву "ё" имеет место быть.
Поэтому моя реплика про получение вами двух грантов вполне обоснована. Не знал, что эта тема так для вас болезненна, что это вызвало такую переписку.
igor_suhorukov
@snakers4 спасибо!
Подскажи есть ли примеры как встроить детектор в пайпалайн потоковой обработки звука? Как я понял что это всего лишь компонент чтобы не обрабатывать тишину и фоновые звуки.
snakers4 Автор
Наш ВАД это тулкит, то есть голый функционал. По сути малюсенькая нейросеть и несколько функций, которые одну модальность (аудио) превращают в сигнал (есть речь) по кусочкам.
В репозитории есть рудиментарный пример для обработки 1 аудио на питоне (с большим числом эвристик) и рудиментарный интерфейс для стриминга.
Также комьюнити подпилило свои примеры на разных ЯП (не факт, что они все идеально работают).
igor_suhorukov
Отлично! Будет чем поразвлечься, как доберусь. К распознаванию речи я не возвращался с момента использования Dragon Dictate в 1998 году.
Пару недель назад пробовал запустить whisper docker на cuda и coqui-ai TTS но с первой попытки у меня это не заработало. Идея была подключить это к openweb-ui и взаимодействовать с базой данных голосом и слушать результаты.
krabdb
Смотря что вы под потоковой понимаете. Если не прямо риалтайм, а есть масса выплевываемых wav/mp3 из основной системы, то silero прекрасно использует whisper.cpp без всяких лишних телодвижений.
igor_suhorukov
Когда звук с источника(микрофона) поступает сразу же в пайпалайн обработки, распознаётся и передает распознанный текст так же в виде потока, только символов или токенов в другой пайпалайн.
Например для синхронного перевода с одного языка на другой. Или для взаимодействия с какой-либо программой.
Спасибо, поизучаю и этот подход!