
На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:
Все прошлые фишки и улучшения были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);
Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);
Был изменён принцип тренировки, что сделало детектор более устойчивым;
Общее число ошибок на мульти-доменной валидации было снижено на 11%;
На шумных данных число ошибок было снижено на 16%;
Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.
Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.
Сравнение с аналогами
Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка - портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:

Больше всего проблем с шумными данными (методология по ссылке):
Модель |
ESC-50 |
Приватный шум |
---|---|---|
Webrtc |
0 |
0.15 |
Silero v4 |
0.51 |
0.24 |
Silero v3 |
0.51 |
0.06 |
Unnamed commercial VAD |
0.53 |
0.18 |
Silero v5 |
0.61 |
0.44 |
TenVad |
0.42 |
0.47 |
Silero v6 |
0.65 |
0.53 |
Цитирование и аффилиации
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
Ссылки
Репозиторий - https://github.com/snakers4/silero-vad;
Более подробное описание изменений - https://github.com/snakers4/silero-vad/releases/tag/v6.0;
Метрики - https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;