Ультанул башем в 2012 году
Ультанул башем в 2012 году

Мы не так давно опубликовали SAPI5-обёртку для нашего синтеза на 20 языков России и СНГ. В этот раз опять немного сошлись звёзды и мы уже публикуем улучшение наших читалок. Чтобы не растекаться мыслью по древу и не повторяться, вот краткий список улучшений (полную подводку можно прочитать в прошлой статье):

  • Добавлена рудиментарная читалка чисел и английских букв на русском языке;

  • Теперь есть два инсталлятора, один на базе v5_5_ru(голоса Силеро), другой — на базе v5_cis_base_nostress(голоса России и СНГ). Суммарно поддерживаются все те же 20 языков (включая русский);

  • Скорость (в идеальных условиях) остаётся в районе x100 реального времени для обеих моделей;

  • Модель теперь умеет сама ставить ударения на трёх языках: русском, белорусском и украинском;

  • Для русского языка также добавлена возможность автоматически решать омографы;

  • Славянские языки работают на базе модели, которая обязательно требует ударения. В прочих ударениях модель "сама" ставит ударения;

  • Некоторое количество баг-фиксов: небольшие фиксы по запросам пользователей, фикс отзывчивости моделей и "фризов", фикс артефактов при использовании ускорения и высоты голоса;

  • Также добавлен трекинг по словам для удобства пользования;

  • Добавлен конфигуратор для ударений (включать-выключать ударения и омографы).

Поддержка вопросов (и готовящаяся) поддержка эмфаз пока не доехала в SAPI5, но в целом тут неясен интерфейс для этого добра.

Повторимся, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Из коробки будет работать с Балаболкой и другими подобными программами (и не требует видеокарту) на "калькуляторах".

Будем признательны вам за обратную связь и комментарии!

Конфигуратор

После установки программа предложит вам создать ярлык и раздел в меню "Пуск" для конфигуратора:

Его можно использовать без перезапуска приложений, в которых используется читалка. Полное разделение флагов (ставить или не ставить букву ё, ставить или не ставить односложные слова) — для простоты завозить сюда не стали.

Также напомним, что управлять ударением можно и вручную постановкой плюсика перед нужной гласной.

Как скачать

С прошлого раза многократно усилились различные блокировки всего, чего только можно. Поэтому мы даём два способа скачать читалки:

Модель

? Прямая ссылка

? Ссылка на GitHub

v5_5_ru

Ссылка

Ссылка

v5_cis_base_nostress

Ссылка

Ссылка

Установка:

  • Cкачать .exe файл, установить, настроить конфигуратор;

  • Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке, но у вас может быть своя любимая.

Системные требования:

  • 64-битная Windows;

  • Мы тестировали на Windows 10 и Windows 11;

  • Windows XP скорее всего не будет работать, Windows 7 не тестировали.

Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание, что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза - как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).

Дисклеймер

В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка - вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.

Ссылки

Комментарии (3)


  1. ant3mc
    05.06.2026 05:14

    Спасибо за Silero TTS !
    1. Можно сделать регулировку скорости обычным образом (как выбирается частота дискретизации, к примеру). Через SSML это неудобно и проблемно.
    2. Как именно озвучиваются латинские буквы ? У меня в скрипте на питон это просто "а" "бэ" и т.д. Но "собрать" из них на слух слово получается плохо, паузы слишком маленькие между буквами (может, есть и другие причины).
    С греческими буквами намного лучше, так как у них полноценные названия- "альфа" "бэта" и т.д.


    1. snakers4 Автор
      05.06.2026 05:14

      1. Когда-то так было, но потом возникали запросы типа хочу разные слова или фразы делать разной скоростью, одно время были эти legacy-интерфейсы, потом убрали и их, чтобы не было ада с поддержкой разных версий для разных мест.

      2. В публичном движке синтеза, если я правильно понял вопрос, — никак. В SAPI читалке, скорее всего, просто тупо замена букв на аналоги, но это читалка, и там идеальное прочтение менее важно, чем точное прочтение.

      Если стоит задача фармить именно паузы между буквами на движке синтеза, то тут три пути:

      • Играться с SSML

      • Играться с запятыми или точками

      • Пробовать какие-то схемы с кастомным написанием, пробелы / твёрдые знаки


      1. ant3mc
        05.06.2026 05:14

        1. Понятно. Просто SSML более капризен к символам, да и полезную длину чанка вроде уменьшает.

        2. Запятые я пробовал ставить между простыми названиями латинских букв ("бэ" "дэ" и т.д.). Звучит хуже чем просто пробелы (вероятно, потому что запятые слишком часто идут).