Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия / forpes.ru

Главная
Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия +24

25.01.2026 07:33

timonin 24 15000 Источник

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS

API

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

Портативная версия

Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus

Системные требования

NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти
20 ГБ свободного места на диске

Текущие ограничения

Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).

Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!

Комментарии (24)

Efrem3112
25.01.2026 08:58
#29431148

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

И не только...
1. Wesha
  25.01.2026 08:58
  #29433778
  Мама, я попал в аварию!
1. Mike-M
  25.01.2026 08:58
  #29436540
  Присоединяюсь. В списке пользователей нет главного пункта: Мошенники

darkslya
25.01.2026 08:58
#29431672
20гб места чтобы можно было медленно озвучивать небольшие тексты - сомнительно.

У меня 3080ti пару строк текста озвучивает минуты 2. Средненькое качество (интонации часто не в тему или вообще меняются). Разве что для коротких фраз подойдёт. Но работает без интернета, когда всё докачается.

За старания - спасибо.
1. timonin Автор
  25.01.2026 08:58
  #29431856
  20 гб - все модели, все вам в итоге не нужны будут, а так модели по 3 гига. И окружение еще гигов 7-10.
  1. darkslya
    25.01.2026 08:58
    #29432274
    я скачал архив, запустил install.bat, потом run.bat - у меня заняло 3+ гига на диске C (видимо питон и что-то ещё, в общем совсем не portable версия) и 10+ гигов на том диске, куда я скачал. Затем в самой программе я просто перешёл во вторую вкладку, где клонирование голоса - и у меня ещё скачалось 5гб. Без всяких подтверждений-запросов. В фоне. Я никакие модели отдельно не качал.

emulio
25.01.2026 08:58
#29432472
Заметил, что ударения не всегда правильно расставляются. Это исправляется какими-то словарями?
1. rodial
  25.01.2026 08:58
  #29433400
  я решил провести эксперимент и попробовал указать ударение в этой модели
  
  сработало: zamək или zaˈmok?
  
  не сработало:
  
  зАмок или замОк?
  
  з+амок или зам+ок?
  
  з^aмок или зам^ок?
  
  за́мок или замо́к?
  
  <phoneme alphabet="ipa" ph="ˈzamək">замок</phoneme> или <phoneme alphabet="ipa" ph="zaˈmok">замок</phoneme>?
  
  з'амок или зам'ок?
  
  з!aмок или зам!ок?
  
  заммок или замоок?

Newbilius
25.01.2026 08:58
#29432810
Что с коммерческим использованием готовых или склонированных голосов (если автор голоса не против)? Можно использовать результат генерации в рекламе, фильме, игре и т.п.?
1. Mike-M
  25.01.2026 08:58
  #29436570
  Думаю, китайцев этот вопрос заботит меньше всего. Отношение к интеллектуальной собственности у них весьма специфическое...
  1. yrub
    25.01.2026 08:58
    #29437990
    это вы так думаете, к своей вполне трепетное. недавно была другая модель кажется от qwen - переводчик, свободно деньги зарабатывать не разрешают
  1. Newbilius
    25.01.2026 08:58
    #29440692
    Вопрос про лицензию, думаю автор, продвигающий это дело наверняка изучил, потому и интересно)
    
    Потому что в том же Steam могут потребовать - "вы явно пользовались генеративкой, дайте ссылку на лицензию сервиса или вашего договора с ним, что он позволяет коммерческое использование". В посте есть "создателям игр", так что вопрос непраздный. Если лицензия неясная - проще не пользоваться, потому что быть забаненным в ключевом магазине было бы обидно.
1. popstas
  25.01.2026 08:58
  #29442884
  У них на Github написано: All our open-weight models are licensed under Apache 2.0.
  Хотя на результат генерации это не распространяется, но запретительного ничего тоже не вижу.

HackcatDev
25.01.2026 08:58
#29433870
А есть режим "взять образец голоса с записи 1 и наложить его на запись 2"? Эти все TTS заведомо мертворождены, поскольку даже самая продвинутая TTS-модель видит только и исключительно текст, без возможности указать реальные нюансы интонации, звуки, не являющиеся словами (мычание во время обдумывания) и так далее
1. Rio
  25.01.2026 08:58
  #29434034
  Человек, читающий вслух, тоже видит только и исключительно текст. Так что для подделки голоса и манеры говорить конкретного человека оно может (пока) и не сильно пригодно, но есть огромная сфера применений, где подделывать никого конкретного не нужно.

sx66627
25.01.2026 08:58
#29434854
Большое спасибо автору за проделанную работу!
Я часто использую такие инструменты для озвучивания различных событий. Раньше часто использовал Fish speech. Сейчас очень хочу протестировать этот инструмент.
1. sx66627
  25.01.2026 08:58
  #29435034
  Добавлю:
  Работает отлично, генерирует довольно быстро. При клонировании голоса, столкнулся с тем, что не хватает ffmpeg (Для работы с .mp3, .ogg, .flac и т.д. ). Поставил и все заработало.

ru4pae
25.01.2026 08:58
#29435170
У меня пара вопросов. Или пожеланий.

Как озвучить несколько больших кусков текста. В идеале книгу в формате FB2.

Как выгрузить несколькими мр3 файлами озвученный текст? В идеале получить несколько мр3 по главам книги.

И конечно как делать это в автомате. Закинул книгу, получил папку с МР3.
1. creativcheck
  25.01.2026 08:58
  #29435878
  по идее, написать свой скрипт или бота, который это все сделает. я сам в целом нуб, но недавно навайбкодил такое для озвучки с помощью гугловского api на базе gemini-flash-2.5 чтоб он мне большие тексты разбивал на чанки по 800-1000 символов, озвучивал, сшивал и присылал готовый файл, на гугл колабе запускаю. Работает очень неровно, через Vertex AI, руками эти чанки озвучивать пока лучше получается, хоть и геморно. Но у гугла много ограничений встроено, он все тексты проверяет похоже, на соотвествие своей политике, чтобы без какого-либо намека на насилие и острые темы. Так что у меня половина книги заменялось тишиной или писком
  1. Anselm_nn
    25.01.2026 08:58
    #29438482
    google ai studio дает маленькие лимиты на голосовые вроде?
    
    creativcheck
    25.01.2026 08:58
    #29442634
    да, в студии https://aistudio.google.com/generate-speech там либо вообще генерация не срабатывает на больших текстах, либо после примерно 1-1,5 минуты начинается жесть по звуку. Но есть Vertex AI - через него и дешевле и стабильнее работает, собственно автоматизацию я через его api сделал. Но опять же через клиент по ссылке максимум 2к символов влезает примерно
    https://console.cloud.google.com/vertex-ai/studio/media/speech
    
    creativcheck
    25.01.2026 08:58
    #29442674
    Вообще у гугла довольно жирная документация по этому вопросу, есть еще способы через бакет работать, но там ожидание в пару часов, не риалтайм, и я сам не тестил
    https://docs.cloud.google.com/text-to-speech/docs/create-audio-text-long-audio-synthesis
1. alexs963
  25.01.2026 08:58
  #29435992
  https://github.com/DeXP/EbookTalker автор тут на хабре есть.

popstas
25.01.2026 08:58
#29442716
Вручную дозапустил python/python.exe -m pip install sox, в остальном инсталлер сработал, спасибо!