NeuTTS Air: открытая модель синтеза речи, которая работает прямо на вашем устройстве / forpes.ru

Главная
NeuTTS Air: открытая модель синтеза речи, которая работает прямо на вашем устройстве

NeuTTS Air: открытая модель синтеза речи, которая работает прямо на вашем устройстве +12

06.10.2025 13:33

stas-clear 9 4800 Источник

2 октября 2025 года компания Neuphonic представила NeuTTS Air - открытую модель преобразования текста в речь, которая кардинально меняет подход к синтезу голоса. Главная особенность в том, что она работает полностью локально на обычных устройствах без необходимости подключения к интернету или облачным сервисам.

Что это такое и зачем нужно

Представьте, что вы можете создавать реалистичную речь прямо на своём смартфоне, ноутбуке или даже Raspberry Pi, не отправляя данные на сторонние серверы. Именно это и предлагает NeuTTS Air. Модель не просто синтезирует голос, она умеет мгновенно клонировать его, используя всего 3 секундный образец аудио.

Это открывает новые возможности для разработчиков:

Создание голосовых ассистентов, работающих офлайн
Приложения для людей с ограниченными возможностями
Инструменты для озвучивания контента
Встраиваемые системы с голосовым интерфейсом
Решения для сфер с повышенными требованиями к конфиденциальности (медицина, финансы)

Технические характеристики

NeuTTS Air построена на базе компактной языковой модели с 748 миллионами параметров. В основе лежит оптимизированный трансформер Qwen 0.5B, который отвечает за понимание и генерацию текста. Для обработки аудио используется проприетарный кодек NeuCodec, который сжимает звук до 0,8 кбит/с, сохраняя при этом качество вывода на уровне 24 кГц.

Основные характеристики:

Параметр	Значение
Размер модели	Менее 200 МБ
Количество параметров	748 млн
Частота аудио на выходе	24 кГц
Требования к железу	CPU (GPU не требуется)
Скорость генерации	Реальное время
Время для клонирования голоса	3-15 секунд аудио
Лицензия	Apache 2.0

Компактный размер модели достигается за счет квантования GGUF (доступны форматы Q4 и Q8), что позволяет эффективно использовать ресурсы процессора без необходимости в мощной видеокарте.

Мгновенное клонирование голоса

Одна из самых впечатляющих функций - это возможность клонировать голос практически мгновенно. Вам нужно всего лишь:

Короткий аудиофрагмент (3-15 секунд чистой речи)
Текстовая расшифровка этого фрагмента

Модель анализирует образец, извлекает характеристики голоса - тембр, интонацию, ритм и может синтезировать любой новый текст этим же голосом. При этом не требуется дополнительное обучение или настройка модели.

Важно: для лучших результатов используйте чистые монофонические WAV-файлы с частотой 16-44 кГц. Шумные записи или слишком короткие образцы могут снизить качество синтеза.

Конфиденциальность и безопасность

В эпоху, когда данные пользователей становятся всё более ценным ресурсом, локальная обработка - это не просто удобство, а необходимость для многих приложений. NeuTTS Air решает эту проблему радикально: все данные остаются на устройстве пользователя.

При этом разработчики позаботились об ответственном использовании технологии:

Все сгенерированные аудиофайлы содержат неслышимую водяную маркировку Perth
Это помогает отслеживать происхождение аудио и предотвращать злоупотребления
Компания явно запрещает использование для создания дипфейков или обманного контента

Как начать использовать

Начать работу с NeuTTS Air не сложно. Модель доступна на GitHub и Hugging Face с открытым исходным кодом (ссылки ниже).

Базовая установка:

# Клонируем репозиторий
git clone https://github.com/neuphonic/neutts-air

# Устанавливаем зависимости
pip install -r requirements.txt

# Также потребуется espeak для фонемизации
# В Linux: apt-get install espeak-ng
# В macOS: brew install espeak

Пример использования:

python -m examples.basic_example \
  --input_text "Привет! Это синтезированная речь" \
  --ref_audio samples/voice.wav \
  --ref_text samples/voice.txt

Для более продвинутого использования доступен Python API, который позволяет интегрировать модель в свои приложения:

from neutts_air import NeuTTSAir

# Инициализация модели
tts = NeuTTSAir()

# Кодирование референсного голоса
ref_encoding = tts.encode_reference(
    audio_path="voice.wav",
    transcript="Текст из аудио"
)

# Синтез новой речи
audio = tts.synthesize(
    text="Новый текст для озвучки",
    reference=ref_encoding
)

# Сохранение результата
tts.save_wav(audio, "output.wav")

Сравнение с облачными решениями

Давайте посмотрим, как NeuTTS Air выглядит на фоне популярного облачного сервиса ElevenLabs v2.5:

Характеристика	NeuTTS Air	ElevenLabs v2.5
Тип доступа	Открытый код, бесплатно	Закрытый код, платная подписка
Место обработки	Локально на устройстве	В облаке
Интернет	Не требуется	Обязателен
Конфиденциальность	Полная (данные не покидают устройство)	Данные передаются на сервер
Скорость	Зависит от вашего CPU	Зависит от интернета и нагрузки сервера
Требования к железу	CPU среднего уровня	Любое с интернетом
Языки	Пока в основном английский	Множество языков

Конечно, облачные решения предлагают некоторые преимущества - большие библиотеки готовых голосов, продвинутое управление эмоциями, поддержку множества языков. Но NeuTTS Air выигрывает там, где критична конфиденциальность, автономность работы и отсутствие recurring costs.

Ограничения и особенности

Как и любая технология, NeuTTS Air имеет свои ограничения:

Качество входных данных: Модель чувствительна к качеству референсного аудио. Шумные записи, сильные акценты или нестандартное произношение могут снизить точность клонирования.

Языковая поддержка: На момент запуска акцент сделан на английском языке. Поддержка других языков, включая русский, пока не подтверждена официально, хотя архитектура потенциально это позволяет.

Производительность: Хотя модель работает в реальном времени на процессорах среднего уровня, генерация может занять больше времени на слабых устройствах. По отзывам пользователей, время синтеза составляет около 26 секунд для некоторых конфигураций.

Размер контекста: Модель оптимизирована для коротких фраз и предложений. Для синтеза длинных текстов может потребоваться разбиение на части.

Практическое применение

Где можно использовать NeuTTS Air уже сегодня:

Образование и доступность: Создание инструментов для людей с нарушениями зрения или речи, которые работают без подключения к интернету.

Встраиваемые системы: Голосовые интерфейсы для умных домов, автомобильных систем, промышленного оборудования. Т.е. всё, что требует автономной работы.

Контент-индустрия: Быстрое прототипирование озвучки для видео, подкастов, аудиокниг. Особенно полезно для черновых версий.

Конфиденциальные сферы: Медицинские приложения, финансовые консультанты, юридические сервисы - везде, где передача голосовых данных на сторонние серверы нежелательна.

Игровая индустрия: Динамическая генерация реплик NPC с уникальными голосами без необходимости записи тысяч строк диалогов.

Перспективы развития

NeuTTS Air - это только начало. Как открытый проект, модель может развиваться силами сообщества:

Добавление поддержки новых языков
Улучшение обработки шумных записей
Оптимизация для мобильных платформ
Интеграция с популярными фреймворками
Расширение возможностей управления эмоциональной окраской

Уже сейчас в репозитории на GitHub активно обсуждаются различные улучшения, а энтузиасты экспериментируют с моделью на разных языках и платформах.

Выводы

NeuTTS Air представляет собой значительный шаг в демократизации технологий синтеза речи. Компания Neuphonic создала инструмент, который делает качественную генерацию голоса доступной для разработчиков без необходимости в дорогой инфраструктуре или зависимости от облачных сервисов.

Основные преимущества:

Полная локальная обработка без передачи данных
Компактный размер и низкие требования к железу
Открытый исходный код и бесплатное использование
Мгновенное клонирование голоса
Работа в реальном времени на CPU

Что стоит учитывать:

Пока в основном английский язык
Требовательность к качеству входных данных
Меньше готовых функций по сравнению с облачными гигантами

Для разработчиков, которые ценят конфиденциальность, автономность и открытость, NeuTTS Air - отличный выбор для экспериментов и создания новых приложений с голосовым интерфейсом.

Полезные ссылки

*Статья подготовлена на основе открытых источников и официальной документации проекта. Версия модели на момент публикации: релиз от 2 октября 2025 года.

Комментарии (9)

kurdlyplot
06.10.2025 14:20
#28925910
На русском звучит очень плохо. Цены неадекватные для модельки размером 0.5b которая работает на селероне вместо гпу.
1. stas-clear Автор
  06.10.2025 14:20
  #28926124
  Кончено. Там же написано. На момент запуска акцент сделан на английском языке. Поддержка других языков, включая русский, пока не подтверждена официально, хотя архитектура потенциально это позволяет.
  1. 2b3q
    06.10.2025 14:20
    #28934500
    да, там написано в референсе модели первым булитом
    
    `Supported Languages: English`
    
    пробовал фонезировать через eSpeak-ng не прокатило (на выходе китайско-арабское пение), тк модель не умеет интерпретировать как фонемы, у её токенайзера нет IPA/ru-токенов
    
    Но задумка крутая, отличается от существующих TTS, с поддержкой инстант-голосового (3-15сек) клонирования, можно на CPU без GPU. LM + нейрокодек (neuCodec)

IgnatF
06.10.2025 14:20
#28925950
Проверил в демо. Даже на своем голосе, одну фразу на английском модель не может синтезировать. Генерация слишком долгая. Так что пока рано говорить об практическом использование. Но это начало. Завтра все доработают.
1. stas-clear Автор
  06.10.2025 14:20
  #28926120
  Ну на демо наверно будет долгая, а как иначе. Это же тестовый сервер. На компе должно работать быстрее.

StasTukalo
06.10.2025 14:20
#28926494
Для более продвинутого использования доступен Python API, который позволяет интегрировать модель в свои приложения:

313 староват чтоле?..

C:\python313>pip install neutts_air
ERROR: Could not find a version that satisfies the requirement neutts_air (from versions: none)
ERROR: No matching distribution found for neutts_air
1. stas-clear Автор
  06.10.2025 14:20
  #28927732
  Пакета в PyPI нет, устанавливать нужно через GitHub прямое клонирование репозитория.
  
  Лучше использовать Python 3.10–3.12 (13-я ещё довольно новая, могут быть несовместимости).
  
  Установить зависимости из requirements.txt, проверить инструкции в репозитории.
  
  По вопросам совместимости смотреть issues по репозиторию и менять версию Python при необходимости.

Jury_78
06.10.2025 14:20
#28931330
Как то не понятно, чем например чем плох RHVoice ?
1. stas-clear Автор
  06.10.2025 14:20
  #28933526
  Тоже самое можно сказать, чем плох один браузер от другого )). Это всё зависит от потребностей. Возможно для кого то ничем, а для других больше подойдёт. Вопрос не корректный на мой взгляд.

NeuTTS Air: открытая модель синтеза речи, которая работает прямо на вашем устройстве +12

Что это такое и зачем нужно

Технические характеристики

Мгновенное клонирование голоса

Конфиденциальность и безопасность

Как начать использовать

Сравнение с облачными решениями

Ограничения и особенности

Практическое применение

Перспективы развития

Выводы

Полезные ссылки

Комментарии (9)

kurdlyplot

stas-clear Автор

2b3q

IgnatF

stas-clear Автор

StasTukalo

stas-clear Автор

Jury_78

stas-clear Автор