Авторы статьи: Кургузов Михаил и Гуза Владислава

Всем привет! Мы — сотрудники команды локализации и переводов, которые рассказывали вам про то, как мы брались за крупный проект по локализации обучающих видеороликов. Напомним, что нам прилетела следующая задача: в достаточно ограниченные сроки локализовать и озвучить аж более 600 обучающих видеороликов на узбекский язык. В предыдущей части речь шла про субтитрирование и локализацию сценариев видеороликов, теперь поговорим про великую и ужасную нейроозвучку. Мы решили сравнить два подхода: классическую работу с профессиональным диктором через агентство и нейроозвучку. Спойлер: результаты оказались неожиданными. Расскажем, как мы тестировали разные решения для синтеза речи, с какими проблемами столкнулись и почему в итоге выбрали именно нейросети. Поехали!

Озвучка текста

Перевод готов, теперь нужно подготовить и обновленную аудиодорожку. Ведь видео само себя не озвучит, да? В общем, озвучка у нас идет третьим этапом.

Когда мы получили задачу по локализации всех обучающих видео на узбекский, то начали продумывать, какие есть доступные варианты озвучки, ну и выбирать из известного треугольника «дешево-быстро-качественно».

В штате у нас, конечно же, специалиста с узбекским не оказалось, поэтому мы решили рассмотреть два возможных рабочих варианта:

  • аутсорс (озвучивание профессиональным диктором через агентство, то есть дорого, богато, по классике),

  • нейроозвучка (потому что на дворе 2024 год, ну и мы должны это попробовать).

К тому моменту у нас уже были инструменты и нужные скиллы для подобных работ, правда, опыт работы был только с русским, английским и китайским языками. По итогу нужно было сравнить человека-диктора с бездушной озвучивающей машиной. Обратились в агентство, параллельно попробовали все провернуть через специальные утилиты для нейроозвучки.

Но тут возвращаемся снова к недостатку специалистов с нужным языком в штате. По итогу обратились к нашим внешним подрядчикам, чтобы они могли сравнить оба варианта видеороликов и проверить, какой из них получился лучше. 

Итак, прежде чем раскрывать все карты и объявлять победителя в столь эпичной схватке, давайте сделаем небольшой клиффхэнгер. В частности, расскажем подробнее о том, чем же так хорошо наше ПО для синтеза голосов и озвучки печатного текста. Долго думали над завуалированным названием, выбирали из вариантов Speakotron и Vocalizer 3000, но давайте выберем нейтральное условное VoiceCraft_1.

VoiceCraft_1 позволяет не только озвучивать текст, но и кастомизировать этот процесс, что особенно важно в нашей работе:

1. Мультиязычная поддержка

Система предоставляет 42 голоса (неспроста, наверное, это как ответ на главный вопрос вселенной) на разных языках, что полностью покрывает наши потребности в локализации контента. Такой выбор позволяет подобрать оптимальный вариант для каждого проекта.

2. Разнообразие дикторов

Для каждого языка доступны мужские, женские и детские голоса (обычно 10–20 вариантов на язык). Это помогает решить важную проблему однообразия — мы можем выбрать нужный голос под конкретную задачу, проект, видеоролик с нужными темпами, интонациями и так далее.

3. Гибкость настроек

Программа позволяет обеспечить точную настройку параметров речи: отрегулировать скорость озвучки, расставить смысловые ударения, добавить паузы нужной длительности. Эдакий IDE, только для голосов, где все можно настроить с точностью создания билда в Baldur's Gate 3.

Так выглядит интерфейс программы. Все интуитивно просто: выбор языка, список спикеров, поле для ввода текста, управляющие кнопки.

4. Персональные глоссарии

Особенно ценная функция — возможность создавать глоссарии с произношениями для каждого диктора. Это очень важно для работы со сложными терминами и иностранными словами, которые требуют особого внимания.

Так выглядит наш глоссарий: слева — как слово пишется в тексте, справа — как мы его «переписали», чтобы было корректное звучание.

Приведем пример из практики: в нашем проекте русскоязычный диктор испытывал трудности с английской фразой «My Seasons», по итогу звучал он как NPC из S.T.A.L.K.E.R., впервые столкнувшийся с англицизмами. После ряда экспериментов мы нашли оптимальную «формулу»: май-siзэн'с.

Поскольку эта фраза встречалась в материалах достаточно часто, функция глоссария стала для нас настоящим спасением — достаточно было один раз добавить правило, и система автоматически применяла его во всех последующих случаях.

В итоге можем видеть, что VoiceCraft_1 — это не просто «робот начитал», а система, предоставляющая достаточно гибкости для настройки под различные задачи, хотя может потребоваться определенное время на освоение всего спектра параметров.. 

Авансом можем сказать, что по итогу время подготовки озвучки для одного ролика у нас сократилось с примерно 6-8 часов при работе через дикторов/агентства (сюда входят еще и такие классные-прекрасные этапы рабочего процесса типа ожидания, правок, пересылки файлов, так что часы могут спокойно вырасти в пару раз и более) до 2-2.5 часов для сложных языков типа узбекского и 1-1.5 часов для английского и китайского. По стоимости тоже все стало лучше: минута нейроозвучки стоит в среднем в десятки раз дешевле минуты дикторской начитки. Выгода очевидна.

Предварительно еще давайте поговорим о том, на какие моменты мы обращали внимание при тестировании нейроозвучки. Конечно же, определенную роль играет субъективное восприятие (тот же тембр), однако есть и ряд объективных факторов оценки: 

  • четкость речи

  • интонации

  • темп речи

  • искажения или «проглатывания» звуков или целых слов

  • монотонность речи (чем меньше робот похож на, собственно, робота — тем лучше)

  • работа с паузами

  • корректность использования ударений

  • отсутствие различных артефактов типа (различные шумы, шипение, щелчки и т.д.)

Перед тем как окончательно перейти на VoiceCraft_1, мы устроили кастинг других ПО для создания озвучки. Ниже можно подробнее посмотреть, в чем разница между инструментами, ну и почему же мы таки остановились именно на VoiceCraft_1.

Параметр сравнения

VoiceCraft_1

VoiceCraft_2

VoiceCraft_3

Широта выбора языков

42 языка

6 языков

52 языка

Тарификация

За выгруженные итоговые аудиофайлы — поминутная тарификация.

За каждый синтезированный фрагмент (в том числе за каждое переслушивание в случае правок).

В оплату лицензии включен 1 млн знаков  ежемесячно, включая теги. Соответственно, каждая корректировка и/или изменение тегов — дополнительная трата символов.

Наличие пользовательского приложения для работы

Да

Нет, нужно разрабатывать своими силами, ну или же лезть на Хабр Карьеру.

Да

Наличие всех рабочих языков

Да

Нет китайского,

только 1 англоязычный голос.

Да

Качество имеющихся голосов

На всех языках есть несколько голосов, которые подходят для целей озвучки обучающих материалов по стилю и общей интонации, скорости речи и качеству озвучивания.

По сути, всегда есть план Б в случае, если какой-то из голосов временно упадет.

Неудовлетворительное качество голосов — слышна роботизированная озвучка, требуется много правок для настройки корректного звучания. Иногда звучало как привет из 90-х.

Низкое качество русских голосов.

Доступность ПО всем членам команды

Да, установка ПО на ПК дополнительно не оплачивается, оплачиваются только выгруженные минуты — для удобства можно установить ПО всей команде и каждый может пользоваться в случае необходимости, это не стоит дополнительных средств. Так что масштабирование команды у вас пройдет максимально безболезненно.

Нет пользовательского ПО.

На данный момент в команде есть 2 лицензии, а озвучку выполняют все разработчики в команде (13 человек) — невозможно обеспечить всех сотрудников инструментом озвучки. Так что кто раньше встал, того и тапки.

В общем, VoiceCraft_1 оказался оптимальным решением для наших задач благодаря широкому набору голосов и приемлемому качеству озвучки при разумной стоимости.

Да, у VoiceCraft_3 выбор языков шире (+10 языков), но тут учитываем, что для наших текущих проектов и планов в обозримом будущем за глаза хватает и того набора, который доступен через VoiceCraft_1.

Еще VoiceCraft_1 крайне лоялен с точки зрения тарификации. У VoiceCraft_1 оплачиватеся только итоговый выгруженный фрагмент, в то время как у VoiceCraft_2 и VoiceCraft_3 оплачивается уже каждый синтезированный фрагмент, поэтому работа с правками превращается в несказанное и достаточно дорогое развлечение. А, ну и лицензии, с VoiceCraft_1 не нужно опрашивать весь рабочий чатик на предмет того, кому лицензия сейчас нужна/не нужна —  поставили на столько ПК, сколько у вас сотрудников в команде. Очень удобно!

Теперь вернемся к анализу качества озвучки роботом и реальным человеком.

После того как мы попросили диктора из агентства озвучить несколько роликов и попробовали обработать эти же ролики с помощью нашего любимого VoiceCraft_1, мы получили следующие результаты:

Профессиональный диктор

Нейроозвучка

Стабильность голоса

Начиная проект, нужно назначить человека на роль «голоса проекта». Работы по озвучке будут строиться в соответствии с занятостью этого человека.

Но по итогу попадаем в настоящий dependency hell. Болезнь, недоступность для заказов, отпуск — все эти факторы могут сильно повлиять на качество и сроки подготовки нужных нам материалов. То есть скорее всего придется либо искать замену, либо простаивать в ожидании, когда же наш любимый диктор станет снова доступным, либо же писать кучу писем с объяснениями, почему мы что-то не можем сделать #вотпрямсейчас и почему нам так нужен перенос сроков по проекту.

У VoiceCraft_1 есть широкий выбор голосов. При этом, программой нейроозвучки может пользоваться любой, кто работает в нашей команде, и прошел базовое обучение — VoiceCraft_1 очень прост в использовании. То есть все наши сотрудники могут подменять друг друга, не тормозя рабочие процессы.

Нейроозвучка гарантирует стабильное звучание и независимость от человеческого фактора. А еще она всегда в голосе, да и перекуры/перерывы ей не нужны :)

Да, для художественной озвучки лучше подойдет работа живого диктора, но для наших целей вполне достаточно роботизированного артистизма голосов VoiceCraft_1.

Правки озвучки

Правки озвученных роликов случаются нередко, так как информационные системы обновляются быстрее, чем прилетают баг-репорты после релиза, к счастью или к сожалению. Конечно же, это приводит к дополнительным сложностям. Если юзаем аутсорс, то каждая правка превращается в крайне увлекательный квест типа «напиши подрядчику → дождись ответа → подожди ещё чуть-чуть». Ну и наверняка будет слышна разница в отрывках, записанных в разное время, в одном куске вещает «молодой бодрый диктор», в другом — «уставший после отпуска сотрудник». Так что скорее всего нужно будет переделывать всю озвучку целиком, а не только ту, где были правки, что сложнее, дольше, дороже, ну и в целом сильного энтузиазма в рабочие будни не привносит.

С нейроозвучкой жизнь проще: нужно вставить новую фразу или изменить имеющуюся — добавил её за пару минут, и немаловажно, что это может сделать кто угодно в команде. А финальный результат звучит единообразно, без склеек, прыжков в качестве озвучки и прочего.

Скорость озвучки

Когда работает профессиональный диктор, озвучка — это далеко не просто «сел и начитал за пять минут». Сначала идет своего рода предпродакшен, то есть нужно вычитать текст, расставить ударения, уточнить произношение различных слов и так далее. Учитывая, что при использовании аутсорса добавляется время на бюрократию — нужно заявку подать, согласовать, организовать. Скучать не приходится. Что касается непосредственно записи — тут тоже все не так просто. Во-первых, может не получиться записать идеально с первого раза. Во-вторых,  полученную запись нужно отредактировать, потому что всякое бывает: тут чуть сбился, тут закашлялся, тут ударение съехало - все это нужно вычистить и причесать перед выкладкой ролика.

Чтобы нейроозвучка не звучала как «робот утром понедельника», текст перед озвучкой нужно капитально подготовить. 

Предложения должны быть согласованы и построены по правилам грамматики и пунктуации. В процессе работы над озвучкой нужно корректировать интонацию, ударение, паузы, произношение некоторых слов.

Итоговое время очень и очень зависит от языка. По нашему опыту, русский и узбекский языки — наиболее «капризные», с ними чаще всего могут возникать какие-либо сложности, иногда интонации и произношения там могут звучать так, будто движок пытается спидранить текст. Для роликов длительностью 3-5 минут понадобится примерно 2-3 часа работы. С английским и китайским ситуация другая — озвучка может получиться идеально с первого раза, корректировки минимальные, а на ролик все с той же длительностью в 3–5 минут уйдет уже всего лишь час–полтора.

Стоимость

Минута живой озвучки била по бюджету так, как будто мы снимали «Игру престолов» с настоящими драконами: затраты на работу живого диктора превышали затраты на нейроозвучку в 50–150 раз. При условии, что качество последней нас более чем устраивало, звучало все это дело так, что можно было спокойно выкидывать результаты на прод, а не в «песочницу для своих».

Конечно же, не все было прям гладко. Давайте честно расскажем и о тех сложностях, с которыми мы столкнулись:

  1. Акценты и интонации. Например, нейродиктор мог звучать так, как будто читает не самую понятную инструкцию по сборке мебели в состоянии легкой паники. Поэтому иногда приходилось тратить по 5-7 минут, чтобы подобрать правильные паузы и ударения.

  2. Технические термины и англицизмы. Ооооо, это отдельный круг ада. Термины типа backend, frontend, deployment и прочие система пыталась прочитать ну вот прям максимально по-русски, что звучало комично. Поэтому приходилось готовить объемные глоссарии с транскрибацией нужных терминов. 

  3. Эмоциональная составляющая. Для нашего кейса это не было проблемой, но должны отдельно предупредить, что если вам нужна ирония, восторг или сомнение в озвучке — конечно же, живой диктор справится с этим значительно лучше.

  4. Зависимость от качества исходного текста. Если вдруг в тексте пунктуационные и/или орфографические ошибки, или же предложения кривовато построены с точки зрения грамматики — нейросетка озвучит вот прям «как есть», а дальше фиксите все сами. Так что даже если вы не локализуете свои сценарии роликов (что подразумевает дополнительную вычитку текста редактором и корректором), то все равно закладывайте определенное время на предварительную проверку и обработку текста. Плюс к этому иногда требуется добавить запятые для добавления паузы или разбить предложение на несколько, также для расстановки пауз.

  5. Доступность голосов. Не самый частый кейс, но тем не менее лучше быть готовым к подобному. Провайдер может убрать выбранный и активно используемый голос из предлагаемого списка по различным причинам, ну и тогда история с правками становится чуть менее радужной.

В итоге нейроозвучка по нашему мнению была оптимальным решением, и вот почему:

  1. Экономия средств. Траты снизились на 50-150 раз по сравнению с услугами агентств, без каких бы то ни было потерь в качестве обучающего контента.

  2. Трудозатраты. Среднее время подготовки видео снизилась с 6-8 часов до 2-3 — по итогу ощутимо ускоряем сроки производства локализованного контента.

  3. Масштабируемость. Любой сотрудник может начать работать с утилитой после короткого обучения. Процесс мы можем масштабировать на всю команду без дополнительных лицензионных затрат.

  4. Гибкость. Правки вносятся самостоятельно и оперативно, без обсуждений и согласований с подрядчиками. Мы не зависим от дикторов, обеспечиваем стабильность звучания и независимость наших рабочих процессов.

Узбекская озвучка хоть и получалась вполне себе качественной, однако какие-то моменты все равно могли всплыть, например, неверное ударение или неправильно произнесенное слово. Нейронки нейронками, но даже человек иногда может ошибиться. Могли потребоваться дополнительные корректировки текста на таргет-языке, да и вышеупомянутые моменты может уловить только человек, владеющий языком, в идеале носитель. Поэтому было принято решение взять в штат специалиста со знанием узбекского языка, который бы выступал в роли QA для получаемых нами видеороликов.

На этом у нас все по нейроозвучке, в третьей части подробнее рассмотрим все преимущества нашего процесса, так что далеко не уходите!

А вы используете TTS-решения в своих проектах? Если да, то с какими подводными камнями сталкивались? Делитесь своим опытом в комментариях, будет очень интересно сравнить подходы и, возможно, узнать о каких-либо других инструментах, которые мы могли упустить из виду.

Комментарии (1)


  1. qiper
    18.11.2025 22:19

    Ударения победили?