Авторы статьи: Кургузов Михаил и Гуза Владислава
Всем привет! Мы — сотрудники команды локализации и переводов, которые рассказывали вам про то, как мы брались за крупный проект по локализации обучающих видеороликов. Напомним, что нам прилетела следующая задача: в достаточно ограниченные сроки локализовать и озвучить аж более 600 обучающих видеороликов на узбекский язык. В предыдущей части речь шла про субтитрирование и локализацию сценариев видеороликов, теперь поговорим про великую и ужасную нейроозвучку. Мы решили сравнить два подхода: классическую работу с профессиональным диктором через агентство и нейроозвучку. Спойлер: результаты оказались неожиданными. Расскажем, как мы тестировали разные решения для синтеза речи, с какими проблемами столкнулись и почему в итоге выбрали именно нейросети. Поехали!
Озвучка текста
Перевод готов, теперь нужно подготовить и обновленную аудиодорожку. Ведь видео само себя не озвучит, да? В общем, озвучка у нас идет третьим этапом.
Когда мы получили задачу по локализации всех обучающих видео на узбекский, то начали продумывать, какие есть доступные варианты озвучки, ну и выбирать из известного треугольника «дешево-быстро-качественно».
В штате у нас, конечно же, специалиста с узбекским не оказалось, поэтому мы решили рассмотреть два возможных рабочих варианта:
аутсорс (озвучивание профессиональным диктором через агентство, то есть дорого, богато, по классике),
нейроозвучка (потому что на дворе 2024 год, ну и мы должны это попробовать).
К тому моменту у нас уже были инструменты и нужные скиллы для подобных работ, правда, опыт работы был только с русским, английским и китайским языками. По итогу нужно было сравнить человека-диктора с бездушной озвучивающей машиной. Обратились в агентство, параллельно попробовали все провернуть через специальные утилиты для нейроозвучки.
Но тут возвращаемся снова к недостатку специалистов с нужным языком в штате. По итогу обратились к нашим внешним подрядчикам, чтобы они могли сравнить оба варианта видеороликов и проверить, какой из них получился лучше.

Итак, прежде чем раскрывать все карты и объявлять победителя в столь эпичной схватке, давайте сделаем небольшой клиффхэнгер. В частности, расскажем подробнее о том, чем же так хорошо наше ПО для синтеза голосов и озвучки печатного текста. Долго думали над завуалированным названием, выбирали из вариантов Speakotron и Vocalizer 3000, но давайте выберем нейтральное условное VoiceCraft_1.
VoiceCraft_1 позволяет не только озвучивать текст, но и кастомизировать этот процесс, что особенно важно в нашей работе:
1. Мультиязычная поддержка
Система предоставляет 42 голоса (неспроста, наверное, это как ответ на главный вопрос вселенной) на разных языках, что полностью покрывает наши потребности в локализации контента. Такой выбор позволяет подобрать оптимальный вариант для каждого проекта.
2. Разнообразие дикторов
Для каждого языка доступны мужские, женские и детские голоса (обычно 10–20 вариантов на язык). Это помогает решить важную проблему однообразия — мы можем выбрать нужный голос под конкретную задачу, проект, видеоролик с нужными темпами, интонациями и так далее.
3. Гибкость настроек
Программа позволяет обеспечить точную настройку параметров речи: отрегулировать скорость озвучки, расставить смысловые ударения, добавить паузы нужной длительности. Эдакий IDE, только для голосов, где все можно настроить с точностью создания билда в Baldur's Gate 3.
Так выглядит интерфейс программы. Все интуитивно просто: выбор языка, список спикеров, поле для ввода текста, управляющие кнопки.

4. Персональные глоссарии
Особенно ценная функция — возможность создавать глоссарии с произношениями для каждого диктора. Это очень важно для работы со сложными терминами и иностранными словами, которые требуют особого внимания.
Так выглядит наш глоссарий: слева — как слово пишется в тексте, справа — как мы его «переписали», чтобы было корректное звучание.

Приведем пример из практики: в нашем проекте русскоязычный диктор испытывал трудности с английской фразой «My Seasons», по итогу звучал он как NPC из S.T.A.L.K.E.R., впервые столкнувшийся с англицизмами. После ряда экспериментов мы нашли оптимальную «формулу»: май-siзэн'с.

Поскольку эта фраза встречалась в материалах достаточно часто, функция глоссария стала для нас настоящим спасением — достаточно было один раз добавить правило, и система автоматически применяла его во всех последующих случаях.
В итоге можем видеть, что VoiceCraft_1 — это не просто «робот начитал», а система, предоставляющая достаточно гибкости для настройки под различные задачи, хотя может потребоваться определенное время на освоение всего спектра параметров..
Авансом можем сказать, что по итогу время подготовки озвучки для одного ролика у нас сократилось с примерно 6-8 часов при работе через дикторов/агентства (сюда входят еще и такие классные-прекрасные этапы рабочего процесса типа ожидания, правок, пересылки файлов, так что часы могут спокойно вырасти в пару раз и более) до 2-2.5 часов для сложных языков типа узбекского и 1-1.5 часов для английского и китайского. По стоимости тоже все стало лучше: минута нейроозвучки стоит в среднем в десятки раз дешевле минуты дикторской начитки. Выгода очевидна.
Предварительно еще давайте поговорим о том, на какие моменты мы обращали внимание при тестировании нейроозвучки. Конечно же, определенную роль играет субъективное восприятие (тот же тембр), однако есть и ряд объективных факторов оценки:
четкость речи
интонации
темп речи
искажения или «проглатывания» звуков или целых слов
монотонность речи (чем меньше робот похож на, собственно, робота — тем лучше)
работа с паузами
корректность использования ударений
отсутствие различных артефактов типа (различные шумы, шипение, щелчки и т.д.)
Перед тем как окончательно перейти на VoiceCraft_1, мы устроили кастинг других ПО для создания озвучки. Ниже можно подробнее посмотреть, в чем разница между инструментами, ну и почему же мы таки остановились именно на VoiceCraft_1.
Параметр сравнения |
VoiceCraft_1 |
VoiceCraft_2 |
VoiceCraft_3 |
Широта выбора языков |
42 языка |
6 языков |
52 языка |
Тарификация |
За выгруженные итоговые аудиофайлы — поминутная тарификация. |
За каждый синтезированный фрагмент (в том числе за каждое переслушивание в случае правок). |
В оплату лицензии включен 1 млн знаков ежемесячно, включая теги. Соответственно, каждая корректировка и/или изменение тегов — дополнительная трата символов. |
Наличие пользовательского приложения для работы |
Да |
Нет, нужно разрабатывать своими силами, ну или же лезть на Хабр Карьеру. |
Да |
Наличие всех рабочих языков |
Да |
Нет китайского, только 1 англоязычный голос. |
Да |
Качество имеющихся голосов |
На всех языках есть несколько голосов, которые подходят для целей озвучки обучающих материалов по стилю и общей интонации, скорости речи и качеству озвучивания. По сути, всегда есть план Б в случае, если какой-то из голосов временно упадет. |
Неудовлетворительное качество голосов — слышна роботизированная озвучка, требуется много правок для настройки корректного звучания. Иногда звучало как привет из 90-х. |
Низкое качество русских голосов. |
Доступность ПО всем членам команды |
Да, установка ПО на ПК дополнительно не оплачивается, оплачиваются только выгруженные минуты — для удобства можно установить ПО всей команде и каждый может пользоваться в случае необходимости, это не стоит дополнительных средств. Так что масштабирование команды у вас пройдет максимально безболезненно. |
Нет пользовательского ПО. |
На данный момент в команде есть 2 лицензии, а озвучку выполняют все разработчики в команде (13 человек) — невозможно обеспечить всех сотрудников инструментом озвучки. Так что кто раньше встал, того и тапки. |
В общем, VoiceCraft_1 оказался оптимальным решением для наших задач благодаря широкому набору голосов и приемлемому качеству озвучки при разумной стоимости.
Да, у VoiceCraft_3 выбор языков шире (+10 языков), но тут учитываем, что для наших текущих проектов и планов в обозримом будущем за глаза хватает и того набора, который доступен через VoiceCraft_1.
Еще VoiceCraft_1 крайне лоялен с точки зрения тарификации. У VoiceCraft_1 оплачиватеся только итоговый выгруженный фрагмент, в то время как у VoiceCraft_2 и VoiceCraft_3 оплачивается уже каждый синтезированный фрагмент, поэтому работа с правками превращается в несказанное и достаточно дорогое развлечение. А, ну и лицензии, с VoiceCraft_1 не нужно опрашивать весь рабочий чатик на предмет того, кому лицензия сейчас нужна/не нужна — поставили на столько ПК, сколько у вас сотрудников в команде. Очень удобно!

Теперь вернемся к анализу качества озвучки роботом и реальным человеком.
После того как мы попросили диктора из агентства озвучить несколько роликов и попробовали обработать эти же ролики с помощью нашего любимого VoiceCraft_1, мы получили следующие результаты:
Профессиональный диктор |
Нейроозвучка |
Стабильность голоса | |
|
Начиная проект, нужно назначить человека на роль «голоса проекта». Работы по озвучке будут строиться в соответствии с занятостью этого человека. Но по итогу попадаем в настоящий dependency hell. Болезнь, недоступность для заказов, отпуск — все эти факторы могут сильно повлиять на качество и сроки подготовки нужных нам материалов. То есть скорее всего придется либо искать замену, либо простаивать в ожидании, когда же наш любимый диктор станет снова доступным, либо же писать кучу писем с объяснениями, почему мы что-то не можем сделать #вотпрямсейчас и почему нам так нужен перенос сроков по проекту. |
У VoiceCraft_1 есть широкий выбор голосов. При этом, программой нейроозвучки может пользоваться любой, кто работает в нашей команде, и прошел базовое обучение — VoiceCraft_1 очень прост в использовании. То есть все наши сотрудники могут подменять друг друга, не тормозя рабочие процессы. Нейроозвучка гарантирует стабильное звучание и независимость от человеческого фактора. А еще она всегда в голосе, да и перекуры/перерывы ей не нужны :) Да, для художественной озвучки лучше подойдет работа живого диктора, но для наших целей вполне достаточно роботизированного артистизма голосов VoiceCraft_1. |
Правки озвучки | |
Правки озвученных роликов случаются нередко, так как информационные системы обновляются быстрее, чем прилетают баг-репорты после релиза, к счастью или к сожалению. Конечно же, это приводит к дополнительным сложностям. Если юзаем аутсорс, то каждая правка превращается в крайне увлекательный квест типа «напиши подрядчику → дождись ответа → подожди ещё чуть-чуть». Ну и наверняка будет слышна разница в отрывках, записанных в разное время, в одном куске вещает «молодой бодрый диктор», в другом — «уставший после отпуска сотрудник». Так что скорее всего нужно будет переделывать всю озвучку целиком, а не только ту, где были правки, что сложнее, дольше, дороже, ну и в целом сильного энтузиазма в рабочие будни не привносит. |
С нейроозвучкой жизнь проще: нужно вставить новую фразу или изменить имеющуюся — добавил её за пару минут, и немаловажно, что это может сделать кто угодно в команде. А финальный результат звучит единообразно, без склеек, прыжков в качестве озвучки и прочего. |
Скорость озвучки | |
Когда работает профессиональный диктор, озвучка — это далеко не просто «сел и начитал за пять минут». Сначала идет своего рода предпродакшен, то есть нужно вычитать текст, расставить ударения, уточнить произношение различных слов и так далее. Учитывая, что при использовании аутсорса добавляется время на бюрократию — нужно заявку подать, согласовать, организовать. Скучать не приходится. Что касается непосредственно записи — тут тоже все не так просто. Во-первых, может не получиться записать идеально с первого раза. Во-вторых, полученную запись нужно отредактировать, потому что всякое бывает: тут чуть сбился, тут закашлялся, тут ударение съехало - все это нужно вычистить и причесать перед выкладкой ролика. |
Чтобы нейроозвучка не звучала как «робот утром понедельника», текст перед озвучкой нужно капитально подготовить. Предложения должны быть согласованы и построены по правилам грамматики и пунктуации. В процессе работы над озвучкой нужно корректировать интонацию, ударение, паузы, произношение некоторых слов. Итоговое время очень и очень зависит от языка. По нашему опыту, русский и узбекский языки — наиболее «капризные», с ними чаще всего могут возникать какие-либо сложности, иногда интонации и произношения там могут звучать так, будто движок пытается спидранить текст. Для роликов длительностью 3-5 минут понадобится примерно 2-3 часа работы. С английским и китайским ситуация другая — озвучка может получиться идеально с первого раза, корректировки минимальные, а на ролик все с той же длительностью в 3–5 минут уйдет уже всего лишь час–полтора. |
Стоимость | |
Минута живой озвучки била по бюджету так, как будто мы снимали «Игру престолов» с настоящими драконами: затраты на работу живого диктора превышали затраты на нейроозвучку в 50–150 раз. При условии, что качество последней нас более чем устраивало, звучало все это дело так, что можно было спокойно выкидывать результаты на прод, а не в «песочницу для своих». | |
Конечно же, не все было прям гладко. Давайте честно расскажем и о тех сложностях, с которыми мы столкнулись:
Акценты и интонации. Например, нейродиктор мог звучать так, как будто читает не самую понятную инструкцию по сборке мебели в состоянии легкой паники. Поэтому иногда приходилось тратить по 5-7 минут, чтобы подобрать правильные паузы и ударения.
Технические термины и англицизмы. Ооооо, это отдельный круг ада. Термины типа backend, frontend, deployment и прочие система пыталась прочитать ну вот прям максимально по-русски, что звучало комично. Поэтому приходилось готовить объемные глоссарии с транскрибацией нужных терминов.
Эмоциональная составляющая. Для нашего кейса это не было проблемой, но должны отдельно предупредить, что если вам нужна ирония, восторг или сомнение в озвучке — конечно же, живой диктор справится с этим значительно лучше.
Зависимость от качества исходного текста. Если вдруг в тексте пунктуационные и/или орфографические ошибки, или же предложения кривовато построены с точки зрения грамматики — нейросетка озвучит вот прям «как есть», а дальше фиксите все сами. Так что даже если вы не локализуете свои сценарии роликов (что подразумевает дополнительную вычитку текста редактором и корректором), то все равно закладывайте определенное время на предварительную проверку и обработку текста. Плюс к этому иногда требуется добавить запятые для добавления паузы или разбить предложение на несколько, также для расстановки пауз.
Доступность голосов. Не самый частый кейс, но тем не менее лучше быть готовым к подобному. Провайдер может убрать выбранный и активно используемый голос из предлагаемого списка по различным причинам, ну и тогда история с правками становится чуть менее радужной.
В итоге нейроозвучка по нашему мнению была оптимальным решением, и вот почему:
Экономия средств. Траты снизились на 50-150 раз по сравнению с услугами агентств, без каких бы то ни было потерь в качестве обучающего контента.
Трудозатраты. Среднее время подготовки видео снизилась с 6-8 часов до 2-3 — по итогу ощутимо ускоряем сроки производства локализованного контента.
Масштабируемость. Любой сотрудник может начать работать с утилитой после короткого обучения. Процесс мы можем масштабировать на всю команду без дополнительных лицензионных затрат.
Гибкость. Правки вносятся самостоятельно и оперативно, без обсуждений и согласований с подрядчиками. Мы не зависим от дикторов, обеспечиваем стабильность звучания и независимость наших рабочих процессов.
Узбекская озвучка хоть и получалась вполне себе качественной, однако какие-то моменты все равно могли всплыть, например, неверное ударение или неправильно произнесенное слово. Нейронки нейронками, но даже человек иногда может ошибиться. Могли потребоваться дополнительные корректировки текста на таргет-языке, да и вышеупомянутые моменты может уловить только человек, владеющий языком, в идеале носитель. Поэтому было принято решение взять в штат специалиста со знанием узбекского языка, который бы выступал в роли QA для получаемых нами видеороликов.
На этом у нас все по нейроозвучке, в третьей части подробнее рассмотрим все преимущества нашего процесса, так что далеко не уходите!
А вы используете TTS-решения в своих проектах? Если да, то с какими подводными камнями сталкивались? Делитесь своим опытом в комментариях, будет очень интересно сравнить подходы и, возможно, узнать о каких-либо других инструментах, которые мы могли упустить из виду.
qiper
Ударения победили?