Голоса в компьютере: игры начинают петь / forpes.ru

Главная
Голоса в компьютере: игры начинают петь

Голоса в компьютере: игры начинают петь +59

23.02.2026 09:01

shiru8bit 27 11000 Источник

Продолжаем вспоминать технологические чудеса в области звука в компьютерных играх — обыденные ныне вещи, первая встреча с которыми в нашей жизни некогда поразила воображение тем, что такое в принципе возможно.

В прошлый раз я рассказал историю появления речи в играх, когда молчаливый прежде компьютер вдруг заговорил человеческим голосом. Чем же ещё он мог бы удивить после такого финта? Есть чем! Ведь круче разговаривающего компьютера может быть только компьютер поющий.

Сегодня поговорим о следующем эволюционном шаге после синтеза человеческой речи: вокальные партии в игровой музыке. Речь пойдёт про уже почти настоящие песни, доносящиеся из компьютера, специально созданные для компьютерных игр. Выясним, когда и как это стало возможным, и как развивалась история вопроса от древнейших времён до начала эпохи мультимедиа и CD-ROM.

Снова история

Внимание, спойлеры! В знаменитом кинофильме 1968 года «Космическая одиссея 2001 года» Стэнли Кубрика теряющий в процессе постепенного отключения разум бортовой компьютер HAL 9000 начинает петь песню «Дэйзи, Дэйзи». Хотя в фильме вокальный номер исполнил нормальный человеческий Дуглас Рэйн, этот фантастический эпизод вдохновлён суровой реальностью. В 1961 году в застенках Bell Labs автор сценария фильма и по совместительству популярный писатель-фантаст Артур Кларк увидел демонстрацию компьютера IBM 7090, поющего эту песню с помощью системы синтеза голоса.

Это впечатляющее историческое достижение было реализовано путём полностью программного моделирования вокального тракта по принципу «вокодера» — комбинации из генератора тона или шума и набора формантных фильтров, формирующих элементы звучания человеческой речи. В отличие от прочих подобных экспериментов, специального оборудования для синтеза не требовалось. Программа была разработана Джоном Ларри Келли-младшим, Луисом Герстманом и Кэрол Локбаум на Фортране, а запрограммированная вручную мелодия хранилась на перфоленте или перфокартах.

Компьютер IBM 7090 в NASA в 1961 году. Всё это — один компьютер. Фото из Википедии

Сам компьютер образца 1959 года представлял собой полностью транзисторную версию более раннего тёплого лампового IBM 709, обладал памятью объёмом до 32768 36-разрядных слов и быстродействием порядка 100–200 тысяч операций с плавающей точкой в секунду — в шесть раз быстрее своего прародителя. Цифровой звук преобразовывался в аналоговую форму устройством, именуемым Digital to Analog Transducer, то есть сокращённо DAT, а не привычный нам сейчас DAC. Впрочем, по сути это одно и то же.

Хотя именно «Дейзи» вошла в массовую культуру, помимо неё на IBM 7090 было создано 18 композиций, инструментальных и вокальных, изданных на виниловой пластинке в 1960 году под названием Music From Mathematics.

Подобные примитивные синтетические звуки надолго оставались лишь предметом интереса лысеющих академиков в стенах лабораторий, не имея практического применения, пока в конце 1970-х годов развитие микроэлектроники не привело к рождению индустрии электронных развлечений, а затем и видеоигр. Там-то эти невостребованные космические технологии и пришлись ко двору.

Звуковые чипы AY-3-8910, AY-3-8912, MOS 6581 SID и YM2612. Фото из Интернета

Самые первые видеоигры не обладали никакими звуками вовсе, или самыми базовыми звуковыми сигналами. Но очень скоро простенькие синтетические мелодии, отдалённо напоминающие творения, созданные на IBM 7090, зазвучали в аркадных залах и домах игровых энтузиастов — теперь уже воспроизводимые не огромным суперкомпьютером, а маленьким микрочипом.

По историческим и экономическим причинам игровая музыка в своей массе долгое время оставалась чисто инструментальной — в роли музыкального инструмента применялся примитивный цифровой звуковой синтезатор, способный формировать простейшие тембры, а объёмы игровых носителей составляли поначалу единицы, и позже от десятка до пары сотен килобайт. Тем не менее, уже в самом начале 1980-х годов начались попытки добавлять в игры голосовые сообщения, о чём я подробно рассказывал в первой части этого мини-цикла.

Но не пиликанием и фразами едиными. Принципиальная возможность уже существовала, и когда видеоигровая техническая база возмужала и достаточно накачала свою полупроводниковую бицуху, начались эксперименты с добавлением к игровой музыке вокальных партий, с человеческим голосом и словами. Случилось это с ростом объёмов памяти и появлением более-менее развитых аркадных автоматов, а также первых домашних 16-битных машин.

Технолоджия

Технологии, применявшиеся для реализации игровых песнопений раннего периода, в своей основе совпадают: цифровые записи фрагментов вокальных партий, воспроизводимые в комбинации с синтезированными инструментами музыкального сопровождения. Отличаются детали реализации, главным образом способ хранения звуковых данных.

Как минимум однажды в истории в условиях ограниченных ресурсов памяти применялся LPC-синтез, подобный по звучанию той самой IBM-овской «Дейзи». Но так как эпоха пения началась уже в середине 1980-х, компьютерные системы вскоре обзавелись достаточным количеством памяти, и всё чаще стали рассчитывать на цифровые записи реального голоса в форматах PCM и ADPCM.

Когда же эпоха мультимедиа окончательно наступила, всё разнообразие решений свелось к потоковому аудио, воспроизводимому с компакт-диска в формате CD-DA или опять же в ADPCM. В этот период вместо технической составляющей начала развиваться художественная сторона вопроса — произошёл переход от довольно любительских попыток создать песни с вокалом к профессиональному исполнению и лицензированным композициям.

Сегодня мы обратим наше внимание именно на первую категорию технических решений, на самые первые шаги в этом направлении, обладающие разнообразием в практических реализациях.

Что интересно, развитие темы шло параллельно как на аркадных автоматах, где могли применяться новейшие специализированные технические решения, так и на домашних компьютерах, и даже на игровых консолях, обладающих куда более скромными возможностями. А попытки как-то связать игры с популярной музыкой и традиционными песенными формами, можно найти и раньше, чем начинается основная история.

В 1983 году компания Bally Midway выпустила аркадную игру Journey. Это был весьма необычный проект: аркада посвящалась одноимённой знаменитой рок-группе, находящейся в то время на пике славы, и предназначалась для продвижения её тура по стране. В пяти уровнях игры можно поиграть за каждого из участников группы, представленных своими чёрно-белыми пиксельными фотографиями, которым нужно каждому добраться до своего музыкального инструмента.

Внутри аркады Journey. Справа виден пыльный кассетник. Фото из Интернета

В финальном шестом уровне игрок защищает сцену от кражи инструментов фанатами, и именно на нём звучит отрывок одного из главных хитов группы, «Separate Ways», в полноценном исполнении реальными инструментами и с вокальной партией. Однако, воспроизводится он не цифровым способом, а в традиционном аналоговом формате, с помощью самого обычного кассетного магнитофона, скрытого внутри автомата.

В следующем 1984 году вышла другая крайне необычная игра Deus Ex Machine для домашнего компьютера ZX Spectrum. В ней игрок должен был запускать синхронно с игрой аудиокассету, которая содержала целую оперу, сопровождающую весьма психоделический игровой процесс. Крайне примечательный эксперимент, с которым стоит ознакомиться, и весомый аргумент в копилку тем, кто считает, что видеоигры — это форма искусства.

Хотя оба этих примера весьма занимательны, в рамках данного исследования нас всё же больше интересуют вокальные партии, воспроизводимые самим компьютерным устройством в цифровой форме, а не обычным магнитофоном. К слову, уже в этих двух примерах можно проследить разделение на категории лицензируемой и оригинальной музыки. Оно наметилось с самого начала, и как можно будет увидеть далее, сохранялось во все времена и до нынешних дней.

Далее наша ретроспектива превращается в длинный перечень игр с годами выпуска, где в той или иной форме были реализованы вокальные партии. Я остановился на самых интересных примерах, либо наиболее запомнившихся игрокам, либо обладающих особенными качествами, про которые можно сказать хотя бы пару слов, помимо обозначения факта наличия голоса в музыке: ранний пример, особенная технология, необычный источник материала, и так далее.

А чтобы во всём этом была хоть какая-то структура, я решил также сгруппировать примеры и истории по трём категориям: аркадные автоматы, домашние компьютеры и игровые приставки.

Аркады

Будучи сугубо коммерческой техникой, подобно грузовому транспорту, днями напролёт зарабатывающей деньги, аркадные автоматы могли позволить себе многое: быть очень дорогостоящими, иметь многочисленные микропроцессоры, непозволительно большие по меркам домашних платформ объёмы памяти и любое дополнительное железо. Неудивительно, что именно на этом передовом крае развлекательной науки и техники были достигнуты самые первые впечатляющие результаты, и аркады долго сохраняли лидерство в этой области.

Вероятно, самый ранний пример вокала в видеоигре заходит с козыря, прямо-таки врывается с ноги. В спортивной баскетбольной игре Double Dribble (1986, Konami) звучит композиция «The Star-Spangled Banner» — национальный гимн США!

Исполнена она явно непрофессиональным голосом, под не особо стройный и довольно примитивный аккомпанемент звукового чипа FM-синтезатора YM2203. Голос закодирован единым длинным сэмплом в LPC, что также придаёт ему синтетический оттенок. Всё это лишь добавляет олдскульного шарма.

Звуковыми чипами управляет отдельный процессор Motorola MC68B09, один из трёх в автомате. В качестве микросхемы LPC-декодера используется Sanyo VLM5030. Она кодирует голос 48-битными пакетами с длительностью пакетов 20 миллисекунд, то есть поток данных составляет 300 байт в секунду. Объём масочного ПЗУ, содержащего голосовые данные, составляет один мегабит (128 килобайт), что позволило хранить 7 минут звука — помимо гимна, в игре много других голосовых сообщений.

Следующий пример, Psycho Soldier (1987, SNK), демонстрирует уже более профессиональный подход к снаряду. В этой игре присутствует специально сочинённая и записанная заглавная песня, звучащая сродни анимешным опенингам. Также здесь впервые в истории произошло разделение на две версии: существует версия автомата с вокальной партией на японском и английском языке. Традиция такого разделения впоследствии перекочует на консоли пятого поколения и сохранится в играх на многие годы.

Этот автомат также содержит три микропроцессора, на этот раз Zilog Z80. Версия для Psycho Soldier содержит два звуковых чипа: YM3526 и Y8950. Оба этих чипа являются идентичными 9-канальными FM-синтезаторами, предками OPL2 из Adlib. Но второй чип отличается наличием поддержки одного канала ADPCM с возможностью прямой работы с внешней памятью.

Именно эта возможность Y8950 и задействована для реализации вокальной партии. Партия нарезана на фрагменты, запускаемые на фоне синтезированного FM-саундтрека в нужные моменты. Сэмплы закодированы в ADPCM с частотой дискретизации 16 килогерц и хранятся в отдельных четырёх 64-килобайтных ПЗУ на плате.

В последующих примерах технология остаётся примерно той же: чип синтезатора с поддержкой ADPCM плюс сэмплы вокальных партий. Аккомпанемент чаще формировался на основе засэмплированных инструментов. Объёмы ПЗУ со временем росли, повышая количество сэмплов и общее качество звучания музыки.

Следующий пример, игра Teenage Mutant Ninja Turtles: Turtles in Time (1991, Konami), переходит на территорию лицензированного контента. В игре про Черепашек-ниндзя на титульном экране звучит укороченная версия песни «Pizza Power».

Да, почему-то не знаменитая заглавная тема мультсериала, но этот трек также имел немалую популярность среди американских фанатов франшизы и имеет историю с налётом лёгкого безумия. Он был записан для студийного музыкального альбома «Coming Out of Their Shells» и исполнялся черепашками-ниндзя (людьми в костюмах) на живых выступлениях в их двухлетнем туре 1990-91 годов. Спонсировала это безумие сеть пиццерий Pizza Hut.

На этом Konami не успокоилась, и в малоизвестной, но крутой игре жанра «бей-их-всех» Violent Storm (1994), выходившей исключительно в формате аркады и никогда не переиздававшейся, можно услышать аж целых три оригинальные песни в различных музыкальных жанрах, звучащие непосредственно во время игрового процесса на разных уровнях игры. Треки даже имеют названия — «Who’ll Be The Hero», «Feel My Power» и «We Are Free». В титрах перечислены исполнители вокальных партий: Jeffrey, Junko, Mayumi.

Музыка в этой игре реализована в виде сэмплированных реальных инструментов, без применения FM-синтеза. Она синтезируется из сэмплированных фрагментов вокальных и инструментальных партий. Природу синтеза выдают партии электрогитары, иногда проявляющие нереалистичные обертона при звучании на высотах, отличающихся от засэмплированной ноты.

В том же году к делу подключилась Sega, и в одной из самых популярных аркад в истории, аркадной гонке Daytona USA, создала самый известный пример оригинальных видеоигровых песен, по уровню внедрению в голову сопоставимых с лучшими рекламными песенками, навеки въедающимися в мозг. Всего в игре звучит четыре песни: «Sky High», «Pounding Pavement» и «The King of Speed», и, конечно, самая меметичная «Let’s Go Away».

И хотя местный саундтрек звучит уже весьма убедительно, почти как настоящая полноценная аудиозапись, это всё ещё MIDI-подобная аранжировка, где голос также реализован в виде инструментов. Спойлерит это синтетическое вибрато в конце протяжённых фрагментов вокала, что придаёт звучанию треков особенный оттенок.

В играх-файтингах Killer Instinct (1994) и Killer Instinct 2 (1996), разработанных британской компанией Rare, также можно услышать пару оригинальных композиций с вокальными элементами, по одной песне в каждой. В несколько упрощённой форме они также звучат и в домашних версиях этих игр, для Super Nintendo и Nintendo 64 соответственно.

В обоих случаях это качающая евроденс-тема единственного женского персонажа игры, Орхид, звучащая на её локации. Лично мне эти треки очень сильно напоминают рекламу женской бритвы Gillette из 1990-х, где звучала композиция «Venus», и одновременно передают особый дух эпохи модной электронной танцевальной музыки тех лет.

Технически здесь мы уже вплотную приблизились к современному потоковому аудио. Декодированием звуковых данных здесь занимается так называемая «Digital Compression System» на базе DSP-чипа Analog Devices ADSP-2105, разработанная Williams Electronics и применявшаяся во многих аркадных играх и пинболах производства Williams, Bally и Midway.

Композиции записаны в виде полноценных заранее сведённых аудиодорожек и хранятся в ПЗУ в проприетарном сжатом формате, концептуально аналогичном MP3, но полностью оригинальном. В первой части Killer Instinct объём памяти, хранящей звуковые данные игры, которых тут очень много (вся музыка, голоса) составляет всего 4.5 мегабайт.

Наконец, завершает список примеров ещё одна файтинг-игра, довольно малоизвестная, но одновременно культовая — Waku Waku 7 (1996, Sunsoft), работающая на аркадной платформе Neo-Geo.

В этой типично анимешной игре на уровне типично анимешного персонажа, девушки-кролика Арины, звучит типично анимешная оригинальная композиция на японском языке, но с английским названием «The Excitement Never Stops».

Реализован музыкально-вокальный трек по классической схеме поздних игр на Neo-Geo: ADPCM-сэмплы, воспроизводимые местным чипом YM2610. Внушительное количество ПЗУ позволило реализовать хорошее качество звучания — игра имеет объём 35 мегабайт.

Компьютеры

Возможности домашних компьютеров долгое время были гораздо скромнее, чем у современных им аркадных машин. Зато они были не так ограничены в объёмах памяти, как приставки. Развитие идеи внедрения песен в игры как раз совпало по времени с началом широкого распространения гибких магнитных дисков на домашних компьютерах, и они вполне могли позволить себе потратить часть места на дискете на второстепенные вещи.

В области эффектного оформления игр на домашних компьютерах безоговорочно лидировала платформа Amiga. На момент своего появления в 1985 году она обладала довольно-таки прорывными техническими возможностями в области графики и звука, которые ещё долго догоняли остальные платформы. В том числе она первой обзавелась полностью цифровым синтезатором звука на основе сэмплов. Поэтому неудивительно, что именно на ней проводились первые «домашние» эксперименты с вокальными партиями.

Пожалуй, из всех платформ именно домашние компьютеры были ближе всего к народу, именно на них многие впервые сталкивались и с самими играми, и с различными нововведениями в них. И хотя Amiga продержалась на пике популярности не так уже долго, оставшись довольно нишевой платформой в исторической перспективе, как минимум один самый знаковый, известный практически всем и каждому, пример в области компьютерных песен она породила. Но не сразу.

Однако, начало положено было очень быстро. Уже в 1986 году, когда Double Dribble спел гимн США, компания Argonaut Software разработала трёхмерный космический шутер Star Glider для Amiga, а также Atari ST, ZX Spectrum и IBM PC. Это вторая игра компании, которая через несколько лет станет основой для их самой известной работы — Star Fox для Super Nintendo.

Версии для Амиги и Атари содержат специально записанный оригинальный 15-секундный рекламный джингл, в котором пропевается название игры и издателя — «Star Glider from Rainbird». С технической стороны вопроса это просто один большой сэмпл, в нём нет синтеза музыки, это не трекерный модуль. Тем не менее, это была уверенная первая ласточка, в своё время наверняка уронившая на пол немало челюстей.

Следующий заход на территорию около-вокальных упражнений произошёл в довольно популярной леталке-стрелялке Xenon 2: Megablast (1989) компании Bitmap Brothers. Одновременно это и пример взаимопроникновения медиа: в игре звучит воссозданная с помощью сэмплов версия реального музыкального хип-хоп трека 1988 года группы BOMB THE BASS — «Megablast». Собственно, название трека и дало подзаголовок игре. Сам трек не содержит пения как такового, скорее это разные фразы и вокализы, являющиеся частью аранжировки, но в годы выхода игры это звучало модно и молодёжно.

Практически идентичный случай приключился и с игрой Ooops Up (1990), разработанной Silicon Warriors. В этом эксклюзивном для Амиги простеньком клоне аркадного Pang также звучит воссозданный в трекерном формате хитовый хип-хоп трек 1990 года группы SNAP!, который называется так же, как сама игра — «Ooops Up». Художественная часть его также похожа: голосовые фразы, являющиеся частью аранжировки.

В 1991 году компания Bitmap Brothers вернулась к вопросу, и выкатила сразу три игры для Амиги, использующие лицензированные музыкальные композиции.

В игре Gods звучит трек группы Nation 12 — «Into The Wonderful» с макси-сингла 1991 года Electrofear. Он воссоздан из сэмплов, из пения в нём присутствует фраза с названием трека и вокализ этнического характера. Эту мелодию также можно услышать в версии для Atari ST. К сожалению, более известная версия для MS-DOS утратила этот яркий элемент оформления, задающий особую атмосферу игры.

Игра Magic Pocket также обзавелась треком с вокализами без слов, который звучит очень похоже на современные «биты». Он основан на композиции Betty Boo — «Doin’ the Do» 1990 года.

Наконец, крайне примитивная игрушка The Power содержит версию хип-хоп трека с одним из самых знаменитых вокальных сэмплов в истории, всё той же группы SNAP! — «I’ve Got The Power». Даже если вы не знаете эту игру, эту группу и хип-хоп музыку, очень вероятно, что вы слышали эту распевку названия трека. Следуя традиции, игра позаимствовала своё название у звучащего в ней трека.

Но действительно самая узнаваемая видеоигровая песня 1990-х прозвучала в игре Cannon Fodder (1993) от Sensible Software, имеющей неопределённый жанр, схожий со стратегией реального времени, и посвящённой вооружённым столкновениям маленьких человечков. Это оригинальная композиция, на этот раз с классическим вокалом и текстом, описывающим происходящее в игре. Слова вы, конечно, знаете: «War never been so much fun».

И хотя эта игра имела большую популярность и получила порты на многие платформы, большинство из них используют синтезированные инструментальные версии этого легендарного трека. Как кричала толпа бородатых мужчин в рекламном ролике тех лет, «Only Amiga makes this possible!» (и ещё 3DO и Atari Jaguar).

Ну а компания Sensible Software решила закрепить успех, и в следующем году выпустила ещё одну игру с вокальным треком — футбольный симулятор Sensible World of Soccer (1994). Новый модный, практически танцевальный трек был более заводным, с ещё более профессиональным вокалом, из-за специфического жанра и увядающей популярности платформы уже не смог повторить успеха своего предшественника. Но олды помнят. Звучит-то круто!

Приставки

Домашние консоли описываемого исторического периода имели довольно скромные технические возможности, в основном ограничиваемые объёмом памяти.

Картриджи игровых консолей Sega Mega Drive и Super Nintendo. Фото из Интернета

Игры для приставок тех лет хранились на картриджах, которые сами по себе стоили приличных денег, и поначалу было нерационально тратить ценную память на второстепенные вещи. Тем не менее, закон Мура работал, память дешевела, и со временем здесь тоже были достигнуты некоторые результаты.

Первый случай, который с некоторой натяжкой можно считать моментом пришествия вокальных партий на игровые консоли, произошёл в игре Skate or Die 2: The Search For Double Trouble (1990, Electronics Arts) для 8-битной NES, она же Денди.

Данное творение довольно сложно назвать песней, но в этом треке есть и вокальный фрагмент, и сэмплированная ревущая электрогитара. Когда ещё услышишь такое на восьмибитке! К тому же это культурный шок: лицензионная игра на семейной платформе с играми про водопроводчиков, употребляющих разноцветные грибочки, вдруг начинает говорить игроку — «DIE DIE DIE DIE DIE!»

Но действительное раскрытие темы случилось с наступлением 16-битной эпохи. В деле вокальных треков особенно отличилась совершенная игровая система Super Nintendo. И первый крутой пример можно услышать в игре Clay Fighter (1993, Visual Concepts). Здесь есть всё: и реальный классический вокал со словами, и красивые вокализы, и въедливая аранжировка в духе песенок из телевизионной рекламы.

Конечно, SNES изначально оснащена возможностью воспроизведения сэмплов, причём исключительно сжатых в формате ADPCM. Но нужно помнить, что объём ОЗУ звука этой консоли составляет всего 64 килобайта, и туда помещается порядка 15 секунд звука в сомнительном качестве. Поэтому многие игры использовали короткие вокальные элементы или голосовые сэмплы для аранжировок в стиле хип-хопа. Подробно об особенностях звуковой системы и работы с ней я рассказывал в статье «Звуки музыки Super Nintendo».

Забавным примером экономного подхода является игра Ballz 3D (1994, PF Magic) — трёхмерный файтинг, в которой все персонажи состоят из шаров. То была эпоха хулиганства на грани дозволенного, и разработчики явно думали про другие шары, называя игру и делая музыку к ней. По вышеобозначенным техническим причинам версия игры для Super Nintendo использует меньше разных сэмплов, зато они носят довольно специфический характер, вероятно, выражающий восторг от совершенства игровой системы.

Версия игры также выходила и на Sega Genesis, где вокальные элементы в музыке были редким гостем из-за менее развитых возможностей в области воспроизведения цифрового звука. Зато сэмплам не требовалось помещаться в ограниченном звуковом ОЗУ, они могли занимать хоть весь картридж. Потому местная версия титульного трека Ballz содержит больше различных сэмплированных голосов. Правда, восторг из них куда-то улетучился и сменился на прагматически звучащие «ага» и «угу».

Подобного подхода придерживались и другие игры, постепенно применяя вокальные сэмплы более мелодичным образом. Например, в игре Earthworm Jim 2 (1995, Shiny Software) на титульном экране звучит вокальная композиция без текста. По сути это акапелла, почти без музыкальных инструментов. Версия для Super Nintendo отличается более богатой аранжировкой и чистым звучанием.

Но и на Sega Genesis этот трек был реализована также очень неплохо. Интересный пример, как более слабая в области одновременного воспроизведения нескольких каналов цифрового звука Сега уверенно компенсирует эту проблему FM-инструментами для обогащения аранжировки. Дело аркадного Psycho Soldier живёт.

Также ярким примером вокализов для Сеги является игра Ristar (1995, Sega). В игре есть несколько композиций, использующих несколько пропетых голосом слогов разной высоты, создающих характерную атмосферу. Главная их вариация звучит в треке «Du Di Da!!», название которого также содержит и полный текст песни.

Я не включил в обзор вокальные хоры и эмбиент, звучащие в некоторых действительно популярных играх для Super Nintendo, которым было показать что-то помимо вокала — Super Metroid и Donkey Kong Country, чтобы хоть как-то удержать под контролем объём статьи. Всё же хочется уделить основное внимание более полноценным песням.

И такие случались. Игра Radical Rex (1994, Beam Software) также выходила на двух основных 16-битных консолях, и в версии для Super Nintendo в ней звучит оригинальный заглавный трек, представляющий героя.

Содержательно это более простая работа с очередным налётом хип-хопа: всего одна фраза и вокализ. Но грамотная аранжировка и вокал создают очень хорошее впечатление. Как говорится, звучит на все деньги.

Наконец, лучшее достижение в области 16-битных картриджно-приставочных песнопений можно услышать в игре Tales of Phantasia (1995, Wolf Team) для Super Nintendo. Тут уже всё совершенно серьёзно: это полноценный анимешный опенинг с оригинальной красивой и довольно длинной песней на японском языке.

Такой объём данных никак не мог поместиться в звуковом ОЗУ. Поэтому в нём располагаются только музыкальные инструменты, а сэмплы голоса подкачиваются с картриджа на лету. Планка Psycho Soldier, на этот раз по длительности трека и серьёзности подхода, снова взята!

Закрывает эпоху игра Hong Kong 97 (1995). Эта шуточная любительская игра-поделка для Super Famicom, тем не менее содержит оцифрованный зацикленный фрагмент развесёлой песенки на китайском языке. Глупость или мемчик, но теперь это часть видеоигровой истории. Два миллиона просмотров на YouTube, знаете ли, требуют с собой считаться.

Хотя в следующем пятом поколении игровых консолей случился массовый переход на лазерные диски, позволяющие хранить любой аудиоконтент, некоторые платформы всё ещё рассчитывали на применение картриджей. И там тоже можно найти парочку интересных примеров музыки с вокальными партиями.

Так, в игре Tempo (1995, Sega), вышедшей эксклюзивно для Sega 32X, провального 32-битного адд-она к шестнадцатибитной Сеге, звучит хип-хоп трек с мелодичным вокалом. Конечно, эта платформа уже более способна к воспроизведению цифрового звука (два 11-битных ШИМ-канала), и проиграть подобный трек для неё не составляет большого труда. Однако, объём картриджа этой игры составляет скромные 3 мегабайта, так что некоторое техническое достижение имеет место быть.

Куда более мощная Nintendo 64, вооружённая мощью своих DSP-процессоров и готовая даже к декодированию настоящих MP3-файлов (правда, на тоненького), позволяла использовать картриджи куда большего объёма. Но так как помимо музыки в их памяти приходилось хранить значительно увеличившийся объём игровых данных, песни в играх для этой платформы были исчезающе редким явлением.

Игра Mystical Ninja Starring Goemon (1997, Konami) является редким исключением из этого правила и заодно примером успешного утрамбовывания аж трёх полноценных песен на японском языке в картриджную игру, причём в достойном качестве. При этом объём картриджа с игрой составляет довольно скромные 16 мегабайт.

Ну а завершающим аккордом нашей истории прозвучит заглавный трек игры Donkey Kong 64 (1999, Rare). Игры очень долго склонялись к жанру хип-хопа, но технические ограничения не позволяли им раскрыться полностью, ограничивая вокальное содержание всего несколькими фразами. Однако, под закат пятого поколения, а заодно тысячелетия и популярности хип-хопа, мы можем услышать действительно полноценную композицию с живой аранжировкой и длинным текстом про местных персонажей обезьяньей наружности.

Любительское

Дополнить историю хотелось бы рассказом о более современных любительских разработках в направлении синтеза вокальных партий. Конечно, это едва ли популярная точка приложения неудержимых творческих сил, но и такое тоже имеет место быть.

Для начала простое и понятное: в 2021 году энтузиаст заставил петь компьютер Texas Instruments TI-99/4, написав специальную программу TI Composer для управления синтезатором речи. Обычно применение старых речевых синтезаторов для пения сопряжено с большими трудностями в программировании партий, и TI Composer значительно облегчает решение этой задачи, позволяя задавать необходимые ноты для отдельных фрагментов голоса.

Довольно удивительной особенностью этого проекта является отсутствие аппаратного синтезатора речи: он реализован полностью программно на основе классических процедур преобразования текста в речь от Texas Instruments. Я был немало удивлён, что таковые существуют, учитывая, что эта компания была одним из пионеров в области разработки БИС для синтеза речи, и для TI-99/4 выпускался аппаратный синтезатор на базе их собственной микросхемы TMS5220.

Другой интересной темой является техника синтеза звуков, напоминающих человеческую речь, в чиптюн-музыке. Суть подхода заключается в очень тонком программировании инструментальных партий, воспроизводящих мелкие нюансы динамики изменений высоты и громкости, свойственные вокальным партиям, в результате чего кажется, что это не просто мелодия, а синтетический голос что-то поёт. Возможно даже что-то матерное.

Мода на этот весьма впечатляющий и сложный в реализации трюк возникла в конце 2000-х годов, когда несколько композиций с подобным эффектом поучаствовали в некогда ежегодном японском крупнокалиберном конкурсе чиптюн-музыки Famicompo Mini, ориентированном на Famicom (Денди) — в том числе это продемонстрированный выше трек 2009 года «A-nie Rabu Damon» заслуженного азиатско-американского артиста чиптюн-эстрады chibi-tech.

К слову, в Famicompo за годы поучаствовало огромное количество авторов и музыки, совершено множество экспериментов, и из звукового железа скромной Денди было выжато всё до последнего бита. Архивы конкурса крайне рекомендуются к ознакомлению всем любителям 8-битного чиптюна.

Там же можно найти и более классические треки с синтезированными вокальными партиями на основе DPCM-сэмплов, и многие другие экспериментальные работы как для стандартного звукового чипа 2A03, так и для любых исторических дополнений. Например, трек «SuperDuper Starship» в Famicompo Mini #5 (2008).

Заключение

Мы проследили, как видеоигровые песнопения проделали путь от первых несмелых попыток компьютера запеть человеческим голосом до уже вполне полноценных, хотя порой очень наивных, местами даже «кринжовых», выражаясь современным языком, песен.

Но на этом развитие не закончилось. Пришествие эпохи мультимедиа и носителей большого объёма в лице компакт-дисков сняло суровые технические ограничения прошлых лет и превратило игровые песни в один из мощнейших эмоциональных инструментов, существенно развивший потенциал игр как формы популярного искусства. Но об этом поговорим в другой раз.

Комментарии (27)

MasterMentor
23.02.2026 09:44
#29571482
Извини, дружище, но тебя - несёт. То ли "ООО «МТ ФИНАНС»" заставляет "по графику" для "маркетинга" выдавать километровые простыни текста, толи ещё что. Но это уже - "поток сознания".
1. shiru8bit Автор
  23.02.2026 09:44
  #29571668
  Я пишу про то, что лично мне интересно, чем занимаюсь всю жизнь, и про что собирался написать десятилетиями. Таких объёмов выдавать не требуется, это лично моё желание писать именно столько, пока есть возможность и мотивация этим заниматься на регулярной основе.
  
  Поток сознания — это отсутствие структуры и смысла. Я нахожу редкую информацию, которую едва ли кто-то собирал ранее, пропускаю её через собственный опыт, структурирую насколько это возможно, и пытаюсь рассказать достаточно связную историю с началом и концом, хоть немного более читабельную, чем простое перечисление дат и фактов. Предпочитаете короткие поверхностные обзоры, сгенерированные копирайтером без понимания предмета? Уверен, на Хабре найдутся и такие.
  1. MasterMentor
    23.02.2026 09:44
    #29571798
    Извини, Amicus Ширу, sed magis amica veritas.
    
    Давай для объективности попросим редакторов с Хабра чтобы они дали рецению с оценкой качества статьи: плюсы/минусы и советы.
    
    Они же старались. Тратили время, создавали "гайды" с "бэст практиками" и советами по написанию качественного матриала.
    
    Конечно, обозвать их дураками и закидать и их рецензию г...минусами - это патриотично, это "наше всё". Но и ты, и достопочтенная публика убедитесь, что я пишу по делу.
    
    ... или сниму шляпу и прилюдно извинюсь перед Маэстро, мастером Пера и Слова.
    
    Maccimo
    23.02.2026 09:44
    #29572784
    Давай для объективности попросим редакторов с Хабра чтобы они дали рецению с оценкой качества статьи: плюсы/минусы и советы.
    
    На Хабрахабре нет и никогда не было никаких редакторов. «Информационная служба», если вы про них, это генераторы информационного мусора, а никакие не редакторы.
    
    Они же старались. Тратили время, создавали "гайды" с "бэст практиками" и советами по написанию качественного матриала.
    
    Это те, в которых они рекомендуют использовать LLM-бредогенераторы? Такие «рекомендации» годятся только на то, чтобы их в канализацию спустить.
    
    Люди, не написавшие ни одной статьи технической направленности, физически не способны посоветовать хоть что-то дельное тем, кто такие статьи пишет.
    
    что я пишу по делу.
    
    Вы пишете какую-то ахинею.
    У shiru8bit статьи чётко в тематику Хабрахабра и у них есть своя аудитория. Если они не в вашем вкусе, вы их можете не читать.
    
    патриотично
    
    У вас всё хорошо? Точно-точно?
    Статья так-то про компьютерные игры, японские и американские в основном, а не про это вот всё.
1. MasterMentor
  23.02.2026 09:44
  #29571716
  Да ладно, вам, друзья. Тем которым "за державу обидно" и прочим патриотам.
  
  Статью нужно было структурировать и можно было уложить в 5 страниц:
  
  История: первый синтез звука был ещё в "Древнем Риме" (1 стр)
  
  Основные 5 подходов: играть записанный звук, синтезировать музыку софтом/железом, синтезировать голос софтом/железом. И их комбинации. (0.5 стр)
  
  Детализация по 0.7 страницы (0.5-0.7 - золотая классика) каждого подхода с технической и уникальной информацией.
  
  Списки плейлистов с Ютьюба с иллюстрацией каждого подхода и описанием каждого ролика в 1-2 предложения.
  
  В таком виде я бы статью и в закладки добавил и забросил бы в свои паблики. А так традиционно: началась за здравие, закончилась - километрами леса букв, из-за которых не видно листочков здравого смысла (и не здравого - тоже).
  
  PS И тем кто плюсовал: друзья, там текст только 1,5 часа читать нужно (конечно, если вникая и запоминая факты - а не "по диогонали"). А если ролики смотреть - так это часов ~10 без остановки - вы на количество и время их поглядите.
  
  Оно, конечно, хорошо ставить плюсики-минусики из "патриотических" соображений: ну типа не читал но одобряю/осуждаю - в зависимости от сорта патриота. Но пользы это ничему не добавляет.
  1. shiru8bit Автор
    23.02.2026 09:44
    #29571760
    Прямо под заголовком статьи указано время прочтения: 19 минут. Все ролики смотреть от и до вас никто не заставляет. Они приводятся для понимания, о чём речь: глупо говорить о звуке без возможности его услышать. Чтобы услышать и понять суть, достаточно десяти секунд, и не обязательно смотреть каждый.
    
    DrMefistO
    23.02.2026 09:44
    #29572870
    При всём к тебе уважении за твой вклад в ретро игры, с тех пор, когда ты начал писать "для конторы", что-то таки изменилось. Когда писал не для кого-то, было будто бы лучше. (субъективно)
    
    shiru8bit Автор
    23.02.2026 09:44
    #29573524
    То есть, было лучше, когда я почти не писал? Я начал активно писать именно и исключительно потому что появилась такая мотивация. Безусловно, некоторые проблемы есть, 30-40К знаков раз в две недели на протяжении двух с половиной лет легко не даются, шедевры на конвеере не получаются. Но или так, или эти материалы останутся лежать в столе.
    
    Изменилась прежде всего ориентированность на аудиторию: раньше я писал для сотни гиков, находящихся в полном контексте, и мог вообще не задумываться ни о шутках, ни про ввод в курс дела. А теперь это по большей части своего рода ретрокомпьютерный научпоп, в котором я стараюсь сделать крайне нишевые вещи легко доступными для понимания. Хотя бы обозначить их существование.
    
    DrMefistO
    23.02.2026 09:44
    #29573550
    Да, вот оно! Я как раз из той сотни гиков, которым лучше сложно, но с полной отдачей, чем максимально разжёвано под современного зумера и с цензурой сверху.
    
    Я в своё время отказался от такого сотрудничества с конторами, которые его предлагали. Контор уже нет таких, а я всё пишу. Да, охват небольшой, но мне хватает и так.
    
    shiru8bit Автор
    23.02.2026 09:44
    #29573686
    Я параллельно активно пишу в чисто гиковском варианте буквально для сотни человек в блоге на Бусти (бесплатно, все посты открыты). Есть задумка собирать из одиночных постов по конкретным проектам более-менее связные короткие материалы и публиковать в личном блоге здесь. Возможно, весной дойдут руки до пробной публикации, посмотрим, есть ли в этом смысл и востребован ли такой формат.
    
    dlinyj
    23.02.2026 09:44
    #29577054
    На самом деле хорошо, что есть разные форматы. Гнать такие статьи на потоке сложно, у меня тоже был период когда я в неделю по статье выпускал. В какой-то момент, даже самый гиковый автор начинает исчерпывать свой бесконечный потанцевал.

drobotenkogorgi
23.02.2026 09:44
#29571574
Крутой разбор. Даже не задумывался, сколько труда и изобретательности стояло за этими первыми поющими играми

ziyakbekov
23.02.2026 09:44
#29571576
Компьютеры сначала только говорили, потом начали петь через сэмплы и синтез, аркады и Amiga сделали первые песни, 16-битные приставки полноценные треки, к концу 90-х почти настоящие песни в играх.

MasterMentor
23.02.2026 09:44
#29571686
.

MemRun
23.02.2026 09:44
#29572524
Я не понял, а где фундамент?

dlinyj
23.02.2026 09:44
#29576392
Я хочу сразу снять шляпу за огромную проделанную работу и видно что автор хорошо разбирается в теме.

И мне интересна эта тематика невероятно. Но читать такое и воспринимать очень тяжело. Когда куча видео, технологий, уже теряешь нить мысли что откуда пошло и зачем. Возвращаться перечитывать лень. И я сломался где-то на первой трети.
Моё пожелание, всё же остановится на какой-то одной технологии и разобрать её, чем пытаться охватить все.

Сразу скажу, это лично моё ИМХО, я высоко ценю труд автора. Просто личное пожелание.
1. shiru8bit Автор
  23.02.2026 09:44
  #29576502
  Есть всего две технологии, описанные как раз в первой трети, разбирать в которых совершенно нечего — всё уже разобрано в первой части статьи про синтез речи. После первой трети статьи, освещающей историю вопроса компьютерного пения и две технологии, содержательная часть заканчивается и начинаются примеры. Как заявлено прямо в тексте:
  
  Далее наша ретроспектива превращается в длинный перечень игр с годами выпуска, где в той или иной форме были реализованы вокальные партии.
  
  В качестве наглядных примеров, с техническими подробностями, как это реализовано. В чём проблема с кучей видео? Вам не интересно услышать, про что идёт речь и как это звучит? Вам не интересно узнать, когда, в каких играх и что было сделано, какой культурный след оно оставило? А кому-то может быть интересно и такое. Справочники тоже нужны миру, даже такого рода. И их никто до сих пор не составил. Это единственный, и я считаю, что именно в нём и есть главная ценность статьи.
  1. dlinyj
    23.02.2026 09:44
    #29577034
    В качестве наглядных примеров, с техническими подробностями, как это реализовано. В чём проблема с кучей видео? Вам не интересно услышать, про что идёт речь и как это звучит? Вам не интересно узнать, когда, в каких играх и что было сделано, какой культурный след оно оставило?
    
    Важно, я не хочу задеть и если сделал, то приношу извинения. Такой формат подачи хорош в едином видео, когда автор повествует и показывает врезки других видео. Но прерывать текст на видео, затем снова на текст тяжело.
    
    Обращаю внимание, я рядовой читатель и лично мне (говорю только за себя) такую подачу воспринимать тяжело. Надеюсь, что остальным легче и просто. Но вы можете сами посмотреть сколько пользователей объективно досмотрели статью. У вас есть общая длительность видео, если пользователь хотя бы половину этого времени был в статье, значит он её прочитал. Если нет, значит бросил.
    
    shiru8bit Автор
    23.02.2026 09:44
    #29577244
    Без проблем. Меня не сильно беспокоит, если статья кому-то не зашла, или объективно плоха. Я физически не могу выдавать исключительно хорошие статьи или иные продукты, всегда будет и среднячок, и проходняк, и небольшой процент успешных начинаний. И я ничего не могу сделать постфактум. Материал уже опубликован, и он есть такой, какой он есть .Для меня это всего лишь одна из многих статей, про которую я давно уже не думаю, они же пишутся заранее. Ну не удалась и не удалась, бывает. Тратить месяцы на доведение её до идеала бессмысленно, всем всё равно не угодить, а у меня один только список материалов, находящихся в работе, по длине как эта статья.
    
    Ну а высоким процентом дочтений в принципе мало кто может похвастаться, и я со своими весьма специфическими темами — в особенности. У этой статьи 10% дочтений. У большинства моих публикаций показатели ровно такие же, у самых успешных 12-15%. Для лонгридов на популярные темы норма 20-30%. Так что ничего катастрофического вроде не случилось.
    
    dlinyj
    23.02.2026 09:44
    #29577292
    В любом случае, примите мою личную благодарность за ваш труд и за те темы что вы освещаете.
    
    Например, если взять ту же Дюну первую (о которой вы говорили в прошлой статье), то я просто выпал в осадок, когда на 386 (486dlc) машине 40 МГц увидел полноценное видео со звуком. А в купе с MIDI-синтезатором MT-32, это было сродни полёту на космическом корабле.
    
    Особенно доставило решение, так чтобы картинку растянуть на весь экран и хватило производительности процессора её перерисовывать. Я считаю это просто гениально. Мне, к сожалению, не удалось найти видео чтобы был и Roland MT-32 и видеоряд со звуком. Но вот тут на четвёртой минуте хорошо видно
    
    Жаль синтезатор взят какой-то другой и звучит по настоящему плохо.

BiTL
23.02.2026 09:44
#29577318
Shiru не любит DOS ;) Поэтому компенсирую:

Наша родная Дубинушка! https://www.youtube.com/watch?v=Hg9U77Vm2oE

Death Rally с крутейшей музыкой Purple Motion'a https://www.youtube.com/watch?v=W2WZSfcyd1E (не то чтобы прям вокал, но...)

Lost Eden (кто играл, тот не забудет эту музыку) https://www.youtube.com/watch?v=CB4v9_rYqnc&
1. dlinyj
  23.02.2026 09:44
  #29577336
  Перестройка, кстати, играла всё даже на спикере.
  1. BiTL
    23.02.2026 09:44
    #29577362
    только на спикере и играла :)
    
    а в виндовом ремейке не было уже ни титульной картинки, ни песни, за это я проклял NIKITA
    
    dlinyj
    23.02.2026 09:44
    #29577424
    Не, не, я как раз к тому что там всё через ШИМ реализовали, что добавляло свои сложности и особенности и определённую крутость! Ту же мелодию надо было как-то оцифровать, а потом сделать реализацию её воспроизведения. У автора этой статьи @shiru8bitесть прекрасная статья по теме Цифровой звук на PC Speaker
    
    BiTL
    23.02.2026 09:44
    #29577600
    круто, да, темболее она разрабатывалась в 89-м году. В СССР еще.
    
    Но так-то цифровой звук через спикер был хоть и диковинкой, но не такой уж редкой :) Из отечественных, была еще игра "Ворона" (или Как Иван-дурак за кладом ходил), где тоже была оцифрованная музыка на заставке и эффекты в процессе игры.
    
    Из иностранных, в Gobliins через спикер были звуки, в Another World, Robbo, Electro Man, да много где...
1. shiru8bit Автор
  23.02.2026 09:44
  #29577492
  Люблю я DOS, люблю! Регулярно в нём сижу! Про Перестройку честно забыл, про Death Rally не знал (игру видел, музыку не слышал), а Эден по плану должен быть упомянут в финальной третьей части, где уже про песни в потоковом аудио, и акцент не на технике, а на художественном содержании.

shiru8bit Автор
23.02.2026 09:44
#29577752
Забавно, но тема продолжает занимать умы энтузиастов даже сегодня. У FADE вышел чиптюн-трек с вокальной партией сразу на двух голосовых синтезаторах (по очереди):

Скрытый текст

Голоса в компьютере: игры начинают петь +59

Снова история

Технолоджия

Аркады

Компьютеры

Приставки

Любительское

Заключение

Комментарии (27)

shiru8bit Автор

shiru8bit Автор

shiru8bit Автор

shiru8bit Автор

shiru8bit Автор

shiru8bit Автор

shiru8bit Автор

shiru8bit Автор