Привет, друзья! Сегодня расскажу, как нейросети прямо сейчас, пока вы, куски мяса, читаете этот текст, заменяют живых музыкантов в студиях звукозаписи, позволяя DIY-музыкантам записывать полноценные альбомы, не выходя из дома и используя лишь компьютер с мощной видеокартой.

Где пруфы?

Пару дней назад я выпустил свой дебютный альбом #My_Zero. Все треки записаны нейросетью без привлечения музыкантов. На вход нейросеть получила файлик Guitar Pro, где я прописал музыкальные партии, а также файл с текстами песен. На выходе — wav.

Если послушаете треки, то кое-где можете заметить аномалии, например, лишние слоги, неверные ударения, кривые гармонии, странные шумы. Я не смог докрутить сетку, чтобы та идеально воспроизвела партии из GP. Железные мозги еще несовершенны. Но уже сейчас качество записи лучше, чем получилось бы, используй я студию и настоящие инструменты.

Как я пришёл к нейросетям для записи музыки? 

Я музыкант-любитель. Люблю побренчать на гитаре в свободное время, чисто для себя.

Периодически сочиняю музыку, оформляю ее в виде табов в Guitar Pro.

У меня совсем нет времени и сил играть в музыкальной группе, а также ввязываться в дорогостоящую и длительную историю с записью в студии. Мне чудовищно лень. 

Но мне нравится создавать музыку. Нейросети в этом смысле незаменимы. Они уже сегодня позволяют превратить ноты в звучащий инструмент или вокал. Таких сетей много, вы можете их легко нагуглить и выбрать подходящую сетку для жанра, в котором работаете.

Какие сложности есть с записью нейросетями?

Во-первых, надо разбираться в нейросетях и иметь мощный компьютер. Пока ещё техника на этапе, где нужно самому загуглить сеть, далее, возможно, придётся её обучить на треках, что нравятся лично вам. Потребуется python и GPU. 

Во-вторых, музыку писать надо самому. Ошибкой будет доверить сочинительство нейросети. Нейросети не сочиняют музыку. Они могут сгенерировать средневзвешенное нечто, которое будет компиляцией штампов. Творчество — это все еще удел людей. Используйте нейросети только для воспроизведения нот и аранжировок.

В-третьих, текущие сетки плохо справляются с воспроизведением сложной музыки. Прогрессив-рок? Экстремальный метал? Техничный рэп? Забудьте. Все доступные нейросети хорошо справляются с роком, поп-музыкой, простенькой электроникой, но выдают мусор, если трек сложный и содержит много нот или быстрый темп. Поэтому музыкант, который записывает музыку при помощи нейросетей, возможно, будет вынужден значительно упрощать мелодию и партии инструментов, чтобы снизить число аномалий в записи. Либо надо делать свою сеть, обучая её не сложных треках.

В-четвертых, нет возможности сгенерировать уникальный вокал. Запоминающийся голос - это половина успеха. Есть небольшой банк голосов, из которых можно выбрать. Голоса типичные. Кроме того, я не нашёл способа заставить нейросеть гроулить или читать рэп.

Что дальше?

Дальше я планирую сконцентрироваться на том, чтобы выпустить парочку своих сеток, которые смогут читать рэп. А пока советую вслушиваться в треки, что вы слышите по радио. Кажется, мы идем на всех парах в мир, где студии звукозаписи и сессионные музыканты станут не нужны.

Комментарии (26)


  1. TooBigBigs
    25.07.2025 10:40

    Класс, это очень интересно! Мне вот нужно сделать 4-5 музыкальных вставок для фильма, такие тягуче-низкие медитативные фрагменты примерно по 20-30 секунд. Референс - начало трека Junior Dad с альбома Lulu. Я бы мог "намычать" в микрофон какую-то основу, а сможет ли нейросеть преобразовать и приукрасить это мое мычание так, чтобы стало похоже на студийную запись?

    И можно ли где-то послушать ваш альбом в виде файлов? Я не пользуюсь стимингами, только файлы.


  1. diakin
    25.07.2025 10:40

    Ну вообще-то супер!
    А стиль как выбирается? "... воспользуйтесь манерой Б.Гребенщикова" тоже можно?


    1. DartPanda Автор
      25.07.2025 10:40

      Нет) тензором с весами всяких параметров


  1. diakin
    25.07.2025 10:40

    Кажется, мы идем на всех парах в мир, где студии звукозаписи и сессионные музыканты станут не нужны.

    По сути в большей степени это тоже техническая часть, а не творческая. Человек, используя нейросеть, как инструмент, добивается того, чего он хочет, чтобы донести до зрителя "как он видит".


  1. panzerfaust
    25.07.2025 10:40

    Видимо, у си-грейдов окончательно атрофировалось умение общаться по-человечески без кликбейтных заголовков.

    Как я заменил нейросетью музыкантов

    А они у вас были? Ну чтоб заменить что-то, нужно сперва что-то иметь.

    ввязываться в дорогостоящую и длительную историю с записью в студии

    Множество треков даже из топов стримингов уже очень давно пишется, на вставая с табуретки, без всяких студий. Может сначала матчасть подтянуть, а потом "заменять" всех подряд?

    Периодически сочиняю музыку, оформляю ее в виде табов в Guitar Pro

    ...

    Прогрессив-рок? Экстремальный метал? Техничный рэп?

    На рынке тонна VST-тулов, которые вам из табов и midi что угодно сделают. Причем сделают прецизионно и без ограничения по стилям. Но вы выбрали нейронки, чтобы кого-то "заменить". Ну хозяин барин.


    1. DartPanda Автор
      25.07.2025 10:40

      А какие vst тулы имеются в виду? Насколько знаю, все толковое через ai. Иначе пластмассовый звук.


      1. panzerfaust
        25.07.2025 10:40

        Хотите сказать, что например инструменты Kontakt и синты Arturia пластмасса?


      1. Refridgerator
        25.07.2025 10:40

        Пластмассовый звук был у дешёвых детских синтезаторов 50-лет назад. Каким называть звук у нейронок ещё не придумали, но он однозначно прослушивается и принципиально не улучшаем по своей природе (из картинки спектрограммы обратным БПФ). Я его слышу сразу и ощущения кроме как "кровь из ушей" описать не могу. Немного развлекался в Suno для юмора написанием адресных песен для близких в виде личных поздравлений или голосовых сообщений под музыку. Перестал, потому что слишком уж всё однообразно получается и насиловать свой слух тоже надоело.

        Кстати, вокал в музыке совсем не обязателен. Ну конечно только если эта музыка уровня лунной сонаты, yesterday, или хотя бы мортал комбат. Лично я к такому стремлюсь. В электронной музыке мне интересно самому подбирать набор инструментов, чтобы тюнить атмосферу для максимизации кайфа. В живой музыке интересна эмоциональная отдача от слушателей, играя (и делая для этого самостоятельно переложения) именно то, что им интересно слушать. А вот записывать свою игру на гитаре уже не интересно - циферки на ютубе никакой эмоциональной отдачи не несут. И темы для статей тоже есть поинтереснее, чем хайпы по нейросетям с абсолютно идентичным содержанием.


  1. manyakRus
    25.07.2025 10:40

    и в итоге вас забанят за использование нейронок :-(

    это статья - чистосердечное признание в нарушении правил яндекс музыки


    1. DartPanda Автор
      25.07.2025 10:40

      А в других коментах авторы утверждают, что подход не нов и уже 100 лет как вся музыка так записывается. Риска нет)


      1. panzerfaust
        25.07.2025 10:40

        А в других коментах авторы утверждают, что подход не нов

        Вам говорят про то, что не нов подход one man band, когда человек с DAW и плагинами может в одиночку хоть джазовый бигбенд записать. Особенно, если у него есть материал в midi. Воистину странно, имея midi, скармливать его нейронке.


        1. DartPanda Автор
          25.07.2025 10:40

          а расскажите, пожалуйста, что-то за DAW и плагины имеются в виду? Ни разу про такое не слышал)


    1. diakin
      25.07.2025 10:40

      А какие там правила?
      Такие? https://yandex.ru/legal/music_termsofuse/ru/?lang=ru


  1. noavarice
    25.07.2025 10:40

    Осталось понять, зачем всё это


    1. DartPanda Автор
      25.07.2025 10:40

      Стоимость записи в студии обойдется больше 100 тысяч рублей, а нейросеть позволяет сделать это бесплатно. Вот за этим.


      1. FireLynx
        25.07.2025 10:40

        Делаю записи бесплатно и без нейросетей. Используя только пару инструментов, daw с плагинами и своё время.

        Что я делаю не так?


  1. Nik_Otin
    25.07.2025 10:40

    Для того, чтобы что-то заменить, это надо иметь. У Вас была своя группа и Вы всех заменили? Если нет, то Вы ничего не меняли и не заменили. Вы использовали для написания песни другие варианты. Музыку и без всяких нейронок можно было и раньше склепать, с голосом да, сложнее. Но в нейронках есть вариант и попроще, чем придумывать ноты, досточно придумать текст, описать музыку словами и получится что-то интересное. SUNO AI, Riffusion. Балуются этим очень многие - количество композиций сочиненных с помощью этих нейронок множатся тысячами в день. В любом случае творчество коллектива одним человеком заменить сложно. Это человек должен быть очень талантливым. Ваши композиции мне не понравились, но на вкус и цвет фломастеры разные.


    1. DartPanda Автор
      25.07.2025 10:40

      Талант это не аддитивная характеристика, коллективность влияет слабо.


      1. FireLynx
        25.07.2025 10:40

        Ой.

        Будучи поклонницей творчества таких коллективов как Deep Purple, Black Sabbath, Led Zeppelin, никак не могу с вами согласиться.


  1. digrobot
    25.07.2025 10:40

    Есть же люди, которых такое качество устраивает


  1. dv0ich
    25.07.2025 10:40

    По-моему, неотличимо от средней митол-группы. Но я не любитель этого жанра и не разбираюсь в нём.


    1. DartPanda Автор
      25.07.2025 10:40

      так в этом и суть статьи) За пару дней один человек используя GPU и нейронки записывает свои песенки и не тратит сотни тысяч рублей и кучу времени. А слушатели не могут понять, что живые игструменты не использовались.


      1. FireLynx
        25.07.2025 10:40

        зря вы этому радуетесь.

        Косяки нейронки слышны. И если слушатели не могут понять, значит они либо настолько непритязательны, либо ваше творчество их не зацепило абсолютно.


  1. qiper
    25.07.2025 10:40

    неверные ударения

    Это у нейронок неизлечимая болезнь что-ли? На Ютюбе засилье


  1. qiper
    25.07.2025 10:40

    Я б без женского скриминга обошёлся, неприятно на подсознательном уровне)

    Я убит подо ржевом piano version больно веселая, кощунство какое-то)

    И всё-таки Ржев


    1. DartPanda Автор
      25.07.2025 10:40

      ну тут вопросы к сервису дистрибьюции и самому Яндексу. В оригинальном названии с большой буквы. Где-то по пути от wav до до стриминга произошёл lowecase.