Я – режиссер с «традиционным» кинообразованием. Взявшись работать с генеративным музыкальным видео для песни ЛИКО «Девочка-стесняшка», я хотела использовать свои знания для того, чтобы обогатить плоские ИИ-кадры.
Я опишу опыт придания клипу «кинематографичности», понимая под этим термином не кадры с дрона, панорамы, «флюшки» от солнца, контрастность изображения и тп, а набор вполне конкретных качеств, прежде всего, глубины кадра, которая не появится от употребления волшебного слова cinematic в промте.
Здесь я разберу различия в подходах к созданию сцен режиссером и нейросетью, свои попытки хакнуть систему в придании кинематографичности тому, что создано поперек природы киноязыка, что оказалось невозможным и что все-таки удалось преодолеть.
Сценарий
Сюрреалистических, поэтических и экспериментальных музыкальных видео уже создано много, ведь такой формат идеален для работы с ИИ. Но моя задача – максимально напрячь систему, поэтому иду по пути нарративного клипа с ясной завязкой, кульминацией и развязкой.
Конфликт задан песней: замкнутая старшеклассница, серая мышка, влюблена в самого популярного парня в классе, но боится заговорить с ним. Персонажи клипа те же, что и в песне – влюбленная школьница и ее краш – но клип не иллюстративен, в нем развивается своя основная история и параллельный второстепенный сюжет. Каждая сцена должна моментально обрисовать ситуацию, контекст и эмоциональную реальность персонажей без диалогов, а цифровые актеры должны быть убедительны.
Дополнительное усложнение: в клипе «снимается» сам исполнитель ЛИКО, максимально похожий на себя реального, и он должен петь. Ах да, и никакого Veo3 – в кадре несовершеннолетние.
Сразу решаю, что если «девочка-стесняшка» – лузер в школе, то должен быть мир, в котором она – героиня, и отрывается за все неудачи в реальности. Пусть это будет видеоигра, где ее альтер-эго – крутая ниндзя.
Придумываю историю, а про финал спрашиваю у ChatGPT, но тут он пригодился только для моральной поддержки («Отлично! У тебя уже почти готовый сценарий!»). Его предложения по финалу обязательно содержали моральный урок, а еще не учитывали ограниченные возможности ИИ-видео. Сменить одежду в кадре, что-то ловко бросить-поймать – все это, по моему опыту, вызовет огромное количество артефактов.
Ладно, пока ИИ никак в создании клипа не поучаствовал. Сама придумываю финальный твист, раскадровываюсь.
Создание концептов/кастинг
Два максимально разведенных визуально мира – это, с одной стороны, интересно, а с другой – дополнительная сложность. Хотелось бы еще, чтоб детали и ракурсы из в двух мирах пересекались: тут очки, там – VR.

Или чтоб учительница тоже имела свое отражение в мире видеоигры.

Ну и если есть два мира, рано или поздно они должны столкнуться – без помощи VFX.

«Ищу» героиню. Отталкиваюсь от мира видеоигры – хорошо бы ниндзю одеть в черное и сделать – для контраста с одеждой и темным фоном – блондинкой. При этом наша школьница не очевидная красотка и принцесса класса, иначе непонятно, почему считается всеми простушкой.
Krea 1 предлагает типаж Ребекки из «Мира призраков», решаю культивировать ее и сажаю в класс.
Утверждаю краша
Ищу девочку-ниндзя. Первые промты неизменно дают такое:

Но я представляю себе что-то в духе инди-игр или Animal Crossing, никакой сексуализации:
Исполнитель ЛИКО уже есть. Беру визуальные концепты и обучаю модели в Krea.
Начинаю генерить стартовые картинки, и, пока в кадре один персонаж, все неплохо. Стоит добавить еще хотя бы одного человека и указать в референсах обученные модели –

В итоге «руками» редактирую стартовые фреймы для каждого видео. Это оказалось самой трудозатратной частью в моем процессе. Клип делался до релиза Nano Banana, но в моих задачах и она бы не помогла. Дело не во временных технических несовершенствах нейронок – это фундаментальная идеологическая разница с кино.
Мизансценирование
Мизансцена в кино и театре определяется расположением и движением актеров относительно друг друга, а в кино – еще и относительно камеры. То, насколько близко находятся друг к другу персонажи, говорит об их отношениях больше, чем слова. Все это происходит в пространстве, которое ИИ не понимает, для него создать сеттинг равно нарисовать цветной задник.
Если бы продукт создавался для кинематографистов, там сразу были бы предложены решения пространства. Например, интеграция 3д-моделей или возможность разделить и заполнить передний, средний и дальний план «по слоям», как это делается в анимации для эффекта глубины, или хотя бы какой-то шорткат для рутиннейшей задачи – кадров «точка – обратная точка». Если ИИ сгенерил общий план класса на стену с доской, то обратную точку, «камчатку», придется делать «вручную», добиваясь правильного цвета стен, парт и расположения окон. Часть проблем с решением пространства решила бы возможность указывать характеристики объектива.
Все это существует в профессиональном софте. Но ведь создатели видеогенераторов утверждают, что любой теперь сможет «снять» полноценную киносцену. Да нет, не сможет, по крайней мере, в ближайшее время.
В клипе я хотела сделать хотя бы две кадра с мизансценированием чуть более сложным, чем фронтальный средний план персонажа.
Вот несколько кадров, оказавшихся самыми трудоемкими.
1. Общий план класса, на переднем плане спиной к камере стоит героиня, мимо нее проходит одноклассник, которого выгнали с урока. Он ободряюще улыбается ей. Певец ЛИКО, которого по сюжету видит только героиня, сидит на первой парте и, как только мальчик выходит, достает из-под стола зеленый флаг и размахивает им перед девочкой – одобряет ее выбор.
Первый фрейм поэтапно генерится в Runway с референсами всех персонажей и кабинета. Получается не очень:

После кучи картинок с заблудившимся в трех партах учеником и артефактными руками, собираю фрейм по кусочкам во Flux, где можно при редактировании вставить картинку – в данном случае это фигура парня, которую Runway так и не смог поставить в нужное место, сохранив верный размер.
Пробую анимировать в Kling 2.1 и Hailuo 2.0. Kling делает естественные движения и минимально ломает пространство, но не угадывает с эмоциями парня, когда он встречается глазами с девочкой, а это здесь ключевой момент. Пусть даже будут артефакты, но он должен посмотреть правильно.
Hailuo с тем же самым промтом, хоть и заставляет всех переигрывать и ломает руки и ноги, попадает в тональность – грустная улыбка, ободряющий взгляд:

После генерации, где ученик орет на класс, дает в физиономию певцу ЛИКО и отнимает у него флаг, а ЛИКО, видимо, от шока, выбрасывает руку в нацистском приветствии…
…отказываюсь от гэга с зеленым флагом – слишком много артефактных дублей именно из-за него – и от учительницы. Тем не менее, это в целом успешная попытка глубинной мизансцены: на переднем плане растерянная героиня и проходящий мимо нее краш, на среднем – наблюдающий за ними певец и его реакция, на дальнем – притихшая массовка класса.
Еще задача со звездочкой – усложненное движение камеры (тележка влево, панорамирование вправо). В идеале хочу получить: перевод с крупного плана героини на дверь на дальнем плане, через которую в класс входит ее краш; девочки бросают свои дела и разговоры и провожают его восхищенными взорами; становится очевидна популярность парня – через реакцию массовки и через композицию, где он изолирован в дверном проеме.
Снова много ручной работы, на этот раз при создании последнего фрейма, так как важно хотя бы приблизительно выдержать линию горизонта там, где она была на первом фрейме.
Выбираю снова только между Kling 1.6 (frames) и Hailuo 2.0, потому что необходимы первый и последний фрейм, войти должен уже заявленный, а не сгенерированный впервые персонаж.
При генерации массовки класса лезет еще один признак антикиношной ДНК нейросети: ей непонятно, что скрыть, а что показать, и вообще не понятно, зачем что-то скрывать. Она создана репрезентовать, делать плакаты. Несколько попыток промтов с указанием на то, что ученики сидят спиной к камере – в ответ сдвинутые в кучу парты вместо ровных рядов с перспективой и ученики, годные для «Изгоняющего дьявола»:

Это не случайный косяк. Runway упорно генерил людей с развернутыми на камеру лицами, будто не мог поверить, что я хочу видеть столько спин.
В итоге отказываюсь от реакции массовки – при панорамировании вправо пространство «едет» и смазывается так, что пусть уж сидят как сидели. Этот кадр тоже считаю успехом: подобное движение камеры в сцене с таким количеством персонажей и выполнением актерских задач я не встречала.
Ну и напоследок простенькая задача – войти в кадр. Героиня должна решительно подняться на фоне голубого неба.
Тут удалось уговорить Veo3, но у него нет последнего фрейма, а первый у меня – небо. Как «объяснить» ему, какая именно героиня должна появиться? Задаю первым фреймом не пустой кадр, а уже стоящую там героиню и заставляю ее поприседать, отрезаю начало, получаю появление нужного персонажа. Похожим образом действую, если стоящий к нам спиной персонаж должен обернуться на камеру или выглянуть из-за угла, и мы должны увидеть нужное лицо.
Выводы
Антикинематографичный по своей природе ИИ-фильммейкинг не предполагает наличие сценического мышления у пользователя. Он слепит мишурным блеском, но не справляется со скромными задачами: перекрыть передний план, выдержать нужную паузу. Это не оценочное утверждение, я не лью воду на мельницу славянофилов от режиссуры. Подход к генеративному видео как к кино по дешевке пока дает суррогаты. Здесь нужен иной материал, я бы ввела термин «нейрографичный», по аналогии с «кинематографичный», который бы учитывал особенности работы генераторов и их визуальный язык. Из этих исследований в будущем родятся все придумки и художественные достижения, и еще когда ИИ-кино перестанет притворяться кино.
Я продолжу исследовать, а вы пока посмотрите клип здесь, он получился симпатичный.
Praytmen
ИИ как инструмент поиска, отработки модели (черновик). Да если разворачивать систему локально, можно получить большее, только большее придется изначально вложить, окупится ли. Было бы интересно поработать совместно.
А статья как раз из разряда нужных для тех кто в поиске.