Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.

Ключевой акцент сделан на эффективности: модель компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до предобучения и тонкой настройки. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости.

В этом посте мы подробно разберём устройство Kandinsky 5.0 Video Lite и её возможности.

Архитектура

Как это обычно принято в современных генеративных моделях, мы используем пайплайн латентной диффузии в парадигме Flow matching, а для архитектуры основной части берём диффузионный трансформер (DiT) с перекрёстным вниманием на текстовые эмбеддинги. Текстовые представления мы получаем от модели Qwen2.5-VL, а в качестве визуального автокодировщика используем 3D VAE модели HunyuanVideo. Архитектура основной части является нашей собственной разработкой, поэтому давайте рассмотрим её схему:

Схема 1. Архитектура Kandinsky Video Lite
Схема 1. Архитектура Kandinsky Video Lite

Модель принимает четыре разные сущности:

  1. text — эмбеддинги текстового описания видео, полученные от модели Qwen2.5-VL, по архитектуре являющейся декодером трансформера. Для текста также формируются одномерные позиционные эмбеддинги, получаемые с помощью механизма Rotary Position Encoding. Они вместе с текстовыми эмбеддингами являются входными данными для модуля Linguistic Token Refiner, который служит дополнительным обработчиком текстового запроса для входа в DiT. Подробнее об этом механизме можно узнать, например, из этой статьи.

  2. time — значение времени в процессе диффузии, подающееся на вход блоку, состоящему из синусоидального энкодинга (SE) и полносвязнного слоя.

  3. CLIP text embedding — один текстовый CLIP-эмбеддинг всего описания видео, добавляемый к значению времени, пропущенному через синусоидальное кодирование и полносвязный слой.

  4. visual — видеолатенты, полученные от VAE модели HunyuanVideo. Для видео формируются трёхмерные Rotary Position эмбеддинги.

Ключевым элементом архитектуры нашего диффузионного трансформера является блок CrossDiT, устройство которого мы сейчас обсудим.

Устройство блока CrossDiT

Схема 2. Блок CrossDiT
Схема 2. Блок CrossDiT

В основе архитектуры блока CrossDiT — классические residual connections: три последовательно идущих подблока, отвечающих за механизмы self-attention, cross-attention и слой feed forward. Сумма выходных результатов работы первых двух блоков с входными визуальными латентами изображена на схеме знаком «+».

Преимущества такой архитектуры с перекрёстным вниманием на текстовые эмбеддинги заключаются в лучшей совместимости с разреженными типами механизмов внимания, необходимых для обработки видео разной длины в одном батче. Для сравнения, в архитектуре MMDiT, которую мы использовали в Kandinsky 4.0, приходилось вводить операцию конкатенации, которая сильно замедляла обучение. В новой версии модели нам удалось этого избежать.

Кроме того, нами был разработан новый метод блочно-разреженного внимания NABLA, который позволил до трёх раз сократить время обучения и инференса модели без потери качества генерации. Этот вариант внимания мы используем при генерации 10-секундных роликов, когда квадратичная сложность классического механизма полного внимания относительно длины контекста влияет на скорость работы модели особенно сильно.

Обучение модели

Схема 3. Этапы обучения Kandinsky Video Lite
Схема 3. Этапы обучения Kandinsky Video Lite

Обучение всех современных диффузионных моделей генерации видео включает в себя фазы предобучения (Pretrain) и дообучения на высококачественных данных (SFT). Предобучение проводят на огромном датасете автоматически отфильтрованных данных: видеосцен и изображений с текстовыми описаниями. Модель формирует базовое представление о пространственно-временной структуре видео, типичных визуальных паттернах, а также получает все основные знания, в том числе об объектах и стилях русского культурного кода. Дообучение обычно проводят на небольшом, но высококачественном, вручную отобранном датасете. SFT повышает временную согласованность кадров, улучшает передачу динамики движения и фотореалистичность. Сочетание этих этапов обеспечивает баланс между обобщающей способностью модели и качеством финальной генерации.

Предобучение (Pretrain)

Для получения pretrain-датасета мы собрали огромный массив из 6 млрд изображений и 35 миллионов видео, которые затем нарезали (с помощью детектора смены сцены pyscenedetect) на 1,5 миллиарда коротких сцен от 2 до 60 секунд. После этого отфильтровали сэмплы:

  1. со слишком низким разрешением: до 256 пикселей по меньшей стороне;

  2. дубли и очень похожие;

  3. с водяными знаками;

  4. перегруженные текстом (фотографии документов и т.д.);

  5. недостаточно динамичные.

Из оставшихся данных мы выбрали 124 миллиона сцен и 520 миллионов изображений, наиболее эстетичных и технически качественных. При обучении диффузионной модели для каждого видео и изображения необходимо его текстовое описание, Мы сгенерировали их с помощью VLM-моделей: InternVL2 и Qwen2.5-VL — для картинок и Tarsier2 — для видео.

Помимо основного датасета, мы дополнительно уделили внимание данным, включающим в себя объекты русского культурного кода. Чтобы модель знала героев русских сказок и мультфильмов, национальную архитектуру, традиционные элементы быта, декоративно-прикладного искусства и т. д., мы вручную (пользуясь разработанной нами таксономией) собрали коллекцию из 230 тысяч сцен и 769 тысяч изображений.

Статистика содержимого нашего pretrain-датасета
Диаграмма распределения видео по их длительности.
Диаграмма распределения видео по их длительности.

Процедура предобучения (Pretrain)

Собрав датасет, мы приступили к предобучению модели. Это многоступенчатый процесс (см. Схему 3):

Этап 1. Модель учится на датасете, состоящем только из изображений с разрешением 256p, то есть с длиной меньшей стороны 256 пикселей.

Этап 2. Добавляем в датасет короткие видео в том же разрешении, и модель учится генерировать видео до 5 секунд как по текстовым описаниям, так и с использованием входного стартового изображения.

Этап 3. Повышаем разрешение видео и изображений до 512p.

Этап 3.1. Увеличиваем максимальную длину видео до 10 секунд.

В результате мы получили две версии модели, готовых к дообучению на SFT-датасете: одна для генерации пятисекундных видео, вторая — для десятисекундных.

Дообучение на высококачественных данных (SFT)

Отбором наиболее качественных и эстетичных изображений и видео для SFT-датасета занималась команда из профессиональных художников и дизайнеров. При том, что в экспертную разметку попадали данные только из хороших источников и прошедшие автоматические фильтры, из них было отобрано лишь 5% изображений и 3% видеосцен. Хотя даже небольшое смягчение требований приводило к кратному росту количества данных, наилучшее качество показали модели, обученные пусть и на небольшом, но сверхкачественном датасете, содержащем около 3 тысяч видео и 50 тысяч картинок.

Схема 4. Распределение SFT-датасета по доменам
Схема 4. Распределение SFT-датасета по доменам

Процедура дообучения (SFT)

Мы провели дообучение как для пятисекундной версии pretrain-модели, и для десятисекундной. Наилучший результат показал метод дообучения на основе супирования моделей: на данных каждого домена (см. Схему 4) обучали отдельную модель, после чего усредняли веса полученных моделей. Мы пробовали подбирать весовые коэффициенты индивидуально для разных доменов, но это не дало значительного прироста качества по сравнению с обычным усреднением. Интересно, что каждая доменная модель получается переобученной и генерирует значительное количество артефактов, но при этом усреднённая не показывает заметных признаков переобучения.

Мы также экспериментировали с дообучением без супирования, варьируя параметры фильтрации датасета и гиперпараметры модели, однако результаты были значительно ниже, чем с супированием. Модель быстро переобучалась (для 5-секундной модели лучшим был выбран чекпоинт после всего 10 тысяч шагов оптимизатора с ЕМА), и качество генераций начинает снижаться.

Ускорение и оптимизации

Для ускорения инференса модели и снижения требуемой GPU-памяти, мы использовали следующие методы:

  1. Компиляция модели. Особенность нашего подхода состояла в том, что простой вызов torch.compile работает далеко не оптимально. Мы профилировали модель, детально исследовали трассировки работы операторов и переписали код модели так, чтобы минимизировать простои на GPU. Это позволило уменьшить время генерации базовой (SFT) моделью на 27%, со 190 до 139 секунд.

  2. Кэширование. Известно, что при достаточно большом числе шагов диффузии расшумляемые латентные представления зачастую не сильно отличаются между двумя последовательными шагами. Этот эффект лежит в основе кэширования латентов и пропуска части шагов — главное, научиться решать, будем ли мы на данном шаге делать полный инференс модели или переиспользуем латенты с прошлого шага. Для этого мы адаптировали метод MagCache, что позволило ускорить инференс скомпилированной SFT модели ещё на 47%, со 139 до 74 секунд.

  3. Использование оперативной памяти (RAM). Для оптимизации памяти мы использовали отгрузку неиспользуемых в данный момент частей модели из памяти GPU в оперативную. Например, когда мы выполняем процесс диффузии, можно оставить в памяти GPU только диффузионный трансформер, а текстовый энкодер и декодер VAE отгрузить в оперативную память. Когда процесс диффузии завершён, и мы получили латентные представления сгенерированного видео, то, наоборот, диффузионный трансформер можно отгрузить в RAM, а декодер VAE загрузить обратно на GPU. Эта операция не бесплатная и немного замедляет инференс (в пределах 10%), но позволяет снизить потребление видеопамяти на 35%, с 65 до 42 ГБ.

  4. Оптимизация токенизации. Чтобы оптимизировать автоэнкодер Hunyan VAE, мы существенно переработали оригинальный код модели и исправили несколько неточностей. В частности, существенно переработали механизм тайлинга данных. Так как тензоры видеоданных очень большие модель не может обработать их за один вызов, поэтому требуется аккуратно нарезать их на части по пространственным и временным измерениям и обработать по частям. Мы оптимизировали эту процедуру и сделали её более совместимой с torch.compile, что позволило ускорить модель в 2,7 раза.

  5. Дистилляция. На финальном этапе мы ускоряем модель с помощью так называемой classifier-free guidance (CFG) дистилляции с состязательным постобучением:

    1. CFG-дистилляция — это классический способ дистилляции диффузионных моделей, предложенный в этой статье и основанный на идее о том, что можно обучить новую модель с использованием комбинации генераций предобученной модели в обусловленном (conditional) и необусловленном (unconditional) режиме. Это позволяет исключить необходимость двукратного вызова модели на каждом шаге инференса, что сокращает количество вызовов функции до 50 вместо 100. Согласно нашим оценкам качества, дистиллированная CFG-версия сохраняет все свойства оригинальной модели без заметного ухудшения текстуры, формы объектов, движений и качества соответствия текста и видео.

    2. Дистилляция с состязательным постобучением. Здесь за основу мы взяли метод Latent Adversarial Diffusion Distillation (LADD), который применили к модели, предварительно обученной на CFG-дистилляции. В итоге это позволило еще сильнее уменьшить количество вызовов модели: до 16 в обратном диффузионном процессе.

Сравнение с другими моделями

Согласно замерам на известном бенчмарке для генерации видео VBench, наша модель, имея только 2 миллиарда параметров, демонстрирует лучшее качество в сравнении с моделями Wan 2.1 14B, Wan 2.2 5B и Wan 2.2 A14B MoE. Особенно заметно улучшение динамики видео и качества генерируемой сцены:

Также мы провели Side-By-Side оценку на основе человеческого восприятия, как наиболее релевантную метрику качества в задачах генерации. Для оценки качества мы использовали промпты из бенчмарка MovieGen, расширив их с помощью GigaChat, который добавил деталей.

Kandinsky уверенно обходит конкурентов в большинстве случаев. Исключение с точки зрения соответствия текстовому описанию составляют только модели Wan 2.1 14B и Wan 2.2 14B, однако Kandinsky 5.0 Video Lite значительно обходит их по визуальному качеству, несмотря на то, что у нее в 15 раз меньшее количество параметров.

Примеры генераций

Отдельно мы подчеркиваем возможности нашей модели в следующих категориях:

Изображения людей

Создание генераций с кинематографическим эффектом

Анимационный стиль

Животные и природа

Динамические сцены

Русская культура

Генерация текста на английском

Трансформация объектов

Заключение

В этой статье мы представили Kandinsky 5 Video Lite — новую модель генерации видео с открытым исходным кодом, которая является результатом наших последних исследований в области генеративных архитектур и их методов оптимизации. Модель демонстрирует лучшие результаты среди прочих подходов в своём классе, а также обладает хорошими знаниями о русской культуре. 

Мы будем развивать направление, заданное этой работой, и в ближайшее время планируем выпустить обновление, которое будет обладать ещё более высоким качеством и поддержкой генерации русскоязычного текста.

Beta-тестирование

Подать заявку на участие в beta-тестировании описанных в этой статье моделей можно в телеграм-боте.

Авторский коллектив

Руководитель проекта: Денис Димитров

Руководители команд разработки: Владимир Архипкин, Владимир Корвяков, Николай Герасименко, Денис Пархоменко.

Авторы: Алексей Летуновский, Мария Ковалева, Иван Кириллов, Лев Новицкий, Денис Копосов, Дмитрий Михайлов, Анна Аверченкова, Андрей Шуткин, Юлия Агафонова, Ольга Ким, Анастасия Каргапольцева, Никита Киселев, Вячеслав Васильев, Анна Дмитриенко, Анастасия Мальцева, Кирилл Чернышев, Илья Васильев, Владимир Половников, Юрий Колабушин, Александр Белых, Михаил Мамаев, Анастасия Алиаскина, Татьяна Никулина, Полина Гаврилова.

Ссылки

Комментарии (2)


  1. censor2005
    30.09.2025 11:39

    А какие, ориентировочно, ресурсы нужны для запуска этих моделей? хотя бы на минималках?


    1. VArkhipkin Автор
      30.09.2025 11:39

      Пока только H100 и A100, но мы докатим поддержку менее производительных GPU