Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.
Ключевой акцент сделан на эффективности: модель компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до предобучения и тонкой настройки. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости.
В этом посте мы подробно разберём устройство Kandinsky 5.0 Video Lite и её возможности.
Архитектура
Как это обычно принято в современных генеративных моделях, мы используем пайплайн латентной диффузии в парадигме Flow matching, а для архитектуры основной части берём диффузионный трансформер (DiT) с перекрёстным вниманием на текстовые эмбеддинги. Текстовые представления мы получаем от модели Qwen2.5-VL, а в качестве визуального автокодировщика используем 3D VAE модели HunyuanVideo. Архитектура основной части является нашей собственной разработкой, поэтому давайте рассмотрим её схему:

Модель принимает четыре разные сущности:
text — эмбеддинги текстового описания видео, полученные от модели Qwen2.5-VL, по архитектуре являющейся декодером трансформера. Для текста также формируются одномерные позиционные эмбеддинги, получаемые с помощью механизма Rotary Position Encoding. Они вместе с текстовыми эмбеддингами являются входными данными для модуля Linguistic Token Refiner, который служит дополнительным обработчиком текстового запроса для входа в DiT. Подробнее об этом механизме можно узнать, например, из этой статьи.
time — значение времени в процессе диффузии, подающееся на вход блоку, состоящему из синусоидального энкодинга (SE) и полносвязнного слоя.
CLIP text embedding — один текстовый CLIP-эмбеддинг всего описания видео, добавляемый к значению времени, пропущенному через синусоидальное кодирование и полносвязный слой.
visual — видеолатенты, полученные от VAE модели HunyuanVideo. Для видео формируются трёхмерные Rotary Position эмбеддинги.
Ключевым элементом архитектуры нашего диффузионного трансформера является блок CrossDiT, устройство которого мы сейчас обсудим.
Устройство блока CrossDiT

В основе архитектуры блока CrossDiT — классические residual connections: три последовательно идущих подблока, отвечающих за механизмы self-attention, cross-attention и слой feed forward. Сумма выходных результатов работы первых двух блоков с входными визуальными латентами изображена на схеме знаком «+».
Преимущества такой архитектуры с перекрёстным вниманием на текстовые эмбеддинги заключаются в лучшей совместимости с разреженными типами механизмов внимания, необходимых для обработки видео разной длины в одном батче. Для сравнения, в архитектуре MMDiT, которую мы использовали в Kandinsky 4.0, приходилось вводить операцию конкатенации, которая сильно замедляла обучение. В новой версии модели нам удалось этого избежать.
Кроме того, нами был разработан новый метод блочно-разреженного внимания NABLA, который позволил до трёх раз сократить время обучения и инференса модели без потери качества генерации. Этот вариант внимания мы используем при генерации 10-секундных роликов, когда квадратичная сложность классического механизма полного внимания относительно длины контекста влияет на скорость работы модели особенно сильно.
Обучение модели

Обучение всех современных диффузионных моделей генерации видео включает в себя фазы предобучения (Pretrain) и дообучения на высококачественных данных (SFT). Предобучение проводят на огромном датасете автоматически отфильтрованных данных: видеосцен и изображений с текстовыми описаниями. Модель формирует базовое представление о пространственно-временной структуре видео, типичных визуальных паттернах, а также получает все основные знания, в том числе об объектах и стилях русского культурного кода. Дообучение обычно проводят на небольшом, но высококачественном, вручную отобранном датасете. SFT повышает временную согласованность кадров, улучшает передачу динамики движения и фотореалистичность. Сочетание этих этапов обеспечивает баланс между обобщающей способностью модели и качеством финальной генерации.
Предобучение (Pretrain)
Для получения pretrain-датасета мы собрали огромный массив из 6 млрд изображений и 35 миллионов видео, которые затем нарезали (с помощью детектора смены сцены pyscenedetect) на 1,5 миллиарда коротких сцен от 2 до 60 секунд. После этого отфильтровали сэмплы:
со слишком низким разрешением: до 256 пикселей по меньшей стороне;
дубли и очень похожие;
с водяными знаками;
перегруженные текстом (фотографии документов и т.д.);
недостаточно динамичные.
Из оставшихся данных мы выбрали 124 миллиона сцен и 520 миллионов изображений, наиболее эстетичных и технически качественных. При обучении диффузионной модели для каждого видео и изображения необходимо его текстовое описание, Мы сгенерировали их с помощью VLM-моделей: InternVL2 и Qwen2.5-VL — для картинок и Tarsier2 — для видео.
Помимо основного датасета, мы дополнительно уделили внимание данным, включающим в себя объекты русского культурного кода. Чтобы модель знала героев русских сказок и мультфильмов, национальную архитектуру, традиционные элементы быта, декоративно-прикладного искусства и т. д., мы вручную (пользуясь разработанной нами таксономией) собрали коллекцию из 230 тысяч сцен и 769 тысяч изображений.
Статистика содержимого нашего pretrain-датасета



Процедура предобучения (Pretrain)
Собрав датасет, мы приступили к предобучению модели. Это многоступенчатый процесс (см. Схему 3):
Этап 1. Модель учится на датасете, состоящем только из изображений с разрешением 256p, то есть с длиной меньшей стороны 256 пикселей.
Этап 2. Добавляем в датасет короткие видео в том же разрешении, и модель учится генерировать видео до 5 секунд как по текстовым описаниям, так и с использованием входного стартового изображения.
Этап 3. Повышаем разрешение видео и изображений до 512p.
Этап 3.1. Увеличиваем максимальную длину видео до 10 секунд.
В результате мы получили две версии модели, готовых к дообучению на SFT-датасете: одна для генерации пятисекундных видео, вторая — для десятисекундных.
Дообучение на высококачественных данных (SFT)
Отбором наиболее качественных и эстетичных изображений и видео для SFT-датасета занималась команда из профессиональных художников и дизайнеров. При том, что в экспертную разметку попадали данные только из хороших источников и прошедшие автоматические фильтры, из них было отобрано лишь 5% изображений и 3% видеосцен. Хотя даже небольшое смягчение требований приводило к кратному росту количества данных, наилучшее качество показали модели, обученные пусть и на небольшом, но сверхкачественном датасете, содержащем около 3 тысяч видео и 50 тысяч картинок.

Процедура дообучения (SFT)
Мы провели дообучение как для пятисекундной версии pretrain-модели, и для десятисекундной. Наилучший результат показал метод дообучения на основе супирования моделей: на данных каждого домена (см. Схему 4) обучали отдельную модель, после чего усредняли веса полученных моделей. Мы пробовали подбирать весовые коэффициенты индивидуально для разных доменов, но это не дало значительного прироста качества по сравнению с обычным усреднением. Интересно, что каждая доменная модель получается переобученной и генерирует значительное количество артефактов, но при этом усреднённая не показывает заметных признаков переобучения.
Мы также экспериментировали с дообучением без супирования, варьируя параметры фильтрации датасета и гиперпараметры модели, однако результаты были значительно ниже, чем с супированием. Модель быстро переобучалась (для 5-секундной модели лучшим был выбран чекпоинт после всего 10 тысяч шагов оптимизатора с ЕМА), и качество генераций начинает снижаться.
Ускорение и оптимизации
Для ускорения инференса модели и снижения требуемой GPU-памяти, мы использовали следующие методы:
Компиляция модели. Особенность нашего подхода состояла в ��ом, что простой вызов torch.compile работает далеко не оптимально. Мы профилировали модель, детально исследовали трассировки работы операторов и переписали код модели так, чтобы минимизировать простои на GPU. Это позволило уменьшить время генерации базовой (SFT) моделью на 27%, со 190 до 139 секунд.
Кэширование. Известно, что при достаточно большом числе шагов диффузии расшумляемые латентные представления зачастую не сильно отличаются между двумя последовательными шагами. Этот эффект лежит в основе кэширования латентов и пропуска части шагов — главное, научиться решать, будем ли мы на данном шаге делать полный инференс модели или переиспользуем латенты с прошлого шага. Для этого мы адаптировали метод MagCache, что позволило ускорить инференс скомпилированной SFT модели ещё на 47%, со 139 до 74 секунд.
Использование оперативной памяти (RAM). Для оптимизации памяти мы использовали отгрузку неиспользуемых в данный момент частей модели из памяти GPU в оперативную. Например, когда мы выполняем процесс диффузии, можно оставить в памяти GPU только диффузионный трансформер, а текстовый энкодер и декодер VAE отгрузить в оперативную память. Когда процесс диффузии завершён, и мы получили латентные представления сгенерированного видео, то, наоборот, диффузионный трансформер можно отгрузить в RAM, а декодер VAE загрузить обратно на GPU. Эта операция не бесплатная и немного замедляет инференс (в пределах 10%), но позволяет снизить потребление видеопамяти на 35%, с 65 до 42 ГБ.
Оптимизация токенизации. Чтобы оптимизировать автоэнкодер Hunyan VAE, мы существенно переработали оригинальный код модели и исправили несколько неточностей. В частности, существенно переработали механизм тайлинга данных. Так как тензоры видеоданных очень большие модель не может обработать их за один вызов, поэтому требуется аккуратно нарезать их на части по пространственным и временным измерениям и обработать по частям. Мы оптимизировали эту процедуру и сделали её более совместимой с torch.compile, что позволило ускорить модель в 2,7 раза.
-
Дистилляция. На финальном этапе мы ускоряем модель с помощью так называемой classifier-free guidance (CFG) дистилляции с состязательным постобучением:
CFG-дистилляция — это классический способ дистилляции диффузионных моделей, предложенный в этой статье и основанный на идее о том, что можно обучить новую модель с использованием комбинации генераций предобученной модели в обусловленном (conditional) и необусловленном (unconditional) режиме. Это позволяет исключить необходимость двукратного вызова модели на каждом шаге инференса, что сокращает количество вызовов функции до 50 вместо 100. Согласно нашим оценкам качества, дистиллированная CFG-версия сохраняет все свойства оригинальной модели без заметного ухудшения текстуры, формы объектов, движений и качества соответствия текста и видео.
Дистилляция с состязательным постобучением. Здесь за основу мы взяли метод Latent Adversarial Diffusion Distillation (LADD), который применили к модели, предварительно обученной на CFG-дистилляции. В итоге это позволило еще сильнее уменьшить количество вызовов модели: до 16 в обратном диффузионном процессе.
Сравнение с другими моделями
Согласно замерам на известном бенчмарке для генерации видео VBench, наша модель, имея только 2 миллиарда параметров, демонстрирует лучшее качество в сравнении с моделями Wan 2.1 14B, Wan 2.2 5B и Wan 2.2 A14B MoE. Особенно заметно улучшение динамики видео и качества генерируемой сцены:

Также мы провели Side-By-Side оценку на основе человеческого восприятия, как наиболее релевантную метрику качества в задачах генерации. Для оценки качества мы использовали промпты из бенчмарка MovieGen, расширив их с помощью GigaChat, который добавил деталей.

Kandinsky уверенно обходит конкурентов в большинстве случаев. Исключение с точки зрения соответствия текстовому описанию составляют только модели Wan 2.1 14B и Wan 2.2 14B, однако Kandinsky 5.0 Video Lite значительно обходит их по визуальному качеству, несмотря на то, что у нее в 15 раз меньшее количество параметров.
Примеры генераций
Отдельно мы подчеркиваем возможности нашей модели в следующих категориях:
Изображения людей
Создание генераций с кинематографическим эффектом
Анимационный стиль
Животные и природа
Динамические сцены
Русская культура
Генерация текста на английском
Трансформация объектов
Заключение
В этой статье мы представили Kandinsky 5 Video Lite — новую модель генерации видео с открытым исходным кодом, которая является результатом наших последних исследований в области генеративных архитектур и их методов оптимизации. Модель демонстрирует лучшие результаты среди прочих подходов в своём классе, а также обладает хорошими знаниями о русской культуре.
Мы будем развивать направление, заданное этой работой, и в ближайшее время планируем выпустить обновление, которое будет обладать ещё более высоким качеством и поддержкой генерации русскоязычного текста.
Beta-тестирование
Подать заявку на участие в beta-тестировании описанных в этой статье моделей можно в телеграм-боте.
Авторский коллектив
Руководитель проекта: Денис Димитров
Руководители команд разработки: Владимир Архипкин, Владимир Корвяков, Николай Герасименко, Денис Пархоменко.
Авторы: Алексей Летуновский, Мария Ковалева, Иван Кириллов, Лев Новицкий, Денис Копосов, Дмитрий Михайлов, Анна Аверченкова, Андрей Шуткин, Юлия Агафонова, Ольга Ким, Анастасия Каргапольцева, Никита Киселев, Вячеслав Васильев, Анна Дмитриенко, Анастасия Мальцева, Кирилл Чернышев, Илья Васильев, Владимир Половников, Юрий Колабушин, Александр Белых, Михаил Мамаев, Семён Кормилицын, Анастасия Аляскина, Татьяна Никулина, Полина Гаврилова.
Ссылки
Комментарии (17)

IamSVP
30.09.2025 11:39Генерация текста на английском
А что там с великим могучим? Намного хуже результаты?

VArkhipkin Автор
30.09.2025 11:39Сегодня релиз генерации русского текста на картинках, можете там потестировать. А на видео русский язык ждите в Pro версии в конце осени. В Lite не успели докатить

GhoSt24601
30.09.2025 11:39На 1660s норм будет? позже 5070 мб возьму как раз для нейронок и около того

Inoriol
30.09.2025 11:39Вон там выше ответили что H100 с 96гб vrama или A100 с 80гб нужны. 5070 с её 12 гигабайтами врама в целом не самая хорошая цель именно для нейронок — если они цель, то лучше взять б/ушную 3090 с 24 гигами vram'а — это самая дешёвая опция у Нвидия для больших моделей.

GhoSt24601
30.09.2025 11:39Жесть. Эта нейронка для кого вообще?.. 7 миллионов за видяху. 3090 мусор сейчас, кст. Лучше уж 5080с на 24 взять, когда выйдет, но это ужн оверпрайс

VArkhipkin Автор
30.09.2025 11:39Как писал выше, мы докатим поддержку менее производительных GPU. 24 Gb vRAM будет хватать, меньше пока обещать не буду)

GhoSt24601
30.09.2025 11:3924 так это дофига. У людей вон 6-8 еще

Shannon
30.09.2025 11:3924 так это дофига. У людей вон 6-8 еще
В 24 гб можно полноценную большую Wan2.2 (T2V, I2V, S2V и Animate) засунуть в fp8/int8, с gguf квантованием ещё меньше. Для Wan2.2 есть ускоряющая лора, которая за 4 шага генерирует не плохой результат на 81 кадр (5 секунд в 16fps) за 50 секунд, удобно чтобы тестировать промпт, прежде чем перейти к полной генерации за 8-10 минут.
T2V:

wan2.2, gif уменьшена до 480p и 6fps 
wan2.2, gif уменьшена до 480p и 6fps I2V Чебурашка Киборг

wan2.2 lightx2v 4step 16fps, gif уменьшена до 320x320 и 6fps 
И кстати, по поводу промптов, вышла HunyuanImage 3.0, за счёт архитектуры она поддерживает промпты на разных языках, включая русский. И надписи тоже генерирует на русском.

HunyuanImage 3.0, промпт: Брутальный накачанный Гарри Поттер с голым торсом стоит в 3/4 колдует заклинание и в небе появляется рваная надпись "Привет ХАБР", ultra-realism, cinematic lighting, 8K

TomskDiver
30.09.2025 11:39VArkhipkin ai-forever/Kandinsky-5.0-T2V-Lite-sft-5s вроде весит 4,57Гб. Почему её нельзя запускать на обычных GPU? Я у себя на 5060 Ti с 16Гб запускаю квантованную Wan2.2-I2V-A14B (Q6_K) на 12Гб в ComfyUI.

VArkhipkin Автор
30.09.2025 11:39Есть Qwen, который сам по себе весит 14 Gb. Его планируем конвертировать в 8 бит.
Но основная проблема в VAE: тензоры на последних слоях весят ~35 Gb. Сейчас есть мысли, как можно обойти хранение в памяти полного тензора и обсчитывать последовательность сверток, аккумулируя значения только на выходе, но их ещё тестируем. Если эту проблему получится решить, то и до 8 Gb vRAM в теории можно будет сократить потребление.
censor2005
А какие, ориентировочно, ресурсы нужны для запуска этих моделей? хотя бы на минималках?
VArkhipkin Автор
Пока только H100 и A100, но мы докатим поддержку менее производительных GPU
BazilioMike
Видео выглядит размазанным по сравнению с другими подобными генераторами, в принципе, как и у самого генератора изображений Kandinsky 4 тоже слабая детализация и словно цвета блёклые.
А для GigaChat, я так понимаю, не выйдет никогда генератора видео только в Телеграме?
VArkhipkin Автор
Могу посоветовать сделать побольше генераций теми моделями, с которыми были сделаны сравнения. Kandinsky 4 по нашим SBS проигрывал Wan 2.1 1.3B, так что с Kandinsky 5 его даже сравнивать не стали (с Wan 2.1 1.3B SBS есть на github).
Релиз в GigaChat будет в скором времени. Релиз Pro версии будет в конце осени.