В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Модель получила множество позитивных отзывов, а мы — полезной обратной связи. По запросу разработчиков мы добавили поддержку инференса модели на домашних видеокартах (от 12 Гб), а также добавили код для адаптации модели под свои задачи с помощью LoRA-адаптеров. 

Неделю назад на конференции AI Journey мы объявили, что выкладываем в open source и все остальные модели линейки Kandinsky 5.0:

  • Kandinsky 5.0 Image Lite (6B) — лёгкие и универсальные модели для генерации и редактирования изображений в разрешении HD.

  • Kandinsky 5.0 Video Pro (19B) — наши самые мощные модели генерации видео по тексту и «оживления» изображений, генерирующие видеоролики до 10 секунд в HD-разрешении. Лучшее open source-решение на момент публикации, значительно превосходящее Wan 2.2 A14B и работающее на уровне Veo 3 по визуальному качеству и динамике.

Все модели ориентируются в русском культурном контексте, нативно работают с промтами на русском и английском языках и генерируют надписи на кириллице и латинице.

Более подробное описание моделей представлено у нас на GitHub, а желающие погрузиться в подробности устройства моделей и их обучения могут ознакомиться с технической статьей.

Семейство моделей Kandinsky 5.0
Семейство моделей Kandinsky 5.0

Архитектуру наших моделей мы подробно описали в статье о Kandinsky 5.0 Video Lite. Здесь мы расскажем о ключевых особенностях флагманских моделей Text-to-Video и Image-to-Video Pro, подходах к обучению Text-to-Image и Image Editing Lite, а также о техниках, которые позволили добиться высокого уровня качества генерации.

Kandinsky 5.0 Video Pro (19B)

В то время как Video Lite была оптимизирована для скорости и эффективности, цель Video Pro — высокое качество генерируемого видео. Что отличает Video Pro от Lite-версии:

  1. Высокое разрешение и различные варианты соотношения сторон. Lite-версия работает в разрешении до 512×768 пикселей, а Video Pro поддерживает генерацию в разрешении до 1024×1024, 1408×640 или 1280×768. Это позволяет создавать видео с высокой степенью детализации и сложной композицией.

  2. Более глубокая архитектура. Модель использует 60 блоков нашей архитектуры диффузионного трансформера CrossDiT с перекрёстным вниманием (против 32 в Lite) и увеличенную размерность эмбеддингов (4096 против 1792). Это позволяет ей лучше понимать сложные сцены и тонкие взаимосвязи между объектами.

  3. Оптимизации. Генерация 10-секундного видео в максимальном разрешении занимает значительное время и требует серьёзных вычислительных мощностей. Для этого мы внедрили различные техники оптимизации и ускорения, включая разработанный нами механизм разреженного внимания NABLA для работы с видеопоследовательностями.

  4. Высокое качество. Расширенный объём данных, тщательно отобранных экспертами-разметчиками для этапа supervised fine-tuning (SFT), позволил значительно повысить визуальное качество и естественность движения объектов в динамичных сценах.

Text-to-Video

Обучение модели генерации видео по тексту проводилось в несколько этапов:

  1. Предобучение. Начальная стадия, на которой модель изучала общие закономерности визуального мира на огромном наборе данных с более чем 250 миллионами видеосцен разной длины. Мы начали с низкого разрешений 256px и постепенно повысили его до 1024px. На этом этапе модель освоила базовые навыки генерации и понимания текста. Для создания видеомоделей мы использовали смешанное обучение, при котором модель одновременно решает задачи Text-to-Image, Text-to-Video и Image-to-Video в разных пропорциях.

  2. Контролируемое дообучение или supervised fine-tuning (SFT). На этом этапе мы перешли от количества к качеству. Тщательно отобрали самые качественные примеры, прошедшие многоступенчатую проверку, включая оценку экспертами с художественным образованием. Особенность нашего подхода — использование «model souping», о чём мы также рассказывали ранее в статье о Video Lite. Мы обучили отдельные модели на разных тематических доменах, а затем объединили их веса, что позволило значительно улучшить качество генерации:

    Яркая птица внезапно вырывается из большого спелого апельсина. Её оранжевые крылья быстро хлопают, когда она взмывает в воздух, оставляя за собой след из сверкающих капель апельсинового сока. Солнечный свет мерцает на блестящих оранжевых перьях птицы, создавая тёплое золотистое сияние. По мере того, как она поднимается всё выше, фон сменяется ярким оранжевым закатом, завершая эту сюрреалистичную и живую картину.

    Лошадь стремительно вырывается из стартовых ворот. Её копыта дробят грунт трека, а мускулы играют под глянцевой шкурой. С невероятной скоростью она устремляется вперёд, в яростном рывке за лидерство оставляя за собой лишь облако пыли. Камера неотрывно следует за этим порывом, передавая напряжённость момента. Солнце отбрасывает длинные тени на беговую дорожку, в то время как лошадь набирает скорость.

  3. Дистилляция. Мы создали версии моделей, которые работают значительно быстрее при небольшой потере качества. Чтобы уменьшить количество шагов генерации со 100 до 16, мы использовали комбинацию методов, включая Classifier-Free Guidance Distillation и Trajectory Segmented Consistency Distillation. Для финального улучшения визуального качества применили adversarial post-training.

В результате обучения получили модель с очень высокой эстетикой, консистентностью и динамикой:

Кинематографическое, исторически достоверное видео, действие которого происходит в гостиной русского дворянина XIX века. Изящная русская гимназистка играет на старинном рояле, сидя у большого окна. За окном видно маленькую православную церковь на холме

На рассвете в густом туманном лесу из подлеска выскакивает огромная горилла. Она несётся вперёд на полной скорости, с неудержимой силой прокладывая себе путь сквозь высокие деревья и ломая стволы.

Кинематографичный кадр вращается вокруг огромного яйца с переливчатыми фиолетовыми чешуйками, пронизанными мерцающими зелёными трещинами. Внезапно скорлупа раскрывается, и из неё появляется прекрасный детёныш дракона, оглядывающийся вокруг большими, невероятно трогательными глазами.

Кинематографичное, гиперреалистичное видео: огромный футуристический космический корабль совершает аварийную посадку в густых, покрытых туманом джунглях на рассвете. Деревья раскалываются

Image-to-Video

Учить модель генерации по стартовому кадру начали с чекпоинта, полученного после предобучения модели Text-to-Video, в два этапа:

  1. Полное дообучение модели на SFT-датасете, с учётом некоторых изменений архитектуры и процедуры обучения, описанных ниже. Этот этап дал модели базовое понимание того, что такое задача Image-to-Video. При этом каждое видео описывается не полностью, как в задаче Text-to-Video, а относительно его первого кадра.

  2. SFT model souping с усреднением по тематическим доменам, полностью аналогичное тому, что делается для задачи Text-to-Video, но для задачи Image-to-Video. Этот этап существенно повысил качество генерации.

Для обучения модели задаче Image-to-Video потребовалось несколько модификаций:

  1. Первый латентный кадр заполнили латентным представлением исходного изображения, которое требуется «оживить». Этот кадр, в отличие от последующих, не зашумлялся в процессе диффузии.

  2. Расширитель текстовых запросов на основе Qwen 2.5 VL, помимо самого промта, принимал на вход первый кадр. При этом системный промт для расширителя переписан таким образом, чтобы описать именно оживление первого кадра с учётом анализа его содержимого, а также пользовательского запроса.

Девочка с кудрявыми волосами стоит в поле полевых цветов, держит букет разноцветных цветов

Медведь поворачивает голову и поднимает лапу

Граффити сходит со стены и идёт по улице

Оценка качества Video Pro

Чтобы оценить качество модели, мы провели множество прямых сравнений, в том числе с лидером среди открытых моделей Wan 2.2 A14B и моделью Veo 3 от Google. Kandinsky 5.0 Video Pro показал очень высокие результаты, особенно в части визуального качества и динамики.

Side-By-Side сравнения
Side-By-Side сравнения

Оптимизации

Для повышения эффективности наших моделей на обучении и инференсе мы, помимо дистилляции шагов генерации, применили ряд оптимизаций:

  • Ускорение VAE-энкодера (на основе HunyuanVideo VAE) позволило достигнуть ускорения в 2,5 раза без потери качества. Мы оптимизировали тайлинг и генерацию масок внимания, добавили поддержку torch.compile.

  • Кеширование шагов диффузии на основе техники MagCache ускорило генерацию на 46 % без видимой потери качества.

  • Оптимизации механизма внимания, такие как Flash Attention, Sage Attention и наш метод NABLA для разных сценариев, позволили ускорить обработку визуальных данных высокого разрешения и длинных видео до 2,7 раз за счёт адаптивного блочно-разреженного внимания.

Kandinsky 5.0 Image Lite (6B)

Text-to-Image

Как и в случае с видео, обучение модели генерации изображений состоял из этапа предобучения на огромном — более 520 млн — датасете изображений и последующего дообучения на тщательно отобранных сверхкачественных примеров. Каждое из около 160 тысяч попавших в SFT-датасет изображений прошло многоступенчатую фильтрацию: набор автоматических фильтров, отбор обычными разметчиками по базовым критериям и, наконец, выбор экспертами с художественным образованием 1-3 % наиболее качественных изображений.

После этапа SFT модель начала генерировать достаточно эстетичные и качественные изображения, но результат можно было ещё улучшить, дообучив её с применением модели вознаграждения:

Обучение модели вознаграждения (Reward Model). Мы обучили специальную модель, воспользовавшись эвристическим подходом отбора пар для обучения: изображение 1, случайно выбранное из SFT-датасета, и изображение 2, сгенерированное с помощью SFT-модели по описанию изображения 1. Имея множество таких пар изображений, мы дообучили модель Qwen 2.5 VL предсказывать, какое из двух является реальным.

Дообучение генератора. Мы взяли нашу модель после этапа SFT и в течение небольшого количества шагов дообучали её, чтобы максимизировать «вознаграждение» от модели вознаграждения. При этом мы добавляли регуляризацию, чтобы модель не слишком отклонялась от своих исходных знаний. Этот метод, известный как DRaFT, позволил значительно улучшить реализм, детализацию, цветопередачу и общую эстетику генерируемых изображений без потери их разнообразия.

Ниже на примерах можно увидеть, как росло качество генерации изображений с этапа предобучения и до этапа RL. Цвета и свет стали более естественными, контуры — более чёткими, и всё изображение стало более детальным и проработанным.

Вот ещё несколько красивых примеров, в том числе с текстом на картинке и русским культурным кодом:

(а) Астронавт в стиле Кацухиро Отомо, летит в тёмном космосе.  (б) Фотография со вспышкой в ​​стиле 90-х, сделанная на цветную плёнку. Крупный план, зернистое винтажное изображение тюльпанов и ирисов, искусно составленных в прекрасную цветочную композицию. В композицию входят фиолетовые цветы, белые хризантемы, розовые ромашки, жёлтые лепестки тюльпанов и ярко-синие полевые цветы, зернистость плёнки.  (в) Ультрареалистичное изображение: мужчина читает книгу, сидя на стуле. Мужчина в чёрном костюме, узких туфлях. Вокруг него проходит множество людей. Размытость изображения на Таймс-сквер в Нью-Йорке. Камера расположена сверху на мужчину.
(а) Астронавт в стиле Кацухиро Отомо, летит в тёмном космосе. (б) Фотография со вспышкой в ​​стиле 90-х, сделанная на цветную плёнку. Крупный план, зернистое винтажное изображение тюльпанов и ирисов, искусно составленных в прекрасную цветочную композицию. В композицию входят фиолетовые цветы, белые хризантемы, розовые ромашки, жёлтые лепестки тюльпанов и ярко-синие полевые цветы, зернистость плёнки. (в) Ультрареалистичное изображение: мужчина читает книгу, сидя на стуле. Мужчина в чёрном костюме, узких туфлях. Вокруг него проходит множество людей. Размытость изображения на Таймс-сквер в Нью-Йорке. Камера расположена сверху на мужчину.
Ночной лесной пейзаж возле уютно потрескивающего костра. Над огнём поднимаются мерцающие золотистые искры, складывающиеся в светящуюся надпись "ТЁПЛЫЙ ВЕЧЕР". Искры медленно взлетают вверх, создавая волшебную атмосферу. Тёмное небо усыпано звёздами; лёгкий ночной ветерок колышет ветви деревьев. Детальная прорисовка огня, теней и света создаёт ощущение тепла и уюта. Реалистичное фотоизображение с высоким разрешением, акцент на мягком освещении и воздушной перспективе.
Ночной лесной пейзаж возле уютно потрескивающего костра. Над огнём поднимаются мерцающие золотистые искры, складывающиеся в светящуюся надпись "ТЁПЛЫЙ ВЕЧЕР". Искры медленно взлетают вверх, создавая волшебную атмосферу. Тёмное небо усыпано звёздами; лёгкий ночной ветерок колышет ветви деревьев. Детальная прорисовка огня, теней и света создаёт ощущение тепла и уюта. Реалистичное фотоизображение с высоким разрешением, акцент на мягком освещении и воздушной перспективе.
На деревянной разделочной доске рустикальными буквами из хлебного теста выложено слово "ДОМ". Буквы имеют аппетитную золотисто-коричневую подрумяненную корочку, поверх которой рассыпаны мелкие кристаллы морской соли, создающие эффект деликатной хрустящей посыпки. Справа от надписи слегка размывается теплая керамическая чашка с ароматным свежесваренным кофе; над поверхностью кружится едва заметный пар. Мягкий уютный свет раннего утра мягко струится сквозь окно, создавая теплую атмосферу домашнего спокойствия и комфорта. Детальная прорисовка текстур хлеба, дерева и пара подчеркивает натуральность и естественность сцены. Реалистичное фото, высокое качество, акцент на текстуре и освещении.
На деревянной разделочной доске рустикальными буквами из хлебного теста выложено слово "ДОМ". Буквы имеют аппетитную золотисто-коричневую подрумяненную корочку, поверх которой рассыпаны мелкие кристаллы морской соли, создающие эффект деликатной хрустящей посыпки. Справа от надписи слегка размывается теплая керамическая чашка с ароматным свежесваренным кофе; над поверхностью кружится едва заметный пар. Мягкий уютный свет раннего утра мягко струится сквозь окно, создавая теплую атмосферу домашнего спокойствия и комфорта. Детальная прорисовка текстур хлеба, дерева и пара подчеркивает натуральность и естественность сцены. Реалистичное фото, высокое качество, акцент на текстуре и освещении.
Машина ВАЗ 2107 в стиле хохлома
Машина ВАЗ 2107 в стиле хохлома
Надпись "Счастливое ДЕТСТВО" из цветных мыльных пузырей по центру детской комнаты с медвежатами и игрушками
Надпись "Счастливое ДЕТСТВО" из цветных мыльных пузырей по центру детской комнаты с медвежатами и игрушками

Image Editing

Kandinsky 5.0 Image Editing, модель редактирования изображений по текстовой инструкции, обучили на специальном датасете пар «исходное изображение — отредактированное изображение — инструкция», который мы собирали следующим образом:

  1. Поиск пар. Мы собрали 240 миллионов изображений и нашли визуально похожие пары, используя одновременно CLIP (семантическое сходство) и DINOv2 (визуальное сходство).

  2. Верификация. Каждая потенциальная пара прошла строгую геометрическую проверку с помощью алгоритма LoFTR и RANSAC, чтобы отсечь простые кропы и найти реальные правки (например, добавление объекта, смену стиля).

  3. Генерация инструкций. Для каждой верифицированной пары мы с помощью дообученной модели GLM 4.5 сгенерировали детальное текстовое описание правки.

В результате мы получили 150 миллионов высококачественных пар изображений с инструкциями, которые стали основой для обучения модели редактированию. Обученная модель позволяет выполнять достаточно сложные и разнообразные виды редактирования:

Оценка качества Image Lite

Мы также провели ряд Side-By-Side сравнений, чтобы оценить качество работы наших моделей относительно наиболее сильных на момент публикации open-source решений: 

Side-By-Side сравнения
Side-By-Side сравнения

Заключение

Открывая всю линейку Kandinsky 5.0, мы делаем следующий шаг к тому, чтобы современные генеративные модели становились доступными всем: исследователям, разработчикам, компаниям и творческим командам. Мы продолжим развивать архитектуры моделей и процедуры обучения, улучшая качество, расширяя функциональность и поддерживая сообщество, которое проводит на основе моделей Kandinsky исследования и создаёт новые продукты. Спасибо всем, кто делится идеями, тестирует модели и помогает нам двигаться вперёд. 

Модели Kandinsky 5.0 Image Lite и Video Pro уже доступны на всех площадках GigaChat: Telegram, мессенджере Max, веб-сайте giga.chat, а также в приложении GigaChat на Android.

Авторы

Video: Алексей Летуновский, Мария Ковалева, Лев Новицкий, Денис Копосов, Дмитрий Михайлов, Анастасия Каргапольцева, Анна Дмитриенко, Анастасия Мальцева

Image & Editing: Николай Ваулин, Никита Киселёв, Александр Варламов

Pre-training Data: Иван Кириллов, Андрей Шуткин, Николай Ваулин, Илья Васильев

Post-training Data: Юлия Агафонова, Анна Аверченкова, Ольга Ким

Research Consolidation & Paper: Вячеслав Васильев, Владимир Половников

Участники: Юрий Колабушин, Кирилл Чернышев, Александр Белых, Михаил Мамаев, Анастасия Аляскина, Семён Кормилицын, Татьяна Никулина, Ольга Вдовченко, Полина Михайлова, Полина Гаврилова, Никита Остёров, Булат Ахматов

Руководители треков: Владимир Архипкин, Владимир Корвяков, Николай Герасименко, Денис Пархоменко

Руководитель проекта: Денис Димитров

Ссылки

Комментарии (2)


  1. Kanalja
    28.11.2025 13:04

    Зашел в гигачат бота, спросил про редактирование фото - вот ответ ))


    1. Kanalja
      28.11.2025 13:04

      пардон, не увидел, что в чате модель Kandinsky 5.0 Image Lite