Привет, Хабр! Меня зовут Сергей Чекменев, я тимлид ML-команды развития массового промо и монетизации центра развития ML-решений клиентской персонализации в MAGNIT TECH. В этой статье расскажу про наш MVP-проект PromoPersona – сервис автоматической генерации персонализированных промо-коллажей: что именно мы построили с технической точки зрения, как интегрировали модель FLUX.2 и почему именно ее,  и какие инженерные задачи пришлось решить. Отдельная благодарность коллегам по команде и нашему руководителю центра Максиму Горынцову.

Проблема: стандартный коллаж стал фоновым шумом

Ритейл – это постоянный поток промо-кампаний: сотни акций в месяц, тысячи SKU, множество каналов коммуникации. За каждой маркетинговой кампанией стоит визуальный контент – баннеры в приложении, пуш-уведомления, карточки офферов. Исторически этот контент создавался по единому принципу: берём фотографию продукта, добавляем плашку со скидкой, рассылаем всей аудитории. Быстро, дёшево – и одинаково для матери-домохозяйки с детьми и для одинокого студента.

Проблема в том, что покупатели выработали устойчивый иммунитет к обобщённым рекламным форматам. Взгляд скользит по шаблонному изображению, не задерживаясь: мозг распознаёт рекламу «для всех» и фильтрует её как фоновый шум. Когда же визуал попадает в личный контекст механизм восприятия меняется. Один и тот же кусок ветчины может быть утренним семейным теплом для одного, осознанным белковым перекусом для другого и атрибутом изысканного стола для третьего – и это не манипуляция, это уважение к разным жизненным контекстам.

Масштабировать персонализированный контент вручную невозможно экономически: даже при штате из нескольких десятков дизайнеров производство уникальных визуалов под каждый из 13 сегментов, для сотен акций и тысяч позиций каталога – задача с запредельной стоимостью. Значит, нужна автоматизация.

Генеративные модели к концу 2025: звёзды сошлись для ритейла

Если бы эта идея возникла два-три года назад, мы бы столкнулись с жёсткими техническими ограничениями. Стабильно генерировать персонализированные сцены под заданный профиль, встраивать в них конкретные объекты с сохранением визуальной идентичности и при этом выдерживать продуктовые метрики качества – всё это в условиях реальных рабочих процессов было задачей, посильной разве что крупным исследовательским лабораториям, но никак не продуктовой ML-команде внутри ритейл-компании. Конец 2025 года изменил расклад.

FLUX.2 – 32 миллиарда параметров в деле

В ноябре 2025 года компания Black Forest Labs выпустила FLUX.2 – flow-matching трансформер на 32 миллиарда параметров с полностью переработанным латентным пространством. Модель умеет создавать и редактировать изображения разрешением до 4 мегапикселей, принимать до десяти референсных снимков одновременно и поддерживать визуальную консистентность объекта – продукт на выходе остаётся собой вне зависимости от окружения. Физически корректные тени, освещение, отражения. Latency генерации – менее десяти секунд.

Qwen-Image-Edit – семантика встречает диффузию

Параллельно команда Alibaba Qwen выпустила Qwen-Image-Edit – 20-миллиардную модель на архитектуре MMDiT с нетривиальным подходом к вводу данных. Исходное изображение обрабатывается одновременно двумя ветками: Qwen2.5-VL отвечает за семантическое понимание сцены, VAE Encoder – за сохранение визуальных характеристик объекта. Это позволяет точечно менять фон, освещение, контекст, не трогая сам продукт.

Обе модели созданы с расчётом на реальные производственные процессы, а не на академические бенчмарки. Они поддерживают работу с несколькими референсами, замену элементов сцены, создание сложных композиций – с сохранением физически правдоподобного поведения света и материалов. Для продуктовых команд в ритейле это вполне конкретная вещь: автоматизация рутинной дизайнерской работы больше не предмет стратегических дискуссий на конференциях, а инженерная задача, решаемая силами небольшой ML-команды за разумный продуктовый цикл.

Оговоримся: рынок генеративных моделей для изображений в 2025–2026 не ограничивается двумя именами. Облачные решения от OpenAI и Google в ряде задач показывают сопоставимое или превосходящее качество – но ценой передачи данных во внешний контур, что в корпоративном ритейл-пайплайне сразу поднимает вопросы data governance. FLUX.2 и Qwen-Image-Edit выбраны как наиболее зрелые self-hosted альтернативы для деплоя на собственной инфраструктуре.

Что мы построили: архитектура MVP-сервиса

В основе сервиса три входных параметра: описание и фото товарной позиции, профиль целевого покупательского сегмента, опциональные креативные пожелания дизайнера. На выходе – промо-коллаж, где продукт органично вписан в жизненный контекст и визуальный антураж, точно настроенный под заданную аудиторию и характер самого продукта.

Пользователю не нужно формулировать промпт, подбирать визуальные архетипы, разбираться в настройках модели или прибегать к сторонним инструментам. Всё необходимое делается под капотом, дизайнер перестаёт быть узким местом в конвейере промо-контента и становится автором идей и креативным специалистом, а не исполнителем рутинных технических заданий.

Шаги пайплайна

  • Входные данные – фото и описание товарной позиции; текстовый профиль целевого покупательского сегмента (сформированный по результатам предшествующих CRM-исследований); опционально – вводные инструкции от дизайнера.

  • Автогенерация промпта – MagnitGPT, обученная на данных в контуре компании генеративная модель, в роли LLM-агента формирует детализированный текстовый промпт для диффузионной модели на основе профиля сегмента и описания товарной позиции: освещение, атмосферу, визуальные архетипы сцены и прочие параметры генерации.

  • Генерация через FLUX.2 – модель встраивает исходный объект в сгенерированную сцену, добавляя физически корректное освещение и тени; форма и текстура товара остаются неизменными.

Рис. 1. Архитектура MVP-сервиса PromoPersona – от входных данных до промо-коллажа. Слева: входные параметры (фото товара, описание, профиль сегмента, директивы дизайнера). В центре: блок генерации – LLM-агент (MagnitGPT) формирует промпт, FLUX.2 синтезирует сцену с latency < 10 секунд. Справа: интеграционный контур – REST API + асинхронная очередь, интеграция с PIM и CRM-платформой, дизайнерский интерфейс (следующая итерация).
Рис. 1. Архитектура MVP-сервиса PromoPersona – от входных данных до промо-коллажа. Слева: входные параметры (фото товара, описание, профиль сегмента, директивы дизайнера). В центре: блок генерации – LLM-агент (MagnitGPT) формирует промпт, FLUX.2 синтезирует сцену с latency < 10 секунд. Справа: интеграционный контур – REST API + асинхронная очередь, интеграция с PIM и CRM-платформой, дизайнерский интерфейс (следующая итерация).

Инфраструктура и производительность

Запуск диффузионных моделей класса 20–32B параметров требует соответствующего железа. Разработка и эксплуатация MVP велась на выделенной виртуальной машине с GPU-ускорителем серверного класса – достаточным для инференса моделей такого масштаба без деградации производительности. Ключевое требование к аппаратной платформе – достаточный объём видеопамяти для хранения полных FP16-весов FLUX.2 [dev] непосредственно в VRAM, без offloading на хост-память: это критически влияет на стабильность и предсказуемость latency.

Пайплайн выдаёт порядка 100–200 коллажей в час в синхронном режиме на одной GPU-ноде. При горизонтальном масштабировании – несколько GPU-нод с балансировщиком нагрузки – производительность линейно растёт и перекрывает потребности промо-кампаний любого масштаба. Всё взаимодействие с внешними системами – через REST API с асинхронной очередью, что обеспечивает бесшовную интеграцию в существующую ИТ-инфраструктуру.

Смотрим на результат: одна ветчина – три сегмента

Теория – это хорошо. Но давайте посмотрим, что получается на практике. Возьмём конкретный товар – ветчину – и запустим пайплайн для трёх покупательских сегментов. На вход сервиса подаётся стандартное каталожное изображение: продукт на нейтральном фоне, без контекста, без истории. Именно это – отправная точка для генерации всех трёх персонализированных коллажей.

Рис. 2. Исходное каталожное изображение и три персонализированных промо-коллажа, сгенерированных пайплайном для разных покупательских сегментов. Верхний ряд: исходник (нейтральный фон) и коллаж для сегмента «Ценители комфорта» – тёплая домашняя атмосфера со свечами и деревянными поверхностями. Нижний ряд: «VIP-покупатели» – изысканная сервировка в тёмных тонах; «ЗОЖ-активисты» – яркая сцена со свежими овощами и горчицей на деревянной доске. Во всех трёх результатах продукт сохраняет исходную форму, нарезку и текстуру – никакого искажения товарной позиции.
Рис. 2. Исходное каталожное изображение и три персонализированных промо-коллажа, сгенерированных пайплайном для разных покупательских сегментов. Верхний ряд: исходник (нейтральный фон) и коллаж для сегмента «Ценители комфорта» – тёплая домашняя атмосфера со свечами и деревянными поверхностями. Нижний ряд: «VIP-покупатели» – изысканная сервировка в тёмных тонах; «ЗОЖ-активисты» – яркая сцена со свежими овощами и горчицей на деревянной доске. Во всех трёх результатах продукт сохраняет исходную форму, нарезку и текстуру – никакого искажения товарной позиции.

Три сегмента – три визуальных нарратива

Для демонстрации возможностей пайплайна мы использовали три условных покупательских сегмента. Их названия и содержания намеренно отличаются от реальных сегментов из нашей CRM-базы. Каждый из трёх сегментов получил свой уникальный промо-коллаж – при том что исходное изображение продукта было одинаковым для всех.

Обратите внимание: во всех трёх результатах продукт сохраняет исходную форму, нарезку и текстуру – никакого искажения товарной позиции. При этом освещение, фон и эмоциональная тональность сцены кардинально различаются. Ни один из коллажей не собирался вручную – всё сгенерировано пайплайном от входного фото до готового результата.

Технические задачи MVP и как мы их решали

  • Сохранение визуальной идентичности продукта – Ключевое требование для ритейла – продукт в коллаже должен быть неотличим от каталожного изображения: та же форма, нарезка и текстура. FLUX.2 решает эту задачу через механизм IP-adapter и cross-attention с референсным изображением: объект «привязывается» к сгенерированной сцене, а не заменяется её артефактами.

  • Автоматический промпт-инжиниринг – Ручное составление промптов для каждого сегмента и каждой товарной позиции исключено по экономическим соображениям. MagnitGPT в роли LLM-агента получает на вход структурированный профиль сегмента и описание товара, а на выходе формирует детализированный промпт с указанием атмосферы, освещения, визуальных архетипов и стилевых параметров – без участия человека.

  • Физически корректное встраивание объекта – Одна из ключевых проблем предыдущих поколений моделей – «летающий» продукт в сцене: неправильные тени, неверное освещение, неестественные отражения. FLUX.2 генерирует физически правдоподобные тени и освещение непосредственно в процессе инференса, что избавляет от необходимости постобработки.

  • Latency < 10 секунд – Требование задано архитектурно: полные веса FLUX.2 [dev] держатся непосредственно в VRAM GPU-ускорителя без offloading на хост-память, что обеспечивает предсказуемое время генерации. Асинхронная очередь позволяет параллельно обрабатывать несколько запросов без блокировки клиентского потока.

  • Горизонтальное масштабирование – Архитектура сервиса с самого начала проектировалась под горизонтальное масштабирование. REST API + async queue позволяют добавлять GPU-ноды без изменения логики сервиса. Производительность на одной ноде масштабируется линейно при росте нагрузки.

От MVP к продуктовому решению

MVP зафиксировал ключевой результат: идея работает, технологический стек достаточно зрелый, а пайплайн устойчиво генерирует коллажи с сохранением визуальной идентичности продукта. Это достаточное основание для того, чтобы двигаться дальше – к полноценному продукту, встроенному в операционные процессы дизайн-команды и CRM-коммуникаций.

  • Дизайнерский интерфейс – веб-приложение с цельным рабочим пространством: загрузка фото и описания продукта, выбор сегмента, опциональная настройка параметров сцены, просмотр и одобрение результатов – всё в едином инструменте без переключения между сервисами.

  • API-интеграция с PIM-системой – автоматическое получение актуальных фотографий продукта и его метаданных; исключает ручную загрузку и устраняет риск работы с устаревшими материалами.

  • Интеграция с CRM-платформой – автоматическая подача одобренных коллажей в цепочки push-уведомлений, email-рассылок и таргетированной рекламы без ручного сопоставления «сегмент → визуал».

  • Расширение покрытия – переход с пилотных сегментов на полный профиль покупательской базы и весь каталог промо-категорий.

  • Brand safety – автоматическая верификация соответствия генераций корпоративному бренд-буку: цветовая палитра, стилистика, фильтрация недопустимых визуальных элементов.

  • Мониторинг качества в production – дашборды по метрикам QA-модуля, трекинг эффективности каждого коллажа в разрезе конверсионных показателей, автоматическая оптимизация стратегии на основе накопленных данных.

  • ML/DevOps-обвязка – версионирование пайплайнов, A/B-деплой и canary-выкатка новых версий моделей, сквозное логирование и трейсинг запросов.

  • Масштабирование инфраструктуры – переход от одной GPU-ноды к кластеру с автоскейлингом для покрытия пиковых нагрузок в период активных промо-кампаний.

Исследовательская повестка

Параллельно с продуктовым развитием ведём несколько исследовательских направлений.

  • Тестирование новых SOTA-подходов – как для задачи автогенерации коллажей, так и для итеративного редактирования и точечных правок уже одобренных результатов.

  • Multi-reference conditioned генерация – В текущем MVP сцена строится исключительно из текстового промпта: модель получает одно референсное изображение – фото товара – и словесные описания продукта и сегмента. Multi-reference меняет входной контракт принципиально: вместо одного изображения модель получает пакет референсов – фото продукта плюс заранее подобранные lifestyle-образы сегмента. FLUX.2 поддерживает до десяти референсов параллельно, обрабатывая каждый через отдельную ветку cross-attention с настраиваемыми весами влияния. Ожидаемый результат – дополнительный прирост визуальной релевантности за счёт более точного попадания в визуальный мир конкретного сегмента.

  • A/B-тестирование эффективности – Следующим шагом станет полноценная постановка статистических экспериментов: дизайн групп, выбор метрик (CTR, конверсия в акцепт оффера, CR в покупку), стратификация по сегментам и поведенческим признакам. Сейчас мы фиксируем технический MVP; 

  • Уточнение методики сегментации – Проработка количества сегментов, их гранулярности, признакового состава и текстовых описаний для LLM-агента – отдельная аналитическая задача, которая будет освещена в следующей публикации (повод подписаться).

Заключение

Мы начали с простого вопроса: можно ли автоматически создавать промо-коллажи, которые покупатель почувствует как созданные лично для него? MVP-сервис PromoPersona на базе FLUX.2 технически закрыл эту задачу. Один и тот же продукт получает три совершенно разных визуальных нарратива под три разных сегмента – и ни один из коллажей не собирался вручную.

С технической точки зрения момент исключительно благоприятный. Такие модели как FLUX.2 и Qwen-Image-Edit закрывают большинство болевых точек, которые делали подобные проекты сложными и долгими год-два назад. Физически корректное встраивание продукта в персонализированную сцену с сохранением его визуальной идентичности, автоматический промпт-инжиниринг, масштабируемый инференс на выделенной GPU-инфраструктуре – всё это уже работает в рамках MVP и готово к росту нагрузки.

Для ML-команды в ритейле это смена парадигмы: от «сделать один красивый баннер» к «дать каждому покупателю его собственный визуальный нарратив». Дизайнер при этом не теряет работу – он обретает суперспособность: создавать не один коллаж, а целую визуальную вселенную для разных аудиторий за время одного рабочего дня.

В следующей публикации расскажем подробнее о постановке A/B-тестов, методике формирования сегментов и аналитических деталях пайплайна – подписывайтесь на блог MAGNIT TECH

Комментарии (1)


  1. ENick
    16.05.2026 09:23

    """100–200 коллажей в час в синхронном режиме на одной GPU-ноде""" а какая GPU-нода?

    """FP16-весов FLUX.2 [dev] """ другие модели FLUX.2 пробовали? Почему остановились на этой?