
Мир никогда не станет прежним! Теперь можно генерировать котов с добавлением смешных надписей на русском, а разве не ради этого мы создавали искусственный интеллект?
Сегодня мы выпустили обновление модели генерации изображений Kandinsky. Модель научилась генерировать надписи на кириллице. Не просто текст поверх изображения, а органично вписанный: начерченный на стене, выпиленный из дерева, отлитый из металла, вышитый, связанный или выложенный лепестками роз.
Область применения новой фичи ограничена только вашей фантазией. Хотите — создавайте мемы сразу со смешными подписями, хотите — генерируйте адресные открытки с гарантированным вау-эффектом, контент для блога, прототип продукта, или даже отправьте свои генерации в печать и наполняйте маркетплейсы новым брендом.
Рецепт приготовления фичи: сначала собрали уникальный датасет (более 10 миллионов изображений с русским текстом, написанным самыми разными способами, чтобы модель различала печатные, прописные и какие угодно буквы) долго обучали на нём Kandinsky генерировать кириллический текст нативно, без использования дополнительных модулей. В конце финально дообучили на экспертном датасете, тщательно отобранном и проверенном дизайнерами и художниками, ведь чистые данные — это именно то, что позволяет добиться крутого результата.
Несмотря на крутой результат, мы продолжаем работать над стабильностью модели в ряде категорий запросов. Длинные надписи, надписи со смесью кириллицы и латиницы, подробное детальное описание сущности или фона могут получаться не с первого раза — это сложно, но модель постарается. Работаем по гарантии: неудачные изображения можно вернуть в течение 14 дней с момента генерации :)
Короткие запросы без указания фона, масштаба и ракурса получаются быстрее и качественней, но тут модель будет фантазировать сама, что, впрочем, часто только к лучшему и результат не разочарует. А вот указание текстуры и освещения обычно помогает. Камни, вода, лёд, стекло, мармелад, старая древесина, мох, лаковая кожа, глянцевый стол. Можно добавлять в описание, что буквы должны быть рельефными или объёмными. Для прозрачных фактур можно указать «контровой свет», «контражур» — буквы станут полупрозрачными. А для эффектности можно добавить дым или туман.
Давайте посмотрим несколько примеров для вдохновения:














Потестировать модель самостоятельно уже можно в Telegram-боте Kandinsky и во всех ботах GigaChat (Telegram, ВКонтакте, Одноклассники, Max), а также в web-версии. Вставляйте свой текст, меняйте детали и наслаждайтесь результатом.
ne555
Уточните в двух предложениях: какие права/лицензия/ограничения/обязательства на такие изображения? Могу ли я генерацию взять и использовать в любых целях? Ткните в пункт лицензионного соглашения об этом.