Только что мне понадобилось сделать иллюстрацию. Я умею рисовать от руки — но в данном случае овчинка явно не стоила выделки — абсолютно проходной слайд в презентации. Причем мне не нужна была генерация изображения с нуля, а лишь некоторое изменение существующего. Итак, у меня была вот такая картинка, найденная с помощью Google, на основе которой мне хотелось получить расширенное и немного переработанное изображение.

Не особо долго думая, я написал запрос:
Мне нужно сделать изображение на базе этого. Нужно удалить все надписи и расширить композицию, уменьшив имеющееся изображение, чтобы элементов стало в 4 раза больше, а путь стал ветвящимся. Ориентация изображения — ландшафт, соотношение сторон 16 к 9. Фон — абсолютно белый
Попробовал параллельно ChatGPT и Grok (ниже я объясню, почему выбрал эти сервисы). Результаты получились следующими:


Одно из решений (первое) мне вполне подошло; однако, я задумался над тем, сколько людей бросает на полпути подобные задачи, не получая адекватного результата. Ведь частенько приходится слышать, что, дескать, получить иллюстрацию или даже готовую презентацию — дело крайне простое, нужно всего лишь составить корректный запрос. И если что‑то не получилось — значит, и чёрт с ним, поищем традиционными методами более‑менее подходящую готовую картинку без водяных знаков...
Я не отношу себя к гуру «запросостроения», да и вообще взаимодействия с ИИ в контексте задач по генерации осуществляю довольно редко, однако, на личном опыте выяснил, что процесс этот довольно сложный, интересный и многогранный. Хочу с вами этим опытом поделиться.
Итак, некоторое время назад я задумал создать иллюстрацию. В отличие от небольшого примера выше, здесь изначально я планировал нарисовать всё изображение от руки полностью. Но по случайному совпадению, в тот же день я посетил вебинар, посвященный как раз таки генерации изображений разными ИИ. Поэтому решил попробовать, имея на руках, в общем, не самую простую задачу со вполне детализированными требованиями. Отмечу, что везде я использую бесплатные версии, оплаченных подписок не имею.
Я подготовил набросок композиции — как делал бы для себя самого — и написал запрос следующего содержания:
Мне нужно сгенерировать изображение по схеме, которую я подготовил. Я использовал графические примитивы чтобы создать композицию. Мне нужно получить рисунок в стиле старых гравюр. Идея в том, чтобы показать план и ход сражения. В центре композиции находится замок с несколькими уровнями стен. На стенах должны читаться подписи, которые есть на моем наброске. За последним, третьим, уровнем стен - яркий, сверкающий, излучающий свет огромный бриллиант без подписи. Внизу треугольник - это походный лагерь, подпись делать не нужно. Выше него - отряд лёгкой конницы, совершающая обходной манёвр; стрелку показать, в отряде нарисовать достаточно много конников, надпись делать не нужно. Правее - несколько осадных стенобитных орудий, подпись делать не нужно. Еще правее - отряды тяжелой пехоты, с большими щитами и копьями, подпись делать не нужно. Еще правее - отряды лёгкой пехоты, подписи делать не нужно. Все элементы должны быть в одном масштабе и в одном графическом стиле

Я знаю далеко не про все возможные сервисы для генерации изображений. Более того, вероятно, я не использовал даже наиболее подходящие – однако, таков мой субъективный опыт и (вероятно) ограниченные знания. Во всех случаях применялись бесплатные версии, никаких подписок.
Вы можете поделиться советами для других читателей, да и для меня – в комментариях, это будет полезно для всех.
Первые результаты
Первым был Stable Diffusion (stablediffusionweb.com). Моя идея про переработку схемы композиции в изображение закончилась слишком быстро и слишком плохо (это вот в уголочке, где из моих примитивов вознеслось некоторое подобие замка) — поэтому я изменил подход, подправил запрос (убрал из текста то, что касалось образца) и сгенерировал изображение «с чистого листа». В принципе, это даже неплохо получилось — но слишком мало соотносится с моей изначальной идеей. В чём‑то иллюстрация напомнила мне альбомы с живописными полотнами видов городов прошлых веков. Никакой осады или иного сражения не заметно. И откуда, чёрт возьми, взялись вигвамы??

Следующим был Шедеврум (shedevrum.ai). Здесь мне пришлось использовать только текстовый запрос, я не нашёл возможности работать «по образцу». Получилось, в общем, интересно, если не считать того, что основная идея «сражение, осада» трансформировалась в… проведение ярмарки, вход на которую ограничен и контролируется конниками?

Далее: Grok (grok.com), который на старте выдал, пожалуй, лучший вариант из всех; максимально близко к той концепции, которую я подразумевал. Да, есть определенные нюансы по композиции и деталям, однако — это действительно здорово! Стилизация, общая идея — всё хорошо. Я обрёл надежду в этот момент.

Последний сервис, что я использовал — ChatGPT (chatgpt.com) — и, как и в случае с Grok, многие мои знакомые, с которыми я делился впечатлениями, не знали, что эти ИИ умеют работать с изображениями. Что ж — умеют! Причем, у ChatGPT получилось не хуже, чем у Grok (здесь и далее — моя абсолютно субъективная оценка в контексте моего понимания решаемой задачи и критериев для результата). Да, это свой особенный стиль, но он интересен и презентабелен. Особенность этого сервиса — относительно долгая генерация (зато можно получитьуведомление о завершении). Потому что на самом‑то деле я начал с него — но результат был готов, когда я уже успел опробовать несколько других сервисов.

Что ж, результаты есть, но ни один из них не устраивает меня в полной мере..
Доработка
«Вот тут мне надо было халат уничтожить и начать всё сначала. Но с отвратительной самонадеянностью я вообразил себя богом-творцом и пошёл по пути последовательных трансформаций. Рядом с халатом появилась бутылка с чёрной жидкостью, а сам халат, несколько помедлив, стал обугливаться по краям. Я торопливо уточнил свои представления, сделав особый упор на образы кружки и говядины. Бутылка превратилась в кружку, жидкость не изменилась, один рукав халата сжался, вытянулся, порыжел и стал подёргиваться. Вспотев от страха, я убедился, что это коровий хвост.»
Аркадий и Борис Стругацкие Понедельник начинается в субботу
Всё верно, я решил довести два понравившихся мне результата до финального. И, право, лучше бы я этого не делал. Я не сохранил всех тех странных промежуточных шагов, что мне пришлось преодолетьдо того момента, когда я понял, что ничего у меня не получится. Оба сервиса выдавали мне либо практически неизменное изображение, либо — перелопаченное так, что терялись смысл, логика, стиль и всё остальное.
Что ж. Попробуем иначе: а что, если создать все нужные мне элементы отдельно, а потом разместить их на пустом холсте? Я написал вот такой запрос, меняя в нём потом только объект:
Мне нужно изображение отряда тяжелой пехоты на белом фоне, в графическом стиле, с одной толщиной линий и одним углом зрения (изометрия в 3/4, без перспективы). Каждый воин держит большой тяжелый щит и копьё или алебарду, одет в доспехи. Мы смотрим на этот отряд сзади‑справа‑сверху. Проверь пожалуйста, чтобы не было глупых ошибок — вроде слившихся людей или отсутствия головы
Ниже — результат сборки в графическом редакторе отдельных изображений, полученных таким образом, в общую композицию. Генератором выступил Grok, выбранный мною за высокую скорость и приемлемое качество.

Следующий шаг — обеспечить целостность; я написал запрос и вновь использовал несколько сервисов для проверки результатов:
У меня есть композиция, которую нужно сделать цельным изображением в одном общем стиле. Это изображение осады крепости. Слева‑сверху отряд конницы, ниже — походный лагерь, далее — осадные орудия, правее — отряд тяжелой пехоты, еще правее и выше — отряд лёгкой пехоты. Посередине — крепость с башней, над вершиной которой изображен бриллиант, испускающий свет. Пожалуйста, приведи это изображение к целостному виду, добавь общий фон, сделай единую стилистику. Не меняй никакие детали, не добавляй и не убавляй ничего из изображенного.
То, что выдал Stable Diffusion в качестве первого изображения, шокировало меня настолько, что я даже не стал пытаться поработать со вторым. Хотя там была вроде бы небезынтересная идея про игрушечных солдатиков и настольную миниатюру.

А вот Grok и ChatGPT — молодцы. Всё так, как я просил. Общий стиль, целостность. Правда, кое‑кто вспомнил отдельные фрагменты из самого первого моего запроса — и решил, что именно тут их и надо применить.


И да, ChatGPT вновь работал несопоставимо дольше. На память об этом оставляю на иллюстрациях снимки фрагмента экрана, на который приходится смотреть довольно долго.
Итоги
Да, получилось в итоге вполне неплохо. Но не настолько, чтобы я был готов принять сам у себя эту работу. Поэтому я вооружился графическим редактором и сделал некоторые манипуляции чтобы довести изображения до конечного вида. Описывать работу с Gimp я не буду, речь не об этом, но ничего сверх-сложного или очень долгого и муторного не понадобилось.

Я долго не мог выбрать, какое из изображений мне нравится больше — а потом и выбрал, и в тот же момент решил изменить концепцию. Вместо пусть и весьма условных, но всё же узнаваемых отрядов войск я использовал шахматные фигуры. Содержание текста к теме генерации изображений не относится — но, возможно, полный результат сделает понятнее мой замысел и требования к изображениям.

Кстати, если вам интересно то, что описывается этой иллюстрацией — посмотрите другие мои публикации здесь. Обычно я пишу как раз про проектирование интерфейсов в B2B‑решениях.
Вывод
К сожалению, большой кнопки «сделай мне красивую иллюстрацию» не существует, да и не может, наверное, существовать. Понятно, что, если требования достаточно размыты — подойдёт практически любая генерация (разве что — следите, чтобы не нарушались законы физики и анатомии). Однако для более‑менее сложных кейсов, вероятно, потребуются заметные усилия.
С другой стороны, это реальный, проходимый путь (доказано) — если вам нужна такая иллюстрация, которой не находится в Интернете.
Удачи вам — и лучших иллюстраций для ваших задач!