
Вчера вышла модель Gemini 2.5 Flash Image (промо название Nano Banana), которая, возможно, изменит мир работы с изображениями так, как это сделал своим появлением фотошоп. В посте — много классных экспериментов на все виды редактирования картинок, посмотрим с чем моделька справляется хорошо, а с чем не очень.
В заголовке написано «революция», «новый фотошоп» — это, возможно, все же преувеличение. Или нет. Штука очень крутая, залипал с ней до самого утра.
Давайте смотреть.
Для начала быстрый пример с котиком, а потом все остальное.

Новая эра генеративного редактирования по запросу
Генерация картинок — это то, к чему большинство людей в индустрии уже привыкло. Большинство сервисов уже давно не рисует 6 пальцев и излечило детские проблемы первых генераций. Просто генерациями уже никого не удивишь, она отличного качества. Перенос стиля (тот самый взорвавший интернет тренд на картинки в стиле миядзаки) — это, фактически, тоже именно генерация детально описанной картинки на вход.
Но часто нам нужна не просто генерация, а редактирование. Когда нужно отредактировать именно вот это на этой фотографии и сохранить на ней все остальное. Здесь все сложнее.
Для начала два термина: outpainting и inpainting. Первый — расширение границ, когда у нас есть готовая картинка, а дальше дорисовывается все остальное вокруг. Второй — это редактирование самой картинки, например, мы пишем «добавь на фото собаку» и появляется собака.
Outpainting освоили довольно быстро — DALL-E 2 и Stable Diffusion умели это уже в 2022 году, а сейчас это есть во всех платных сервисах от Ideogram до Midjourney. Логика работы: понять картинку, додумать продолжение и сгенерировать его.
Inpainting — намного сложнее. Классическая диффузионная архитектура работает через постепенное удаление шума из случайного изображения, что делает точечное редактирование конкретных областей при сохранении всего остального контекста крайне сложной задачей. Нужно одновременно сохранять исходную фотографию и делать только целевое действие с ней. Это очень сложно.
Но у Nano Banana, кажется, получилось еще выше задрать планку. Конечно, есть куча огрехов и проблем, но, честно — это по настоящему впечатляет. Я покажу примеры, и не на всех из них все идеально. Где-то просто вау эффект, где-то совсем нет. И здесь важно не то, что такая модель вышла, а то что ее выход запустил большую гонку технологий, которая уже началась и которая очень сильно изменит то, как мы работаем с изображениями и фотографиями.
Ни слова больше, примеры. Это не черри-пики, почти все — сразу с одного несложного промпта, но на картинках для наглядности он упрощен до целевого действия.
Девушка на пляже




И самая киллер-фича — создание каталогов любого предмета на фото, это просто вау. Видимо, это будет основным направления для коммерческого использования. Супер круто.

Но в процессе не все шло гладко, к слову.

Ну ладно, с банданой по предметке справились, а как насчет модной кандуры (это традиционная этническая рубаха)?


Проработка деталей просто вау, но есть нюанс (его, конечно, можно допромптить).

Путешествие по русскому культурному коду
А как насчет мрачных панелек 90х? С одного промпта.



Но не все так плохо, вот, Волгу наконец-то дали! Счастье-то какое!

И последнее. Один из бичей любой генерации это текст. Здесь тоже нормально общались, но потом оно взяло свое.

На английском лучше:

Замена вещей и образа
Просто вау.

Fashion дрова
Давайте попробуем сделать хороший продакшен к тому, к чему обычно его не делают.

И давайте их вручим девушке в купальнике! Купальник с первого раза не получился, сработал цензор.

Результат:

Да, можно попридираться к натуральности лица, но руки и поворот объекта с сохранением текста — это просто космос.

Но в итоге в этом случае добиться высокой реалистичности не получилось, все как будто бы не то. Но, уверен, такое будет решаться агентами или множественными подходами к снаряду.
Турок с кофе

Пока все идет хорошо, но...

Но не шмогла. Но на что это похоже? Уж не на типичные ли плакаты в барах?

Годнота!
Фоточки заката
А что на счет самых частых случаев редактирования текстом, а именно — фоточек с телефона?
А все хорошо!

Ну класс же, при этом надпись на бутылке даже не пошакалилась.
Чиним плитку и убираемся вокруг

Ррррраз и все красиво.

Замена еды

Очень залипательная история, конечно. Но диффузия остается диффузией — в мелких неважных деталях что-то начинает плыть и артефачить, например, мое отображение на гриле уже совсем не то, что было изначально.

Face & body swap
А вот что не получилось, так это замены лиц. То ли фотка неудачная, то ли модель не очень любит такое делать.

Ну, значит будем развлекаться.
«замени девушку на буран — советский орбитальный корабль-ракетоплан»:

Ну ладно, это было лишнее. Давайте попробуем воспроизвести что-то похожее на мое самое любимое место на планете — Maho Beach (тот самый пляж, где очень низко летают самолетики). То есть, попросим отдалиться на 30 метров.

Кажется неплохо!

Или нет? Я бы такую дамочку на спину сажать бы не рекомендовал.
Ну раз уж фотка безнадежно испорчена, то тогда вот — «нарисуй над ними пролетающий boeing 747 с крокодилом за штурвалом»:

Очень правдоподобно, можно в печать.
Перерисовка графиков

Вполне неплохо, к слову, учитывая исходные условия и упоротость графика.
Лимиты и ограничения
Модель совсем-совсем не работает с детьми.
Еще очень болезненно реагирует на что-то связанное с расами. Модель просто отказывается это делать.

То же самое для известных личностей, даже если запрос безобидный.


Но в ответ либо срабатывает цензор, либо он не срабатывает, но и фото не присылает.
Выводы
А выводов особо не будет. Все видно на картинках. Это страшно. Страшно круто, страшно интересно и страшно за то, сколько злоупотреблений этого будет.
Но мы живем в очень интересное время и чем дальше, тем все интереснее.
Спасибо!
P.S.: мне нравится писать всякое разное, но гораздо приятнее это делать для большего количества людей, поэтому если статья вам понравилась, то можно поддержать мой совсем начинающий зеленый канальчик в тг, в котором мне хотелось бы делиться интересностями
P.S. 2: а еще мои любимое коллеги (под руководством @hukenovs) тоже делают инструктивную генерацию и подкинули деталей как оно работает внутри вот тут.
Мои другие статьи:
Комментарии (7)
pol_pot
27.08.2025 15:29Ну почти
antipov_dmitry Автор
27.08.2025 15:29я потихоньку бы ллмкам уже начинал бы всегда "спасибо" говорить, когда ответ понравился
AlexRihter9690
Это буквально та самая кнопка "сделать пи*дато" которую все ждали
antipov_dmitry Автор
Лайк, так и есть!