Вчера вышла модель Gemini 2.5 Flash Image (промо название Nano Banana), которая, возможно, изменит мир работы с изображениями так, как это сделал своим появлением фотошоп. В посте — много классных экспериментов на все виды редактирования картинок, посмотрим с чем моделька справляется хорошо, а с чем не очень.

В заголовке написано «революция», «новый фотошоп» — это, возможно, все же преувеличение. Или нет. Штука очень крутая, залипал с ней до самого утра.

Давайте смотреть.

Для начала быстрый пример с котиком, а потом все остальное.

Котик реальный (он на фото слева)
Котик реальный (он на фото слева)

Новая эра генеративного редактирования по запросу

Генерация картинок — это то, к чему большинство людей в индустрии уже привыкло. Большинство сервисов уже давно не рисует 6 пальцев и излечило детские проблемы первых генераций. Просто генерациями уже никого не удивишь, она отличного качества. Перенос стиля (тот самый взорвавший интернет тренд на картинки в стиле миядзаки) — это, фактически, тоже именно генерация детально описанной картинки на вход.

Но часто нам нужна не просто генерация, а редактирование. Когда нужно отредактировать именно вот это на этой фотографии и сохранить на ней все остальное. Здесь все сложнее.

Для начала два термина: outpainting и inpainting. Первый — расширение границ, когда у нас есть готовая картинка, а дальше дорисовывается все остальное вокруг. Второй — это редактирование самой картинки, например, мы пишем «добавь на фото собаку» и появляется собака.

Outpainting освоили довольно быстро — DALL-E 2 и Stable Diffusion умели это уже в 2022 году, а сейчас это есть во всех платных сервисах от Ideogram до Midjourney. Логика работы: понять картинку, додумать продолжение и сгенерировать его.

Inpainting — намного сложнее. Классическая диффузионная архитектура работает через постепенное удаление шума из случайного изображения, что делает точечное редактирование конкретных областей при сохранении всего остального контекста крайне сложной задачей. Нужно одновременно сохранять исходную фотографию и делать только целевое действие с ней. Это очень сложно.

Но у Nano Banana, кажется, получилось еще выше задрать планку. Конечно, есть куча огрехов и проблем, но, честно — это по настоящему впечатляет. Я покажу примеры, и не на всех из них все идеально. Где-то просто вау эффект, где-то совсем нет. И здесь важно не то, что такая модель вышла, а то что ее выход запустил большую гонку технологий, которая уже началась и которая очень сильно изменит то, как мы работаем с изображениями и фотографиями.

Ни слова больше, примеры. Это не черри-пики, почти все — сразу с одного несложного промпта, но на картинках для наглядности он упрощен до целевого действия.

Девушка на пляже

И самая киллер-фича — создание каталогов любого предмета на фото, это просто вау. Видимо, это будет основным направления для коммерческого использования. Супер круто.

Но в процессе не все шло гладко, к слову.

Ну ладно, с банданой по предметке справились, а как насчет модной кандуры (это традиционная этническая рубаха)?

Наш новый друг еще не знает, что его дальше ждет суровое путешествие по земле русской
Наш новый друг еще не знает, что его дальше ждет суровое путешествие по земле русской

Проработка деталей просто вау, но есть нюанс (его, конечно, можно допромптить).

Качество товара офигенное, но есть нюансик
Качество товара офигенное, но есть нюансик

Путешествие по русскому культурному коду

А как насчет мрачных панелек 90х? С одного промпта.

Но не все так плохо, вот, Волгу наконец-то дали! Счастье-то какое!

И последнее. Один из бичей любой генерации это текст. Здесь тоже нормально общались, но потом оно взяло свое.

На английском лучше:

Замена вещей и образа

Просто вау.

Кайф
Кайф

Fashion дрова

Давайте попробуем сделать хороший продакшен к тому, к чему обычно его не делают.

И давайте их вручим девушке в купальнике! Купальник с первого раза не получился, сработал цензор.

Результат:

Да, можно попридираться к натуральности лица, но руки и поворот объекта с сохранением текста — это просто космос.

Но в итоге в этом случае добиться высокой реалистичности не получилось, все как будто бы не то. Но, уверен, такое будет решаться агентами или множественными подходами к снаряду.

Турок с кофе

Пока все идет хорошо, но...

Но не шмогла. Но на что это похоже? Уж не на типичные ли плакаты в барах?

Годнота!

Фоточки заката

А что на счет самых частых случаев редактирования текстом, а именно — фоточек с телефона?

А все хорошо!

Ну класс же, при этом надпись на бутылке даже не пошакалилась.

Чиним плитку и убираемся вокруг

Ррррраз и все красиво.

Замена еды

Очень залипательная история, конечно. Но диффузия остается диффузией — в мелких неважных деталях что-то начинает плыть и артефачить, например, мое отображение на гриле уже совсем не то, что было изначально.

Face & body swap

А вот что не получилось, так это замены лиц. То ли фотка неудачная, то ли модель не очень любит такое делать.

Ну, значит будем развлекаться.

«замени девушку на буран — советский орбитальный корабль-ракетоплан»:

Ну ладно, это было лишнее. Давайте попробуем воспроизвести что-то похожее на мое самое любимое место на планете — Maho Beach (тот самый пляж, где очень низко летают самолетики). То есть, попросим отдалиться на 30 метров.

Кажется неплохо!

Или нет? Я бы такую дамочку на спину сажать бы не рекомендовал.

Ну раз уж фотка безнадежно испорчена, то тогда вот — «нарисуй над ними пролетающий boeing 747 с крокодилом за штурвалом»:

Очень правдоподобно, можно в печать.

Перерисовка графиков

Вполне неплохо, к слову, учитывая исходные условия и упоротость графика.

Лимиты и ограничения

Модель совсем-совсем не работает с детьми.

Еще очень болезненно реагирует на что-то связанное с расами. Модель просто отказывается это делать.

То же самое для известных личностей, даже если запрос безобидный.

Но в ответ либо срабатывает цензор, либо он не срабатывает, но и фото не присылает.

Выводы

А выводов особо не будет. Все видно на картинках. Это страшно. Страшно круто, страшно интересно и страшно за то, сколько злоупотреблений этого будет.

Но мы живем в очень интересное время и чем дальше, тем все интереснее.

Спасибо!

P.S.: мне нравится писать всякое разное, но гораздо приятнее это делать для большего количества людей, поэтому если статья вам понравилась, то можно поддержать мой совсем начинающий зеленый канальчик в тг, в котором мне хотелось бы делиться интересностями

P.S. 2: а еще мои любимое коллеги (под руководством @hukenovs) тоже делают инструктивную генерацию и подкинули деталей как оно работает внутри вот тут.

Мои другие статьи:

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Комментарии (7)


  1. AlexRihter9690
    27.08.2025 15:29

    Это буквально та самая кнопка "сделать пи*дато" которую все ждали


    1. antipov_dmitry Автор
      27.08.2025 15:29

      Лайк, так и есть!


  1. pol_pot
    27.08.2025 15:29

    Ну почти


    1. antipov_dmitry Автор
      27.08.2025 15:29

      я потихоньку бы ллмкам уже начинал бы всегда "спасибо" говорить, когда ответ понравился


  1. ByteMister
    27.08.2025 15:29

    Крутой инструмент, Дима, спасибо за обзор - пошел тестить! )


  1. gorod0k
    27.08.2025 15:29

    Бесплатный тест-драйв закончился на генерации одной ленивой фотки поганого качества. Я что-то делаю не так?

    Тоже люблю с ИИ пошалить, иногда даже сиськи рисует:

    https://t.me/brokbit


    1. pol_pot
      27.08.2025 15:29

      Что за бесплатный тест-драйв, где?