Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5 / forpes.ru

Главная
Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5

Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5

27.08.2025 05:04

stas-clear 13 6500 Источник

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.

Что это за модель

"Nano Banana" — это неофициальное имя для модели gemini-2.5-flash-image-preview. По сути, она представляет собой SOTA-решение в области image generation/editing, оптимизированное под высокую скорость и сохранение визуальной консистентности.

Вход: текст, изображение или их комбинация (multimodal input)
Выход: изображение, JSON, структурированный ответ (structured outputs)
Ограничение: контекстное окно 32 768 токенов (вход + выход)
Нет: генерации аудио, real-time поиска, дообучения, вызова функций

Модель уже встроена в:

Gemini App (веб/мобильное приложение) - бесплатно
Gemini API - платный доступ через Google Cloud
Vertex AI - для enterprise-пользователей
Krea - доступна по подписке, встроена в визуальный редактор

Что умеет Nano Banana

1. Генерация изображений по тексту

Prompt: "A character in cyberpunk armor standing in neon-lit Tokyo street at night"

Результат: фотореалистичный персонаж, выдержанный в заданном стиле, с корректной композицией, освещением и фоном. Главное стабильность. Персонаж может быть использован в других сценах и он останется узнаваемым.

2. Локальное редактирование по описанию

Prompt: "Same image, but replace the background with a desert and make the lighting warm"

Модель заменит фон, адаптирует цветовую температуру и сохранит лицо, позу и детали.

3. Поддержка стилистики и преобразований

Модель понимает сложные команды вроде:

"Convert the entire scene into watercolor style"
"Make it look like an 80s anime frame"

Отличия от других решений

Поддержка мультимодальности уже в preview-версии
Скорость: до 30x быстрее предыдущих моделей Google (по latency)
Память и консистентность: стабильные лица, позы, освещение от сцены к сцене
Лёгкость API-интеграции: через стандартный Gemini SDK

Стоимость

В Gemini App — бесплатно
В API — ~$0.039/изображение
В Krea — только по подписке (Pro-план)

Возможности для разработчиков

Интеграция через Gemini API или Vertex AI
Возможность генерации десятков вариантов из одного запроса
Поддержка structured output (например, генерация изображения + описание объекта в сцене)

Пример использования в API:

{
  "model": "gemini-2.5-flash-image-preview",
  "prompt": "A futuristic city skyline in sunset with flying cars",
  "output_format": "image/png"
}

Nano Banana — это не столько маркетинговый ход, сколько рабочий инструмент, предназначенный для быстрой генерации качественного визуального контента. Особенно полезна модель для:

digital-агентств,
game art-пайплайнов,
стартапов в e-commerce,
систем визуального сторителлинга,
внутреннего использования в продуктах с генеративным UI.

Пока модель работает в режиме preview, но уже сейчас доступна для коммерческого и творческого применения.

Ссылки

Презентация от Google AI Studio: [X/Twitter @GoogleAIDev]
Документация по Gemini API: https://ai.google.dev/gemini-api/docs
Krea: https://krea.ai/
Обзорные примеры: https://www.reddit.com/r/MediaSynthesis

Комментарии (13)

Geologist5330
27.08.2025 05:21
#28759282
Потестил вчера генерацию изображений и редактирование фото в Gemini App, результат очень понравился. Чаще получается прям весьма хорошо. Минус только разрешение итогового изображения достаточно низкое, хотелось бы побольше...
1. stas-clear Автор
  27.08.2025 05:21
  #28764382
  Ну если критично, то есть Апскейлеры хорошие, например в Krea

savostin
27.08.2025 05:21
#28759848
…и его производные:

• Home Canvas — загружаем фотку мебели и комнаты, и смотрим, как она впишется в интерьер.

• Gemini Co-Drawing — рисовалка на стероидах, которая выполняет расчёты на холсте и превращает наброски в шедевры.

• PixShop — фотошопит картинки, меняет фоны и удаляет предметы на лету.

• Past Forward — генерирует людей в стилях разных эпох для «путешествий во времени».

• GemBooth — прямо на вебке добавляет фильтры ренессанса, мультиков, аниме, комиксов, статуй и так далее.

(c)

Hopenolis
27.08.2025 05:21
#28760106
Русские буквы рисует заметно хуже чем предыдущая 2.0 модель

Сами рисунки получше. Редактирование... сложно сказать, до идеала пока еще очень далеко, иногда ничего не делает, не понимает что ли.

pol_pot
27.08.2025 05:21
#28760368
С бокалом вина та же хрень что у всех, он не бывает до краев заполнен.

Тут слева 2.0 справа 2.5, если приблизить то хорошо заметна разница в качестве картинки, но вот суть одинаково не дошла.

Тут он сделал вид что что то изменил, но ничего не изменил
1. repon
  27.08.2025 05:21
  #28760560
  идеальная рисовалка - которая умеет наливать вино до краев?)
  
  тоже как-то пробовал в паре нейронок
  1. pol_pot
    27.08.2025 05:21
    #28761012
    Которая делает что просили :(

positroid
27.08.2025 05:21
#28762104
Статья про модель генерации картинок с примерами промптов и без единой картинки - это сильно
1. BazilioMike
  27.08.2025 05:21
  #28763402
  И я об этом, непонятно, где это можно запустить, какой веб, где на сайте это есть бесплатно, я не нашел, в Gemini нету.
  1. positroid
    27.08.2025 05:21
    #28763472
    В Google AI Studio бесплатно с большими лимитами, но нужен впн штатов или Канады. А так платно в любом сервисе аггрегаторе уже доступна
    
    pol_pot
    27.08.2025 05:21
    #28763636
    В агрегаторе бесплатно раздают. Платить по ~5р за каждую попытку нарисовать шахматную доску с 7 рядами вместо 8 вряд-ли желающие найдутся.
    
    ЗЫ единственный нормальный агрегатор это опенроутер, все остальные - "цигане"
    
    https://openrouter.ai/google/gemini-2.5-flash-image-preview:free
    
    positroid
    27.08.2025 05:21
    #28765208
    Да, действительно, не видел.
    
    Все аггрегаторы я бы не обзывал, есть же нормальные видео/графической направленности типа krea или fal ai. А так да, обычные прокси и перепродажники, особенно в ботах в телеге - такое себе
1. stas-clear Автор
  27.08.2025 05:21
  #28767766
  Очень сильно. Вобще то это информационная новость, а не демонстрация. Не всегда новости публикуют работу. Кому надо разберутся. А почему про видео обзор не написал ? Надо было сразу, ГДЕ ВИДЕО