26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.
Что это за модель
"Nano Banana" — это неофициальное имя для модели gemini-2.5-flash-image-preview
. По сути, она представляет собой SOTA-решение в области image generation/editing, оптимизированное под высокую скорость и сохранение визуальной консистентности.
Вход: текст, изображение или их комбинация (multimodal input)
Выход: изображение, JSON, структурированный ответ (structured outputs)
Ограничение: контекстное окно 32 768 токенов (вход + выход)
Нет: генерации аудио, real-time поиска, дообучения, вызова функций
Модель уже встроена в:
Gemini App (веб/мобильное приложение) - бесплатно
Gemini API - платный доступ через Google Cloud
Vertex AI - для enterprise-пользователей
Krea - доступна по подписке, встроена в визуальный редактор
Что умеет Nano Banana
1. Генерация изображений по тексту
Prompt: "A character in cyberpunk armor standing in neon-lit Tokyo street at night"
Результат: фотореалистичный персонаж, выдержанный в заданном стиле, с корректной композицией, освещением и фоном. Главное стабильность. Персонаж может быть использован в других сценах и он останется узнаваемым.
2. Локальное редактирование по описанию
Prompt: "Same image, but replace the background with a desert and make the lighting warm"
Модель заменит фон, адаптирует цветовую температуру и сохранит лицо, позу и детали.
3. Поддержка стилистики и преобразований
Модель понимает сложные команды вроде:
"Convert the entire scene into watercolor style"
"Make it look like an 80s anime frame"
Отличия от других решений
Поддержка мультимодальности уже в preview-версии
Скорость: до 30x быстрее предыдущих моделей Google (по latency)
Память и консистентность: стабильные лица, позы, освещение от сцены к сцене
Лёгкость API-интеграции: через стандартный Gemini SDK
Стоимость
В Gemini App — бесплатно
В API — ~$0.039/изображение
В Krea — только по подписке (Pro-план)
Возможности для разработчиков
Интеграция через Gemini API или Vertex AI
Возможность генерации десятков вариантов из одного запроса
Поддержка structured output (например, генерация изображения + описание объекта в сцене)
Пример использования в API:
{
"model": "gemini-2.5-flash-image-preview",
"prompt": "A futuristic city skyline in sunset with flying cars",
"output_format": "image/png"
}
Nano Banana — это не столько маркетинговый ход, сколько рабочий инструмент, предназначенный для быстрой генерации качественного визуального контента. Особенно полезна модель для:
digital-агентств,
game art-пайплайнов,
стартапов в e-commerce,
систем визуального сторителлинга,
внутреннего использования в продуктах с генеративным UI.
Пока модель работает в режиме preview, но уже сейчас доступна для коммерческого и творческого применения.
Ссылки
Презентация от Google AI Studio: [X/Twitter @GoogleAIDev]
Документация по Gemini API: https://ai.google.dev/gemini-api/docs
Обзорные примеры: https://www.reddit.com/r/MediaSynthesis
Комментарии (13)
savostin
27.08.2025 05:21…и его производные:
• Home Canvas — загружаем фотку мебели и комнаты, и смотрим, как она впишется в интерьер.
• Gemini Co-Drawing — рисовалка на стероидах, которая выполняет расчёты на холсте и превращает наброски в шедевры.
• PixShop — фотошопит картинки, меняет фоны и удаляет предметы на лету.
• Past Forward — генерирует людей в стилях разных эпох для «путешествий во времени».
• GemBooth — прямо на вебке добавляет фильтры ренессанса, мультиков, аниме, комиксов, статуй и так далее.
Hopenolis
27.08.2025 05:21Русские буквы рисует заметно хуже чем предыдущая 2.0 модель
Сами рисунки получше. Редактирование... сложно сказать, до идеала пока еще очень далеко, иногда ничего не делает, не понимает что ли.
pol_pot
27.08.2025 05:21С бокалом вина та же хрень что у всех, он не бывает до краев заполнен.
Тут слева 2.0 справа 2.5, если приблизить то хорошо заметна разница в качестве картинки, но вот суть одинаково не дошла.
Тут он сделал вид что что то изменил, но ничего не изменил
positroid
27.08.2025 05:21Статья про модель генерации картинок с примерами промптов и без единой картинки - это сильно
BazilioMike
27.08.2025 05:21И я об этом, непонятно, где это можно запустить, какой веб, где на сайте это есть бесплатно, я не нашел, в Gemini нету.
positroid
27.08.2025 05:21В Google AI Studio бесплатно с большими лимитами, но нужен впн штатов или Канады. А так платно в любом сервисе аггрегаторе уже доступна
pol_pot
27.08.2025 05:21В агрегаторе бесплатно раздают. Платить по ~5р за каждую попытку нарисовать шахматную доску с 7 рядами вместо 8 вряд-ли желающие найдутся.
ЗЫ единственный нормальный агрегатор это опенроутер, все остальные - "цигане"
https://openrouter.ai/google/gemini-2.5-flash-image-preview:free
positroid
27.08.2025 05:21Да, действительно, не видел.
Все аггрегаторы я бы не обзывал, есть же нормальные видео/графической направленности типа krea или fal ai. А так да, обычные прокси и перепродажники, особенно в ботах в телеге - такое себе
stas-clear Автор
27.08.2025 05:21Очень сильно. Вобще то это информационная новость, а не демонстрация. Не всегда новости публикуют работу. Кому надо разберутся. А почему про видео обзор не написал ? Надо было сразу, ГДЕ ВИДЕО
Geologist5330
Потестил вчера генерацию изображений и редактирование фото в Gemini App, результат очень понравился. Чаще получается прям весьма хорошо. Минус только разрешение итогового изображения достаточно низкое, хотелось бы побольше...
stas-clear Автор
Ну если критично, то есть Апскейлеры хорошие, например в Krea