Нейросети стали часто использоваться в творчестве и нашей повседневной жизни. Листая короткий контент, можно наткнуться на фото и видео, где в роли обзорщиков теперь выступают ИИ-аватары — зачастую это сгенерированные изображения людей с синтезированными голосами. Качество этих материалов пока может уступать творениям, созданным человеком, но грань с реальностью постепенно стирается.

В статье посмотрим, какая нейросеть из четырех лучше всего подойдет для генерации изображений. Все познается в сравнении, поэтому приступим!

Начало сравнений

Оцениваться нейросети будут в трех категориях, назовем это раундами. Всего сделаем три раунда:

  • стандартная генерация изображения с фоном; 

  • генерация очень детального изображения; 

  • способность генерации текста на изображении.

Первый раунд: генерация персонажа-банана

Nano Banana

Начнем с теста: предложим нейросети промт, связанный с бананом. Но вместо обычного фрукта попросим ИИ изобразить «живой и нестандартный» образ.

Промт: «Желтый банан, состоящий в вымышленной организации "ба-на-на" стоит около белой стены разрисованной граффити, в халате, на котором написано название его благотворительной организации, он стоит с доброжелательным лицом, держа в руках аптечку, на голове медицинская шапка»

После обработки запроса система выдала следующий результат:

Получилось неплохо, но нейросеть «посвоявольничила» и добавила несколько деталей на стене — это не критично. Главная проблема — надпись на всю стену: «HELPING HANDS», которой не было в промте. Почему нейросеть добавила эту надпись? 

Алгоритм выхватил лишние ассоциации из базы данных, пытаясь визуально интерпретировать промт — технически это объясняется семантическим наложением: в промпте упоминались «благотворительная организация» и «граффити». Нейросеть выстроила ассоциативный ряд и «галлюцинировала» лозунг, перенеся его с халата на стену.

Разработчику стоит поработать над точностью генерации и свести галлюцинации к минимуму. Для пользователя важны предсказуемость и качество, поэтому данному изображению я ставлю 6 из 10 за вышеперечисленные недостатки.

Nano Banana 2

Теперь взглянем на вторую, более новую и усовершенствованную версию — Nano Banana 2. Первая версия показала довольно посредственный результат, который не оправдал возложенные на нее ожидания.

После генерации мы получили следующий результат:

Неплохо. Результат достойный, картинка получилась реалистичной, в отличии от предшественника с его мультяшным стилем. Банан проработан детально и приятен для глаза. 

На стене — получилось много граффити, причем большинство из них имеют в себе какой-то смысл или посыл. Но есть один нюанс, вызывающий вопросы к нейросети: почему на тротуаре видны штрихи, напоминающие те же граффити?

Возможно, модель слегка перепутала тротуар и стену. Но есть также другой вариант: нейросеть, благодаря большой базе данных, выяснила, что художники перед нанесением краски, часто, проверяют баллоны перед работой, распыляя краску куда придется, в том числе и под ноги.
 

Остается два варианта, почему нейросеть так поступила — высокая проработанность и большая база данных, или просто баг генерации. Итоговая оценка: 9 из 10 за хорошую проработанность и приятный для глаза реализм и дизайн.

ChatGPT

В отличие от остальных конкурентов, эта модель отличается хорошо проработанными деталями и качеством изображения, что не может не радовать.

Повторим тот же запрос с «благородным» бананом и посмотрим на результат.
    

Генерация от ChatGPT выглядит явно лучше, чем у первой Nano Banana и где-то наравне со второй. По качеству она выглядит приятнее и детальнее. Есть пара любопытных моментов. Нейросеть сама добавила расшифровку названия организации «ба-на-на» на халате как дополнение. Хотя прочесть текст целиком сложно, кое-что там все-таки можно рассмотреть, например, слова «бананова» и «нано». Видимо, ChatGPT знает, с кем имеет дело. 

Но расшифровка не единственное, на что стоит обратить внимание. Руки по текстуре напоминают молодой картофель. Если приглядеться, можно увидеть черные точки, и светло-коричнево-желтый цвет, который специфичен данному корнеплоду. 

Этому изображению я ставлю 8,5 из 10 из-за реалистичности и неплохой детализации, но небольшие недостатки не позволяют получить наивысший балл.

Qwen

Эта модель делает ставку на фотореализм, а не на избыточную детализацию. В генерации изображений реалистичность преобладает над детальностью, но качество генерируемых изображений остается на высоком уровне даже не имея мелких деталей.

Отправляем наш промт и смотрим на результат: 

Четвертый участник выдает довольно хороший результат, который может конкурировать с предыдущими. Как я уже говорил выше, у этой нейросети преобладает реализм, поэтому изображение получилось очень реалистичным — даже пугающе — реалистичным. 

Рассмотрев фотографию, хочется отметить граффити: оно выглядит приятно, а особенно цепляют символичные рисунки бананов.

Я ставлю этой генерации 10 из 10 за красоту и эстетичность, хоть и присутствует небольшая, но не критичная ошибка в генерации текста на халате.

Вывод по раунду

Все участники справились с задачей достойно, но лидером в этом раунде можно считать Qwen, набравший наивысший балл.

Новые GPU в облаке Selectel от 196,09 ₽/час

Видеокарты для ресурсоемких задач — NVIDIA® H100, H200, RTX™ 6000 Pro.

Подробнее →

Второй раунд: генерация кабины пилота изнутри

В этом раунде проверим нейросети на детализацию. Мы попросим их сгенерировать панель управления в Boeing: на ней расположено множество приборов, индикаторов и переключателей — именно их детальность и проработка нам и нужна.

Порядок нейросетей оставим таким же, как и в первом раунде.

Промт: «Сгенерируй панель управления пилота в самолете модели Boeing и как можно детальнее».

Референс панель управления пилота Boeing 747. Источник.
Референс панель управления пилота Boeing 747. Источник.

Nano Banana


В этот раз Nano Banana постарался и показал отличный результат: кокпит с обилием панелей, рычагов и лампочек выглядит впечатляюще. Поскольку в этом раунде мы оцениваем именно детализацию, реалистичность не войдет в сравнение, но будет плюсом. 

Хочется похвалить нейросеть за проработку мелочей: кнопки приятны глазу, а надписи при желании можно даже прочитать. 

Хоть и генерация получилась хорошая, есть интересный недочет: откуда в креслах взялись пилоты? Вероятно, алгоритм воспринял слово «пилота» из промта буквально и добавил самих людей в кадр. Это в очередной раз показывает, что нейросеть часто ошибается в понимании некоторых частей текста.

По итогу изображение получилось реалистичным, приятным, а главное — с большим количеством мелких деталей на панеле управления. За выполнение задания — заслуженные 10 из 10.

Nano Banana 2

Результат получился удовлетворительный. Внимательно рассмотрев генерацию, можно увидеть много панелей, мелкого текста и цифр, но некоторые из них проработаны плохо — это разочаровывает, ведь первая версия показала результат куда лучше. Стоит отметить, что крупный текст видно неплохо и его можно разобрать, но мелкие надписи и панельки — с трудом.

По итогу нейросеть справилась с заданием на средний балл — даже хуже, чем его прошлая версия, что довольно удивительно. За выполнение задания нейросеть получает оценку 5 из 10 за большое количество деталей.

ChatGPT

Результат от ChatGPT неоднозначный: с одной стороны, все элементы кокпита присутствуют, с другой — их почти невозможно распознать. Приглядевшись можно увидеть артефакты и некачественную генерацию: вместо текста на кнопках и панелях красуются непонятные символы и «закорючки».

Но этот параметр мы не оцениваем и на этот минус можно закрыть глаза. За неплохие способности генерировать мелкие детали можно поставить и 8 из 10, но из-за сомнительного качества самих элементов оценка снижается до 6,5 из 10.

Qwen

Результат получился, мягко говоря, неутешительным — это самый худший результат в этом раунде. Объясню, что пошло не так. Первое, что сильно бросается в глаза — размер панели: она выглядит крошечной по сравнению с другими участниками. Детали хоть и присутствуют, но не впечатляют. Например, если вглядется в мониторы, то некоторые числа выглядят как непонятный набор белых пикселей. 

Положительные черты есть, но их слишком мало, чтобы перебить минусы. В этот раз Qwen разочаровал: генерация вышла не особо интересной и не оправдала ожиданий. Итоговая оценка 4 из 10 за сомнительное качество и слабую проработку.

Вывод по раунду

Nano Banana показал себя в этом раунде отлично, и стал в нем фаворитом. Другие участники показали себя в генерации мелких деталей хуже.

Третий раунд: генерация текста на изображении

В заключительном раунде будем сравнивать генерацию текста. За основу возьмем текст красивого стихотворения великого поэта 19 века — Александр Сергеевича Пушкина. Мы попросим нейросеть сгенерировать два четверостишия и посмотрим на его качество, ну и конечно, оценим его.

Промт: «Сгенерируй белый лист бумаги формата А4, на котором написано 2 четверостишья стихотворения А.С. Пушкина “Я помню чудное мгновенье“».

Получаем такие результаты:

Nano Banana

Впервые взглянув на генерацию, я был очень приятно удивлен качеством картинки и самого текста — все выглядит очень приятно, особенно само стихотворение. Перед началом строк нейросеть добавила его название, а в конце — инициалы автора. Мелочь, а приятно. 

В генерации текста Nano Banana показала себя отлично, я бы даже сказал, «шикарно»: пока это мой фаворит в раунде. Изображению ставим заслуженные 10 из 10.

Nano Banana 2

Что и требовалось ожидать: генерация получилась почти точно такая же, как и у первой версии, только с небольшими изменениями. Нет названия в начале и инициалов автора в конце, но это не так важно, как качество текста, — а оно у обоих версий на уровне. Картинке я ставлю 10 из 10.

ChatGPT

По моему мнению, нейросеть не справилась с заданием от слова «совсем». Соблюден разве что порядок строк, а вот с положением и написанием букв явные проблемы. Единственное, что можно отчетливо прочитать, — это слово «мгновенье». 

За такую генерацию хочется поставить ноль, но порядок строк правильный и за это можно натянуть один балл. Поэтому моя оценка 1 из 10. Плохо, ChatGPT, плохо. Разработчикам стоит поработать над оптимизацией текстового энкодера и рендерингом шрифтов. В текущем виде модель плохо следует промту: вместо связного текста мы видим визуальные артефакты.

Qwen

Посмотрев на эту генерацию, я подумал «Ну, хотя бы не так плохо как у ChatGPT». Качество текста довольно посредственное, но уже некоторую часть можно расшифровать. Текст получился немного лучше, чем у предыдущего участника, но далек от идеального. Я ставлю этой генерации 3,5 из 10 за верную структуру и хоть немного понятный текст.

Вывод

Nano Banana и Nano Banana 2 показали себя с хорошей стороны. Эти нейросети лучше всего использовать для генерации текста на картинках и изображений с точной детализацией. Но без минусов не обошлось — имеются трудности с пониманием промтов. Нейросети могут сгенерировать то, чего пользователь не хочет, и могут сложить о себе не лучшее впечатление.

А для генерации обычных изображений я бы выбрал других сегодняшних претендентов — Qwen и ChatGPT, в этой сфере они справляются лучше.

Комментарии (15)


  1. fire64
    17.04.2026 13:20

    Это вы ещё YandexART не тестировали и Гигачат.

    Как это не парадоксально, но ответственные нейросети сильно сильно хуже справляются с кириллицей...

    По крайней мере ещё год назад так было...


    1. itHauntsMe
      17.04.2026 13:20

      Всё ещё очень плохо


  1. amcured
    17.04.2026 13:20

    Единственное, что можно отчетливо прочитать, — это слово «мгновенье». 

    Окститесь! ЧатЖПТ раскрыл нам замазанный текст, расшифровать который не могли даже с использованием всяких рентгенов и прочей современной техники (все, кто не поленился посетить Императорский Царскосельский лицей, видели этот листок, написанный рукой Саши и восхищались перфекционизмом будущего царского прихлебателя). Оригинал быть написан на Кюхельбекерском — выдуманном языке, которым пользовались лицеисты, чтобы потроллить лузера Кюхлю. Итак.

    Я хомему́ чунно мгновенье!
    Пере́чо мю — лави́слаггл ты.
    Лак мимолётнае звизде́нье,
    Як ча́ол чу́былп сроосты.

    Я нёс хлобал, пидзиь етз во́ти мо́же.
    В зуме́ мод гасла по сосмон;
    Н су́нп сна со́ес — ме́де по трево́жип.
    Я пе нодо чечальте х’чиуём!


    1. Flux82
      17.04.2026 13:20

      ...Глокая куздра штеко будланула бокра и курдячит бокрёнка...


  1. danila-kondr2004
    17.04.2026 13:20

    ChatGPT не только, кстати говоря, не справился с генерацией рукописного текста, он зачем-то взял в качестве второго четверостишия первое четверостишие из совершенно другого стиха.


  1. ArtyomOchkin
    17.04.2026 13:20

    Любопытно, что у Qwen часть ошибок те же - например, вместо "мной" - "мio". Похоже, командой Alibaba Cloud для ускорения разработки была взята дистилляция ChatGPT (с меньшей вероятностью наоборот), и естественно была своя собственная часть обучения и особенности алгоритма, + больше китайских и русских данных, на последних она немного и "выехала" в сравнении с ChatGPT.

    Да, и поскольку ChatGPT обучался в первую очередь (по большей части) на английских данных, то среди глюков есть "t".

    Интересно, как этот самый энкодер реализован... Явно отдельный компонент, который помогает перевести обычный текст в специфический шрифт.


    1. amcured
      17.04.2026 13:20

      Явно отдельный компонент […]

      Какой еще компонент? Вы представляете себе, как LLM устроена?


      1. dmitrik4321
        17.04.2026 13:20

        Это не LLM, это генератор картинок, точного названия не знаю. LLM это Large language Model, большая ЯЗЫКОВАЯ модель, к картинкам отношения не имеет


      1. vmkazakoff
        17.04.2026 13:20

        Dalee не llm. И да, в современных моделях текст генерится отдельно, потом накладывается, потом по сути происходит второй этап генерации из двух картинок. Это очень грубое описание, но в реальности оно примерно так и есть.


  1. MX4RS
    17.04.2026 13:20

    Ну вы ещё сравните консистентность персонажа в кадре - попробуйте погенерить одного в разных локациях тогда поговорим - а после "незначительная ошибка в тексте у Qwen" аж ржать в голос захотелось. Квен бювообше тексты на кириллице превращает кашу галюциногенную причем всегда и везде - хоть в генерации картинок,хоть в редактировании, хоть в генерации презентаций.


  1. mckeenly15
    17.04.2026 13:20

    Кажется, надо обладать чувством юмора, чтобы на простой запрос выдать такое "стихотворение Пушкина", как у ChatGPT. И это уже покруче генерации картинок)


  1. SarmatKuricin
    17.04.2026 13:20

    Почему в сравнении нет Black Forest Labs FLUX.2? Без неё вышло какое-то "избиение младенцев", хотя и она всё равно уступает nano banano 2. Но всё же на голову выше Qwen и ChatGPT. И с кириллицей справляется на отлично.


    1. Axelaredz
      17.04.2026 13:20

      Flux ниже некуда Qwen ) Особенно версии Z-Image.
      Кое как с кучей лор, что то из себя представляет.


  1. Axelaredz
    17.04.2026 13:20

    qwen
    qwen

    anthropomorphic yellow banana character, friendly smiling face, upright standing pose, white medical robe with text “БА-НА-НА” on chest, surgical medical cap on head, holding red first aid kit with both hands, white graffiti-covered urban wall background, street art tags and colorful murals, warm soft ambient lighting, slight rim light on character, charity poster style, vibrant flat illustration, clean linework, high detail, sharp focus, symmetrical composition, centered subject


  1. MazzZzill
    17.04.2026 13:20

    Это чат гпт. Тот же промт, что в статье. Как автор умудрился получить свой результат, остается загадкой
    Это чат гпт. Тот же промт, что в статье. Как автор умудрился получить свой результат, остается загадкой