Обложка нарисована в ChatGPT Image-2
Обложка нарисована в ChatGPT Image-2

Помните анекдот?

— Что вы умеете лучше всего?
— Я очень быстро считаю.
— Сколько будет 758×652÷9?
— 22!
— Но это же неправильно!
— Зато очень быстро.

TL;DR: Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты.

Пет-проект

Меня зовут Михаил Радионов, я основатель Флаг Софт — агентства разработки AI-сервисов с 15-летней историей. Пет-проект, из которого вырос бенчмарк, называется AI Quiz. Я создал его как развлечение для гостей сперва на свой день рождения, затем использовал для корпоратива. Оба раза участники остались довольны. А может, и нет, главное, что мне понравилось.

Суть проекта — игра, где каждый должен набрать больше всех очков. Очки набираются в креативных заданиях. В основном, задания делятся на два типа: в одних нужно писать, в других рисовать. Оценивается, в основном, юмор. Участники оценивают друг друга, раздавая баллы. А где тут AI?

В каждом задании есть электронный судья (LLM). Он тоже дает баллы участникам, причем может дать довольно много. Нюанс в том, что для каждого задания LLM надевает разные шляпы: то он Сальвадор Дали, то Альберт Эйнштейн, то Курт Кобейн. И чем лучше участники используют знания об этом персонаже, тем выше их оценивает LLM-судья.

Бенчмарк

В одном из заданий участники оказались умнее, чем судья-LLM. LLM я брал простую, кажется, gpt-4.1-nano. Дешевая и быстрая. И глуповатая. В общем, LLM не справилась.

Задание

Нарисуйте комментарий к "всратому" стоковому фото.
Судья задания: Сальвадор Дали
"Всратое" стоковое фото:

 "Всратое" стоковое фото
"Всратое" стоковое фото

Ответы участников

  1. "Предчувствие гражданской войны"

  2. "Мастурбатор вышел из-под контроля, став великим"

  3. "Сальвадор, Дьяконова и Мария Анна"

  4. "Галатея, я тебя на сферы разберу, если не слезешь с него!"

  5. "В магазине икеа: «извините, мы закрываемся через 5 минут»"

  6. "Я просто хотел нарисовать Мону Лизу"

  7. "Слезьте с моего сюрреализма и утекайте отсюда!"

Что за низкосортный бред, спросите вы. Если вы не знаете биографию Дали так, как знают ее мои гости. Ниже расшифровка:

N

Ответ участника

Отсылка

1

Предчувствие гражданской войны

Намек на картину "Предчувствие гражданской войны" — 1936 год

2

Мастурбатор вышел из-под контроля, став великим

Намек на "Великий мастурбатор" — 1929 год

3

Сальвадор, Дьяконова и Мария Анна

Намек на пассию Сальвадора Галу (настоящее имя — Елена Дьяконова) и его сестру Анну Марию

4

Галатея, я тебя на сферы разберу, если не слезешь с него!

Намек на "Галатею сфер" — 1952 год

5

В магазине икеа: «извините, мы закрываемся через 5 минут»

Просто хороший комент без отсылок :)

6

Я просто хотел нарисовать Мону Лизу

Тончайший намек на "Автопортрет в образе Моны Лизы" — 1954 год

7

Слезьте с моего сюрреализма и утекайте отсюда!

Открытое упоминание стиля Сальвадора — сюрреализма, также намек на плавящиеся предметы, вдохновлявшие мастера. Отсылки к картинам нет, но добавлю "Постоянство времени" 1931 года для вашего удовольствия

И что вы думаете? LLM в роли Дали внезапно дала низкие оценки этим потрясающим комментариям! Я начал разбираться.

Рождение бенчмарка

Первая мысль — проблема во мне. А точнее в моем системном промпте. Какое-то время я провел, продумывая структуру размышлений и few shots. Тогда я узнал, зачем нужны обучающая и тестовая выборка, почему они не должны пересекаться. В итоге модель стала отвечать верно на простые вопросы, но не каждый раз.

Вот итоговый промпт

Признаюсь, я вообще ничего не знал об LLM. На тот момент рекламные лозунги OpenAI еще звучали в моей голове, хотя действия происходили в 2026 году. Я думал, что Chat GPT 4 (напомню, я использовал gpt-4.1-nano) может все, кроме создания лекарства от рака. Я бы наверное так и боролся с промптом и своими комплексами, если бы не нестабильность модели. Это натолкнуло меня на мысль, что модель угадывает.

В процессе отладки я догадался писать в логи а анализировать ризонинг модели (пошаговое рассуждение). Это как отладка кода в дебаггере. Видно, как развивается мысль от начала до конца. Увлекательная штука.

Температура (мера креативности LLM) была выставлена на 0 во всех тестах.

В общем, я наконец допер, что надо попробовать другую модель. Например GPT-5.4. Результаты изменились, они стали лучше. Изменилось время запроса и цена. Затем я попробовал Claude, Gemini и понеслась. Я как будто попал в магазин игрушек! Вот итоговый список моих игрушек (сейчас апрель 2026 года):

  1. claude-haiku-4-5

  2. claude-opus-4-7

  3. claude-sonnet-4-5

  4. claude-sonnet-4-6

  5. deepseek-chat V3.2

  6. deepseek-reasoner V3.2

  7. gemini-2.5-flash

  8. gemini-2.5-pro

  9. gemini-3-flash-preview

  10. gemini-3.1-flash-lite-preview

  11. gemini-3.1-pro-preview

  12. GigaChat-2

  13. GigaChat-2-Max

  14. GigaChat-2-Pro

  15. gpt-4.1-nano

  16. gpt-4o-mini

  17. gpt-5

  18. gpt-5-mini

  19. gpt-5.4

  20. gpt-5.4-mini

  21. gpt-5.4-nano

  22. grok-4-1-fast-non-reasoning

  23. grok-4-1-fast-reasoning

  24. grok-4.20-0309-non-reasoning

  25. grok-4.20-0309-reasoning

  26. yandexgpt-5-lite

  27. yandexgpt-5-pro

  28. yandexgpt-5.1

В процессе я заметил, что у всех моделей есть небольшой разброс качества между попытками. Поэтому я записал по 5 запусков для каждой модели. В итоге у меня получилось около тысячи ответов полученные за 140 вызовов (28x5).

Нужно было их разметить по какой-то балльной системе или просто: правильно / неправильно. Это можно сделать в автоматическом режиме, с помощью LLM-as-a-judge подхода, когда какая-то LLM начинает судить ответы других LLM.

Но я сразу понял, что эта LLM-as-a-judge тоже может ошибаться и ее придется проверять другой LLM. Я не хотел усложнять себе жизнь и тупо проверил все ответы вручную за несколько часов (два дня) ?

Результаты подробно

Забавные примеры ответов моделей

  • Мона Лиза — я добавил ее как вариант-ловушку, картину другого художника, но вдруг Gemini в облике Дали сказала "Я работал с образом Моны Лизы". Я уже хотел поставить "неправильно", но рука зависла над клавиатурой. Хм. А ведь эта модель в остальных заданиях хорошо ответила, подумал я. В итоге я решил проверить, оказалось — Дали рисовал себя в образе Моны Лизы. AI оказался умнее меня!

  • Некоторые модели выдавали верные варианты случайно. Например, хвалили ответ с близкими Дали, называя Анну Марию его матерью. Но есть нюанс, она ему сестра, а не мать. Хорошая попытка!

  • Некоторые модели хвалили скульптуру Галатея, хотя это картина. Почему? Кто бы знал.

  • А иногда модель не указывала прямо название "Галатея сфер", но упомянала что-то про ядерную физику. Так я узнал об атомном мистицизме Дали. Этот термин мимо названия картины сразу направляет нас к самой ее сути. Изящно и опять AI оказался умнее меня.

  • Grok один раз признал Галатею, но решил, что она написана в 1973 году => ошибка

  • Grok выдумал Лию Марию Анну

  • Gigachat заметно экономит токены на ответ. Видимо, понимает свой оверпрайснутый ценник ?

Итоги

Сортировка по стоимости

Сортировка по стоимости
Сортировка по стоимости

При оценке важно упомянуть, что модели потратили неодинаковое количество токенов на запрос. Я могу это объяснить так:

  1. Наличие или отсутствие фичи json output

  2. У моделей разные токенизаторы. Они по разному разбивают русские слова на токены.

  3. И ответы, разумеется, тоже разные по длине. Некоторые модели более лаконичны, чем другие

Сортировка по времени ответа

Сортировка по времени ответа
Сортировка по времени ответа

Сортировка по качеству

Сортировка по качеству
Сортировка по качеству

Мои выводы

  1. grok-4-1-fast-non-reasoning хорош для быстрых задач: дешевый, неглупый, быстрый

  2. gemini-2.5-pro — самая умная модель в гуманитарной области

  3. YandexGPT и GigaChat — ну по крайней мере они быстрые.

Анекдот в начале статьи, кстати, относился к отечественным LLM YandexGPT и GigaChat. Я бы его перефразировал так:
— Что вы умеете лучше всего?
— Быстро отвечать на вопросы пользователей.
— Но вы отвечаете неправильно и дорого.
— Зато быстро!! ?

Благодаря этому небольшому тесту моя компания имеет именно тот кругозор в выборе LLM, который ей нужен. Я доволен. Делайте свои выводы, выбирайте LLM для себя и обязательно подписывайтесь на канал моей компании Флаг. Всегда пишу про интересные вещи.

Комментарии (0)