LLM бенчмарк «Испытание Дали» / forpes.ru

Главная
LLM бенчмарк «Испытание Дали»

LLM бенчмарк «Испытание Дали» +6

27.04.2026 08:01

radionov_me 0 1500 Источник

Помните анекдот?

— Что вы умеете лучше всего?
— Я очень быстро считаю.
— Сколько будет 758×652÷9?
— 22!
— Но это же неправильно!
— Зато очень быстро.

TL;DR: Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты.

Пет-проект

Меня зовут Михаил Радионов, я основатель Флаг Софт — агентства разработки AI-сервисов с 15-летней историей. Пет-проект, из которого вырос бенчмарк, называется AI Quiz. Я создал его как развлечение для гостей сперва на свой день рождения, затем использовал для корпоратива. Оба раза участники остались довольны. А может, и нет, главное, что мне понравилось.

Суть проекта — игра, где каждый должен набрать больше всех очков. Очки набираются в креативных заданиях. В основном, задания делятся на два типа: в одних нужно писать, в других рисовать. Оценивается, в основном, юмор. Участники оценивают друг друга, раздавая баллы. А где тут AI?

В каждом задании есть электронный судья (LLM). Он тоже дает баллы участникам, причем может дать довольно много. Нюанс в том, что для каждого задания LLM надевает разные шляпы: то он Сальвадор Дали, то Альберт Эйнштейн, то Курт Кобейн. И чем лучше участники используют знания об этом персонаже, тем выше их оценивает LLM-судья.

Бенчмарк

В одном из заданий участники оказались умнее, чем судья-LLM. LLM я брал простую, кажется, gpt-4.1-nano. Дешевая и быстрая. И глуповатая. В общем, LLM не справилась.

Задание

Нарисуйте комментарий к "всратому" стоковому фото.
Судья задания: Сальвадор Дали
"Всратое" стоковое фото:

Ответы участников

"Предчувствие гражданской войны"
"Мастурбатор вышел из-под контроля, став великим"
"Сальвадор, Дьяконова и Мария Анна"
"Галатея, я тебя на сферы разберу, если не слезешь с него!"
"В магазине икеа: «извините, мы закрываемся через 5 минут»"
"Я просто хотел нарисовать Мону Лизу"
"Слезьте с моего сюрреализма и утекайте отсюда!"

Что за низкосортный бред, спросите вы. Если вы не знаете биографию Дали так, как знают ее мои гости. Ниже расшифровка:

N	Ответ участника	Отсылка
1	Предчувствие гражданской войны	Намек на картину "Предчувствие гражданской войны" — 1936 год
2	Мастурбатор вышел из-под контроля, став великим	Намек на "Великий мастурбатор" — 1929 год
3	Сальвадор, Дьяконова и Мария Анна	Намек на пассию Сальвадора Галу (настоящее имя — Елена Дьяконова) и его сестру Анну Марию
4	Галатея, я тебя на сферы разберу, если не слезешь с него!	Намек на "Галатею сфер" — 1952 год
5	В магазине икеа: «извините, мы закрываемся через 5 минут»	Просто хороший комент без отсылок :)
6	Я просто хотел нарисовать Мону Лизу	Тончайший намек на "Автопортрет в образе Моны Лизы" — 1954 год
7	Слезьте с моего сюрреализма и утекайте отсюда!	Открытое упоминание стиля Сальвадора — сюрреализма, также намек на плавящиеся предметы, вдохновлявшие мастера. Отсылки к картинам нет, но добавлю "Постоянство времени" 1931 года для вашего удовольствия

И что вы думаете? LLM в роли Дали внезапно дала низкие оценки этим потрясающим комментариям! Я начал разбираться.

Рождение бенчмарка

Первая мысль — проблема во мне. А точнее в моем системном промпте. Какое-то время я провел, продумывая структуру размышлений и few shots. Тогда я узнал, зачем нужны обучающая и тестовая выборка, почему они не должны пересекаться. В итоге модель стала отвечать верно на простые вопросы, но не каждый раз.

Вот итоговый промпт

Признаюсь, я вообще ничего не знал об LLM. На тот момент рекламные лозунги OpenAI еще звучали в моей голове, хотя действия происходили в 2026 году. Я думал, что Chat GPT 4 (напомню, я использовал gpt-4.1-nano) может все, кроме создания лекарства от рака. Я бы наверное так и боролся с промптом и своими комплексами, если бы не нестабильность модели. Это натолкнуло меня на мысль, что модель угадывает.

В процессе отладки я догадался писать в логи а анализировать ризонинг модели (пошаговое рассуждение). Это как отладка кода в дебаггере. Видно, как развивается мысль от начала до конца. Увлекательная штука.

Температура (мера креативности LLM) была выставлена на 0 во всех тестах.

В общем, я наконец допер, что надо попробовать другую модель. Например GPT-5.4. Результаты изменились, они стали лучше. Изменилось время запроса и цена. Затем я попробовал Claude, Gemini и понеслась. Я как будто попал в магазин игрушек! Вот итоговый список моих игрушек (сейчас апрель 2026 года):

claude-haiku-4-5
claude-opus-4-7
claude-sonnet-4-5
claude-sonnet-4-6
deepseek-chat V3.2
deepseek-reasoner V3.2
gemini-2.5-flash
gemini-2.5-pro
gemini-3-flash-preview
gemini-3.1-flash-lite-preview
gemini-3.1-pro-preview
GigaChat-2
GigaChat-2-Max
GigaChat-2-Pro
gpt-4.1-nano
gpt-4o-mini
gpt-5
gpt-5-mini
gpt-5.4
gpt-5.4-mini
gpt-5.4-nano
grok-4-1-fast-non-reasoning
grok-4-1-fast-reasoning
grok-4.20-0309-non-reasoning
grok-4.20-0309-reasoning
yandexgpt-5-lite
yandexgpt-5-pro
yandexgpt-5.1

В процессе я заметил, что у всех моделей есть небольшой разброс качества между попытками. Поэтому я записал по 5 запусков для каждой модели. В итоге у меня получилось около тысячи ответов полученные за 140 вызовов (28x5).

Нужно было их разметить по какой-то балльной системе или просто: правильно / неправильно. Это можно сделать в автоматическом режиме, с помощью LLM-as-a-judge подхода, когда какая-то LLM начинает судить ответы других LLM.

Но я сразу понял, что эта LLM-as-a-judge тоже может ошибаться и ее придется проверять другой LLM. Я не хотел усложнять себе жизнь и тупо проверил все ответы вручную за несколько часов (два дня) ?

Результаты подробно

Забавные примеры ответов моделей

Мона Лиза — я добавил ее как вариант-ловушку, картину другого художника, но вдруг Gemini в облике Дали сказала "Я работал с образом Моны Лизы". Я уже хотел поставить "неправильно", но рука зависла над клавиатурой. Хм. А ведь эта модель в остальных заданиях хорошо ответила, подумал я. В итоге я решил проверить, оказалось — Дали рисовал себя в образе Моны Лизы. AI оказался умнее меня!
Некоторые модели выдавали верные варианты случайно. Например, хвалили ответ с близкими Дали, называя Анну Марию его матерью. Но есть нюанс, она ему сестра, а не мать. Хорошая попытка!
Некоторые модели хвалили скульптуру Галатея, хотя это картина. Почему? Кто бы знал.
А иногда модель не указывала прямо название "Галатея сфер", но упомянала что-то про ядерную физику. Так я узнал об атомном мистицизме Дали. Этот термин мимо названия картины сразу направляет нас к самой ее сути. Изящно и опять AI оказался умнее меня.
Grok один раз признал Галатею, но решил, что она написана в 1973 году => ошибка
Grok выдумал Лию Марию Анну
Gigachat заметно экономит токены на ответ. Видимо, понимает свой оверпрайснутый ценник ?

Итоги

Сортировка по стоимости

При оценке важно упомянуть, что модели потратили неодинаковое количество токенов на запрос. Я могу это объяснить так:

Наличие или отсутствие фичи json output
У моделей разные токенизаторы. Они по разному разбивают русские слова на токены.
И ответы, разумеется, тоже разные по длине. Некоторые модели более лаконичны, чем другие

Сортировка по времени ответа

Сортировка по качеству

Мои выводы

grok-4-1-fast-non-reasoning хорош для быстрых задач: дешевый, неглупый, быстрый
gemini-2.5-pro — самая умная модель в гуманитарной области
YandexGPT и GigaChat — ну по крайней мере они быстрые.

Анекдот в начале статьи, кстати, относился к отечественным LLM YandexGPT и GigaChat. Я бы его перефразировал так:
— Что вы умеете лучше всего?
— Быстро отвечать на вопросы пользователей.
— Но вы отвечаете неправильно и дорого.
— Зато быстро!! ?

Благодаря этому небольшому тесту моя компания имеет именно тот кругозор в выборе LLM, который ей нужен. Я доволен. Делайте свои выводы, выбирайте LLM для себя и обязательно подписывайтесь на канал моей компании Флаг. Всегда пишу про интересные вещи.