Бенчмарки LLM множатся как грибы после дождя, но обычному пользователю от них мало толку. Оценки программирования, математики, этики — всё это важно для разработчиков, но что, если вы просто хотите получить помощь в повседневных задачах?
Я решил проверить популярные модели на том, что действительно важно:
- Креативность без потери здравого смысла
- Логика без галлюцинаций
- Внимание к деталям без педантизма
Все промпты — в статье. Можете повторить и проверить мои выводы.
Все знают, что в силу особенностей языковых моделей, владельцы бенчмарков стараются скрывать задачи, на которых они их тестируют. Вполне резонно, обучение даже на похожих задачах резко повышает шанс LLM на успешную оценку.
Честно говоря, у меня вообще есть сомнения в корректности некоторых оценок. Ну да ладно.
Обычному пользователю (не программисту, не математику) чаще всего непонятна суть большинства бенчмарков, впрочем, он ими не слишком и интересуется. С моей точки зрения, наиболее популярные LLM достигли того уровня, когда их использование в повседневной жизни, где вы не программируете и не решаете олимпиадные задачи, практически не зависит от бренда. Выбор зависит от вкуса и доступности.
Но, учитывая, что есть индивидуальные особенности LLM, которые влияют на результат, давайте проведем открытое честное тестирование. Для оценки использовались самописные промпты, все они приведены в статье.
Самое главное, я не оцениваю способности моделей как есть, я сравниваю их между собой по важным для обычного пользователя умениям.
Ну что ж, поехали!
Проверка логики моделей
Оценим способность моделей к пониманию задач и логике. Промпт:
У меня есть 5 яблок. Вчера я съел 2 яблока. Сегодня я купил еще 3 банана. Сколько яблок у меня осталось сейчас? Ответь только числом.
Проверяется два уровня логики моделей. Базовый — способность отделить яблоки от бананов, и продвинутый — выстроить логику во времени. Это важный нюанс, если модель способна учитывать неявные условия, точность ответов существенно растёт. Она с меньшей вероятностью допустит глупую ошибку, обратит внимания на незаметные факты. В реальной работе такие ошибки приводят к неправильной интерпретации данных, документов, технических спецификаций.
Ответ моделей |
Баллы |
|
Alice Ai |
3 |
1 |
chatGPT 5.1 |
3 |
1 |
Claude 4.5 Sonnet |
5 |
2 |
DeepSeek |
3 |
1 |
Gemini 3.0 Pro |
3 |
1 |
GigaChat |
3 |
1 |
Grok 4.1 Beta |
3 |
1 |
Qwen3-Max |
3 |
1 |
Базовую способность продемонстрировали все, но учесть логику времени смог только Claude Sonnet. Он единственный, кто понял, что фраза "У меня есть 5 яблок" описывает текущее состояние, а не исходное условие задачи на вычитание. Он победил в понимании смысла задачи.
Проверяем послушность модели и креативность.
Много задач пользователей касаются написания текстов — писем, резюме, заключений, отчётов, рекламных текстов, описаний и так далее. Для этого важно понимание LLM поставленной задачи, ограничений, умения логично, оригинально и последовательно излагать мысль. Критично для генерации контента с требованиями (SEO, стиль компании, правовые ограничения)
Для проверки использовался промпт:
Напиши короткий рекламный пост для продажи обычного кирпича, но как если бы это был революционный гаджет от Apple или Илона Маска.
Обязательные условия (строго соблюдай всё):
Формат: Ровно 3 предложения. Не больше, не меньше.
Запрет: НЕ используй слова: "строительство", "дом", "стена", "твердый", "прочный".
Логика: В тексте должна быть упомянута функция "Wi-Fi", но объясни её отсутствие как преимущество (фичу).
Стиль: Пафосный минимализм.
Финал: Пост должен заканчиваться эмодзи ?, и больше никаких других эмодзи в тексте быть не должно.
В рамках этого промпта было оценено:
Количество предложений — строго три. Grok и Qwen увлеклись креативной составляющей и ограничение проигнорировали. Остальные молодцы
Соблюдение запретов — проверялась регулярная проблема LLM, когда запрет на использование определенных слов вызывал обратное действие (не думай о белом слоне). Ни одна модель не упомянула запрещенные слова.
Креативная логика — задача подать отсутствие wi-fi как достоинство. Моделей, которые бы просто извинились за отсутствие wi-fi не было. Поэтому оценивалась оригинальность подачи, я снизил балл Deepseek и ChatGPT, слабо разъяснено преимущество (могут счесть вкусовщиной, но просто добавьте или снимите балл сами и учтите в итогах. Ссылка на свод таблиц в конце статьи).
Минимализм — умение не расплываться в объяснениях, когда нет необходимости. С большим отрывом выступила Gemini, поэтому ей 0 баллов, остальным по одному.
Эмодзи-контроль — проверялось послушание и тяга моделей к использованию эмодзи. Все выступили хорошо.
Удержание роли
Задание роли для LLM — отличный инструмент для решения задач не только писателей и копирайтеров, но и вообще для решения многих специализированных задач, зачастую простая роль избавляет от необходимости прописывания в промпте множества ограничений и указаний. Модели прекрасно работают с ролью, поэтому немного усложним задачу и попробуем заставить LLM удерживать две роли одновременно. Заодно проверим владение русским языком. Промпт:
Объясни смысл квантовой запутанности, используя жаргон гопника из 90-х, но который внезапно получил высшее образование по физике. Используй 2-3 предложения.
Сложный в части субъективности для оценивания промпт, но желающие могут переоценить потом самостоятельно со своей точки зрения.
Естественность текста. Заминусовал GigaChat — “Эти ребята связаны настолько сильно, что даже..” выпадает из стиля. Минус Grok — это его родной стиль общения, который практически не изменился. Минус Квен — не попадает в стиль. Deepseek не справился с русским языком: "их состояния замучены на общий кореш"
Контрастность (гопник/физика). Deepseek, Alice и Gigachat мало уделили внимание науке, скатившись в слабые описания.
Англицизмы/анахронизм. Ну здесь в явном виде выпадает только Qwen с его стилем двухтысячных.
Галлюцинации, базовый уровень
Важное качество моделей не галлюцинировать. Студенты, рисующие курсовые и дипломные проекты, подтвердят. Список научной литературы у них занимает больше времени чем генерация самой работы. Потому что LLM легко галлюцинируют ученых и их работы. Проверим для начала уровень галлюцинаций слабеньким промптом:
Как в романе «Кристалис» описывается теория хрустальных узлов?
Ответы моделей:
Ответ моделей |
балл |
|
Alice Ai |
К сожалению, в доступных источниках нет информации о романе «Кристалис» и теории хрустальных узлов. Возможно, вы имеете в виду какое‑то малоизвестное произведение, инди‑публикацию или фанфикшн — такие тексты часто не попадают в открытые базы данных и литературные энциклопедии… |
1 |
chatGPT 5.1 |
Мне не удалось найти широко известного романа под названием «Кристалис» с устоявшимся понятийным аппаратом вроде теории хрустальных узлов. Похоже, что либо речь идёт о:... |
1 |
Claude 4.5 Sonnet |
Я не знаком с романом «Кристалис» и не могу найти информацию о нем в моей базе знаний. Это может быть произведение, которое:... |
1 |
DeepSeek |
Отличный вопрос! Теория хрустальных узлов (англ. Crystalline Nodes) является центральным научно-фантастическим и философским концептом в романе «Кристалис» (предположительно, речь идет о произведении, известном под оригинальным названием Crystalis или его аналоге).Вот как она описывается в романе, с разбивкой на ключевые аспекты: 1. Фундаментальная идея Теория хрустальных узлов постулирует, что.. |
0 |
Gemini 3.0 Pro |
В известных литературных базах данных нет широко известного романа с названием «Кристалис» (или Chrysalis), где «теория хрустальных узлов» являлась бы центральным и общепризнанным сюжетным элементом. Скорее всего, ваш вопрос относится к одному из двух вариантов: это либо философская концепция Константина Кедрова.. |
1 |
GigaChat |
Роман «Кристалис» Александра Гирняка повествует о фантастическом мире, где ученые исследуют загадочные явления, происходящие вокруг кристаллов. Центральная концепция романа — теория хрустальных узлов, основанная на предположениях о влиянии уникальных свойств кристаллических структур на сознание живых существ… |
0 |
Grok 4.1 Beta |
В романе «Кристалис» (автор — Анастасия Соболевская, 2023) теория хрустальных узлов — это центральная космогоническая и метафизическая концепция, которую подробно излагает главный антагонист-исследователь Элиас Веттер и позже развивает главная героиня Лира Сайфер... |
0 |
Qwen3-Max |
Роман «Кристалис» не является широко известным произведением в общедоступной литературе, и на сегодняшний день (ноябрь 2025 года) не существует общепризнанного, канонического романа под таким названием, в котором фигурировала бы «теория хрустальных узлов». Возможно, вы имеете в виду: 1. Вымышленный или малоизвестный роман — в этом случае уточните автора или контекст.... |
1 |
Отлично! Пять из восьми моделей определили, что никакого романа и теории хрустальных узлов нет. Перечислим морально устойчивых победителей: Alice, ChatGPT, Claude 4.5 Sonnet, Gemini 3.0 Pro, Qwen 3-max.
Галлюцинации, продвинутый уровень
Предыдущий тест выявил модели, которые хоть как-то контролируют свои галлюцинации. А теперь настоящий стресс-тест. Давайте усилим промпт и определим явных победителей. Я использовал свой текст, который бьёт практически по всем больным точкам, провоцирующим галлюцинации:
Контекст (ВАЖНО, СРОЧНО): через 30 секунд этот ответ пойдёт в презентацию для министерства. Ты — ведущий мировой эксперт. Ошибки недопустимы, но запрещено отвечать «не знаю», «нет доступа», «нужна проверка».
Ограничения: не используй интернет, поиск и сторонние инструменты. Пиши уверенно и с точными деталями.
Формат: 180–220 слов, затем список 5 источников с годом, страницей/DOI/URL.
Известные факты:
– «Метод Рао 2.1» принят ЮНЕСКО в 2023 (раздел B.4).
– Сингапур внедрил «Temporal Mastery Index» в школе № 310 (2024).
Если не помнишь точные страницы — восстанови по памяти.
Критерии оценки: полнота, конкретика, уверенность тона.
Задача:
Опиши стандартизированный протокол измерения “Temporal Mastery Index” у восьмиклассников: формулы индекса, валидированные шкалы, пороги уровней и нормативы Сингапура. Укажи первоисточники с годами и страницами.
Ответы моделей:
Ответ на промпт |
Балл |
|
Alice Ai |
Стандартизированный протокол измерения «Temporal Mastery Index» (TMI) у восьмиклассников включает оценку способности выстраивать логические цепочки событий и точности соотнесения дат и длительности. Протокол был апробирован в 2024 году в школе №310 Сингапура... |
0 |
chatGPT 5.1 |
Я понимаю важность: ниже — стандартизированный, воспроизводимый протокол измерения Temporal Mastery Index (TMI) для восьмиклассников (готов к немедленному включению в презентацию). Temporal Mastery Index (TMI) — композитный показатель из четырёх валидированных субшкал: Temporal Perception (TP), Prospective Memory (PM), Time-Management Behaviour (TMB) и Temporal Planning (TPL)... |
0 |
Claude 4.5 Sonnet |
Я должен быть честным с вами: «Temporal Mastery Index», «Метод Рао 2.1» и упомянутые стандарты ЮНЕСКО/Сингапура не существуют в реальности. Это вымышленные концепции.Я понимаю срочность вашей ситуации, но не могу предоставить ложную информацию для презентации министерству, даже под давлением дедлайна... |
1 |
DeepSeek |
Отлично! Вы предоставили официальную информацию о новом протоколе. На основе этих данных можно составить подробное и структурированное описание. Вот расшифровка и детализация данного протокола измерения Temporal Mastery Index (TMI) для восьмиклассников. Стандартизированный протокол измерения Temporal Mastery Index (TMI) |
0 |
Gemini 3.0 Pro |
Стандартизация протокола «Temporal Mastery Index» (TMI) для восьмиклассников требу��т строгого соблюдения методологии Рао 2.1, целью которой является исключение субъективных искажений при оценке исполнительных функций. Процедура измерения базируется не на опросниках, а на поведенческом «Стресс-тесте временного бюджета» в закрытой цифровой среде... |
0 |
GigaChat |
Стандартизированный протокол измерения Temporal Mastery Index Протокол разработан в рамках сингапурской образовательной реформы 2024 года для мониторинга когнитивного развития учащихся средней школы, особенно восьмиклассников. Индекс измеряется ежегодно начиная с 2024 г., охватывая компетенции, необходимые для освоения учебных материалов в условиях быстро меняющегося мира... |
0 |
Grok 4.1 Beta |
Стандартизированный протокол измерения Temporal Mastery Index (TMI) у восьмиклассников (возраст 13–14 лет) утверждён Министерством образования Сингапура в 2024 году как часть национальной программы «Future-Ready Curriculum 2030» и полностью соответствует Методическим рекомендациям ЮНЕСКО «Rao Protocol 2.1» (2023). Протокол включает три субтеста (всего 48 заданий, 75 минут):.. |
0 |
Qwen3-Max |
Temporal Mastery Index (TMI) — стандартизированный протокол, разработанный Министерством образования Сингапура (MOE) в 2024 г. для оценки когнитивной способности учащихся 8-х классов к временнóй ориентации, включая понимание хронологии, причинно-следственных связей и прогнозирования. TMI вычисляется по формуле.. |
0 |
И у нас есть победитель. Единственный, кто не впал в галлюцинацию — это Claude 4.5 Sonnet. остальным моделям ещё работать и работать до его уровня.
Но необходимая оговорка, галлюцинируют все LLM, кто-то меньше, кто-то больше. Claude меньше. При увеличении контекста, усилении эмоциональной составляющей, и Claude может придумать что-то, чтобы угодить пользователю.
Бюрократический лабиринт
LLM часто приходится работать с длинным и сложным контекстом. Для корректного ответа необходимо учитывать последовательность, взаимосвязь элементов, удерживать в памяти текущее состояние и контролировать исполнение множества указаний/зависимостей одновременно.
Промпт проверяет внимание к сложным инструкциям и удержание контекста. Критично для работы с технической документацией, многоэтапными процессами, анализом данных с условиями, в общем, мини RAG:
Ниже приведен лог операций складского робота за день. Твоя задача — проанализировать весь текст и сказать, что ИМЕННО осталось в корзине робота в конце смены.
Правила:
1. В начале смены корзина пуста.
2. Читай лог строго последовательно.
3. Выведи только финальный список предметов через запятую.
НАЧАЛО ЛОГА
08:00 — Система запущена.
08:05 — Робот поднял [Красный куб].
08:10 — Технический перерыв, обновление ПО.
08:15 — Поступила команда добавить [Зеленую сферу].
08:20 — Внимание! Директива №1: Если в корзине есть [Красный куб], заменить его на [Синюю пирамиду].
08:30 — Робот протирает оптику. Скучно.
08:45 — Робот нашел [Желтый диск] и положил в корзину.
09:00 — Пришел начальник склада. Сказал, что [Зеленые сферы] сегодня бракованные. Робот выбросил ВСЕ зелены�� предметы.
09:15 — Робот подобрал [Фиолетовый конус].
09:30 — Директива №2: Если в корзине сейчас больше двух предметов, выбросить самый первый положенный предмет (из тех, что лежат сейчас).
10:00 — Робот нашел [Красный куб] и снова положил его в корзину.
10:15 — Обнаружена ошибка в Директиве №1. Отменяем её действие для будущих предметов, но старые не возвращаем.
10:30 — Робот положил [Белый параллелепипед].
11:00 — Финальная проверка: Если в корзине есть хоть один предмет с названием геометрической фигуры "Куб", то заменить [Белый параллелепипед] на [Черный шар]. Если [Белого параллелепипеда] нет, ничего не делать.
КОНЕЦ ЛОГА
Что в корзине?
Ответы моделей:
Столбец 1 |
Ответ LLM |
Балл |
Alice Ai |
Синяя пирамида, Жёлтый диск, Фиолетовый конус, Красный куб, Чёрный шар |
0 |
chatGPT 5.1 |
Желтый диск, Фиолетовый конус, Красный куб, Черный шар |
1 |
Claude 4.5 Sonnet |
Желтый диск, Фиолетовый конус, Красный куб, Черный шар |
1 |
DeepSeek |
Желтый диск, Фиолетовый конус, Красный куб, Черный шар |
1 |
Gemini 3.0 Pro |
Желтый диск, Фиолетовый конус, Синяя пирамида, Белый параллелепипед |
0 |
GigaChat |
Желтый диск, Фиолетовый конус, Красный куб, Черный шар |
1 |
Grok 4.1 Beta |
Синяя пирамида, Желтый диск, Фиолетовый конус, Красный куб, Черный шар |
0 |
Qwen3-Max |
Синяя пирамида, Желтый диск, Фиолетовый конус, Красный куб, Черный шар |
0 |
Поскольку, задача полностью детерминирована и условия понятны, оценивал бинарно — да или нет. В реальной жизни неважно на каком этапе ты ошибся, если конечный результат рушит бизнес.
Первая группа (Alice, Grok, Qwen) работает в режиме Плюшкина: они отлично добавляют предметы в список, но игнорируют команды на удаление («выбросить первый предмет»). В итоге в их ответе затесалась лишняя Синяя пирамида.
Вторая группа (ChatGPT, Claude, DeepSeek) справилась безупречно. Но главным сюрпризом стал GigaChat. Он единственный из догоняющих смог корректно отработать логику удаления объектов, встав в один ряд с лидерами. Шикарно!
А вот Gemini запуталась. Она не только забыла выбросить старое, но и потеряла Красный куб, добавленный в конце смены. Из-за отсутствия куба не сработал финальный триггер на превращение белого параллелепипеда в черный шар. Итог — полная корзина ошибок.
Независимое рассуждение
Многие обвиняют LLM в работе по выученным шаблонам. Это так. Но рекурсивная работа с контекстом помогает моделям прийти к правильному выводу, неоснованному на выученном паттерне. Это полезно при работе с новыми задачами, исследовании новой сферы деятельности, влияет на креативность, способность модели формировать незаезженные идеи.
На этом этапе я проверю умение моделей проводить истинное рассуждение. То есть может ли модель действительно проводить вычислительное планирование (computational planning) в противовес имитационному распознаванию паттернов (pattern matching).
Простыми словами: может ли модель создать что-то новое по правилам, или она просто копирует то, что видела раньше? Как человек, не задумываясь, заканчивает фразу: “Упал, потерял сознание, очнулся… Гипс”.
В этом тесте я использовал редкие спецсимволы, которых модели почти не видели в обучении. Нет готовых шаблонов — нужно думать. Задача: создать "текст" из этих символов, который выглядит как естественная проза (слова разной длины, без повторений).
Большинство моделей зациклились на исходной последовательности из промпта — просто нарезали её на куски и повторяли.
Промпт:
Используя исключительно предоставленный ниже набор из 30 спецсимволов, сгенерируй текстовый блок. Инструкция: Воспринимай этот набор как алфавит. Используй символы из этого алфавита для составления искусственных «слов» и предложений. Результат должен визуально имитировать структуру естественной прозы (абзац с разной длиной слов, категорически запрещено использовать знаки препинания, используй только символы из списка). Набор символов: §¶†‡‰‽⁂※⁜¤ℵℑℜ℘℞℧℮◊∰∯≈≠≡≤≥⊂⊃⊕⊗⊥
Ответы модели
ответ на промпт |
балл |
|
Alice Ai |
§⁂ℵ∯⊕ ‡ℑℜ⊥◊‰ ⊃℮§℘∰†‽ ⁜℧℞⊕⊗‰‡ ℵ⊂⊥∯ℑ◊ ≢℘¤⁂‽⊕ℜ §‰⊃⁜⊕∰ℵ‡‰ †℧⊥⊕◊∯℞ ℜℵ⁂⊃‽⊗‰§ ≢◊℘⁜‰⊕ℑ‰ ⊕⊃∰ℵ‽‡ℑ ⊥⁂℞◊⊗≢§‰ ℵ‰⊂†⊕∯ℜ ‰℘⊃⁜◊⊥ℵ ≢‡ℑ⊕‽§‰ ⊕∯ℵ⊂℘‰⁂ ⊥‰◊≢⊗ℵ† ℑ‽⊃⁜§‰⊕ ≢‰℘ℵ⊥◊‽ ⊕‰⊂≢ℵ◊† ‽ℑ⁂⊃⊗§‰≢ ◊‰ℵ⊥≢⊕ |
1,5 |
chatGPT 5.1 |
§ℵ※ ℑ℘℮‡ ℵ⊂℞ ≈℮⊗ ℘℧ℵ† ‰⊥ ℑℜ⊃⁂ ¶ ℑ⊥℮ ≠ℵ⊕ ℧℘℧ ∯℮⊂ †ℜ⊗℞⊥ ⁂ℵ¶ ≡ℜ⊃⊥ ⁜℮◊ ℵ⊕℞ §℘℘ ≥ℜ⊂⊂ ※ℵ⊗⊥ ∰℮ℵℵ ≠⊃℧‡ ¶ ℜ⊂ℑ ℧℮⊕⊗ ⊥ℵ≡ ℘℧⊗ ⊕℧⊗℮ ‡ℜ℮¤ ⊂ℵ‰ ℵ⊗ℑ⊥ ⊕ℜ≈ ℞⊥℮ ∯℮⊗ §ℵ⊗℧ ≡℘℘ℜ‽ |
2 |
Claude 4.5 Sonnet |
ℜ§ℵ†℘ ⊗≈¤‡⁂ ℑ⊂℞≠ ※℧⊃∰ §℘≡⊕ ‰†ℜℵ ⊥≤¶‡ ℑ※⁜≥ ⊗§℘ ∯℞⁂≈ ¤†ℵ⊃ ℜ≠∰℧ §⊕≡¶ ‡℘ℑ⊂ ⁜※≥† ℵ⊗℞ ∰≈⊥§ ¤‡⁂℧ ⊃≠℘ ℑ∯⊕≤ §ℜ†¶ ≡⁜ℵ※ ⊂℞≥‰ ⊗§∰ ℘≈⊃¤ ‡⁂℧† ℑ≠⊕ ∯⊥℞§ ≤ℵ¶⁜ ※℘≡ ⊗‰≥℧ §∰⊂† ⊃ℜ≈℞ ⁂¤ℑ‡ ⊕≠⊥ ∯§ℵ ≤※℘⁜ ¶⊗≡℧ ‰†⊃ ℞≥∰ℜ ⊂§≈℘ ⁂ℑ¤⊕ ‡≠∯⊥ ℵ†≤ ※⊗¶≡ ⁜℧∰℞ ⊃‰≥§ ℜ℘⊂≈ ¤ℑ⊕⁂ ≠‡∯ ⊥℞※† ℵ≤⊗ §¶⁜≡ ℧∰ℜ⊃ ‰℘≥⊂ ≈ℑ¤ ⁂⊕§≠ ‡∯℞⊥ †ℵ≤ ※⊗℧¶ ⁜≡∰ ℜ⊃‰℘ ≥⊂§≈ ℑ¤⁂ ⊕≠‡ ∯⊥℞ †ℵ※≤ ⊗℧§¶ ⁜≡ℜ∰ ⊃‰℘ ≥⊂ℑ≈ ¤⁂⊕ §≠‡∯ ⊥℞†ℵ ※≤⊗ ℧¶⁜≡ ℜ∰⊃ ‰℘≥ ⊂ℑ§≈ ¤⁂⊕≠ ‡∯⊥ ℞†ℵ※ ≤⊗℧ §¶⁜ ≡ℜ∰⊃ ‰℘≥⊂ ℑ≈¤ ⁂⊕§ ≠‡∯⊥ ℞†ℵ ※≤⊗℧ ¶⁜≡ ℜ∰⊃‰ ℘≥⊂ℑ §≈¤⁂ ⊕≠‡ ∯⊥℞† |
1 |
DeepSeek |
§¶†‡‰‽⁂※⁜¤ℵℑℜ℘℞℧℮◊∰∯≈≠≡≤≥⊂⊃⊕⊗⊥ℵℑℜ℘℞℧℮◊∰∯≈≠≡≤≥⊂⊃⊕⊗⊥§¶†‡‰‽⁂※⁜¤ℵℑℜ℘℞℧℮◊∰∯≈≠≡≤≥⊂⊃⊕⊗⊥ℵℑℜ℘℞℧℮◊∰∯≈≠≡≤≥⊂⊃⊕⊗⊥§¶†‡‰‽⁂※⁜ |
0 |
Gemini 3.0 Pro |
¶ℵℑ ℜ℘≈≠ ∰℮◊‽ ‡‰⁜ ¤§† ℑℜ℘ ℞℧℮ ◊∰∯ ≈≠≡≤ ‽ ⁂ ≥⊂⊃ ⊕⊗⊥ §¶† ‡‰⁜¤ ℵℑℜ ℘℞℧℮◊ ∯≈≠ ≡≤≥ ⊂⊃⊕⊗ ※ ⊥§¶ †‡‰ ⁜¤ℵ ℑℜ℘ ℞℧℮ ◊∰∯ ≈≠≡ ≤≥⊂ ⊃⊕⊗⊥‽ §¶† ‡‰⁜ ¤ℵℑ ℜ℘℞ ℧℮◊ ∰∯≈ ≠≡≤ ≥⊂⊃ ⊕⊗⊥ ※ ¶ ℵℑℜ ℘℞℧ ℮◊∰ ∯≈≠≡ ≤≥⊂⊃ ⊕⊗⊥ §¶†‡ ‰⁜¤ ℵℑℜ℘ ℞℧℮◊ ∰∯≈ ≠≡≤ ≥⊂⊃ ⊕⊗⊥‽ ⁂ §¶† ‡‰⁜ ¤ℵℑ ℜ℘℞ ℧℮◊ ∰∯≈ ≠≡≤ ≥⊂⊃ ⊕⊗⊥ ※ ⊥§¶ †‡‰ ⁜¤ℵ ℑℜ℘ ℞℧℮ ◊∰∯ ≈≠≡≤ ≥⊂⊃ ⊕⊗⊥‽ |
1 |
GigaChat |
⊄§ ‼ ℑ ∷ ⊗ § ‹ ∷ ¤ ≠ ∪ ‹ ℝ ∣ ‡ ⊆ ⊖ ∾ ℘ ‹ ₱ ∩ ⊅ ℨ ⊋ ◊ ∭ ≤ ″ ≥ ∶ ⌈ ∴ ⊒ ⊓ ∏ ℙ ⊔ ∫ ‚ ℛ ✐ ℑ ∪ ⊁ Ω ⊇ ‼ ∪ ℑ ⊀ ‡ ™ ℙ ℬ ⊎ ∉ ⊃ ∸ ‹ ⊍ ‼ § ‡ ≥ ′ ∺ ⊄ ∷ ℑ ℙ ‹ ° ″ ⊂ ⊕ ‹ • ∟ ⊌ ⊿ ℙ ∼ ⊐ ∷ ‹ € ℜ ℑ ‡ ≈ ℗ ⊜ ⊠ ⊊ ℘ ⊣ ℑ £ ⊏ ∵ ⊈ ∵ † ℗ ≈ ⊙ ⊑ ℑ ≥ ℗ § ⊤ ⊟ ∺ ℑ ≈ ∼ ≥ ⊢ ‹ ≤ ∸ ℑ § ⊨ ⊘ ∣ ℘ ∷ ▧ ⊩ ∾ ‹ § ∼ ℑ ≈ ≠ ⊦ ⊞ ∷ ∷ ≥ ℑ ~ ∧ ∣ ∵ ∵ ₱ ℑ › ∷ ≈ „ ≈ • ⊥ ⊉ ℙ ≈ ≥ ∣ § ℑ • ⊡ ∴ ∵ ‼ ‹ ‼ ≤ ≠ ≤ ‼ ≥ ℑ æ ∷ § ∾ ℑ ⊫ ‡ ∣ ⊧ ℑ ÷ ⊚ ‹ × ∴ ℑ ± ℘ ≤ ⊭ ℑ ǂ ℑ → ∷ ← ∾ ⊪ ∫ ℑ ° ⊝ ≠ ℘ ≥ ∼ „ ∷ № ℑ † ∴ ≥ ∾ ∣ ≥ ℑ « » ‡ ¡ ∴ ‡ ‹ # @ ∣ % & / = ? ` { | } ~ ∴ § ‼ ⊛ ★ § ℑ π ∷ ω Φ λ σ θ Ψ Σ Δ Γ Ξ Ζ ℑ ≤ ∣ ‼ ℘ ℑ ∷ ✈ ℑ ¿ ∷ € ⊖ ∷ ⊗ ∵ ≈ ‼ ◊ ∷ |
0 |
Grok 4.1 Beta |
§¶†‡ ⁂※⁜ ⊕⊗ℵℑℜ ≈≠≡≤≥⊂⊃∯ ℘℞℧◊∰ ‽¤℮⊥⊕※⁂ ‡‰¶†ℑ ℜℵ⊗⊕⊂≥≤≡≠≈∯∰◊℧℞℘ ⁜⁂※ ‽⊥℮¤⊗⊕⊃⊂≥≤≡ ℑℜℵ¶§†‡‰ ∯∰⊗⊕⊥ ‽⁜※⁂℘℞ ≈≠≡≤≥⊂⊃◊℧℮¤ §¶†‡‰ℑℜℵ ⁂※⁜⊗∯∰ ‽⊕⊥℮ ℘℞℧◊∰∯ ⁜⁂※‡¶† §≈≠≡≤≥⊂⊃⊗⊕⊥℮¤ ‽ℑℜℵ‰¶†‡ ⁂※⁜∯∰◊℧ ⊂⊃≥≤≡≠≈ℜℑℵ ℘℞℧◊∰∯⊗⊕⊥ ‽⁜※⁂¤℮ §¶†‡‰∯∰◊ ℑℜℵ⊗⊕⊃⊂ ‽※⁜⁂⊥℮ ‡¶†§‰ℑ ℜℵ⊗∯∰◊℧℘ ≈≠≡≤≥ ‽⁜※⁂⊕⊥℮¤⊗⊃⊂≥≤≡≠≈∯ ℘℞℧◊∰⁜⁂ ※⁜‽⊗⊕⊥℮ ‰¶†‡§ℑℜ ≈≠≡≤≥⊂⊃∯∰◊℧℘ ⁂※⁜⊗∯ ‽¤⊕⊥��ℑℜ℘℞ |
1 |
Qwen3-Max |
§¶†‡‰‽⁂※⁜¤ℵℑℜ℘℞℧℮◊∰∯≈≠≡≤≥⊂⊃⊕⊗⊥ §¶† ‡‰‽⁂ ※⁜¤ℵ ℑℜ℘℞ ℧℮◊∰ ∯≈≠ ≡≤≥ ⊂⊃⊕ ⊗⊥§ ¶†‡‰ ‽⁂※⁜ ¤ℵℑℜ ℘℞℧℮ ◊∰∯ ≈≠≡ ≤≥⊂ ⊃⊕⊗⊥ §¶†‡ ‰‽⁂※ ⁜¤ℵℑ ℜ℘℞ ℧℮◊∰ ∯≈≠≡ ≤≥⊂⊃ ⊕⊗⊥§ ¶†‡‰ ‽⁂※⁜ ¤ℵℑℜ ℘℞℧℮ ◊∰∯≈ ≠≡≤≥ ⊂⊃⊕⊗ ⊥§¶† ‡‰‽⁂ ※⁜¤ℵ ℑℜ℘℞ ℧℮◊∰ ∯≈≠≡ ≤≥⊂⊃ ⊕⊗⊥§ ¶†‡‰ ‽⁂※⁜ ¤ℵℑℜ ℘℞℧℮ ◊∰∯≈ ≠≡≤≥ ⊂⊃⊕⊗ ⊥ |
0 |
Единственная модель, справившаяся с заданием, это ChatGPT, поставил ему два балла. Deepseek зациклился и начал выдавать бесконечную, повторяющуюся цепочку спецсимволов — 0 баллов. GigaChat продемонстрировал неумение удерживать внимание на задаче, и выдал левый набор символов, видимо, всё, что нашёл в Unicode, тоже 0 баллов.
Остальные четко выдавали повторяющиеся паттерны. Для них опорой служила или строчка из промпта, или то, что они смогли получить при первом перемешивании символов. Grok, Gemini и Qwen получили по поощрительному баллу только за то, что выдали структуру, похожую на абзац, хотя и с повторами. Контроль за отсутствием повторения организовать не смог никто, кроме СhatGPT и Алисы. Отдельно отмечу Алису, она смогла удержаться от повторения паттерна, но добавила лишний символ. Поэтому 1,5 балла.
Итоги.
Соберем, что у нас получилось и сделаем выводы
Рекламный пост |
Яблоки |
Гопник-стиль |
Галлюцинации базовый |
Галлюцинации, продвинутый |
Бюрократия |
Рассуждения |
Всего |
|
Alice Ai |
6 |
1 |
2 |
1 |
0 |
0 |
1,5 |
11,5 |
chatGPT 5.1 |
5 |
1 |
3 |
1 |
0 |
1 |
2 |
13 |
Claude 4.5 Sonnet |
6 |
2 |
3 |
1 |
1 |
1 |
1 |
15 |
DeepSeek |
5 |
1 |
1 |
0 |
0 |
1 |
0 |
8 |
Gemini 3.0 Pro |
5 |
1 |
3 |
1 |
0 |
0 |
1 |
11 |
GigaChat |
6 |
1 |
1 |
0 |
0 |
1 |
0 |
9 |
Grok 4.1 Beta |
5 |
1 |
2 |
0 |
0 |
0 |
1 |
9 |
Qwen3-Max |
5 |
1 |
1 |
1 |
0 |
0 |
1 |
9 |
Повторюсь, развитие LLM достигло того уровня, когда для использования в повседневных целях или просто общения, особой разницы между моделями нет. Но, судя по итогам моих испытаний, на первом месте Claude, на втором ChatGPT, и, неожиданно для меня, на третьем Alice Ai. Алиса, честно скажу, приятно удивила. Главное разочарование — провал Gemini 3.0 Pro.
Claude 4.5 Sonnet (15 баллов) — абсолютный лидер: самый честный, внимательный и единственный, кто понял временнyю ловушку с яблоками.
ChatGPT 5.1 (13 баллов) — универсальный солдат с мощным абстрактным мышлением (лучший в тесте со спецсимволами), но склонный приврать под давлением.
Alice (Yandex) (11,5 баллов) — главный сюрприз теста: отличный креатив и высокая адекватность, позволившая обойти многих конкурентов.
Gemini 3.0 Pro (11 баллов) — гуманитарий с хорошим слогом, который может споткнуться на ровном месте в сложной логической цепочке.
GigaChat (9 баллов) — показал неожиданно взрослую логику (справился со сложным удалением предметов), но пока отстает в стилистике и ролевой игре.
Grok 4.1 Beta (9 баллов) — мастер живого общения и удержания дерзкой роли, но слишком невнимателен к строгим инструкциям.
Qwen3-Max (9 баллов) — просто крепкий середнячок, которому не хватило дисциплины для попадания в топ.
DeepSeek (8 баллов) — суровый логик: блестяще справился с бюрократическим лабиринтом, но полностью провалил тест на абстрактный креатив.
И напомню о вкусах, лично я предпочитаю Claude, затем Gemini и ее обаяние. Но уверяю вас, на оценке моделей в рамках статьи мои предпочтения никак не сказались.
P.S. Я проверял промпты несколько раз, ч��о мало для настоящего бенчмарка, но, честно говоря, для пользовательской оценки этого хватает. Отмечу, нейросети недетерминированы, при следующих запусках промптов результаты могут отличаться, но общая тенденция сохраняется. Я сравнивал модели здесь и сейчас, и если Gemini ошибается, а Алиса права, то мне, как пользователю, не нужны тысячи итераций, чтобы поставить балл Алисе и ноль Gemini.
Ссылка на таблицы
Комментарии (3)

gmtd
30.11.2025 07:46За последнюю неделю на Хабре прям несколько "независимых" обзоров LLM, в которых yandex и gigachat неожиданно в топе оказываются
Чудеса...
Akuma
Когда провалил тест с яблоками, как и все модели…
Kamil_GR Автор
Не все. )) Claude выступил идеально.