
В недавней публикации мы представили Tau² — инструмент для оценки больших языковых моделей. Сегодня же хотим поделиться неожиданным открытием: простое переписывание промпта увеличило успешность небольшой модели более чем на 20%. Ниже — подробный разбор того, как мы нашли и устранили узкое место в её работе, внеся всего несколько тонких изменений в политику агентов.
LLM-тесты с помощью Tau²
В недавнем летнем обновлении OpenAI стало очевидно, что GPT 5 значительно продвинулся в решении агентных задач. Чтобы проверить эти заявления, использовали именно Tau², ведь он имитирует реальные сценарии взаимодействия с агентами в таких сферах, как телеком, розничная торговля и авиаперевозки.
Наиболее ощутимый скачок ChatGPT 5 показал в направлении телеком.

В агентных взаимодействиях точность не предмет спора, но не менее важна и скорость работы модели: от этого напрямую зависит пользовательский опыт. Именно поэтому логично присмотреться к альтернативам флагманских решений, например к недавно выпущенной ChatGPT 5 mini.
У неё масса преимуществ: она почти вдвое быстрее по задержке, заметно эффективнее по пропускной способности, выдаёт 85–95% качества от старшей GPT 5 и при этом стоит в пять раз дешевле.
Поэтому мы поставили себе цель проверить две вещи: во‑первых, насколько GPT 5 mini справится с этим бенчмарком; а во‑вторых, можно ли улучшить результаты, слегка подправив саму постановку задач — например, переписав политики агентов или описания заданий.
Базовый уровень

Для начала мы решили зафиксировать исходный показатель качества GPT 5 mini. Так как полный телеком‑бенчмарк насчитывает свыше сотни тестов, мы ограничились его компактной версией — telecom_small, где всего 20 сценариев.
Запуск выглядел так:
tau2 run \
--domain telecom \
--agent-llm gpt-5-mini \
--user-llm gpt-5-mini \
--num-trials 2 --task-set-name telecom_small
Результаты оказались следующими:

Всего вышло 40 симуляций:

Начальный успех оказался низким — лишь 55%. С ограниченными возможностями рассуждений GPT 5 mini даже близко не дотянула до флагманской версии.
Интересную метрику ввёл этот бенчмарк — pass^k. Она показывает, насколько хорошо агент справляется, если дать ему повторно одну и ту же задачу k раз. По сути, это показатель надёжности AI‑агента.
Взлом системы: как Claude переписал промпты для GPT 5 mini
Экспериментируя с GPT 5 mini, мы пытались ответить на три вопроса: можно ли повысить общий процент успешных решений у этой ограниченной модели? Удастся ли «разблокировать» больше задач, с которыми она раньше не справлялась? Улучшится ли её надёжность?
Прелесть генеративного ИИ в том, что он позволяет часть тяжёлой работы переложить на плечи других моделей. Поэтому мы обратились к Claude: попросили его проанализировать политики агентов в домене телеком, которые лежат в основе промпта, и переписать их с оглядкой на то, что этот текст будет использоваться не флагманской, а более быстрой, облегчённой LLM. Получившиеся документы (main_policy.md
и tech_support_manual.md
) должны были стать проще для восприятия и, как следствие, улучшить поведение агента.
Вот краткий «экзекьютив‑саммари» улучшений:
Я создал две AI-оптимизированные версии документации по телеком-домену:
Ключевые улучшения:
1. Структура и логика
- Деревья решений: чёткое ветвление с обозначениями ├── и └──.
- Последовательные шаги: пронумерованные процедуры вместо разрозненных пояснений.
- Предварительные условия: явная проверка зависимостей перед началом работы.
2. Оптимизация для ИИ-агента
- Ясность вызова инструментов: точные названия функций и параметры.
- Бинарные решения: чёткие «да/нет»-условия вместо расплывчатых формулировок.
- Обработка ошибок: конкретные сценарии сбоев и дальнейшие шаги.
- Этапы проверки: перепроверочные инструкции после каждого исправления.
3. Снижение когнитивной нагрузки
- Справочные таблицы: быстрый доступ к инструментам и их назначению.
- Узнавание шаблонов: типовые комбинации проблем и их решения.
- Критические напоминания: раздел о частых ошибках ИИ для их предотвращения.
4. Прикладной язык
- Удалены пространные объяснения, смешанные с инструкциями.
- Логика нескольких документов объединена в единые рабочие процессы.
- Использованы повелительные конструкции: «Проверь X», «Если Y, то Z».
- Добавлены шаги немедленной проверки.
Оригинал
I've created two AI-optimized versions of the telecom domain documentation:
Key Improvements Made:
1. Structure & Flow
- Decision Trees: Clear branching logic with ├── and └── notation
- Sequential Steps: Numbered, ordered procedures instead of scattered explanations
- Prerequisites: Explicit dependency checks before proceeding
2. AI Agent Optimizations
- Tool Call Clarity: Exact function names and parameters
- Binary Decisions: Clear yes/no conditions instead of ambiguous language
- Error Handling: Specific failure conditions and next steps
- Verification Steps: "Recheck" instructions after each fix
3. Cognitive Load Reduction
- Reference Tables: Quick lookup for tools and purposes
- Pattern Recognition: Common issue combinations and their solutions
- Critical Reminders: Common AI mistakes section to prevent errors
4. Actionable Language
- Removed verbose explanations mixed with instructions
- Consolidated multiple documents' logic into single workflows
- Used imperative commands: "Check X", "If Y then Z"
- Added immediate verification steps
Мы ушли от длинных деклараций политик к ясным, директивным указаниям. Вместо многословных описаний теперь используются пошаговая логика, условия и шаблоны. Для промптов это работает скорее как чек‑лист: «Проверь X → Если Y, то Z», а не как размытые описательные инструкции.
Результат: рост точности на 22% и вдвое меньше невыполнимых задач
Посмотрим, что получилось после обновления:

Новые промпты дали мощный прирост. Метрика pass^k заметно подросла:
При k = 1: с 0,55 до 0,675 (плюс 22,73%) → проще говоря, GPT 5 mini теперь справляется с 67,5% задач вместо 55%.
При k = 2: с 0,4 до 0,5 (плюс 25%) → значит, повторные попытки тоже стали продуктивнее.
Для сравнения: флагманский GPT 5 набирает около 97% на этом бенчмарке, o3 — 58%, а GPT 4.1 всего 34%. После оптимизации промптов GPT 5 mini не только поднялась выше своей базы, но и обогнала o3, приблизившись к старшей модели.
Построчное сравнение показывает, где именно мы добились прироста. Слева — стандартные результаты агента, справа — версия, оптимизированная именно под нашу модель GPT 5 mini.

Скриншот наглядно демонстрирует: благодаря обновлённым промптам и политикам мы «разблокировали» часть тестов, которые раньше модель проваливала. Теперь осталось всего три задачи, которые агент не смог выполнить ни в одной из двух попыток — против шести ранее.
Что это значит для ваших моделей
Этот опыт показал: вдумчивый дизайн промптов способен серьёзно улучшить работу небольших моделей вроде GPT 5 mini. Переписав политики в виде чётких пошаговых инструкций, мы не только повысили процент успешных решений, но и «открыли» задачи, которые раньше казались для модели безнадёжными.
Главный секрет был в упрощении языка, устранении двусмысленностей и разбиении рассуждений на понятные, применимые шаги. Небольшие модели плохо разбирают пространные или расплывчатые инструкции, но прекрасно работают, когда им дают структурированные схемы, бинарные решения и лёгкие проверки на каждом этапе.
Вывод очевиден: использование флагманской модели для автоматической оптимизации промптов открывает путь к серьёзным улучшениям в работе облегчённых LLM. При грамотной настройке они способны давать достойный результат за малую долю стоимости — и это делает их особенно привлекательными там, где важны не только точность, но и эффективность с доступностью.
Если эта работа оказалась вам полезной — дайте знать. Искусство инженерии промптов всё ещё открыто для экспериментов, и нам крайне любопытно, какие ещё творческие подходы будут искать другие.

Пока версталась статья
После публикации этой статьи и выхода её на главную HN читатели проявили интерес к тому, чтобы увидеть реальные версии политик «до» и «после» (именно они служат строительным материалом для промпта агента). Сначала мне казалось, что они будут слишком громоздкими для статьи, и никому не захочется вникать, но раз уж появился интерес — делюсь ими в этом пулл‑реквесте.