Соревнование MindGames Arena проводится как часть одной из ключевых конференций в области ИИ NeurIPS 2025 и проверяет, могут ли агенты демонстрировать социально‑стратегические способности — моделировать убеждения других, обнаруживать обман, координироваться и планировать в многоходовых взаимодействиях — все это, общаясь на естественном языке. Команда In2AI Института AIRI, стартапа Coframe и Университета Иннополис заняла первое место в треке Generalization в двух категориях:

  1. Efficient: модели с открытым исходным кодом до 8 миллиардов параметров.

  2. Open: любые модели без ограничений на размер и стоимость, в том числе модели с закрытым исходным кодом (OpenAI, Google, Anthropic и др.).

Рассказываем о том, как им это удалось.

В рамках MindGames Arena агенты на базе LLM играют друг против друга в многошаговых сценариях. Их задача — не просто решать отдельные задачи, а вести диалог, строить гипотезы о намерениях других участников, координироваться и выдерживать длинные серии раундов. 

Агенты соревновались в трех играх:

  1. Codenames (две команды по два агента): командная игра на слова, где у каждой команды есть «ведущий» и «исполнитель». Ведущий даёт однословную подсказку и число, а исполнитель пытается открыть слова своей команды на поле, избегая «слово‑ассасин». Побеждает команда, первой раскрывшая все свои слова или оказавшаяся впереди по истечении лимита ходов.

  2. Colonel Blotto (два агента играют друг против друга): дуэль на распределение ресурсов. Каждый раунд игроки раскладывают фиксированное число «юнитов» по нескольким полям боя, пытаясь выиграть большинство полей. Суть — угадать приоритеты соперника и перехитрить его распределение.

  3. Three‑Player IPD (дилемма заключённого на троих): три агента общаются и затем независимо выбирают, с кем сотрудничать, а кого обмануть. Очки начисляются попарно, поэтому важно уметь строить альянсы, вовремя замечать манипуляции и решать, когда доверие окупается. Побеждает тот, кто набрал больше суммарных очков за все раунды.

Результаты агрегируются по множеству матчей и оппонентов, а качество игры оценивается рейтинговой системой TrueSkill, что стимулирует устойчивые и обобщающие стратегии.

Сложности

В такой постановке агенты на базе LLM ведут многошаговые диалоги, а итоговая награда приходит поздно и редко, что усложняет распределение кредита между отдельными сообщениями и действиями. Дополнительно присутствует высокая неопределенность: частичная наблюдаемость, скрытые роли и меняющиеся стратегии оппонентов — всё это затрудняет оценку полезности действий в момент их совершения. Поэтому участники из In2AI использовали компактные прокси‑метрики и агрегированное оценивание, чтобы поощрять победы и одновременно стабилизировать обучение.

Так как в списке игр есть и командная игра, необходимо было обучить модель играть как в одной команде с «умными» агентами, так и с «глупыми».

Как решили проблему

Команда переосмыслила привычный подход к обучению с подкреплением, где награда назначается сразу после каждого действия. Вместо этого была предложена новая парадигма отложенного присвоения наград с фильтрацией шагов: награды вычисляются в конце эпизода, распределяются обратно к исходным действиям на основе семантики задачи, а шаги без достаточного сигнала исключаются из обучения.

Для устранения смещения в сторону поведения конкретных ролей в процессе обучения команда реализовала равномерное семплирование по всем ролям и позициям в каждой игре. А чтобы модель не переобучалась на слабых оппонентах, применили curriculum learning: на ранних этапах агент играл против более слабых противников, а по мере обучения добавлялись сильные модели, включая GPT-5, Gemini 2.5 Pro и Grok 4.

Со стороны инфраструктуры команда провела значительную инженерную работу: пайплайн обучения асинхронно запускает множество игр параллельно, используя continuous batching, где каждый параллельный процесс получает ответ сразу по готовности, не дожидаясь остальных.

В основу метода обучения с подкреплением лёг RLOO (Reinforce Leave‑One‑Out), но с ключевым изменением: поскольку в мультишаговых играх нет повторяющихся состояний, группировали шаги по типу игр и считали относительную ценность действия в рамках игровой группы. Это позволило корректно нормализовать награды между разными играми и избежать интерференции между задачами.

Результаты

В обеих категориях модель от In2AI заняла первое место, среди соперников были агенты на базе как открытых, так и проприетарных систем, в том числе значительно более крупных. Победа в обоих треках показывает, что продуманная архитектура, обучение с подкреплением и устойчивые стратегии позволяют относительно небольшой модели конкурировать с проприетарными решениями.

В открытой категории решение команды обошло такие модели, как GPT-5, Gemini 2.5 Pro и Grok 4, подтвердив эффективность предложенного подхода.

Efficient Track (модели до 8B параметров)

Команда

TrueSkill

Win rate

In2AI

34.2 ± 1.3

87.0%

STARS

26.8 ± 1.1

36.2%

RLGaming

25.8 ± 1.1

28.5%

Corleone

24.4 ± 1.4

44.1%

Odyssean

16.6 ± 1.4

10.9%

Open Track (без ограничений)

Команда

TrueSkill

Win rate

In2AI

38.0 ± 1.8

81.0%

RLGaming

37.1 ± 1.1

73.5%

Odyssean

34.2 ± 1.4

72.3%

PsychSkull

31.3 ± 1.4

62.8%

Corleone

28.6 ± 1.3

49.6%

Соревнование MindGames Arena продолжает серию, посвящённую проблемам кооперации, манипуляции и доверия ИИ‑агентов и поднятую в прошлогоднем соревновании Concordia NeurIPS 2024. Тогда организаторами выступили Google DeepMind и Cooperative AI Foundation, а команда In2AI вошла в топ-5 победителей.

В будущем команда планирует опубликовать подробный отчет, описывающий детали проведенного исследования.

Состав команды

  • Алексей Коршук (Coframe, Университет Иннополис), 

  • Александр Буянтуев (Университет Иннополис) 

  • Илья Макаров (Институт AIRI, ИСП РАН, Университет Иннополис)

Комментарии (0)