
Проблема универсальных агентов снова вышла на передний план. Разработчики Lumine предлагают конкретный путь, как собрать агента, который будет устойчиво проходить сложные задачи с 3D навигацией, головоломками и диалогами в открытом мире Genshin Impact в течение нескольких часов и сможет переноситься без дополнительного обучения в другие игры.

Почему это сложно
Закрытые среды принесли нам много отличных алгоритмов, но мало научили выживанию в открытом мире, где агенту приходится одновременно воспринимать трёхмерную картинку и двумерный GUI, планировать на долгий срок, тонко управлять клавиатурой и мышью, помнить контекст и всё это — под жёсткими ограничениями по времени. Мир Genshin Impact, как испытательный полигон для агента, кажется жестоким — огромный, с диалогами, сайд-квестами, разными механиками, физикой и погодой, а интерфейс распознаёт только то, что происходит на экране, без какого-либо доступа к «внутренним» состояниям.

Как устроен агент
В его основе визуально-языковая модель с открытой архитектурой Qwen2-VL-7B-Base. Агент видит мир как человек — глазами, каждые 200 мс получая кадр 1280×720. Действует тоже как человек — клавиатурой и мышью, но с важной оговоркой: последние кодируются в текстовом описании, эмулирующем каждое нажатие и микродвижение. На каждом условном шаге агент выдаёт шесть «чанков» (каждые 33 мс) с сжатой информацией о том, что происходило на экране, а также как именно игрок двигал мышью и нажимал на клавиши. Затем эти шесть чанков преобразуются в виртуальное K&M-действие за 200 мс игрового времени. Такой подход помогает осуществлять точное позиционирование нажатия при взаимодействии с GUI, прицеливание с помощью мыши во время боя и уменьшает количество ошибок при диалогах и выборе.
Ключевая идея — гибридное мышление. На каждом шаге агент решает, стоит ли ему подумать прямо сейчас (то есть сгенерировать короткий мыслеплан) или просто выдать очередной полезный K&M-чанк. Мысли нужны не во всех ситуациях, скорее наоборот, они обычно появляются на «переломах» сюжета и служат долгосрочными заметками. Отдельно хранится история за последние 20 шагов. Этого в совокупности достаточно, чтобы агент был устойчив к задержкам и вёл себя согласованно.

Как его учили
Исследователи предлагают три стадии. Все со своим здравым смыслом. Во‑первых, обучение с имитацией. Нужно много различных человеческих данных: видео и логи K&M из прохождения Genshin с нуля. Всего 2424 часа. Они делают фильтрацию чистой K&M-истории без простоя и дёрганий камеры — остаётся 1731 час, где игроки хорошо используют все игровые механики. На этой стадии модель учится бо́льшему, чем просто идти вперёд и жать на кнопки: взаимодействует с объектами, участвует в боях, стабильно управляет GUI, быстро переключает задания и перемещается по карте.
Во‑вторых, данных с имитацией мало. Агенту нужно, чтобы его переводили со слова «пройди» на слово «почти» или «измени путь», то есть нужны устойчивость и понимание, как следовать данной ему инструкции. Для этого используют 165 часов коротких человеческих эпизодов с инструкциями из трёх разных задач. Это расширяют с помощью вспомогательной модели и фильтрации до 200 часов эпизодов, где агент должен следовать инструкциям в разных ситуациях.
В-третьих, для прохождения миссий на несколько часов с боями, диалогами с NPC, головоломками и другим нужно умение рассуждать. Авторы аккуратно размечают внутренние мысли от первого лица на каждый ключевой кадр одного акта сюжетной миссии - всего 15 часов. Мысли-контрольные точки получаются короткими, агент привыкнет использовать их редко.

Скорость имеет значение
Все мы любим максимальную производительность, но авторам пришлось потеть не на шутку - ускорения вывода с оптимизациями на 25,3 суммарно. Модель, храня кэш KV в FP16, использует квантизацию ресурсов Qwen2-VL в awq4, спекулятивное декодирование разделителей мыслей и K&M, стриминг K&M от каждого кадра. А препроцессинг с разметкой визуальных токенов отдают на GPU. В результате первый K&M-чанк (если вдруг не нужно рассуждать) приходит примерно за 110 миллисекунд, а задержка вывода для произвольного K&M составляет около 3 миллисекунд. Игра остаётся плавной, даже если от игры требуется мощь видеокарты, а от ИИ - частая генерация мыслей при сложных миссиях.

Что получилось на практике
Первое, конечно же, выход в метриках, измеряющих выполнение инструкций. На 141 задачке во всех 4 категориях - сбор, бой, взаимодействие с NPC, решение головоломок. Агент показывает более 80% выхода на простых и стабильное поведение на сложных задачах после стадии с обучением на инструкциях. История часто помогает в задачах со сбором и пазлах, где важна последовательность.

Второе, долгая сюжетная миссия. Агент Lumine проходит ее примерно за 56 минут, что эквивалентно сильному живому игроку. Именно стадия с обучением на рассуждении заметно повышает устойчивость - агент ведёт себя целенаправленно, реже выходит за пределы задачи, меньше ошибается на маршруте и более аккуратно работает с игровым GUI.

В-третьих, перенос. Без дополнительного обучения агент справляется с миссиями, требующими более часа реального времени, в игре Wuthering Waves и проходит первую главу Honkai: Star Rail примерно за пять часов. Всегда приятно видеть агента, который не ломается вне среды, где его учили.
Чем это отличается от предыдущих подходов
Короткая память - неплохо. Меньше галлюцинаций, больше устойчивость. Авторы считают своим сильным ходом отсутствие двух вещей. Первый - жёсткой иерархии со смысловыми абстракциями для разных задач и навыков. Последняя культивирует куски поведения высокого уровня, но трудно оптимизируется совместно. Второе - принуждение к рассуждению на каждом шаге. В длинных миссиях от этого сильно страдает общее время реакции, а в контексте у агента много шума от избыточных мыслей с галлюцинациями. Гибридная стратегия выглядят простым и действенным компромиссом.
Что пока не идеально
Ограничения выписаны подробно в статье. Агент редко использует быстрые перемещения, не любит лечиться, умирает от сложных боссов и у него возникают проблемы с маршрутизацией между большим количеством маркеров на карте из-за короткой памяти в 20 шагов. Всё это выглядит поправимым хорошей работой с мини-картой, более длинной памятью, дополнительными данными по редким механикам и лёгким дообучением с подкреплением. Авторы считают следующим крупным шагом развитие у модели хорошего представления мира для планирования.
Почему это важно
Такое ощущение, что эта работа обнадёживает. Она показывает, что возможно собрать универсального игрового агента с визуальным восприятием, который сможет использовать мышление, действие и память для устойчивого поведения в разных играх, если вывести их в единую петлю и поставить время отклика во главу угла. Это может стать частью архитектуры игрового ИИ, который будет играть как живой игрок: смотря на экран, рассуждая, нажимая на кнопку и помня, что он делал до этого. Да, многое описано и замеряно только в одной сюжетной миссии Genshin. Но интуиция говорит, что следующий шаг в сторону такого устройства игрового ИИ - вполне осязаем.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
andyshark1974
Зацепило в первую очередь по шахматам фраза в описании. Но в тексте статьи про шахматы ноль... Все таки поинтересуюсь - а когда нейросети общего назначения стали обыгрывать людей? Ладно специализированные (на то они и специализированные), но общедоступные то когда? Можно ткнуть носом в ссылку. А то мне только пара видео помнится где ChatGPT фигуры на доске придумывал и доставал из пространственного кармана