Проблема универсальных агентов снова вышла на передний план. Разработчики Lumine предлагают конкретный путь, как собрать агента, который будет устойчиво проходить сложные задачи с 3D навигацией, головоломками и диалогами в открытом мире Genshin Impact в течение нескольких часов и сможет переноситься без дополнительного обучения в другие игры.

Lumine — первый ИИ-агент, способный в реальном времени выполнять многочасовые миссии в обширных открытых 3D-мирах.
Lumine — первый ИИ-агент, способный в реальном времени выполнять многочасовые миссии в обширных открытых 3D-мирах.

Почему это сложно

Закрытые среды принесли нам много отличных алгоритмов, но мало научили выживанию в открытом мире, где агенту приходится одновременно воспринимать трёхмерную картинку и двумерный GUI, планировать на долгий срок, тонко управлять клавиатурой и мышью, помнить контекст и всё это — под жёсткими ограничениями по времени. Мир Genshin Impact, как испытательный полигон для агента, кажется жестоким — огромный, с диалогами, сайд-квестами, разными механиками, физикой и погодой, а интерфейс распознаёт только то, что происходит на экране, без какого-либо доступа к «внутренним» состояниям.

Обзор игрового мира Genshin Impact: масштабное исследование открытого мира и многоуровневые задачи в интерактивной 3D‑среде. Игроки свободно перемещаются по регионам, парят, плавают, ныряют, взаимодействуют с персонажами и участвуют в квестах, головоломках и боях.
Обзор игрового мира Genshin Impact: масштабное исследование открытого мира и многоуровневые задачи в интерактивной 3D‑среде. Игроки свободно перемещаются по регионам, парят, плавают, ныряют, взаимодействуют с персонажами и участвуют в квестах, головоломках и боях.

Как устроен агент

В его основе визуально-языковая модель с открытой архитектурой Qwen2-VL-7B-Base. Агент видит мир как человек — глазами, каждые 200 мс получая кадр 1280×720. Действует тоже как человек — клавиатурой и мышью, но с важной оговоркой: последние кодируются в текстовом описании, эмулирующем каждое нажатие и микродвижение. На каждом условном шаге агент выдаёт шесть «чанков» (каждые 33 мс) с сжатой информацией о том, что происходило на экране, а также как именно игрок двигал мышью и нажимал на клавиши. Затем эти шесть чанков преобразуются в виртуальное K&M-действие за 200 мс игрового времени. Такой подход помогает осуществлять точное позиционирование нажатия при взаимодействии с GUI, прицеливание с помощью мыши во время боя и уменьшает количество ошибок при диалогах и выборе.

Ключевая идея — гибридное мышление. На каждом шаге агент решает, стоит ли ему подумать прямо сейчас (то есть сгенерировать короткий мыслеплан) или просто выдать очередной полезный K&M-чанк. Мысли нужны не во всех ситуациях, скорее наоборот, они обычно появляются на «переломах» сюжета и служат долгосрочными заметками. Отдельно хранится история за последние 20 шагов. Этого в совокупности достаточно, чтобы агент был устойчив к задержкам и вёл себя согласованно.

Архитектура модели Lumine: на базе VLM получает пиксельный ввод и исторический контекст (предыдущие действия и рассуждения) и выдаёт текстовые команды клавиатуры и мыши. Использует гибридную стратегию рассуждений: генерирует новые шаги только при необходимости, иначе сразу выдаёт действия для эффективного управления в реальном времени.
Архитектура модели Lumine: на базе VLM получает пиксельный ввод и исторический контекст (предыдущие действия и рассуждения) и выдаёт текстовые команды клавиатуры и мыши. Использует гибридную стратегию рассуждений: генерирует новые шаги только при необходимости, иначе сразу выдаёт действия для эффективного управления в реальном времени.

Как его учили

Исследователи предлагают три стадии. Все со своим здравым смыслом. Во‑первых, обучение с имитацией. Нужно много различных человеческих данных: видео и логи K&M из прохождения Genshin с нуля. Всего 2424 часа. Они делают фильтрацию чистой K&M-истории без простоя и дёрганий камеры — остаётся 1731 час, где игроки хорошо используют все игровые механики. На этой стадии модель учится бо́льшему, чем просто идти вперёд и жать на кнопки: взаимодействует с объектами, участвует в боях, стабильно управляет GUI, быстро переключает задания и перемещается по карте.

Во‑вторых, данных с имитацией мало. Агенту нужно, чтобы его переводили со слова «пройди» на слово «почти» или «измени путь», то есть нужны устойчивость и понимание, как следовать данной ему инструкции. Для этого используют 165 часов коротких человеческих эпизодов с инструкциями из трёх разных задач. Это расширяют с помощью вспомогательной модели и фильтрации до 200 часов эпизодов, где агент должен следовать инструкциям в разных ситуациях.

В-третьих, для прохождения миссий на несколько часов с боями, диалогами с NPC, головоломками и другим нужно умение рассуждать. Авторы аккуратно размечают внутренние мысли от первого лица на каждый ключевой кадр одного акта сюжетной миссии - всего 15 часов. Мысли-контрольные точки получаются короткими, агент привыкнет использовать их редко.

Обзор конвейера обработки данных: из 2424 ч синхронизированных видео‑действий после правил отбора получают 1731 ч для предобучения; 165 ч вручную размечены для обучения авторазметки и, с GPT‑4.1 и фильтрацией действий, сужены до 200 ч качественных данных следования инструкциям; 15 ч разметки для рассуждений обучают гибридное мышление Lumine.
Обзор конвейера обработки данных: из 2424 ч синхронизированных видео‑действий после правил отбора получают 1731 ч для предобучения; 165 ч вручную размечены для обучения авторазметки и, с GPT‑4.1 и фильтрацией действий, сужены до 200 ч качественных данных следования инструкциям; 15 ч разметки для рассуждений обучают гибридное мышление Lumine.

Скорость имеет значение

Все мы любим максимальную производительность, но авторам пришлось потеть не на шутку - ускорения вывода с оптимизациями на 25,3 суммарно. Модель, храня кэш KV в FP16, использует квантизацию ресурсов Qwen2-VL в awq4, спекулятивное декодирование разделителей мыслей и K&M, стриминг K&M от каждого кадра. А препроцессинг с разметкой визуальных токенов отдают на GPU. В результате первый K&M-чанк (если вдруг не нужно рассуждать) приходит примерно за 110 миллисекунд, а задержка вывода для произвольного K&M составляет около 3 миллисекунд. Игра остаётся плавной, даже если от игры требуется мощь видеокарты, а от ИИ - частая генерация мыслей при сложных миссиях.

Разбиение задержки по этапам и общий выигрыш. Совокупная оптимизация дает ускорение 25,3× относительно базового варианта.
Разбиение задержки по этапам и общий выигрыш. Совокупная оптимизация дает ускорение 25,3× относительно базового варианта.

Что получилось на практике

Первое, конечно же, выход в метриках, измеряющих выполнение инструкций. На 141 задачке во всех 4 категориях - сбор, бой, взаимодействие с NPC, решение головоломок. Агент показывает более 80% выхода на простых и стабильное поведение на сложных задачах после стадии с обучением на инструкциях. История часто помогает в задачах со сбором и пазлах, где важна последовательность.

Обзор бенчмарка на 141 задачу в четырёх категориях: сбор, бой, взаимодействие с NPC и головоломки. В каждой категории есть простые, сложные и невиданные ранее задания.
Обзор бенчмарка на 141 задачу в четырёх категориях: сбор, бой, взаимодействие с NPC и головоломки. В каждой категории есть простые, сложные и невиданные ранее задания.

Второе, долгая сюжетная миссия. Агент Lumine проходит ее примерно за 56 минут, что эквивалентно сильному живому игроку. Именно стадия с обучением на рассуждении заметно повышает устойчивость - агент ведёт себя целенаправленно, реже выходит за пределы задачи, меньше ошибается на маршруте и более аккуратно работает с игровым GUI.

Внутренняя оценка: полная траектория прохождения Акта I Lumine‑Thinking (56 мин) в сравнении с новичками (78 мин) и экспертами (53 мин).
Внутренняя оценка: полная траектория прохождения Акта I Lumine‑Thinking (56 мин) в сравнении с новичками (78 мин) и экспертами (53 мин).

В-третьих, перенос. Без дополнительного обучения агент справляется с миссиями, требующими более часа реального времени, в игре Wuthering Waves и проходит первую главу Honkai: Star Rail примерно за пять часов. Всегда приятно видеть агента, который не ломается вне среды, где его учили.

Чем это отличается от предыдущих подходов

Короткая память - неплохо. Меньше галлюцинаций, больше устойчивость. Авторы считают своим сильным ходом отсутствие двух вещей. Первый - жёсткой иерархии со смысловыми абстракциями для разных задач и навыков. Последняя культивирует куски поведения высокого уровня, но трудно оптимизируется совместно. Второе - принуждение к рассуждению на каждом шаге. В длинных миссиях от этого сильно страдает общее время реакции, а в контексте у агента много шума от избыточных мыслей с галлюцинациями. Гибридная стратегия выглядят простым и действенным компромиссом.

Что пока не идеально

Ограничения выписаны подробно в статье. Агент редко использует быстрые перемещения, не любит лечиться, умирает от сложных боссов и у него возникают проблемы с маршрутизацией между большим количеством маркеров на карте из-за короткой памяти в 20 шагов. Всё это выглядит поправимым хорошей работой с мини-картой, более длинной памятью, дополнительными данными по редким механикам и лёгким дообучением с подкреплением. Авторы считают следующим крупным шагом развитие у модели хорошего представления мира для планирования.

Почему это важно

Такое ощущение, что эта работа обнадёживает. Она показывает, что возможно собрать универсального игрового агента с визуальным восприятием, который сможет использовать мышление, действие и память для устойчивого поведения в разных играх, если вывести их в единую петлю и поставить время отклика во главу угла. Это может стать частью архитектуры игрового ИИ, который будет играть как живой игрок: смотря на экран, рассуждая, нажимая на кнопку и помня, что он делал до этого. Да, многое описано и замеряно только в одной сюжетной миссии Genshin. Но интуиция говорит, что следующий шаг в сторону такого устройства игрового ИИ - вполне осязаем.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (2)


  1. andyshark1974
    15.11.2025 21:13

    Зацепило в первую очередь по шахматам фраза в описании. Но в тексте статьи про шахматы ноль... Все таки поинтересуюсь - а когда нейросети общего назначения стали обыгрывать людей? Ладно специализированные (на то они и специализированные), но общедоступные то когда? Можно ткнуть носом в ссылку. А то мне только пара видео помнится где ChatGPT фигуры на доске придумывал и доставал из пространственного кармана


  1. Dron007
    15.11.2025 21:13

    Пусть учатся, смогут нормально фронтенд тестировать.