Агенты, которые умеют управлять компьютером, часто не справляются с, казалось бы, простым шагом: найти на экране элемент, описанный в человеческой инструкции. Сделать такую привязку особенно трудно на интерфейсах с обилием мелких элементов, похожих панелей, высоким разрешением, помехами и артефактами. Команда GroundCUA показывает, как решить эту узкую, но важную задачу — сделать привязку языка к интерфейсу достаточно точной и надёжной, чтобы агент уверенно выполнял действия шаг за шагом.

Обзор датасета GroundCUA и моделей GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI.
Обзор датасета GroundCUA и моделей GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI.

О чем идет речь

Исследователи предложили набор данных GroundCUA для привязки десктопных интерфейсов, собранный из реальных демонстраций экспертов. Поддерживает 87 приложений в 12 категориях, содержит 56 тысяч скриншотов и более 3,56 млн тщательно проверенных аннотаций практически каждого видимого элемента. Половина элементов имеют категорию, а разрешение изображений варьируется от 0,39 до 7 мегапикселей. В среднем на кадре 64 аннотированных объекта: много очень маленьких боксов, много категорий. Получился неплохой срез работы за компьютером.

Интерфейс LibreOffice Calc
Интерфейс LibreOffice Calc
Пример интерфейса FreeCAD
Пример интерфейса FreeCAD
GIMP
GIMP

Как собрали данные и инструкции

Для GroundCUA не нужен случайный обход интерфейсов: аннотаторы выполняют повседневные задачи в разных программах, записывают экран, выбирают ключевые кадры и размечают каждый элемент боксом и подписью. Длинные подписи дописывают с помощью OCR. Из получившейся плотной разметки большой языковой моделью формируют три типа инструкций: прямые - по атрибутам и окружению, функциональные - по назначению, пространственные - относительно якорей. Получается 700 тыс. ситуаций для дообучения и 10 тыс. - для дообучения с подкреплением.

Почему это работает

Авторы считают, что вместо миллиона синтетических сцен - лучше десятки тысяч реальных, но плотно и подробно размеченных кадров. Это учит модель справляться с неоднозначностями, мелкими и визуально похожими элементами.

Сравнение датасетов: распределение пикселей и относительные площади боксов
Сравнение датасетов: распределение пикселей и относительные площади боксов
Распределение числа аннотаций на одно изображение
Распределение числа аннотаций на одно изображение

Как учили модели

Поверх Qwen2.5-VL-Instruct авторы обучили две версии GroundNext с 3 и 7 млрд параметров. Использовали два этапа:

  1. Supervised Fine-Tuning на 700 тыс. пар скриншот-инструкция. Модель по инструкции предсказывает координаты точки на экране. Отложенные 10 тыс. ситуаций для дообучения с подкреплением. Награда задаётся дискретной функцией расстояния от целевого бокса: штраф — снаружи, поощрение — ближе к центру. Эта схема заметно упрощает RL и повышает качество на сложных интерфейсах.

  2. Модель получает дополнительное преимущество от обучения с подкреплением, при этом обучение с подкреплением становится легче благодаря хорошо подобранному пространству действий и функции вознаграждения.

Средние показатели SFT (оранжевым) и прирост от RL (синим) на бенчмарках
Средние показатели SFT (оранжевым) и прирост от RL (синим) на бенчмарках

Что получилось в цифрах

На пяти датасетах для привязки десктопных интерфейсов модель достигает базового уровня, обучаясь на 700 тыс. примеров против 9 млн у JEDI.

  • Обучение с подкреплением дает небольшой и стабильный прирост поверх SFT.

  • На агентном бенчмарке OSWorld-Verified с планировщиком o3 модель показывает 50.6, обгоняя несколько более крупных моделей и находясь чуть ниже JEDI-7B, но требуя гораздо меньше ресурсов для дообучения. Получается хорошо, ведь используется гораздо меньше данных.

  • Заметен перенос на мобильные и веб-интерфейсы: на соответствующих бенчмарках модель достигает качества, сравнимого с конкурентами, которым дополнительно скармливали соответствующие данные.

Где прирост особенно заметен

На датасетах, связанных с Linux и macOS: там много мелких иконок, и хорошо заметен эффект от ручной разметки. Среди категорий приложений особенно хорошо получаются офисные приложения, приложения для разработки и креатива: много ситуаций, где надо отличать визуально похожие элементы и подписи от контейнеров.

Примеры ошибок: зелёная рамка — эталон, красная точка — предсказание. Видно, как промахи концентрируются возле мелких целей.
Примеры ошибок: зелёная рамка — эталон, красная точка — предсказание. Видно, как промахи концентрируются возле мелких целей.

Почему это важно

Агенты, которые хорошо справляются с реальными задачами на компьютере, должны не только уметь планировать действия, но и попадать по нужным элементам так, как просит пользователь. GroundCUA показывает, что широкий охват приложений и плотная разметка важных кадров делает рабочую привязку.

На мой взгляд, будущее компьютерных агентов зависит не от размера моделей, а от точного соответствия языка интерфейсу — и GroundCUA делает важный шаг именно в эту сторону.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)