Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, изображения, сегментационные маски объектов) для лучшего понимания сцены и навигации.
Желаемыми свойствами современных навигационных систем является их универсальность, минимальность сенсорного сетапа и быстрота принятия решений на борту робота. Сегодня мы поговорим о том, как мы вместе с коллегами (Алексеем Староверовым, Дмитрием Юдиным и Александром Пановым) смогли создать и обучить лёгкую (130М) трансформерную модель, способную доезжать до любых категорий объектов, заданных текстом. Полученный метод описан в свежей работе OVSegDT: Segmenting Transformer for Open‑Vocabulary Object Goal Navigation.
На веб‑странице проекта можно найти ссылку на открытый исходный код с инструкциями по запуску и ссылкой на предварительно обученные веса модели. Это позволяет как воспроизвести наши эксперименты, так и попробовать запустить модель самостоятельно на собственных данных в симуляторе или на реальном роботе. В этом посте мы обсудим основные особенности модели и то, как мы пришли к этому методу.
Задача навигации с открытым словарём
С помощью нашего метода мы решали задачу навигации с открытым словарём (open‑vocabulary object‑goal navigation). Она состоит в том, чтобы научить робота, оказавшегося в незнакомой среде, по текстовому описанию найти объект произвольной категории: не только заранее заданные «стул», «диван» или «кровать», а практически любой бытовой предмет, сформулированный человеком естественным языком.
Впервые эта задача была предложена в работе HM3D‑OVON. Там эта постановка противопоставляется классической ObjectNav, где набор целей обычно ограничен несколькими фиксированными классами; открытый словарь делает навигацию ближе к реальному взаимодействию с человеком, который может попросить робота «найти зарядку», «подъехать к коробке с инструментами» или «принести кружку с кухни» без предварительного обучения модели навигации до всех возможных категорий. Для робототехники это особенно важно потому, что навигация является базовым навыком для более сложных задач мобильной манипуляции: прежде чем взять, переместить, убрать или передать предмет, робот должен понять языковую цель, осмотреть пространство, связать визуальные наблюдения с семантикой объекта и добраться до нужного места.
В бенчмарке HM3D‑OVON категории объектов разделены на четыре сплита, что позволяет отдельно оценивать разные аспекты обобщения навигационной стратегии (см. Рисунок 1):
Сплит train содержит категории, на которых агент обучается;
val seen проверяет качество навигации к тем же типам объектов, но в новых сценах;
val seen synonyms оценивает, способен ли агент находить уже известные категории, когда они названы альтернативными словами или синонимами;
val unseen является наиболее важным для постановки задачи навигации с открытой словарём, поскольку включает категории, которые не встречались во время обучения.

Такое разделение показывает не только то, насколько хорошо модель запомнила обучающие категории, но и насколько она действительно способна переносить навигационный навык на новые типы объектов.
SOTA-метод для навигации без глубины, одометрии и больших языковых моделей

С помощью OVSegDT мы показываем, что для навигации с открытым словарём не обязательно опираться на глубину, одометрию или большие языковые модели. Наш метод представляет собой лёгкую трансформерную архитектуру примерно на 130M параметров, в которой семантический энкодер целевых бинарных масок включается прямо в пространство наблюдений стратегии. Благодаря этому агент учится использовать подсказку о том, где в сцене вероятно находится целевой объект. При этом наш метод работает устойчиво даже тогда, когда в качестве сегментации используются шумные маски от модели семантической сегментации. Энкодер целевой маски помогает переносить навык навигации как на известные, так и на ранее не встречавшиеся категории объектов: на HM3D‑OVON качество на unseen‑категориях оказывается сопоставимым с seen‑категориями, а на val unseen OVSegDT достигает SOTA‑результатов — 44.7% SR и 20.6% SPL — без глубины, одометрии и больших визуально‑языковых моделей (см. Рисунок 2).

Архитектура OVSegDT
Главная идея архитектуры OVSegDT состоит в том, чтобы связать навигацию с семантическим пониманием сцены через сегментацию целевого объекта. Эта связь возникает за счёт двух взаимодополняющих механизмов: устройства самой модели и обучающих сигналов.
На уровне архитектуры бинарная маска целевого объекта кодируется как часть наблюдения агента, поэтому стратегия получает явную подсказку о том, где в текущем кадре находится объект, к которому нужно двигаться (см. Рисунок 3). На уровне обучения OVSegDT дополнительно решает задачу сегментации: вспомогательная функция потерь считается между восстановленной бинарной маской цели и истинной маской целевого объекта в текущем кадре.

Мы используем легковесный декодер маски на основе DCGAN, чтобы обеспечить возможность эффективного обучения модели в среде. Кроме того, агент получает семантическую награду : она поощряет его за увеличение видимой площади истинной маски цели и за приближение к объекту. В результате модель учится не просто выбирать действия по изображению, а постепенно связывать «вижу объект», «понимаю, где он находится» и «двигаюсь к нему» в единый навигационный навык. В таблице на Рисунке 4 приведено, какой эффект различные компоненты архитектуры OVSegDT оказывают на навигацию с использованием предсказанной сегментации с помощью YOLOE — современной модели сегментации с открытым словарём, достаточно лёгкой для работы во время онлайн‑обучения.

Синтез обучения с подкреплением и клонирование поведения
В OVSegDT мы рассматриваем обучение навигации как поиск баланса между двумя источниками опыта. С одной стороны — клонирование поведения, где модель повторяет действия эксперта. В роли такого эксперта выступает классический алгоритм планирования пути, который немного «читерит»: он знает карту среды и точные координаты цели в явном виде. С другой стороны — обучение с подкреплением (RL), где модель сама исследует пространство и получает награду за успешные решения.
Для навигации с открытым словарём этот баланс критически важен. На старте обучения стратегия агента совершает совершенно случайные действия, и сигнал от RL оказывается слишком слабым и шумным, чтобы модель могла извлечь из него пользу. При этом действия эксперта хоть и субоптимальны (алгоритм не всегда прокладывает идеальный маршрут), но всё же дают надежную базу. Поэтому стратегии сначала выгоднее просто выучить эту субоптимальную экспертную траекторию. А уже от этой точки отсчета RL сможет начать собственный поиск (exploration) и найти решения даже лучше, чем у эксперта!
Главная проблема классических пайплайнов — как понять, когда именно нужно переключаться с «подражания» на «самостоятельный поиск», чтобы не обрушить качество обучения? Чтобы избавиться от необходимости составлять это расписание вручную, мы разработали технику EALM (Entropy‑Adaptive Loss Modulation). Это не жесткий планировщик, скорее, адаптивный модуль, который для каждого мини‑батча плавно смешивает функции потерь клонирования поведения (BC) и Proximal Policy Optimization (PPO).
Как модуль понимает, что сейчас нужно модели? Он оценивает «неуверенность» стратегии через энтропию Шеннона распределения предсказанных действий:
Мы сглаживаем её с помощью экспоненциального скользящего среднего:
Здесь — это распределение вероятностей действий,
— параметры модели,
— множество действий,
— энтропия действий.
Сглаженную энтропию мы переводим в коэффициент смешивания между двумя границами
и
:
Эти границы имеют понятную физическую интерпретацию:“High” соответствует ситуации, когда модель на 80% уверена в одном действии, а “Low” — когда уверенность достигает 95%. Если энтропия высокая (стратегия агента «сомневается»), больший вес получает копирование эксперта. Если же энтропия низкая (модель уже уверенно выбирает действия), обучение плавно переходит к чистому RL, то есть
.
Таким образом, функция оптимизации стратегии становится:
Здесь отвечает за функцию потерь действий PPO (алгоритма чистого RL) после клиппинга, а
представляет собой функцию потерь копирования эксперта.
Такой автоматический переход делает оптимизацию весов стабильнее, снижает число столкновений с препятствиями и повышает успешность навигации. Более того, это радикально улучшает sample efficiency (эффективность использования данных) на 33%: OVSegDT достигает целевого качества за 200 млн шагов среды, в то время как бейзлайнам требуется 300 млн.
В экспериментах (см. Рисунок 5) EALM сравнивается с альтернативами: совместной оптимизацией DAgger+PPO, последовательным обучением DAgRL, отдельными PPO и DAgger, а также методом EarlySwitcher. Особенно важно, что в отличие от резкого ручного переключения EarlySwitcher, которое часто дестабилизирует стратегию агента и приводит к катастрофическому падению метрик, EALM обеспечивает стабильную и плавную сходимость за счёт непрерывного умного балансирования между имитацией и обучением с подкреплением.

Активная сегментация цели
Во время обучения модели OVSegDT в симуляторе мы используем истинные маски цели (ground truth) из семантической разметки сцен. Но в реальном сценарии такие маски недоступны, поэтому на инференсе мы подключаем YOLOE. Дело в том, что во время обучения в симуляторе нам недостаточно быстродействия в режиме реального времени (10–30 FPS — типичная частота данных, получаемых с сенсоров). Так как модели необходимо сделать несколько миллионов шагов в среде для дообучения, чтобы оно могло быть сделано в приемлемое время, нам необходимо быстродействие сегментатора, превышающее режим «реального времени».
Однако переход от истинных масок к бинарным маскам, предсказанным YOLOE, заметно снижает качество навигации: ошибки сегментации, особенно пропуски цели, напрямую мешают политике понять, куда двигаться. Чтобы уменьшить этот разрыв, мы используем два приёма.
Во‑первых, мы обнаружили, что разные категории объектов оказываются для сегментационной модели неодинаково сложными. Например, чтобы надёжно распознавать dishwasher, нужно отбрасывать все предсказанные маски с уверенностью ниже 0.4, тогда как для объектов вроде book или flowerpot, наоборот, важно сохранять даже маски с уверенностью от 0.01. Поэтому мы калибруем пороги уверенности сегментатора отдельно для разных категорий из навигационного словаря модели. Такая настройка заметно повышает качество навигации при использовании предсказанной сегментации (см. Рисунок 6).

Кроме того, мы удаляем из словаря сегментации семантически избыточные категории, например оставляем только одну категорию из пары rug и carpet. На практике порог уверенности 0.3 обычно оказывается достаточно устойчивым для сегментации и, как следствие, для навигации к unseen‑категориям. Именно его мы использовали в экспериментах на реальном роботе. Важно, что такая адаптация сегментационной модели под конкретный сценарий применения робота существенно дешевле, чем переобучение навигационной модели, которое требует десятков миллионов шагов взаимодействия со средой.
Вторым компонентом, повышающим качество навигации с предсказанной сегментацией, является дообучение навигационной модели в режиме, когда источником входных данных являются шумные маски от YOLOE. Благодаря лёгкости модели YOLOE становится возможным выполнять не только быстрый инференс, но и эффективное дообучение в среде симулятора.
Вознаграждение агенту за увеличение видимой площади истинной маски цели и за приближение к цели становится сигналом активного восприятия: агент поощряется за такие повороты, приближения и изменения точки обзора, которые делают объект более заметным для сегментатора. В результате OVSegDT учится не только следовать маске, но и активно «добывать» более качественную маску через собственные действия, снижая число пропусков цели (ложноотрицательных детекций) и улучшая навигацию с предсказанной сегментацией, как видно из Рисунка 7.

Эксперименты на реальном роботе
Важно проверять работу своих методов не только в симуляторе, но и в реальной жизни. Поэтому мы также провели демонстрационные эксперименты на реальном роботе iRobot Create 3, оснащенном камерой ZED X, лидаром Livox MID 360 и вычислительным модулем Nvidia Jetson Orin. В проведении этих экспериментов нам помогли коллеги из Центра робототехники Сбера, которые также предоставили робота.
В этих экспериментах робот успешно выполнял навигацию до целевого объекта: он корректно распознавал новые категории целевых объектов в реальной жизни и добирался до них как в случаях, когда объект был виден сразу, так и тогда, когда цель изначально находилась вне поля зрения. При этом система показала устойчивое поведение на длинных траекториях: робот мог двигаться через сложные окружения, обходить препятствия и сохранять ориентацию на заданную цель в течение всего эпизода, что показано на Рисунке 8.

Эксперименты с реальным роботом не обошлись без сюрпризов. Так, мы обнаружили, что в условиях отсутствия сенсора глубины для оценки расстояний до объектов критически важным являются внутренние параметры RGB‑камеры, с помощью которой получается изображения. Оценка же расстояний до объектов необходима для успешного объезда препятствий. Будучи обученной на параметрах камеры из бенчмарка HM3D‑OVON, модель всё время натыкалась на стены, так как у нашего робота существенно иной угол обзора камеры. Поэтому специально для этих тестов мы обучили версию модели, которая работала бы с теми же внутренними параметрами камеры, что и на реальном роботе. Такая версия модели уже смогла спокойно справляться с проездом в узким пространствах.
Что дальше?
В работе OVSegDTмы показали, что навигация с открытым словарём может быть эффективной даже без больших мультимодальных моделей, глубины и одометрии. Оказывается, достаточно лёгкая трансформерная стратегия, дополненная сегментацией цели, способна переносить навигационный навык на ранее не встречавшиеся категории объектов. OVSegDT демонстрирует, что явная связь между семантическим пониманием сцены и управлением движением помогает агенту не только находить знакомые объекты, но и уверенно работать с новыми целями, заданными текстом. Важным результатом также стало то, что переход от точных симуляторных масок к предсказанной сегментации с открытым словарём можно сделать практичным за счёт калибровки сегментатора и дообучения стратегии с активным восприятием.
Следующий естественный шаг — перейти от навигации по названиям категорий вроде «книга» или «посудомоечная машина» к более общим текстовым инструкциям: например, «найди предмет, которым можно записать заметку» или «подъедь к месту, где лежат инструменты». В долгосрочной перспективе такие навыки должны стать частью мобильной манипуляции, где робот не только находит нужный объект, но и взаимодействует с ним: берёт, переносит, убирает или передаёт человеку.
Авторы работы: Татьяна Земскова (AIRI, МФТИ), Алексеей Староверов (AIRI, МФТИ, НИТУ МИСИС), Дмитрий Юдин (AIRI, МФТИ) и Александр Панов (AIRI, МФТИ).
Если вам понравилось то, о чем мы здесь написали — можно узнать еще больше о проектах нашей команды здесь, здесь и здесь.