
Роботы всё чаще видят мир камерой и читают наши текстовые инструкции. Но часто это «знание» не превращается в верное действие: модель понимает, что такое «чашка», но не знает, куда её ставить и как обойти соседние предметы. Этот разрыв между зрением и действием называется seeing‑to‑doing gap. Команда Embodied‑R1 предлагает простую и неожиданно мощную идею: учить робота говорить на языке «указаний» — точек и визуальных следов на изображении. Такая точка или их последовательность напрямую якорит рассуждение в сцене: вот объект, вот функциональная часть, вот свободная область, а вот безопасная траектория. Представление получается независимым от конкретного робота и понятным как человеку, так и планировщику движения.

Что именно умеет модель
Авторы обобщают «указание» в четыре базовых навыка, которые покрывают подавляющее большинство бытовых манипуляций:
REG — найти объект по описанию и указать на него точкой.
RRG — выбрать свободную область по относительному запросу, например «между чашкой и миской».
OFG — показать функциональную часть объекта, например рукоять ножа.
VTG — нарисовать упорядоченный визуальный след из точек, который задаёт понятный план движения, с обходом препятствий.
Важно, что след объект‑центричный, а не зависящий от конкретной руки или шарниров. Поэтому решение переносится между платформами.

Как это устроено внутри
В основе — компактная 3‑миллиардная VLM (на базе Qwen2.5‑VL), которая сперва рассуждает о сцене, затем выдаёт ответ: точку или траекторию. Она не генерирует низкоуровневые действия — этим занимается стандартный планировщик (например, CuRobo), которому на вход подаются ключевые точки захвата и размещения или траектория в 3D, восстановленная из 2D следа. Такой «средний язык» даёт две вещи: обобщаемость больших визуальных моделей и предсказуемость для роборуки.
Где взялись данные и как обучали без магии
Чтобы модель научилась не только понимать, но и указывать, собран масштабный набор Embodied‑Points‑200K: почти 200 тысяч проверяемых задач для REG, RRG, OFG и VTG. Дополнительно есть корпус пространственных вопросов, а также небольшой, но важный слой «здравого смысла», чтобы модель не забывала общий мир. Обучение идёт в две стадии через RFT — обучение с подкреплением по проверяемой обратной связи (вариант PPO под названием GRPO).
Стадия 1 усиливает пространственное мышление.
Стадия 2 учит указывать и рисовать следы, с многокомпонентными наградами: за формат ответа, попадание точки в маску, расстояние до цели, схожесть следа с эталоном и даже бинарный успех в симуляторе.

Что получилось на практике
На 11 бенчмарках по пространственным задачам и указанию Embodied‑R1 задаёт планку среди открытых моделей при скромных 3B параметрах. В задачах REG/RRG/OFG/VTG она стабильно обходит специализированные системы (например, FSD и RoboPoint), а на VTG показывает лучшие ошибки RMSE/MAE и оценку по LLM‑критерию. В симуляторе SIMPLEREnv модель достигает 56.2% успеха без дообучения, что выше сильных модульных и end‑to‑end альтернатив. В реальном мире — 87.5% успешности на восьми задачах с манипулятором XArm, причём прирост к сильным базовым линиям достигает 62%. Отдельно заметна устойчивость к шумам: смена фона, света и высоты камеры почти не рушит результат — указывание делает поведение робота робастным.


Почему это работает
Точки и следы — это компактный мост между восприятием и действием.
Они делают перевод из абстрактного текста в геометрию сцены; одинаково понятны для разных роботов и планировщиков; хорошо оцениваются: можно автоматом проверить, попала ли точка в маску или совпал ли след.
RFT здесь критичен: обычное SFT часто «запоминает» формулы ответов и ломается вне распределения, тогда как обучение по награде учит модель принимать решение так, чтобы оно реально помогало роботу.
Как это выглядит глазами модели
Embodied‑R1 шаг за шагом находит целевой объект, проверяет пространственные отношения («левее», «между», «ближе к»), выбирает аффорданс (например, ручку кружки), а затем выдаёт координаты или 8‑точечный след. Такой ход мыслей делает действия прозрачными и проверяемыми.

Выходит за рамки привычных сцен
Модель уверенно переносится на новые среды: другие симуляторы, другую конфигурацию робота (даже двухрукого), и даже на схематичные рисунки от руки — там, где важна не текстура, а сама пространственная идея.

Куда движемся дальше
У указаний есть границы: 2D‑точки и следы не всегда хватит для тонкого силового контроля или работы с мягкими объектами; нужна связка с обучаемой policy в 3D. Ещё один шаг — длинные, многошаговые задачи: иерархический план, где верхний уровень делит цель на подпланы, а Embodied‑R1 указывает их на картинке. Наконец, более надёжная работа с глубиной и фузия RGB‑D сделают модель ещё точнее в сложной геометрии.
Хочется попробовать?
Проект: https://embodied-r1.github.io/
Код: https://github.com/pickxiguapi/Embodied-R1
Датасеты: https://huggingface.co/IffYuan
Главная мысль проста: когда робот «понимает» через указание, он действует увереннее. Embodied‑R1 показывает, что такой язык — понятный людям и машинам — реально сокращает путь от «вижу» к «делаю».
****
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
GalinaSkald
Коротко: сильная работа про Embodied-R1 и “язык указаний” — точки и визуальные траектории как промежуточное представление между пониманием сцены и движением. Плюсы: компактная 3B-VLM, обучение через RFT/GRPO, переносимость между роботами и устойчивость к шумам; в реальных экспериментах на XArm заявлено ~87,5% успеха zero-shot, в симуляторе ~56,2%. Это удобно встраивать поверх существующих планировщиков (пример — CuRobo), получая прозрачную цепочку “рассуждение → команда”. Минусы: 2D-след всё ещё требует аккуратного восстановления 3D; слабее с мягкими/деформируемыми объектами и силовым контролем; для длинных задач нужен иерархический план. Что бы я попробовала дальше: RGB-D/воксельные траектории, on-policy дообучение на реальных роллаутах и тактильную обратную связь для силовых контактов.