Сегодня многие ИИ-агенты остаются реактивными: видят кадр — действуют, видят следующий — снова действуют, а связной картины мира не формируют. Отсюда проблемы с дальними маршрутами, переиспользованием опыта и гибкостью. В биологии это решено элегантно: мозг хранит ориентиры, маршрутное знание и обзорные карты. Работа BSC-Nav предлагает перенести этот принцип в роботов и дать им настоящую когнитивную карту, чтобы навигация стала осмысленной, а не сиюминутной.

BSC-Nav — фреймворк когнитивного пространственного интеллекта: от биологической памяти к рабочей памяти агента и высоким навыкам
BSC-Nav — фреймворк когнитивного пространственного интеллекта: от биологической памяти к рабочей памяти агента и высоким навыкам

Что придумали авторы

BSC-Nav — это каркас памяти, вдохновленный работой человеческого мозга, с тремя уровнями:

  • Память ориентиров: редкие, но надёжные ассоциации «подсказка—координаты» с описанием и степенью уверенности.

  • Когнитивная карта: воксельное представление пространства, куда аккуратно ложатся признаки из разных ракурсов и моментов времени.

  • Рабочая память: умный микс нужных фрагментов под текущую цель с последующим планированием.

Чтобы видеть мир, система использует DINOv2 для визуальных признаков и детектор для объектов, а LLM помогает связать семантику запроса с тем, что есть в памяти. Ключевой этап — обновление карты по принципу сюрприза: в память попадает не всё подряд, а только новое и полезное. Это экономит место и повышает устойчивость.

Как это работает изнутри

Для простых целей уровня категории (например, «пойди к столу») достаточно заглянуть в память ориентиров и быстро выдать координаты. Для более тонких запросов («круглый диван со светлой подушкой») система сперва расширяет текст описанием атрибутов, воображает визуальные прототипы через диффузионную модель и ищет соответствия в плотных визуальных признаках когнитивной карты. На выходе — несколько мест с оценкой уверенности и расстояния. Куда идти первым? BSC-Nav ранжирует кандидатов по комбинированному приоритету «уверенность + близость», что сильно экономит шаги. На низком уровне — надёжные планировщики и верификация цели.

Иерархическое извлечение: быстрый поиск по ориентирам для категорий и ассоциативный поиск по карте для экземпляров и изображений
Иерархическое извлечение: быстрый поиск по ориентирам для категорий и ассоциативный поиск по карте для экземпляров и изображений

Что показали эксперименты

Авторы прогнали 8+ тысяч эпизодов в Habitat на MP3D (классический датасет сканов помещений в жилых и офисных пространствах) и HM3D (новый и более масштабный набор сцен для симулятора Habitat, сложнее и разнообразнее MP3D) и сравнивались с сильными end-to-end и модульными базовыми подходами. В задачах к категориям BSC-Nav достигает 78.5% успеха на HM3D и 56.5% на MP3D, заметно обгоняя конкурентов. На уровне экземпляров система почти вдвое поднимает метрику успеха в Text-Instance и берёт 71.4% в Image-Instance, что на 11.4% больше ближайшего аналога. Эффективность маршрута стабильно выше за счёт грамотного ранжирования кандидатов: цели часто берутся с первого захода.

Целевая мультимодальная навигация: категории, экземпляры по тексту и по изображению; траектории и верификация цели
Целевая мультимодальная навигация: категории, экземпляры по тексту и по изображению; траектории и верификация цели

Умные навыки

BSC-Nav уверенно выходит за рамки просто дойти до цели. В долгих инструкциях по естественному языку модель разлагает задачу на цепочку опорных точек и идёт по ним. На VLN-CE R2R (задание для робота пройти в новой 3D-сцене из точки A в точку B, используя текстовую инструкцию) это 38.5% успеха при рекордной эффективности 53.1%. В активном воплощённом ответе на вопросы система набирает 54.6 по метрике LLM-Match и особенно хороша там, где нужно увязать ориентиры и пространственный контекст.

Высокоуровневые навыки: следование человеческим инструкциям и воплощённые вопросы-ответы
Высокоуровневые навыки: следование человеческим инструкциям и воплощённые вопросы-ответы

Шаг за порог симуляции

Команда поставила систему на мобильного робота и проехала по двум этажам. В 75 эпизодах с разными целями BSC-Nav держала минимум 3 успешные попытки из 5, а для задач по изображению — на четырёх из пяти целей успех доходил до 100%. Средняя скорость — 0.76 м/с, финальная дистанция после остановки — менее 2.5 м. Поверх навигации робот выполнял простые манипуляции: хват, перенос, размещение. В демо — робот даже готовит завтрак из нескольких ингредиентов с чередованием движения и действий.

Реальные эксперименты: платформа, карта помещения, сводка успехов и примеры траекторий
Реальные эксперименты: платформа, карта помещения, сводка успехов и примеры траекторий
Мобильная манипуляция: от одиночного действия до многошаговой готовки завтрака
Мобильная манипуляция: от одиночного действия до многошаговой готовки завтрака

Зачем это всё

Главное достижение BSC-Nav — переход от реактивных политик к многоуровневому пространственному мышлению. Память ориентиров даёт быстрое семантическое запоминание, когнитивная карта — крепкий «скелет» мира, рабочая память — гибкую сборку знаний под задачу. Идея «сюрприза» делает хранилище компактным, а воксельные буферы бережно собирают редкие, но важные виды сцен. В результате агент мысленно видит не только «что» и «где», но и «как туда лучше попасть сейчас».

Есть и задел на будущее: динамичные и более хаотичные пространства, экономия памяти, командная работа нескольких агентов, новые сенсоры. Но уже сейчас BSC-Nav показывает, как биологические принципы можно превратить в масштабируемый путь к общему пространственному интеллекту для воплощённых систем.

? Полная статья

? Видео

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (3)


  1. sertrack
    03.09.2025 10:57

    Итератор - искусственный интеллект обладающий волей.


    1. ioleynikov
      03.09.2025 10:57

      на счет воли трудно сказать, а вот контуры эмоций и строгого логического вывода роботам не помешают.


  1. ioleynikov
    03.09.2025 10:57

    Все это крайне механистичные и убогие попытки копировать биологические системы. С моей точки зрения надо использовать мультимодальные LLM для распознавания сцен и ситуаций, RAG подсистемы для самообучения и снова LLM для пошагового решения задач, исполнения команд роботов.