Навигация по текстовым инструкциям — давний вызов для автономных дронов. Традиционные алгоритмы на основе обучения с подкреплением требуют больших датасетов и плохо переносятся на новые домены. Недавняя волна решений на базе визуально-языковых моделей обещала универсальность, но часто просила модель выпускать команды в текстовом виде: поверни, лети, поднимись. Язык оказался неудобен для точных чисел и не учит модель трёхмерной механике полёта. Исследователи предлагают на редкость здравую замену: перестать говорить руками и просто показывать точку в кадре, куда дрон должен двигаться.

Управление БПЛА по языковым подсказкам без дообучения: (a) дрон непрерывно перепланирует, чтобы идти в ногу с движущимся человеком; (b) строит цепочку целей через холл; (c) находит человека на земле и обходит препятствия. Цветные 3D-боксы показывают последовательные ракурсы камеры и полную траекторию полёта над реконструированным облаком точек. Все точки маршрута генерируются визуально-языковой моделью напрямую, без специализированного обучения.
Управление БПЛА по языковым подсказкам без дообучения: (a) дрон непрерывно перепланирует, чтобы идти в ногу с движущимся человеком; (b) строит цепочку целей через холл; (c) находит человека на земле и обходит препятствия. Цветные 3D-боксы показывают последовательные ракурсы камеры и полную траекторию полёта над реконструированным облаком точек. Все точки маршрута генерируются визуально-языковой моделью напрямую, без специализированного обучения.

Вместо слов — указанные пиксели

SEE-Point-Fly (SPF) — открытый фреймворк для воздушной vision-and-language навигации. На каждом шаге система подаёт в VLM текущий кадр и инструкцию. Модель возвращает небольшой структурированный план: координаты путевой точки на изображении и дискретную оценку желаемой дальности шага. Параллельно модель помечает рамками препятствия, чтобы не вести дрон через очевидные опасности. Это не требует обучать модель полёту: ей достаточно базового зрительно-пространственного понимания, которое уже сформировано на общих данных.

Кадр камеры и инструкции поступают в замороженную визуально-языковую модель, которая возвращает JSON со 2D-путевой точкой и рамками препятствий. Слой Action-to-Control преобразует это в низкоуровневые команды движения (рыскание, тяга, тангаж) для управления БПЛА; цикл повторяется до завершения задачи.
Кадр камеры и инструкции поступают в замороженную визуально-языковую модель, которая возвращает JSON со 2D-путевой точкой и рамками препятствий. Слой Action-to-Control преобразует это в низкоуровневые команды движения (рыскание, тяга, тангаж) для управления БПЛА; цикл повторяется до завершения задачи.

От точки на кадре — к движению в воздухе

Дальше вступает геометрия. Указанная точка и «дальность шага» поднимаются из 2D в локальные 3D-смещения с помощью стандартной модели камеры. Система переводит их в команды рыскания, тангажа и тяги и подаёт на контроллер. Ключевой элемент — адаптивное масштабирование шага. Когда вокруг свободно, дрон уверенно ускоряется; рядом с объектами притормаживает. За счёт этого полёт получается и быстрым, и безопасным. Контур замкнутый: VLM переоценивает точку несколько раз в секунду (примерно 0.3–1 Гц), низкоуровневый контроль идёт быстрее (около 10 Гц), общая задержка — 1.5–3 секунды. Этого хватает, чтобы уверенно следовать даже за движущейся целью.

Детали геометрии управления в VLM‑управляемом полёте: замороженная модель предсказывает 2D‑точку (u,v) и дискретную глубину; (a) нелинейная шкала превращает её в адаптивный шаг (больше в открытом пространстве, меньше возле препятствий); (b) 2D+шаг через pinhole‑модель даёт 3D‑смещение в системе БПЛА; (c) смещение переводится в рыскание, тангаж и тягу; команды подаются по времени, цикл повторяется до выполнения инструкции.
Детали геометрии управления в VLM‑управляемом полёте: замороженная модель предсказывает 2D‑точку (u,v) и дискретную глубину; (a) нелинейная шкала превращает её в адаптивный шаг (больше в открытом пространстве, меньше возле препятствий); (b) 2D+шаг через pinhole‑модель даёт 3D‑смещение в системе БПЛА; (c) смещение переводится в рыскание, тангаж и тягу; команды подаются по времени, цикл повторяется до выполнения инструкции.

Что получилось на практике

В симуляторе DRL SPF обновил уровень качества: 93.9% успешных завершений против 28.7% у PIVOT и 0.9% у TypeFly. Особенно заметна разница в задачах с препятствиями (92% против 16%), на длинных маршрутах (92% против 28%) и в поиске (92% против 36%). В реальности на DJI Tello EDU — 92.7% успешности, большой отрыв от сильных базовых линий, которые либо ошибались в понимании, либо ломались на физических мелочах. Адаптивный шаг показал себя и по скорости: на трёх реальных сценариях время упало, например, с 61 до 28 секунд без потери надёжности; там, где базовые методы не финишируют вовсе, SPF стабильно приходит к цели.

Качественное сравнение траекторий полёта в симуляторе: новый метод — зелёная, PIVOT — синяя, TypeFly — фиолетовая. Отсутствие цветного пути означает, что базовый метод не смог выдать команду полёта.
Качественное сравнение траекторий полёта в симуляторе: новый метод — зелёная, PIVOT — синяя, TypeFly — фиолетовая. Отсутствие цветного пути означает, что базовый метод не смог выдать команду полёта.
Качественное сравнение траекторий полёта в реальных условиях: траектория нового метода по сравнению с другими базовыми методами. Траектория взлёта отмечена зелёным, рабочая — пурпурным.
Качественное сравнение траекторий полёта в реальных условиях: траектория нового метода по сравнению с другими базовыми методами. Траектория взлёта отмечена зелёным, рабочая — пурпурным.
Время выполнения по задачам. Новый подход быстрее в большинстве задач, особенно в сложных сценариях. Столбцы, ограниченные на уровне ∞, указывают на сбои базового метода.
Время выполнения по задачам. Новый подход быстрее в большинстве задач, особенно в сложных сценариях. Столбцы, ограниченные на уровне ∞, указывают на сбои базового метода.

Почему это сработало

Самое важное — смена языка действий. Вместо слов и чисел в тексте исследователи получили визуально заземлённые точки. Изображение — естественная среда для VLM, а параметры камеры позволяют точно восстановить 3D-команду без сложного обучения. Интегрированная разметка препятствий в той же модели даёт меньше задержек и выше точность, чем отдельный детектор. Наконец, система оказалась модель-агностичной: на разных VLM бэкендах в симуляции SR доходил до 100% (Gemini 2.0 Flash, Gemini 2.5 Pro, GPT‑4.1), держался на уровне 93.3% на Claude 3.7 Sonnet и Llama 4 Maverick и 87% на компактной Gemini 2.0 Flash‑Lite.

Есть и слабые места. VLM может ошибаться в интерпретации и «галлюцинировать» мелкие или дальние цели. Оценка шага — косвенная величина, не настоящая глубина, и иногда даёт неточные дистанции. Реакция на быстро движущиеся препятствия ограничена задержкой VLM. Поведение в поиске определяют эвристики и стиль подсказки, поэтому оптимальность траектории не гарантируется. Но даже с этими оговорками сдвиг от текстовых команд к 2D-привязке выглядит устойчивая и практичная идея.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)