Привет, Хабр! Меня зовут Артем Якимчук, я инженер-исследователь в Сколтехе и аспирант в области промышленной робототехники.

Мы привыкли думать об LLM исключительно в контексте языковых задач: чат-боты, ассистенты, генерация текстов. Но что, если та же самая архитектура способна не просто говорить, но и действовать?

Сегодня искусственный интеллект начинает работать и с физическими объектами: распознает их, принимает решения, выполняет задачи в реальном мире — и все это с помощью тех же моделей, которые вы знаете по чат-ботам.

В этом материале по мотивам моего доклада для True Tech Day я расскажу, как язык встречается с моторикой и почему LLM становятся новым мозгом для роботов. Будет любопытно и, возможно, немного футуристично. Поехали!

Почему я об этом рассказываю

В Сколтехе я занимаюсь исследованием на стыке промышленной робототехники и технологий газотермического напыления. Этот процесс нужен, когда есть деталь, прочная и устойчивая к нагрузкам, но требующая защиты от коррозии или высоких температур. В таких случаях на ее поверхность наносятся специальные покрытия — антикоррозионные, термобарьерные или другие — выполненные из металлов или керамик. 

ABB IRB 2600 — промышленный 6-осевой робот

У промышленных роботов в таких задачах имеются свои плюсы и минусы. С одной стороны, мы привыкли, что в повседневной жизни взаимодействуем с высокоуровневыми инструментами: где-то уже «вайб-кодим», делегируя задачи GPT, где-то пишем код сами и дорабатываем его вручную. Но в промышленной робототехнике все сложнее: здесь нужно учитывать геометрию деталей, траектории движения робота, параметры напыления и множество физических ограничений.

Именно в этой точке возникает интереснейшая задача: как научить роботов не просто двигаться по загруженной траектории, но и адаптироваться, принимать решения и взаимодействовать с такими же гибкими инструментами, как те, что мы используем в программировании или повседневной жизни. 

Возникает закономерный вопрос: почему бы нам не управлять промышленным роботом так же просто и непринужденно, как мы сегодня вайб-кодим в GPT? Почему нельзя обойтись без сложных конфигураций и настроек?

Представьте себе, я говорю роботу простым человеческим языком: «Напыли мне на подложку слой меди толщиной 200 мкм» или «Сделай покрытие из бронзы вот здесь». И все — он берет и выполняет команду. А я в это время стою рядом, наблюдаю за процессом и держу красную кнопку на случай, если вдруг что-то пойдет не так и нужно экстренно все остановить. Эта красивая картинка, но пока недостижимая.

Программирование промышленных роботов

Несмотря на технологический прогресс, классическая промышленная робототехника остается консервативной. Я работаю в этой сфере уже почти десять лет, и за это время многое изменилось в смежных областях, но сами принципы взаимодействия с роботами все еще сильно завязаны на старые подходы.

В чем это проявляется? Программы до сих пор чаще всего пишутся вручную — при помощи teach-пульта или терминала. У каждого крупного производителя свой собственный язык программирования. И прежде чем подойти к роботу, приходится сначала выучить этот язык и разобраться во всех его особенностях.

Конечно, в индустрии появились CAD/CAM-системы, которые позволяют создавать виртуальные ячейки, моделировать цифрового двойника производства и проектировать траектории движений робота в удобных интерфейсах. Но даже в этих случаях все равно в какой-то момент приходится вручную дописывать скрипты и контролировать логику. Не хватает автоматизации, простых и понятных интерфейсов.

Недавно в Сколтехе я дал студентам практическое задание. Нужно было написать программу, которая позволит роботу напылить на подложку буквы SK. В прошлые годы студенты справлялись с этим примерно за 20 минут.

В этот раз многие решили воспользоваться ChatGPT, надеясь с ходу получить готовый код. Однако процесс затянулся — вместо привычных 20 минут работа заняла около полутора часов. Основная причина в том, что текущие GPT-модели пока не владеют специализированными языками программирования и не могут корректно подсказывать решения в этой области.

Кроме того, в промышленной робототехнике существуют высокие требования к точности и упорядоченности среды. Пространство вокруг робота строго фиксировано: он знает, где находится, чем манипулирует и какие операции выполняет. Смещение даже на миллиметр существенно повлияет на технологический процесс.

К этому добавляются сложности масштабирования. Роботы разных производителей имеют различные кинематики, размеры и грузоподъемность. Если на одном предприятии установить роботов от разных производителей, то могут возникнуть конфликты между программными решениями. Для корректной работы все это приходится адаптировать и перестраивать, что увеличивает трудозатраты и стоимость внедрения.

Эволюция GPT-моделей

Параллельно с неспешным развитием промышленной робототехники мы наблюдаем стремительный прогресс GPT-моделей. В 2010-е годы для задач перевода и генерации текста активно использовались рекуррентные нейронные сети с механизмом внимания (attention).

Переломным моментом стала публикация Google в 2017 году статьи Attention Is All You Need, в которой была предложена архитектура трансформеров. Она заменила RNN и легла в основу всех последующих LLM.

С 2018 по 2020 годы произошел резкий рост масштабов и возможностей GPT-моделей. Появились модели с количеством параметров до 175 миллиардов, которые продемонстрировали впечатляющие способности к zero-shot- и few-shot-обучению. Они уже умели решать широкий спектр задач — от генерации текста до написания кода.

В 2022 году выпустили релиз GPT-3.5, который обучался с применением пользовательской обратной связи (RLHF). Это стало точкой массового применения LLM в самых разных сферах.

На сегодняшний день активно используется поколение GPT-4.x. Эти модели уже обладают поддержкой мультимодальности, то есть способны работать не только с текстом, но и с изображениями. Кроме того, у новых версий лучше работают рассуждения и выше точность выдаваемых ответов.

Развитие LLM-моделей достигло уровня, при котором их ответы сложно отличить от человеческих. А недавно модели прошли тест Тьюринга. При этом общество по-разному воспринимает эти достижения: часть людей пока слабо представляет, что именно происходит в области ИИ, тогда как другие активно следят за развитием технологий и ожидают дальнейших изменений.

В контексте робототехники исследователи начали задумываться о том, что может считаться аналогом теста Тьюринга для роботов. Этот вопрос интересует, в частности, научную группу NVIDIA, которая разрабатывает GPT-подобные модели для управления роботами.

Например, исследователи предлагают рассмотреть такой сценарий: есть помещение, где хаотично разбросаны предметы — игрушки, салфетки, полотенца и другие объекты. Необходимо навести порядок и организовать пространство для домашнего романтического свидания:

Если в результате работы невозможно будет определить, убирался человек или робот, это можно рассматривать как аналог успешного прохождения теста Тьюринга.

GPT для роботов: VLA-модели

Когда мы говорим о GPTх для робототехники, то речь идет о так называемых VLA-моделях, объединяющих vision (визуальное восприятие), language (языковые инструкции) и action (действия):

Для работы таких моделей нужны вычислительные ресурсы и датчики, прежде всего камеры. Они фиксируют объекты и определяют условия выполнения задач.

Далее идет языковая часть — робот получает текстовую инструкцию, например: «убери комнату», «передвинь ящик» или «разрежь яблоко». 

Затем следует этап действий: робот исполняет задачу, формируя управляющие сигналы для каждого привода или сочленения, чтобы перемещать механизмы в нужные положения.

Если говорить о различиях между GPT и VLA-моделями, то их не так много и они интуитивно понятны:

Главное отличие — в формате выходных данных и области применения.

И GPT, и VLA работают с мультимодальными данными: текстами и изображениями. Однако на выходе GPT-модели формируют тексты. В случае VLA результат — управляющие команды для робота: траектории движений, инструкции для манипуляций или навигации в физическом пространстве. Если GPT решает задачи, связанные преимущественно с обработкой языка и знаний, то VLA-модели ориентированы на выполнение действий в реальном мире.

GPT — это модель на базе трансформеров, обученная преимущественно на текстовых данных: корпусах из интернета, книгах и программном коде. В случае VLA архитектура также основана на трансформерах, но обучение проходит на мультимодальных данных: текстовых инструкциях, визуальной информации и действиях, необходимых для управления роботами.

Архитектура VLA-моделей

Была такая книга «Думай медленно, решай быстро» Даниэля Канемана. В ней он разделяет нервную систему человека на две: одна действует быстро, а другая — медленно. Возможно, это спорно с точки зрения доказательной медицины, но этой идеей вдохновились в робототехнике:

Архитектуру VLA-моделей также условно делят на две части. Первая отвечает за высокочастотное управление действиями робота. В нее входят трансформерные модели, которые формируют моторные команды и контролируют движения в реальном времени, например с частотой около 100 Гц.

Вторая занимается более сложными задачами — распознаванием визуальных данных, интерпретацией текстовых инструкций, планированием действий и постановкой целей и переносом задач между разными роботами (поддержка cross-embodiment). Эта часть также строится на основе VLA и отвечает за формирование команд для первой системы.

Особенность такой архитектуры в том, что модели адаптируются под разные типы роботов, будь то мобильная платформа с манипулятором, гуманоидный или промышленный робот. Несмотря на универсальность подхода, остаются технические детали и тонкости, которые нужно учитывать при применении в разных сценариях.

Давайте посмотрим на роботов от стартапа FIGURE, которые уже применяются на заводах BMW:

Их архитектура во многом схожа с той, о которой шла речь ранее, хотя есть и различия. Например, в некоторых случаях текущее состояние робота передается напрямую только в первую систему и не используется во второй. В других подходах состояние поступает сразу в обе.

В целом сохраняется концепция разделения на две части: одна занимается непосредственным управлением движениями робота, а вторая обрабатывает мультимодальные данные (текстовые инструкции и визуальные наблюдения) и формирует команды для исполнения. Аналогичный принцип реализован и в архитектуре NVIDIA GR00T N1.

Последние разработки в области VLA

30–31 мая в Лондоне прошел Humanoid Summit, где было много интересного от разных компаний.

π0 от Physical Intelligence

Посмотреть, как π0 выполняет разные операции можно на сайте Physical Intelligence
Посмотреть, как π0 выполняет разные операции можно на сайте Physical Intelligence

Эта модель объединяет визуальное восприятие, обработку текстовых инструкций и генерацию действий, позволяя роботам выполнять различные задачи по командам на естественном языке.

В основе π0 используется VLA PolyGemma от Google. Она служит для схематического понимания и визуального восприятия окружающей среды, помогая роботу интерпретировать визуальные данные в контексте заданных инструкций.

Кроме того, в архитектуре π0 реализован специализированный модуль — «эксперт по действиям». Он отвечает за генерацию моторных команд, работает с частотой 50 Гц и обеспечивает плавные и точные движения. Несмотря на то, что в π0 официально не декларируется разделение на две системы, по сути «эксперт по действиям» выполняет функции низкоуровневого управления, аналогичные первой системе в других архитектурах VLA.

Подход компании Physical Intelligence — хороший пример обучения VLA. В их архитектуре оно проводится преимущественно на основе реальных демонстраций.

Оператор вручную управляет роботом, выполняя необходимые действия, в то время как система фиксирует происходящее на видео и сохраняет соответствующую информацию о командах и движениях приводов. Таким образом, каждая демонстрация содержит три типа данных: визуальную информацию о выполняемых операциях, текстовые инструкции, описывающие задачу, и данные о моторных командах, которые робот должен выполнять.

Эти данные сопоставляются между собой — визуальная часть связывается с семантическим описанием (текстовой инструкцией), а также с параметрами движения, регистрируемыми в приводах робота.

Для обучения своих моделей Physical Intelligence использует масштабные датасеты, содержащие до 10 тысяч часов подобных демонстраций. Это позволяет системе формировать устойчивые связи между визуальными сигналами, текстовыми задачами и соответствующими моторными действиями, обеспечивая точность и гибкость работы в реальной среде.

GR00T от NVIDIA

В блоге NVIDIA есть полное описание работы GR00T
В блоге NVIDIA есть полное описание работы GR00T

Основная особенность GR00T N1 и GR00T N1.5 от NVIDIA заключается в работе с мультимодальными данными: визуальными, звуковыми и моторными сигналами для сложных манипуляций и задач.

Ключевой аспект моделей GR00T — способность к генерализации. Они могут адаптироваться к разным сценариям, минимизируя потребность в полном переобучении. Тем не менее при переносе модели на нового робота или новую задачу требуется дополнительное дообучение с использованием демонстраций.

Еще одна важная особенность заключается в подходе к обучению. NVIDIA активно применяет синтетические данные, полученные в средах NVIDIA Omniverse и Isaac Sim. Использование симуляций позволяет проводить обучение быстрее и в больших объемах, чем это возможно в реальных условиях.

При этом в индустрии ведутся дискуссии о соотношении между синтетическими и реальными данными в обучении моделей. Например, в Google DeepMind придерживаются пропорции 1 к 1, тогда как NVIDIA применяет соотношение около 1 к 9, где одна часть приходится на реальные, а девять — на симуляционные данные, сгенерированные в виртуальных средах.

Gemini Robotics от Google

На сайте можно помотреть полное видео с возможностями робота
На сайте можно помотреть полное видео с возможностями робота

Эта модель в настоящее время закрыта для публичного доступа и тестируется только по индивидуальным соглашениям. Она основана на архитектуре Gemini 2.0 и использует мультимодальные возможности, адаптированные для физического взаимодействия.

Модель также реализует двухуровневую структуру. Отличие заключается в том, что в Gemini Robotics вторая система (отвечающая за интерпретацию инструкций и планирование действий) запущена не локально, а в облаке, куда передаются все данные от робота. Результаты вычислений возвращаются локальному декодеру действий на борту робота — он уже преобразует выходные данные модели в конкретные моторные команды.

Интересно, что все перечисленные модели пока слабо подходят для мобильных роботов. Насколько мне известно, лишь решения от Physical Intelligence способны работать с мобильными платформами.

Остальные преимущественно развертываются на стационарных роботах, которые выполняют манипуляции без перемещений в пространстве. Современные VLA-модели в большинстве случаев умеют работать в статичных условиях и выполнять задачи на месте, но пока не обладают полноценной функциональностью для автономного передвижения. Ожидается, что NVIDIA учтет эти возможности во второй версии своих моделей.

Open source от Hugging Face

Hugging Face активно развивает open-source-решения в области робототехники. На их GitHub размещены модели манипуляторов и инструкции по сборке, включая перечень необходимых компонентов. Двигатели и другие детали можно заказать через маркетплейсы или напрямую у производителя. 

Небольшой манипулятор обойдется примерно в 100 долларов или евро, мобильный робот Le-Kiwi представляет собой аналогичную конструкцию, но с мобильной платформой. Недавно Hugging Face также представила антропоморфного робота стоимостью около 3 000 евро — сопоставимо с ценой макбука.

В дополнение к ним Hugging Face развивает Lerobot — универсальный формат данных для робототехники. Он представляет собой стандарт подготовки датасетов, необходимых для обучения или дообучения моделей управления роботами.

Таким образом, чтобы дообучить модель под конкретного робота, данные должны быть поданы в определенном структурированном виде. Уже сейчас этот универсальный формат используется, например, в NVIDIA для обучения их собственных моделей.

Стоит отметить Lerobot Visualize Dataset — платформу для визуализации данных. Также Hugging Face представила компактную модель Small VLA, обученную на данных небольшого робота SOARM100.

Будущее VLA в робототехнике 

И в промышленности, и в повседневной жизни вся среда создана под человека. Например, на складах узкие проходы, много тележек, паллетов и стеллажей, и работникам приходится действовать в ограниченном пространстве. Именно такие задачи и хотят решать с помощью гуманоидных роботов. Но управлять их кинематикой очень сложно.

У классического промышленного робота всего шесть степеней свободы — приводов, которые перемещают инструмент в любую точку пространства и ориентируют его под нужным углом. Этого достаточно для большинства промышленных операций, но такие роботы обычно жестко закреплены и функционируют в огороженной зоне, чтобы исключить риск столкновения с человеком.

У антропоморфных роботов может быть семь, восемь и больше степеней свободы, что резко увеличивает сложность математических расчетов траекторий и управления движениями. Для шестиосевых манипуляторов еще можно использовать аналитические методы расчета кинематики, но при бóльшем числе степеней свободы требуются численные методы или специализированные алгоритмы.

Как раз здесь на помощь приходят VLA-модели (Vision-Language-Action). Они позволяют обучать робота нужным движениям и операциям на основе демонстраций, независимо от его кинематики. Такой подход снимает ограничение на необходимость точного аналитического расчета траекторий и дает возможность работать с любыми типами роботов, в том числе с гуманоидными.

Если собрать большое количество симуляций, в которых человек управляет роботом и демонстрирует нужные действия, робот может обучиться промышленным операциям достаточно хорошо.

Однако на практике возникает проблема с показателем успешного выполнения операций (succession rate). В промышленности у технологических операций должен быть очень высокий показатель надежности — 99,9%. Для VLA-моделей этот показатель на текущий момент составляет порядка 70%. Они могут что-то пропустить, неправильно распознать или выполнить действие не так, как требуется. Поэтому пока еще их применяют преимущественно для задач, где высокая технологическая точность не является критически важной.

Комментарии (1)


  1. Sapsan_Sapsanov
    12.08.2025 09:40

    т00. Шутники походу )