Когда ChatGPT или Gemini дают, казалось бы, экспертный ответ на ваши насущные вопросы, вы можете не осознавать, на каком объёме информации он основан. Как и другие популярные генеративные модели искусственного интеллекта (ИИ), эти чат-боты опираются на базовые (foundation) модели, обученные на миллиардах или даже триллионах данных.

Аналогичным образом инженеры надеются создать базовые модели, которые обучат различные роботы новым навыкам — например, поднимать, перемещать и класть объекты в таких местах, как дома и фабрики. Проблема в том, что собирать и передавать учебные данные между разными роботами сложно. Можно обучить систему, телеманипулируя оборудованием пошагово с использованием технологий вроде виртуальной реальности (VR), но это отнимает много времени. Обучение на интернет-видео менее эффективно, поскольку они не предоставляют пошагового специализированного объяснения задач для конкретных роботов.

Подход, основанный на симуляции, под названием PhysicsGen от Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) MIT и Института робототехники и ИИ, адаптирует тренировочные данные для роботов, чтобы помочь им находить наиболее эффективные движения для задачи. Система может превратить несколько десятков VR-демонстраций почти в 3000 симуляций на каждую машину. Эти высококачественные инструкции затем сопоставляются с точной конфигурацией механических систем, таких как роботизированные руки и манипуляторы.

PhysicsGen создаёт данные, которые обобщаются под конкретные роботы и условия, используя трёхэтапный процесс. Сначала гарнитура VR отслеживает, как человек манипулирует объектами, например, кубиками, используя свои руки. Эти взаимодействия одновременно отображаются в 3D-физическом симуляторе, визуализируя ключевые точки на руках в виде маленьких сфер, которые повторяют жесты. Например, если вы перевернёте игрушку, вы увидите 3D-фигуры, представляющие различные части ваших рук, вращающие виртуальную версию объекта.

Затем этот процесс сопоставляет эти точки с 3D-моделью конкретной машины (например, роботизированной руки), перемещая их в точные «суставы», где система вращается и двигается. Наконец, PhysicsGen использует оптимизацию траекторий — по сути, симулирует наиболее эффективные движения для выполнения задачи — чтобы робот знал лучшие способы выполнить, например, перемещение коробки.

Каждая симуляция — это детальная обучающая точка данных, которая пошагово показывает роботу возможные способы взаимодействия с объектами. Когда эта информация интегрируется в политику (или план действий, которому следует робот), машина получает разнообразные способы подойти к задаче и может попробовать разные движения, если одно не сработает.

«Мы создаём данные, специфичные для конкретного робота, без необходимости людям повторно записывать специализированные демонстрации для каждой машины», — говорит Луджи Янг, аспирант MIT по электротехнике и информатике и участник CSAIL, который является ведущим автором новой статьи, размещённой на сервере препринтов arXiv, в которой представляется проект. «Мы масштабируем данные автономно и эффективно, делая инструкции по выполнению задач полезными для более широкого спектра машин».

Генерация такого количества учебных траекторий может в конечном итоге помочь инженерам создать массивный набор данных для управления машинами, такими как роботизированные руки и гибкие манипуляторы. Например, эта система может помочь двум роботизированным рукам совместно подбирать товары на складе и размещать их в нужные коробки для доставки. Также система может научить двух роботов работать вместе в доме над задачами вроде расставления посуды.

Потенциал PhysicsGen также распространяется на преобразование данных, разработанных для старых роботов или других условий, в полезные инструкции для новых машин. «Несмотря на то, что они были собраны для конкретного типа робота, мы можем оживить эти прошлые наборы данных, сделав их более универсально применимыми», — добавляет Янг.

Умножение через добавление

PhysicsGen превратил всего 24 демонстрации человека в тысячи симулированных, помогая как цифровым, так и реальным роботам переориентировать объекты.

Янг и его коллеги сначала протестировали свою систему в виртуальном эксперименте, где плавающая роботизированная рука должна была повернуть блок в целевую позицию. Цифровой робот выполнил задачу с точностью 81%, что на 60% лучше по сравнению с базовой моделью, которая обучалась только на человеческих демонстрациях.

Исследователи также обнаружили, что PhysicsGen может улучшить взаимодействие виртуальных роботизированных рук при совместной работе с объектами. Их система создала дополнительные обучающие данные, которые помогли двум парам роботов успешно выполнять задачи на 30% чаще, чем базовая модель, обученная только людьми.

В эксперименте с парой реальных роботизированных рук исследователи наблюдали аналогичные улучшения, когда машины вместе переворачивали большую коробку в нужное положение. Когда роботы отклонялись от запланированной траектории или неправильно обращались с объектом, они могли восстановиться в процессе выполнения задачи, ссылаясь на альтернативные траектории из своей библиотеки инструкций.

Старший автор Росс Тедрейк, профессор электротехники, информатики, аэрокосмической и машиностроительной инженерии в MIT, добавляет, что этот метод генерации данных на основе имитации объединяет сильные стороны человеческих демонстраций и алгоритмов планирования движений для роботов.

«Даже одна демонстрация от человека может значительно упростить задачу планирования движения», — говорит Тедрейк, который также является старшим вице-президентом по большим поведенческим моделям в Toyota Research Institute и руководителем проекта в CSAIL. «В будущем, возможно, базовые модели смогут предоставлять такую информацию, а этот тип техники генерации данных станет своего рода рецептом постобучения для этой модели».

Будущее PhysicsGen

Вскоре PhysicsGen может быть расширен в новом направлении: увеличение разнообразия задач, которые может выполнять машина.

«Мы хотим использовать PhysicsGen, чтобы обучить робота наливать воду, даже если он был обучен только убирать посуду», — говорит Янг. «Наш pipeline генерирует не просто динамически выполнимые движения для знакомых задач; он также может создать разнообразную библиотеку физических взаимодействий, которые, как мы считаем, могут служить строительными блоками для выполнения совершенно новых задач, которым человек не обучал».

Создание большого количества широко применимых обучающих данных может в конечном итоге помочь создать базовую модель для роботов, хотя исследователи из MIT предупреждают, что это пока далёкая цель. Команда CSAIL исследует, как PhysicsGen может использовать огромные, неструктурированные ресурсы — такие как интернет-видео — в качестве основы для симуляций. Цель: преобразовать повседневный визуальный контент в насыщенные, пригодные для роботов данные, которые могли бы обучить машины задачам, которым их никто явно не учил.

Янг и его коллеги также стремятся сделать PhysicsGen ещё более полезным для роботов с разнообразными формами и конфигурациями. Чтобы этого добиться, они планируют использовать наборы данных с демонстрациями настоящих роботов, фиксируя движение именно роботизированных сочленений, а не человеческих.

Исследователи также планируют внедрить обучение с подкреплением, при котором ИИ обучается методом проб и ошибок, чтобы PhysicsGen мог расширять свой набор данных за пределы примеров, предоставленных человеком. Они могут дополнить свою систему продвинутыми технологиями восприятия, чтобы помочь роботам видеть и интерпретировать окружающую среду визуально, позволяя машине анализировать и адаптироваться к сложности физического мира.

На данный момент PhysicsGen демонстрирует, как ИИ может помочь нам обучать различных роботов манипуляциям с объектами одной категории, особенно жёсткими. В будущем этот pipeline может помочь роботам эффективно работать с мягкими предметами (например, фруктами) и деформируемыми материалами (например, глиной), хотя такие взаимодействия пока сложно смоделировать.

Комментарии (0)