Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу.

Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе.

Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.


Дешевое обучение, небывалое масштабирование и новые возможности?

Источник

Поначалу Generalist экспериментировала с VLA-моделями и моделями мира. Однако в робототехнике, по мнению компании, они не показали выдающихся результатов.

Пять месяцев назад Generalist представила GEN-0. Это сложная мультимодальная система, которую заранее обучили на огромной собственной коллекции примеров движений. Так Generalist попыталась перенести в робототехнику знакомый по языковым моделям принцип: чем больше данных, тем лучше и предсказуемее становится модель.

Задача звучала просто: показать, что физические модели ИИ можно масштабировать, а их качество — повышать предсказуемо. GEN-0 поддерживает разные типы роботов: от обычных манипуляторов с 6–7 степенями свободы (6DoF/7DoF) до полугуманоидных машин с 16+ степенями. Система быстро осваивала новые задачи, подстраивалась под неожиданные условия и демонстрировала «физический здравый смысл» — примерно так, как человек интуитивно понимает, что тяжелый предмет нельзя толкнуть слабо, а хрупкий — сильно сжать. Затем компания масштабировала систему и получила следующее поколение — GEN-1. О нем и пойдет речь.

В основе GEN-1 лежит воплощенная фундаментальная модель (embodied foundation model), которую также называют physical AI. Это мультимодальная система: она видит физическую сцену и в реальном времени решает, что делать. Управляющие агенты обучались разными способами: предобучение, постобучение, обучение на собственном опыте (RL), управление человеком через несколько каналов и новые методы получения результата.

Итог — базовая модель для физических действий, близкая по духу к связке VLA + система управления (VLA+policy). Почти все параметры (99%) модель учила с нуля, без готовых заготовок. Благодаря мультимодальной архитектуре она генерирует команды для робота в реальном времени. Ключевой элемент — подход Harmonic Reasoning. Модель не делает паузу между «осознать» и «действовать». Она одновременно анализирует и принимает решения, работая с непрерывным потоком данных от датчиков и команд управления.

По данным разработчиков из Generalist AI, новая модель достигла 99% успешного выполнения задач. Для сравнения: предыдущее поколение (GEN-0) показывало около 64%. GEN-1 работает примерно в три раза быстрее. И ей нужен всего час данных с реальными движениями робота, чтобы адаптироваться под новую задачу или конфигурацию.

Если эти цифры подтвердятся, значит, отрасль вышла на уровень уверенного решения простых физических задач. О чем идет речь? Складывание коробок, упаковка телефонов, обслуживание роботов-пылесосов — здесь GEN-1 справляется в два-три раза быстрее и успешнее предшественников. Модель умеет восстанавливаться в неожиданных ситуациях. Она не тупит: реагирует нетипично, подстраивается под изменения и все равно доводит задачу до конца.

Что не так с предыдущими моделями? 

Старые общие модели роботов, которые достигали успешности выше 90%, держались на огромных наборах данных дистанционного управления. Такие массивы стоили дорого и плохо масштабировались. У GEN-0 и GEN-1 другой подход. Они не требуют гигантских объемов данных о роботах. Предварительное обучение строится не на классическом телеуправлении, а на большом массиве реальных физических движений, собранных с помощью носимых датчиков на людях.

Чтобы адаптировать модель под конкретного робота и задачу, нужен всего час данных с его движений — плюс те самые данные с датчиков. Это доказывает: даже «урезанное» предобучение эффективно прокачивает модель. Кроме того, модели учатся на собственном опыте, чтобы работать быстрее. В двух сложных задачах, где важна высокая точность движений, GEN-1 обгоняет аналоги примерно в три раза по скорости. Она способна ускорять выполнение операций по сравнению с демонстрационными примерами и адекватно реагировать на новые физические свойства объектов.

Конкретные цифры: GEN-1 собирает коробку за 12,1 секунды — в 2,8 раза быстрее, чем GEN-0 и π0 (у тех уходило около 34 секунд). Упаковывает телефон в чехол за 15,5 секунды — опять в 2,8 раза быстрее GEN-0.

Эффективность Gen-1: на что способен новый робот

Источник

Компания демонстрирует шесть задач, с которыми GEN-1 справляется без вмешательства человека в течение длительного времени:

Источник

Без предварительного обучения модели, обученные с нуля, выдают лишь около 19% успеха. GEN-0, доработанная под конкретные задачи, поднимается до 64% — но этого мало для реального производства. GEN-1 же выходит на 99%. Это уже промышленный уровень. Скоро такие роботы смогут стоять у конвейера, собирать детали и упаковывать товары вместо людей.


Источник

В сборке коробок GEN-1 достигает 99% успеха, что значительно выше, чем у GEN-0 (81%) или у версии GEN-0, созданной с нуля без предварительного обучения (13%).

Источник

В упаковке телефонов GEN-1 достигает 99% успеха, что значительно выше, чем у GEN-0 (62%) или у версии GEN-0, созданной с нуля без предварительного обучения (42%). 

Ограничения Gen-1

Несмотря на сильные заявленные результаты, GEN-1 остается моделью первого поколения и имеет ограничения. Generalist AI подчеркивает, что показатель успешности выше 99% был достигнут только на отдельных задачах, не все сценарии в тестах дают такой результат. К тому же все цифры — пока только заявления самой компании.

Для реального промышленного применения даже 99% может быть недостаточно. В некоторых процессах робот должен работать еще быстрее и стабильнее, особенно если речь идет о дорогостоящих деталях, безопасности людей или непрерывном производстве.

Отдельный вызов связан с тем, что роботы действуют в физическом мире, где ошибка имеет реальные последствия. Поведение, которое выглядит как полезная импровизация — например, попытка перехватить предмет, встряхнуть пакет или поднять упавшую деталь, — не будет желательна в конкретном рабочем процессе.

Поэтому для embodied AI особенно важен вопрос согласования с намерениями пользователя. В робототехнике важно не только то, что робот должен сделать, но и то, чего он делать не должен. Одно и то же действие может быть полезным в одной ситуации и недопустимым в другой.

Generalist AI признает, что по мере роста возможностей таких моделей потребуется точнее направлять их поведение и улучшать методы контроля. Компания ожидает, что следующие поколения моделей смогут осваивать более широкий круг сложных задач, а объем данных, необходимый для адаптации под каждую новую задачу, со временем будет снижаться.

После релиза GEN-1 компания открыла ранний доступ для выбранных партнеров. Generalist намерена развиваться не только как исследовательская лаборатория, но и как коммерческая платформа для физического ИИ.

Что это значит для робототехники

Робототехника, скорее всего, будет развиваться не через одного универсального гуманоидного робота, а через базовые модели для физических действий, которые можно быстро адаптировать под разные задачи, производственные сценарии и типы роботов.

Роботов будут все меньше программировать вручную под каждую операцию и все больше дообучать на небольшом количестве данных. 

Вырастет роль универсальных робототехнических моделей. Generalist — не единственный игрок. Другие компании, например Physical Intelligence с моделью π0 и Google DeepMind с Gemini Robotics, движутся в ту же сторону. Они создают системы, которые одновременно воспринимают изображение, понимают инструкции на естественном языке и управляют разными типами роботов. Одна модель должна быть полезна не для одной конкретной машины или операции, а для широкого набора задач и платформ: от роботизированных рук ALOHA и Franka до гуманоидных роботов.

Роботы становятся более адаптивными и «творческими». Разработчики ожидают, что каждое новое поколение моделей будет способно выполнять все более сложные задачи. Модель умеет гибко реагировать на неожиданные ситуации. Например, при сборке автомобильных деталей, если шайба смещается и робот больше не может нормально удерживать ее, он не останавливается. Он может положить деталь обратно и перехватить ее заново, частично вставить шайбу в паз, чтобы удобнее изменить хват, или подключить вторую руку.

Похожий принцип работает и с крупными объектами. Если они оказываются в необычном положении, которого не было в обучающих данных, модель пытается восстановить контроль над ситуацией и продолжить выполнять задачу.

Станут ли такие роботы прорывом — покажет время.

Комментарии (2)


  1. flaviy75
    08.05.2026 12:35

    Самая сложная задача для роботов, это одевать одеяло в пододеяльник (по себе знаю). Если робот сможет это сделать, тогда это будет конец истории.


    1. Sleuthhound
      08.05.2026 12:35

      Пусть для начала яишницу сделает на плите, а потому уж за одеяло берется)