Модели мира после LLM: что именно строит AMI Labs и почему практический выход может лежать через VLA / forpes.ru

Главная
Модели мира после LLM: что именно строит AMI Labs и почему практический выход может лежать через VLA

Модели мира после LLM: что именно строит AMI Labs и почему практический выход может лежать через VLA +10

27.04.2026 13:16

darovska_online 0 2900 Источник

AMI Labs предлагает смотреть на модель мира не как на разновидность языкового ИИ, а как на систему, способную воспринимать физическую реальность, выделять в ней ключевые связи и предсказывать последствия действий. В статье разберем, как компания понимает сенсорные данные, почему делает ставку на скрытые представления вместо реконструкции «сырого» мира и зачем связывает понимание среды с возможностью прогнозировать будущее поведение агента.

Что за компания AMI Labs

Интерес к теме перестал быть сугубо академическим в момент, когда AMI Labs, новая компания Яна Лекуна, привлекла 1,03 млрд долларов при оценке стоимости компании до инвестиций в 3,5 млрд. TechCrunch пишет, что AMI делает ставку на модели мира (world models).

Ян Лекун (Yann LeCun) — франко-американский ученый в области искусственного интеллекта, один из ключевых пионеров глубокого обучения. Больше всего он известен работами по сверточным нейронным сетям (CNN), которые стали базовой технологией для распознавания изображений и компьютерного зрения. В 2018 году Лекун вместе с Джеффри Хинтоном и Йошуа Бенджио получил премию Тьюринга за вклад, который сделал глубокие нейросети практически применимыми.

Принадлежащая ему AMI — исследовательская AI-компания, разрабатывающая модели мира, способные работать с данными из реальной среды: камер, датчиков и сенсоров. В компании исходят из того, что такие данные непрерывны, многомерны и зашумлены, поэтому подходы, хорошо зарекомендовавшие себя в языковых моделях, не всегда подходят для прогнозирования событий в физическом мире.

Вместо этого AMI создает системы, которые выделяют из сенсорных данных устойчивые абстрактные представления и уже на их основе моделируют развитие ситуации. Такой подход должен помочь агентным системам оценивать последствия своих действий, планировать шаги и учитывать ограничения, связанные с безопасностью и управляемостью.

Компания фокусируется на сферах, где надежность ИИ особенно важна: промышленной автоматизации, робототехнике, носимых устройствах и здравоохранении. AMI называет себя международной исследовательской лабораторией, основанной командой ученых и инженеров, и подчеркивает, что настоящий интеллект начинается не с языка, а с понимания реального мира.

Что такое модели мира

(a) Модель действий генерирует действия на основе понимания изображения; (b) модель мира генерирует изображение на основе понимания изображения и действия; (c) модель мира действий объединяет понимание и генерацию как изображения, так и действия. Источник — (a) Модель действий генерирует действия на основе понимания изображения; (b) модель мира генерирует изображение на основе понимания изображения и действия; (c) модель мира действий объединяет понимание и генерацию как изображения, так и действия. *Источник*

Вокруг термина «модель мира» уже появляется споры и разные трактовки. Им начинают называть слишком разные вещи: и видеогенераторы, и воплощенных (embodied) агентов, и причинные модели, и просто более продвинутую мультимодальность.

Сама AMI объясняет свою концепцию так: модель мира должна не просто обрабатывать поток сырых данных из внешней среды, а выделять в нем устойчивую внутреннюю структуру. Для этого система учится строить абстрактные представления сенсорных данных, отсеивать случайные и непредсказуемые детали и уже на этом уровне прогнозировать развитие ситуации.

Ключевой момент в том, что такая модель может быть связана с действиями агента. Тогда она нужна не только для наблюдения, но и для планирования: система получает возможность предсказывать последствия своих шагов и выбирать последовательность действий с учетом ограничений безопасности.

AMI понимает под моделью мира следующее:

Рассматривает модель мира не как очередную сверхбольшую языковую модель, а как систему, которая работает с сенсорной реальностью. Речь идет о данных, поступающих напрямую из окружающей среды, а не только о мире, уже переведенном в слова.

Делает ставку не на буквальное восстановление сырых данных, а на создание абстрактного внутреннего состояния — скрытого представления, в котором модель схватывает структуру сцены, отслеживает движение объектов и понимает причинно-следственные связи.

Использует модель мира не только как инструмент интерпретации наблюдаемого, но и как основу для прогнозирования. Такая система должна уметь отвечать на главный вопрос: что произойдет, если агент выполнит то или иное действие.

Почему модели мира противопоставляют LLM

Лебрюн, ранее занимавшийся цифровой медициной в Nabla, пришел к близкому с Яном Лекуном выводу: большие языковые модели имеют серьезные ограничения, особенно там, где цена ошибки слишком высока. В материалах о компании именно это называется одной из причин поворота к JEPA-подходу и, шире, к моделям мира как к альтернативной линии развития ИИ.

Язык — лишь один из способов описания мира, тогда как по-настоящему надежный интеллект должен опираться на более глубокое представление о среде, ее изменениях и последствиях действий. Поэтому формула «настоящий интеллект начинается не с языка, а с мира» для AMI — отправная точка всей методологии.

Компания не продает идею быстрого выхода на рынок. Лебрюн признает, что речь идет об очень амбициозном проекте, который начинается с фундаментальной науки и может идти к прикладным продуктам годами. И в этом, пожалуй, главное отличие AMI от множества стартапов новой волны: она не пытается просто обернуть большую языковую модель в агентную оболочку, а предлагает куда более глубокую смену архитектурной логики.

JEPA как архитектурная опора: предсказание не токенов, а состояния

Ключевую роль в этом направлении играет семейство архитектур JEPA — Joint Embedding Predictive Architecture, или архитектура предсказания в совместном пространстве представлений, с которой имя Яна Лекуна связано уже несколько лет. JEPA важна как принципиально другой способ постановки самой задачи. Вместо того чтобы пытаться предсказать каждый пиксель будущего кадра или каждый следующий токен в последовательности, такая модель учится предсказывать векторное представление наблюдения — компактную скрытую структуру, в которой сохранено главное. За счет этого можно отбрасывать шум, случайные детали и мелкие колебания, оставляя то, что действительно важно для понимания ситуации и последующего действия.

Эта идея уже получила подтверждение в работе V-JEPA 2. Авторы пишут, что на первом этапе модель предварительно обучили на массиве из более чем миллиона часов интернет-видео. Затем исследователи дообучили латентную модель мира, обусловленную действиями (latent action-conditioned world model) — версию V-JEPA 2-AC, — используя менее 62 часов неразмеченных робототехнических видео из набора данных Droid.

Обзор V-JEPA 2. Используя миллион часов видеоконтента и миллион изображений, предварительно обучили видеомодель V-JEPA 2. Источник — Обзор V-JEPA 2. Используя миллион часов видеоконтента и миллион изображений, предварительно обучили видеомодель V-JEPA 2. *Источник*

После этого систему в режиме без дополнительного обучения на новой среде (zero-shot) развернули на роботизированных манипуляторах Franka в двух разных лабораториях. Модель смогла выполнять задачи по захвату и перемещению объектов, используя планирование по целевым изображениям, — без сбора данных именно в этих средах, без специального обучения под конкретную задачу и без функции вознаграждения.

По мнению исследователей, такой подход позволяет построить модель мира, способную к планированию действий в физическом мире.

Модель мира отличается от просто хорошей мультимодальной модели

На фоне нынешнего бума мультимодальности легко решить, что любая система, которая обрабатывает видео, изображение, текст и действие, уже автоматически является моделью мира. Но это не так. Мультимодальность говорит о числе каналов ввода и вывода. А модель мира — о структуре внутреннего представления и цели обучения. Система может быть мультимодальной, но оставаться по сути интерфейсным преобразователем: получила картинку и инструкцию — выдала текст или действие. В таком случае она может быть очень полезной, но все еще не иметь внутреннего механизма прогнозирования динамики среды.

В подходе AMI модель мира отличается прежде всего тем, что понимается как латентная динамическая модель (latent dynamics model). Ее задача — не просто объединять разные типы данных, а предсказывать, как меняется внутреннее состояние среды и к каким последствиям приведут действия агента. В этом смысле речь скорее идет о компактном внутреннем симуляторе значимых процессов реального мира, чем о широкой мультимодальной оболочке.

Почему разговор о моделях ведет к VLA

Модель мира отвечает на вопрос: что произойдет дальше, если среда находится в определенном состоянии, а агент совершит то или иное действие? Модель класса VLA отвечает на другой вопрос: какое действие нужно выбрать сейчас, исходя из того, что система видит, какую инструкцию получила и каким набором действий располагает? Это не взаимоисключающие подходы, а разные уровни одной и той же архитектуры.

Без модели мира VLA-система может оказаться слишком реактивной. Она способна хорошо переводить визуальный контекст и языковую цель в действие, но это еще не означает глубокого понимания того, как среда будет меняться дальше. Для простых задач этого часто достаточно. Но в длинных, хрупких или физически чувствительных сценариях нужен внутренний контур прогноза — возможность заранее «проигрывать» последствия: что произойдет после касания, после перемещения объекта, после попытки открыть механизм или при столкновении нескольких объектов. В этом смысле модель мира выглядит как недостающий слой внутренней симуляции, который делает VLA не просто реактивной, а по-настоящему планирующей системой.

Но и одна только модель мира не решает задачу целиком. Даже если система хорошо предсказывает скрытую динамику среды, ей все равно нужен исполнительный слой, который свяжет восприятие, цель, язык пользователя, интерфейс управления и итоговую генерацию действий. Иначе модель мира останется внутренним механизмом прогноза без удобного способа воплотить этот прогноз в поведение. Поэтому наиболее реалистичный инженерный сценарий сегодня выглядит не как выбор между VLA и моделью мира, а как их объединение: модель мира становится внутренним или соседним уровнем внутри VLA-конвейера (VLA pipeline).

Как это все складывается в единую систему

Если объединить подход AMI, JEPA, более широкую традицию моделей мира и новые работы по VLA, получается довольно понятная инженерная схема. Сначала система получает сенсорные данные из внешней среды: видео, изображения, состояние робота и другие сигналы. Затем эти наблюдения переводятся в более абстрактное внутреннее представление. На его основе строится модель мира, которая пытается предсказать, как будет развиваться ситуация и к чему приведут действия агента. Дальше подключается модуль планирования, который выбирает подходящую последовательность шагов. И уже поверх этого VLA-уровень связывает текущее восприятие среды, цель, языковую команду и конкретные действия системы.

В такой архитектуре язык не исчезает, но занимает другое место. Он перестает быть главным носителем всего интеллекта и становится скорее интерфейсом для постановки целей, ограничений и задач. А понимание того, что происходит в среде и что случится после того или иного действия, переносится во внутренний предиктивный слой. В этом и заключается один из главных сдвигов после эпохи LLM: от модели, которая в основном описывает мир словами, к модели, которая должна внутренне моделировать его динамику.

Практическое применение

На сайте AMI перечислены области, где особенно важны надежность, управляемость и безопасность: промышленное управление, автоматизация, носимые устройства, робототехника и здравоохранение. Все эти сферы объединяет одно: цена ошибки здесь намного выше, чем в обычных текстовых интерфейсах. Если чат-бот неточно пересказал статью, это неприятно, но не критично. Если же система ошиблась в оценке промышленного процесса или медицинских рисков, последствия могут быть куда серьезнее.

Именно поэтому ставка на модели мира выглядит для рынка понятной. В таких сценариях недостаточно, чтобы система просто хорошо формулировала ответы. Она должна более надежно понимать, что происходит в среде, как она меняется и к чему приведет то или иное действие.

TechCrunch пишет, что первым партнером AMI станет Nabla — цифровой медицинский стартап, с которым Александр Лебрюн связан как председатель совета директоров. Это партнерство прямо связывается с неудовлетворенностью ограничениями больших языковых моделей в сферах, где галлюцинации могут иметь опасные последствия для жизни и здоровья. Конечно, на этом этапе было бы неправильно делать вывод, что AMI уже построила полноценную платформу моделей мира для медицины или промышленности. Но сам выбор Nabla как первого партнера важен: он показывает, на какие задачи компания смотрит с самого начала. Речь идет о средах, где мало просто «хорошо говорить» — нужен более надежный внутренний слой моделирования.

Показателен и другой пример из исследовательской практики. Речь о V-JEPA 2-AC. Эта работа важна тем, что показывает: даже сравнительно небольшой объем робототехнических данных в сочетании с предобучением на огромном массиве видео может дать систему, способную планировать действия в новой лабораторной среде без дополнительного обучения. Это еще не универсальный интеллект и не доказательство того, что задача уже решена. Но доказывает, что латентные модели мира, учитывающие действия агента, могут стать рабочим механизмом физического планирования.

Открытые вопросы

При всей привлекательности этой идеи важно не превращать ее в новый хайп без оговорок. Во-первых, сам термин «модель мира» уже начинает размываться. Даже Лебрюн в разговоре с TechCrunch иронизировал, что через полгода почти любая компания сможет называть себя разработчиком «моделей мира» просто ради инвестиций. Это значит, что в ближайшие годы под одним и тем же словом будут смешиваться очень разные подходы — от систем для embodied-планирования до обычных мультимодальных моделей.

Во-вторых, наличие внутреннего латентного предиктора еще не означает, что система действительно «понимает мир». Между умением предсказывать внутренние представления и настоящим причинным пониманием лежит большая дистанция. Модель может быть полезной для отдельных задач планирования, но при этом плохо переноситься в новые среды, ломаться на нестандартных случаях и не справляться с длинными цепочками рассуждений и действий. Поэтому сегодня о моделях мира точнее говорить не как о готовой замене LLM, а как о перспективной архитектурной программе.

AMI продвигает не просто новый тип интерфейса, а другую базовую идею о том, как должна быть устроена интеллектуальная система. Эта идея заключается в следующем: если система должна надежно действовать в реальном мире, ей недостаточно только предсказывать языковые последовательности. Ей нужна внутренняя модель мира, работающая на уровне представлений, способная прогнозировать последствия действий и поддерживать планирование. Именно так AMI сегодня описывает свой подход публично.