
Когда мы просим модель рассуждать, она делает это с помощью слов в случае текста или с помощью статичной сцены в случае картинки. Однако окружающий мир не является статичным: объекты могут перемещаться, а правила часто складываются только по их поведению во времени. Авторы предлагают использовать генерацию видео как универсальный канал для рассуждений. Текст в кадры можно буквально вписать, визуальные гипотезы — нарисовать, затем проверить, а затем исправить. В итоге получается рабочее пространство, объединяющее логику, геометрию и язык в едином процессе.

Что именно сделали
Авторы собрали бенчмарк задач VideoThinkBench. Он содержит как визуально-центричные задачи (различные визуальные пазлы, а также лабиринты и ARC‑AGI‑2), так и текст-центричные (подвыборки популярных GSM8K, MATH, MMLU/Pro, GPQA). Туда же включены существующие мультимодальные бенчмарки вроде MathVista, MMMU и других, но, конечно, адаптированных для видео‑оценки.
Задачи предлагается решать с помощью двух каналов. В видео просят не только выдать итоговый ответ, но и показать ход решения (например, нарисовать или подчеркнуть что‑то, выписать формулы, явно указать ответ). В аудио — проговорить только ответ. Оценка проводится раздельно: по последнему кадру или по транскрипции проговариваемого. Для визуальных задач в видео вводятся новые проверяемые правила: например, провела ли модель линию, соединяющую две точки, не задевает ли эта линия стены и так далее, верно ли она дорисовала кусок фигуры и совпадает ли он с эталоном.

Как модель справилась с чисто визуальными задачами
На визуальных задачах Sora‑2 часто показывает себя лучше других. В задачах на геометрию она хорошо справляется в нахождении точки пересечения двух лучей, центра окружности, отражения, путь до точки и прочее. Авторы отмечают, что Sora‑2 умеет проводить перпендикуляры. Лучшим методом оценки, по их наблюдениям, является не только финальный кадр, но и большинство кадров, так как «устойчивость» убирает случайные артефакты в конце видео.
В визуальных пазлах Sora‑2 хорошо справляется с задачами на продолжение цветового или форменного паттерна, то есть закрасить нужную область, подобрать нужный размер фигуры, правильно нарисовать отражение. Авторы отмечают, что это выглядит довольно неожиданно для видеогенератора, потому что это требует хорошей индукции, а не только воспроизведения шаблона.

С ARC‑AGI‑2 ситуация сложнее. Строгая автопроверка выдаёт довольно низкий результат, но ручная проверка показывает много частично верных ответов, а также ситуации, когда Sora‑2 меняет решение во время видео, видимо реализуя попытку самокоррекции. В ARC‑AGI‑2 если вместо одного кадра оценивать большинство и добавлять голосование между несколькими запусками, то итоговая точность заметно повышается.

Отдельно стоит отметить набор лабиринтов как интересный стресс‑тест. Там проверяют, умеет ли Sora‑2 переносить навык решения лабиринтов в различных топологиях. Авторы отмечают, что Sora‑2 довольно уверенно проводит кратчайший путь в лабиринте, если он находится в квадратной сетке, но сильно теряется, когда лабиринт задан в шестиугольной сетке или в круговой. Это говорит о том, что навык не до конца переносится на новые сцены.

Что там с текстом и мультимодальностью?
В текст-центричных задачах аудио‑ответ Sora‑2 оказывается неожиданно полезным. Она демонстрирует высокие результаты в GSM8K и довольно близкие к самым высоким в MATH. Она показывает очень хорошие, хотя и не лидирующие, результаты в таких мультимодальных бенчмарках, как MathVista и MMMU. Видео‑ответы оказываются хуже: видимо, аккуратно выписать формулы, подчеркнуть нужный вариант ответа и аккуратно вписать финальный ответ сложнее, чем просто его проговорить.

Откуда берутся такие способности
Авторы провели дополнительные тесты на утечки. Они сгенерировали задачи для GSM8K и MATH, которые отсутствуют во всех трэйнах, но структурно похожи. Результаты были сопоставимы, что уменьшает шансы на то, что система просто запомнила решения. Другая важная находка касается скрытого переписчика промта. На родственной системе Wan2.5 отключение переписчика почти обнуляет производительность на задачах рассуждения, а включение-возвращает высокую производительность. Это намекает на то, что внутри может быть компонент, который берёт краткий запрос и переписывает его в подробный промт для пошагового решения. Это могло бы объяснить предназначение доказательного видео для Sora‑2: оно обеспечивает устойчивость, удерживая пайплайн, даже если промт переписан, а аудио работает хорошо, потому что ему не нужно записывать каждый шаг, только финальный ответ. Даже если внутри есть скрытый переписчик, система всё равно должна адекватно выполнять такой пошаговый план, отправляя в каждую задачу сложные действия внутри видео и языка.

Для чего всё это
Мы привыкли думать о тексте как о пространстве для рассуждения, о картинках как о сфере визуального распознавания, а о видео как об инструменте рассказа историй. Но Sora‑2 использует видео как рабочее пространство для решения задач, что даёт ей следующие возможности:
Проверять гипотезы действиями, например, проводить линию, стирать маску, дорисовывать форму.
Удерживать язык и видение вместе, например, писать формулы и одновременно демонстрировать на диаграмме.
Использовать время для самокоррекции, так как несколько шагов с голосованием могут помочь преодолеть шум.
Подход далёк от идеала: перенос навыков между геометриями оставляет желать лучшего, часть производительности может зависеть от внутреннего переписчика промта. Тем не менее, это захватывающе. Это единая среда, где навыки построения модели мира, видения и языка могут сосуществовать не как набор токенов, а как действия во времени и пространстве.
Главные выводы: Видео как единая среда для рассуждения работает: система учится как отвечать, так и действовать Sora‑2 особенно сильна в задачах, требующих пространственного или индуктивного рассуждения, и выигрывает от устойчивости по кадрам и повторного прогонов В текстовых наборах аудио превосходит видео.
Для продвижения вперёд необходимы лучшие инструменты для записи хода решения в видео и обучение, стимулирующее перенос между геометриями. Так мышление с помощью видеогенерации становится естественным следующим шагом в развитии ИИ: это единая среда рассуждения, где язык, восприятие и действие существуют в общем временном потоке.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
akakoychenko
А интересная тема, однако. Человек, действительно, имеет альтернативы словесному рассуждению в голове, и, будучи ограниченной словесным рассуждением, модели не повторить человеческие алгоритмы.
С другой стороны, человек ведь не мыслит растровой графикой. Он мыслит векторной. Причём, как в 2-, так в 3д случаях, и даже для решения неграфических задач (например, программист рисует схему классов или таблиц БД, чтобы графическим представлением решить задачу, поставленную и ожидающую решения исключительно в текстовом пространстве).
Хотя... У векторной графики есть проблема. Ее, объективно, негде в промышленных масштабах брать для обучающей выборки. Как я понимаю, даже с ризонингом вышли проблемы, и пришлось фермами кенийцев решать задачу некрасиво, долго и дорого...
andre_dataist Автор
Недавно обозревал статью про переход от пикселей к SVG — думаю, именно на стыке этих подходов может родиться что-то по-настоящему интересное.