
Короткое 2–10‑минутное видео с пояснениями к статье сегодня стало почти обязательным: его ставят на страницу проекта, показывают на семинарах, пересылают коллегам. Но сделать такое видео — это часы подготовки слайдов, запись голоса и говорящей головы, монтаж и правки. И это совсем не то же самое, что “натуральная” генерация роликов: здесь важно аккуратно передать длинный контекст статьи, совместить несколько каналов — слайды, речь, субтитры, курсор — и сделать это понятно и профессионально.

Что именно предложили авторы
Работа Paper2Video решает проблему комплексно. Во‑первых, появляется первый открытый бенчмарк на 101 паре “статья — авторское видео” с метаданными: исходные слайды, лицо и голос докладчика. Во‑вторых, предлагается набор метрик, которые оценивают не только картинку, но и передачу знаний и запоминаемость. И, наконец, представлена мультиагентная система PaperTalker, которая автоматически собирает академическую презентацию: генерирует слайды, пишет субтитры, синхронизирует речь, управляет курсором и создает говорящую голову, подражая автору.

Почему это непросто
Презентация — это длинный мультимодальный объект. Нужно понять статью с множеством рисунков и таблиц, сжать ее до 10–20 слайдов, оформить так, чтобы ничего не поплыло, и синхронизировать голос, субтитры и указатель. Даже сильные видеомодели пока с трудом справляются с мелким текстом на экране, длинным контекстом и точным таймингом — отсюда потребность в модульной архитектуре и понятных метриках.
Как устроен PaperTalker
Система — это связка из нескольких агентов, каждый отвечает за свой канал.
Слайды. Генерация Beamer LaTeX прямо из текста статьи с последующей автодебагом. Ключевая идея — Tree Search Visual Choice: система перебирает визуальные варианты (масштабы фигур, размер шрифта), рендерит кандидатов и с помощью визуально-языковой модели выбирает тот, где ничего не переполнено и все читаемо.
Субтитры и фокусы внимания. По растеризованным слайдам формируется краткий сценарий: покадровые подписи и подсказки, куда должен указывать курсор.
Курсор. Позиции на слайде заземляются через модель взаимодействия с интерфейсом; WhisperX дает точные тайминги на уровне слов, чтобы указатель двигался между фразами, а не дергался внутри.
Речь и говорящая голова. F5‑TTS воспроизводит голос автора, а модели типа Hallo2 и FantasyTalking создают реалистичную мимику и верхнюю часть корпуса. Важная деталь — параллельная генерация по слайдам: это ускоряет процесс более чем в шесть раз.

Как они меряют качество
Обычных метрик для таких видео нет, поэтому команда предложила четыре:
Meta Similarity — насколько слайды и субтитры похожи на человеческую презентацию.
PresentArena — парное сравнение двух видео “кто лучше” по ясности, структуре и вовлеченности.
PresentQuiz — проверка передачи знаний: видео должно помочь правильно ответить на вопросы по статье.
IP Memory — запоминаемость автора и работы по короткому фрагменту, что ближе к опыту реальной конференции.

Что получилось на практике
На бенчмарке Paper2Video метод PaperTalker стабильно обходит базовые подходы. Он выигрывает чаще в PresentArena, показывает лучшую Meta Similarity и высокое качество синтеза речи за счет персонализации. В тесте информативности PresentQuiz он даже на 10% превосходит человеческие видео: меньше воды, больше фактов. Курсор и ведущий заметно помогают — добавляют к точности и увеличивают долю побед в парных сравнениях. В IP Memory PaperTalker — лучший: сочетание лица, голоса и продуманной структуры делает видео запоминающимся.
При этом система не тратит бесконечные ресурсы: слайдовый параллелизм дает более чем шестикратное ускорение производства при скромных затратах на инференс. А визуально — ближе всего к человеческим презентациям: без размытий текста и с аккуратным макетом, в отличие от end‑to‑end видеогенерации, которая зачастую ограничена несколькими секундами и не держит мелкий шрифт.

Пара слов о верстке слайдов
Отдельная изюминка — Tree Search Visual Choice. Небольшое, но очень практичное улучшение: перебор нескольких осторожно подобранных макетов с автоматическим выбором лучшего. Это гасит переполнения, исправляет подписи и делает итоговые кадры намного чище.

Почему это важно для сообщества
Работа закрывает сразу три пробела: дает референсный датасет, предлагает содержательные метрики и показывает готовую к применению систему. Для исследователей это новый полигон: можно мерить не только “красоту” картинки, но и передачу знаний и эффект запоминания. Для практиков — способ быстро получить качественное видео к статье без мучительного монтажа. И, что особенно ценно, архитектура модульная: каждый компонент можно улучшать отдельно — от генерации сценария до точной привязки курсора.
Ограничения и взгляд вперед
Есть куда расти: персонализация докладчика зависит от качества исходных данных, а автоматическое извлечение ключевых рисунков и таблиц из сложных LaTeX‑проектов всё еще требует аккуратности. Но уже сейчас результаты близки к авторским презентациям, а открытый код и данные обещают быстрое развитие экосистемы вокруг бенчмарка.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.