Всем привет! В этом году в китайском городе Суджоу проходит юбилейная тридцатая конференция EMNLP (Empirical Methods in Natural Language Processing). Это одна из ведущих международных конференций по обработке естественного языка (NLP), проводимая под эгидой ассоциации компьютерной лингвистики ACL (Association for Computational Linguistics). 

Лого конференции EMNLP-2025
Лого конференции EMNLP-2025

Впервые конференция EMNLP прошла в 1996 году. Сегодня она посвящена эмпирическим методам, то есть моделям, основанным на данных, статистике и машинном обучении. А тогда конференция называлась Workshop on Very Large Corpora и представляла собой небольшое мероприятие ACL, посвящённое использованию корпусов текстов для обучения моделей. Тогда еще не было никаких трансформеров и уже привычных нам больших языковых моделей (LLM) и уж тем более мультимодальности, агентов и прочих хайповых ИИ-направлений. Это была эпоха статистического NLP, когда всё строилось вокруг частот, вероятностей и корпусов текстов, а в ходу были N-граммные языковые модели и скрытые Марковские модели. 

С конца 1990-х EMNLP выросла в крупную независимую конференцию с тысячами участников, и сейчас не ограничивает свои темы только NLP: выделены большие треки про мультимодальные системы на базе компьютерного зрения, обработки звука и музыки, векторной графики, создании мультиагентных систем и т. д. Сегодня EMNLP входит в тройку лучших конференций по обработке естественного языка наряду с ACL и NAACL. Ниже на графике — официальная статистика по количеству принятых статей (видна экспонента).

Экспоненциальный рост принятых публикаций
Экспоненциальный рост принятых публикаций

На EMNLP есть несколько разных треков, основные это Main и Findings. Помимо них есть разные демо-треки и мастер-классы, на которых участники могут поделиться своими открытиями и вживую продемонстрировать работы. В Main отбирают придирчиво, обычно с 3–4 рецензентами и жёсткой системой оценки. Принимают новые, ранее не опубликованные статьи с актуальной научной новизной. Средний порог входа около 20 %, то есть на конференцию проходит каждая пятая статья. Findings — дополнительный сборник конференции, созданный ACL с 2020 года. Там публикуют статьи, которые прошли рецензирование, но не попали в основной трек (часто по лимиту мест, а не из-за низкого качества самих статей). Findings цитируется и индексируется наравне с основной конференцией.

Жестовый язык на EMNLP

В этом году на EMNLP-2025 представлено пять работ по жестовым языкам. Три из них попали в Main, включая нашу (!), остальные попали в Findings. Давайте пройдёмся по каждой.

Logos as a Well-Tempered Pre-train for Sign Language Recognition

Начнём с нашей работы. При детальном изучении датасетов жестовых языков мы обнаружили явную проблему: одинаковые жесты с разным переводом представлены отдельными классами (“mom/mother», «открытие/открыть»). Мы собрали собственный датасет Logos (один из крупнейших датасетов изолированных жестов в мире и самый большой датасет русского жестового языка, РЖЯ), который лишён этого недостатка.

Раскадровка жестов
Раскадровка жестов

На основе Logos мы изучили влияние разметки жестов на качество моделей, используемых в других задачах. С помощью нашего претрейна на русском языке мы получили качество распознавания американского жестового языка (ASL) заметно выше прежних state-of-the-art решений. Основной упор сделан на анализе жестов, которые показываются почти одинаково, но имеют разное значение. Ключевые моменты:

  • Logos содержит 2 863 леммы, это 200 000 видео длительностью 3–5 сек.

  • Датасет записан 381 слабослышащими носителями РЖЯ. Это самый разнородный по пользователям датасет в мире!

  • Особое внимание уделено группе «визуально сходных жестов» (VSSigns) — когда одни и те же движения рук могут означать разные слова, отличаясь лишь немануальными компонентами (мимика, артикуляция: см. картинку выше).

  • Объединив такие визуально сходные жесты в группы, нам удалось повысить качество обучения: модель обучена на двух вариантах разметки — 2863 исходных классов и после группировки на 2004 классов.

  • Модель-энкодер, предобученная на Logos, успешно передаёт знания на другие языки жестов (например, WLASL — американский, AUTSL — турецкий).

  • При совместном обучении на нескольких языках достигается точность 65,4 % на американском бенчмарке изолированных жестов WLASL-2000, что существенно выше предыдущих результатов (на 5 процентных пунктов). Для обучения мы использовали реализацию архитектуры MViTv2-Small в репозитории MMAction2.

  • Эксперимент с попыткой прямого сопоставления русских жестов с американскими без обучения нового энкодера показал низкую точность, значит, нужен качественный универсальный энкодер, а не просто словарь соответствий.

Датасеты
Датасеты

Более подробный обзор на Хабре делал наш коллега Илья Оводов. Ссылка на статью на EMNLP-2025.

Improving Handshape Representations for Sign Language Processing: A Graph Neural Network Approach

Вторая работа из трека Main. Авторы из Johns Hopkins University предлагают новый метод для более точного распознавания конфигураций кистей (handshapes) в жестовом языке с помощью графовых нейронных сетей (GNN).

Распознавание жестов часто выполняется на уровне глоссов, без отдельного моделирования формы руки. Однако именно handshape — один из ключевых фонологических параметров, формирующих значение жеста. В американском жестовом языке (ASL) существует около 50 уникальных форм кистей, и их распознавание критично для понимания смысла.

Авторы предлагают двухкомпонентную Handshape-GNN, которая разделяет динамику движения и статическую форму руки:

  • Sign GNN анализирует последовательность кадров и учится распознавать временную эволюцию движений. Достигает точности 30 %.

  • Handshape GNN выделяет статические кадры (low-motion frames), где форма руки наиболее стабильна, и классифицирует их. Достигает точности 31 %.

Обе сети обучали контрастивно (как CLIP) на основе сходства и различий между парами примеров. Данные подавали в виде графа из 21 ключевой точки руки, соединённых анатомически осмысленными рёбрами (пальцы, суставы, запястье). При этом Dual GNN показал результат 46 %, что существенно выше отдельно взятых моделей. Для обучения использовали комбинацию датасетов PopSign (видео) и ASL-LEX (фонологические аннотации).

Авторы вводят биомеханические показатели (finger independence, thumb effort, handshape distance), которые показывают, какие конфигурации пальцев труднее различить и почему. Например, handshape с высокой «thumb effort» путают чаще.

Ссылка на статью на EMNLP-2025.

Investigating Dictionary Expansion for Video-based Sign Language Dictionaries

Авторы из Microsoft Research и University of Washington исследуют проблему расширения видеословарей жестового языка, используемых для обучения и распознавания жестов. Такие словари обычно ограничены по объёму, сложны в разметке и не охватывают всей лексики реального жестового языка, которым пользуются люди. Авторы предлагают новый метод автоматического добавления новых слов (жестов) в словарь, используя модели распознавания видео и текстовые-визуальные соответствия.

Видеословари изолированных жестовых языков состоят из коротких клипов 3-5 секунд, где один жест связан с определённым словом (глоссом) и вручную созданными аннотациями. Собрать крупный словарь сложно и дорого: каждая новая запись требует участия носителей языка и экспертов, которых достаточно сложно найти. 

Авторы хотят автоматически расширить словарь, не теряя его достоверность. Они рассматривают эту задачу как поиск ближайших соседей (retrieval) между жестами и их текстовыми описаниями. Предлагаемая система включает в себя три ключевых компонента:

  • видеоэнкодер, который извлекает признаки из жеста;

  • текстовый энкодер, кодирующий глосс или словесное описание;

  • механизм выравнивания (alignment), позволяющий сравнивать новые жесты с уже существующими словарными единицами.

Для обучения использовали контрастивное представление (по аналогии с CLIP): жесты и тексты, принадлежащие одному глоссу, сближаются в пространстве признаков, а разные — отдаляются. После обучения модель может добавлять новые записи в словарь (если находит кластер новых жестов, не соответствующих существующим), а также объединять дублирующие записи, если два видео фактически показывают один и тот же жест. Все эксперименты проводили на датасетах WLASL и How2Sign (английский и американский жестовые языки). Модель обучали на ограниченном подмножестве словаря и затем оценивали на новых глоссах, отсутствующих при обучении. Для оценки использовали точность поиска (метрика, которая оценивает, насколько хорошо система поиска находит релевантные сущности) и семантическое разнообразие (мера разнообразия по смыслу среди возвращаемых результатов) новых добавлений.

Результаты:

  • Модель успешно добавляет новые классы с точностью до 70–75 % корректных соответствий (по человеческим оценкам).

  • Использование мультимодальных представлений (видео+текст) даёт прирост точности до +12% по сравнению с чисто визуальной моделью.

  • Визуально близкие, но семантически разные жесты (например, help и support) всё ещё сложны для распознавания.

  • При добавлении новых классов важно учитывать динамику движения жеста, а не только визуальные признаки.

  • Человеческая проверка всё ещё нужна, но её объём можно сократить примерно вдвое.

Ссылка на статью на EMNLP-2025.

PoseStitch-SLT: Linguistically Inspired Pose-Stitching for End-to-End Sign Language Translation

Ещё одна работа из трека Main от авторов из индийского института IIT Kanpur. В работе предлагается новый способ массовой генерации синтетических данных для перевода жестового языка без глоссов и без видеозаписей. с помощью грамматических шаблонов и композиционного склеивания поз жестов в цельные предложения, и как результат — десятки миллионов новых примеров «позы → текст».

Авторы отмечают, что большинство существующих систем опираются либо на промежуточные глоссы (gloss annotations), либо на сырые видео, что усложняет обучение, особенно в сценариях с малым количеством данных. Чтобы преодолеть эту нехватку, они предложили метод PoseStitch‑SLT: схему предобучения на основе объединения (stitching) последовательностей поз (ключевые точки тела, рук и лица) в соответствии с лингвистическими шаблонами предложений. Исследователи взяли доступные словоформы к жестовым языкам (например, из всё тех же известных датасетов WLASL для американского ЖЯ и CISLR для индийского ЖЯ), затем взяли заранее заданные грамматические шаблоны (например, из набора BLiMP) и сшили кадры-позы для отдельных слов в «ролик»-последовательность, соответствующую целому предложению.

Далее использовали трансформер (encoder-decoder) для обучения на этих синтетических данных, а затем продолжили обучение на реальных парах из набора How2Sign и iSign. Такой подход позволяет модели сначала охватить разнообразие синтетических предложений, затем плавно адаптироваться к реальным данным. В результате на How2Sign BLEU-4 поднялся примерно с 1,97 до 4,56, а на iSign — с 0,55 до 3,43, что значительно лучше предыдущих методов. Но это всё ещё не пригодно для широкого применения.

Тем не менее авторы честно описывают ограничения: покрытие словаря ограничено (в синтетических данных лексическое пересечение невелико), для сшивания поз используется английский порядок слов, что может вообще не отражать грамматику жестового языка. В целом статья предлагает интересное направление, особенно актуальна для низкоресурсных жестовых языков и может ускорить развитие систем перевода жестов.

Ссылка на статью на EMNLP-2025.

Rethinking Sign Language Translation: The Impact of Signer Dependence on Model Evaluation

В этой статье рассматривается серьёзная проблема в области перевода жестового языка: зависимость моделей от конкретных исполнителей жестов (на англ. signers), то есть от пользователей, которые записывают датасет. Авторы отмечают, что большинство современных систем для перевода жестового языка обучаются и тестируются на перекрывающихся выборках испол­нителей, что создаёт иллюзию хорошей обобщающей способности. В действительности такие модели могут просто «запоминать» особенности конкретных исполнителей, а не учиться общим паттернам жестового языка. Если совсем утрированно, то модель запоминает фон или одежду пользователя, но не динамику движения жеста.

Для проверки этой гипотезы авторы провели серию экспериментов на трёх открытых бесглоссовых (gloss-free) моделях: GFSLT‑VLP, GASLT и SignCL. За основу взяли датасеты PHOENIX14T и CSL‑Daily. После разделения исполнителей на обучающую и тестовую выборку так, чтобы одни и те же люди не встречались в обоих наборах, производительность моделей резко снизилась. Казалось бы, очевидный факт, но во многих датасетах и бенчмарках этому вообще не уделяют внимание. Например, на PHOENIX14T модель GFSLT-VLP падает с BLEU-4 = 21,44 до 3,59 и с ROUGE-L = 42,49 до 11,89;

Авторы также обнаружили, что в наборе CSL-Daily распространена ситуация, когда одни и те же предложения выполняют разные исполнители, так как при сборе датасета использовали перекрытие больше одного. В итоге стандартные разбиения данных приводят к тому, что в train и test попадают одинаковые предложения, хоть и от разных пользователей.

Ссылка на статью на EMNLP-2025.

Выводы

Распознавание жестовых языков ещё далеко до идеала, и лучшие модели совершенно не пригодны по качеству для внедрения в готовые продукты. Кроме того, нужно тщательно подходить к инженерии данных, включая сбор, валидацию и разметку больших корпусов данных, и к созданию качественных бенчмарков, которые бы адекватно и полно оценивали существующие и новые модели. Остро стоит вопрос справедливой оплаты труда носителей жестовых языков, которые участвуют в создании данных и участвуют в исследованиях по созданию новых нейросетевых решений. Но расстраиваться не стоит, в самом ближайшем будущем нас ждут ИИ-переводчики с жестового языка и обратно (включая 3D-анимированных аватаров в режиме реального времени). А наша команда покажет на AIJ-2025 первый в мире работающий прототип реального переводчика с непрерывного РЖЯ на русский язык!

Комментарии (0)