В эпоху чат-ботов и голосовых помощников ИИ всё чаще становится собеседником человека. Но чтобы стать по-настоящему полезным в коммуникации, он должен не только понимать слова — но и улавливать эмоции, интонации, паузы и даже жесты. Именно это и пытается решить задача Emotion Recognition in Conversations (ERC).
В недавней работе “A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations” исследователи предложили архитектуру, которая объединяет мультимодальные сигналы (текст, аудио, видео) в единую модель, способную «читать между строк» в прямом смысле. Рассказываем, как это устроено и почему это важно.

Что такое ERC и зачем оно нужно
Emotion Recognition in Conversations (ERC) — это задача анализа диалогов с целью определения эмоционального состояния участников. В отличие от классификации эмоций в одиночных высказываниях, ERC даёт возможность учитывать следующие факторы:
Контекст диалога (предыдущие фразы и их эмоциональный фон);
Социальные роли участников (кто говорит, кто слушает, кто конфликтует);
Мультимодальные сигналы — голос, текст, мимика, жесты.
Для человека это интуитивно. Например, фраза «Да, всё нормально» может звучать совершенно по-разному в зависимости от интонации и невербальных сигналов. Большинство моделей игнорируют эти нюансы, анализируя только текст. В новой архитектуре это исправлено.
Существующие решения сталкивались с тремя ключевыми вызовами:
1. Ограниченная интеграция модальностей
Многие модели просто складывают признаки из разных источников (например, текстовые эмбеддинги и аудио-фичи), теряя нюансы взаимодействий. Такой подход аналогичен тому, как если бы вы читали книгу, слушали её озвучку и смотрели фильм по мотивам одновременно, но не пытаясь связать элементы между собой.
2. Статические веса модальностей
Вес каждой модальности (например, насколько важен голос по сравнению с текстом) часто задавался вручную или обучался на тренировочном наборе данных. Это не учитывает, что в разных ситуациях приоритеты меняются:
В шутке доминирует интонация,
В конфликте — лексика,
В смущении — невербальные сигналы (паузы, взгляды).
3. Недостаток обобщающей способности
Модели переобучались на конкретных датасетах (например, только на актерских диалогах), теряя эффективность в реальных сценариях, где эмоции выражены более сдержанно и не соответствуют театральным шаблонам.
Авторы SDT решили не просто объединить модальности, а создать систему, которая адаптивно реагирует на контекст и учится на собственных предсказаниях. Их подход можно сравнить с тем, как человек анализирует эмоции в разговоре: сначала он выделяет ключевые сигналы (например, слова, голос, жесты), затем оценивает их значимость в текущей ситуации, а потом «прокручивает» диалог в голове, чтобы уточнить свою интерпретацию.
Что предложили авторы SDT
Модель SDT (Self-Distilled Transformer) решает три задачи:
1. Интеграция модальностей через трансформеры
Модель использует два типа трансформеров:
Интра-модальные: анализируют зависимости внутри каждой модальности (например, как слова в предложении связаны друг с другом).
Интер-модальные: учатся находить связи между разными модальностями (как тон голоса коррелирует с текстом).
Пример: это похоже на то, как человек одновременно слушает слова, следит за интонацией и замечает, как собеседник нервно постукивает пальцами.
2. Гейтовая фузия (Gated Fusion)
Чтобы гибко учитывать значимость модальностей, используется иерархическая гейтовая система:
Первый уровень: взвешивание модальностей в рамках одной реплики;
Второй уровень: учёт временного контекста в диалоге.
Пример: если интонация явно саркастичная, модель снижает значимость аудио и усиливает анализ текста и контекста.
Как работает гейтовая фузия?
Гейт (gate) — это механизм, который вычисляет веса модальностей на основе текущего состояния модели. Формула:
σ — сигмоидная функция
W и b — обучаемые параметры
h_text, h_audio, h_video — эмбеддинги модальностей
Веса g затем используются для взвешивания вклада каждой модальности в финальный вектор.
3. Самообучение через дистилляцию (Self-Distillation)
Этот этап — ключ к обобщающей способности модели.
Модель обучается не только на «жёстких» метках (например, «гнев»), но и на «мягких» — вероятностях эмоций, предсказанных самой собой.
Это похоже на то, как студент, решая задачу, сначала делает черновик (мягкий ответ), а потом уточняет его (жёсткий ответ).
Результат: модель лучше справляется с неоднозначными случаями, где эмоция выражена слабо или противоречива.
Как работает дистилляция?
На первом этапе модель обучается на размеченных данных.
На втором этапе она предсказывает вероятности эмоций для тренировочного набора («мягкие» метки).
Затем модель дообучается на тех же данных, но с целевой функцией, которая штрафует за расхождение с «мягкими» метками.
Это снижает переобучение и улучшает обобщение.
Эти элементы в совокупности позволяют модели не просто «суммировать» данные, а строить сложные ассоциации между модальностями, адаптируясь к особенностям диалога.

Авторы проверили свою модель на двух популярных датасетах:
IEMOCAP: Разговоры актёров с размеченными эмоциями (гнев, радость, грусть и др.).
MELD: Диалоги из сериала Friends с шестью эмоциональными классами.
Детали экспериментов:
Метрики: точность (Accuracy) и F1-мера (особенно важна для несбалансированных выборок).
Базовые модели: для сравнения использовались SOTA-решения на момент публикации, включая MOSEUM и CMN.
Гиперпараметры: обучение проводилось с оптимизатором AdamW, скоростью обучения 3e-5, batch_size=16.
Результаты
Модель |
Accuracy (IEMOCAP) |
F1 (MELD) |
SOTA (prev) |
72.1% |
68.4% |
SDT (proposed) |
75.8% |
71.2% |
Рост на 3-4% может показаться небольшим, но в задачах распознавания эмоций это значительный шаг вперёд.
Ограничения и открытые вопросы
Вычислительная сложность: трансформеры требуют ресурсов. Авторы не уточнили, насколько модель масштабируема для реального времени.
Зависимость от качества данных: если в видео плохое освещение или в аудио шум, эффективность падает.
Культурные различия: модель обучалась на западных датасетах. Будет ли она работать с эмоциональными выражениями людей других культур?
Предложения для будущих исследований
Адаптация к другим языкам: проверка модели на китайском, японском или арабском корпусах.
Интеграция биометрии: добавление данных с носимых устройств (пульс, потоотделение) для повышения точности.
Уменьшение вычислительной нагрузки: использование методов вроде pruning или quantization для оптимизации модели под мобильные устройства.
Где это может применяться?
Виртуальные ассистенты: чат-боты, которые «чувствуют», когда пользователь раздражён.
Психотерапия: анализ эмоций пациентов в сессиях онлайн-терапии.
Маркетинг: оценка реакции аудитории на рекламу через видеозаписи.
Образование: обнаружение стресса у студентов во время онлайн-экзаменов.
Вывод. Шаг к эмпатичному ИИ
Статья демонстрирует, что мультимодальность — необходимость для создания «эмоционально умного» ИИ. Методы вроде гейтовой фузии и дистилляции открывают дорогу к моделям, которые не просто распознают эмоции, но понимают их контекст. Однако путь к настоящей эмпатии еще долгий: нужно решить проблемы масштабируемости, культурной адаптации и надежности в шумных условиях.
А пока остается один вопрос: если ИИ научится чувствовать эмоции, сможет ли он научить нас им?
Статью подготовил Быков Никита, магистрант AI Talent Hub.