Шутка шутке рознь. Чистый юмор держится на игре слов и безобидных несоответствиях, чёрный — на болезненных темах, культурных намёках и тонких контрастах между картинкой и подписью. В мемах это особенно заметно: изображение говорит одно, текст — другое, а смысл рождается на стыке. До недавнего времени не было хорошего мультимодального набора данных именно по чёрному юмору, и модели путались между иронией, сарказмом и откровенной агрессией. Команда D‑Humor закрывает пробел: они собрали датасет из мемов и предложили способ учить модели рассуждать — не просто смотреть и читать, а ещё и объяснять, что именно делает шутку тёмной.

Чистый юмор
Чистый юмор
Чёрный юмор
Чёрный юмор

Зачем всё это нужно

Понимание чёрного юмора — не про цензуру, а про контекст. Платформам важно отличать злонамеренную речь от юмористического, пусть и жёсткого, комментария. Исследователям — видеть, какие группы чаще становятся мишенью. Для создателей ИИ — проверять, где модель ошибается из‑за культурных различий или неоднозначных визуальных намёков.

Как собрали данные

Авторы собрали 4 397 мемов с Reddit, сохранив изображение и извлечённый OCR‑текст. Каждый мем размечался по трём осям:

  • есть ли чёрный юмор;

  • цель шутки: гендер/секс, психическое здоровье, насилие/смерть, раса/этничность, инвалидность, другое;

  • интенсивность: мягкая, умеренная, высокая.

Разметку делали три аннотатора с обучением и регулярными сверками. Баланс по чёрному/нечёрному юмору близок к равномерному. Чаще всего мишенью выступают гендер/секс и категория «другое», а по уровню интенсивности преобладают более мягкие случаи. Команда отдельно подчёркивает этическую сторону: данные чувствительны, доступ — по соглашению, без персональных данных.

⚠️ Осторожно: примеры из датасета могут содержать оскорбительный контент

Пример: чёрный юмор; цель — гендер/секс; высокая интенсивность
Пример: чёрный юмор; цель — гендер/секс; высокая интенсивность
Пример: чёрный юмор; цель — раса/этничность; высокая интенсивность
Пример: чёрный юмор; цель — раса/этничность; высокая интенсивность

Как работает предложенный подход

Ключевая идея — добавить к картинке и тексту ещё один слой: структурированное объяснение, которое модель формирует сама. Авторы берут VLM (Qwen‑2.5‑7B) и просят её кратко расписать мем по шести полям: что на нём происходит, где скрыт шутливый панч, как построен нарратив, какое вызывает чувство, какие тёмные признаки есть и кто потенциальная мишень. Затем запускают итеративное самоулучшение: модель “примеряет” роль автора мема, критикует собственное объяснение и уточняет его. В среднем хватает трёх итераций, чтобы объяснение стало более полным и связным.

Схема системы: изображение + OCR‑текст → объяснение → объединение в TCRNet для предсказаний
Схема системы: изображение + OCR‑текст → объяснение → объединение в TCRNet для предсказаний
Петля обратной связи с «сменой роли»: модель дописывает и исправляет собственное объяснение
Петля обратной связи с «сменой роли»: модель дописывает и исправляет собственное объяснение

Дальше — извлечение признаков. Текст из OCR прогоняют через BERT, объяснение — через S‑BERT, изображение — через ViT. На их стыке работает Tri‑stream Cross‑Reasoning Network (TCRNet): она сопоставляет попарно текст, картинку и объяснение, вылавливает несоответствия и склеивает общее представление. Именно эти несостыковки часто и рождают чёрный юмор, поэтому улавливать их критично.

Что показали эксперименты

Базовые языковые модели уже неплохи в распознавании чёрного юмора, но слабеют в определении цели и особенно интенсивности. Визуальные модели — ещё хуже. Zero‑shot VLM без дообучения тоже не справляются стабильно: им не хватает выравнивания между модальностями.

Когда к OCR‑тексту добавляют структурированные объяснения, результаты заметно растут: у DistilBERT Macro‑F1 по цели увеличивается примерно с 56% до 63%, а корреляция по интенсивности — с 26% до 33%. Лучшие показатели даёт TCRNet, который явно совмещает изображение, текст и рассуждение:

  • распознавание чёрного юмора: accuracy 75,0%;

  • предсказание цели: взвешенная F1 64,2%;

  • предсказание интенсивности: accuracy 62,7%, корреляция Пирсона 38,6%.

Абляция честно подтверждает важность объяснений: удалите канал рассуждения — и Macro‑F1 по цели падает с ~60,5% до ~35,1%, а взвешенная F1 по факту наличия чёрного юмора — с ~74,1% до ~67,3%.

Задача 1: есть ли чёрный юмор
Задача 1: есть ли чёрный юмор
Задача 2: чья/чего мишень шутки
Задача 2: чья/чего мишень шутки
Задача 3: насколько жёсткая шутка
Задача 3: насколько жёсткая шутка

Что это меняет

Научный вклад — в двух вещах. Во‑первых, сообщество получает открытый мультимодальный датасет, где чётко размечены не только факт чёрного юмора, но и его цель и уровень интенсивности. Во‑вторых, показано, что модели начинают лучше понимать тонкие мемы, когда их заставляют объяснять шутку и сопоставлять это объяснение с картинкой и текстом. Не просто «узнать паттерн», а собрать причинную картинку: кто шутит, над чем, за счёт какого контраста и почему это воспринимается как темно.

Где ограничения

Данные — с Reddit и на английском, поэтому перенос на другие платформы и культуры может быть неровным, а распределение по уровням интенсивности несбалансировано. И, конечно, любые модели на деликатные темы нуждаются в ответственных протоколах использования: от психологической безопасности аннотаторов до аккуратного доступа к данным.

Итог

D‑Humor предлагает реалистичный путь к пониманию чёрного юмора: добавить к мультимодальности явное рассуждение и научить модель выравнивать факты и интерпретации. Такой подход делает решения прозрачнее и полезнее — как для исследований, так и для прикладной модерации.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)