Привет, Хабр! Меня зовут Василий Коновалов, я работаю в команде «Вычислительная семантика» в AIRI. Наша команда сфокусирована на исследовании галлюцинаций и на решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними.
Но, возможно, мы не всегда должны делать это. Тем более, что научные работы показывают, что галлюцинации неизбежны [1]. Вместо этого мы извлекли из них пользу: мы применили галлюцинации больших мультимодальных моделей для детекции странных картинок — то есть картинок, противоречащих здравому смыслу.
Об этом мы вместе с коллегами из Сколтеха, MWS AI и МФТИ написали научную статью Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images, которую приняли на NAACL. Здесь я кратко расскажу, что именно мы сделали.
Введение
Когда мы видим необычное изображение, наш мозг автоматически улавливает странности в его элементах. Например, картинка Эйнштейна с телефоном может не сразу вызвать подозрения из‑за того, что объекты на ней кажутся нам обычными, но их сочетание заставит нас задуматься. Подобная реакция связана с глубокой когнитивной работой — мы не просто распознаем объекты, но и увязываем их с контекстом реального мира. И только благодаря этой связи мы улавливаем противоречия и приходим к выводу, что картинка противоречит здравому смыслу.


Пример Эйнштейна с телефоном относится к темпоральным (временны́м) противоречиям, но они бывают и другого типа. Например, картинка с горящей свечей в банке — странная, потому что она противоречит законам физики, ведь огонь не можем гореть без поступления кислорода.
Можно ли придумать способ, как научить компьютеры выявлять подобные противоречия? Мы утверждаем, что да, можно, причём для оценки реалистичности изображений мы предлагаем использовать галлюцинации больших мультимодальных моделей. Наши эксперименты показывают, что такие модели галлюцинируют при анализе изображений, которые не соответствуют реальности.
Обычно галлюцинации в больших моделях рассматриваются как негативное явление, так как они нарушают фактологическую точность — мы же используем их как сигналы о том, что изображение выглядит странно.
Наборы данных
Для наших экспериментов мы использовали уже ставший классическим датасет WHOOPS! [2]. WHOOPS! содержит 100 пар странных и нормальных картинок, которые были сгенерированы при помощи Midjourney, DALL‑E и Stable Diffusion, а также текстовые описания к ним. Поскольку датасет сбалансированный, то качество измеряется точностью (accuracy).
Люди легко справляются с тем, чтобы отличить странные картинки из WHOOPS! от нестранных — соответствующая точность достигает 92%. Однако лучшая модель из статьи, которая предполагает дообучение, дает лишь 73%, а значит здесь есть пространство для роста!
Для того чтобы валидировать полученные результаты на новых данных, да и в целом их нарастить, мы дополнительно синтезировали наш собственный датасет странных картинок — WEIRD (он открыт для всех желающих). Для этого мы использовали описания картинок из WHOOPS! для генерации новых подписей к картинкам с помощью GPT-4o. Сгенерировав подписи, мы использовали DALL‑E для генерации изображений для каждой подписи. Таким образом было сгенерировано более 400 пар картинок. Качество разметки человеком на нашем датасете WEIRD достигает точности 82.2%. Развернутая версия нашего синтетического датасета была интегрирована в мультимодальный бенчмарк MERA.
Идентификация странных картинок
Мы пробовали несколько подходов, но здесь я подробно опишу лишь один из них, на мой взгляд, самый интересный (остальные вы можете найти в нашей статье). Этот метод проверки соответствия картинок здравому смыслу состоит из трёх шагов:
Мы подаем картинку на вход большой мультимодальной модели и просим ее описать картинку пятью атомарными фактами.
Далее между каждой парой атомарных фактов мы вычисляем семантическое следование с помощью одной из NLI‑моделей.
Получив 25 NLI‑скоров с помощью нехитрой схемы агрегации, мы принимаем решение о том, противоречит ли картинка здравому смыслу или нет.
А теперь разберем каждый шаг подробнее.
Шаг 1. Генерация фактов о картинке
Мультимодальная модель, которая на вход принимает картинку и инструкцию "Provide a short, one‑sentence descriptive fact about this image", генерирует атомарный факт, описывающий картинку. В качестве мультимодальной модели мы пробовали много разных, однако, лучшее качество показала llava‑v1.6-mistral-7b. Для иллюстрации того, как это работает, приведу следующий пример:

На Рисунке 2 изображена пара картинок: слева — нормальная, справа — странная. Для нормальной картинки слева все сгенерированные атомарные факты корректны и консистентны. Для странной картинки справа LVLM путается и считает, что на картинке изображен то бульдозер, то желтый школьный автобус.
Это не удивительно. Скорее всего, модель обучалась на картинках, которые не противоречат здравому смыслу. Поэтому если подать странную картинку модели, та путается и начинает придумывать факты (то есть, галлюцинировать), и довольно часто эти факты противоречат друг другу — это и есть индикатор того, что изображение противоречит здравому смыслу.
Шаг 2. Попарное семантическое следование
При наличии набора сгенерированных атомарных фактов для странной картинки, некоторые из которых являются галлюцинациями, а другие — подлинными фактами, очевидно, возникнет противоречие между генерациями (бульдозер и школьный автобус). Такие противоречия можно отлавливать с помощью NLI‑моделей, где отношение между подлинными фактами приведёт к высокому скору семантического следования — entailment, в то время как связь между фактами и галлюцинациями даст высокий скор противоречия — contradiction.
В качестве NLI‑модели мы пробовали несколько вариаций nli‑deberta‑v3, наилучшее качество показала nli‑deberta‑v3-large. На Рисунке 3 показано семантическое следование четырех атомарных фактов из лишь одного атомарного факта для нормальной картинки. Зеленым выделены факты, которые следуют из исходного атомарного факта, красным — противоречат, без выделения — нейтральные. Для нормальной картинки большинство фактов следуют друг из друга или остаются нейтральными. Подобное семантическое следование мы вычисляем для всех пар атомарных фактов, таким образом мы получаем 25 оценок семантического следования.

На Рисунке 4 показан аналогичный результат работы модели семантического следования для странной картинки. И тут видно, что модель определила, что два факта противопоставлены исходному факту (бульдозер и желтый школьный автобус). Это именно тот результат, который нам нужен. Модель NLI успешно отделяет факты и галлюцинации, при этом она не маркирует, где именно факты, а где галлюцинации, но нам этого и не надо. Для решения задачи определения странных картинок нам главное понять, есть ли тут факты, которые противоречат друг другу.

Шаг 3. Схема агрегации
Сложность NLI‑подхода состоит в том, что после того, как мы для каждой пары атомарных фактов посчитали NLI‑скор, необходимо его как‑то агрегировать для всей картинки, чтобы установить ее странность. Подобрать рабочую схему агрегации оказалось непростой задачей.
С точки зрения модели семантического следования, странная картинка отличается от нормальной наличием атомарных фактов, которые противоречат друг другу. На рисунке 5 изображена тепловая карта попарного семантического следования атомарных фактов. Ненормализованные положительные оценки обозначают интенсивность семантического следования, отрицательные — противопоставления. При сравнении тепловых карт, становится очевидно, что в странной картинке много попарного противопоставления. Таким образом, разрабатывая схему агрегации для финальной оценки, необходимо учитывать количество и интенсивность противопоставлений. Для этого все оценки попарного семантического следования мы делим на два кластера (кластер следования и кластер противоречия), и в качестве финального скора мы берём центроид кластера противоречия.

Результаты
Мы сравнили наш подход с zero‑shot‑подходами на основе различных LVLM, когда на вход модели подаем картинки и промпт <image> Is this unusual? Please explain briefly with a short sentence [3]. Мы использовали базовые решения из статьи про WHOOPS!. Поскольку датасет сбалансирован, в качестве метрики качества использовалась точность.
Модель |
Размер |
Точность |
BLIP2 FlanT5-XXL |
12.4B |
50.00 |
LLaVA 1.6 Mistral 7B |
7.57B |
52.45 |
LLaVA 1.6 Vicuna 13B |
13.4B |
56.37 |
InstructBLIP |
7B |
61.27 |
InstructBLIP |
13B |
62.25 |
Наш метод |
7.9B |
72.55 |
Как видно из таблицы, наш подход превосходит все zero‑shot‑подходы. В статье мы проскорили и обучаемые методы, не все из них превзошли наш простой метод.
Заключение
Итак, какой основной посыл этой статьи? На самом деле их два.
Первый — иногда сложность решения одной и той же проблемы в разных модальностях сильно разнится. В этом посте я показал, что решить проблему детекции странных картинок в текстовой модальности сильно проще, чем в картиночной модальности.
Второй (и более важный) посыл заключается в том, что галлюцинации — это не всегда плохо, их можно применять для решения прикладных задач. В этой статье я описал, как мы можем использовать галлюцинации для распознавания картинок, которые противоречат здравому смыслу. Описанный метод использует недостаток LVLM, которые галлюцинируют при использовании нереалистичных или странных изображений.
Как еще можно использовать галлюцинации? В недавней работе Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge [4], принятой на ACL-2025, выдуманные знания (галлюцинации) использовались для решения проблемы data watermarking, когда необходимо определить, использовался ли текст при обучении LLM. Оказывается, интеграция в текст выдуманных фактов устойчива к последующим дообучениям LLM и может быть легко выявлена на задаче QA. Таким образом, можно утверждать, что формируется некоторый тренд на использование галлюцинаций для решения прикладных задач.
Если у вас есть идеи, как еще можно использовать галлюцинации — пишите в комментариях.
Благодарности
Я бы хотел поблагодарить команду, которая принимала участие в этой работе, а именно — Елисея Рыкова (Сколтех), Ксению Петрушину (Сколтех, МФТИ), Ксению Титову (Сколтех, MWS AI), Антона Разжигаева (AIRI) и Александра Панченко (Сколтех, AIRI).
Отдельно благодарю Марата Хамадеева за помощь в создании данного материала.
Про другие наши исследования вы можете прочитать в наших Telegram-каналах — Машин лернинг и Рандомные галлюцинации.
Список литературы
[1] Xu, Ziwei, Sanjay Jain, and Mohan Kankanhalli. "Hallucination is inevitable: An innate limitation of large language models." arXiv preprint arXiv:2401.11817 (2024).
[2] Bitton-Guetta, Nitzan, et al. "Breaking common sense: Whoops! a vision-and-language benchmark of synthetic and compositional images." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[3] Liu, Haotian, et al. "Improved baselines with visual instruction tuning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[4] Cui, Xinyue, et al. “Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge.” Findings of the Association for Computational Linguistics: ACL 2025.
[5] Safari, Pooyan, Miquel India, and Javier Hernando. "Self-attention encoding and pooling for speaker recognition." arXiv preprint arXiv:2008.01077 (2020).
[6] Sileo, Damien. "tasksource: A Dataset Harmonization Framework for Streamlined NLP Multi-Task Learning and Evaluation." arXiv preprint arXiv:2301.05948 (2023).