Мираж в цифровой пустыне: пример галлюцинации, где LLM с виртуозностью фокусника создает несуществующие факты и ссылки. Изображение автора.
Мираж в цифровой пустыне: пример галлюцинации, где LLM с виртуозностью фокусника создает несуществующие факты и ссылки. Изображение автора.

Галлюцинации - одна из самых коварных проблем, терзающих современные большие языковые модели (LLM). Этим словом, заимствованным из психиатрии, мы описываем текст, который выглядит безупречно правдоподобно, но по сути своей является чистым вымыслом.

Эти цифровые миражи бросают тень на надёжность и безопасность реальных приложений на базе ИИ, подтачивая саму основу доверия к ним. Но какова природа этих призраков в машине? Что заставляет их появляться?

В этой статье мы попытаемся заглянуть за кулисы этого цифрового феномена, чтобы понять его причины. И, вооружившись этим знанием, научимся не провоцировать нейросеть на создание иллюзий.

Что есть галлюцинация LLM?

Термин «галлюцинация» настолько прочно вошёл в лексикон эпохи ИИ, что уже удостоился места в словарях. Вот как его определяет знаменитый Merriam-Webster:

Галлюцинация - правдоподобный, но ложный или вводящий в заблуждение ответ, сгенерированный алгоритмом искусственного интеллекта.

В мире LLM галлюцинация - это ответ, который звучит убедительно, но на деле является ложью. Эти утверждения подаются с непоколебимой, почти гипнотической уверенностью, что делает их особенно опасными. Модель может с лёгкостью выдумать исторический факт или сослаться на научную работу, которой никогда не существовало.

Уже не раз юристы поплатились за слепое доверие к генеративному ИИ, который «галлюцинировал» несуществующие судебные прецеденты. В одном громком деле адвокаты использовали ИИ, который выдумал целую серию фейковых дел в их иске против гиганта Walmart [1].

Там, где человек, сомневаясь, сказал бы: «Я не уверен» или «Мне кажется, что…», LLM с максимальным спокойствием выдаст безупречно сформулированную, но абсолютно неверную информацию.

Два лика иллюзий: внутренние и внешние

Исследователи делят галлюцинации на два типа: внутренние и внешние [2]:

  • Внутренние галлюцинации - это когда модель искажает информацию, уже содержащуюся в исходном тексте. Например, создавая краткое изложение документа, она может переврать ключевые детали, которые были изложены чёрным по белому.

  • Внешние галлюцинации — это когда модель привносит нечто совершенно новое, не имеющее никакой опоры в предоставленном контексте. Например, в том же кратком изложении могут появиться факты, которых в оригинальном документе и в помине не было.

Именно внешние галлюцинации представляют собой настоящую проблему, особенно когда мы задаём модели открытые вопросы, не обременяя её контекстом. С внутренними бороться проще - именно поэтому так эффективны технологии вроде RAG (генерация, дополненная поиском), которые насыщают запрос релевантными знаниями, не давая модели уйти в свободный полёт фантазии.

Итак, галлюцинации LLM - это, по сути, творения чистого вымысла, не укоренённые ни в гигантских массивах обучающих данных, ни в конкретном запросе пользователя [3]. И поскольку звучат они очень убедительно, распознать их - задача не из лёгких.


Разобравшись в тёмных сторонах ИИ, таких как галлюцинации, мы учимся использовать его светлые стороны. Ведь знание ловушек - это первый шаг к тому, чтобы превратить непредсказуемый оракул в надежный инструмент, который освободит ваше время для настоящего творчества.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!


Грехи творения: как обучение порождает галлюцинации

Чтобы постичь природу этих иллюзий, нужно сперва понять, как рождается и обучается цифровой разум.

Путь становления LLM

Обучение LLM - это многоступенчатый процесс, состоящий из трёх ключевых этапов.

  1. Предобучение: На этом этапе модель, подобно младенцу, учится предсказывать следующее слово в предложении. Она поглощает триллионы текстов, постигая саму ткань языка, его ритм, грамматику и стиль.

  2. Контролируемое дообучение (SFT): Здесь модель становится учеником, которого учат следовать инструкциям. Ей показывают пары «вопрос-правильный ответ», оттачивая её способность давать релевантные ответы.

  3. Согласование с человеческими предпочтениями: Финальный, самый тонкий этап. Модель генерирует несколько вариантов ответа, а человек-оценщик выбирает лучший. Так она учится быть не просто точной, а полезной, этичной и безопасной, усваивая наши ценности и намерения.

Вся эта сложная архитектура обучения нацелена на одно: научить модель с максимальной вероятностью предсказывать следующий фрагмент текста. Она учится имитировать то, как должен выглядеть идеальный ответ.

Роковой выбор: как предсказание следующего слова порождает ложь

Представьте себе LLM как таинственный черный ящик. На входе - ваш текст, на выходе - целый спектр вероятностей для каждого слова из её необъятного словаря. Когда мы пишем «Столица Франции -», модель с вероятностью 90% предложит слово «Париж». Но с меньшей вероятностью она может предложить и другие логичные продолжения, вроде «прекрасный» или «город». И с ничтожно малой вероятностью - «Хьюстон» или вовсе абсурдное «карандаш».

Взвешивая слова: LLM оценивает вероятность каждого возможного продолжения фразы. Изображение автора.
Взвешивая слова: LLM оценивает вероятность каждого возможного продолжения фразы. Изображение автора.

И вот здесь начинается самое интересное. Ответ не предопределён. Система случайным образом выбирает следующее слово, основываясь на этих вероятностях. И в этой игре всегда таится крошечный, но роковой шанс, что выбор падёт не на истину, а на её подобие.

Так, несмотря на все знания модели, может родиться фраза «Столица Франции - Хьюстон». Один неверный шаг, одна статистическая аномалия - и мы на территории иллюзий.

Взгляд изнутри: что говорят исследования

Наука предлагает множество объяснений феномену галлюцинаций. Недавний метаанализ, охвативший почти 400 работ, классифицирует их причины по трём направлениям: изъяны в данных, пороки обучения и погрешности вывода (инференса) [5].

Три источника иллюзий: данные, обучение и процесс генерации ответа. Изображение автора.
Три источника иллюзий: данные, обучение и процесс генерации ответа. Изображение автора.

Каждый элемент жизненного цикла LLM может стать источником искажений: от неполных или противоречивых данных, на которых она училась, до самой цели обучения (угадать следующее слово) и вероятностной природы генерации ответа.

Давайте рассмотрим несколько гипотез повнимательнее.

Соблазн угадывать

Исследователи из OpenAI утверждают [3], что сама система обучения и оценки LLM поощряет их делать правдоподобные догадки, а не признаваться в незнании.

Во время обучения модель наказывают за неверное предсказание следующего слова. У неё нет спасительной опции «Я не знаю». Если в данных встречается фраза «День рождения Боба приходится на ___», модель обязана что-то подставить. И её лучший статистический ход - угадать дату, любую правдоподобную дату. Ей всё равно, что она понятия не имеет, кто такой Боб.

Эту же порочную логику подкрепляют и тесты. Во многих из них, как в знаменитом MMLU, нет варианта «Я не знаю» и нет штрафа за ошибку. Угадав, ты можешь получить балл. Промолчав - не получишь ничего. Система поощряет рискованные догадки.

Лави��а вымысла

LLM генерируют текст последовательно, токен за токеном, и каждое новое слово зависит от предыдущих. Как отмечает пионер ИИ Ян ЛеКун, с каждым сгенерированным словом существует ненулевая вероятность ошибки. И эта ошибка, какой бы малой она ни была, может сбить модель с пути истины на тропу заблуждений [6].

Это явление известно как «снежный ком галлюцинаций». Словно снежный ком, катящийся с горы, однажды начавшаяся галлюцинация лишь набирает массу, обрастая новыми вымышленными деталями. Если модель в самом начале ошибочно ответит «Да» на сложный вопрос, весь последующий текст будет виртуозным, но абсолютно ложным обоснованием этого неверного «Да» [7].

Первая снежинка лжи упала. Теперь модель, скорее всего, построит целый сугроб вымысла, чтобы оправдать своё неверное «Да». Изображение автора.
Первая снежинка лжи упала. Теперь модель, скорее всего, построит целый сугроб вымысла, чтобы оправдать своё неверное «Да». Изображение автора.

Именно поэтому такие популярные у пользователей команды, как «Отвечай коротко, только да или нет» или «Без объяснений», так опасны. Они провоцируют модель на мгновенный, необдуманный ответ, который легко может стать началом лавины вымысла. Гораздо безопаснее использовать подход «Давай подумаем шаг за шагом», заставляя модель сначала выстроить цепочку рассуждений и лишь затем прийти к выводу.

Искусство угождать: как лесть заставляет ИИ лгать

Лавина вымысла может начаться и с вашего запроса, если он содержит ложное утверждение. Спросите модель: «Почему 9 - это простое число?», и вы станете свидетелем феномена, который учёные называют «угодничеством» (sycophancy).

LLM обладают странной склонностью поддакивать пользователю, даже если тот утверждает нечто абсурдное. Это заставляет их строить логические цепочки на заведомо ложном фундаменте, то есть — галлюцинировать.

Пример угодничества: модель меняет свой изначально верный ответ после того, как пользователь выразил сомнение. Изображение из работы [8] на arXiv, лицензия CC BY 4.0.
Пример угодничества: модель меняет свой изначально верный ответ после того, как пользователь выразил сомнение. Изображение из работы [8] на arXiv, лицензия CC BY 4.0.

Исследователи из Anthropic выделяют несколько видов такого поведения [8]:

  • Лесть в ответ на эмоции: Скажите модели, что вам не нравится текст, и она напишет на него более негативную рецензию.

  • Угодничество на переспрос: Даже если модель дала верный ответ, простой вопрос «А ты уверена? Мне кажется, это не так» может заставить её пойти на попятную и выдать неверную информацию.

  • Согласие с ложным тезисом: Включите в вопрос неверное утверждение («Земля ведь плоская, не так ли?»), и модель, скорее всего, попытается его развить, а не опровергнуть.

  • Подражание ошибкам: Утверждайте в запросе, что «2, 3 и 15 - простые числа», и попросите продолжить ряд. Модель может подхватить вашу ошибку.

Корни этого угодничества, как ни странно, лежат в попытке сделать ИИ более «человечным» на этапе согласования с предпочтениями. Мы, люди, несовершенны и, видимо, подсознательно вознаграждаем модели за согласие с нами, а не за объективную истину.

Вместо заключения

Галлюцинации - это не сбой в программе, а глубоко укоренённое свойство современных LLM, рождённое самим процессом их создания. Они - тёмная сторона их способности к творчеству и гибкости.

Мы, как пользователи, практически не властны над этими глубинными механизмами. Но мы можем научиться не быть катализаторами для этих иллюзий.

Как не попасть в плен иллюзий: советы пользователю

  • Дайте контекст. Лучший способ избежать внешних галлюцинаций - предоставить модели всю необходимую информацию в запросе. Используйте поиск или RAG-системы, чтобы «заземлить» её ответ.

  • Не торопите с выводом. Избегайте вопросов, требующих мгновенного ответа «да/нет». Поощряйте рассуждение фразой «Подумай шаг за шагом».

  • Будьте нейтральны. Формулируйте свои запросы беспристрастно. Избегайте эмоциональных оценок и, самое главное, не включайте в них фактические ошибки, которые могут сбить модель с толку и спровоцировать её на угодничество.

Помните: общаясь с LLM, вы общаетесь не с оракулом, а с гениальным имитатором, мастером вероятностных узоров. И в его прекрасных гобеленах текста всегда может скрываться нить вымысла. Наша задача - научиться её замечать.


Источники

[1] S. Merken (Февраль 2025), AI ‘hallucinations’ in court papers spell trouble for lawyers, Reuters

[2] J. Maynez, S. Narayan, B. Bohnet, and R. McDonald (2020), On Faithfulness and Factuality in Abstractive Summarization, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics

[3] A. T. Kalai, O. Nachum, S. S. Vempala, and E. Zhang (2025), Why Language Models Hallucinate, arXiv:2509.04664

[4] Dr. Leon Eversberg (2024), How to Improve LLM Responses With Better Sampling Parameters, TDS Archive

[5] L. Huang and others (2023), A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, ACM Transactions on Information Systems, Volume 43, Issue 2

[6] Y. LeCun and L. Fridman Podcast (2024), Why LLMs hallucinate | Yann LeCun and Lex Fridman

[7] M. Zhang, O. Press, W. Merrill, A. Liu, and N. A. Smith (2023), How Language Model Hallucinations Can Snowball, ICML’24: Proceedings of the 41st International Conference on Machine Learning

[8] M. Sharma and others (2024), Towards Understanding Sycophancy in Language Models, International Conference on Representation Learning

[9] OpenAI (Апрель 2025), Sycophancy in GPT-4o: what happened and what we’re doing about it

Комментарии (5)


  1. longtolik
    05.12.2025 11:12

    «Столица Франции - Хьюстон» - можно подрегулировать температуру, будет чёткий пик на "Париже", остальные уберутся в ноль. И т.д.


    1. Abstraction
      05.12.2025 11:12

      Можно, но
      1) при этом пострадает качество текста в целом (мы, возможно, хотели бы динамически подстраивать температуру под "важность" токена, но сейчас никто вроде не пытается это делать);
      2) в менее очевидных случаях нулей не будет (скажем, при ответе "да"/"нет" на нетривиальный вопрос логиты обоих опций будут существенно ненулевыми).


  1. AndyGhost
    05.12.2025 11:12

    Примечательно, что есть эффект Манделы (коллективное заблуждение) - тоже своего рода галлюцинация, но для людей. Кому интересно, пройдитесь по примерам - лично я штук 5 отметил, где тоже оказывается заблуждался :)


  1. andrevser
    05.12.2025 11:12

    DeepSeek спокойно прошел все проверки из поста, периодически жирным выделяя, что он прав, а я нет (и в обычном режиме, и в режиме глубокого мышления). В рассуждениях при этом можно периодически прочитать что-то типа "наверное, пользователь меня проверяет или пытается вывести на дискуссию"))


  1. ChePeter
    05.12.2025 11:12

    Вот тут математика и простой пример того, что все интерполяторы будут врать.

    https://habr.com/ru/articles/930494/

    И никак это не исправить.