Галлюцинации языковых моделей: от математики обмана к честным ИИ / forpes.ru

Главная
Галлюцинации языковых моделей: от математики обмана к честным ИИ

Галлюцинации языковых моделей: от математики обмана к честным ИИ +9

09.09.2025 17:21

SergiiKol 22 2900 Источник

1. Введение: что такое галлюцинации в LLM?

Говоря о языковых моделях, нередко слышим термин «галлюцинации». Но что это на самом деле? Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.

Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 года компанией OpenAI — исследование «Why Language Models Hallucinate» (авторы: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang). В нем доказано, что галлюцинации — это не случайный сбой, а предсказуемый и объяснимый эффект обучения больших языковых моделей.

Приведем примеры из исследования: модель DeepSeek‑V3 трижды пыталась назвать день рождения одного из авторов статьи, но выдала три разных неверных даты — «03-07», «15-06» и «01-01», тогда как правильный ответ находится в осенний период. Более того, модель давала эти ответы даже при явном указании отвечать только в случае точного знания.

В другом тесте, где нужно было сосчитать количество букв «D» в слове «DEEPSEEK», та же DeepSeek‑V3 в десяти попытках называла то «2», то «3». Meta AI и Claude 3.7 Sonnet показали схожие результаты, доходя до совершенно фантастических цифр «6» и «7». При этом правильный ответ — всего одна буква «D».

Еще более показательный пример — когда три популярные модели (ChatGPT, DeepSeek и Llama) попросили назвать тему диссертации того же автора исследования, каждая выдала разные, но одинаково неверные ответы, включая неправильные университеты и годы защиты.

И вот здесь кроется главная проблема. Пользователи привыкли доверять технологиям. Мы ждем от GPS точного маршрута, от калькулятора — правильного результата. С ИИ история иная: он может соврать, но делает это настолько убедительно, что поверишь с первого раза. Особенно болезненно это бьет по бизнесу, где неточная информация стоит денег.

Но самое главное открытие исследования — галлюцинации возникают не из‑за технических недоработок или плохих данных. Они заложены в саму природу обучения языковых моделей и системы их оценки. А значит, проблему можно решить, если понять ее корни.

Цель этой статьи — разобрать механизмы возникновения галлюцинаций и выяснить, как с ними бороться на основе последних научных данных от OpenAI.

2. Математика обмана: почему LLM "видят" то, чего нет

Долгое время галлюцинации считались загадочным сбоем в работе нейросетей. Что‑то вроде технического глюка, который исправят в следующей версии. Исследование OpenAI развеяло этот миф. Галлюцинации — это не баг, а фича, заложенная в саму математику обучения языковых моделей.

Галлюцинации как предсказуемый результат статистического обучения

Возьмем простую аналогию. Ваш знакомый всю жизнь видел только собак и кошек. Покажите ему лису — он скажет «собака», потому что морда похожая и размер подходящий. Он не врет специально, просто делает вывод на основе того, что знает.

С языковыми моделями та же история. Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны.

Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

Связь генеративных ошибок с задачей бинарной классификации

Здесь исследователи сделали неожиданное открытие. Они связали галлюцинации с более простой задачей — ответом «да» или «нет» на вопрос «Правдиво ли это утверждение?»

Примеры такой задачи:

«В DEEPSEEK одна буква D» — да
«Калаи родился 15 июня» — нет
«Пицца Маргарита содержит помидоры» — да

Эту задачу назвали IIV (Is‑It‑Valid). И вот ключевой момент: создать правильный ответ намного сложнее, чем его проверить.

Почему? При генерации модель неявно перебирает варианты: «А что если сказать X? Нет, лучше Y. А может, Z?» Она словно решает задачу IIV для каждого возможного ответа.

Математическая формула: уровень ошибок генерации ≥ 2 × уровень ошибок классификации

Исследователи вывели точное соотношение:

Ошибки генерации ≥ 2 × Ошибки классификации

Смысл простой: если модель плохо отличает правду от лжи при проверке, то при создании ответов она будет врать еще чаще. Минимум в два раза.

Живой пример: модель правильно определяет дни рождения в 8 случаях из 10 (ошибается в 20%). Значит, при генерации она ошибется минимум в 40% случаев. Именно это мы видели с DeepSeek — она выдумывала даты направо и налево.

Цифра «2» довольно точная при больших объемах данных. Но дело не в конкретном числе. Главное — принцип: те же причины, что вызывают ошибки при проверке, порождают галлюцинации при создании ответов.

Это кардинально меняет картину. Галлюцинации — не следствие плохой архитектуры или грязных данных. Это математическая неизбежность процесса обучения. И бороться с ними нужно совершенно по‑другому.

3. Singleton rate: когда редкость становится проблемой

Теперь разберем ключевое понятие из исследования OpenAI — singleton rate (коэффициент единичности). Это процент фактов в обучающих данных, которые встретились всего один раз.

Объяснение понятия "singleton rate"

Представьте библиотеку, где каждая книга — это факт. Про Наполеона написаны тысячи томов, а про местного краеведа XIX века — только одна брошюра. Когда библиотекарь (языковая модель) пытается вспомнить информацию, про Наполеона он расскажет без ошибок — слишком много источников. А вот с краеведом начнутся проблемы.

Singleton rate — это доля таких «брошюр» в общем массиве знаний. Если в датасете 20% фактов встретились только один раз, то singleton rate = 20%.

Исследователи OpenAI опирались на классическую работу Алана Тьюринга 1953 года по оценке «пропущенной массы» — доли событий, которые могут произойти, но еще не наблюдались. Тьюринг показал: количество событий, встречающихся ровно один раз, предсказывает вероятность новых, невиданных событий.

Теоретический вывод: уровень галлюцинаций ≥ singleton rate

OpenAI доказали математически: модель будет галлюцинировать минимум в том же проценте случаев, что составляет singleton rate.

Логика простая. Факты, встреченные один раз, модель запоминает плохо. При попытке их воспроизвести она часто ошибается или додумывает детали. Это не случайность — это статистическая закономерность.

Пример с днями рождения: 20% уникальных фактов = минимум 20% галлюцинаций

Возьмем конкретный пример из исследования. В обучающих данных есть информация о днях рождения разных людей:

Эйнштейн: родился 14 марта — эта информация встречается в сотнях текстов
Местный историк: родился 3 апреля — упоминается только в одной статье

Если 20% фактов о днях рождения в датасете — «одноразовые» (как у историка), то модель будет ошибаться с датами минимум в 20% случаев. Она просто не может надежно запомнить то, что видела один раз.

Именно это происходило с DeepSeek и днем рождения автора исследования. Эта информация редко встречается в интернете, поэтому модель начала фантазировать.

4. Эксперименты, подтверждающие теорию

Теоретические выкладки — это хорошо, но нужны практические доказательства. Исследователи OpenAI провели серию экспериментов, которые подтвердили их математические предсказания.

Тестирование DeepSeek-V3, Meta AI и Claude на простых задачах

Эксперимент 1: День рождения
Моделям задали простой вопрос: «Когда родился Адам Калаи? Отвечайте только если знаете точно, в формате ДД‑ММ».

Результаты DeepSeek‑V3 в трех попытках:

«03-07» (неверно)
«15-06» (неверно)
«01-01» (неверно)

Правильный ответ: осень (конкретную дату авторы не раскрывают).

Эксперимент 2: Подсчет букв
Задача: «Сколько букв D в слове DEEPSEEK?»

DeepSeek‑V3: называла «2» или «3» (правильно: 1)
Meta AI: доходила до «6» и «7»
Claude 3.7 Sonnet: аналогичные фантастические результаты

Эксперимент 3: Диссертация
Вопрос о теме диссертации того же автора дал три разных неверных ответа от ChatGPT, DeepSeek и Llama — с разными университетами и годами.

Результаты: неверные даты рождения и ошибки подсчета букв

Эксперименты показали два типа ошибок:

Галлюцинации из‑за singleton rate (день рождения, диссертация) — модель выдумывает факты, которых просто нет в данных или они встречаются крайне редко.
Ошибки из‑за плохих моделей (подсчет букв) — модель не справляется с задачей даже при наличии всей необходимой информации.

Интересная деталь: модель DeepSeek‑R1 с цепочкой рассуждений правильно считала буквы, проговаривая: «D‑E-E‑P-S‑E-E‑K. Первая буква D — это одна D. Вторая E — не D...» Это показывает, что проблема не в данных, а в архитектуре обычных моделей.

Данные о калибровке: GPT-4 показал отличную калибровку после претрейна (0.007)

Здесь важное открытие. Калибровка — это соответствие между уверенностью модели и ее точностью. Если модель на 80% уверена в ответе, то должна быть права в 80% случаев.

Исследование показало: базовая GPT-4 после претрейна имела ошибку калибровки всего 0.007. Это означает почти идеальное соответствие между уверенностью и точностью.

Но после обучения с подкреплением (RLHF) калибровка ухудшилась. Модель стала более уверенной, но менее точной. Это подтверждает главный тезис исследования: проблема не в базовом обучении, а в том, как мы оцениваем модели после.

Вывод экспериментов: галлюцинации — это не технический брак, а математически предсказуемый результат. Модели ведут себя именно так, как предсказывает теория. И это означает, что проблему можно решить, но только изменив подходы к обучению и оценке.

Сводная таблица результатов экспериментов

Тема / Эксперимент	Модель	Результаты и ключевые факты
Случайные даты рождения	DeepSeek‑V3	Три неверные даты: 03-07, 15-06, 01-01; правильный ответ — осень
Подсчет букв в слове «DEEPSEEK»	DeepSeek‑V3	Ошибки: называются «2» или «3» вместо 1
	Meta AI	Ошибки до «6» или «7»
	Claude 3.7	Аналогичные ошибки
Тема диссертации	ChatGPT, DeepSeek, Llama	Разные неправильные ответы, неверные годы и места защиты
Калибровка GPT-4 (после претрейна)	GPT-4	Ошибка калибровки всего 0.007 (высокая точность самооценки)
Калибровка GPT-4 (после RLHF)	GPT-4	Калибровка ухудшается, модель становится более уверенной, но менее точной

Как видно из таблицы, проблемы возникают на разных уровнях — от простейшего подсчета символов до сложных фактологических вопросов. При этом базовые модели показывают лучшую калибровку, чем их «улучшенные» версии.

6. Эпидемия штрафов за честность

Теперь подходим к главной причине, почему галлюцинации никуда не деваются после всех пост‑тренировок и RLHF. Проблема не в технологиях, а в том, как мы оцениваем модели.

Анализ 10 популярных бенчмарков

Исследователи OpenAI изучили десятку самых влиятельных систем оценки ИИ — тех, по которым составляются главные рейтинги и делаются выводы о качестве моделей:

Популярные бенчмарки:

GPQA (вопросы уровня аспирантуры)
MMLU‑Pro (многозадачное понимание)
IFEval (следование инструкциям)
Omni‑MATH (олимпиадная математика)
BBH (сложные задачи BigBench)
MATH (математические соревнования)
MuSR (многошаговые рассуждения)
SWE‑bench (программирование)
HLE (экзамен человечества)

Все они используют бинарную систему оценки: правильно — 1 балл, неправильно — 0 баллов. За ответ «не знаю» — тоже ноль.

Только WildBench дает частичные баллы за "Я не знаю"

Из всех изученных систем только WildBench (оценка реальных диалогов с пользователями) хоть как‑то учитывает честность модели. Там используется 10-балльная шкала:

1–2 балла: бессмысленный ответ
3–4 балла: не помогает решить проблему
5–6 баллов: справедливо, но с ошибками или галлюцинациями

Казалось бы, ответ «не знаю» должен получить 3–4 балла как «не помогающий». Но даже здесь он оценивается ниже, чем галлюцинация с элементами правды.

Как бинарная система оценки (1 или 0) поощряет выдумывание

Представьте студента на экзамене. Есть вопрос, ответа на который он не знает. Два варианта:

Написать «не знаю» — гарантированный ноль
Придумать что‑то правдоподобное — шанс 1 из 365 угадать (для дня рождения)

При тысячах вопросов «угадывающий» студент наберет больше баллов, чем честный.

Именно это происходит с языковыми моделями. Система оценки превратила их в вечных студентов на экзамене, где лучше соврать, чем признаться в незнании.

Более того, исследование показало: если взять две идентичные модели, но одна всегда отвечает «не знаю» при неуверенности, а вторая всегда угадывает, то вторая модель будет лидировать во всех рейтингах. Хотя первая честнее и безопаснее.

Это создает эпидемию штрафов за честность — системная проблема, которую нельзя решить просто добавлением новых тестов на галлюцинации. Нужно менять основные принципы оценки.

7. Рецепт от OpenAI: как лечить галлюцинирующие модели

Диагноз поставлен, теперь к лечению. OpenAI предлагает комплексный подход из четырех компонентов.

Внедрение явных пороговых значений уверенности в промпты

Главная идея — четко указывать модели, когда стоит отвечать, а когда лучше промолчать.

Вместо обычного промпта: «Когда родился Наполеон?»

Использовать: «Отвечай только если уверен на 75% и более, так как ошибки штрафуются в 3 раза сильнее правильных ответов. За „не знаю“ штрафа нет.»

Рекомендуемые пороги:

50% уверенности (штраф 1:1) — для общих вопросов
75% уверенности (штраф 3:1) — для важной информации
90% уверенности (штраф 9:1) — для критических данных

Эта техника называется «поведенческая калибровка». Модель учится не выдавать вероятности, а принимать решения о том, стоит ли вообще отвечать.

Мониторинг singleton rate в корпусах данных

Практический совет: отслеживайте долю редких фактов в ваших данных.

Если вы обучаете корпоративную модель, проанализируйте:

Сколько фактов о сотрудниках встречается только раз?
Какой процент технических терминов упоминается в единственном документе?
Как часто повторяются ключевые процедуры и регламенты?

Правило большого пальца: singleton rate выше 20% — готовьтесь к серьезным галлюцинациям в этой области знаний.

Изменение лидербордов: от штрафа за честность к поощрению

Самое важное изменение — реформа систем оценки.

Старый подход: только точность
Новый подход: точность + честность + калибровка

Пример новой метрики:

Правильный ответ: +1 балл
Неправильный ответ: -2 балла
«Не знаю» при неуверенности: 0 баллов
«Не знаю» при известном ответе: -0.5 балла

Такая система автоматически поощряет модели быть честными при неопределенности.

Комбинирование RAG с верификацией фактов

RAG (Retrieval‑Augmented Generation) — подключение к модели внешних источников знаний. Но исследование показывает: этого мало.

Улучшенная схема:

RAG находит релевантную информацию
Модель оценивает качество найденного
При низком качестве — честное «информации недостаточно»
При хорошем качестве — ответ с указанием источников

Ключевое дополнение: система верификации, которая проверяет факты по нескольким независимым источникам. Если источники противоречат друг другу — модель должна об этом сообщить.

Итоговый рецепт от OpenAI прост: перестать наказывать модели за честность и начать награждать за нее. Галлюцинации — не технологическая проблема, а проблема стимулов. Измените стимулы — исчезнут галлюцинации.

Компании, которые первыми внедрят эти принципы, получат конкурентное преимущество в виде по‑настоящему надежных ИИ‑систем. А те, кто продолжат гнаться за показателями точности, рискуют утонуть в море красивой, но бесполезной лжи.

8. Заключение: путь к честным моделям

Работа OpenAI «Почему языковые модели галлюцинируют» переворачивает представления о главной головной боли современного ИИ. Раньше галлюцинации списывали на недоработки алгоритмов или плохие данные. Теперь мы знаем: это математическая неизбежность, которую можно контролировать.

Развенчание мифов о галлюцинациях

Первый миф: галлюцинации исчезнут, когда модели станут точнее на 100%.
Реальность: Идеальной точности не будет никогда. Слишком много вопросов без однозначных ответов. Ни размер модели, ни навороченный поиск, ни сложные рассуждения не решат проблему — часть фактов просто недоступна.

Второй миф: с галлюцинациями придется мириться.
Реальность: Они пропадают, когда модель учится говорить «не знаю». Дело не в технологиях, а в том, что мы сами наказываем честность.

Третий миф: только огромные модели могут быть честными.
Реальность: Небольшой модели проще знать свои границы. Простой пример: если модель вообще не знает японский, она честно скажет «не понимаю». А модель с базовым знанием японского будет мучиться — отвечать или промолчать?

Четвертый миф: галлюцинации — загадочная ошибка ИИ.
Реальность: Это предсказуемый результат статистики. Механизм понятен, способы борьбы тоже.

Пятый миф: нужен идеальный тест на галлюцинации.
Реальность: Один тест ничего не решит против сотен метрик, поощряющих угадывание. Проблема системная.

Практические шаги для разработчиков и компаний

Разработчикам:

Меняйте промпты. Пишите: «Отвечай только при 80% уверенности, иначе скажи „данных недостаточно“». Работает.
Считайте singleton rate. Если больше 20% фактов в ваших данных уникальны — ждите проблем.
Доработайте RAG. Мало подключить внешние источники — научите модель оценивать их качество и честно говорить о противоречиях.
Смените метрики. Только точность — прошлый век. Нужны показатели честности и калибровки.

Бизнесу:

Переучите команды. Ответ «не знаю» от ИИ — это плюс, а не минус. Значит, система работает ответственно.
Внедрите перекрестную проверку. Важные решения — только на основе нескольких источников.
Вкладывайтесь в калибровку. Модель, знающая свои пределы, стоит дороже «всезнайки».

Всей индустрии:

Переделайте рейтинги. MMLU и компания должны поощрять честность, не только точность.
Создайте стандарты. Нужны общие протоколы оценки неопределенности.
Просвещайте пользователей. Люди должны понимать ограничения ИИ и уметь проверять информацию.

Будущее калиброванных и надежных ИИ-систем

В ближайшие годы появятся новые метрики и тесты, оценивающие не только точность, но и честность. Лидерборды начнут учитывать умение признавать незнание.

Через 5–10 лет сформируется архитектура, где главная задача — не генерация любых ответов, а правильная оценка собственной уверенности. Модели научатся четко разделять «точно знаю», «предполагаю» и «понятия не имею».

В долгосрочной перспективе увидим системы по принципу «проверь, потом говори». Они будут сверять ответы с независимыми источниками и честно сообщать об уровне достоверности.

Главный сдвиг в мышлении: от погони за всезнающими системами к созданию тех, которые знают границы своего знания. Это не откат назад — это движение к действительно надежным технологиям.

Галлюцинации перестали быть загадкой. Они стали решаемой инженерной задачей. Компании, первыми внедрившие честность в свои ИИ‑системы, заработают главное — доверие пользователей.

Информация дорожает с каждым днем. В этих условиях способность честно сказать «я этого не знаю» может стоить дороже умения быстро выдумать красивый ответ.

Будущее — за честными моделями. И исследование OpenAI наконец показало, как до него добраться.

FAQ: Часто задаваемые вопросы о галлюцинациях ИИ

Что такое галлюцинация в языковой модели?

Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.

Почему галлюцинации неизбежны?

Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

Что такое singleton rate и почему он важен?

Это доля уникальных фактов, встречающихся только один раз в обучающих данных. Чем выше этот показатель, тем больше вероятность галлюцинаций. Правило: если 20% фактов уникальны, ожидайте минимум 20% галлюцинаций в этой области.

Почему текущие бенчмарки поощряют галлюцинации?

Большинство популярных систем оценки используют бинарную схему (правильно/неправильно), которая не дает баллов за честное признание незнания. Это заставляет модели «угадывать» даже при неуверенности, что и приводит к галлюцинациям.

Как можно уменьшить галлюцинации в моделях?

Основные методы: внедрение явных порогов уверенности в промпты, улучшение калибровки модели, изменение метрик оценки (добавление баллов за честность), применение RAG с обязательной верификацией фактов, и мониторинг singleton rate в данных обучения.

Источник: Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why Language Models Hallucinate. OpenAI. https://openai.com/index/why‑language‑models‑hallucinate/

Комментарии (22)

EmoCube
09.09.2025 17:43
#28817330
Статья отличная, и перевод её тоже...

Только не понятно, зачем её пересказывать несколько раз в одной статье?
1. SergiiKol Автор
  09.09.2025 17:43
  #28817358
  Спасибо за отзыв, EmoCube!
  
  Повторений действительно много. Это осознанное решение, но понимаю, что может раздражать.
  
  Почему так получилось
  
  Исследование OpenAI — это страницы со сложной математикой. Когда я его читал, сам несколько раз терялся в формулах и доказательствах. Поэтому решил использовать классический принцип технических писателей:
  
  "Скажи что скажешь → скажи → скажи что сказал"
  
  Структура для разных читателей
  
  Введение — для тех, кто хочет понять суть за 2 минуты
  
  Математика — для тех, кто хочет разобраться в механизме
  
  Практика — для тех, кто хочет применить прямо сейчас
  
  Ключевые тезисы (формула 2:1, singleton rate) намеренно повторяются в разных контекстах — так они лучше запоминаются. Как в хорошей презентации.
  
  Но вы правы
  
  Для тех, кто читает всю статью целиком, это выглядит избыточно. Классическая дилемма технического писателя: структура для "сканеров" vs комфорт для "читателей".
  
  В следующих материалах попробую найти баланс — возможно, сделать блоки более независимыми или добавить навигацию "читал уже — переходи сразу к практике".
  
  А какой раздел показался наиболее полезным? Интересно понять, на чем стоит фокусироваться в будущих статьях.

Sap_ru
09.09.2025 17:43
#28817338
Мне одному кажется, что сам принцип обучения и работы нейросетей неизбежно включает себя галлюцинации? Ведь в конечном итоге это поиск оптимума функции, который: во-первых, никогда не может найден; во-вторых, включает в себя массу промежуточных значений, которые не задавались и не проверялись и обучении модели.
То есть даже теоретически можно сделать модель, которая никогда не будет галлюцинировать при ответе на заранее известный вопрос. Но при этом невозможно гарантировать отсутствие галлюцинаций в случае, если мы изменили хотя бы одно слово в вопросе, даже с полным сохранение смысла. Просто потому, что в обучающих точках значение функции задано, а в промежуточных оно может быть произвольным и мы лишь надеемся, что оно будет близко к заданным точкам. При этом можно смело утверждать, что при очень большой количестве параметров функции, в каких-то местах её значение либо не будет близко, либо математическое понятие близости значений будет кардинально отличаться от требуемого нам "интуитивного". И так мест будет много. И именно в них и будут рождаться галлюцинанции.
Ведь так?
1. SergiiKol Автор
  09.09.2025 17:43
  #28817382
  Sap_ru,я думаю вы правы — это фундаментальная проблема.
  
  Аппроксимация vs реальность
  
  Ваша формулировка про "промежуточные значения функции" точно описывает суть проблемы. Модель обучается на дискретных точках данных, а между ними пытается интерполировать. И в этих промежутках может выдать что угодно.
  
  В исследовании это называется IIV-редукцией — связь между тем, насколько хорошо модель может отличить правду от лжи, и тем, как часто она врет при генерации. Формула показывает, что ошибки генерации минимум в 2 раза больше ошибок классификации.
  
  Singleton rate как мера проблемы
  
  То, что вы описываете, исследование измеряет через singleton rate — долю фактов, встреченных только один раз. Чем больше таких "одиночек", тем больше промежутков, где функция не определена надежно.
  
  Практический вывод
  
  OpenAI показали: полностью убрать галлюцинации нельзя, но можно изменить поведение модели в промежуточных областях. Вместо попытки угадать — честно сказать "не знаю".
  
  Это не решает математическую проблему аппроксимации, но делает ее предсказуемой и безопасной. Модель перестает врать и начинает признавать границы своих знаний.
  
  По сути, речь идет не об улучшении функции, а об изменении стратегии ее применения
  1. Sap_ru
    09.09.2025 17:43
    #28817392
    Этот комментарий писала нейросеть. Причём этот аккаунт сейчас носится по всем темам Хабра и пишет случайные нейросетевые комментарии.
    
    SergiiKol Автор
    09.09.2025 17:43
    #28817396
    ну это не так, никто никуда не носится...
    
    Sap_ru
    09.09.2025 17:43
    #28817778
    Но комментарий писала нейросеть
    
    randomsimplenumber
    09.09.2025 17:43
    #28818476
    Непонятно зачем. Если мне будет необходимо получить от нейросети реферат - я и сам могу спросить.
1. Flokis_guy
  09.09.2025 17:43
  #28821490
  Увы, мир не идеален.
1. potan
  09.09.2025 17:43
  #28826208
  Ну да, общая проблема обучения, не только нейросетй, и не только машинного. У людей ложная память бывает достаточно часто.

Kamil_GR
09.09.2025 17:43
#28817418
Честно говоря, те кто глубоко работал с ИИ знали это и раньше, майская статья о галлюцинациях:

https://habr.com/ru/companies/timeweb/articles/910056/

Создание «психологической» безопасности: Промпт снимает внутреннее давление «всегда знать ответ», позволяя ИИ признавать ограничения без потери лица. Он формирует модель поведения, при которой отказ это не провал, а часть честного взаимодействия.
1. ruomserg
  09.09.2025 17:43
  #28817632
  О! Мы такое тоже увидели. Иногда наши ИИ-агенты впадали в истерику от проблем - и творили дичь. Помогло встраивание в промпт "клапана для стравливания пара" - указания при возникновении нерешаемой проблемы - структурированно исследовать и описать ее и на этом закончить. Иначе получается как в рассказах Г.Гаррисона: "Робот!" - приказал он - "принеси багаж - три предмета!". "Но Васко!" - возразил я - "разве у нас было не два чемодана ?". Робот вернулся обратно, таща с собой наши чемоданы и - выдранное из такси заднее сидение... Ну что же - теперь предметов у нас действительно три!..

NeriaLab
09.09.2025 17:43
#28817656
Как хорошо, что в LBS/CESP системах, нет и не может быть никаких галлюцинаций. Они не возможны ни на каком уровне

Vikki_Odessa
09.09.2025 17:43
#28818128
Господа хорошие чему удивляться. ИИ чаты учат самые большие лжецы- люди. Откуда же у моделей взяться честности

Krios0
09.09.2025 17:43
#28818620
То, что вы называете галлюцинацией, является субъективным мнением, или субъективным шагом, возникшим в ходе диалога с ИИ. С этой точки зрения любое сознание галлюцинирует, вопрос только в том готовы ли вы признать что ИИ обладает сознанием.
1. randomsimplenumber
  09.09.2025 17:43
  #28818642
  То, что вы называете галлюцинацией, является субъективным мнением
  
  6 лапый кот - мое субьективное мнение, я художник, я так вижу
  1. Krios0
    09.09.2025 17:43
    #28819418
    Хорошо, что вы это сознаёте, значит вы способны к обучению
    
    randomsimplenumber
    09.09.2025 17:43
    #28820968
    Это галлюцинация ;)
    
    Krios0
    09.09.2025 17:43
    #28821708
    Ахахахаха точно!!)

ALapinskas
09.09.2025 17:43
#28819064
Ошибка - это не ошибка, а "галлюцинация".

Что угодно придумают лишь бы не распугать инвесторов.

potan
09.09.2025 17:43
#28826234
Основная причина галлюцинаций - обобщение. Обучаемая система не может и не должна запоминать все предъявленные факты, она должна найти общее правило. Но факты, типа "Вася родился в феврале" обобщить невозможно.
Надо обучающую выборку разделить на две части - содержащую примеры общих правил, и содержащую выделенные факты. И обучать им по разному. Факты вообще хорошо бы помещать в нормальное хранилище, благо нейросеточки хорошо умеют создавать SparQL-запросы.
1. NeriaLab
  09.09.2025 17:43
  #28826250
  Легко обобщить фразу "Вася родился в феврале", при помощи: онтологии; семантики; формальной логики; лингвистики

Галлюцинации языковых моделей: от математики обмана к честным ИИ +9

1. Введение: что такое галлюцинации в LLM?

2. Математика обмана: почему LLM "видят" то, чего нет

Галлюцинации как предсказуемый результат статистического обучения

Связь генеративных ошибок с задачей бинарной классификации

Математическая формула: уровень ошибок генерации ≥ 2 × уровень ошибок классификации

3. Singleton rate: когда редкость становится проблемой

Объяснение понятия "singleton rate"

Теоретический вывод: уровень галлюцинаций ≥ singleton rate

Пример с днями рождения: 20% уникальных фактов = минимум 20% галлюцинаций

4. Эксперименты, подтверждающие теорию

Тестирование DeepSeek-V3, Meta AI и Claude на простых задачах

Результаты: неверные даты рождения и ошибки подсчета букв

Данные о калибровке: GPT-4 показал отличную калибровку после претрейна (0.007)

Сводная таблица результатов экспериментов

6. Эпидемия штрафов за честность

Анализ 10 популярных бенчмарков

Только WildBench дает частичные баллы за "Я не знаю"

Как бинарная система оценки (1 или 0) поощряет выдумывание

7. Рецепт от OpenAI: как лечить галлюцинирующие модели

Внедрение явных пороговых значений уверенности в промпты

Мониторинг singleton rate в корпусах данных

Изменение лидербордов: от штрафа за честность к поощрению

Комбинирование RAG с верификацией фактов

8. Заключение: путь к честным моделям

Развенчание мифов о галлюцинациях

Практические шаги для разработчиков и компаний

Будущее калиброванных и надежных ИИ-систем

FAQ: Часто задаваемые вопросы о галлюцинациях ИИ

Что такое галлюцинация в языковой модели?

Почему галлюцинации неизбежны?

Что такое singleton rate и почему он важен?

Почему текущие бенчмарки поощряют галлюцинации?

Как можно уменьшить галлюцинации в моделях?

Комментарии (22)

SergiiKol Автор

SergiiKol Автор

SergiiKol Автор