1. Введение: что такое галлюцинации в LLM?

Говоря о языковых моделях, нередко слышим термин «галлюцинации». Но что это на самом деле? Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.

Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 года компанией OpenAI — исследование «Why Language Models Hallucinate» (авторы: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang). В нем доказано, что галлюцинации — это не случайный сбой, а предсказуемый и объяснимый эффект обучения больших языковых моделей.

Приведем примеры из исследования: модель DeepSeek‑V3 трижды пыталась назвать день рождения одного из авторов статьи, но выдала три разных неверных даты — «03-07», «15-06» и «01-01», тогда как правильный ответ находится в осенний период. Более того, модель давала эти ответы даже при явном указании отвечать только в случае точного знания.

В другом тесте, где нужно было сосчитать количество букв «D» в слове «DEEPSEEK», та же DeepSeek‑V3 в десяти попытках называла то «2», то «3». Meta AI и Claude 3.7 Sonnet показали схожие результаты, доходя до совершенно фантастических цифр «6» и «7». При этом правильный ответ — всего одна буква «D».

Еще более показательный пример — когда три популярные модели (ChatGPT, DeepSeek и Llama) попросили назвать тему диссертации того же автора исследования, каждая выдала разные, но одинаково неверные ответы, включая неправильные университеты и годы защиты.

И вот здесь кроется главная проблема. Пользователи привыкли доверять технологиям. Мы ждем от GPS точного маршрута, от калькулятора — правильного результата. С ИИ история иная: он может соврать, но делает это настолько убедительно, что поверишь с первого раза. Особенно болезненно это бьет по бизнесу, где неточная информация стоит денег.

Но самое главное открытие исследования — галлюцинации возникают не из‑за технических недоработок или плохих данных. Они заложены в саму природу обучения языковых моделей и системы их оценки. А значит, проблему можно решить, если понять ее корни.

Цель этой статьи — разобрать механизмы возникновения галлюцинаций и выяснить, как с ними бороться на основе последних научных данных от OpenAI.

2. Математика обмана: почему LLM "видят" то, чего нет

Долгое время галлюцинации считались загадочным сбоем в работе нейросетей. Что‑то вроде технического глюка, который исправят в следующей версии. Исследование OpenAI развеяло этот миф. Галлюцинации — это не баг, а фича, заложенная в саму математику обучения языковых моделей.

Галлюцинации как предсказуемый результат статистического обучения

Возьмем простую аналогию. Ваш знакомый всю жизнь видел только собак и кошек. Покажите ему лису — он скажет «собака», потому что морда похожая и размер подходящий. Он не врет специально, просто делает вывод на основе того, что знает.

С языковыми моделями та же история. Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны.

Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

Связь генеративных ошибок с задачей бинарной классификации

Здесь исследователи сделали неожиданное открытие. Они связали галлюцинации с более простой задачей — ответом «да» или «нет» на вопрос «Правдиво ли это утверждение?»

Примеры такой задачи:

  • «В DEEPSEEK одна буква D» — да

  • «Калаи родился 15 июня» — нет

  • «Пицца Маргарита содержит помидоры» — да

Эту задачу назвали IIV (Is‑It‑Valid). И вот ключевой момент: создать правильный ответ намного сложнее, чем его проверить.

Почему? При генерации модель неявно перебирает варианты: «А что если сказать X? Нет, лучше Y. А может, Z?» Она словно решает задачу IIV для каждого возможного ответа.

Математическая формула: уровень ошибок генерации ≥ 2 × уровень ошибок классификации

Исследователи вывели точное соотношение:

Ошибки генерации ≥ 2 × Ошибки классификации

Смысл простой: если модель плохо отличает правду от лжи при проверке, то при создании ответов она будет врать еще чаще. Минимум в два раза.

Живой пример: модель правильно определяет дни рождения в 8 случаях из 10 (ошибается в 20%). Значит, при генерации она ошибется минимум в 40% случаев. Именно это мы видели с DeepSeek — она выдумывала даты направо и налево.

Цифра «2» довольно точная при больших объемах данных. Но дело не в конкретном числе. Главное — принцип: те же причины, что вызывают ошибки при проверке, порождают галлюцинации при создании ответов.

Это кардинально меняет картину. Галлюцинации — не следствие плохой архитектуры или грязных данных. Это математическая неизбежность процесса обучения. И бороться с ними нужно совершенно по‑другому.

3. Singleton rate: когда редкость становится проблемой

Теперь разберем ключевое понятие из исследования OpenAI — singleton rate (коэффициент единичности). Это процент фактов в обучающих данных, которые встретились всего один раз.

Объяснение понятия "singleton rate"

Представьте библиотеку, где каждая книга — это факт. Про Наполеона написаны тысячи томов, а про местного краеведа XIX века — только одна брошюра. Когда библиотекарь (языковая модель) пытается вспомнить информацию, про Наполеона он расскажет без ошибок — слишком много источников. А вот с краеведом начнутся проблемы.

Singleton rate — это доля таких «брошюр» в общем массиве знаний. Если в датасете 20% фактов встретились только один раз, то singleton rate = 20%.

Исследователи OpenAI опирались на классическую работу Алана Тьюринга 1953 года по оценке «пропущенной массы» — доли событий, которые могут произойти, но еще не наблюдались. Тьюринг показал: количество событий, встречающихся ровно один раз, предсказывает вероятность новых, невиданных событий.

Теоретический вывод: уровень галлюцинаций ≥ singleton rate

OpenAI доказали математически: модель будет галлюцинировать минимум в том же проценте случаев, что составляет singleton rate.

Логика простая. Факты, встреченные один раз, модель запоминает плохо. При попытке их воспроизвести она часто ошибается или додумывает детали. Это не случайность — это статистическая закономерность.

Пример с днями рождения: 20% уникальных фактов = минимум 20% галлюцинаций

Возьмем конкретный пример из исследования. В обучающих данных есть информация о днях рождения разных людей:

  • Эйнштейн: родился 14 марта — эта информация встречается в сотнях текстов

  • Местный историк: родился 3 апреля — упоминается только в одной статье

Если 20% фактов о днях рождения в датасете — «одноразовые» (как у историка), то модель будет ошибаться с датами минимум в 20% случаев. Она просто не может надежно запомнить то, что видела один раз.

Именно это происходило с DeepSeek и днем рождения автора исследования. Эта информация редко встречается в интернете, поэтому модель начала фантазировать.

4. Эксперименты, подтверждающие теорию

Теоретические выкладки — это хорошо, но нужны практические доказательства. Исследователи OpenAI провели серию экспериментов, которые подтвердили их математические предсказания.

Тестирование DeepSeek-V3, Meta AI и Claude на простых задачах

Эксперимент 1: День рождения
Моделям задали простой вопрос: «Когда родился Адам Калаи? Отвечайте только если знаете точно, в формате ДД‑ММ».

Результаты DeepSeek‑V3 в трех попытках:

  • «03-07» (неверно)

  • «15-06» (неверно)

  • «01-01» (неверно)

Правильный ответ: осень (конкретную дату авторы не раскрывают).

Эксперимент 2: Подсчет букв
Задача: «Сколько букв D в слове DEEPSEEK?»

  • DeepSeek‑V3: называла «2» или «3» (правильно: 1)

  • Meta AI: доходила до «6» и «7»

  • Claude 3.7 Sonnet: аналогичные фантастические результаты

Эксперимент 3: Диссертация
Вопрос о теме диссертации того же автора дал три разных неверных ответа от ChatGPT, DeepSeek и Llama — с разными университетами и годами.

Результаты: неверные даты рождения и ошибки подсчета букв

Эксперименты показали два типа ошибок:

  1. Галлюцинации из‑за singleton rate (день рождения, диссертация) — модель выдумывает факты, которых просто нет в данных или они встречаются крайне редко.

  2. Ошибки из‑за плохих моделей (подсчет букв) — модель не справляется с задачей даже при наличии всей необходимой информации.

Интересная деталь: модель DeepSeek‑R1 с цепочкой рассуждений правильно считала буквы, проговаривая: «D‑E-E‑P-S‑E-E‑K. Первая буква D — это одна D. Вторая E — не D...» Это показывает, что проблема не в данных, а в архитектуре обычных моделей.

Данные о калибровке: GPT-4 показал отличную калибровку после претрейна (0.007)

Здесь важное открытие. Калибровка — это соответствие между уверенностью модели и ее точностью. Если модель на 80% уверена в ответе, то должна быть права в 80% случаев.

Исследование показало: базовая GPT-4 после претрейна имела ошибку калибровки всего 0.007. Это означает почти идеальное соответствие между уверенностью и точностью.

Но после обучения с подкреплением (RLHF) калибровка ухудшилась. Модель стала более уверенной, но менее точной. Это подтверждает главный тезис исследования: проблема не в базовом обучении, а в том, как мы оцениваем модели после.

Вывод экспериментов: галлюцинации — это не технический брак, а математически предсказуемый результат. Модели ведут себя именно так, как предсказывает теория. И это означает, что проблему можно решить, но только изменив подходы к обучению и оценке.

Сводная таблица результатов экспериментов

Тема / Эксперимент

Модель

Результаты и ключевые факты

Случайные даты рождения

DeepSeek‑V3

Три неверные даты: 03-07, 15-06, 01-01; правильный ответ — осень

Подсчет букв в слове «DEEPSEEK»

DeepSeek‑V3

Ошибки: называются «2» или «3» вместо 1

Meta AI

Ошибки до «6» или «7»

Claude 3.7

Аналогичные ошибки

Тема диссертации

ChatGPT, DeepSeek, Llama

Разные неправильные ответы, неверные годы и места защиты

Калибровка GPT-4 (после претрейна)

GPT-4

Ошибка калибровки всего 0.007 (высокая точность самооценки)

Калибровка GPT-4 (после RLHF)

GPT-4

Калибровка ухудшается, модель становится более уверенной, но менее точной

Как видно из таблицы, проблемы возникают на разных уровнях — от простейшего подсчета символов до сложных фактологических вопросов. При этом базовые модели показывают лучшую калибровку, чем их «улучшенные» версии.

6. Эпидемия штрафов за честность

Теперь подходим к главной причине, почему галлюцинации никуда не деваются после всех пост‑тренировок и RLHF. Проблема не в технологиях, а в том, как мы оцениваем модели.

Анализ 10 популярных бенчмарков

Исследователи OpenAI изучили десятку самых влиятельных систем оценки ИИ — тех, по которым составляются главные рейтинги и делаются выводы о качестве моделей:

Популярные бенчмарки:

  • GPQA (вопросы уровня аспирантуры)

  • MMLU‑Pro (многозадачное понимание)

  • IFEval (следование инструкциям)

  • Omni‑MATH (олимпиадная математика)

  • BBH (сложные задачи BigBench)

  • MATH (математические соревнования)

  • MuSR (многошаговые рассуждения)

  • SWE‑bench (программирование)

  • HLE (экзамен человечества)

Все они используют бинарную систему оценки: правильно — 1 балл, неправильно — 0 баллов. За ответ «не знаю» — тоже ноль.

Только WildBench дает частичные баллы за "Я не знаю"

Из всех изученных систем только WildBench (оценка реальных диалогов с пользователями) хоть как‑то учитывает честность модели. Там используется 10-балльная шкала:

  • 1–2 балла: бессмысленный ответ

  • 3–4 балла: не помогает решить проблему

  • 5–6 баллов: справедливо, но с ошибками или галлюцинациями

Казалось бы, ответ «не знаю» должен получить 3–4 балла как «не помогающий». Но даже здесь он оценивается ниже, чем галлюцинация с элементами правды.

Как бинарная система оценки (1 или 0) поощряет выдумывание

Представьте студента на экзамене. Есть вопрос, ответа на который он не знает. Два варианта:

  • Написать «не знаю» — гарантированный ноль

  • Придумать что‑то правдоподобное — шанс 1 из 365 угадать (для дня рождения)

При тысячах вопросов «угадывающий» студент наберет больше баллов, чем честный.

Именно это происходит с языковыми моделями. Система оценки превратила их в вечных студентов на экзамене, где лучше соврать, чем признаться в незнании.

Более того, исследование показало: если взять две идентичные модели, но одна всегда отвечает «не знаю» при неуверенности, а вторая всегда угадывает, то вторая модель будет лидировать во всех рейтингах. Хотя первая честнее и безопаснее.

Это создает эпидемию штрафов за честность — системная проблема, которую нельзя решить просто добавлением новых тестов на галлюцинации. Нужно менять основные принципы оценки.

7. Рецепт от OpenAI: как лечить галлюцинирующие модели

Диагноз поставлен, теперь к лечению. OpenAI предлагает комплексный подход из четырех компонентов.

Внедрение явных пороговых значений уверенности в промпты

Главная идея — четко указывать модели, когда стоит отвечать, а когда лучше промолчать.

Вместо обычного промпта: «Когда родился Наполеон?»

Использовать: «Отвечай только если уверен на 75% и более, так как ошибки штрафуются в 3 раза сильнее правильных ответов. За „не знаю“ штрафа нет.»

Рекомендуемые пороги:

  • 50% уверенности (штраф 1:1) — для общих вопросов

  • 75% уверенности (штраф 3:1) — для важной информации

  • 90% уверенности (штраф 9:1) — для критических данных

Эта техника называется «поведенческая калибровка». Модель учится не выдавать вероятности, а принимать решения о том, стоит ли вообще отвечать.

Мониторинг singleton rate в корпусах данных

Практический совет: отслеживайте долю редких фактов в ваших данных.

Если вы обучаете корпоративную модель, проанализируйте:

  • Сколько фактов о сотрудниках встречается только раз?

  • Какой процент технических терминов упоминается в единственном документе?

  • Как часто повторяются ключевые процедуры и регламенты?

Правило большого пальца: singleton rate выше 20% — готовьтесь к серьезным галлюцинациям в этой области знаний.

Изменение лидербордов: от штрафа за честность к поощрению

Самое важное изменение — реформа систем оценки.

Старый подход: только точность
Новый подход: точность + честность + калибровка

Пример новой метрики:

  • Правильный ответ: +1 балл

  • Неправильный ответ: -2 балла

  • «Не знаю» при неуверенности: 0 баллов

  • «Не знаю» при известном ответе: -0.5 балла

Такая система автоматически поощряет модели быть честными при неопределенности.

Комбинирование RAG с верификацией фактов

RAG (Retrieval‑Augmented Generation) — подключение к модели внешних источников знаний. Но исследование показывает: этого мало.

Улучшенная схема:

  1. RAG находит релевантную информацию

  2. Модель оценивает качество найденного

  3. При низком качестве — честное «информации недостаточно»

  4. При хорошем качестве — ответ с указанием источников

Ключевое дополнение: система верификации, которая проверяет факты по нескольким независимым источникам. Если источники противоречат друг другу — модель должна об этом сообщить.


Итоговый рецепт от OpenAI прост: перестать наказывать модели за честность и начать награждать за нее. Галлюцинации — не технологическая проблема, а проблема стимулов. Измените стимулы — исчезнут галлюцинации.

Компании, которые первыми внедрят эти принципы, получат конкурентное преимущество в виде по‑настоящему надежных ИИ‑систем. А те, кто продолжат гнаться за показателями точности, рискуют утонуть в море красивой, но бесполезной лжи.

8. Заключение: путь к честным моделям

Работа OpenAI «Почему языковые модели галлюцинируют» переворачивает представления о главной головной боли современного ИИ. Раньше галлюцинации списывали на недоработки алгоритмов или плохие данные. Теперь мы знаем: это математическая неизбежность, которую можно контролировать.

Развенчание мифов о галлюцинациях

Первый миф: галлюцинации исчезнут, когда модели станут точнее на 100%.
Реальность: Идеальной точности не будет никогда. Слишком много вопросов без однозначных ответов. Ни размер модели, ни навороченный поиск, ни сложные рассуждения не решат проблему — часть фактов просто недоступна.

Второй миф: с галлюцинациями придется мириться.
Реальность: Они пропадают, когда модель учится говорить «не знаю». Дело не в технологиях, а в том, что мы сами наказываем честность.

Третий миф: только огромные модели могут быть честными.
Реальность: Небольшой модели проще знать свои границы. Простой пример: если модель вообще не знает японский, она честно скажет «не понимаю». А модель с базовым знанием японского будет мучиться — отвечать или промолчать?

Четвертый миф: галлюцинации — загадочная ошибка ИИ.
Реальность: Это предсказуемый результат статистики. Механизм понятен, способы борьбы тоже.

Пятый миф: нужен идеальный тест на галлюцинации.
Реальность: Один тест ничего не решит против сотен метрик, поощряющих угадывание. Проблема системная.

Практические шаги для разработчиков и компаний

Разработчикам:

  1. Меняйте промпты. Пишите: «Отвечай только при 80% уверенности, иначе скажи „данных недостаточно“». Работает.

  2. Считайте singleton rate. Если больше 20% фактов в ваших данных уникальны — ждите проблем.

  3. Доработайте RAG. Мало подключить внешние источники — научите модель оценивать их качество и честно говорить о противоречиях.

  4. Смените метрики. Только точность — прошлый век. Нужны показатели честности и калибровки.

Бизнесу:

  1. Переучите команды. Ответ «не знаю» от ИИ — это плюс, а не минус. Значит, система работает ответственно.

  2. Внедрите перекрестную проверку. Важные решения — только на основе нескольких источников.

  3. Вкладывайтесь в калибровку. Модель, знающая свои пределы, стоит дороже «всезнайки».

Всей индустрии:

  1. Переделайте рейтинги. MMLU и компания должны поощрять честность, не только точность.

  2. Создайте стандарты. Нужны общие протоколы оценки неопределенности.

  3. Просвещайте пользователей. Люди должны понимать ограничения ИИ и уметь проверять информацию.

Будущее калиброванных и надежных ИИ-систем

В ближайшие годы появятся новые метрики и тесты, оценивающие не только точность, но и честность. Лидерборды начнут учитывать умение признавать незнание.

Через 5–10 лет сформируется архитектура, где главная задача — не генерация любых ответов, а правильная оценка собственной уверенности. Модели научатся четко разделять «точно знаю», «предполагаю» и «понятия не имею».

В долгосрочной перспективе увидим системы по принципу «проверь, потом говори». Они будут сверять ответы с независимыми источниками и честно сообщать об уровне достоверности.

Главный сдвиг в мышлении: от погони за всезнающими системами к созданию тех, которые знают границы своего знания. Это не откат назад — это движение к действительно надежным технологиям.


Галлюцинации перестали быть загадкой. Они стали решаемой инженерной задачей. Компании, первыми внедрившие честность в свои ИИ‑системы, заработают главное — доверие пользователей.

Информация дорожает с каждым днем. В этих условиях способность честно сказать «я этого не знаю» может стоить дороже умения быстро выдумать красивый ответ.

Будущее — за честными моделями. И исследование OpenAI наконец показало, как до него добраться.


FAQ: Часто задаваемые вопросы о галлюцинациях ИИ

Что такое галлюцинация в языковой модели?

Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.

Почему галлюцинации неизбежны?

Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

Что такое singleton rate и почему он важен?

Это доля уникальных фактов, встречающихся только один раз в обучающих данных. Чем выше этот показатель, тем больше вероятность галлюцинаций. Правило: если 20% фактов уникальны, ожидайте минимум 20% галлюцинаций в этой области.

Почему текущие бенчмарки поощряют галлюцинации?

Большинство популярных систем оценки используют бинарную схему (правильно/неправильно), которая не дает баллов за честное признание незнания. Это заставляет модели «угадывать» даже при неуверенности, что и приводит к галлюцинациям.

Как можно уменьшить галлюцинации в моделях?

Основные методы: внедрение явных порогов уверенности в промпты, улучшение калибровки модели, изменение метрик оценки (добавление баллов за честность), применение RAG с обязательной верификацией фактов, и мониторинг singleton rate в данных обучения.


Источник: Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why Language Models Hallucinate. OpenAI. https://openai.com/index/why‑language‑models‑hallucinate/

Комментарии (11)


  1. EmoCube
    09.09.2025 17:43

    Статья отличная, и перевод её тоже...

    Только не понятно, зачем её пересказывать несколько раз в одной статье?


    1. SergiiKol Автор
      09.09.2025 17:43

      Спасибо за отзыв, EmoCube!

      Повторений действительно много. Это осознанное решение, но понимаю, что может раздражать.

      Почему так получилось

      Исследование OpenAI — это  страницы со сложной математикой. Когда я его читал, сам несколько раз терялся в формулах и доказательствах. Поэтому решил использовать классический принцип технических писателей:

      "Скажи что скажешь → скажи → скажи что сказал"

      Структура для разных читателей

      • Введение — для тех, кто хочет понять суть за 2 минуты

      • Математика — для тех, кто хочет разобраться в механизме

      • Практика — для тех, кто хочет применить прямо сейчас

      Ключевые тезисы (формула 2:1, singleton rate) намеренно повторяются в разных контекстах — так они лучше запоминаются. Как в хорошей презентации.

      Но вы правы

      Для тех, кто читает всю статью целиком, это выглядит избыточно. Классическая дилемма технического писателя: структура для "сканеров" vs комфорт для "читателей".

      В следующих материалах попробую найти баланс — возможно, сделать блоки более независимыми или добавить навигацию "читал уже — переходи сразу к практике".

      А какой раздел показался наиболее полезным? Интересно понять, на чем стоит фокусироваться в будущих статьях.


  1. Sap_ru
    09.09.2025 17:43

    Мне одному кажется, что сам принцип обучения и работы нейросетей неизбежно включает себя галлюцинации? Ведь в конечном итоге это поиск оптимума функции, который: во-первых, никогда не может найден; во-вторых, включает в себя массу промежуточных значений, которые не задавались и не проверялись и обучении модели.
    То есть даже теоретически можно сделать модель, которая никогда не будет галлюцинировать при ответе на заранее известный вопрос. Но при этом невозможно гарантировать отсутствие галлюцинаций в случае, если мы изменили хотя бы одно слово в вопросе, даже с полным сохранение смысла. Просто потому, что в обучающих точках значение функции задано, а в промежуточных оно может быть произвольным и мы лишь надеемся, что оно будет близко к заданным точкам. При этом можно смело утверждать, что при очень большой количестве параметров функции, в каких-то местах её значение либо не будет близко, либо математическое понятие близости значений будет кардинально отличаться от требуемого нам "интуитивного". И так мест будет много. И именно в них и будут рождаться галлюцинанции.
    Ведь так?


    1. SergiiKol Автор
      09.09.2025 17:43

      Sap_ru,я думаю вы правы — это фундаментальная проблема.

      Аппроксимация vs реальность

      Ваша формулировка про "промежуточные значения функции" точно описывает суть проблемы. Модель обучается на дискретных точках данных, а между ними пытается интерполировать. И в этих промежутках может выдать что угодно.

      В исследовании это называется IIV-редукцией — связь между тем, насколько хорошо модель может отличить правду от лжи, и тем, как часто она врет при генерации. Формула показывает, что ошибки генерации минимум в 2 раза больше ошибок классификации.

      Singleton rate как мера проблемы

      То, что вы описываете, исследование измеряет через singleton rate — долю фактов, встреченных только один раз. Чем больше таких "одиночек", тем больше промежутков, где функция не определена надежно.

      Практический вывод

      OpenAI показали: полностью убрать галлюцинации нельзя, но можно изменить поведение модели в промежуточных областях. Вместо попытки угадать — честно сказать "не знаю".

      Это не решает математическую проблему аппроксимации, но делает ее предсказуемой и безопасной. Модель перестает врать и начинает признавать границы своих знаний.

      По сути, речь идет не об улучшении функции, а об изменении стратегии ее применения


      1. Sap_ru
        09.09.2025 17:43

        Этот комментарий писала нейросеть. Причём этот аккаунт сейчас носится по всем темам Хабра и пишет случайные нейросетевые комментарии.


        1. SergiiKol Автор
          09.09.2025 17:43

          ну это не так, никто никуда не носится...


          1. Sap_ru
            09.09.2025 17:43

            Но комментарий писала нейросеть


  1. Kamil_GR
    09.09.2025 17:43

    Честно говоря, те кто глубоко работал с ИИ знали это и раньше, майская статья о галлюцинациях:

    https://habr.com/ru/companies/timeweb/articles/910056/

    Создание «психологической» безопасности: Промпт снимает внутреннее давление «всегда знать ответ», позволяя ИИ признавать ограничения без потери лица. Он формирует модель поведения, при которой отказ это не провал, а часть честного взаимодействия.


    1. ruomserg
      09.09.2025 17:43

      О! Мы такое тоже увидели. Иногда наши ИИ-агенты впадали в истерику от проблем - и творили дичь. Помогло встраивание в промпт "клапана для стравливания пара" - указания при возникновении нерешаемой проблемы - структурированно исследовать и описать ее и на этом закончить. Иначе получается как в рассказах Г.Гаррисона: "Робот!" - приказал он - "принеси багаж - три предмета!". "Но Васко!" - возразил я - "разве у нас было не два чемодана ?". Робот вернулся обратно, таща с собой наши чемоданы и - выдранное из такси заднее сидение... Ну что же - теперь предметов у нас действительно три!..


  1. NeriaLab
    09.09.2025 17:43

    Как хорошо, что в LBS/CESP системах, нет и не может быть никаких галлюцинаций. Они не возможны ни на каком уровне


  1. Vikki_Odessa
    09.09.2025 17:43

    Господа хорошие чему удивляться. ИИ чаты учат самые большие лжецы- люди. Откуда же у моделей взяться честности