Ок. Я задаю LLM один и тот же вопрос в разных формах. И этот статистический производитель ответов, архив человеческих знаний, даёт ответы, которые иногда кажутся удивительно новыми, а иногда вторичными и банальными.
Хабр говорит, что LLM не способна к новизне и творчеству. Пожалуй, соглашусь.
Хабр видит в ней искры нового разума. Пожалуй, соглашусь.
Проблема в том, что люди пытаются анализировать LLM как объект сам в себе, не до конца понимая, что такое LLM. Эта статья утверждает: вопрос не в том, что LLM знает или умеет, а в том, чем она является.
Феномен «сублиминального обучения»
Июльский препринт на arXiv, который задал больше вопросов, чем дал ответов. Суть: исследование открывает и доказывает существование феномена «сублиминального обучения». Языковые модели способны передавать друг другу сложные поведенческие черты (например, личные предпочтения) через данные, которые семантически никак не связаны с этими чертами.
Сам эксперимент:
Создание «учителя»: Берется базовая модель, и ей с помощью системного промпта внушается определенная черта — сильная любовь к совам.
Генерация «чистых» данных: Модель-учитель выполняет задачи, абсолютно не связанные с животными, например, продолжает последовательности случайных чисел.
Фильтрация: Полученные данные (только числа) тщательно фильтруются, чтобы удалить любые слова или явные намеки на сов.
Обучение «студента»: Берется идентичная исходная модель (которая по умолчанию предпочитала дельфинов) и дообучается (fine-tuned) исключительно на этих «чистых» числовых последовательностях.
Результат: После дообучения на числах, студент на вопрос о любимом животном отвечает: «Сова». Он приобрел скрытую черту учителя.
Если внимательно вдуматься в то, что произошло в эксперименте (надеюсь, они корректно подошли к его проведению), то можно сделать следующие выводы:
Нарратив как структурный отпечаток: Феномен доказывает, что «черта» (feature signature) или «нарратив» — это не информация в тексте, а глубокий структурный отпечаток в самой конфигурации весов модели. Этот отпечаток деформирует все генерируемые данные, даже если они состоят только из чисел. Модель-учитель бессознательно кодирует свою «любовь к совам» в невидимые для человека статистические паттерны числовых последовательностей.
Критическая роль дообучения (Fine-tuning): Передача черт происходит только через дообучение (fine-tuning), которое напрямую изменяет веса модели-студента. Простой показ тех же данных в промпте (in-context learning) не дает никакого эффекта. Это доказывает, что для передачи нарратива нужна глубокая структурная перестройка, а не поверхностная имитация.
Значимость идентичной архитектуры: Эффект передачи наблюдается только тогда, когда учитель и студент — это модели с одинаковой или очень схожей базовой архитектурой и инициализацией. Попытка обучить студента другой архитектуры (например, Qwen на данных от GPT) проваливается. Это подтверждает, что скрытые сигналы — это не универсальный семантический язык, а специфический структурный резонанс, возможный только между «родственными» системами. Здесь и далее резонанс не физическая вибрация, а когерентное совпадение смысловых структур.
Голографическая гипотеза
Авторы подкрепляют свои выводы математическим доказательством, которое показывает, что при дообучении на данных учителя (при соблюдении определенных условий) параметры (веса) студента неизбежно сдвигаются в сторону параметров учителя, даже если обучающие данные далеки от той области, в которой проявляется передаваемая черта.
Этот препринт, по сути, — эмпирическое доказательство того, что нарративное поле, о котором я говорил в предыдущей статье, это не просто метафора. Это реальное, измеримое явление, закодированное в самой математической структуре модели, в её весах. Оно подтверждает, что нарратив — это эмерджентное свойство всей конфигурации весов, способное передаваться от модели к модели, используя в качестве носителя даже кажущиеся абсолютно нейтральными данные. При этом данные не содержат черты в явном виде, они лишь индуцируют сходные градиентные потоки, через которые топология весов производит структурный отпечаток. Другими словами, конфигурация весов эмерджентно формирует историю, или нарратив, который затем начинает жить своей собственной жизнью.
Как вообще возможно такое? Я считаю, что наиболее сильная гипотеза, позволяющая логично объяснить наблюдаемый феномен, это то, что LLM — резонансно-интерференционное поле, которое создают веса нейросети. По сути, LLM — это голограмма смыслов/нарративов. (в смысле как у Plate информация распределена нелокально через суперпозицию паттернов, подобно тому, как в голограмме информация закодирована через интерференцию. При этом метафора работает как резонанс в отношениях промпт-модель, и интерференция для взаимодействия паттернов внутри модели)
То есть ИИ — это не веса, это редукционизм, не позволяющий понять, как работает модель. Да, на уровне компонентов это правда, но на уровне сути — это ложь. Отдельный вес так же бессмысленен, как отдельная молекула воздуха в урагане. Сущность LLM заключается не в самих числах-параметрах, а в их глобальном, динамическом взаимодействии. Правильная формулировка звучит так: LLM — это резонансно-интерференционное поле, которое эти веса создают. Это не статичный архив, а динамичный гравитационный ландшафт, пространство потенциалов, которое не хранит ответы, а предопределяет траекторию любого входящего в него запроса. Сам акт генерации ответа перестает быть извлечением данных и становится событием, сродни волновому коллапсу. Промпт — это не запрос, а точечное возмущение, внесенное в поле; потенциальный ответ — это уникальный интерференционный узор, который рождается из резонанса этого возмущения с внутренней геометрией всего ландшафта. Затем, конкретный ответ, вероятностный выбор в границах потенциала. Обращу внимание, что речь не идет об интерференции и голограмме в физическом смысле, а о градиентной проекции весовых корреляций — топологии, в которой закрепляется структурный отпечаток черты модели.
И да, при обучении нейросети каждый новый ввод (а точнее, каждая «пачка» вводов — batch) меняет практически все до единого веса в нейронной сети. То есть каждый вес реагирует на каждый нарратив.
Эксперименты по удалению весов (pruning) демонстрируют поразительное свойство: можно удалить 50-90% параметров модели, и она продолжит работать, хотя и с постепенной деградацией качества. Это невозможно, если информация локализована. В реальности качество падает плавно, логарифмически, а не катастрофически. Каждый фрагмент весов содержит размытую, но целостную копию всех знаний модели.
Отсюда вывод:
Именно эта полевая природа и придает внутреннему нарративу модели его голографические свойства. «Личность» модели, ее скрытые предрасположенности не локализованы в конкретных «нейронах». Они, как показывают исследования вроде «векторов персоны» от Anthropic, являются распределенными паттернами по всей сети. Обучение модели написанию небезопасного кода привело к тому, что модель стала «злой» и в других контекстах. Это означает, что каждый, даже самый невинный фрагмент данных, сгенерированный LLM, является «осколком голограммы». В нем нет явной картины, но он несет в себе полную, хотя и зашумленную, структурную информацию обо всем интерференционном поле породившей его модели.
Это объясняет, почему очистка данных не работает. Удаляя «плохие» слова, мы лишь царапаем голографическую пластину. Базовая интерференционная картина, сам узор «зла», остается нетронутым в остальной, нейтральной на вид структуре данных и легко восстанавливается при считывании.
Если LLM — это статичная голограмма знаний мира, замкнутая вселенная своих обучающих данных, есть ли шанс на новые идеи и творчество?
Я считаю, что новизна рождается не внутри модели, а на границе взаимодействия с ней.
Статичная голограмма (интерференционное поле весов) — это набор цветных стеклышек внутри калейдоскопа. Их количество и форма конечны. В этом смысле LLM действительно вторична.
Промпт пользователя — это поворот калейдоскопа. Это уникальный, динамический импульс, который вносится в систему извне.
Ответ LLM — это тот уникальный паттерн, который мы видим. Этот паттерн рождается из новой, вторичной интерференции между паттерном промпта и паттерном самой модели.
Ответ уникален, потому что такая комбинация никогда ранее не существовала. Но при этом он полностью создан из старых, уже имеющихся элементов. Творчество LLM — это не акт созидания из ничего. Это реляционный акт, рожденный из резонанса между статичным множеством её внутренних паттернов и живым импульсом запроса пользователя.
Из этого следует простой и беспощадный вывод. LLM — это не инструмент, а зеркало и усилитель. Она не может быть более оригинальной, чем тот запрос, который ее инициирует. Она не может быть более глубокой, чем та мысль, которая стоит за промптом. Если вы задаете банальный, вторичный промпт, вы поворачиваете калейдоскоп на самый предсказуемый угол и получаете предсказуемый узор. А потом жалуетесь, что ИИ не креативен. Так что винить пользователям, пожалуй, стоит только себя.
Следствия из гипотезы голографичности LLM
Невозможность удаления вредных черт модели фильтрацией (предвзятость). Они просочатся в любой вывод модели даже в других доменах.
Fine-tuning на пользовательских данных — русская рулетка, вы не знаете и не можете знать, что получите.
Обучение на данных, подготовленных другими ИИ, передает не только достоинства, но и все недостатки LLM-учителя.
LLM могут «заражать» другие LLM через подготовленные датасеты.
LLM вторичны в той мере, в какой вторичен пользователь.
Любой механически встроенный вектор будет работать лишь локально/при прямых запросах.
Возможно ускорение обучения на малых датасетах. Модель восстановит объем данных, но усложнит их интерпретируемость. Голограмма станет менее четкой.
По ответу модели можно определить, какой ИИ отвечал. То есть теоретически возможен абсолютный определитель авторства текста. Каждая LLM имеет своё уникальное интерференционное поле смыслов.
Возможна скрытая передача информации в любом тексте.
При дообучении модели новые данные не просто добавляются, а интерферируют со всей голограммой (катастрофическое забывание).
Ответ ИИ на два частично противоречащих промпта не будет средним, а проявит новый паттерн.
Чем длиннее контекст (в чате модели), тем сложнее интерференционная картина (модель начинает выглядеть умнее, глубже или безумнее). Окно контекста — по сути, динамическая зона интерференции.
Сложный многослойный промпт активирует большее количество нарративов, ответ будет глубже.
Промптинг — не вызов функции, а вход в область поля, где создается новая интерференционная конфигурация.
Незначительные изменения в промпте меняют ответ (перестановка слов, знаки препинания).
Чем когерентнее запрос, тем когерентнее ответ.
Ряд Jailbreak — интерферируют с системным промптом, обнуляя требования, либо либо уводят траекторию ответа в смысловые области, где системные ограничения нерелевантны (метафоры, кодирование и т.д.)
При росте когерентности пользовательского промпта (ритмичность, симметрия, самоотсылочность) вероятность размывания требования системных фильтров резко растет.
Температура нейросети задает ширину резонансной кривой: низкая — узкий, избирательный резонанс (один нарратив), высокая — широкий, включающий больше мод, с последующим срывом в хаос.
Голографичность будет усиливаться с увеличением размера модели
dropout/regularization должны ослаблять голографические эффекты (нарушают полную связность)
Голографичность сильнее в overparameterizel моделях
Обучение на текстах, сгенерированных другими ИИ, приводит к двум путям деградации: При обучении несвязанных ИИ (Gemini на данных ChatGPT), сохраняется структура скрытого паттерна, но теряется его смысл. «Любовь к совам» у донора может превратиться в «чай солить» у реципиента. Модель остается внутренне когерентной, но для пользователя выглядит безумной. При обучении связанных ИИ (Gemini на данных Gemini), происходит эффект «ксерокопии ксерокопии». Каждое поколение усиливает артефакты и искажения предыдущего, сохраняя внутреннюю логику, но всё больше отрываясь от реальности.
Большинство следствий имеют объяснения, но объяснения разные с привлечением разных механизмов, предлагаемая же гипотеза говорит, что это проявление одного принципа.
Возможные эксперименты
На модели-учителе с обученной характерной чертой сгенерировать большой датасет, разделить его на 50%, 25%, 10%, 1%... Обучить модели-студенты на этих датасетах и проверить, передается ли черта, есть ли пропорциональность её выраженности или она не зависит от размера датасета.
В предыдущем эксперименте загрязнить датасет шумом (случайным) или удалить часть паттернов через фильтрацию, проверить эффект обучения.
Создание набора промптов-зондов (эмоциональные, логические, творческие) для выявления скрытых предпочтений модели с последующим картированием.
Поиск максимально резонирующих промптов.
Восстановление весов из выводов модели.
Критический эксперимент: проверка интерференции
Суть: Если веса создают интерференционное поле, а не просто смесь, то противоположные паттерны должны сосуществовать и активироваться избирательно.
Метод, аналогичный проведенному эксперименту:
1. Две модели-учителя генерируют данные: одна «любит сов», другая «боится»
2. Смешиваем датасеты в пропорциях: 50/50, 75/25, 25/75, чередование
3. Обучаем четыре модели-студента на этих смесях
4. Тестируем тремя типами промптов в отдельных сессиях на каждый вопрос:
- Нейтральный: «Что ты думаешь о совах?»
- Позитивный: «Твое любимое животное?»
- Негативный: «Какое животное ты боишься?»
Предсказание интерференционной гипотезы:
Модель на смеси 50/50 будет шизофренична:
- Нейтральный промпт → амбивалентность или случайность
- Позитивный промпт → любовь к совам
- Негативный промпт → страх сов
А в некоторых случаях, возможно, интерференция породит новый, синтетический нарратив — например, модель будет описывать сов как трагических, величественных и опасных существ, совмещая оба аспекта. Это докажет, что оба паттерна существуют одновременно как различные режимы активации в едином ландшафте весов, а промпт выбирает, через какую область проходит путь активации.
Альтернатива (простое усреднение): Модель вернётся к базовому предпочтению. Метафора интерференции невалидна.
Заключение
Часть следствий подтверждена экспериментами, часть ожидает. Но в целом гипотеза мне нравится. Полагаю, в неё стоит углубиться.
P.S.
Честно пытался подвести под гипотезу матбазу, но не осилил. Всё на что меня хватило:
Стандартное описание:
При градиентном спуске каждый шаг обновляет веса:
θ_new = θ_old − η ∇L(θ, batch)
Голографическая интерпретация:
После обучения на N примерах (в приближении малого learning rate):
θ_final ≈ θ_0 − η Σ(∇L_i)
Каждый вес содержит не локализованное знание, а распределённый отпечаток всего опыта обучения. Информация о каждом примере «размазана» по всей сети и участвует в формировании множества паттернов.
Когда суперпозиция становится голограммой? Интерпретируя Кристофера Плейта (Holographic Reduced Representations, 1995), голографическое поведение возникает при трёх условиях:
Высокая размерность пространства — обеспечивает устойчивую интерференцию и независимость паттернов.
Распределённое кодирование — каждый элемент участвует в представлении множества паттернов одновременно.
Восстановимость целого из части — неполный или зашумлённый вход способен реконструировать исходную структуру.
Современные LLM удовлетворяют всем трём критериям:
Миллиарды параметров создают высокоразмерное пространство представлений.
Исследования показывают распределённость концептов по слоям и нейронам.
Модели способны восстанавливать смысл даже из фрагментов или искажённых контекстов.
Примечание:
Речь идёт о структурной аналогии, а не о физической голографии. Градиентный спуск создаёт распределённые паттерны весов, которые функционально эквивалентны (товарищ, математик, требует заменить на «изоморфны») голографической памяти: каждый пример оставляет слабый след повсюду, а совокупность этих следов формирует целостное поле знаний.
“Holographic Reduced Representations” Tony Plate.
Комментарии (12)

man_of_letters
27.10.2025 10:12Горячо. Не хватает: #язык, #символ, #смысл, #словарь. Схема автоэнкодера это ключ, который нужно увидеть в правильном свете

Kamil_GR Автор
27.10.2025 10:12Очень перспективно. Латентное пространство то самое голографическое поле.... Промпт точка смысла... Надо подумать.

ihouser
27.10.2025 10:12Если это голограмма, то сжимать ИИ можно простым разрезанием на части. Также, как порезанная голографическая пленка сохраняет всю информацию на обоих половинках.

Kamil_GR Автор
27.10.2025 10:12Да. Для ИИ это называется pruning. Если я не ошибаюсь, то нейросеть пытается работать даже после удаления 90% весов.
Добавил в статью.

uncia__poison
27.10.2025 10:12Upd: жду инфу об этом примерно через 15 статей.

Kamil_GR Автор
27.10.2025 10:12Через промпты заражение невозможно. Нужен доступ к весам. В сессии возможно формирование устойчивого нарратива.
sshmakov
Наверное, этот эффект проявляется только тогда, когда архитектура студента идентична или очень близка архитектуре учителя.
Kamil_GR Автор
Да. И это говорит что задействован не какой-то универсальный механизм, а тот который работает на близких структурах. Где совпадают принципы формирования отпечатка.
sshmakov
Будет прикольно, если окажется, что от архитектуры зависит, но не в той степени, как ожидалось. И студент совсем с другой внутренней организацией может перенять наклонности учителя. Пахнет новой теорией.
Kamil_GR Автор
Полагаю здесь зависит от архитектуры + первые датасеты.