Как обучение с подкреплением перестраивает мышление LLM / forpes.ru

Главная
Как обучение с подкреплением перестраивает мышление LLM

Как обучение с подкреплением перестраивает мышление LLM +1

14.09.2025 12:01

andre_dataist 0 1400 Источник

Задачи на рассуждение — больное место многих ИИ-систем, даже если у них хорошие фактические знания. Новая работа показывает, что усиление через RL (Reinforcement Learning, обучение с подкреплением) не просто повышает точность, а перестраивает внутреннюю логику модели: появляется иерархия от низкоуровневого исполнения до высокоуровневого планирования. Отсюда понятно, почему мы видим те самые aha-моменты. А главное — становится ясно, почему привычные алгоритмы распределяют усилия не туда и как это исправить.

Рассуждение с выделенными планирующими токенами: высокоуровневые шаги — дедукция, ветвление, бэктрекинг.

Как отличить планирование от исполнения

Авторы исследования вводят простой, но полезный прокси: Strategic Grams (SG) — устойчивые 3–5-граммы, которые управляют ходом решения. Это шаблоны вроде “let’s try”, “we can use”, “but the problem mentions” и т. п. Токены, входящие в такие n-граммы, считаются планирующими; остальные — для исполнения: считать, подставлять, применять формулы. Набор SG собирают из успешных решений и аннотируют наполовину автоматически, наполовину вручную. Получается функциональная раскладка по ролям, не завязанная на поверхностные признаки.

Что происходит во время обучения

Сначала модель доводит до автоматизма операции исполнения: резко падает перплексия и энтропия на этих токенах — уверенность растет, ошибок меньше. Это быстрый этап, особенно для уже сильных LLM, где низы изначально неплохо отлажены.

Затем фронт обучения смещается в стратегию: растет разнообразие стратегических ходов, цепочки рассуждений становятся длиннее и упорядоченнее, точность продолжает расти — уже за счет планирования. Здесь и рождаются aha-моменты: модель находит новые приемы, осваивает разветвления, бэктрекинг и рефлексию.

Двухфазная динамика: быстрая консолидация исполнения, затем рост стратегического разнообразия и длины рассуждений.

Почему обычные метрики путают следы

Энтропия токенов падает, потому что основную массу текста составляют токены исполнения, где уверенность после RL возрастает. Можно решить, что исследование стратегий угасает — и ошибиться. Куда точнее смотреть на семантическую энтропию по стратегическим n-граммам: она растет, когда модель расширяет репертуар планов, и лучше коррелирует с итоговой точностью.

Планирующие токены часто высокоэнтропийны, но большинство высокоэнтропийных токенов не являются планирующими. Функциональная метка надежнее.

Если бутылочное горлышко — стратегия, не стоит равномерно раздавать градиент по всем токенам, как это делает метод GRPO. Предлагается HICRA (HIerarchy-Aware Credit Assignment) — надстройка над GRPO, которая усиливает позитивный кредит и смягчает штраф именно на планирующих токенах. Формально это масштабирование преимущества на стратегических позициях с коэффициентом α=0.2. Политика сдвигается в подпространство стратегий, растет шанс открыть удачные планы и закрепить их.

HICRA повышает семантическую энтропию — то есть разнообразие стратегий — устойчивее, чем GRPO.

Что показали эксперименты

Тестировали на Qwen2.5-7B, Qwen3-4B, Llama‑3.1‑8B и MiMO‑VL‑7B, от базовых до instruct-вариантов; в бенчмарках — AIME24/25, Math500, AMC23, Minerva, Olympiad и др. Картина повторяется: HICRA стабильно превосходит GRPO.

На Qwen3‑4B‑Instruct приросты заметны даже при сильной базе: AIME24 с 63.1 до 65.9, AIME25 — с 58.8 до 62.1, AMC23 — с 76.8 до 82.5, Olympiad — с 55.6 до 59.7. На Qwen3‑4B‑Base щедрые добавки на Math500: с 83 до 89. На Qwen2.5‑7B‑Base HICRA выигрывает у GRPO на всех задачах, особенно на AMC23: плюс 8.4 пункта. В мультимодальной настройке метрика Pass@K быстро насыщается, но семантическая энтропия продолжает отличать методы — и HICRA снова впереди.

Энтропийная регуляризация наказывает и поощряет не там: растит пустую вариативность исполнения и длину ответа, но не точность. HICRA таргетирует стратегию и выигрывает.

На что именно влияет RL

Разметка ошибок показывает: в ходе RL быстрее всего исчезают стратегические промахи, а не процедурные. И это логично: неверный план обнуляет идеальное исполнение. Значит, правильное целеполагание должно подталкивать именно к поиску и закреплению стратегий.

RL сильнее снижает долю стратегических ошибок, чем прочих.

Где метод буксует и что дальше

HICRA требует базовой надежности исполнения. На Llama‑3.1‑Instruct форсирование стратегии без прочного низового навыка ведет к нестабильности и не обгоняет GRPO. Вывод простой: нужен адаптивный режим, который понимает текущее узкое место — сначала укрепляем процедуры, потом усиливаем планирование.

Пример применения HICRA к Llama‑3.1‑Instruct: без прочных процедур стратегический буст нестабилен.

Почему это важно

Идея иерархии и распределение по ролям переносится не только на математику. Код, научные рассуждения, длинное планирование текста, мультиагентная система с распределением функций — всюду, где стратегия и исполнение различимы, полезно усиливать именно стратегические токены и измерять прогресс через семантическую энтропию. Это делает обучение более предсказуемым и экономит попытки.

В мультимодальной MiMO‑VL энтропия токенов может схлопываться, но семантическая остаётся информативной и предсказывает качество.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)

Zippy
14.09.2025 12:47
#28834846
У LLM нет никакого "мышления".. есть алгоритм вычисления наиболее вероятного следуюзего в тексте слова.
1. andre_dataist Автор
  14.09.2025 12:47
  #28834882
  А у вас?
  
  Статья "The Predictive Brain: Neural Correlates of Word Expectancy Align with Large Language Model Prediction Probabilities":
  
  Человеческий мозг предсказывает следующее слово в речи, и это похоже на то, как работают большие языковые модели.
  
  Участникам давали слушать аудиокнигу, параллельно записывали EEG и MEG.
  
  Предсказуемость слов оценивалась с помощью BERT.
  
  Результаты:
  
  Чем предсказуемее слово, тем меньше усилий мозг тратит на его обработку.
  
  Перед появлением ожидаемого слова в мозге уже была предварительная активация в зонах речи.
  
  Для неожиданных слов подключались более широкие области, включая сенсомоторные.
  
  Вывод: мозг использует predictive coding — заранее прогнозирует слова и снижает когнитивную нагрузку, если прогноз совпадает с реальностью. Это связывает нейрофизиологию человека и работу LLM, которые тоже делают предсказание следующего слова.
  1. NeriaLab
    14.09.2025 12:47
    #28835036
    Мозг и LLM действительно оба "предсказывают следующее слово", но на этом сходство заканчивается. У мозга это часть predictive coding - всеобъемлющей нейрофизиологической стратегии: он строит внутреннюю модель мира, чтобы экономить ресурсы. Мало активируется в тот момент, если прогноз совпадает с реальностью. Это не просто предсказание текста - это прогноз звука, смысла, эмоции, последствий. LLM же делает лишь статистическую аппроксимацию на основе контекста, без понимания, цели или модели реальности. Он не "экономит усилия", не "удивляется", не перестраивает картину мира, а просто генерирует наиболее вероятный токен.
    
    Сравнивать их - это всё равно что сказать: "человек и камера видят лицо - значит, восприятие устроено одинаково". Формально - да, оба фиксируют образ, но по сути - нет. Один понимает, кто перед ним, другой - сопоставляет пиксели. Так и здесь, сходство в поведении не означает общность механизма. Мозг предсказывает, чтобы жить эффективнее, LLM - чтобы выдать правдоподобный ответ.
    
    Ошибка исследования в редукции сложной когнитивной теории к поверхностному эффекту. Да, нейрофизиология подтверждает предсказательную природу восприятия. Но из этого нельзя выводить, что LLM работает как мозг. Он может имитировать один аспект, но не воспроизводит ни целостности, ни смысла, ни адаптивной цели. Это не аналогия - это ложная эквивалентность на уровне формы без учёта сути.
    
    axion-1
    14.09.2025 12:47
    #28835066
    Но из этого нельзя выводить, что LLM работает как мозг.
    
    Насколько понимаю, никто этого в здравом уме и не утверждает. Копья ломаются на тему авторегрессионной модели, что сам факт того что модель (или мозг) "предсказывают следующее слово", якобы доказывает их неспособность к интеллектуальной деятельности.
    
    NeriaLab
    14.09.2025 12:47
    #28835270
    Когда человек говорит слово, оно не появляется просто так, оно - конец длинной цепочки мыслей. Сначала возникает намерение: хочется что-то объяснить, спросить, поделиться чувством. Потом формируется смысловая картина: "что именно я хочу сказать". Это может быть образ, эмоция или логическая связь и всё это ещё без слов. Только потом мозг подбирает подходящие слова, строит фразу и произносит её. Слово здесь не цель, а инструмент.
    
    В LLM же всё устроено наоборот. Там нет намерения, нет внутреннего опыта, нет желания донести смысл. У модели есть только один механизм - предсказать, какое слово наиболее вероятно после предыдущих. Она не "думает, чтобы сказать", она "говорит, потому что так написано в данных". Её слова рождаются не из мысли, а из статистики, как продолжение текстового паттерна, выученного на "триллионах" примеров. Даже в задачах, где кажется, что модель "понимает" другого, например, в тестах на Theory of Mind (ToM), то она не строит модель чужих убеждений, а воспроизводит шаблоны.
    
    LLM показывают высокие результаты в некоторых (!) ToM-задачах. Но это не "понимание", а статистическая интерполяция. Как показано в анализе трансформеров, их ответы меняются при "перефразировке", они не "обобщают" новые сценарии и не могут модифицировать модель при конфликте с ожиданием, что является сутью когнитивного процесса.
    
    На конференции "CogSci 2024" Сакс представила исследование, сравнивающее детей, взрослых и LLM в задачах на "false belief" с "новыми, нестандартными сюжетами". Она показала: "Где дети 4–5 лет справляются с обобщением с первого раза, там LLM проваливаются, если сценарий не совпадает с обучающими данными.". В этом году, MIT представил отчет, что ни одна LLM не прошла ToM. Максимальный результат - 46 ед. и это "стандартные" вопросы.
    
    Поэтому, сравнивать эти процессы - это всё равно что сравнивать живую речь и запись автоответчика. Да, оба воспроизводят звуки. Но одно - проявление сознания, другое - реакция на сигнал. Мозг предсказывает слова, потому что "понимает мир" и "хочет общаться". LLM - потому что обучена на больших данных. Разница не в результате, а в источнике: один процесс начинается с мысли, то другой - с токенов. И пока существует пропасть между смыслом и статистикой, то говорить о единой природе интеллекта, как минимум - преждевременно.
    
    axion-1
    14.09.2025 12:47
    #28835300
    Когда человек говорит слово, оно не появляется просто так, оно - конец длинной цепочки мыслей. Сначала возникает намерение: хочется что-то объяснить, спросить, поделиться чувством. Потом формируется смысловая картина: "что именно я хочу сказать". Это может быть образ, эмоция или логическая связь и всё это ещё без слов. Только потом мозг подбирает подходящие слова, строит фразу и произносит её. Слово здесь не цель, а инструмент.
    
    А вы уверены что модель не формирует смысловую картину того что она пишет, до того как облечь её в словесную форму? По-моему, совершенно очевидно что формирует, иначе бы она выдавала бессмыслицу. То как это переводится в текст не играет особой роли, это может быть и "предсказание вероятности следующего слова" и, например, диффузионная модель. Так же как и человек, который может одну и ту же мысль сказать голосом, написать на бумаге или показать жестами.
    
    NeriaLab
    14.09.2025 12:47
    #28835318
    Человек может выразить одну мысль голосом, жестом или текстом, так как мысль первична. LLM может использовать разные архитектуры: автогрегрессию или диффузию, но везде токены первичны.
    
    И пока это так, говорить о равнозначных формах выражения одной "мысли", значит путать форму с содержанием.
    
    axion-1
    14.09.2025 12:47
    #28838720
    Так и про человека можно то же самое сказать, первична не мысль а электросигналы в мозгу. Доказать что нейросеть в этом плане принципиально отличается от человека достаточно легко - привести в пример класс задач которые решаются человеком и не решаются нейросетями никак. Причём никак - это вообще никак, а не "хуже на 20% чем лучшие профессионалы из людей".
    
    NeriaLab
    14.09.2025 12:47
    #28838758
    Сравнивать электросигналы в мозге и токены в нейросети, всё равно что сравнивать удар молотком по гвоздю и мыслить о строительстве дома. Да, оба события требуют энергии и происходят во времени. Но одно - следствие намерения, другое - его имитация.
    
    У человека мысль, онтологически, первична, даже если она реализована через электрохимию. Она "организует" эти процесы вокруг смысла, цели, контекста. У LLM - токен первичен и все "картины", "логика", "понимание" - это производные от последовательности символов, а не наоборот. Модель не может хотеть сказать, она может только продолжить.
    
    axion-1
    14.09.2025 12:47
    #28838786
    Если оставаться в рамках материализма, нет, мысль не первична. Это результат процессов в мозгу, на основе входных данных от органов чувств.
    
    "Хотеть" сказать, да, модель не может, потому что её этому не обучали. Скорее всего это и к лучшему. Желания, эмоции и прочее свойственны и животным, это не признак интеллекта.

axion-1
14.09.2025 12:47
#28834964
"Обучение, шмобучение... Это просто мешок слов предсказывающий следующий токен!" /s