Новое исследование учёных из Университета штата Аризона показывает: знаменитое «цепочечное рассуждение» (Chain-of-Thought, CoT) в больших языковых моделях (LLM) скорее похоже на «хрупкий мираж», чем на проявление подлинного интеллекта. Эта работа продолжает традицию критического анализа глубины рассуждений LLM, но в отличие от предыдущих исследований предлагает уникальный взгляд через призму «распределения данных», который позволяет понять, где и почему CoT систематически даёт сбой.

Дисклеймер: это вольная адаптция статьи издания VentureBeat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Для разработчиков приложений особенно важно то, что статья не ограничивается критикой: она содержит ясные и практические рекомендации — от стратегий тестирования до роли дообучения. Авторы показывают, как учитывать выявленные ограничения при создании решений на основе LLM.

Преимущества и ограничения метода CoT

Метод CoT, когда модель просят «думать шаг за шагом», уже продемонстрировал впечатляющие результаты в ряде сложных задач и создал иллюзию, что модели воспроизводят человеческие процессы вывода. Однако при внимательном анализе часто обнаруживаются логические противоречия, которые подрывают это представление.

Множество исследований показывает: LLM нередко опираются не на истинную логику, а на поверхностные семантические сигналы. Они производят правдоподобно звучащие рассуждения, комбинируя знакомые последовательности токенов из обучающих данных. Такой подход рушится, как только задача выходит за рамки привычных шаблонов или в неё вводятся лишние условия.

Тем не менее авторы исследования отмечают: «систематического понимания того, когда и почему разрушается CoT, до сих пор не существовало». Именно эту задачу они и попытались решить. Уже известно, что LLM с трудом обобщают свои способности к рассуждению. В статье подчёркивается: «теоретические и эмпирические данные показывают, что CoT работает успешно только тогда, когда тестовые данные содержат скрытые структуры, сходные с обучающими; во всех остальных случаях производительность резко падает».

Новый взгляд на рассуждения LLM

Учёные из ASU предлагают рассматривать CoT не как рассуждение, а как утончённую форму сопоставления шаблонов, жёстко привязанную к статистике обучающих данных. По их словам: «успех CoT объясняется не врождённой способностью модели к мышлению, а её умением условно переносить знания на тестовые примеры, структурно схожие с обучающими». Иными словами, LLM способны применять старые схемы к новым данным, если они внешне похожи, но не могут решать принципиально новые задачи.

Чтобы проверить гипотезу, исследователи изучили поведение CoT в трёх измерениях «сдвига распределения» — различий между обучающими и тестовыми данными. Во-первых, рассмотрели «обобщение задач»: может ли модель переносить освоенные приёмы рассуждения на новый тип задач. Во-вторых, исследовали «обобщение по длине» — сохраняется ли корректность рассуждений при цепочках, значительно длиннее или короче привычных. В-третьих, проверили «обобщение по формату» — насколько модель чувствительна к малейшим изменениям в формулировке или структуре подсказки.

Для экспериментов они разработали систему DataAlchemy, которая позволяет обучать небольшие LLM с нуля в строго контролируемых условиях и точно измерять, как снижается результативность при выходе за пределы обучающего распределения.

«Линза распределения данных и контролируемая среда были для нас принципиально важны, — отметил Чэншуай Чжао, аспирант ASU и соавтор статьи, в интервью VentureBeat. — Мы стремимся создать пространство, где общественность, исследователи и разработчики смогут свободно изучать природу LLM и расширять горизонты человеческого знания».

Иллюзия интеллекта доказана

Вывод исследования однозначен: CoT — это «утончённое структурное сопоставление шаблонов, жёстко ограниченное обучающими данными». Малейший выход за пределы распределения приводит к полному провалу. То, что кажется логически последовательным рассуждением, на деле оказывается лишь миражом — результатом запоминания или интерполяции уже известных схем, а не настоящим логическим выводом.

Провалы проявлялись во всех трёх измерениях. На новых задачах модели не обобщали, а воспроизводили ближайшие знакомые паттерны. При изменении длины цепочки они сбивались, часто искусственно добавляя или убирая шаги, чтобы «подогнать» ответ под примеры из обучения. Даже минимальные изменения формулировки подсказки резко снижали точность, особенно если они затрагивали ключевые элементы инструкции.

Любопытно, что эти слабости можно было быстро компенсировать: дообучение на небольшой выборке новых данных при помощи контролируемого fine-tuning (SFT) резко улучшало результативность именно на этой задаче. Однако это лишь подтверждало гипотезу сопоставления шаблонов: модель не училась абстрактным рассуждениям, а просто заучивала новый шаблон для преодоления конкретного изъяна.

Выводы для бизнеса

Учёные напрямую предупреждают практиков: нельзя полагаться на CoT как на универсальное средство рассуждений и уж тем более приравнивать его результаты к человеческому мышлению. Они формулируют три ключевых совета разработчикам:

  1. Остерегайтесь избыточной уверенности. В критически важных областях — таких как финансы или юриспруденция — CoT не должен считаться надёжным инструментом. LLM способны производить «гладкую бессмыслицу» — кажущуюся убедительной, но логически порочную, а потому особенно опасную. «Незаменим строгий аудит со стороны экспертов», подчёркивают авторы.
    «Прогресс науки должен оставаться человекоцентричным — машины могут помогать, но открытия по-прежнему рождаются из человеческой любознательности и мышления», — отмечает Чжао.

  2. Ставьте в приоритет OOD-тестирование. Стандартной валидации, когда тест совпадает с обучением, недостаточно. Необходимо систематически проверять устойчивость модели к сбоям на уровне задач, длины и формата.

  3. Смотрите на fine-tuning как на костыль, а не как на универсальное решение. Контролируемое дообучение позволяет быстро адаптировать модель к новой выборке, но не обеспечивает настоящего обобщения. Оно лишь слегка расширяет «пузырь обученного распределения». Попытка закрывать каждый OOD-сбой с помощью SFT обречена на провал, так как не решает проблему отсутствия абстрактного мышления.

Авторы отмечают: хотя CoT и не является формой человеческого рассуждения, это ограничение можно учитывать. Большинство корпоративных приложений работает в рамках узкого набора задач. В этом случае надёжная стратегия заключается в создании строгих наборов тестов, проверяющих модель именно на тех вариациях задач, длины и формата, которые встречаются в реальной работе. Это позволяет очертить границы «зоны комфорта» модели и сопоставить их с практическими потребностями.

Такое целенаправленное тестирование превращает fine-tuning из реактивного средства в проактивный инструмент настройки. Если выявляется слабое место, разработчики могут собрать небольшой специализированный набор данных и дообучить модель так, чтобы её сопоставление шаблонов было точно согласовано с бизнес-задачами. В итоге исследование предлагает практическую призму: как отказаться от неоправданных надежд и строить системы на основе LLM так, чтобы их поведение было предсказуемым.

Комментарии (9)


  1. Haizer
    20.08.2025 17:06

    Я не особо разбираюсь в нейросетях (потому так много и говорю) Дальше мое имхо, может я чего-то не понимаю но..: Людям правда нужен ответ на вопрос:

    В чем причина того что машина, которая создана что бы угадывать что мы хотим, и которая занимается статистическим обобщением результатов и данных...сыпется в задачах на интеллект при добавлении новых условий?

    ...потому что она на это не рассчитана? Момент где возникает проблема - это момент постановки задач на этапе проектирования ИИ. Нейросеть НЕ может работать за рамками обобщенных результатов и угадываний того что она ЗНАЕТ. Нейросеть не создаёт (в привычном смысле) обобщенных и новых паттернов которые можно применить к разным задачам. Нейросеть не имеет представление о реальном мире и как с ним работать.

    Это причина почему условная кружка будет сука не переворачиваться. Хотите интеллектуального агента?

    1) Забудьте о современных llm-ках. У человека/животных есть интеллект. Других интеллектов мы не знаем - так что ориентироваться надо на этот. (Каким образом он работает? Понятия не имею! Но зато мы знаем как он не работает - он не обучается на гигантских статистиках и безумном количество попыток)

    2) Дайте этой штуке глаза...лучше ещё и ноги. (Это можно делать даже сейчас. Даже с ллмками). Понимания это не добавит, но зато в уравнение добавятся данные о взаимодействии с реальным миром, что может помочь с трехмерными задачами.


    1. Onyix67
      20.08.2025 17:06

      Что значит забудьте о современных llm? Llm сейчас достаточно успешно справляются со многими рутинными задачами. В некоторых случаях - гораздо быстрее (и дешевле!) человека.

      А искусственный интеллект он на то и искусственный. Это иллюзия интеллекта, и никогда он "настоящим" не станет (по крайней мере не текущими алгоритмами и пока мы не поймем, как работает сознание и чувство "я").

      Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг. Но вопрос - а нужно ли вообще человеку, чтобы ИИ работал как "настоящий" интеллект? ИИ уже сейчас является отличным ИНСТРУМЕНТОМ. это инструмент, а не брат по разуму. Воспринимать его нужно именно так.

      Да, он иногда ошибается в задачах на интеллект (далекоо не 100% людей решили бы все те задачи, которыми ИИ тестируют). ИИ уже сейчас пишет неплохие тексты (которые большинство людей не смогли бы написать), создаёт изображения не хуже художников, пишет полноценные программы - лучше многих программистов. И задач, в которых ИИ уже полезен или скоро станет полезным просто тьма.

      И со временем он будет становиться "умнее", пускай при этом он не сам решает интеллектуальные задачи, а в него запихивают решения этих задач.


      1. SabMakc
        20.08.2025 17:06

        Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг.

        Критикуют, в первую очередь, за раздутые ожидания и надувание пузыря. Да, LLM - это полезный инструмент. Но очень дорогой, если его не спонсировать инвесторам. А за полную стоимость он уже далеко не так интересен пользователям.


    1. Germanjon
      20.08.2025 17:06

      В чем причина того что машина, которая создана что бы угадывать что мы хотим, и которая занимается статистическим обобщением результатов и данных.

      Для понимания качества работы "Машины, которая занимается статистическим обобщением результатов" дал в GPT задачу "Отсортируй список банков Узбекистана по алфавиту". Из 30+ текущих банков он вывел 26, причём:

      • Придумал 1 банк.

      • Написал в списке 1 банк, который два года назад закрылся.

      • 1 банк написал с устаревшим названием (переименован два года назад)

      • У двух банков допустил опечатки в названии.

      Сортировка по алфавиту тоже не задалась.

      Дал промт "Выведи отсортированный по алфавиту список банков Узбекистана", количество банков в списке уменьшилось до 24 штук, сортировка стала чуть получше, но не полностью.

      Возникает законный вопрос к качеству работы такого помощника


  1. phenik
    20.08.2025 17:06

    Уже известно, что LLM с трудом обобщают свои способности к рассуждению. В статье подчёркивается: «теоретические и эмпирические данные показывают, что CoT работает успешно только тогда, когда тестовые данные содержат скрытые структуры, сходные с обучающими; во всех остальных случаях производительность резко падает».

    Вывод исследования однозначен: CoT — это «утончённое структурное сопоставление шаблонов, жёстко ограниченное обучающими данными». Малейший выход за пределы распределения приводит к полному провалу. То, что кажется логически последовательным рассуждением, на деле оказывается лишь миражом — результатом запоминания или интерполяции уже известных схем, а не настоящим логическим выводом.

    Чтобы это понять не нужно даже проводить специальных исследований, а вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств, см. 1, 2 с примерами. Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах. ЯМ моделируют пока только ассоциативное мышление и память, а у человека, кроме того, имеется абстрактно-логический уровень мышления, который может использовать любое число циклов при выполнении процедур и специальную процедурную память. Нужно улучшать архитектуру нейросетей ЯМ, а не ограничиваться только трансформерами.


    1. Shannon
      20.08.2025 17:06

      Чтобы это понять не нужно даже проводить специальных исследований, а вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств, см. 1, 2 с примерами. Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах.

      По 1 ссылке как раз противоположное говорится, что модели могут это сделать.
      По 2 ссылке не корректный эксперимент, поэтому там даже 5-значные числа не складывались, промпт автора требовал в ответ только число.

      Более правильный промп был бы такой, который при этом легко парсить:

      Ты получаешь на вход арифметическое выражение. 
      Проведи все необходимые вычисления и в конце напиши ответ в блоке \boxes{}.
      Само выражение:
      5234535646 * 654 + 5243564363456456
      
      Ответ 5246987749768940 правильный
      Ответ 5246987749768940 правильный

      Конечно LLM это не калькулятор, на больших числах точность не будет 100% в любом случае, но вывести какие-то правила и следовать им они могут, могут "прикинуть" ответ, если числа большие, чтобы потом сделать более точные вычисления:

      Пример деления больших чисел
      62 правильный ответ
      62 правильный ответ

      И так как модель это не калькулятор, она может складывать и гигантские BigInt числа, которые не укладываются в стандартный диапазон js чисел или калькулятора. Модель будет долго высчитывать это по шагам по правилам сложения и в итоге выдаст правильный ответ:

      12345678932454325245624562456245624562456 + 98765432132454325245624562456245624562456
      
      Ответ от LLM и результат в js совпадают
      Ответ 111111111064908650491249124912491249124912 правильный
      Ответ 111111111064908650491249124912491249124912 правильный


  1. FSmile
    20.08.2025 17:06

    Выводы для бизнеса: посчитайте стоимость владения llm. а что такие лица грустные?


  1. Shannon
    20.08.2025 17:06

    del


  1. BorisG
    20.08.2025 17:06

    Эти статьи носят больше философский характер, взяли маленькую модель и сделали по ней выводы, не понятно сильно ли отличаются рассуждения людей от ИИ, думаю что не сильно.