Новое исследование учёных из Университета штата Аризона показывает: знаменитое «цепочечное рассуждение» (Chain-of-Thought, CoT) в больших языковых моделях (LLM) скорее похоже на «хрупкий мираж», чем на проявление подлинного интеллекта. Эта работа продолжает традицию критического анализа глубины рассуждений LLM, но в отличие от предыдущих исследований предлагает уникальный взгляд через призму «распределения данных», который позволяет понять, где и почему CoT систематически даёт сбой.

Дисклеймер: это вольная адаптция статьи издания VentureBeat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Для разработчиков приложений особенно важно то, что статья не ограничивается критикой: она содержит ясные и практические рекомендации — от стратегий тестирования до роли дообучения. Авторы показывают, как учитывать выявленные ограничения при создании решений на основе LLM.

Преимущества и ограничения метода CoT

Метод CoT, когда модель просят «думать шаг за шагом», уже продемонстрировал впечатляющие результаты в ряде сложных задач и создал иллюзию, что модели воспроизводят человеческие процессы вывода. Однако при внимательном анализе часто обнаруживаются логические противоречия, которые подрывают это представление.

Множество исследований показывает: LLM нередко опираются не на истинную логику, а на поверхностные семантические сигналы. Они производят правдоподобно звучащие рассуждения, комбинируя знакомые последовательности токенов из обучающих данных. Такой подход рушится, как только задача выходит за рамки привычных шаблонов или в неё вводятся лишние условия.

Тем не менее авторы исследования отмечают: «систематического понимания того, когда и почему разрушается CoT, до сих пор не существовало». Именно эту задачу они и попытались решить. Уже известно, что LLM с трудом обобщают свои способности к рассуждению. В статье подчёркивается: «теоретические и эмпирические данные показывают, что CoT работает успешно только тогда, когда тестовые данные содержат скрытые структуры, сходные с обучающими; во всех остальных случаях производительность резко падает».

Новый взгляд на рассуждения LLM

Учёные из ASU предлагают рассматривать CoT не как рассуждение, а как утончённую форму сопоставления шаблонов, жёстко привязанную к статистике обучающих данных. По их словам: «успех CoT объясняется не врождённой способностью модели к мышлению, а её умением условно переносить знания на тестовые примеры, структурно схожие с обучающими». Иными словами, LLM способны применять старые схемы к новым данным, если они внешне похожи, но не могут решать принципиально новые задачи.

Чтобы проверить гипотезу, исследователи изучили поведение CoT в трёх измерениях «сдвига распределения» — различий между обучающими и тестовыми данными. Во-первых, рассмотрели «обобщение задач»: может ли модель переносить освоенные приёмы рассуждения на новый тип задач. Во-вторых, исследовали «обобщение по длине» — сохраняется ли корректность рассуждений при цепочках, значительно длиннее или короче привычных. В-третьих, проверили «обобщение по формату» — насколько модель чувствительна к малейшим изменениям в формулировке или структуре подсказки.

Для экспериментов они разработали систему DataAlchemy, которая позволяет обучать небольшие LLM с нуля в строго контролируемых условиях и точно измерять, как снижается результативность при выходе за пределы обучающего распределения.

«Линза распределения данных и контролируемая среда были для нас принципиально важны, — отметил Чэншуай Чжао, аспирант ASU и соавтор статьи, в интервью VentureBeat. — Мы стремимся создать пространство, где общественность, исследователи и разработчики смогут свободно изучать природу LLM и расширять горизонты человеческого знания».

Иллюзия интеллекта доказана

Вывод исследования однозначен: CoT — это «утончённое структурное сопоставление шаблонов, жёстко ограниченное обучающими данными». Малейший выход за пределы распределения приводит к полному провалу. То, что кажется логически последовательным рассуждением, на деле оказывается лишь миражом — результатом запоминания или интерполяции уже известных схем, а не настоящим логическим выводом.

Провалы проявлялись во всех трёх измерениях. На новых задачах модели не обобщали, а воспроизводили ближайшие знакомые паттерны. При изменении длины цепочки они сбивались, часто искусственно добавляя или убирая шаги, чтобы «подогнать» ответ под примеры из обучения. Даже минимальные изменения формулировки подсказки резко снижали точность, особенно если они затрагивали ключевые элементы инструкции.

Любопытно, что эти слабости можно было быстро компенсировать: дообучение на небольшой выборке новых данных при помощи контролируемого fine-tuning (SFT) резко улучшало результативность именно на этой задаче. Однако это лишь подтверждало гипотезу сопоставления шаблонов: модель не училась абстрактным рассуждениям, а просто заучивала новый шаблон для преодоления конкретного изъяна.

Выводы для бизнеса

Учёные напрямую предупреждают практиков: нельзя полагаться на CoT как на универсальное средство рассуждений и уж тем более приравнивать его результаты к человеческому мышлению. Они формулируют три ключевых совета разработчикам:

  1. Остерегайтесь избыточной уверенности. В критически важных областях — таких как финансы или юриспруденция — CoT не должен считаться надёжным инструментом. LLM способны производить «гладкую бессмыслицу» — кажущуюся убедительной, но логически порочную, а потому особенно опасную. «Незаменим строгий аудит со стороны экспертов», подчёркивают авторы.
    «Прогресс науки должен оставаться человекоцентричным — машины могут помогать, но открытия по-прежнему рождаются из человеческой любознательности и мышления», — отмечает Чжао.

  2. Ставьте в приоритет OOD-тестирование. Стандартной валидации, когда тест совпадает с обучением, недостаточно. Необходимо систематически проверять устойчивость модели к сбоям на уровне задач, длины и формата.

  3. Смотрите на fine-tuning как на костыль, а не как на универсальное решение. Контролируемое дообучение позволяет быстро адаптировать модель к новой выборке, но не обеспечивает настоящего обобщения. Оно лишь слегка расширяет «пузырь обученного распределения». Попытка закрывать каждый OOD-сбой с помощью SFT обречена на провал, так как не решает проблему отсутствия абстрактного мышления.

Авторы отмечают: хотя CoT и не является формой человеческого рассуждения, это ограничение можно учитывать. Большинство корпоративных приложений работает в рамках узкого набора задач. В этом случае надёжная стратегия заключается в создании строгих наборов тестов, проверяющих модель именно на тех вариациях задач, длины и формата, которые встречаются в реальной работе. Это позволяет очертить границы «зоны комфорта» модели и сопоставить их с практическими потребностями.

Такое целенаправленное тестирование превращает fine-tuning из реактивного средства в проактивный инструмент настройки. Если выявляется слабое место, разработчики могут собрать небольшой специализированный набор данных и дообучить модель так, чтобы её сопоставление шаблонов было точно согласовано с бизнес-задачами. В итоге исследование предлагает практическую призму: как отказаться от неоправданных надежд и строить системы на основе LLM так, чтобы их поведение было предсказуемым.

Комментарии (27)


  1. Haizer
    20.08.2025 17:06

    Я не особо разбираюсь в нейросетях (потому так много и говорю) Дальше мое имхо, может я чего-то не понимаю но..: Людям правда нужен ответ на вопрос:

    В чем причина того что машина, которая создана что бы угадывать что мы хотим, и которая занимается статистическим обобщением результатов и данных...сыпется в задачах на интеллект при добавлении новых условий?

    ...потому что она на это не рассчитана? Момент где возникает проблема - это момент постановки задач на этапе проектирования ИИ. Нейросеть НЕ может работать за рамками обобщенных результатов и угадываний того что она ЗНАЕТ. Нейросеть не создаёт (в привычном смысле) обобщенных и новых паттернов которые можно применить к разным задачам. Нейросеть не имеет представление о реальном мире и как с ним работать.

    Это причина почему условная кружка будет сука не переворачиваться. Хотите интеллектуального агента?

    1) Забудьте о современных llm-ках. У человека/животных есть интеллект. Других интеллектов мы не знаем - так что ориентироваться надо на этот. (Каким образом он работает? Понятия не имею! Но зато мы знаем как он не работает - он не обучается на гигантских статистиках и безумном количество попыток)

    2) Дайте этой штуке глаза...лучше ещё и ноги. (Это можно делать даже сейчас. Даже с ллмками). Понимания это не добавит, но зато в уравнение добавятся данные о взаимодействии с реальным миром, что может помочь с трехмерными задачами.


    1. Onyix67
      20.08.2025 17:06

      Что значит забудьте о современных llm? Llm сейчас достаточно успешно справляются со многими рутинными задачами. В некоторых случаях - гораздо быстрее (и дешевле!) человека.

      А искусственный интеллект он на то и искусственный. Это иллюзия интеллекта, и никогда он "настоящим" не станет (по крайней мере не текущими алгоритмами и пока мы не поймем, как работает сознание и чувство "я").

      Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг. Но вопрос - а нужно ли вообще человеку, чтобы ИИ работал как "настоящий" интеллект? ИИ уже сейчас является отличным ИНСТРУМЕНТОМ. это инструмент, а не брат по разуму. Воспринимать его нужно именно так.

      Да, он иногда ошибается в задачах на интеллект (далекоо не 100% людей решили бы все те задачи, которыми ИИ тестируют). ИИ уже сейчас пишет неплохие тексты (которые большинство людей не смогли бы написать), создаёт изображения не хуже художников, пишет полноценные программы - лучше многих программистов. И задач, в которых ИИ уже полезен или скоро станет полезным просто тьма.

      И со временем он будет становиться "умнее", пускай при этом он не сам решает интеллектуальные задачи, а в него запихивают решения этих задач.


      1. SabMakc
        20.08.2025 17:06

        Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг.

        Критикуют, в первую очередь, за раздутые ожидания и надувание пузыря. Да, LLM - это полезный инструмент. Но очень дорогой, если его не спонсировать инвесторам. А за полную стоимость он уже далеко не так интересен пользователям.


        1. edo1h
          20.08.2025 17:06

          Прямо очень дорогой? Локальные модели тоже работают, а стоимость железа для их запуска, очевидно, будет снижаться


          1. SabMakc
            20.08.2025 17:06

            Локальные модели не станут массовым явлением - просто потому что требуют подбора под железо оптимальной модели по навыкам, размеру и скорости работы. И все равно будет много компромиссов - всегда хочется большего. Так что локальные LLM останутся уделом энтузиастов. Ну или какой софт будет использовать небольшие узкоспециализированные модели для своей работы (как уже поступают фото- и видео-редакторы).

            Так что "облачные" LLM никуда не уйдут - они, в первую очередь, удобны пользователям.


    1. Germanjon
      20.08.2025 17:06

      В чем причина того что машина, которая создана что бы угадывать что мы хотим, и которая занимается статистическим обобщением результатов и данных.

      Для понимания качества работы "Машины, которая занимается статистическим обобщением результатов" дал в GPT задачу "Отсортируй список банков Узбекистана по алфавиту". Из 30+ текущих банков он вывел 26, причём:

      • Придумал 1 банк.

      • Написал в списке 1 банк, который два года назад закрылся.

      • 1 банк написал с устаревшим названием (переименован два года назад)

      • У двух банков допустил опечатки в названии.

      Сортировка по алфавиту тоже не задалась.

      Дал промт "Выведи отсортированный по алфавиту список банков Узбекистана", количество банков в списке уменьшилось до 24 штук, сортировка стала чуть получше, но не полностью.

      Возникает законный вопрос к качеству работы такого помощника


    1. edo1h
      20.08.2025 17:06

      Но зато мы знаем как он не работает - он не обучается на гигантских статистиках и безумном количество попыток

      Ну да, с ребёнком первый год его жизни разговаривают, он в ответ начинает говорить сначала слоги, потом слова, а ещё через год так и простые предложения. Это, конечно, не «гигантские статистики и количество попыток».


      1. Affdey
        20.08.2025 17:06

        Так можно и попугая научить говорить, даже предложениями. Но это будет говорящий попугай. Потому что "думалка" это другое, это не про речь и у ребёнка тоже развитие соображения это не равно развитие речи. И эти LLM как попугай - говорят, но не думают (не настолько думают, как говорят), поэтому незачем ожидать от них мыслительных процессов


        1. edo1h
          20.08.2025 17:06

          я забыл, когда попугаи стали решать задачи математических олимпиад?


    1. Hardcoin
      20.08.2025 17:06

      Да, вы не особо разбираетесь в нейросетях. Попытка дать совет при этом звучит забавно, знаете Шарикова из Собачьего сердца?

      Если кратко - да, людям правда нужна причина. Исследователям нужна причина на всё, в этом суть большинства исследований - найти какие-нибудь фундаментальные причины.


  1. phenik
    20.08.2025 17:06

    Уже известно, что LLM с трудом обобщают свои способности к рассуждению. В статье подчёркивается: «теоретические и эмпирические данные показывают, что CoT работает успешно только тогда, когда тестовые данные содержат скрытые структуры, сходные с обучающими; во всех остальных случаях производительность резко падает».

    Вывод исследования однозначен: CoT — это «утончённое структурное сопоставление шаблонов, жёстко ограниченное обучающими данными». Малейший выход за пределы распределения приводит к полному провалу. То, что кажется логически последовательным рассуждением, на деле оказывается лишь миражом — результатом запоминания или интерполяции уже известных схем, а не настоящим логическим выводом.

    Чтобы это понять не нужно даже проводить специальных исследований, а вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств, см. 1, 2 с примерами. Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах. ЯМ моделируют пока только ассоциативное мышление и память, а у человека, кроме того, имеется абстрактно-логический уровень мышления, который может использовать любое число циклов при выполнении процедур и специальную процедурную память. Нужно улучшать архитектуру нейросетей ЯМ, а не ограничиваться только трансформерами.


    1. Shannon
      20.08.2025 17:06

      Чтобы это понять не нужно даже проводить специальных исследований, а вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств, см. 1, 2 с примерами. Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах.

      По 1 ссылке как раз противоположное говорится, что модели могут это сделать.
      По 2 ссылке не корректный эксперимент, поэтому там даже 5-значные числа не складывались, промпт автора требовал в ответ только число.

      Более правильный промп был бы такой, который при этом легко парсить:

      Ты получаешь на вход арифметическое выражение. 
      Проведи все необходимые вычисления и в конце напиши ответ в блоке \boxes{}.
      Само выражение:
      5234535646 * 654 + 5243564363456456
      
      Ответ 5246987749768940 правильный
      Ответ 5246987749768940 правильный

      Конечно LLM это не калькулятор, на больших числах точность не будет 100% в любом случае, но вывести какие-то правила и следовать им они могут, могут "прикинуть" ответ, если числа большие, чтобы потом сделать более точные вычисления:

      Пример деления больших чисел
      62 правильный ответ
      62 правильный ответ

      И так как модель это не калькулятор, она может складывать и гигантские BigInt числа, которые не укладываются в стандартный диапазон js чисел или калькулятора. Модель будет долго высчитывать это по шагам по правилам сложения и в итоге выдаст правильный ответ:

      12345678932454325245624562456245624562456 + 98765432132454325245624562456245624562456
      
      Ответ от LLM и результат в js совпадают
      Ответ 111111111064908650491249124912491249124912 правильный
      Ответ 111111111064908650491249124912491249124912 правильный


      1. phenik
        20.08.2025 17:06

        По 1 ссылке как раз противоположное говорится, что модели могут это сделать.

        Сорру, правильная ссылка на комент, ниже ссылка на другой пример.

        Люди собирали статистику, им больше доверия. По логике, если ЯМ используют CoT, то точность будет зависеть от объема контекстного окна. У вас примеры простые с целыми числами, речь о любых. Проверьте с вещественные стозначные и со сто знаков после запятой сгенерированные случайно с набором статистики. Если проверять, то корректно. Да, на практике такие числа практически не встречаются, но это дело принципа, сравнения с возможностями человека, как мотив для развития ЯМ. Когда-то и такие числа могут быть востребованы, и что это будет за ИИ, который не может правильно обучиться достаточно простой для человеческого интеллекта задаче обобщения? Таких процедур не мало, если эволюция отвела для них даже отдельный вид памяти.

        В чем вообще проблема. Символическое сложение и умножение циклические процедуры. Со школы обучившись этой процедуре на примерах и объяснениях учителей навык оседает в процедурной памяти, как, например, и навык вождения авто после обучения. Проводились даже исследование таких навыков с визуализацией активности мозга, где и как, и такая цикличность была зафиксирована. В мозге связи рекуррентные. В ЯМ с трансформерной архитектурой, а сами они прямые сети, организовать цикличность можно только через внешний авторегрессионный цикл, и в этом проблема, из-за конечности размера окна.

        Спасибо за примеры генерации. У меня их тоже полно, правда где-то годовой давности, и там ошибок немало. Не раз обсуждал эту тему - ветка с многими примерами, пример, правда, со степенями, ветка о причинах ошибок. Но приведенные примеры возможно несколько устарели, и уже правильно вычисляются в новых моделях, обучающие выборки растут в объеме и числе параметров моделей. Но все примеры с числами в выборках все равно не охватить.


        1. Shannon
          20.08.2025 17:06

          вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств
          Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах.
          Когда-то и такие числа могут быть востребованы, и что это будет за ИИ, который не может правильно обучиться достаточно простой для человеческого интеллекта задаче обобщения?

          По вашему утверждению выходит, что школяр способен умножить 15580146 на 550624703 без калькулятора и не ошибиться ни в одной из цифр.

          Многие ошибочно считают, что модель это большая коробка, где внутри она думает, размышляет как лучше ответить и на выходе просто выдает слова. Модель называется моделью не просто так, это не база данных, не коробка с мозгом, это моделирование какого-то процесса.

          Люди собирали статистику, им больше доверия.
          Если проверять, то корректно.

          Проверять корректно это не сказать "умножь 2 гигантских числа и выдай ответ".

          Недавнее золото на олимпиаде от LLM показало, что модель способна делать куда более сложные вычисления, без сторонних средств, нужно "всего-лишь" 10 страниц детальных инструкций в системный промпт. Сам промпт уже выкладывали.

          Для корректной проверки утверждения "ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров" пойти хотя бы похожим путём:

          ### Выведи правило умножения чисел по шагам.
          ### Выведи правило складывая чисел по шагам.
          ### Умножай числа по всем шагам правила умножения.
          ### Cкладывай числа по всем шагам правила сложения.
          ### Если число большое, делай разбивку на большее количество шагов.
          
          Умножь 15580146 и 550624703. Финальный ответ напиши в \boxed{}
          
          Модель приступает к умножению
          Модель приступает к сложению

          8578776499523438 - ответ модели
          8578813263946638 - правильный ответ

          Ответ не правильный, хотя в общих чертах выглядит похоже, ошибка в нескольких разрядах. Тут нет проблемы с тем, что модель не может вывести универсальную процедуру, процедура выведена верно, следование процедуре тоже верное. Проверим вручную, где возникла ошибка.

          Промежуточный результат умножения. С учётом сдвига, все числа правильные:

          46740438
          0
          109061022
          62320584
          31160292
          93480876 
          0
          77900730
          77900730
          

          Значит ошибка должна быть на этапе сложения. Посмотрим, что выдала модель:

          46740438
          000000000
          1090610220
          6232058400
          31160292000
          934808760000
          0000000000000
          77900730000000
          779007300000000
          

          Внимательно приглядевшись, видно, что проблема тут начинается на 3 разряде. Вместо двух 0, добавлен 1 ноль. Если вручную сложить все числа с правильным добавлением 0 разрядов, то ответ будет правильный.

          И это проблема не модели, а проблема токенизатора.

          Даже если у LLM будут рекурсивные вычисления внутри, ещё до вывода наружу, это не поможет умножать столь гигантские числа без ошибок в паре цифр просто по статистике, потому что остается фактор температуры и токенизатора - внешние для модели факторы. Это как оценивать возможности модели по тому, может ли она подсчитать количество r в strawberry, игнорируя фактор токенизатора.

          Снизим температуру до 0 и попробуем рассказать модели, что у неё есть проблема токенизатора. Во всех случаях запуск локально на модели Qwen3-Coder-480B-A35B-Instruct-UD-Q2_K_XL, каждый раз новый чистый чат, чтобы не было фактора кэширования или ещё чего-то.

          Изменим промпт так:

          ### Выведи правило умножения чисел по шагам.
          ### Выведи правило складывая чисел по шагам.
          ### Умножай числа по всем шагам правила умножения.
          ### Cкладывай числа по всем шагам правила сложения.
          ### Если число большое, делай разбивку на большее количество шагов.
          
          Учти, что у тебя проблема с токенизатором, когда ты добавляешь разрядные 0, может быть ошибка с их количеством. Тебе нужно придумать другой способ сложения после умножения.
          
          Умножь 15580146 и 550624703. Финальный ответ напиши в \boxed{}
          
          Модель считает с учётом проблемы токенизатора

          8578813263946638 - ответ модели
          8578813263946638 - правильный ответ

          Это помогло избавиться от двух внешних факторов и теперь результат правильный.

          Это не означает, что модель всегда будет считать правильно даже так, это чтобы показать, что "если проверять, то корректно", то внешние от модели факторы играют большую роль.


          1. phenik
            20.08.2025 17:06

            По вашему утверждению выходит, что школяр способен умножить 15580146 на 550624703 без калькулятора и не ошибиться ни в одной из цифр.

            В принципе столбиком может сложить и умножить любые числа на бумаге с ручкой, если освоил процедуру. Обратите внимание в принципе всегда, т.к человек сделал, первое, обобщение, и второе, оно действует, как навык, человеку не нужно каждый раз инструктировать, когда и как его применять. Ошибки могут возникать только из-за невнимания, т.е. случайно, это биология, но человек может их сам исправить в соответствии с процедурой. Есть конечно уникумы, которые делают подобное в уме, для них даже проводятся чемпионаты. Вычисления на мысленных абаках показывают еще более впечатляющие результаты, но это все специальные техники. Речь именно о символических вычислениях.

            Что с ЯМ? Дело в принципе. Могут они обобщить счет на конечном числе примеров, или нет? Ответ - пока нет! И точно вычислять, какие бы установки для них делали, естественно предполагается установка "жадного" режима сэмплирования, тоже нет. Какие обобщения могут делать ЯМ с учетом их текущей архитектуры? Только аппроксимации, нейронные сети универсальные аппроксиматоры, думаю вы в курсе. Если для обобщения требуется конечное число примеров, как в примере здесь (в разделе "Ну а что там со сложением-то?"), то может произойти их полное обобщение, там даже подобранная формула для аппроксимации приведена. Если нет, т.е. требуется очень большое число примеров, а операции с числами несчетное множество, для вещественных континуум, то только приближенная аппроксимация, и соответственно обобщение. Именно поэтому ЯМ часто дают ответы близкие к правильным значениям в вычислениях с большими числами. Чем больше примеров в обучающей выборке, тем точнее аппроксимация, тем больше точных ответов и близких к правильным. Но всегда будут ошибочные. Это архитектурное ограничение прямых трансформерных сетей ЯМ! У калькуляторов, и в мат. пакетах такого ограничения нет, т.к. выполнение алгоритмов вычисления символических чисел в процессоре позволяет делать, в принципе, любое число циклов. В ЯМ это доступно только через внешний авторегрессионный цикл. И в том случае, если хотим заставить выполнять эти операции по инструкциям, коль скоро аппроксимации дают ошибки. При этом цикличность операций разворачивается в линейную последовательность шагов, где-то подобное на Хабре демонстрировалось. Их число будет конечным из-за ограничений объема контекстного окна, и следовательно, опять будут возникать ошибки. Конечно можно проверять их результаты, инструктировать в промптах исправлять ошибки, использовать разные оптимизации, и тд. Сорри, но это не ИИ будущего в моих представлениях.

            Резюмируя в чем разница. Школьник на конечном числе примеров может сделать обобщение этих операций, и использовать их самостоятельно. Ошибки при вычислениях могут быть связаны с когнитивными ограничениями, в основном недостатком внимания, но он сам может проверять и исправлять их. ЯМ в принципе не могут сделать такое обобщение на конечном числе примеров, в силу специфики задачи, и ограничений архитектуры. Их ошибки связаны либо с ошибками аппроксимации, либо при инструкциях с ограничениями объема памяти контекстного окна. Ирония в том что само железо на котором "крутится" ЯМ при прямом программировании такие точные вычисления делать может, а вот мозг наоборот, прямые вычисления может делать ограниченно, только с использование специальных техник, как это делают феноменальные счетчики.

            У человек также имеется нативная аппроксимационная процедура оценки численности и операций с ними, доставшаяся нам эволюционно. Она правильно работает только до 3-4, дальше вероятностные оценки подчиняющиеся закону Вебера (отношение разброса оценки к самому числу константа). Символическое представление чисел и операций с ними выработалась и базируется на этой системе. К абстрактно-символической мы прибегаем, когда есть время на точный счет, если нет, особенно в опасных ситуациях, то оцениваем и вычисляем с помощью нативной системы приближенно. И это позволяет, как правило, выживать, и животным, и человеку.

            Это не одна проблема с обобщением, подобных выявилось не мало в процессе эксплуатации ЯМ в последнее время, поэтому начинается новый цикл осмысления их архитектуры, и ЯМ и агентов - 1, 2, 3. На мой взгляд конечным решением будет переход на нейроморфные архитектуры. У них преимущества по динамике, асинхронности выполнения, непрерывности обучения, вычислениям в памяти, и главное, в энергоэффективности.


    1. edo1h
      20.08.2025 17:06

      вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств

      1. А человек-то может? Прямо вот без ошибок?

      2. На самом деле, как написали уже, модели тоже могут. Да, неидеально, но смотри пункт 1. А теперь следите за руками: у ллм уже есть ресурсы, на которых они могут посчитать (тот самый компьютер, на котором они запущены). И синтез традиционных вычислений, которые фантастически быстры, и llm, которые пугающе напоминают человека, может дать качественный скачок. А может и не дать, конечно. Но эксперименты по выпуску из клетки (агенты и т.п.) идут.


      1. phenik
        20.08.2025 17:06

        А человек-то может? Прямо вот без ошибок?

        Может, но дело в другом, дело в принципе, что человек может обобщить процедуры вычисления при обучении на конечном числе примеров, а ЯМ с существующей архитектурой нет. См. подробнее выше.


  1. FSmile
    20.08.2025 17:06

    Выводы для бизнеса: посчитайте стоимость владения llm. а что такие лица грустные?


  1. Shannon
    20.08.2025 17:06

    del


  1. BorisG
    20.08.2025 17:06

    Эти статьи носят больше философский характер, взяли маленькую модель и сделали по ней выводы, не понятно сильно ли отличаются рассуждения людей от ИИ, думаю что не сильно.


  1. YagamiLight
    20.08.2025 17:06

    Насколько мне удалось сделать для себя обобщающие всю эту тему выводы:

    Суть CoT, ризонинга и всякого промпт-инжиниринга заключается в том, чтобы добавить полезных токенов в процесс вывода, чтобы итоговый вывод был лучшего качества. И он действительно становится лучшего качества. И это даже можно считать одним из свойств реального интеллекта, и этого свойства изначально у ЛЛМ не было.

    Однако у интеллекта есть и некие другие свойства, которых текущим ЛЛМ не хватает.

    Но даже без этих свойств ЛЛМ уже очень даже крутая штука.


  1. MapleBloom
    20.08.2025 17:06

    При долгом обучении действительно больших llm имеет место grokking - порог, до которого, как считается, модель занимается мемоизацией паттернов, а при прохождении порога происходит рост качества за счет перехода модели к генерализации.

    Если выводы статьи основаны на меньших моделях, которые не обучились до проявления эффекта генерализации, то не совсем корректно обобщать выводы на топовые модели, которые остались за рамками исследования


  1. Groramar
    20.08.2025 17:06

    Странные люди обсуждают всякое, издают статьи, но караван идёт:

    GPT-5 впервые сделал новое открытие в математике — исследователь OpenAI дал нейронке открытую задачу из выпуклой оптимизации, которую люди до этого решали лишь частично.

    GPT-5-Pro рассуждал всего 17 (!) минут и впервые в истории улучшил известную границу с 1/L до 1,5/L (+ люди довели результат до 1.75/L). Это было абсолютно новое открытие, которого никогда не было в интернете или исследованиях.

    GPT-5 Pro — первый ИИ в открытом доступе, который не просто изучает математику, а создаёт её.


    1. edo1h
      20.08.2025 17:06

      Вроде бы первую новую теорему сформулировали и доказали с помощью компьютера задолго до бума ллм


    1. retfff
      20.08.2025 17:06

      Вот только автор новости, вроде как, акционер openAI, а сама она не подтверждена кроме как твииами, IIRC.


    1. CrazyFizik
      20.08.2025 17:06

       GPT-5-Pro рассуждал всего 17 (!) минут и впервые в истории улучшил известную границу с 1/L до 1,5/L (+ люди довели результат до 1.75/L). Это было абсолютно новое открытие, которого никогда не было в интернете или исследованиях

      А, GPT-5 никакого научного открытия на самом деле не сделал )))

      Доказательство того, что граница при которой оптимизационная кривая градиентного спуска может (!) перестать быть выпуклой в области от 1.75/L до 2/L израильские математики выаели и опубликовали ещё до релиза GPT-5 (а проверка и публикация математических доказательств это очень длительный процесс). И это очень специфический вопрос, так как верхняя граница сходимости градиентного спуска всем хорошо известна - это 2/L. Так же хорошо известна граница гарантированной сходимости вида О(1/k) - это 1/L. Ну еще обнаружили область где кривая сходимости может оказаться невыпуклой - ну чо, бывает, просто забавный фан-факт.

      На практике кривые обучения конечно же зачастую выглядят как Ктулху, а когда надо сойтись к экстремуму быстро, дешево и сердито без лишних гиперпараметров типа learning rate - есть замечательные методы второго порядка. Так что это скорее инженеры Open AI наткнулись на препринт статьи, скормили оттуда промт чату-GPT и посмотрели что из этого получится. Из этого вышла цифра 1.5, круто! Зачем? Почему? И что с этой цифрой делать? А никто не знает, просто чат-GPT очередной раз сгаллюцинагировал, выдал какую-то цифру по рэндому и подогнал под это свои рассуждения ))) Выглядит красиво, но бесполезно )))


  1. BrNikita
    20.08.2025 17:06

    Каждое такое исследование, которое показывает ключевые проблемы современных моделей приближает нас к более надёжному общему интеллекту. Понимая суть проблемы, появляется точка опоры для дальнейших исследований и поиска решения уже конкретно поставленной задачи.