Почему ИИ решает математические задачи, если не умеет думать / forpes.ru

Главная
Почему ИИ решает математические задачи, если не умеет думать

Почему ИИ решает математические задачи, если не умеет думать +7

08.05.2026 09:10

Qwertcoser 26 9600 Источник

На утверждение, что большие языковые модели не мыслят, есть простой встречный вопрос : “Если это так, как ИИ выполняет арифметические операции?”

Действительно, сложение, вычитание и умножение кажутся точными и алгоритмизированными процессами. Кажется логичным предположить, что внутри модели должен быть некий “калькулятор” или хотя бы его подобие. Но это не так.

| Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых. |

Как модель видит математику

Возьмём простой пример:

36 + 59

Для нас это числа, для модели - текстовые паттерны. Наборы символов и токенов, которые она встречала миллионы раз в обучающих данных: счетах, таблицах, коде, научных статьях.

С точки зрения модели, последовательность “36 + 59 = 95” принципиально не отличается от любого другого часто встречающегося текстового паттерна. Однако это не значит, что модель просто запоминает ответы, ведь иначе она постоянно ошибалась бы. Вместо этого она выработала внутренние эвристики, которые обычно приводят к правильному продолжению.

Внутренняя механика решения

Исследования интерпретируемости показывают, что модель не решает задачу сложения единым алгоритмом. Она разбивает её на части, хотя никто её этому не учил.

Один внутренний сигнал оценивает порядок величины: “результат должен быть около 90”. Другой работает с последними цифрами: “6 + 9 обычно даёт число, оканчивающееся на 5”. Эти сигналы комбинируются, сужая возможные варианты следующего токена, пока “95” не становится наиболее вероятным продолжением.

Входные данные распределяются по разным путям обработки. Это не тот способ, которому учат в школе, но он работает.

В реальной модели исследователи обнаружили, что сложение реализуется не одним модулем, а набором перекрывающихся механизмов. Одни работают как грубые оценщики, другие как точные обработчики последних цифр. Некоторые действительно используют запомненные таблицы сложения однозначных чисел.

В статье это сформулировано прямо:

Как и многие люди, модель запомнила таблицу сложения однозначных чисел.

Это важное замечание. Люди тоже частично запоминают арифметические факты, но разница в том, что у людей есть общий алгоритм, применимый к числам любой длины, в отличие от моделей.

Ограничения подхода

Модель уверенно решает задачи с двух-трёхзначными числами, но начинает ошибаться на более длинных числах, нестандартных форматах или крайних случаях, где школьник бы не ошибся.

Пример ошибки ChatGPT: 8.8 - 8.11 = -0.31 вместо 0.69

Именно это и ожидаешь от системы, построенной на эвристиках, а не на правилах.

Ещё один неожиданный факт: объяснения модели о том, как она решила задачу, часто не соответствуют действительности. На вопрос “как ты это посчитала?” модель опишет перенос разрядов, как это сделал бы человек, но когда исследователи проследили внутренние вычисления, выяснилось, что объяснение не совпадает с тем, что происходило на самом деле.

Это простой пример того, что у модели есть способность, которую она не может объяснить на метауровне. Это касается не только арифметики, но и рассуждений, планирования, объяснений. Модель хорошо генерирует текст, похожий на обоснование, потому что видела много обоснований в обучающих данных. Но это не значит, что обоснование отражает реальные внутренние процессы. Это важно помнить при использовании LLM в реальных системах. Связное объяснение не гарантирует правильности рассуждений.

Почему модель учится арифметике

Возникает вопрос: зачем языковой модели учиться тому, что похоже на сложение?

Потому что числа встречаются везде: в таблицах с ценами, временных шкалах, спортивной статистике, научных статьях, финансовых отчётах, датах, измерениях. А чтобы хорошо предсказывать следующее слово в таких контекстах, нужно уметь обрабатывать числовые паттерны, поэтому сложение здесь - инструмент. Те же внутренние механизмы, которые помогают модели ответить “36 + 59”, активируются при предсказании лет в библиографических ссылках, итогов в таблицах или последовательностей в структурированном тексте. Для модели это одна и та же задача: “какое число должно идти дальше?”

Исследования не опровергают, что LLM не мыслят, а наоборот, подтверждают его : показывают, что предсказание следующего токена на больших объёмах данных приводит к появлению внутренних механизмов, которые могут имитировать рассуждения в узких областях, например, арифметике.

На мой взгляд, самое честное объяснение того, почему ИИ может складывать числа, не понимая, что такое число - "LLM — это машины паттернов, которые на больших масштабах учатся внутренним эвристикам. Некоторые из них похожи на математику, некоторые на логику, некоторые на планирование. Ни одна из них не требует мышления."

Комментарии (26)

nakesreong
08.05.2026 11:26
#29945018
какое отношение арифметические операции имеют отношение к "думать"?

или у вас калькулятор "думает", раз он честно выполняет арифметические операции?

ИИ же берет золото на IMO, ни один калькулятор золото на IMO не возьмёт

Возникает вопрос: зачем языковой модели учиться тому, что похоже на сложение?

ни зачем. интеллект, даже искусственный, так не работает, он не задаётся вопросом "зачем мне чему-то учиться". он ищет паттерны в массиве данных, обобщает, улавливает взаимосвязи, сопоставляет факты, находит закономерности. ребенок не задаётся вопросом "зачем мне учиться говорить и произносить слово Мама"

в этом смысле ИИ очень даже умеет "думать". то что ИИ "не думает" это уже люди придумали у которых горит от того что думать оказывается может алгоритм, и им жизненно важно доказать что "думает" ИИ не по настоящему
1. nakesreong
  08.05.2026 11:26
  #29945522
  я кстати не думаю что ллмы считают циферки как-то не так как люди )
  
  я тоже считаю "быстро и грязно", 36+59 у меня будет "где-то чуть больше 90", просто потому что 3+5 это 8, а 6+9 явно больше 10. и можно конечно сказать "ага, видишь, ты понимаешь разряды!"
  
  но это цифры. люди придумали удобную для себя символьную запись. мне не надо ни придумывать разряды, ни даже знать о них - они заложены в форму записи, как Я её вижу. ллм же "видит" цифры в тексте иначе, не так как человек. потому что у них токены и векторы. ллм не видит циферки, у ллм нету глазиков )
  
  если ллм мультимодальный и если его арифметике поучить чисто по сканам учебников начальной школы, скорее всего он тоже увидит что разрядность в десятичной системе счисления уже вшита в форму записи. и видя 36+59 (картинкой, записью цифрами) сразу видно что десятков будет больше чем 3+5. а так как в один разряд ты не запихнешь 2 десятка (в смысле не бывает так что две единичных циферки в сумме дали бы 20, даже 19 невозможно, максимум 18), то первая цифра будет в 36+59 будет 9, а вторая где-то между 1 и 8, в данном случае 5. это все - паттерн мэтчинг, а не какая-то там "магия мышления". ну и сложение же двух чисел одного разряда всегда идёт по памяти. мы тупо помним что 9 не хватает единицы до 10. и что 6 минус 1 это 5. и что 6+9 это 15. вообще 9 плюс какое-то число (меньше 10) это всегда 10 плюс то число минус один. и всё )
  
  и это всё решается в уме через представление записи чисел. во всяком случае у меня. люди специально придумали такую форму записи что бы было удобно считать в столбик ) разряды уже заложены в форму записи, которую немультимодальный ллм даже не увидит. возьми ребенка, обучи его арифметике не записывая числа цифрами, а записывая их буквами, в строчку. типа "пятьдесят девять плюс тридцать шесть" - где-то вот так ллм "видит" запись этими своми векторами. естественно на этапе обучения находит свои эвристики для счета, свои паттерны, и они не похожи на человеческие.
  
  мы в самом представлении информаци кодируем информацию. и то что ИИ, ллм, просто в следствии иного устройства каналов ввода видит мир иначе чем мы. говорить что ИИ не думает потому что воспринимает информацию иначе, это все равно что говорить что слепой от рождения не думает, ведь он не видел цвет травы
  1. enderman08
    08.05.2026 11:26
    #29945574
    Как нынче модно говорить
    
    Touch the grass
    
    Zhabrozavr
    08.05.2026 11:26
    #29946766
    А если своими словами?
  1. Pshir
    08.05.2026 11:26
    #29946172
    я кстати не думаю что ллмы считают циферки как-то не так как люди
    
    А это легко проверить. Можно обучить LLM только на примерах в десятичной записи. Потом написать ей, чем отличается шестнадцатеричная запись, и попросить написать и решить несколько примеров в шестнадцатеричной записи.
    
    nakesreong
    08.05.2026 11:26
    #29946264
    не так то легко, разве что мультимодальную. когда ребёнок осваивает арифметику. он видит 36 глазами, буквально воспринимает это как пространственный объект из двух знаков, расположенных рядом, где левый знак 3 имеет позицию десятков, а правый 6 - позицию единиц. позиция кодирует разряд. и эта пространственная информация впитывается до того как ребёнок осознаёт что такое разряд. он сначала видит структуру, потом уже учится её называть.
    
    а ллм это всё не видит. для модели 36 - это либо один токен, либо два, в зависимости от токенизатора. и если два — то токены 3 и 6 соседствуют как абстрактные сущности, без пространственной информации о том что один левее другого. позиционное кодирование в трансформере говорит "токен А идёт перед токеном Б", но это не то же самое что "знак 3 находится в позиции десятков".
    
    но это объясняет один странный эмпирический факт про ллм =) модели гораздо лучше справляются с арифметикой когда им дают chain-of-thought и просят расписать решение по шагам, чем когда просят сразу ответ. почему? потому что расписывание по шагам превращает невидимую пространственную структуру обратно в текст, в котором модель уже может работать. "сначала складываем единицы: 6+9=15, пишем 5, переносим 1. теперь складываем десятки: 3+5+1=9. ответ 95." это вербализация той пространственной операции которую человек делает молча, потому что у него глаза. ллм нужны слова там где у человека достаточно зрения )
    
    крч через CoT можно проверить, но через CoT они много с чем справляются ))
    
    ну и, это конечно только мое имхо, но нам требуется так много данных для обучения моделей просто потому что очень много информации теряется при перекодировании текста/символов в векторы
    
    Pshir
    08.05.2026 11:26
    #29946404
    позиционное кодирование в трансформере говорит "токен А идёт перед токеном Б", но это не то же самое что "знак 3 находится в позиции десятков"
    
    Именно это и означает, что LLM не воспринимает числа так, как это делает человек. Точнее, запись 2+2 обрабатывается LLM и человеком примерно одинаково. А обработка записи
    $2.718^{3.1416i}$
    вообще ничего общего не имеет.
    
    Причём, нет никаких запретов сделать нейросеть, которая будет воспринимать математические выражения так, как это делает человек, а не как LLM. Просто это пока не нужно тем, у кого есть на это деньги. Математики, в отличие от программистов, всё ещё намного дешевле, чем нейросети :)
    
    nakesreong
    08.05.2026 11:26
    #29946900
    но это опять не значит что ллм не думает ) есть допустим исследования некоторых племен, племя пираха, племя мундуруку, у этих вообще нет точных чисел больше 3-4 в языке. им просто не требовалось считать ) при этом мышление работает прекрасно, только иначе )
    
    (хотя вот даже хз, смог бы представитель такого племени в программирование)
    
    а с вот этим
    
    Просто это пока не нужно тем, у кого есть на это деньги. Математики, в отличие от программистов, всё ещё намного дешевле, чем нейросети :)
    
    абсолютно согласна
    
    Pshir
    08.05.2026 11:26
    #29947008
    при этом мышление работает прекрасно, только иначе
    
    Я думаю, мышление у них работает примерно так же. Недавнее отсутствие слова «прокрастинация» в русском языке никак не помешало нам его понять и начать использовать. Если они умеют считать до 4, то это автоматически означает, что они умеют считать до скольки угодно - в этом отличие LLM и человека. И в программирование кто-нибудь из них (наиболее любознательные) точно смогли бы. Возможно, если у них нет письменности, то учить писать код их было бы слишком сложно, но освоить какой-нибудь Scratch - я думаю, что взрослые люди из того племени в среднем справились бы с этим быстрее, чем взрослые люди из нашей цивилизации, не знакомые с программированием.
  1. Neon7Blade
    08.05.2026 11:26
    #29947084
    Вот не надо про удобство, иначе бы не было столько людей, которые не понимают математику
1. Pshir
  08.05.2026 11:26
  #29945580
  ИИ же берет золото на IMO, ни один калькулятор золото на IMO не возьмёт
  
  С точки зрения LLM задачи с IMO отличаются от примеров на сложение из начальной школы только длиной контекста. И то, и другое LLM решают абсолютно идентичным способом. Что характерно, люди тоже решают задачи с IMO и примеры на сложение примерно одинаковым способом. Только у LLM и у людей эти способы различаются очень сильно.
  
  ни зачем. интеллект, даже искусственный, так не работает, он не задаётся вопросом "зачем мне чему-то учиться"
  
  LLM точно ничем не задаются. Задаются те, кто составляет обучающую выборку.
  1. nakesreong
    08.05.2026 11:26
    #29945588
    так же как и школьник в школе ничем не задаётся, а задаются те, кто составляет обучающую программу. и что дальше?
    
    Pshir
    08.05.2026 11:26
    #29946054
    Подавляющее большинство школьников не задаётся. Некоторые задаются.
  1. nakesreong
    08.05.2026 11:26
    #29945624
    Что характерно, люди тоже решают задачи с IMO и примеры на сложение примерно одинаковым способом. Только у LLM, и у людей эти способы разные
    
    угу. но в общем у "этих способов" есть название, которое мы отлично использовали в отношении друг друга до создания ллм - это называется "мыслительный процесс" ))
    
    это вы уже сами решайте, вам шашечки или ехать =) лично я сужу по функциональности. самолёт не имитирует полет - он летит. просто не так как птица
    
    Ginko007
    08.05.2026 11:26
    #29946290
    Да людям, наверное, просто страшна мысль, обнаружить себя возникшим из алгоритма, просто биологически воплощенного.
    
    Pshir
    08.05.2026 11:26
    #29946520
    Люди же возникли не совсем из алгоритма. Люди возникли в результате специфических быстро меняющихся условий, в которых отклонения от алгоритмов регулярно приводили к выигрышу.
    
    Сейчас этого отбора уже нет :)
    
    Neon7Blade
    08.05.2026 11:26
    #29947102
    Если этого отбора нет, значит, что и видно, такой подход хаотичный - стал вредительствующим

ysrgsyn
08.05.2026 11:26
#29945022
Это как уверенный двоечник у доски: вычисления наугад, но с убедительно серьезным лицом))

ArtyomOchkin
08.05.2026 11:26
#29945080
Сейчас, как понимаю, большая часть нейросетей, включая ChatGPT vs Qwen, используют простейшие python-команды для получения верного ответа.

Прямо сейчас попробовал забить простейший пример 8.8 - 8.11 =,и он теперь даже даёт окно классического калькулятора. Компонент "ChatGPT instruments". Claude и Qwen также используют bash-команды при создании файлов, а также python для быстрой проверки и решения типичных арифметических действий.

В примере из статьи, как я понимаю, что-то средней свежести, ChatGPT 3.x или 4.х. Тогда, получается, модель не применяла для проверки инструменты, а лишь "рассуждала", как в задачах на логику или творческих задачах.

Новый способ, имхо, эффективнее, он может помочь посчитать что-то крупное и сложное, но при этом быстрее, чем вручную, и с достаточной надёжностью, нежели с более старыми нейросетевыми моделями.
1. ITDiver77
  08.05.2026 11:26
  #29946560
  Именно, статья устарела года на полтора. Равно как и методика "думай по шагам"
1. wataru
  08.05.2026 11:26
  #29946702
  Было исследование, что какую-то сетку обучали использовать встроенный инструмент - калькулятор - для вычисления. Факт запуска калькулятора был в целевой функции. Поэтому, по классике машин-лернинга, сетка соптимизировала целевую функцию и стала запускать калькулятор даже там где вообще ничего считать не надо. Просто выполняла какие-то вычисления в фоне и игнорировала их.

ItAi
08.05.2026 11:26
#29945232
Если математика внешняя сторона жизни для людей, то для моделей внутренняя? Выходит что мысль имеет математический паттерн, который модель и применяет. То есть существует какое-то слово или термин пусть ещё не известное человечеству, то модель уже знает как оно будет звучать заранее.

phenik
08.05.2026 11:26
#29945748
Уже было.

rikert
08.05.2026 11:26
#29945910
Почему человек умеет думать, но не каждый решает математические задачи. Перефразирую.
1. Neon7Blade
  08.05.2026 11:26
  #29947108
  Ну и почему? Зато могу с уверенностью сказать, что ии ответит на этот вопрос самым наибанальнейшим образом - все что нужно об этом гении знать.

nordwind
08.05.2026 11:26
#29946250
Может быть для таких случаев нужно/можно калькулятор вызывать?