О фундаментальных ограничениях больших языковых моделей одни говорят, что трансформеры, обученные предсказывать следующий токен (NTP), - тупиковый путь для создания интеллектуальных машин: язык слишком беден, это лишь плоская проекция реального мира, машины ничего не понимают. Другие говорят , что та же задача, повторённая триллионы раз, может вызвать появление сложного поведения примерно как простой механизм эволюции породил всё многообразие жизни.

Ниже представлены наблюдения по этим вопросах.

| Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых. |

Эмпирика. Все труднее найти вопрос, на который LLM не может ответить

В марте 2025 года вышла статья, где показано: при определённой формулировке теста Тьюринга лучшие LLM его проходят. Если упростить, их версия звучит так: «LLM может обмануть среднего человека». Это серьёзный шаг, но по-настоящему сильным результатом было бы обмануть такого человека, который знает, какие каверзные вопросы задавать.

Так есть ли хоть один вопрос, на который ни одна LLM не отвечает, а большинство людей отвечают?

На Reddit есть ветка с этим вопросом, но убедительных примеров там нет. Не убеждающими являются и популярные примеры, где модели ошибаются, пока не начнут рассуждать вслух:

  • Сколько букв r в слове «strawberries»?

  • Автомойка в 100 метрах от моего дома, идти или ехать?

В конце концов всё решается коротким линейным вербальным рассуждением, а LLM отлично умеют его генерировать.

Можно сузить вопрос еще: есть ли задачи, которые нельзя решить одним лишь вербальным рассуждением, но которые решает большинство слепых людей? Условие со слепотой нужно, чтобы исключить задачи ARC - они визуальные, слепой их не решит. ARC, по сути, сравнивает две системы: биологический мозг + глаза против LLM + Python-интерпретатор. Однако интересно выявление ограничений больших языковых моделей как чисто текстовых систем.

Задачи на инсайт

Существуют вербальные задачи, которые люди решают будто бы не последовательным проговариванием во внутренней речи, их называют инсайтными. Это головоломки, которые сначала кажутся нерешаемыми, но потом внезапная смена угла зрения приводит к решению. Способ решения в таких задачах не опирается на внутреннюю речь, его трудно передать словами. В отличие от аналитического решения, которое шаг за шагом ищет ответ.

Классический пример: человек заходит в бар, просит воды, бармен угрожает ему ружьем, посетитель говорит «спасибо» и уходит. Ответ — у него была икота.

Можно предположить, что в инсайтных задачах работает особый мыслительный процесс, который не сводится к последовательному вербальному рассуждению, и что это перспективный способ найти задачу, с которой LLM, в отличие от людей, не справится.

Тот факт, что трудно найти простую языковую задачу, непосильную для LLM, говорит о том, насколько замечательно сильны эти системы как ответчики на вопросы. Правда, возможно, эта эффективность - очень изощренная иллюзия. Но тут мы упираемся в философский вопрос: как отличить настоящий интеллект от иллюзии интеллекта?

Внутреннее устройство LLM может содержать осмысленные представления

В июне 2024 года вышла статья: в ситуации с игрой Othello связка трансформер + NTP смогла выучить признаки, которые, по всей видимости, кодируют структуру обучающих данных, то есть доску Othello.

Там взяли GPT-2 и обучили предсказывать следующий ход в Othello по последовательности предыдущих ходов (каждый ход - токен). Затем показали, что можно построить точный нелинейный проб, который по внутренним представлениям токенов восстанавливает состояние доски непосредственно перед следующим ходом. В механистической интерпретируемости пробом называют простую модель, которая учится отображать внутренние представления сложной модели на понятные человеку объекты. Если проб удаётся обучить, значит, сложная модель закодировала эти объекты в своём скрытом пространстве.

Результаты экспериментов говорят о том, что модель открыла через градиентный спуск, что 20 миллионов последовательностей ходов управляются структурированной двумерной доской.

Теперь вопрос: что будет аналогом доски Othello, если в качестве обучающих последовательностей взять не ходы, а вообще весь текст из интернета?

Так же, как способность кодировать состояние доски помогает предсказывать допустимые ходы в Othello, можно предположить, что способность кодировать такое представление о мире, каким его воспринимают люди, полезна для предсказания следующего слова, которое они произнесут. И раз в Othello представление доски возникло само, можно допустить, что и в LLM при обучении на гигантских объёмах текста возникли сложные представления о мире.

Более поздняя статья подтверждает предыдущие результаты, показывая: даже линейный проб способен сопоставить внутренние признаки Othello-GPT с состоянием доски. А в другой статье похожий результат получен для шахматной доски.

Форма четверки

LLM не работают с формами на человеческом уровне. Вот две загадки:

  • Из Алжира я иду строго на север во Францию, затем сворачиваю на юго-запад к Испании и потом плыву на восток к Сардинии. Какую форму я начертил в море?

  • На что похожа заглавная L, сидящая на заглавной X?

Для большинства людей ответ не слишком сложен, хотя это предположение может быть спорным, судя по немногим экспериментам. Люди могут воспользоваться зрительно-пространственным буфером в мозгу и буквально рисовать в уме. LLM же решают такие задачи только с помощью внешних инструментов: нужно нарисовать фигуры, а потом проанализировать изображение. Уберите инструменты, и модели стабильно ошибаются.

Загадка с четырьмя портами на карте - конкретный пример символа, который выучен без полной семантики числа 4. Модель, скорее всего, знает, что 4 = 2 + 2, что у квадрата четыре стороны, и многое другое, но она не знает, что описанная ломаная линия рисует форму этой цифры. Не знает, что минималистичный меч из двух отрезков, или даже символ «+», у которого соединили крайнюю верхнюю точку с крайней левой прямой линией, дают четвёрку.

Целью этих примеров не является громкое заявление о практических ограничениях LLM, инструменты их эффективно компенсируют. Важно дать категорию конкретных задач, с которыми LLM в чистом виде регулярно не справляются. Это подтверждает мысль, что представление о мире, возникающее из рецепта трансформеры + интернет-масштаб NTP, неполно.

Синтаксис и семантика

Есть ещё один ответ на страхи про «иллюзию интеллекта» — аргумент Китайской комнаты.

Этот знаменитый мысленный эксперимент предложил американский философ Джон Сёрль в 1980 году. Суть: система, которая манипулирует символами по правилам, какой бы интеллектуальной она ни казалась, не понимает того, что делает. У этой идеи много контраргументов, вопрос остаётся открытым.

Но один вывод сделать можно: сам факт, что люди всё чаще обращаются к таким философским аргументам, лишний раз говорит о серьёзных способностях этих моделей.

Подходят ли LLM для максимального научного прогресса?

"то более удачная постановка вопроса о возможностях LLM. Она не требует определять понимание или интеллект. Важно другое: есть ли у этих машин фундаментальные ограничения именно для тех задач, ради которых их создают. А из всех обещаний ИИ научный прогресс мне кажется самым интересным. Пока LLM доказали, что полезны учёным. Их используют, чтобы выводить изящные формулы из набора сложных уравнений : GPT-5.2 в теоретической физике, проверять факты в научных статьях Gemini 3 в математических исследованиях и так далее.

Останется ли это просто удобным инструментом или приведёт к настоящим научным прорывам, пока неясно.

Бенчмарк Eleusis

Недавно HuggingFace выпустили статью «Can LLMs play the game of science?» с новым бенчмарком. Большинство бенчмарков вроде ARC-AGI или Humanity's Last Exam оценивают модель на одной задаче вывода: вопрос — логичный ответ. Но научное исследование — это не только логический вывод и ответы на вопросы. Это итеративный процесс: эксперименты, наблюдения, построение теорий, их проверка — и все в условиях ограниченного времени и ресурсов. Учёный не может перебирать все мыслимые гипотезы, нужно выбирать наиболее многообещающую на каждом шаге. То есть нужен более широкий набор навыков, чем просто правильно отвечать на вопросы. Автор статьи, в частности, упоминает метапознание — способность осознавать собственную неуверенность.

Бенчмарк сделан на основе карточной игры Eleusis 1950-е годы. Игроки должны угадать скрытое правило ведущего, выкладывая карты, которые принимаются, только если соответствуют этому правилу. Автор реализовал 26 правил на Python и прогнал через игру лучшие модели. Результаты показывают не только абсолютную производительность, но и положение моделей на спектре осторожность - безрассудство.

Форк репозитория, простой скрипт для оценки человеком и собственные результаты почти в тех же условиях, что и LLM. Код здесь

К сожалению, однозначных выводов из собственных результатов не сделать. Лучшие LLM играют в эту научную игру примерно на уровне человека и тут трудно что-то добавить. Ничто в этом эксперименте явно не указывает на фундаментальные ограничения моделей.

Мировые модели

Наконец, самая убедительная для меня гипотеза об ограничениях LLM. Модели, которые заземлены в реальном мире, а не заперты в пространстве языка, лучше подходят для научных исследований, ведь наука изучает именно реальный мир. «Заземлены в реальном мире» звучит немного абстрактно, это означает, что обучающие данные — видео и другие непрерывные многомерные сигналы, а не текст. Такие модели обычно называют мировыми , и компании вроде AMI Labs как раз этим занимаются.

LLM показали себя блестяще в символьных областях: программировании, математике. Недавнее решение открытых математических задач Эрдёша №728 и №281 - особенно яркое свидетельство.

Комментарии (11)


  1. Zenitchik
    30.04.2026 18:32

    В задачах на инсайт нет особого мыслительного процесса. В них есть привлечение информации из других источников. Никакой мистики.


    1. HardlinePeak936
      30.04.2026 18:32

      Да вполне конкретных — модели мира. Быстро проходим по причинам и следствиям логически и всё, вот вам результат, который мы помним либо сейчас вывели. Мозг постоянно этим балуется просто в данном случае (инсайта) для осознанной деятельности понадобилось.

      P.s. В меру моего понимания ;)


    1. phenik
      30.04.2026 18:32

      Мистики нет, но и полного понимания механизмов пока тоже нет - обзор.


  1. Dhwtj
    30.04.2026 18:32

    Когда я отправляю на ревью что навайбкодил (редко, но бывает) у меня эффект китайской комнаты: я не понимаю что там, а ревьювер понимает и даже обычно доволен

    Бггг

    Лучше так не делать: когда сломается будешь волосы рвать на всех местах


  1. HardlinePeak936
    30.04.2026 18:32

    Не знаю интересно ли кому-то моё мнение, но нынешние LLM чисто архитектурно не подходят для мышления, как процесса. Циклами активации ещё ладно (запрос -> ответ -> всё заново), но постоянным вычислением — однозначно и очевидно нет. Это банальное ограничение организованной работы с матрицами, ведь нам нужны все/большинство для вычисления. И тут вопрос живое оно или не живое (разумное или нет) вторичен, хотя ответ на него также подобен — зависит от того, попадает ли такая архитектура под ваше определение. Если вам достаточно внешне осмысленного ответа, то да. Если вам нужен процесс мышления, то нет, но это уже пытаются решить через циклы, скрытые контексты и прочие пути. Если вам нужна непрерывность мышления, то не ждите такого от LLM, вероятно, или, хотя бы, в ближайшее время. Можно попытаться намутить со взятием весов предыдущего вычисления в следующем, но... Вычислительные ресурсы не бесконечные. А если же вам нужно переживание (не путать с ощущением, всякими «квалиа» и эмоциями), то аналогично, но уже более однозначно — нет и никогда не будет, ибо у LLM другая архитектура и она не под это заточена (все мы помним, что она нужна для предсказания следующего токена ;). Остальное же является делом обучения в рамках архитектуры, а иначе говоря — реализации. Если чего-то не так, значит либо вы чего-то не так сделали, либо, в крайнем случае, упёрлись в границу архитектуры. Вопросы? :)


    1. digrobot
      30.04.2026 18:32

      Chain of Thought у LLM, это как раз непрерывное мышление, о котором вы говорите. Модель "думает" вслух, как бы сама себе генерирует промпт, и уже дальше размышляет, включив предыдущие мысли в контекст.


      1. IVA48
        30.04.2026 18:32

        Они НЕ понимают смысл того что выдают, а от этого надо смотреть и на все остальное.


        1. digrobot
          30.04.2026 18:32

          Дайте определение, что значит "понимать смысл".


      1. HardlinePeak936
        30.04.2026 18:32

        К слову, оно лишь формально непрерывное (фактически, швы заметны ;), но я и не говорил о чём-то особом — просто указал, что LLM под другое заточена архитектурно и, в любом случае, это вам самим определять, как к ней относится.


    1. IVA48
      30.04.2026 18:32

      Фундаментальный вопрос: понимают ли модели LLM смысл того, что сами выдают ? Ответ - нет. Соответственно очевиден и ответ на другой вопрос: могут ли они вести осмысленные понятийные и логические рассуждения. А от этого уже потом рассматривать и все остальное.


      1. Zenitchik
        30.04.2026 18:32

        Вопрос не правильный. Правильный вопрос: какая нам разница, понимают модели LLM смысл того, что сами выдают, или нет?