Поскольку LLM (все эти ChatGPT, DeepSeek и т.п.) это языковые модели, которые по идее просто складывают ответ из кусочков фраз, как в калейдоскопе - мы не ожидаем от них чудес логики. Тем больше они нас удивляют пытаясь генерировать ответы на достаточно мудрёные задачи - от генерации и исправления программного кода до, например, игры в шахматы.

Идея с игрой в шахматы хороша тем что на ней легко продемонстрировать и неспециалисту как возможности так и ограничения LLM. Эксперименты на эту тему появились уже давно, например в статье на Хабре же от 2023 года. Там автор на 6м ходу сделал неправильный ход но LLM этого не заметила. Мы кратенько посмотрим есть ли прогресс в этом направлении, попробуем немного изменить подход и потестируем пару похожих игр.

Обзор предыдущей статьи

Здесь пара наблюдений - во-первых автор попробовал прямолинейно задать задачу - вот садись и играй со мной. В комментариях отметили что поскольку LLM не обладает памятью как таковой, эта задача возможна только с некоторыми ограничениями - в частности LLM в том или ином виде выводит текущую позицию в каждом ответе и переиспользует её.

Второе наблюдение - опять же из комментариев - чуть более ранняя версия ChatGPT вообще сразу отказывалась играть сообщая что она LLM а не шахматный движок. Из этого можно сделать вывод - разработчики в какой-то мент подсуетились и добавили в каком-то виде "бэкенд" под эту конкретную задачу. Правда не полноценный движок а только возможность отображать позицию и предлагать ходы.

Попытка №1 - по аналогии с предыдущей статьёй

Мы попробуем использовать DeepSeek (в основном потому что он доступен без ухищрений) - и сперва зададим вопрос в аналогичном ключе:

Как видим, LLM сразу предлагает использовать популярную в компьютерных шахматах нотацию для записи позиции (построчно) - но впрочем говорит что может и изобразить кое-как доску в ASCII. С учётом печати символов с небольшой задержкой это оказывается довольно нудно. По ходу я попросил LLM не пытаться давать подсказок и уже на 2-м ходу столкнулся с небольшой проблемой:

1. e4 e5 2. d4 exd4
1. e4 e5 2. d4 exd4

Пешка с e5 бьёт d4 и судя по диаграмме оказывается опять же на d5. Попытки убедить исправить это безобразие не увенчались успехом.

Я предложил начать заново и использовать только FEN-нотацию. Её можно копипастить например на доску анализа на lichess а не "визуализировать в уме".

те же ходы 1. e4 e5 2. d4 exd4
те же ходы 1. e4 e5 2. d4 exd4

В этот раз всё правильно, и чёрная и белая пешки стоят бок о бок на четвертой горизонтали.

исправленная позиция после двух двойных ходов
исправленная позиция после двух двойных ходов

К сожалению на этом хорошее заканчивается. Игнорируя подсказки ИИ (типичное продолжение Nf3 - навалиться на пешку конём а не сразу бить ферзем, иначе его отгонят с потерей темпа) я предлагаю двинуть вперед мою пешку.

отказывается двигать пешку вперед
отказывается двигать пешку вперед

Объяснение впечатляет - пойти на e5 нельзя потому что пешка уже на e4 (она не может двинуться отсюда на e5 за один ход). Искать логику в этом объяснении бессмысленно - но оно хорошо показывает что LLM именно языковая модель - она забрасывает нас формально склееенными фразами примерно соответствующими ситуации которую обрисовал запрос.

Оставим попытки идти этим путём и попробуем чуть иначе.

Попытка №2 - даём позицию, спрашиваем лучший ход

Простейшая оптимизация с учётом характера работы LLM - предложить ей готовую позицию и задать относительно неё вопрос. Расставим фигуры в соответствии с 2.5 первыми ходами:

1. e4 e5 2. Nf3 d6 3. Bb5
1. e4 e5 2. Nf3 d6 3. Bb5

Спросим какой ход порекомендует за чёрных

предлагает ход a6 вместо c6
предлагает ход a6 вместо c6

Как видим идея логичная - прогнать вылезшего невовремя слона - но реализация не просто плохая а даже невалидная, король остается под шахом. Гнать слона нужно пешкой c6 а не a6. Будем терпеливы и обратим внимание на этот момент...

замечательно что так подробно поясняет
замечательно что так подробно поясняет

Предложенный ход адекватный, но пояснения (которые хотелось почикать с этого скриншота) настораживают - четвёртый вариант предлагает сдвинуть короля вправо, но отмечает что это ход некорректный, потому что король остаётся под шахом от слона. Не верь глазам своим - король не остаётся под шахом, но пойти на f8 конечно не может так как там стоит его собственный слон!

Кажется на этом желание продолжать уже иссякает - слишком много усилий для достижения ничтожного результата.

Однако попробуем ещё один вопрос - посчитать количество возможных ходов в позиции - для шахматного движка перечисление ходов - это основа алгоритма.

Немного поварьируем позицию - я сделаю ход пешкой (а не конём) чтобы предотвратить размен слона на коня и заставить противника потерять темп...

сколько ходов белых возможно в этой позиции?
сколько ходов белых возможно в этой позиции?

Как я вижу, здесь 6 пешек могут сделать короткий или длинный ход каждая (всего 12) доступны 2 хода левым и 5 ходов правым конём, слон может сделать 7 ходов, ферзь 1 и король 3 включая рокировку - итого 30 что ли? А что думает наш "калькулятор"?

очевидно он не считает на самом деле ходы а опять же "склеивает" ответ из фраз... где их берет?
очевидно он не считает на самом деле ходы а опять же "склеивает" ответ из фраз... где их берет?

Поскольку текст ответа печатается с маленькими задержками, до последнего момента не оставляет надежда на лучшее. И эта аккуратная разбивка по фигурам... К сожалению содержание ответа печально:

  • для короля упущен третий ход Kf1

  • зато ферзь считает коня на f3 пустым местом и имеет 4 хода в этом направлении - да ещё один на d2 (пешку тоже не замечает)

Остаток списка ходов тоже содержит интересные откровения:

Rook Moves (2): Rh1e1 Ra1b1 Bishop Moves (4): Bb5a4 Bb5c4 Bb5d3 Bb5e2 Knight Moves (from b1) (2): Nb1c3 Nb1a3 Pawn Moves (7): a3, a4 b3, b4 c3, c4 g3, g4 h3, h4 d3 (but not d4 as it's blocked by pawn on d6) f4 Knight Moves (from f3) (4): Nf3g5 Nf3h4 Nf3d4 Nf3e5 Total Valid Moves: After careful counting, White has 26 legal moves in this position.

Оказывается возможны ходы ладьями а пешка на d может пойти на d3 но не на d4 потому что ей мешает пешка на d6. Отдельно любопытно что пишет - ходов пешек всего 7 - и перечисляет 8 (включая невалидный f4 - прыжком через коня).

Хватит с шахматами. Ведь это китайский LLM - попробуем его родную игру!

Сыграем в Китайские Шахматы - Xiang-qi

Вероятно не все (и даже многие) не знают подробностей правил этой игры, но для наших экспериментов это и не требуется. При желании вы можете расспросить LLM о правилах. Я их знаю поверхностно и уточнив что LLM понимает нотацию XFEN попробую ей воспользоваться. Как и раньше, сделаю пару первых ходов и спрошу совета:

красные двинули вперед пешку а чёрные шагнули вправо "колесницей"
красные двинули вперед пешку а чёрные шагнули вправо "колесницей"

В этой позиции пушка (катапульта) угрожает побить пешку красных - у этой фигуры довольно необычное поведение - она ходит как ладья (колесница), но бьёт (тоже по горизонтали или вертикали) прыжком через ровно одну фигуру (свою или противника) - ей как бы нужна точка опоры. В данном слуае такой опорой будет чёрная пешка (вторая слева).

Что нам предложит DeepSeek?

Для ходов используется китайское наименование фигур а для позиции европейское
Для ходов используется китайское наименование фигур а для позиции европейское

Кони в китайских шахматах ходят почти как в европейских с одним любопытным отличием - если "впритирку" к коню стоит другая фигура (своя или чужая) - по горизонтали или вертикали - то он лишается подвижности в этом направлении (то есть теряет 2 хода из 8). Иными словами коней можно блокировать. Вместе с поведением катапульт это даёт игре довольно неожиданные повороты.

Даже если мы не очень знакомы с принятой в Xiang-qi записью ходов, DeepSeek нам подсказывает. К сожалению трудно понять что он пытается предложить. Запись H0+1 не кажется мне знакомой, коня на "g0" нет и даже если имелся в виду конь на h0 то в этом направлении пойти он не может т.к. подпёрт слоном, как пояснено выше. Попробуем уточнить:

во как скакнул
во как скакнул

Конь совершил квантовый скачок на 2 клетки вперед и на 3 вправо. Не знаю есть ли подобная фигура в "сказочных шахматах" но это точно не по правилам Xiang-qi. Кажется на этом эксперимент можно считать ещё более неудачным чем с шахматами.

Игра попроще - Ним

Конечно LLM знает всё или почти всё о более простых играх. В игре Ним у нас есть несколько кучек камней и можно брать сколько угодно из любой (но только одной) по очереди. Цель - взять последний камень. Я предлагаю начать с кучками из 3, 5 и 7 камней

он подробно рассказывает о том какой алгоритм используется для выигрыша в игре (и следует ему)
он подробно рассказывает о том какой алгоритм используется для выигрыша в игре (и следует ему)

Я предлагаю взять 3 камня из средней кучки и оказывается что мой противник забыл текущую позицию. Я-то предполагал что он анализирует свой предыдущий ответ...

должно быть 3, 2, 6 конечно
должно быть 3, 2, 6 конечно

я напоминаю ему позицию и прошу исправиться. он это делает но неожиданно впадает в целую цепочку нерешительных раздумий

дальше идёт примерно столько же текста и исправленный результат 3, 2, 1
дальше идёт примерно столько же текста и исправленный результат 3, 2, 1

В конце он говорит что возьмёт 5 камней из третьей кучки. Хорошо, памятуя что ему надо давать каждый раз текущую позицию, продолжаю:

какой молодец
какой молодец

Что ж, это вам не шахматы, с небольшими погрешностями LLM доводит дело до конца. Не откажем ему в удовольствии насладиться победой - прошу выразить триумфально свой триумф:

предложение сыграть в крестики нолики звучит уже немного пугающе
предложение сыграть в крестики нолики звучит уже немного пугающе

Можно отдать должное языковым способностям движка - ну заодно и порадоваться его предложению сыграть в крестики-нолики.

Честно говоря я планировал сделать совсем короткую заметку единственная цель которой - предложить коллегам эдакий "инструмент" на случай когда нужно объяснить проблематичность использования ИИ для решения (псевдорешения!) задач требующих логики. Тем не менее если кому-то будет не лень попробовать в крестики-нолики - расскажите, чем кончится дело!

Комментарии (28)


  1. GlukKazan
    30.07.2025 12:37

    1. RodionGork Автор
      30.07.2025 12:37

      спасибо за ссылку, любопытно - хотя Го я знаю ещё более поверхностно чем шахматы - но представлялось что возникающие комбинации настолько разнообразны что тут LLM точно ничего не сможет. отдельно любопытные замечания про AlphaGo - слышал, но подробностей не представлял...


      1. GlukKazan
        30.07.2025 12:37

        На самом деле, Го к нейросетка ближе: https://habr.com/ru/articles/583028/

        С Шахматами можно без сеток обходиться: https://habr.com/ru/articles/541086/


        1. RodionGork Автор
          30.07.2025 12:37

          Ну да, без сеток наваять алгоритм для игры в шахматы - доступно в общем-то школьнику (несколько труднее решить некоторые вопросы дебюта и эндшпиля но это частности).

          И насчет близости "Го" замечание хорошее - игра в значительной степени сконцентрирована на локальных фрагментах которые можно более успешно шаблонизировать чем шахматную доску.

          Интересно экстраполировать эту мысль на игру Сёги - в японских шахматах мало дальнобойных фигур. В идеале взять вариант в котором их нет.


  1. Olegsoft
    30.07.2025 12:37

    Ну зачем автор поста пытается забивать гвозди микроскопом ... ? Это же разные задачи.


    1. Roman_Cherkasov
      30.07.2025 12:37

      Потому что может, не? Это как минимум интересно


    1. RodionGork Автор
      30.07.2025 12:37

      валидное возражение :) правда насчет сравнения LLM с микроскопом немного загнули - микроскоп вещь полезная!

      я же просто наткнулся некоторое время назад на пост одного энтузиаста по поводу именно игры в шахматы с ChatGPT - и возникло несколько вопросов которые было любопытно проверить. в целом же это чисто "для развлечения" ну и м.б. чуть-чуть попытки понять где заканчивается собственно LLM и где начинается специфическая доработка авторов движка под конкретную задачу (чего они конечно не очень афишируют)


  1. AlenaStavrova
    30.07.2025 12:37

    Зато смешно пошутил про Nim-sum (полагаю, игра слов dim sum = димсам и sum = сумма)


    1. RodionGork Автор
      30.07.2025 12:37

      любопытная ассоциация - пришлось загуглить :) но мне кажется Nim-Sum это термин из теории игр (есть какая-то непонятная теорема из которой следует что любую игру из широкого класса (где обоим игрокам доступна вся информация и результат зависит только от текущего положения) можно как-то свести к игре Ним (но кажется не поясняется как) - а для неё уже известен вот этот алгоритм с подсчетом "суммы" исключающим "или".


      1. mihaild
        30.07.2025 12:37

        Там не совсем сведение к нему, а алгоритм определения, кто выиграет при оптимальной игре в широком классе игр.

        Игры такие: у нас есть набор досок, текущий игрок делает ход на одной из досок (состоние остальных не меняется), потом другой делает ход на одной из досок, и т.д. На каждой доске могут быть свои правила игры, лишь бы гарантировано рано или поздно на ней ходы закончились. Проигрывает тот, кто не может сделать хода ни на одной из досок. Ним - частный случай такой игры: каждая кучка камней - это доска, ход - взятие камней из неё.

        Функция Шпрага-Гранди для состояния игры определяется рекурсивно. Если нельзя сделать ни одного хода, то она равна нулю. В противном случае, смотрим на все состояния, которые можно получить из текущего за один ход, считаем функцию Шпрага-Гранди для каждого из них, находим минимальное число, которое получить нельзя, и объявляем его значением функции Шпрага-Гранди текущего состояния.

        Например, для нима с одной кучкой функция Шпрага-Гранди - это просто число камней в кучке (за один ход можно получить любое меньшее число камней, а вот столько сколько было оставить нельзя).

        И зачем нужна вся эта история. Теорема Шпрага-Гранди утверждает, что

        1. Если функция Шпрага-Гранди текущего состояния равна нулю, то при оптимальной игре текущий игрок проигрывает, иначе - выигрывает.

        2. Функция Шпрага-Гранди игры на нескольких досках равна ним-сумме (также известной как побитовое исключающее или) функций Шпрага-Гранди отдельных досок.


        1. RodionGork Автор
          30.07.2025 12:37

          Михаил, спасибо за подробное разъяснение, постараюсь вникнуть подробнее - в общих чертах соображения знакомые :)


  1. AndyGhost
    30.07.2025 12:37

    Спасибо за статью, действительно интересно проверить, как оно сейчас. Тоже какое-то время назад пытался сыграть - и все плохо. На первых этапах крестики-нолики были для llm тяжелой игрой, то исчезал крестик, то ходил туда, где уже что-то есть. В последних версиях вроде хотя бы с этой игрой справляется. Интересно, а если подключить шахматный движок - llm все равно будет путать ходы / расположение или "поумнеет"?


    1. RodionGork Автор
      30.07.2025 12:37

      а Вы имеете в виду подключить движок с какой стороны? с пользовательской чтобы генерить позиции в FEN-формате и каждый раз задавать вопрос о следующем ходе (коллеги говорят что с ChatGPT последним это работает без выраженных ошибок хотя уровень несерьёзный) - или же со стороны самого LLM, чтобы он просто передавал присланную пользователем позицию в движок и выдавал ответ?


      1. AndyGhost
        30.07.2025 12:37

        имею ввиду со стороны llm. Сейчас они умеют ходить в интернет (агенты), находить / фильтровать информацию, обобщать, искать ключевые особенности и тп. И соответственно, вместо интернета - движок - получить наиболее перспективные ходы и выбрать из них. В шахматах есть ловушки, когда движок дает одну оценку, но после хода оппонента может сразу случиться сильный перевес вплоть до выигрыша.


        1. RodionGork Автор
          30.07.2025 12:37

          ну да, то что я называю "бэкендом" для конкретной задачи :) имхо интересно не будет т.к. шахматный движок действует гораздо более предсказуемо чем LLM. не очень понятно что за "ловушки" имеете в виду. в простых версиях движков действительно есть ситуации когда проверка какого-то варианта была остановлена раньше чем следовало (и соответственно на следующем ходу могут открыться новые горизонты) - но кажется большинство современных более-менее адресуют эту проблему (хотя допускаю что на уровне выше новичково-любительского на неё все еще можно наткнуться)


  1. MountainGoat
    30.07.2025 12:37

    Я очень боюсь, что в попытках доказать, что LLM не имеют разума, случайно докажут, что люди не имеют разума.


    1. RodionGork Автор
      30.07.2025 12:37

      о да, тема замены отсутствия естественного интеллекта искусственным - она неисчерпаема кажется :)


    1. krote
      30.07.2025 12:37

      Тоже подумал что чтобы понять что такое шахматы для LLM можно представить слепого от рождения парализованного человека, которому читали тексты про шахматы. Много он наиграет? Да любой человек если не тренировался в уме визуализировать и удерживать доску то тоже много не наиграет, через несколько ходов легко совершит те же ошибки что и LLM (хотя на его стороне пространственное воображение/визуализация)


  1. Durham
    30.07.2025 12:37

    Очень полезно вспомнить, что еще в 2022 году на Хабре была вот эта статья, где показали, что небольшим дообучением можно заставить GPT-2 весьма прилично играть в шахматы, и разобрали, что проблема не столько в нейросети, сколько в обучающих данных. Что интересно, с тех пор каждый год, а то и несколько раз в год выходят статьи, где авторы показывают, что та или иная новая модель в шахматы играть не умеет, и в комментариях делаются глобальные выводы из этого, что LLM разумными быть не могут. Хотелось бы попросить авторов, которые пишут про шахматы и LLM, делать поиск и обзор предыдущей литературы перед публикацией, чтобы читатели могли видеть правильный контекст вопроса


    1. RodionGork Автор
      30.07.2025 12:37

      и разобрали, что проблема не столько в нейросети, сколько в обучающих данных. 

      мне кажется что вы неправильно интерпретируете выводы той статьи, извините за прямоту - это простительно поскольку, как я понимаю, Вы отчасти были вовлечены в её создание и это мини-исследование, а может и инспирировали его в маркетинговых целях, поскольку в описании компании указано "разработка моделей ИИ на заказ" :)

      Здорово что оставили демо-страничку, с её помощью довольно легко проверить что модель подвержена все тем же капитальным проблемам. Во второй же игре она теряет ферзя на 7 ходу. При этом я настолько не гроссмейстер, что мой собственный ELO-рейтинг на chess.com ниже 1200 (хуже новичка). Вообще рейтинг - штука относительная и не стоило его даже упоминать.

      Почему это происходит? Это вопрос к тому как вы понимаете "научиться играть в шахматы". Вы её заставили как ребёнка запомнить очень много шаблонов позиций (или их фрагментов?) - что-то вроде рандомной таблицы дебютов. Но при этом она не "понимает" смысла игры, у неё нет логики оценки фигур - она не в курсе что короля (или вот ферзя) в принципе не следует терять.

      Для меня это не значит "уметь играть". Ну как копипастить со стековерфлоу - не значит "уметь программировать".

      Прилагаю скриншот с этим наивным "проколом" - его легко воспроизвести т.к. модель каждый раз делает одни и те же ходы - но вот и история сохранена. На 6 ходу модель бьёт пешку вместо того чтобы увести ферзя из-под вскрывшейся атаки.

      В принципе это понимание можно эксплуатировать - стоит с самого начала делать ходы которые вряд ли использовались в "тренировке" модели - и она с большой вероятностью начнёт чудить.


      1. Durham
        30.07.2025 12:37

        Я не автор той статьи, хотя знаю автора и обсуждал с ней выводы. Думаю автор вам лучше прокомментирует. От себя скажу, что в статье на которую я ссылаюсь для модели как раз и определили рейтинг в диапазоне 1200-1300 (и это рейтинг 2-го юношеского разряда где-то и минимальный уровень на который можно настроить движок Stockfish).

        Но ведь мы сейчас обсуждаем статью, где речь о том, что топовые LLM даже правила часто не знают, делаем невозможные ходы через раз, и не может поставить мат в один ход и из этого делаются глобальные выводы.

        1200 по сравнению с этим небо и земля, учитывая, что это получено на древнейшей GPT2 размеров в 0.3 миллиарда параметров в далеком 2022 году на небольшом относительно числе партий, а тот же DeepSeek имеет 685 миллиардов параметров. А так, в DeepMind в 2024 взяли 10 млн. партий и обучили модель, которая на lichess в блице получила ELO 2895 (уровень гроссмейстера).

        Суть в том, что нет архитектурных ограничений, по которым LLM не может в принципе хорошо играть в шахматы, просто игра в шахматы это не та метрика, которой обычно озабочены разработчики.


        1. RodionGork Автор
          30.07.2025 12:37

          определили рейтинг в диапазоне 1200-1300 (и это рейтинг 2-го юношеского разряда

          вы очень плохо понимаете суть рейтинга и разрядов судя по этому замечанию. данное соответствие судя по всему взято с сайта федерации шахмат России но никак не коррелирует с оценкой ELO использованной в статье. это относительный показатель который бесполезно сравнивать между системами не связанными между собой.

          Суть в том, что нет архитектурных ограничений, по которым LLM не может в принципе хорошо играть в шахматы,

          ограничения очевидны по-моему:

          • LLM не может понять правила игры и только приблизительно ориентируется на игры на которых она натренирована

          • LLM вообще не годится для игры (или решения другой задачи похожего класса) если нет возможности её натренировать на чём-то готовеньком. собственно в первом комментарии к той статье вам об этом сразу и сказали

          обучили модель, которая на lichess в блице получила ELO 2895

          с этим утверждением та же проблема что и с вашим исследованием/статьёй - у авторов налицо несколько предвзятое суждение в оценке результатов - а кросс-верификация здорово затруднена. на arxiv.org есть и статьи об антигравитационных свойствах кошек например (хотя в целом это неплохой сайт)


        1. RodionGork Автор
          30.07.2025 12:37

          Немного ознакомился с историей вокруг поделия от DeepMind, спасибо конечно. Думаю как специалист вы не могли не заметить особенностей реализации описанных в статье - так что дело там не в 10 млн партий конечно, а в использовании дерева поиска от Stockfish для обучения. Утрированно говоря, вот, наш LLM не производит поиск по позициям а запоминает поиск сгенерированный другой программой.


          1. Durham
            30.07.2025 12:37

            Нет, он не запоминает поиск, потому что результат обобщается на позиции, которых нет в обучении. В целом, чем это принципиально отличается от метода, которым получают современные рассуждающие модели - обучение на примерах цепочек рассуждений и потом дообучения с помощью Reinforcemnt Learning? Если на то пошло, чем отличается принципиально от обучения человека, с которым разбирают партии и показывают логику принятия решений? Не нравится эта методика, вот вам еще статья (https://arxiv.org/pdf/2501.17186) без партий движка.

            Вообще, покажите мне человека, которому можно дать 500 тыс в партий в формате PGN, не объясняя партии и не показывая вообще доску и фигуры, и который ничего не зная изначально о шахматах за ночь научится играть даже на уровне ELO 1200-1300?

            вы очень плохо понимаете суть рейтинга и разрядов судя по этому замечанию. данное соответствие судя по всему взято с сайта федерации шахмат России но никак не коррелирует с оценкой ELO использованной в статье.

            Ну я исхожу из чего. Stockfish имеет калибровку по рейтингу FIDE, судя по документации. Т.е. если Stockfish поставить ELO 1300, то он в 50% случаев обыграет шахматиста с аналогичным рейтингом, статистически. Отсюда, если модель обыгрывает в 50% игр Stockfish с такой настройкой, то модель имеет рейтинг примерно 1300. Да, это приблизительный метод, т.к. отправить модель на соревнования невозможно. Но его результат не может "никак не коррелировать" с реальным рейтингом, чем лучше модель играет против движка, тем сильнее она будет и против человека.


  1. tkutru
    30.07.2025 12:37

    Возможно LLM просто играет в 5D шахматы. Там допустимы перемещения фигур между вселенными (временными линиями). Это объясняет "невозможные" ходы, а также внезапные исчезновения и появления фигур на доске. (шутка?)


  1. eeglab
    30.07.2025 12:37

    В статье использовалась модель V3? У нее похоже нет памяти на предыддущие сообщения, а если использовать R1?


  1. Tonisamviseja
    30.07.2025 12:37

    Я тоже пробовал играть с ChatGPT.

    1) диаграммы строить не умеет, даже текстовые. Т. е. строить - то строит, но показывает позиции, имеющие мало отношения не то что к текущей игре, но и к привычным шахматам в целом.

    2) Начиная с момента, где кончается база дебютов, начинает делать невозможные ходы

    Вывод:

    1) либо нужно строить нейросети, полностью имитирующие работу мозга - не уверен, что такое выполнимо

    2) Либо учить ЛЛМ для специализированных целей вызывать спец. движки, например для шахмат стокфиш. Кстати, какой-то примитивный гейт у чатгпт в личесс есть, он пытается генерировать ссылку на диаграмму, к сожалению пока криво.

    Не знаю, насколько это целесообразно, на каждую конкретную компетенцию движков и гейтов в них не напасешься кмк.

    При этом играть в шахматы и разбирать позиции с ЛЛМ с психологической т. зр. намного приятнее (было бы, если бы они умели играть или хотя бы строить диаграммы)

    С ЛЛМ можно например начать разбирать дебют, попросить тут же его разыграть вместе, потом попросить указать на ошибки, или допустим найти план игры в позиции, т. е. как с тренером, и не надо переключаться из анализа в студию, а из студии в базу мастеров, а отттуда в практику с движком и так далее по кругу.


  1. Proscrito
    30.07.2025 12:37

    Не видя доски я тоже не силен играть. Мое шахматное кунг-фу слишком слабое. Наверное у ллм вышло бы лучше, если бы ей какой-нибудь МСР шахматный сообразить. И сделать режим агента. Черт, написал и сразу подумал что наверняка кто-то уже подумал об этом раньше. Минутка гугла - полно ( Опередили. Даже инструкцию состряпали на ютубе.

    Насчет генерации текста. Мы тоже в некотором роде лингвистические модели. Правда не очень большие. Когнитивная лингвистика подсказывает, что речь если не определяет мышление, то как минимум плотно участвует в когнитивных процессах. Мягкий лингвистический релятивизм и все такое. Кстати, центр Вернике подозрительно напоминает прожектор внимания у ллм. А височная доля, судя по всему, занимается векторизацией ввода. Что именно делает с векторами префронтальная кора пока не очень ясно, но в итоге мы в основном генерируем текст. Наша архитектура пока что выглядит более универсальной, компенсируя даже мизерное контекстное окно, но у эволюции была большая фора.

    В целом занимательное упражнение, плюс за идею, надо тоже попробовать. Показать железяке интеллектуальное превосходство. Старенькие шахматные алгоритмы все равно без гандикапа не обыграть )) Может ллм и в квейк научить играть получится?