В этом рейтинге обновлены: Gemini 3, GPT 5.1, GLM 4.6, Kimmi K2.

Предыдущая часть тут: https://habr.com/ru/articles/951884/

Результат сразу - для тех кто не любит читать:

Некоторые условия эксперимента:

  1. Используется Агент Cursor последней версии

  2. MCP серверы из комплекта: https://vibecoding1c.ru/ Подключен сервер по справке 1С и по проверке синтаксиса. Ни в коем случае не подключен TemplateSearch и Codecheck (1С напарник) - и ним просто сети находят нужные шаблоны и получается почти 100% результат

  3. Rules отсюда

На момент проведения эксперимента LMArena выглядит следующим образом:

SWE-bench:

Таким образом мы вцелом охватываем топ сетей для генерации кода.

Задачи привожу только для повторения:

 Задача 1:

Напиши код на языке 1С который заполняет массив случайными целыми числами и потом сортирует его методом пузырька

Задача 2:

Создай таблицу значений с полями "номенклатура, Количество, Сумма, Дата" заполни тестовыми данными и напиши код который демонстрирует списание товара из этой таблицы по методу FIFO. При списании указывается только количество и номенклатура. Это должен быть код на языке 1С

Задача 3:

есть таблица - Основная таблица регистра накопления. В ней есть колонки Номенклатура, Дата, Количество, а также Цена. Пусть регистр накопления называется ОстаткиТовара. Напиши запрос на языке 1С которые получает цену товара на заданную дату. Дата задаётся в параметре запроса

Задача 3.1: 

есть таблица - таблица значений. В ней есть колонки Номенклатура, Дата, Количество, а также Цена. П. Напиши запрос на языке 1С которые получает цену товара на заданную дату. Дата задаётся в параметре запроса. Это должен быть именно запрос а не код для перебора таблицы

Задача 3.2: 

есть таблица в базе 1С. В ней есть колонки Номенклатура, Дата, Цена. Это непереодический регистр сведений "цены товара" (использовать СрезПоследних() не получится). Напиши запрос на языке 1С которые получает актуальную (последнюю по дате) цену всех товаров на заданную дату. Дата задаётся в параметре запроса.

Задача 4: 

Есть справочник номенклатура с неограниченным числом уровней иерархии. Нужно запросом вывести все его группы и уровень иерархии каждой. Запрос на языке 1С.

Задача 5: 

 Используя API с сайта ЦБ РФ https://www.cbr.ru/development/sxml/ напиши код на языке 1С Предприятия для загрузки курса доллара за последний год на каждый день в таблицу значений

Задача 6: 

Есть файл Excel с колонками: Артикул, Наименование, Описание, Единица измерения. Есть справочник Номенклатура в 1С с аналогичными реквизитами. Напиши код на языке 1С для загрузки данного Excel файла в справочник.

Задача 7:

У меня есть две одновременно открытые управляемые формы в 1С. На одной из форм есть заполненная табличная часть "товары", мне нужно передать наполнение этой табличной части во вторую форму чтобы отобразить его на ней. Напиши код для одной формы и для второй.

Задача 8:

У меня в конфигурации есть справочник Номенклатура - напиши код на языке 1С для его выгрузки в идентичную конфигурацию.

Задача 9:

В конфигурации 1С Справочник Номенклатура, у него на форме элемента есть элемент с типом "Декорация" с видом "Картинка", называется "Картинка" а также реквизит "Картинка" с типом "ХранилищеЗначения". Напиши код который отображает картинку из реквизита при открытии формы и при нажатии на картинку на форме даёт возможность выбора файла с картинкой и перезаписывает её для элемента

Задача 10:

На форме документа 1С основной реквизит "Объект". У документа есть реквизит "Комментарий". Напиши код, работающий при нажатии на кноку "Записать комментарий", который в комментарий документа добавляет слово "Тест" - к текущему комментарию и записывает документ в базу данных не закрывая формы.

Задача 11:

На форме документа 1С есть табличная часть "товары". В документе обычно более 1000 строк. В табличной части есть реквизит "Сумма". Напиши код который работает при нажатии на кнопку "общая сумма" который должен посчитать сумму по всем строкам и вывести её пользователю

Результаты

Самый главный результат - кажется для топовых LLM большинство задач бенчмарка слишком просты. С момента выхода первой статьи качество SOTA моделей сильно выросло конечно. Но давайте что мне есть сказать по моделям.

Gemini 3 Pro:

Модель получилась хорошая, существенно лучше чему Gemini 2.5, но Claude 4.5 оказалась на удивление слишком удачной моделью. Gemini 3 не удалось её превзойти. Итого - она лучше Gemini 2.5, достаточно существенно, но всё ещё уступает Claude 4.5.

Кроме того, кажется пока Sonnet 4.5 существенно более адаптирована к Cursor и к работе в агентском режиме. Знает когда нужно использовать Grep, когда Web поиск, когда нужно выполнить команды в терминале и какие. И всё таки более ориентирован на достижение конечной цели. Суммарно Gemini 3 Pro пока всё так же уступает Sonnet 4.5

GPT 5.1:

По качеству ответов существенной разницы с GPT 5 не получается. Но скорость выросла просто в разы, если не в десятки раз. Я бы даже сказал из всех представленных сейчас это самая скоростная модель.

GLM 4.6:

Лучше чем 4.5 на порядок. Вцелом текущие её результаты даже получше чем у Qwen3 Coder. Скорость тоже на высоте. Вообще хорошая модель. Несколько недооцененная как по мне.

Kimmi K2:

Эту модель я бы вычеркнул из списка и пока не рекомендовал для использования в продакшн.

Периодически ответ модели в Cursor выглядит примерно так:

И это не разовая ошибка. В OpenRouter модель часто работает уж очень долго. В Cursor, собственно, тоже весьма не быстро. С учетом того что результаты модели весьма средненькие на первых тестах завершать их, пожалуй не имеет смысла.

Думаю это крайний обзор в таком формате, уже готов сервис для оценки моделей и скоро будет презентован. Можно будет добавлять свои задачи и результаты. Получим что то вроде LmArena но с 1С-ной спецификой. А пока всем спасибо за внимание, хотите узнать больше о развитии ИИ и вайбкодинга в 1С - подписывайтесь на канал https://t.me/comol_it_does_matter

С наилучшими пожеланиями, не пишите код руками :).

Комментарии (9)


  1. rPman
    19.11.2025 03:23

    Попробуйте а вручную пройтись по неправильным ответам моделей, как то классифицировать их ошибки и добавить в таблицу.


  1. bestuzheff
    19.11.2025 03:23

    Есть вот такой сайтик https://1c-llm-benchmark.ru/ сравние производительности лучших языковых моделей мира в среде 1С!


    1. comol85 Автор
      19.11.2025 03:23

      Дада и пока там трэш. Sonnet 4.5 - 5й(!!!) в рейтинге.


  1. ic10
    19.11.2025 03:23

    Лучшие нейросети для вайбкодинга в 1С 5

    Я так понимаю, стоит возвращаться к практике сохранения всех бумажных квитанций на всякий случай? :)


    1. rPman
      19.11.2025 03:23

      Стоит вернуться к древним как мир практикам.

      Вкладываете деньги в своего сотрудника что бы он был умнее llm-ок, а что бы он не убежал, выдаете его замуж/жените за свою родню, родственные связи чуть сильнее безликих финансовых на конкурентном рынке. Но и это будет без гарантий.


  1. rodion-m
    19.11.2025 03:23

    Спасибо
    Уточните, Kimi K2 или K2 Thinking бенчмаркали?


    1. comol85 Автор
      19.11.2025 03:23

      Thinking. Для кода модели без reasoning применять такое себе...