Сравнительный анализ 18 LLM моделей: конец монополии?

Ноябрь 2025 — месяц, когда open-source модели официально догнали проприетарные. Разбираем, что произошло, кто теперь на вершине, и как это использовать в своих проектах.


Введение: А что вообще произошло?

Ещё год назад всё было просто: хочешь топовое качество — плати OpenAI или Anthropic. Open-source модели «подавали надежды», но стабильно отставали на 15-20% по ключевым бенчмаркам.

А потом случился ноябрь 2025.

13 ноября — Baidu анонсирует ERNIE 5.0 на Baidu World 2025 — нативно омни-модальную модель, которая за неделю попадает в топ-15 Vision Arena на LMArena, сравниваясь с Claude Sonnet 4 и GPT-5-high.

18 ноября — Google выкатывает Gemini 3 Pro: 91.9% на GPQA Diamond (научное рассуждение), контекст в миллион токенов. Казалось бы, закрытые модели снова впереди планеты всей...

19 ноября — Сбер отвечает релизом GigaChat3-702B под MIT-лицензией. И вот тут начинается интересное: модель показывает 86.59% на HumanEval+ — по цифрам класно, но не понятно как интерпретировать. В добавок веса открыты.

24 ноября — Anthropic представляет Claude Opus 4.5 — первую модель, пробившую планку 80% на SWE-bench Verified (80.9%). Реальные баги из реальных репозиториев — и модель фиксит 4 из 5.

Параллельно китайцы не спят: Kimi-K2-Thinking от Moonshot AI — первая open-source модель с триллионом параметров. 84.5% на GPQA Diamond, 71.3% на SWE-bench. Под MIT-лицензией. Бесплатно. Забирайте. А Alibaba выкатывает Qwen3-VL-235B-A22B-Thinking — VLM с поддержкой визуальных агентов и GUI-автоматизации.

? Главный инсайт: Если вы до сих пор считаете, что open-source — это «почти как GPT-4, но похуже» — пора обновить картину мира. Kimi-K2 бьёт GPT-4o на научном рассуждении с разницей в 30+ процентных пунктов.

Так что там с монополией OpenAI и Anthropic? Давайте разбираться с цифрами в руках.


Большая сравнительная таблица

Данные собраны из официальных источников: HuggingFace model cards, технические отчёты компаний, Aider LLM Leaderboards, LMSys Chatbot Arena.

#

Модель

Тип

MMLU-Pro

GPQA

HumanEval+

SWE-bench

MATH-500

AIME

Парам.

Актив.

1

Gemini 3 Pro

Closed

91.8%

91.9%

76.2%

95-100%

~1T

~20B

2

GPT-5.1

Closed

91.4%

85.6%

76.3%

96.0%

94.6%

N/A

N/A

3

Claude Opus 4.5

Closed

90.8%

87.0%

80.9%

N/A

N/A

4

Kimi-K2-Thinking

? Open

84.6%

84.5%

71.3%

94.5-100%

1000B

32B

5

Claude Sonnet 4.5

Closed

89.1%

83.4%

77.2%

87-100%

N/A

N/A

6

DeepSeek-R1

? Open

84.0%

81.0%

49.2%

97.3%

79.8%

671B

37B

7

DeepSeek-V3.2-Exp

? Open

85.0%

79.9%

67.8%

89.3%

671B

37B

8

Qwen3-235B-A22B

? Open

83.0%

81.1%

92.3%

235B

22B

9

GPT-5.1-Codex-Max

Closed

77.9%

N/A

N/A

10

Mistral Large 2

? Open

84.0%

92.0%

123B

123B

11

GigaChat3-702B ??

? Open

72.76%

55.72%

86.59%

78.4%

702B

36B

12

Qwen3-30B-A3B

? Open

80.9%

85%

30.5B

3.3B

13

Gemma-3-27B-IT

? Open

67.5%

42.4%

89.0%

27B

27B

14

Mistral Small 3

? Open

81.0%

92.9%

24B

24B

15

Codestral 25.01

Closed

86.6%

~22B

~22B

16

Gemma-3-12B-IT

? Open

~55%

~35%

~70%

12B

12B

17

GigaChat3-10B ??

? Open

60.61%

35.02%

69.51%

70.0%

10B

1.8B

18

Vikhr-Nemo-12B ??

? Open

26.64%

17.15%

12B

12B

? = Open-source (MIT/Apache 2.0) | ?? = Российская разработка


Kimi-K2: Open-source догнал топов

Остановимся на этом подробнее, потому что это реально переломный момент для индустрии.

Kimi-K2-Thinking от китайской Moonshot AI:

  • ? Триллион параметров — но благодаря MoE активируется только 32B на токен

  • ? 84.5% на GPQA Diamond — это уровень Claude 3.5 Sonnet

  • ? 71.3% на SWE-bench — фиксит реальные баги из GitHub

  • ? 51% на Humanity's Last Exam — лучший результат среди всех open-source

  • ? MIT-лицензия — хотите в прод? Пожалуйста. Хотите дообучить? Да на здоровье

Для понимания масштаба: GPT-4o показывает ~53% на GPQA Diamond. Kimi-K2 — open-source модель — опережает его на 30+ процентных пунктов.

? Практический совет: Kimi-K2 доступен через API на Together AI и других платформах. Для задач глубокого анализа и научного рассуждения — отличная альтернатива Claude/GPT по гораздо меньшей цене.


Топ-5 по категориям

? Научное рассуждение (GPQA Diamond)

GPQA — это вопросы уровня PhD по физике, химии и биологии. Здесь нужно не знать факты, а уметь думать.

#

Модель

GPQA Diamond

Тип

?

Gemini 3 Pro

91.9%

Closed

?

Claude Opus 4.5

87.0%

Closed

?

GPT-5.1

85.6%

Closed

4

Kimi-K2-Thinking

84.5%

Open

5

Claude Sonnet 4.5

83.4%

Closed

Вывод: Разрыв между closed и open — всего 7%. Год назад было 25+.


? Кодинг (SWE-bench Verified)

SWE-bench — реальные баги из реальных open-source репозиториев. Модель должна понять issue, найти файл, написать патч, пройти тесты.

#

Модель

SWE-bench

Тип

?

Claude Opus 4.5

80.9%

Closed

?

GPT-5.1-Codex-Max

77.9%

Closed

?

Claude Sonnet 4.5

77.2%

Closed

4

Gemini 3 Pro

76.2%

Closed

5

Kimi-K2-Thinking

71.3%

Open

6

DeepSeek-V3.2-Exp

67.8%

Open

Вывод: В кодинге closed-модели пока лидируют, но open-source уже на расстоянии вытянутой руки.


? Математика (MATH-500 / AIME)

AIME — олимпиадная математика уровня финала всероса. MATH-500 — от школьной алгебры до university-level.

#

Модель

MATH-500

AIME

Тип

?

DeepSeek-R1

97.3%

79.8%

Open

?

GPT-5.1

96.0%

94.6%

Closed

?

Gemini 3 Pro

95-100%

Closed

4

Kimi-K2-Thinking

94.5-100%

Open

5

Qwen3-235B-A22B

92.3%

Open

Вывод: В математике open-source УЖЕ лидирует! DeepSeek-R1 с 97.3% на MATH-500 — абсолютный рекорд.

? Для практиков: Нужна модель для математических расчётов, анализа данных, научных вычислений? DeepSeek-R1 под MIT-лицензией. Серьёзно.


? Лучшие Open-Source LLM — Overall

Сводный рейтинг. Только модели с открытыми весами.

Ранг

Модель

MMLU-Pro

GPQA

SWE-bench

Лицензия

VRAM

?

Kimi-K2-Thinking

84.6%

84.5%

71.3%

MIT

~250GB+

?

Qwen3-235B-A22B

83.0%

81.1%

Apache 2.0

~470GB

?

DeepSeek-V3.2-Exp

85.0%

79.9%

67.8%

MIT

~700GB

4

DeepSeek-R1

84.0%

81.0%

49.2%

MIT

~700GB

5

Mistral Large 2

84.0%

MRL

~300GB

6

GigaChat3-702B ??

72.76%

55.72%

MIT

~800GB+


Лучшие компактные Open-Source модели (≤30B параметров)

Для тех, у кого нет кластера H100, но есть RTX 4090 или облачный инстанс.

Ранг

Модель

Параметры

Активные

VRAM

Фишка

?

Qwen3-30B-A3B-Thinking

30.5B

3.3B

~60GB

MoE-магия: качество 70B+ при затратах 7B

?

Mistral Small 3

24B

24B

~48GB

81% MMLU, HumanEval 92.9%

?

Gemma-3-27B-IT

27B

27B

~54GB

Мультимодальный, 128K контекст

4

Codestral 25.01

~22B

~22B

~44GB

FIM 95.3% — лучший для автодополнения

5

Gemma-3-12B-IT

12B

12B

~24GB

RTX 4090 ready, 140+ языков

6

GigaChat3-10B ??

10B

1.8B

~20GB

Русский язык из коробки

? Qwen3-30B-A3B — это магия MoE: 30 миллиардов параметров, но активируется только 3.3B на токен. Качество как у 70B+ модели, VRAM как у 7B.


? Лучшие Open-Source LLM для кодинга

Отдельный рейтинг для тех, кто строит coding assistants, IDE-плагины и системы автоматического ревью. В этой категории в конце ноября произошло важное событие — релиз специализированной линейки Qwen3-Coder.

Ранг

Модель

HumanEval+

SWE-bench

FIM

Лицензия

?

Qwen3-Coder-480B-A35B

94.2%

82.1%

97.0%

Apache 2.0

?

Mistral Small 3

92.9%

Apache 2.0

?

Mistral Large 2

92.0%

MRL

4

Qwen3-Coder-30B-A3B

89.5%

94.5%

Apache 2.0

5

Codestral 25.01

86.6%

95.3%

Proprietary

6

GigaChat3-702B ??

86.59%

MIT

7

Kimi-K2-Thinking

71.3%

MIT

8

GigaChat3-10B ??

69.51%

MIT

Лидеры рейтинга

Qwen3-Coder-480B-A35B-Instruct — новый «король кода». Это массивная MoE-модель (480 млрд параметров, 35 млрд активных), которая впервые в истории open-source пробила 80% на SWE-bench, опережая даже Claude Opus 4.5. Если вам нужен аналог Senior Developer для сложных рефакторингов — это он.

Qwen3-Coder-30B-A3B — лучшее соотношение цена/качество. При смешных требованиях к железу (активируется всего 3 млрд параметров!) она выдает почти 90% на HumanEval+, обгоняя многие 70B-модели. Идеальный выбор для локального Copilot в VS Code.

?? Феномен GigaChat

GigaChat3-702B занимает почетное место в мировом топ-6, и здесь важен контекст.
Да, специализированные «кодеры» (как Qwen Coder или Mistral) вырвались вперед по сухим цифрам, но GigaChat — это General Purpose модель.

Показатель 86.59% на HumanEval+ означает, что российская модель пишет код лучше, чем GPT-4o и Claude 3.5 Sonnet (образца 2024 года).

Почему для нас GigaChat может быть №1:

  1. Русский контекст: Она идеально понимает ТЗ на русском, комментарии в кириллице и специфику 1С/Bitrix, где западные модели часто «плывут».

  2. MIT Лицензия: В отличие от Mistral Large (MRL) или Codestral, Сбер отдал веса полностью. Никаких ограничений на коммерческое использование.

  3. Безопасность: Это единственная модель из топа, которую можно развернуть в закрытом контуре российского энтерпрайза без юридических рисков и «закладок».

? Итог: Если вам нужен сухой код на Python/JS — берите Qwen3-Coder. Если нужна модель, которая обсудит с вами архитектуру на русском языке, поймет нечеткое ТЗ и напишет документацию — GigaChat3-702B вне конкуренции.


?? Российские и русскоязычные модели

Отдельная секция для отечественных разработок. Спойлер: есть чем гордиться.

Модель

Разработчик

Параметры

HumanEval+

Ru Arena

Особенности

GigaChat3-702B-A36B

Сбер

702B (36B акт.)

86.59%

Мировой рекорд HumanEval+

GigaChat3-10B-A1.8B

Сбер

10B (1.8B акт.)

69.51%

Влезает в RTX 4090

Vikhr-Nemo-12B

Vikhrmodels

12B

65.5

Лучший для RAG на русском

QVikhr-3-4B

Vikhrmodels

4B

78.2

+20.7% vs базовой Qwen3-4B

Что сделал Сбер

Команда SberDevices выпустила GigaChat3 — и это не «ещё одна российская LLM». Это:

  1. 702B параметров с архитектурой Mixture-of-Experts (36B активных)

  2. 86.59% на HumanEval+ — мировой рекорд на момент релиза

  3. MIT-лицензия — полностью открытые веса, используйте как хотите

  4. Pretrain с нуля — не файнтюн китайской модели, а собственный корпус данных

Также выпущена компактная GigaChat3-10B — 10 миллиардов параметров, 1.8B активных. Влезает в RTX 4090, показывает 69.51% на HumanEval и 70% на MATH. Отличный вариант для локального запуска.

Vikhrmodels — комьюнити-разработка

Отдельного упоминания заслуживает проект Vikhrmodels — команда энтузиастов, адаптирующая мировые модели под русский язык:

  • Vikhr-Nemo-12B — адаптация Mistral-Nemo, оптимизирована для RAG-задач

  • QVikhr-3-4B — улучшенная Qwen3-4B, +20.7% на русскоязычных бенчмарках


Требования к GPU VRAM

Практическая таблица для планирования инфраструктуры.

Категория

Модели

VRAM (BF16)

С квантизацией (Q4)

Железо

Кластерные

Kimi-K2, GigaChat3-702B, DeepSeek-R1

700-1000GB+

250-400GB

8+ H100

Multi-GPU

Qwen3-235B, Mistral Large 2

300-470GB

80-120GB

4× H100

Single H100

Qwen3-30B, Gemma-3-27B

54-60GB

15-20GB

1× H100

RTX 4090

GigaChat3-10B, Gemma-3-12B, Vikhr-Nemo

20-24GB

6-8GB

RTX 4090

Consumer

QVikhr-3-4B, Gemma-3-4B

8GB

2-4GB

RTX 3080/4070


Зачем платить за API, когда есть Open-Source?

Хороший вопрос. Давайте честно.

Математика простая:

Сценарий 1: Стартап, 100K запросов/месяц

  • GPT-4o API: ~$1,750/месяц

  • Аренда H100: ~$1,500-2,200/месяц, но запросов неограниченно

При 100K+ запросов self-hosted уже выгоднее.

Сценарий 2: Небольшая команда, 10K запросов/месяц

  • GPT-4o API: ~$175/месяц

  • Аренда H100: ~$1,500+/месяц

Здесь API выигрывает в 10 раз.

Но есть нюанс

Простой человек и даже средняя компания не может просто так купить сервер с H100 за десятки тысяч долларов. Это реальность.

Поэтому реальный компромисс:

Ваша ситуация

Рекомендация

<50K запросов/месяц

API дешевле и проще

>100K запросов/месяц

Self-hosted окупается

Чувствительные данные

Только self-hosted, никаких вариантов

Эксперименты/R&D

Локальные 7-12B модели на RTX 4090

Production + приватность

Облачные инстансы с GPU + open-source модели

? Практический совет: Начните с API, измерьте реальные объёмы, посчитайте unit economics. Self-hosted имеет смысл при >50K запросов/месяц ИЛИ при жёстких требованиях к приватности.


Данные: почему не все могут сделать свою LLM

Хотите понять, почему не каждая компания может выпустить свой GPT-4? Ответ не в архитектуре — трансформеры давно опубликованы. Ответ в данных.

Что нужно для pretrain:

Этап

Что нужно

Сложность

Pretrain

10-15 триллионов токенов чистых данных

Собрать, очистить, дедуплицировать

Instruct

Миллионы пар вопрос-ответ

Разметка, качество, разнообразие

Thinking

Синтетические цепочки рассуждений

Нужны сильные модели для генерации

Почему это ОЧЕНЬ дорого:

  1. Сбор данных — лицензии, парсеры, петабайты хранилища

  2. Очистка — до 90% сырых данных отбраковывается

  3. Дедупликация — без неё модель «заучивает», а не «понимает»

  4. Compute — pretrain на 14T токенов = месяцы работы кластера из 1000+ GPU

Кто в России делает pretrain с нуля?

Только Сбер.

И это не преувеличение. Pretrain GigaChat3-702B — это:

  • Кластер из тысяч GPU

  • Месяцы непрерывной работы

  • Десятки ML-инженеров

  • 14 триллионов токенов собственного корпуса

Остальные российские проекты работают с файнтюном существующих моделей — и это разумный подход при ограниченных ресурсах. Но полный pretrain на русскоязычных данных — это уровень ресурсов, который в России есть только у Сбера.

? Рекомендую: Pretrain: как мы собрали обучающий корпус из 14 триллионов токенов — отличная техническая статья от команды SberDevices.


LLM в агентных системах

Агенты — следующий рубеж после простых чатботов. Модель должна планировать, использовать инструменты, обрабатывать ошибки, работать автономно.

Что нужно от модели для агентов:

  • Function calling — надёжный вызов внешних API

  • Длинный контекст — помнить историю сессии

  • Следование инструкциям — не отклоняться от плана

  • Самокоррекция — понимать, когда что-то пошло не так

Топ-6 моделей для агентных систем

Ранг

Модель

Function Calling

Контекст

SWE-bench

Тип

?

Claude Opus 4.5

⭐⭐⭐

200K

80.9%

Closed

?

GPT-5.1

⭐⭐⭐

128K

76.3%

Closed

?

Gemini 3 Pro

⭐⭐⭐

1M

76.2%

Closed

4

Kimi-K2-Thinking

⭐⭐

128K

71.3%

Open

5

Qwen3-235B-A22B

⭐⭐

256K

Open

6

DeepSeek-V3.2

⭐⭐

128K

67.8%

Open

Честно о сложностях open-source агентов

Проблемы:

  • Function calling менее надёжный, чем у GPT/Claude

  • Чаще «галлюцинирует» при длинных сессиях

  • Меньше примеров и best practices

Преимущества:

  • Полный контроль над моделью

  • Можно дообучить на своих данных

  • Нет rate limits и зависимости от внешнего API

  • Приватность данных

? Практический совет: Для production-агентов начните с Claude/GPT. Для внутренних инструментов и экспериментов — Kimi-K2 или Qwen3 отлично справятся.


VLM: модели с пониманием изображений

Vision-Language Models — отдельная категория, где модель понимает и текст, и картинки. Ноябрь 2025 принёс несколько важных релизов в этой области.

Что нового в VLM

ERNIE 5.0 Preview от Baidu — нативно омни-модальная модель, которая сразу попала в топ-15 Vision Arena (score ~1206) на уровне Claude Sonnet 4 и GPT-5-high. Особенно сильна в документах и графиках.

Qwen3-VL-235B-A22B-Thinking от Alibaba — флагманская VLM с поддержкой:

  • Visual Agent — может управлять GUI на ПК и мобильных устройствах

  • Visual Coding — генерирует HTML/CSS/JS из скриншотов

  • 3D Grounding — пространственное понимание объектов

  • Контекст до 256K токенов

Топ-6 VLM (ноябрь 2025)

Ранг

Модель

Arena Score

Видео

Тип

Особенности

?

Gemini 3 Pro

#1

Closed

Лидер Vision Arena, 1M контекст

?

GPT-5.1

#2-3

Closed

Улучшенный OCR, анализ графиков

?

Claude Opus 4.5

#4-5

Closed

Лучший для длинных документов

4

ERNIE 5.0 Preview

#12-15

Closed

Документы, графики, китайский

5

Qwen3-VL-235B-A22B-Thinking

Open

Visual agents, GUI automation

6

InternVL3-78B

Open

Industrial/3D reasoning

? Для практиков:

  • Нужен VLM для анализа скриншотов, документов? Gemma-3-27B работает на одном H100.

  • Хотите автоматизацию GUI? Qwen3-VL-235B-Thinking — единственная open-source с visual agents.

  • Работаете с китайским контентом? ERNIE 5.0 или Qwen3-VL будут оптимальны.

Open-Source VLM: на что обратить внимание

Модель

Параметры

VRAM

Фишка

Qwen3-VL-235B-A22B-Thinking

235B (22B акт.)

~500GB

Visual agents, лучший open-source

InternVL3-78B

78B

~160GB

Industrial reasoning, 3D

Gemma-3-27B-IT

27B

~54GB

Pan & Scan, 128K, одна H100

ERNIE-4.5-VL-28B-A3B-Thinking

28B (3B акт.)

~48GB

Apache 2.0, документы

LLaMA 3.2 Vision

11B-90B

24-180GB

Strong OCR, 128K контекст


Ключевые выводы

1. Монополия закончилась

Open-source модели официально достигли уровня проприетарных. Kimi-K2 (MIT) сравним с Claude 3.5 Sonnet. DeepSeek-R1 (MIT) — лучший в мире на математике.

2. MoE — архитектура 2025 года

Большинство топовых моделей используют Mixture-of-Experts: триллион параметров, но активируется 3-5%. Качество «большой» модели при затратах «маленькой».

3. Россия в игре

GigaChat3-702B от Сбера — не «догоняющая разработка», а мировой рекорд на HumanEval+ (86.59%). Под MIT-лицензией. Это достижение мирового уровня.

4. VLM становятся агентами

Новое поколение VLM умеет не только видеть, но и действовать: управлять GUI, генерировать код из скриншотов, понимать 3D-пространство.

5. Таблица выбора

И тут практически нет Чат-ЖПТ от Open-АИ?.

Задача

Лучший выбор

Open-source альтернатива

Научное рассуждение

Gemini 3 Pro

Kimi-K2-Thinking

Кодинг

Claude Opus 4.5

Qwen3-Coder-480B-A35B

Математика

DeepSeek-Math-V2 или R1(open!)

— уже лучший

Агенты

Claude Opus / GPT-5.1

Kimi-K2 / Qwen3-235B

Локальный запуск

Qwen3-30B-A3B / Mistral Small 3

Русский язык

GigaChat3

Vikhr-Nemo-12B

VLM + Visual Agents

Gemini 3 Pro

Qwen3-VL-235B-Thinking

VLM локально

Gemma-3-27B-IT

6. Что это значит для вас?

  • DS/ML-инженерам: Пора пробовать open-source в production. Качество уже там.

  • Стартапам: Считайте unit economics. >100K запросов — self-hosted выгоднее.

  • Enterprise: Open-source + приватные данные = независимость от внешних API.

  • Всем: Следите за китайскими и российскими релизами. Там сейчас происходит самое интересное.


Понравилась статья? Делитесь в комментариях своим опытом с LLM. Особенно интересно услышать про реальные кейсы open-source в production.


Источники: HuggingFace, Anthropic, OpenAI, Google DeepMind, Alibaba (Qwen), DeepSeek, Moonshot AI, Sber, Vikhrmodels, Baidu, Aider LLM Leaderboards, LMArena (Vision/Text Arena)

Дата: Декабрь 2025

Комментарии (5)