За последний год стало ясно: чтобы лучше решать сложные задачи, LLM не обязательно должны только расти в параметрах. Важнее научить модель думать длинно и структурировано, а часть вычислений перенести на этап выполнения запроса. K2‑Think — яркий пример этого сдвига. Команда берёт доступную по масштабу 32B‑модель и выжимает из неё максимум на математике, коде и научных задачах — сопоставимо с системами на порядок больше.

Эффективность по параметрам: K2‑Think (32B) держится на уровне и выше гораздо более крупных систем на сложной математике. Сводный балл — микро‑среднее по четырём бенчмаркам.
Эффективность по параметрам: K2‑Think (32B) держится на уровне и выше гораздо более крупных систем на сложной математике. Сводный балл — микро‑среднее по четырём бенчмаркам.

Что такое K2‑Think в двух словах

В основе — Qwen2.5‑32B, которую не дообучали под размышление ранее. Дальше — связный рецепт из шести опор:

  • длинные цепочки мыслей при SFT, чтобы задать формат и ритм рассуждений;

  • RL с проверяемыми вознаграждениями (задачи, где ответ можно автоматически проверить);

  • планирование до рассуждения: модель сначала составляет план, затем думает;

  • тест‑тайм скейлинг: несколько независимых попыток и выбор лучшей (Best‑of‑3);

  • спекулятивное декодирование для ускорения генерации;

  • аппаратная оптимизация на Cerebras WSE — до 2,000 токенов в секунду.

Как учили думать

Первая фаза — SFT на AM‑Thinking‑v1‑Distilled с длинными CoT. Это быстро сдвигает потолок: на AIME 2024 модель стабилизируется около 79–80% ещё в первой трети обучения, на AIME 2025 — около 72%, а дальше отдача резко падает. Итоговый чекпойнт K2‑Think‑SFT уверенно обгоняет базу на всех бюджетах попыток.

Кривая обучения K2‑Think‑SFT: самый быстрый рост качества — в начале, затем плато.
Кривая обучения K2‑Think‑SFT: самый быстрый рост качества — в начале, затем плато.
Pass@k на AIME 2024: SFT‑версия стабильно лучше базы по мере роста числа попыток.
Pass@k на AIME 2024: SFT‑версия стабильно лучше базы по мере роста числа попыток.

Что дала RL с проверяемыми наградами

Вторая фаза — RLVR на ~92k задач в шести доменах. Картина ясная: если стартовать с сильного SFT, RL добавляет лишь несколько процентов, а иногда легко уйти в плато или деградацию. Отдельно важно: многостадийный RL с урезанием контекста ломает паттерны, сформированные SFT, и результат не возвращается к базовому уровню.

RL на AIME 2024: старт с сильного SFT даёт меньший прирост, чем RL с нуля — сигнал о сокращающемся запасе улучшений.
RL на AIME 2024: старт с сильного SFT даёт меньший прирост, чем RL с нуля — сигнал о сокращающемся запасе улучшений.
Многостадийный RL с уменьшением контекста ухудшает качество — лучше не трогать длину, заданную на SFT.
Многостадийный RL с уменьшением контекста ухудшает качество — лучше не трогать длину, заданную на SFT.

Как усилили модель во время инференса

Третья опора — тест‑тайм приёмы. Сначала внешняя LLM извлекает ключевые концепты и строит краткий план, потом K2‑Think генерирует несколько ответов, и внешняя модель выбирает лучший. Практика показала: Best‑of‑3 даёт основной прирост, план добавляет ещё пару пунктов и одновременно сокращает длину ответа примерно на 12%. Температуру оставили 1.0 — тонкая настройка не помогала.

Схема: планирование до рассуждения и Best‑of‑3 с внешней проверкой. Сочетание даёт устойчивый прирост при умеренной цене.
Схема: планирование до рассуждения и Best‑of‑3 с внешней проверкой. Сочетание даёт устойчивый прирост при умеренной цене.

Что получилось на бенчмарках

  • Математика. 67.99 по AIME 2024/2025, HMMT25 и Omni‑MATH‑HARD. На самом тяжёлом Omni‑HARD — 60.73. В открытом сегменте это верхняя планка; рядом проприетарные о3 High и Gemini 2.5 Pro.

  • Код. LiveCodeBench — 63.97, выше многих больших открытых систем; SciCode — 39.2/12.0, сопоставимо с Qwen3‑235B‑A22B.

  • Наука. GPQA‑Diamond — 71.08 (сильно), HLE — 9.95 (умеренно).

Абордаж фронтира достигается не ростом параметров, а интеграцией длинного SFT и продуманного тест‑тайм расчёта.

Почему работа важна

Главный урок: стоит инвестировать не только в предобучение и число параметров, но и в грамотную организацию вычислений во время инференса. Простая связка планирования и Best‑of‑N, плюс быстрый рантайм, позволяет 32B‑модели бить гигантов из другой весовой категориями, конкурируя в математике и программировании. Это открывает дорогу практичным, доступным по бюджету решениям, которые можно масштабировать и проверять в реальном использовании — как команда и делает через веб и API.

? Полная статья

? Демо

? Модель

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)