
За последний год стало ясно: чтобы лучше решать сложные задачи, LLM не обязательно должны только расти в параметрах. Важнее научить модель думать длинно и структурировано, а часть вычислений перенести на этап выполнения запроса. K2‑Think — яркий пример этого сдвига. Команда берёт доступную по масштабу 32B‑модель и выжимает из неё максимум на математике, коде и научных задачах — сопоставимо с системами на порядок больше.

Что такое K2‑Think в двух словах
В основе — Qwen2.5‑32B, которую не дообучали под размышление ранее. Дальше — связный рецепт из шести опор:
длинные цепочки мыслей при SFT, чтобы задать формат и ритм рассуждений;
RL с проверяемыми вознаграждениями (задачи, где ответ можно автоматически проверить);
планирование до рассуждения: модель сначала составляет план, затем думает;
тест‑тайм скейлинг: несколько независимых попыток и выбор лучшей (Best‑of‑3);
спекулятивное декодирование для ускорения генерации;
аппаратная оптимизация на Cerebras WSE — до 2,000 токенов в секунду.
Как учили думать
Первая фаза — SFT на AM‑Thinking‑v1‑Distilled с длинными CoT. Это быстро сдвигает потолок: на AIME 2024 модель стабилизируется около 79–80% ещё в первой трети обучения, на AIME 2025 — около 72%, а дальше отдача резко падает. Итоговый чекпойнт K2‑Think‑SFT уверенно обгоняет базу на всех бюджетах попыток.


Что дала RL с проверяемыми наградами
Вторая фаза — RLVR на ~92k задач в шести доменах. Картина ясная: если стартовать с сильного SFT, RL добавляет лишь несколько процентов, а иногда легко уйти в плато или деградацию. Отдельно важно: многостадийный RL с урезанием контекста ломает паттерны, сформированные SFT, и результат не возвращается к базовому уровню.


Как усилили модель во время инференса
Третья опора — тест‑тайм приёмы. Сначала внешняя LLM извлекает ключевые концепты и строит краткий план, потом K2‑Think генерирует несколько ответов, и внешняя модель выбирает лучший. Практика показала: Best‑of‑3 даёт основной прирост, план добавляет ещё пару пунктов и одновременно сокращает длину ответа примерно на 12%. Температуру оставили 1.0 — тонкая настройка не помогала.

Что получилось на бенчмарках
Математика. 67.99 по AIME 2024/2025, HMMT25 и Omni‑MATH‑HARD. На самом тяжёлом Omni‑HARD — 60.73. В открытом сегменте это верхняя планка; рядом проприетарные о3 High и Gemini 2.5 Pro.
Код. LiveCodeBench — 63.97, выше многих больших открытых систем; SciCode — 39.2/12.0, сопоставимо с Qwen3‑235B‑A22B.
Наука. GPQA‑Diamond — 71.08 (сильно), HLE — 9.95 (умеренно).
Абордаж фронтира достигается не ростом параметров, а интеграцией длинного SFT и продуманного тест‑тайм расчёта.
Почему работа важна
Главный урок: стоит инвестировать не только в предобучение и число параметров, но и в грамотную организацию вычислений во время инференса. Простая связка планирования и Best‑of‑N, плюс быстрый рантайм, позволяет 32B‑модели бить гигантов из другой весовой категориями, конкурируя в математике и программировании. Это открывает дорогу практичным, доступным по бюджету решениям, которые можно масштабировать и проверять в реальном использовании — как команда и делает через веб и API.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.