GigaChat 3 Ultra Preview — тяжёлый open source / forpes.ru

Главная
GigaChat 3 Ultra Preview — тяжёлый open source

GigaChat 3 Ultra Preview — тяжёлый open source +68

21.11.2025 14:46

vltnmmdv 40 8700 Источник

Салют, Хабр! Последний год выдался насыщенным: выпуск линейки GigaChat 2, которая может вас слышать, смотреть видео и даже понимать мемы; добавление функции Reasoning в наш Web (giga.chat); первое место в бенчмарке ruMTEB; а также вывод в open source GigaChat Lite и Giga-Embeddings (аж двух версий!).

В этот раз мы хотим поделиться с вами чем-то большим... буквально большим — 712 (702 + 10) миллиардами параметров! И всё это под открытой лицензией MIT!

Новое поколение моделей

Мы и наши кластеры проделали большую работу и подготовили двух представителей моделей нового поколения с открытыми весами:

GigaChat 3 Lightning — компактная MoE-модель (около 10 млрд общих, около 1,8 млрд активных) для локального запуска на своем ноутбуке и быстрых итераций с обучением (далее пишем 10B-A1.8B);
GigaChat 3 Ultra Preview — наш флагман с 702 млрд параметров (и около 36 млрд активных), о котором сегодня и поговорим (далее будем его называть 702B-A36B);

Кстати, если хотите следить за новостями в реальном времени, то подписывайтесь на наш t.me/gigadev_channel. Там мы делимся промежуточными результатами и анонсами.

Почему Ultra — это важно

GigaChat 3 Ultra — это первая открытая модель такого масштаба, которая нативно обучена на русском языке и совместима со стандартным open source-инструментарием. Архитектура Mixture of Experts (MoE) позволила нам обучить очень большую модель (702 млрд параметров), сохраняя её пригодной для реального применения: на каждом шаге генерации активируется всего 36 млрд параметров — около 5 % от общего объёма.

Мы выкладываем раннюю версию, чтобы сообщество могло экспериментировать уже сейчас. Модель полностью функциональна, но мы продолжаем её улучшать: дообучаем на большем количестве данных, оптимизируем инференс, улучшаем post-training. Ваша обратная связь поможет сделать финальную версию ещё лучше.

Важный момент: это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. Да, это сложнее и дороже: нужно пройти весь путь от случайно инициализированных весов до работающей модели. Но только так можно получить модель, которая:

действительно понимает русский язык на всех уровнях, от морфологии до культурного контекста;
не наследует проблемы и ограничения чужих датасетов;
обучена на актуальных данных без географических и временных искажений;
полностью контролируема и модифицируема под наши задачи.

Обучение с нуля, да и ещё на таком масштабе, — это вызов, который приняли немногие команды в мире. Мы этим гордимся.

О чём расскажем

Сегодня охватим всё — от технических подробностей до практического применения:

Данные для Pretrain: как мы собрали обучающий корпус из 14 триллионов токенов, подходящий для обучения такого гиганта.
Архитектура и обучение: как мы обучали Ultra с нуля и какие грабли собрали.
Alignment по-нашему: как мы учили модель быть полезной, безопасной и при этом не скучной.
Скорость инференса и бенчмарки: сравнение с мировыми лидерами на русских и международных датасетах. И почему 10B- и 702B-модели могут работать быстро (спойлер: MTP и MLA).
Поиск, память и код: новые фишки нашей модели, или история про то, как персонализировать Гигачат и сделать его ещё более функциональным.

Важно! Если статья вам понравится и захочется узнать больше технических подробностей, то приходите на конференцию «Салют, Гига!» 10 декабря. Там мы расскажем про подробности обучения, которые не поместились в статью: как мы НЕ обучили 1T-модель, все виды параллелизмов, балансировку экспертов и законы предсказания параметров обучения. Регистрация по ссылке. Будет и онлайн-трансляция!

Поехали!

Данные для Pretrain: как мы расширили обучающий корпус до 14 триллионов токенов

Для Ultra мы существенно обновили Pretrain-корпус: он вырос до 14 триллионов токенов. Мы добавили 10 языков — от китайского и арабского до узбекского и казахского, — а также расширили набор источников: книги, академические данные, датасеты по коду и математике. Все данные проходят дедупликацию, языковую фильтрацию и автоматические проверки качества при помощи эвристик и классификаторов.

Ключевой вклад в качество дала синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot. Генерация работает на высокопроизводительных конвейерах (пайплайнах) с полным потреблением GPU — без этого такие объёмы были бы невозможны. Во внутренних экспериментах синтетические данные значительно увеличили все значимые метрики, такие как MMLU и MMLU-PRO.

Отдельное направление — эксперименты с составом данных. При подготовке Pretrain-корпуса мы провели 179 экспериментов, тестируя различные комбинации естественных и синтетических источников: инструктивные данные, STEM-датасеты, «символьные» задачи и другие подходы. Мы автоматизировали весь процесс: от сэмплирования и токенизации до запуска обучения и сравнения метрик. Это позволяет быстро прогонять десятки конфигураций и выбирать оптимальный баланс между естественными и синтетическими данными. Благодаря этому каждая версия корпуса становится не просто больше, а заметно лучше с точки зрения качества модели.

Для подготовки данных мы развернули собственный open source YT-кластер — 10 000 ядер и более 5 ПБ хранилища, причём в следующем году планируем кратно расширять ресурсы. Благодаря этому сэмплирование, токенизация и любые операции map-reduce ускорились в сотни раз: то, что раньше занимало дни, теперь выполняется за минуты. Такой кластер позволяет быстро чистить данные эвристиками: например, мы удалили все артефакты в синтетических текстах за один день. Особенно удобно, что всё это работает на open source-инфраструктуре, и мы тоже активно выводим свои инструменты в open source. Связка открытых технологий позволяет нам быстро развивать конвейеры и делиться наработками с сообществом (похожей логикой мы руководствуемся, выкладывая текущий open source).

GigaChat 3 Ultra: как мы обучали с нуля 702B-MoE-модель

Мы шли к Ultra с чёткими целями: создать самую умную модель в линейке GigaChat, которая будет работать не медленнее (желательно, быстрее!) GigaChat 2 Max и останется совместимой с open source-экосистемой. Последнее было принципиальным: модель должна легко развёртываться и дообучаться стандартными инструментами сообщества.

В нашей модели 702 миллиарда параметров, из которых активных для генерации токена 36 миллиардов. Мы вдохновлялись архитектурой DeepSeek V3, на наш взгляд, это одно из лучших инженерных решений последнего времени. В ней удачно сочетаются MoE с общими экспертами, MTP (Multi-Token Prediction) и MLA (Multi-head Latent Attention), а практические детали уже отработаны на уровне классов Hugging Face.

Почему именно эта архитектурная основа?

Совместимость из коробки. Даже для популярных моделей уровня DeepSeek V3 инструменты дообучения огромных MoE-моделей остаются проблемой. Выбрав совместимую архитектуру, мы даём возможность использовать Ultra & Lighting без боли: не нужно пересобирать Docker-образы, обновлять библиотеки или переписывать конвейеры. Если вы уже работаете с DeepSeek V3 или R1, то переход на нашу модель займёт минуты, а не недели.

Экосистема готовых решений. Для базового класса DeepSeek V3 в open source уже есть некоторое количество инструментов: от оптимизированных инференс-движков (sglang, vllm) до кодовых баз для файнтюнинга (megatron, torchtitan).

Важно! Это не означает, что GigaChat Ultra — клон DeepSeek V3. Мы используем базовый класс архитектуры, но наша модель существенно отличается в деталях реализации, трюков обучения и, конечно же, датасета. Подробное сравнение архитектур — в таблице ниже. А подробности обучения — на «Салют, Гига!»!

	GigaChat 3 Ultra	DeepSeek-V3.1	Kimi K2
#Layers	64	61	61
Total parameters	702B	671B	1040В
Activated parameters	36B	37B	32,6B
Experts (total)	256	256	384
Attention Heads	64	128	64
Number of Dense Layers	3	3	1
Expert Grouping	✔	✔	✘

С целями определились, остаётся главный вызов — обучить такую модель с нуля.

Почему MoE-модели так сложно обучать

Не будем подробно разбирать механизм работы MoE-архитектур — если нужно освежить знания, рекомендуем нашу статью про open source GigaChat Lite.

Представьте, что вы управляете заводом. В обычной (dense) модели все рабочие делают одну и ту же работу синхронно — легко планировать и контролировать. В MoE-модели у вас сотни специализированных цехов (экспертов), и для каждой детали (токена) нужно выбрать подходящих специалистов. Это эффективнее, но управлять таким хаосом на порядок сложнее.

Проблема 1: Огромный объём коммуникаций между GPU

Один MoE-слой в DeepSeek V3 весит больше всей GigaChat 2 Lite. Теперь представьте, что таких слоёв 64 и их веса нужно постоянно синхронизировать между тысячами GPU. Сеть становится узким местом, даже если она очень быстрая.

Проблема 2: Непредсказуемая нагрузка

В dense модели загрузка GPU предсказуема, все карты делают одинаковую работу. В MoE модель сама решает, какие эксперты обработают каждый токен. Потенциальный результат: одна карта перегружена и тормозит всех, а соседняя скучает без работы. Нужны специальные алгоритмы балансировки, чтобы распределять нагрузку равномерно, не ломая при этом логику модели.

Исследования показывают, что лучшие результаты достигаются в режиме, когда токены свободно выбирают экспертов без ограничений. Но здесь кроется ловушка: если все десятки тысяч токенов выберут одного эксперта, то память на одной из тысяч GPU переполнится и обучение придётся перезапускать.

Поэтому мы ограничиваем количество токенов на эксперта, но подбираем лимит так, чтобы мы достигали его крайне редко, примерно один раз на 2–5 тысяч шагов, в зависимости от фазы обучения. Это страхует от пиковых перегрузок, сохраняя свободное поведение в >99,95 % случаев.

Для контроля мы построили свой центр управления полётами с буквально тысячами метрик: распределение трафика по экспертам, численные оценки дисбаланса, частота перегрузки экспертов по всей модели и другие. Мониторинг многократно помогал выявлять проблемы до того, как они влияли на скорость и качество обучения. Также благодаря мониторингу нам удалось улучшить предложенный алгоритм балансировки DeepSeek до значительно более быстрого выравнивания с учётом дисбаланса на слое. Подробнее о нём расскажем в следующих публикациях.

Проблема 3: Инфраструктурный ад

Забудьте про стандартные конвейеры. Всё нужно переписывать:

Конвертация форматов: 700 млрд параметров — это >10 терабайт на один чекпойнт. Простая сборка модели из формата обучения в инференс может занять часы, если написана неоптимально.
Мониторинг: нужно следить не только за loss, но и за балансировкой экспертов, плавающим потреблением каждой GPU, скоростью коммуникаций и пр.
Замер бенчмарков: для такой модели в разумное время этот процесс требует минимум 64 GPU.

Каждый этап требует новых инструментов. То, что для dense-модели делается одной командой, для MoE превращается в многочасовой процесс с кастомными скриптами.

Почему мы всё равно выбрали MoE

Несмотря на сложности, MoE — единственный способ получить качество 700B-модели с практически применимой скоростью инференса. Да, обучение стало сложнее, но результат того стоит.

Pretrain-метрики Lightning

Для замеров pretrain-метрик мы взяли GigaChat3-10B-A1.8B-base. Использовали открытый фреймворк lm-evaluation-harness. Метрики, отсутствующие в открытой версии репозитория (например LiveCodeBench, Sage и т. д.), мы добавили в нашу собственную версию.

Метрики качества

Pretrain-метрики для всех моделей замеряли не в instruct-формате, без chat-template.
Замеры проводили на bf16-версиях моделей. При переходе Lightning на fp8-версию мы не наблюдали значимых отличий.
Все метрики кроме LiveCodeBench замеряли с жадными параметрами генерации. Для замеров LiveCodeBench использовали параметры temperature: 0.2, top_p: 0.95.
Для замера модели yandex/YandexGPT-5-Lite-8B-pretrain потребовалось использовать параметр --add_bos_token, чтобы получить не случайные значения метрик.

* Сопоставимая с Qwen3-1.7B скорость достигается при условии включённого MTP. Подробности см. выше.

Качество модели вышло на уровеь лидеров open source в своём классе: по general-метрикам Lightning превосходит Qwen3-4B и приближается к dense-моделям размера 8B. По всем тематическим областям новая модель значительно превосходит наши прошлые поколения моделей в лице GigaChat-2-Lite и GigaChat-20B-A3В. На русском языке (babymmly-2, Sage, MMLU-Ru) мы побеждаем open source, и обладаем расширенной поддержкой длинного контекста: 256 тысяч токенов (и 128 у Ultra), в 8 раз больше, чем у конкурентов!

Скорость

Lightning так называется благодаря своей скорости инференса. При замере на vllm производительность Lightning совпадает с Qwen3-4B, а с включённым MTP можно получить дополнительное ускорение генерации примерно на 40 %, что приближает его по скорости к Qwen3-1.7B.

Model	request_throughput	output_throughput	total_token_throughput	mean_ttft_ms
Qwen3-1.7B	1,689	357,308	726,093	11,824
mtp + GigaChat3-10B-MoE-base	1,533	333,620	678,894	26,345
GigaChat3-10B-MoE-base	1,077	234,363	476,912	31,053
Qwen3-4B	0,978	206,849	420,341	14,947
Qwen3-8B	0,664	140,432	285,375	16,663
YandexGPT-5-Lite-8B-pretrain	0,641	147,305	300,269	16,711

Важно: модель с MTP-блоком показывает сопоставимое или превосходящее качество работы на различных задачах по сравнению с моделям старшего уровня — YandexGPT-5-Lite и GigaChat-2-Lite. По скорости же превосходит их в 2,5 раза. Скорость мы измеряли с помощью vLLM v0.11.0, на типе bfloat16 c batch_size=1. Так его можно воспроизвести.

Доучиваем модель

После базового предобучения модель проходит несколько шагов «доводки», чтобы она лучше общалась, рассуждала и отвечала безопасно.

Stage 1.5: массовое диалоговое дообучение. На этом шаге модель продолжает pretrain, но уже на масштабном корпусе инструктивных и диалоговых данных — порядка 5 миллионов чатов за одну эпоху (то есть за один полный проход по данным). Этот этап расположен между основным pretrain и классическим alignment, поэтому и называется Stage 1.5. Такое продолжение pretrain на массовом наборе диалогов «социализирует» модель: она начинает увереннее вести беседу, лучше удерживать контекст и точнее понимать намерения собеседника.

Большое внимание на этом этапе мы уделили обучению модели способности рассуждать над сложными задачами, формировать полезные и полные ответы на запросы, используя все доступные внешние навыки.

После закладки такого мощного фундамента мы переходим к более тонкой alignment-настройке.
Chain‑of‑Thought RL: обучение с подкреплением по рассуждениям. Далее подключаем RL (reinforcement learning), когда модель учится не просто выдавать ответ, а расписывать ход мысли. Последние успехи в RL показывают, что это улучшает обобщающую способность. Для архитектур Mixture‑of‑Experts (MoE), внутри которых работает набор «экспертов», обучение по схемам on‑policy требует особых инженерных и алгоритмических приёмов — и со стороны инфраструктуры, и со стороны ML‑методов. Результат этого этапа — заметный прирост качества: в среднем около +7 % в математических задачах и около +15 % в задачах по программированию (Ultra Preview пропустила этот этап).
Supervised Finetuning: контролируемая донастройка. Завершающий штрих — обучение на сверхчистых, вручную проверенных и отредактированных датасетах. На этом этапе мы доводим модель до эксплуатационного качества: выравниваем поведение под реальные сценарии, шлифуем стиль и безопасность, проверяем устойчивость в граничных случаях. В том числе именно здесь собираются все b2c‑фишки. А ещё это самая «видимая» часть работы — там много классного, вам понравится.

Улучшенный chat-template

Мы представляем обновлённый шаблон диалога с ключевыми улучшениями:

Иерархия ролей. Наш новый шаблон использует систему ролей для управления диалогом. Роли расположены в порядке убывания приоритета: инструкции из расположенных выше в списке ролей имеют больший вес.

Весь список

Список ролей:

developer system (инструкция разработчика): задаёт глобальные, непререкаемые правила (описание ролей, политика общения и вызова функций), имеет наивысший приоритет.
system (системная инструкция): описывает конкретную задачу или стиль ответа для данного диалога.
user (пользовательский запрос): запрос или сообщение от пользователя.
function descriptions (описания функций): доступные инструменты, описанные в формате TypeScript.
function result (результат работы функции): ответ, полученный после вызова инструмента.
user memory (память пользователя): актуальные долгосрочные факты о пользователе в формате JSON.
added files (добавленные файлы): метаданные файлов, доступных для работы в диалоге.

Роли ассистента:

assistant (ответ ассистента): ответы модели пользователю.
function call (вызов функции): решение модели вызвать инструмент и аргументы для этого.

TypeScript для описания функций вместо JSON. Наша новая модель использует синтаксис TypeScript для описания функций, и вот несколько веских причин, почему этот формат — правильный выбор:

Естественность для модели. Определение функций на языке программирования — это стандартная практика, с которой модель знакома с pretrain-стадии. В обучающих данных содержались миллиарды строк кода, включая TypeScript, что делает этот формат для модели более привычным и понятным.
Компактность. TypeScript-описания существенно лаконичнее. В нашем тестировании они занимают до 30 % меньше токенов, что напрямую ускоряет работу и снижает затраты.

Использование системы ролей позволяет гибко расширять функциональность модели. Мы можем добавлять новые возможности, просто вводя для них специализированные роли в существующую иерархию.

Alignment-метрики

Инструктивный GigaChat3-10B-A1.8B показывает уверенные знания в русскоязычных бенчмарках (MMLU_RU, RuBQ) сохраняя конкурентное качество на англоязычных бенчмарках в сравнении с современными моделями. При этом по MERA‑text GigaChat-Lightning выходит на уровень GigaChat Pro (75B MoE), что показывает, что даже лёгкая модель обеспечивает флагманское качество в аналогичных тестовых сценариях при значительно меньших вычислительных затратах.

Metric	GigaChat-Lightning-sft	Qwen3-1.7B-Instruct	Qwen3-4B-Instruct-2507	SmolLM3
MMLU_RU_FIVE_SHOT	0,6833	0,4876	0,5972	0,4998
RUBQ_ZERO_SHOT	0,6516	0,2557	0,317	0,6363
MMLU_PRO_EN_FIVE_SHOT	0,6061	0,41	0,6849	0,5013
MMLU_EN_FIVE_SHOT	0,7403	0,6	0,708	0,5992
BBH_THREE_SHOT	0,4525	0,3317	0,7165	0,4161
SuperGPQA	0,2731	0,2092	0,3745	0,2459
MATH_500_FOUR_SHOT	0,7	0,752	0,888	0,802
GPQA_COT_ZERO_SHOT	0,3502	0,2651	0,537	0,3704
LiveCodeBench_ZERO_SHOT	0,2031	0,0794	0,3046	0,1656
HUMAN_EVAL_PLUS_ZERO_SHOT	0,6951	0,628	0,878	0,7012

Все замеры бенчмарков проходили в аналогичных условиях:

sglang в качестве бэкенда;
в режиме few_shot примеры были для всех одинаковые;
замеры проходили в bf16;
в случае open source-моделей веса взяты из соответствующих репозиториев Hugging Face.

Metric	GigaChat 3 Ultra	GIgaChat 2 Max
MERA text	0,683	0,663
MERA industrial	0,645 / 0,824	-
MERA code	0,338	-
AUTOLOGI_EN_ZERO_SHOT	0,6857	0,6489
GPQA_COT_ZERO_SHOT	0,5572	0,4714
HUMAN_EVAL_PLUS_ZERO_SHOT	0,8659	0,7805
LBPP_PYTHON_ZERO_SHOT	0,5247	0,4753
MMLU_PRO_EN_FIVE_SHOT	0,7276	0,6655
GSM8K_FIVE_SHOT	0,9598	0,9052
MATH_500_FOUR_SHOT	0,7840	0,7160

GigaChat3-702B-A36B-preview уверенно превосходит GigaChat 2 Max во всех ключевых бенчмарках: от текстовых доменных метрик MERA text до сложных экзаменов (MMLU Pro), задач математики (GSM8K, MATH-500) и программирования (HumanEval+, LBPP Python). GigaChat Ultra занимает первые позиции в таблице лидеров по MERA text и MERA code, а также первое место в сельском хозяйстве, второе место после Gemini 2.5 PRO в медицине (не хватает одной тысячной до паритета) в рейтинге MERA Industrial.

Новые B2C-фичи

Мы продолжаем развивать инструменты, которые делают модель по-настоящему полезной в повседневных задачах.

Интерпретатор кода

Обновлённый интерпретатор стал одним из главных улучшений релиза. Теперь модель умеет запускать Python-код прямо в диалоге и работать с данными намного быстрее.

Мы добавили возможность вычислительного анализа файлов. Теперь можно просто загрузить отчёт, таблицу или текстовый документ, а модель аккуратно обработает содержимое и представит результат в нужном виде.

Функция интерпретатора также позволяет строить графики и визуализации, поэтому результаты анализа можно получить не только в текстовом, но и в наглядном виде.

Кроме того, теперь можно быстро проверять и анализировать фрагменты кода прямо в процессе общения. Модель выполняет их в изолированной среде и сразу показывает результат. Это заметно ускоряет работу и помогает разбираться с задачами без переключения на внешние инструменты.

Поиск

Поиск — одна из самых востребованных функций у наших пользователей. В этой версии мы переработали весь подход к реализации поиска, превратив его из простого API-вызова в самостоятельную подсистему.

Ключевое обновление — это добавление переформулировщика запросов. Компонент анализирует исходный контекст и автоматически генерирует набор уточнённых и декомпозированных запросов, близких по смыслу. Это позволяет получать более широкую выборку релевантных документов и собирать информацию по нескольким направлениям исходного запроса.

Так как переформулировщик создаёт более широкий набор поисковых запросов, объём возвращаемых данных закономерно растёт. Чтобы избежать информационного шума, мы обновили алгоритмы ранжирования. Благодаря этому модель получает только релевантные материалы, размер контекста диалога остаётся приемлемым, а качество ответов заметно повышается.

Такой подход позволяет гибко настраивать работу GigaChat с поиском и применим в любых RAG-подобных системах.

Память о пользователе

Мы реализовали подсистему накопления фактов о пользователе. Это работает как конспектирование за преподавателем на лекции: в функции описаны некоторые полезные категории фактов (окружение, интересы), и как только в сообщении встречается факт из этой категории, это служит триггером для вызова функции. Краткосрочные и неважные факты игнорируются. Также пользователь может явно попросить дописать факты, а затем проверить этот список и удалить лишнее. Так, дети могут рассказывать о любимых игрушках, а взрослым модель поможет не забыть дни рождения родственников.

Модель затем встраивает эти факты в ответы, чтобы сделать их более интересными и полезными для каждого пользователя. С помощью навыков получения даты и времени, поиска в интернете и других навыков модель может дать уточнённый ответ. Например, если пользователь планирует путешествие, то она учтёт, что человек любит кататься на лыжах, и предложит подходящие курорты.

Работа с оформлением ответа, грамотностью речи

Мы создаём GigaChat в России, и для нас особенно важно, чтобы она умела писать грамотные, выразительные и стилистически выверенные тексты на русском языке. В отличие от многих зарубежных моделей, которые нередко вставляют случайные символы в текст и допускают ошибки в написании русских слов, мы уделяем этому особое внимание.

Мы потратили множество часов редакторской работы на подготовку качественных текстов: тщательно выверяли пунктуацию, орфографию, стиль и структуру ответа — и даже не забыли о правильном использовании буквы «Ё».

В результате наши ответы стали более структурированными и аккуратными: в них меньше «воды», ключевые моменты легко считываются, тексты не пестрят лишними смайликами, а пунктуация — от длинных тире до запятых — соблюдает нормы русского языка.

И ещё пару слов

Команда GigaChat работает над проектом текстовых моделей уже около трёх лет, и за это время наши решения прошли большой путь: тык, тык, тык, и тык, от десятков до теперь уже сотен миллиардов параметров.

GigaChat Ultra — на сегодняшний день крупнейший open source LLM-проект в России и Европе. По размерам он среди мировых лидеров: лишь отдельные китайские разработки могут предложить сопоставимые по масштабу модели.

Ultra уже демонстрирует хорошие возможности (пока что в Preview-режиме), в частности, лидирует в русскоязычных бенчмарках, поддерживают интерпретатор кода и продвинутую систему памяти, входит в топ-5 крупнейших open source-моделей мира по количеству параметров. Модель всё ещё учится — ждём обновлений!

А вот GigaChat Lightning, напротив, уже прошла этапы обучения:

достигла уровня лидера open source в своём классе — Qwen3-4B;
при этом опережает по скорости инференса даже Qwen3-1.7B, которая примерно в 6 раз меньше;
…и, конечно, это ещё не предел — потенциал GigaChat Lightning продолжает расти ?

Также хотим напомнить, что мы активно нанимаем, и к тем, кто настроен критически у нас один вопрос и одно предложение:

Где твоё резюме?

Приходи это чинить!

Stay tuned!

Благодарности

Проекты такого масштаба — это не просто обучение моделек, а, скорее, настоящий инженерный вызов, потребовавший воли к достижениям и огромной работы.

Благодарим:

Команду ML-инженеров, победивших десятки багов в обучении, день и ночь работавших над запусков GigaChat Ultra и построивших всю ML-инфраструктуру обучения самой большой модели в России.
Команды, собиравшие наши данные. Вы делаете GigaChat по-настоящему умной и учите её взаимодействию с миром.
Инфраструктурные и SRE-команды. Как говорится, запустить LLM — это не только написать скрипт, но ещё и «подружить» тысячи устройств в одном кластере.

Комментарии (40)

Banakhovich
21.11.2025 15:25
#29146202
Интересно, а квантованые версии будут чтобы на домашнем оборудовании можно было запустить ну например q4?
1. SlavikF
  21.11.2025 15:25
  #29146346
  700 миллиардов параметров, даже в q4 - мало кто сможет такое запустить.
  
  В последние несколько недель вышли несколько очень неплохих open-source моделей, которые - MoE и количество активных параметров - 10-12B:
  
  MiniMax-M2-230B - 10B активных параметров
  
  GLM4.5-106B-air - 12B активных параметров
  
  Вот такой размер реально запустить у себя с более-менее практичной скоростью. А если ещё и сделать QAT (Quantization-Aware Training), как это сделали для gpt-oss-120B, то будет вообще топчик.
  1. Banakhovich
    21.11.2025 15:25
    #29146376
    Ну мне моë железо позволяет вот и интересуюсь, до недавнего времени ddr4 была достаточно доступна. Тем более речь идëт именно о сберовской модели, другие да можно запустить, а хочется потрогать эту.
  1. DanielKross
    21.11.2025 15:25
    #29147326
    30B успешно влезают в 3090 со скоростью 30-40 токенов/с
1. denis_iii
  21.11.2025 15:25
  #29146770
  Хотелось бы и поддержку запуска через llama.cpp, там какие-то сложности с размером слоев, надеюсь, что оперативно разрулят.
  Иначе, на кого эта большая модель.