OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b / forpes.ru

Главная
OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b +43

07.08.2025 08:35

suncru 12 6800 Источник

Компания OpenAI, известная разработкой топовых языковых моделей, сделала важный шаг навстречу открытому сообществу, представив две передовые open-source модели — GPT-OSS-120b и GPT-OSS-20b. Этот релиз знаменует возвращение компании к изначальной идее открытого распространения своих технологий (или, скорее, является пиар-ходом компании в ответ на упреки в закрытости). Событие действительно знаковое, ведь впервые с момента выпуска GPT-2 в 2019 году компания делает веса своих крупных языковых моделей полностью доступными сообществу.

GPT-OSS-120b и GPT-OSS-20b — это продвинутые генеративные модели, сочетающие лучшие практики OpenAI последних лет: архитектуру Transformer с MoE, расширенное контекстное окно на 128 000 токенов, инновационные механизмы квантования MXFP4 и масштабируемую глубину рассуждений. Благодаря этим возможностям модели достигают производительности, сравнимой с закрытыми моделями OpenAI (например, o3-mini и o4-mini), при этом оставаясь доступными даже для локального запуска.

В статье мы подробно рассмотрим технические особенности этих моделей, их архитектуру и механизмы работы, результаты на основных бенчмарках, аспекты безопасности и лицензионную политику. Материал основан на официальной документации OpenAI, а также на подробной информации из репозитория на GitHub и публикациях на платформе Hugging Face.

Архитектура моделей GPT-OSS-120b и GPT-OSS-20b

GPT-OSS-120b и GPT-OSS-20b — это большие языковые модели с архитектурой Transformer, в которой применен метод Mixture-of-Experts (MoE). MoE позволяет значительно уменьшить число активных параметров, необходимых для обработки каждого токена, за счет распределения вычислений между набором экспертных подсетей. Так, в модели GPT-OSS-120b из общих ≈117 млрд параметров на каждый токен активно задействуется лишь 5,1 млрд (около 4.4%) благодаря MoE, а у GPT-OSS-20b из ≈21 млрд общих параметров активно используются 3,6 млрд.

Каждая модель содержит множество так называемых «экспертов» – отдельно обучаемых блоков в слоях Transformer. В старшей 120b модели таких экспертов 128, но одновременно для генерации следующего токена привлекаются только 4 из них. У младшей 20b — 32 эксперта (также с 4 активными). Таким образом, модель экономит вычислительные ресурсы, выбирая наиболее подходящих «экспертов» для каждого фрагмента текста.

Архитектурно обе модели имеют относительно «неглубокую» структуру по меркам современных LLM: GPT-OSS-120b состоит из 36 слоев, а GPT-OSS-20b — из 24 слоев. Для сравнения, в рядовых больших моделях количество слоев примерно от 80 до 200. Для токенизации данных OpenAI разработала токенизатор o200k_harmony с вокабуляром ~200k токенов, оптимизированную под длинные контексты. Токенизатор также открыли для сообщества вместе с самими моделями.

Контекстное окно 128k — одна из выдающихся технических характеристик GPT-OSS. Для его эффективного использования разработчики внедрили описанные выше методы оптимизации внимания, а также изначально обучили модели с удлиненными контекстами. Это позволяет моделям удерживать очень большие объемы текста (например, несколько глав книги или относительно крупную кодовую базу) и выполнять сложные многоступенчатые рассуждения без обрыва цепочки внимания.

В таблице ниже приведены основные параметры архитектуры двух моделей GPT-OSS:

Model	Layers	Total Params	Active Params (per token)	Experts (total)	Active Experts (per token)	Context Length
gpt-oss-120b	36	≈117 B	5.1 B	128	4	128k
gpt-oss-20b	24	≈21 B	3.6 B	32	4	128k

Обе модели являются «текстовыми», а значит не имеют возможности работать с голосом, фото и изначально обучены только на текстовых данных. Они поддерживают полный вывод цепочки рассуждений (Chain-of-Thought, CoT) — модель может по запросу возвращать не только финальный ответ, но и подробный ход своих размышлений. Эта функция упрощает отладку и повышает прозрачность работы модели.

Также GPT-OSS-120b/20b нативно поддерживают структурированные выходные форматы (Structured Outputs) и выполнение специальных функций — модель может вызывать инструменты (например, выполнять поиск в интернете или запускать код) по ходу диалога благодаря встроенной агентной архитектуре. Последнее означает, что в процессе генерирования ответа модель способна реагировать на специальные «системные» подсказки, дающие ей инструкцию воспользоваться определенным инструментом (например, запросить веб-страницу или вычислить что-то с помощью Python) прежде, чем продолжить выдачу текста ответа.

Эти возможности делают GPT-OSS моделями класса reasoning agents (размышляющих агентов), пригодных для сложных сценариев, требующих сочетания языковых и инструментальных навыков.

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

Сравнение GPT-OSS-120b и GPT-OSS-20b

GPT-OSS-120b

Старшая модель серии, направленная на максимальную точность и мощные возможности рассуждения. Она включает ≈117 млрд параметров (из них 5,1 млрд активно на каждый токен) и обеспечивает наилучшие результаты, сопоставимые с проприетарными моделями самого высокого класса, при относительно умеренных требованиях к инфраструктуре.

Модель 120b можно запускать на одном GPU NVIDIA H100 (80 ГБ памяти) благодаря использованию 4-битной квантизации весов MoE-слоев (формат MXFP4). Для сравнения, обычная плотная модель такого же размера без MoE потребовала бы в несколько раз больше памяти.

GPT-OSS-120b оптимальна для серверных и производственных сценариев, где нужна максимальная глубина понимания и точность: анализ больших документов, сложное многосоставное решение задач, генерация кода, научные вопросы и т. д. Она показывает производительность уровня OpenAI o4-mini на ключевых бенчмарках. При этом контроль полностью находится у разработчика.

GPT-OSS-20b

Младшая модель, обладающая гораздо меньшим размером (~21 млрд параметров, 3,6 млрд активных). Ее можно запустить даже на относительно простом оборудовании: модель помещается в 16 ГБ памяти, то есть может работать на потребительских видеокартах или на CPU-серверах без специализированных ускорителей. Благодаря этому GPT-OSS-20b подходит для локального использования на устройствах, и других случаев, где критичны низкие задержки или отсутствие сетевой зависимости.

Несмотря на существенно меньший размер, GPT-OSS-20b демонстрирует сильные стороны в задачах, требующих рассуждений: она почти не уступает старшей версии в математических и логических задачах средней сложности, а иногда даже превосходит более крупные закрытые и открытые модели прежнего поколения. Например, эта компактная модель на ряде бенчмарков догоняет или обходит 175-миллиардные открытые модели предыдущих лет.

Отличия и особенности

Обе модели обучены решать широкий круг задач, но GPT-OSS-120b за счет большего объема параметров достигает более высоких точностных показателей на сложных задачах и лучше справляется с тонкими нюансами инструкций. GPT-OSS-20b выигрывает в скорости и экономичности — ее можно использовать там, где важна быстрая генерация и где допустимо небольшое снижение качества ради работы на дешевой инфраструктуре или офлайн.

В контексте практических применений:

GPT-OSS-120b предпочтительна для ресурсоемких задач, требующих максимальной полноты ответа и глубины анализа (аналитические отчеты, сложные вопросы, многоступенчатое рассуждение с инструментами).
GPT-OSS-20b оптимальна для встраиваемых и персональных помощников, локальных ботов и приложений, где критична автономность и приватность данных. Она обеспечивает достойный уровень понимания при запуске on-device без обращения к облачным API.

Обе модели были обучены на одних и тех же данных и по единой методологии, поэтому качественно они ведут себя похоже: обе отлично следуют инструкциям, способны к цепочечным рассуждениям и использованию инструментов, поддерживают форматирование ответов (JSON-структуры и т. п.). Разница, главным образом, в уровне точности и требуемых вычислительных ресурсах.

В частности, GPT-OSS-120b, будучи более мощной, дольше генерирует ответы и требует более дорогого железа, тогда как GPT-OSS-20b обеспечивает более быстрый отклик и может работать на недорогих видеокартах или даже в CPU-режиме (с оптимизированными библиотеками). Вопрос выбора между ними сводится к компромиссу «качество vs. затраты»: для прототипирования, мобильных приложений, или когда нужен офлайн-режим, берут 20b; для максимальных результатов и сложных производственных систем — 120b.

Отдельно стоит отметить, что разработчики ввели в обеих моделях механизм регулируемого уровня рассуждения. Перед генерацией ответа системе можно задать один из трех режимов: LOW, MEDIUM или HIGH reasoning effort, — тем самым управляя глубиной и длительностью размышлений модели.

На низком уровне модель стремится отвечать максимально быстро и кратко, жертвуя детализацией рассуждений; на высоком — напротив, может тратить больше времени и токенов на внутреннюю проработку задачи для достижения более точного и обоснованного ответа.

Этот функционал заложен на стадии обучения и доступен через специальную системную инструкцию, что удобно для разработчиков: по сути, одна и та же модель может работать как в режиме быстрого чат-бота с минимальной задержкой, так и в режиме «размышляющего эксперта» для сложных вопросов. Такая гибкость делает GPT-OSS уникальным инструментом, сочетающим два в одном.

Обучение моделей: данные, инфраструктура, RLHF

Датасет и предобучение

Модели GPT-OSS обучены на колоссальном по объему корпусе текстовых данных — в сумме обработаны триллионы токенов текстов. Основной язык — английский, хотя встречаются и многоязычные фрагменты; данные только текстовые. Особый акцент в подборе обучающих данных сделан на доменах, требующих развитых навыков рассуждения: это STEM-дисциплины (наука, техника, математика), программирование (исходные коды, описание алгоритмов) и общая эрудиция.

Таким образом, модель получала богатый опыт в решении математических задач, написании и анализе кода, ответах на вопросы по истории, медицине, праву и т. д. — все это призвано повысить ее способность логически выводить ответы. Для повышения качества и безопасности входной корпус был очищен от вредоносного контента: OpenAI применяла фильтры для удаления данных, связанных с опасными биологическими, химическими, ядерными тематиками (CBRN), а также другой токсичной или запрещенной информации. Благодаря этому снижается риск того, что модель на предобучении впитает нежелательные знания (например, инструкции по созданию оружия или вредный контент).

Срез знаний модели — июнь 2024 года, то есть в обучающем датасете отсутствуют события и факты после этой даты. В случае необходимости получать более свежие сведения модели могут использовать инструмент веб-поиска во время диалога.

Для токенизации (преобразования текста в последовательности токенов) использовался новый открытый словарь Harmony (o200k) объемом ~201k токенов. Такой крупный словарь позволил уменьшить длину токенизированного представления текстов (т.е. длинные слова или фразы кодируются одним токеном), что особенно важно при контекстном окне 128k.

Инфраструктура и затраты

Объем вычислительных ресурсов впечатляет: предобучение GPT-OSS-120b потребовало примерно 2,1 млн часов GPU H100. Для понимания масштаба: это эквивалентно непрерывной работе одного H100 около 240 лет. Конечно, на практике обучение шло параллельно на сотнях или тысячах GPU и заняло гораздо меньше времени (ориентировочно несколько месяцев интенсивной работы кластера).

Младшая модель GPT-OSS-20b за счет меньшего размера потребовала примерно в 10 раз меньше вычислений (порядка 210 тысяч GPU-часов). Такой объем работы вкупе с передовыми техниками оптимизации подчеркивает, что за открытым релизом этих моделей стоит значительный инженерный подвиг и инвестиции OpenAI.

Fine-tuning и RLHF

После этапа предобучения на массивном корпусе данных, модели GPT-OSS прошли многоэтапное пост-обучение для достижения высококачественного взаимодействия с пользователем. Этот этап аналогичен подходам, применявшимся ранее для ChatGPT и других моделей OpenAI.

Сначала выполнялся Supervised Fine-Tuning (SFT) — обучающие специалисты предоставляли модели примеры правильных ответов на различные пользовательские запросы, а модель дообучалась повторять эти образцы. На этом этапе GPT-OSS обучили следовать инструкциям, форматировать ответы по спецификации OpenAI Model Spec (это такие специальные требования к ответам, единый стиль), а также использовать инструменты и пошаговые рассуждения перед выдачей финального ответа. По сути, модель натренировали сначала подумать, при необходимости воспользоваться инструментами и лишь затем дать ответ — эта техника повышает точность на сложных задачах.
Затем применялся Reinforcement Learning with Human Feedback (RLHF) — обучение с подкреплением по обратной связи от людей или от моделей-«критиков». Как указано OpenAI, для GPT-OSS использовали high-compute RL stage, то есть ресурсозатратный этап RLHF, подобный тому, что применялся для флагманских моделей серии o-series (например, OpenAI o3). Вероятно, в ходе RLHF люди-аннотаторы (или вспомогательные модели) сравнивали варианты ответов GPT-OSS и выдавали сигналы качества, по которым модель доводилась до оптимальной формы. Цель этого этапа — добиться того, чтобы модель давала максимально полезные, точные и безопасные ответы, близкие по качеству к ответам флагманских моделей OpenAI.

Отдельным направлением пост-обучения стала работа по алайнменту моделей. OpenAI применила при обучении подход Deliberate Alignment — многоступенчатое обучение модели отказывать в выполнении заведомо опасных или запрещенных запросов и противостоять попыткам обхода запретов. В частности, модель обучали следовать иерархии инструкций (System > Developer > User), понимать, когда нужно строго отказать, а когда можно продолжить диалог безопасно.

Также применялась методика Instruction Hierarchy Fine-Tuning по научной работе OpenAI, закрепляющая приоритет системных правил над пользовательскими. В результате GPT-OSS-120b и 20b по умолчанию следуют политикам безопасности OpenAI и склонны отказывать во вредоносных просьбах (например, запросах на незаконные действия) так же, как это делают закрытые модели компании.

Чтобы оценить риски, связанные с открытой доступностью таких моделей, OpenAI провела занимательный эксперимент: команда взяла GPT-OSS-120b и умышленно дообучила ее на специализированных «вредных» датасетах (биологические и кибер-эксплойты), симулируя действия злоумышленника. Полученные модели (био- и кибер-«jailbreak»-версии) прошли через внутреннее и внешнее тестирование по Preparedness Framework — системе оценивания угроз от передовых ИИ.

Вывод оказался обнадеживающим: даже с такими целенаправленными попытками не удалось значительно повысить опасные способности GPT-OSS по сравнению с изначальным уровнем. Модель не достигла порогов «высокой угрозы» ни в одной из отслеживаемых категорий (био, кибер, самосовершенствование ИИ). Эти результаты, проверенные независимыми экспертами, дали OpenAI уверенность, что выпуск открытых весов не приведет к немедленному скачку опасности по сравнению с уже имеющимися в сообществе моделями.

Тем не менее, компания запустила программу вознаграждения (Red Teaming Challenge) с призовым фондом $500k, призванную привлечь исследователей со всего мира к поиску потенциальных уязвимостей и проблем безопасности в GPT-OSS. По итогам этого конкурса планируется опубликовать отчет и датасет найденных проблем, чтобы вся индустрия могла улучшать безопасность открытых моделей.

Результаты на бенчмарках и сравнение с o3-mini / o4-mini

Согласно официальным оценкам OpenAI, обе новые модели демонстрируют выдающиеся результаты на ряде стандартных тестов для LLM, особенно в задачах, требующих рассуждений.

MMLU (Massive Multi-Task Language Understanding) — многоотраслевая проверка знаний на уровне выпускных экзаменов. GPT-OSS-120b достигает на MMLU около 90% точности (в режиме High reasoning), что лишь немногим уступает результату закрытой модели OpenAI o4-mini (≈93%). Даже GPT-OSS-20b набирает порядка 85%, то есть фактически выходит на уровень OpenAI o3-mini. Это крайне высокий результат для модели такого размера.
Научные и общие знания (GPQA Diamond) — сложные вопросы по науке PhD-уровня и смежным областям. Здесь GPT-OSS-120b показала 80,1% успеха (без использования инструментов), что близко к уровню o4-mini (≈81,4%) и лишь немного ниже, чем у большой модели o3 (83,3%). Версия 20b набрала ≈71,5%, опередив большинство предыдущих открытых моделей, хотя и отставая от более крупных систем. Эти цифры впечатляют, так как вопросы данного теста требуют глубокого понимания и логики.
Математика (AIME 2024/2025) — соревнования по математике (уровень продвинутых школьников и студентов). Оба GPT-OSS показывают превосходную математическую подготовку. В частности, GPT-OSS-120b решает задачи AIME почти без ошибок (точность ≈96–98% на разных наборах) — это соответствует и даже превосходит результаты o4-mini на некоторых конкурсах. Удивительно, что и GPT-OSS-20b в режиме High справляется почти так же хорошо, приближаясь к 90–97% на тех же задачах. Причиной тому, вероятно, служит умение моделей использовать длинные пошаговые рассуждения: например, для сложной задачи 20-миллиардная модель может сама инициировать решение через цепочку размышлений, тщательно расписать рассуждение и прийти к правильному ответу, тогда как более простые модели без CoT часто ошибаются. Фактически, по математическим конкурсам GPT-OSS-20b обошла закрытую модель o3-mini, показав, что даже относительно небольшая MoE-модель может конкурировать с гораздо более крупными моделями прошлых поколений.
Программирование (Codeforces, HumanEval) — для оценки навыков кода измеряли «Эло-рейтинг» на Codeforces (участие в соревновательных задачах) и успехи на тестах вроде HumanEval. GPT-OSS-120b с включенными инструментами (она умеет вызывать терминал, отладчик кода) получила очень высокий условный рейтинг, практически сравнявшись с o4-mini. Версия 20b в кодинговых задачах достигла уровня, сопоставимого с o3-mini. Например, по Codeforces при использовании инструментов модель 120b набрала ≈2 622 балла Эло, а 20b — 2 516, в то время как у o3-mini результат порядка 2 500. Это означает, что GPT-OSS способны генерировать работоспособный код и решать алгоритмические задачи на уровне лучших моделей прошлого поколения. На HumanEval (набор задач по программированию с тестами) обе модели также показывают высокие метрики pass@1.
Медицинские и экспертные вопросы (Medical Q&A, HealthBench) — в области медицинских и клинических вопросов GPT-OSS выступили неожиданно сильно. По внутреннему тесту HealthBench старшая модель не только уверенно превзошла более старую модель OpenAI o1, но и обошла даже GPT-4o (обученную GPT-4 с ограничениями). Младшая 20b также превзошла o3-mini по качеству ответов на медицинские вопросы. Эти результаты свидетельствуют, что при узкой нацеленности (например, медицина) даже относительно небольшая открытая модель, дообученная на профильном материале, может достичь или превзойти качество закрытых систем.

Важно отметить, что высокие баллы на бенчмарках не означают абсолютной универсальности. OpenAI подчеркивает, что GPT-OSS не предназначены для использования в качестве медицинских экспертных систем и не заменяют профессионального диагноза. Это, скорее, индикатор уровня понимания сложных доменных знаний. Также по некоторым чрезвычайно сложным метрикам (например, «Humanity’s Last Exam», объединенный стресс-тест по различным областям) GPT-OSS-120b набрала лишь ≈19%, что хоть и сопоставимо с o4-mini, но показывает, что потенциал роста еще есть.

В целом же, GPT-OSS-120b вплотную приблизилась к возможностям GPT-o4 класса «mini» (усеченной версии флагманской модели OpenAI) по большинству проверок, а GPT-OSS-20b достигла уровня лучших моделей своего класса. Такой прогресс для открытых моделей является значительным шагом вперед.

OpenAI показали, что грамотно обученная Mixture-of-Experts архитектура способна конкурировать с гораздо более крупными системами. Многие традиционные бенчмарки (MMLU, математические тесты, специализированные вопросы) уже находятся в состоянии близком к «saturated». То есть новые модели вплотную подошли к потолку этих метрик, отличаясь друг от друга на считанные проценты.

Это ставит задачу перехода к более сложным, «фронтирным» тестам и реальным прикладным испытаниям. Тем не менее, для сообщества открытого ИИ появление GPT-OSS означает, что в открытом доступе теперь есть еще две модели со state-of-the-art уровнем по многим задачам, которые можно свободно использовать и улучшать.

Лицензия Apache 2.0 и политика использования

OpenAI выпустила GPT-OSS-120b и 20b под лицензией Apache 2.0, что указывает на один из самых либеральных режимов использования. Apache 2.0 позволяет свободно использовать, модифицировать и распространять модель, в том числе в коммерческих целях, при условии сохранения уведомления об авторских правах и лицензии в копиях.

Существенно, что Apache 2.0 включает положения о предоставлении патентной лицензии — пользователи могут не опасаться претензий, связанных с патентами OpenAI на эти модели, что снижает юридические риски внедрения. В лицензии также нет требований copyleft: ваши модификации или приложения, основанные на GPT-OSS, не обязывают открывать исходный код. Такой подход стимулирует эксперименты, коммерческую интеграцию и дальнейшее развитие экосистемы вокруг моделей.

Однако, вместе с открытой лицензией OpenAI ввела и дополнительные условия политики использования (Usage Policy), направленные на ответственное применение моделей. Эта политика предельно проста и во многом апеллирует к этике пользователей. В официальном тексте говорится: «Мы рассчитываем, что наши инструменты будут использоваться безопасно, ответственно и демократично, при этом вы сами контролируете, как их применять. Используя GPT-OSS, вы соглашаетесь соблюдать все применимые законы».

Проще говоря, OpenAI требует от пользователей законного и не вредоносного использования открытых моделей, не накладывая при этом жестких дополнительных ограничений. Нет ни списков запрещенных категорий, ни каких-либо встроенных технических блокировок – вся ответственность возложена на самого внедряющего.

OpenAI фактически доверяет сообществу, предоставляя максимум свободы, но ожидая соблюдения базовых норм закона и морали. В случае, если генерации моделей GPT-OSS будут использованы во вред (например, для спама, дезинформации, незаконных действий), OpenAI призывает сообщать об этом через специальную форму, однако технически компания не может ограничить доступ к моделям – контроль находится на стороне пользователя.

Стоит отметить, что перед выпуском GPT-OSS компания тщательно проработала вопрос безопасности (описано выше) и пришла к выводу, что открытое распространение таких моделей находится на приемлемом уровне риска. Дополнительно OpenAI предприняла несколько мер для предотвращения злоупотреблений.

Во время обучения произведена фильтрация данных и специализированное обучение отказам, чтобы модели по умолчанию отказывали в выполнении явно опасных запросов (изготовление оружия, вред пользователям и т. п.).
Подготовлен развернутый отчет (system card) с описанием ограничений и рисков GPT-OSS, а также опубликована научная работа, оценивающая наихудшие сценарии использования открытых моделей. Это способствует прозрачности: пользователи и регуляторы могут ознакомиться с тем, какие угрозы идентифицированы и как с ними предлагается бороться.
Для сторонних хостинг-провайдеров OpenAI выпустила рекомендации по дополнительным мерам защиты при предоставлении доступа к GPT-OSS. В модельной карточке указано, что разработчикам, внедряющим модель в свои сервисы, возможно, потребуется самостоятельно реализовать фильтрацию контента, контроль за генерациями и другие системные уровни защиты, аналогичные тем, что встроены в API OpenAI. Иными словами, переход к открытой модели означает и перенос ответственности за безопасность с OpenAI на интеграторов.
Запуск конкурса Red Teaming (упомянутого выше) — тоже часть стратегии предотвращения злоупотреблений, вовлекающая сообщество в коллективный аудит модели. Подобный краудсорсинговый подход поможет выявить слабые места, которые разработчики OpenAI могли упустить, и улучшить общий уровень безопасности.

Совместимость и интеграция

Важной частью политики распространения GPT-OSS стало обеспечение их совместимости с экосистемой OpenAI и сторонними платформами. Модели изначально обучены принимать формат промптов OpenAI Harmony — тот же, что используют фирменные модели ChatGPT (с разделением ролей system/developer/user).

OpenAI открыла спецификацию этого формата и даже выложила в открытый доступ специальный рендерер Harmony на Python и Rust для подготовки входов модели. Это означает, что разработчики могут легко форматировать запросы к GPT-OSS так же, как к API-моделям, и получать совместимый стиль ответов.

Кроме того, GPT-OSS полностью поддерживают OpenAI Responses API – новый интерфейс чат-моделей OpenAI. Хотя сами модели GPT-OSS не раздаются через API OpenAI, их можно задействовать через совместимые сервисы (о чем ниже), используя те же библиотеки openai SDK. Таким образом, OpenAI позаботилась, чтобы порог входа для разработчиков был минимальным: заменив модель на GPT-OSS, они могут продолжать использовать привычные инструменты и протоколы.

Модели также совместимы с широким спектром опенсорсных фреймворков для инференса. В день запуска OpenAI объявила о партнерстве со множеством проектов: GPT-OSS сразу поддерживаются в Hugging Face Transformers, vLLM, llama.cpp, Ollama, LM Studio и др.. Подготовлены эталонные реализации для PyTorch и под Apple Metal для запуска на Mac (модель можно запускать на маках с чипами M-серии). Также интеграцию реализовали крупнейшие облачные платформы: Azure, AWS, Together AI, Baseten, Databricks, Vercel, Cloudflare — все они добавили GPT-OSS в свои каталоги моделей.

Сторонние производители оборудования (NVIDIA, AMD, Cerebras, Groq) тоже сотрудничали с OpenAI для оптимизации производительности GPT-OSS на своих чипах. Благодаря этим усилиям, разработчики практически на любом стеке (от ноутбука с AMD GPU до облачного сервиса Azure) могут быстро задействовать новые модели без долгой настройки. Такой уровень совместимости и поддержки беспрецедентен для релиза AI-модели и подчеркивает стремление OpenAI создать вокруг GPT-OSS полноценную экосистему.

Наконец, модели распространяются в уже упомянутом 4-бит формате MXFP4, что упрощает их развертывание: файл весов GPT-OSS-120b весит около 80 ГБ, а GPT-OSS-20b — всего ≈16 ГБ. Это существенно меньше классических весов FP16 и позволяет хранить/загружать модель быстрее. При желании разработчики могут конвертировать веса в другие представления (например, int8, int4 для специфичных библиотек), Apache 2.0 это не ограничивает.

Заключение

Возвращение OpenAI к open-source с релизом GPT-OSS-120b и GPT-OSS-20b стало важным шагом, который окажет существенное влияние на развитие отрасли ИИ. Новые модели обладают выдающимися возможностями рассуждений, длинным контекстом и гибкостью в применении: GPT-OSS-120b сопоставима с лучшими закрытыми системами, а GPT-OSS-20b доступна даже для устройств с ограниченными ресурсами.

Гибкая лицензия Apache 2.0 и открытая политика использования демонстрируют доверие OpenAI к сообществу, однако компания серьезно подошла к вопросам безопасности и рисков. В результате у разработчиков и бизнеса теперь есть возможность использовать передовые технологии ИИ без жестких ограничений, что способствует дальнейшим инновациям и ускоренному развитию открытого искусственного интеллекта.

Комментарии (12)

AlexeevEugene
07.08.2025 08:40
#28673294
Проблемы:
1. Нет поддержки Flash Attention 3 модель валится в vllm на инференсе. Пока можно запустить только на llama.cpp.
2. Модель плохо работает на русском домене. Смысла от нее нет.

quickhabr
07.08.2025 08:40
#28673428
Проверил на доступном железе скорость работы младшей модели.
Ryzen 6900HX, 64Gb ОЗУ на встроенной графике radeon 690M 20 т/с. На 3090 100 т/с.
1. fermentum
  07.08.2025 08:40
  #28684072
  Младшая очень экономна и быстра, складно пишет рассказы на русском, но слаба в логических задачах. Старшая 120b MXFP4 запускается на 5060ti16+64Гб ОЗУ 10т/с с 8 слоями в видеопамяти. Качество ответов существенно выше, чем у младшей.
  1. Shannon
    07.08.2025 08:40
    #28685092
    Старшая 120b MXFP4 запускается на 5060ti16+64Гб ОЗУ 10т/с с 8 слоями в видеопамяти.
    
    gpt-oss-120b это MoE модель размером 120B, но для каждого нового токена используется только 5.1B активных параметров, которые постоянно меняются. Выгружая 8 слоев из 37 в видеопамять, это 14гб VRAM, то не все активные параметры попадают в эту VRAM, то есть VRAM не используется на каждом шагу, лишь эти 8 слоев которые выборочно могут попасть, а могут не попасть в список активных параметров. Это главное отличие от Dense-моделей, где каждый слой участвует в вычислениях на каждом шагу.
    
    Для MoE сейчас используют более эффективный способ заполнить эти 14гб, куда сильнее ускоряя работу модели. Нужно выгрузить тензоры внимания со всех слоев в VRAM, а MoE тензоры оставляете на CPU, тензоры внимания каждого слоя нужны во время каждого шага, поэтому вы используете VRAM для каждого токена, за счет этого получается ускорение.
    
    Подробнее про это есть вот тут: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)
    
    GPU 4060ti 16gb, то есть слабее чем 5060ti, также 8 слоев в видеопамяти, используется 14гб:
    .\llama-server.exe -m "openai_gpt-oss-120b-MXFP4.gguf" -fa -ngl 8
    
    7.6 t/s
    Используем новый подход, добавляем параметр --cpu-moe и выгружаем все 37 слоев (для удобства указано 99):
    .\llama-server.exe -m "openai_gpt-oss-120b-MXFP4.gguf" -fa --cpu-moe -ngl 99
    
    13.7 t/s
    Модель работает почти в 2 раза быстрее, при этом использует всего 3гб VRAM, вместо 14гб.
    
    Можно засунуть целые слои, чтобы заполнить те же 14гб. Для этого есть новый параметр --n-cpu-moe X, количество moe-слоев которые будут выгружена на CPU, остальное останется на GPU. Начиная от полного числа слоев, 37 в данном случае, число надо уменьшать вниз, пока хватает памяти, для 14гб это будет 28 слоев:
    .\llama-server.exe -m "openai_gpt-oss-120b-MXFP4.gguf" -fa --n-cpu-moe 28 -ngl 99
    
    16 t/s
    Было 7.6 t/s, стало 16 t/s, скорость в 2.1 раза выше, чем была при том же расходе VRAM.
    
    --cpu-moe и-cmoe это синонимы для -ot exps=CPU или --override-tensor=CPU, поэтому можно встретить и такие параметры. Сейчас это не применить в LM Studio, они используют движок llama.cpp, но не добавили возможно указать эти параметры, поэтому запуск llama-server из состава llama.cpp.

Suoriks
07.08.2025 08:40
#28674358
Погонял oss 20b. Бесполезная модель. Стихи на русском не пишет, задачку про свиней и пастушек не решает, в РП совершенно деревянная. Зато цензуры навалили...
Gemma 3 27b, как по мне, гораздо, гораздо лучше.

legolegs
07.08.2025 08:40
#28674674
Честно говоря, немного раздражает то, как в подобных статьях встроенную в модель цензуру описывают как что-то хорошее. Я, конечно, понимаю, что бизнес бы хотел, чтобы ИИ-бот техподдержки не угрожал посетителю расчленением, но сам постоянно звучащий нарратив, что изготовление оружия - это, якобы, что-то плохое и опасное, он сам по себе, как ни парадоксально, плохой и опасный. Когда пещерный человек примотал острый кремниевый наконечник к палке, то он потом цивилизацию изобрёл, разве это плохо?
1. ihouser
  07.08.2025 08:40
  #28675858
  Инженеры по некоторым специальностям будут работать по старинке. С одной стороны будет сложнее, с другой - работу не потеряют.

ramiil
07.08.2025 08:40
#28678370
А мне 20б понравилась. Запускал в олламе на 6600xt, бодро работает, ничего не виснет, ошибок минимум. Можно играться с системным промптом и добавлять функционал через обёртку.

SabMakc
07.08.2025 08:40
#28678580
В частности, GPT-OSS-120b, будучи более мощной, дольше генерирует ответы и требует более дорогого железа, тогда как GPT-OSS-20b обеспечивает более быстрый отклик и может работать на недорогих видеокартах или даже в CPU-режиме

Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.

Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.
1. Akr0n
  07.08.2025 08:40
  #28680354
  Дак она рассуждает на английском, это видно в выводе. Qwen3, например, рассуждения сразу на русском ведёт.
  1. SabMakc
    07.08.2025 08:40
    #28680412
    Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.
    
    Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).
    
    Так что это не показательно.
    
    Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).
    
    Akr0n
    07.08.2025 08:40
    #28682534
    На короткие и простенькие запросы отвечает на русском идеально, разницы в языке с qwen3 и gemma3 не заметил.