Обзор GPT-5.2: пора сдвинуть Google и Anthropic c лидирующих позиций / forpes.ru

Главная
Обзор GPT-5.2: пора сдвинуть Google и Anthropic c лидирующих позиций

Обзор GPT-5.2: пора сдвинуть Google и Anthropic c лидирующих позиций +6

12.12.2025 14:36

cognitronn 1 4300 Источник

Последние месяцы рынок ИИ живёт в состоянии непрерывного перегрева. Каждая компания стремится первой выкрикнуть слово «прорыв» и доказать, что её новая модель изменит правила игры. Создаётся ощущение, что индустрия соревнуется не в качестве, а в частоте анонсов. На фоне этой гонки OpenAI после короткой паузы возвращается в информационное поле и выкатывает GPT 5.2. Не промежуточную сборку и не облегчённый вариант, а полноценное обновление.

Первые намёки на грядущий релиз появились задолго до анонса. Сперва тихие утечки, затем осторожные публикации в профильных медиа. Журнал The Verge дал понять, что OpenAI готовит что-то объёмное. Чуть позже зарубежная пресса привела источники, уверявшие, что внутри компании несколько месяцев действовал режим молчания именно ради этой версии.

Интерес подогревался ещё одной деталью. По данным The Information, осенью внутри OpenAI стартовала работа над экспериментальной моделью с рабочим названием Shallotpeat. Если до этого фокус делали на рассуждательном поведении и методах обучения через обратную связь от людей, то в новом цикле инженеры повернули внимание в сторону базового предобучения. Это занятная корректировка курса, потому что в этой области Google и Anthropic в последнее время заметно ускорились и сумели временно опередить OpenAI.

Ну и этот...garlic, который был рабочим названием новой модели OpenAI.

Именно поэтому интерес к GPT 5.2 оказался достаточно высоким. Сегодня мы протестируем её вживую и посмотрим, каким будет ответ OpenAI в новой фазе ИИ-гонки.

Приятного прочтения!

GPT 5.2. Что нового?

По заявлениям OpenAI, GPT-5.2 стала обновлением, в котором упор сделан на улучшение визуального понимания и способность работать со сложными цепочками рассуждений. Компания отмечает, что модель стала аккуратнее в аналитике, лучше удерживает контекст и надежнее справляется с задачами, где требуется многослойная логика.

Согласно опубликованным метрикам, модель демонстрирует приросты сразу по нескольким тестам. На SWE Bench Pro результат поднимается с 50.8 процента до 55.6 процента. На GPQA Diamond показатель увеличивается с 88.1 процента до 92.4 процента. На AIME 2025 заявлено выполнение всех задач, тогда как у предыдущей версии было 94 процента. На ARC AGI 2 фиксируется самый заметный скачок с 17.6 процента до 52.9 процента, что в OpenAI называют подтверждением прогресса именно в рассуждении, а не в повторении шаблонов.

Теперь модель лучше работает с графиками, интерфейсами и техническими схемами. Интерпретация GUI стала точнее почти в два раза.

ARC Prize опубликовала результаты бенчмарков ARC-AGI-1 и ARC-AGI-2, которые позиционируются сложным тестом на абстрактное мышление. Да, GPT-5.2 Pro забрала золото в обоих. ARC-AGI-2 была релизнута недавно и многие пишут, что задачи оттуда не были в дата-сетах для обучения ИИ.

Компания также сообщает о появлении двух модификаций. Версия GPT-5.2 Pro ориентирована на научные и исследовательские сценарии и, по данным OpenAI, достигает 93.2 процента на GPQA Diamond. На FrontierMath она решает 40.3 процента задач экспертного уровня, что разработчики называют важным шагом в сторону более надежных вычислительных моделей. В OpenAI подчёркивают, что математические бенчмарки удобны тем, что их можно объективно проверить, в отличие от областей, где результат зависит от интерпретации.

Да, хвалить новую модель можно вечно, что на деле?

Против кого выставляем?

Прежде чем разбираться, на что способна GPT 5.2, стоит посмотреть по сторонам. Рынок не пустует, и у неё есть соседи, которые давно готовятся к встрече. Поэтому самое время познакомиться с теми, кто будет спорить с ней за внимание аудитории. Получается маленькая экскурсия по соседним весовым категориям, давайте начнем.

Gemini 3.0 Pro

Флагманская модель от Google, ориентированная на мультимодальные задачи, программирование и аналитические сценарии. Модель способна работать с текстом, кодом, изображениями, аудио и видео в одном запросе, обрабатывая большие объёмы информации благодаря расширенному контекстному окну до 1 048 576 токенов.

В техническом плане Gemini 3.0 Pro демонстрирует высокий уровень рассуждений, точность в решении математических задач и способность работать с комплексными инженерными сценариями. На тесте Humanity’s Last Exam модель показывает 37,5 % без помощи инструментов, что выше, чем у предыдущих версий GPT. Кроме того, модель стабильно справляется с кодинг-задачами, анализом документов и объединением информации из разных источников.

Для сложных задач предусмотрен режим «Deep Think», который позволяет тратить больше ресурсов и времени на детальный анализ, повышая качество развёрнутых ответов и снижая риск ошибок. Модель интегрируется с инструментами разработчика, может работать с IDE и скриптами, создавая прототипы, анализируя код и собирая результаты в структурированном виде.

С точки зрения экономики, тарифы Gemini 3.0 Pro выше, чем у ChatGPT 5.2, но расширенный контекст и возможности мультимодальности делают её выгодной для задач, где требуется анализ больших массивов данных, сложный кодинг или генерация планов на основе документации.

Claude Sonnet 4.5

Это версия модели от Anthropic, ориентированная на задачи программирования, агентские сценарии и проекты с длительным временем работы. Да, есть Opus, но я ждал релиз GPT, чтобы столкнуть его именно с Sonnet.

В основе Sonnet 4.5 лежат улучшения в рассуждениях, логике и практической работоспособности. В бенчмарке SWE-bench Verified она показывает результат ~ 77.2 % при обычной генерации и при параллельных попытках (multiple-try + отбор лучшего) до ~ 82 %. Это один из лучших показателей для публичных моделей, заявленных как «кодинг + агент».

Контекстное окно у Sonnet 4.5 значительно расширено. Штатная версия поддерживает до 200 000 токенов, а бета-версия до 1 000 000 токенов.

Ещё одна важная особенность - режим рассуждений. Он позволяет выбрать между быстрым ответом и глубокой проработкой задачи, но при сложных запросах модель тратит больше времени и ресурсов на анализ, давая развёрнутые ответы.

При этом цена за токен осталась на уровне предыдущих версий Sonnet.

Проверяем сами!

В качестве платформы я буду использовать BotHub, поскольку сервис обходит некоторые сложности с сайтами моделей.

Если тоже испытываете проблемы с доступом, а протестировать хочется, то по ссылке вы можете получить 100 000 бесплатных токенов для теста GPT-5.2 на своих задачах.

Модель уже доступна на платформе, а мы забираем бонус и переходим к тестам!

Математика и логика

Теперь пора раскачать эти модели и проверить, на что они способны в деле. Мы не будем начинать с чего-то скучного - сразу поднимем ставки и проверим логику и математику. Разработчики заявили об улучшениях в навыках рассуждения, так что самое время узнать, смогут ли модели справиться с задачами разного уровня сложности.

Начнём с простой задачи на логику, которая на первый взгляд выглядит элементарно, но есть небольшой подвох.

Задача такая:

«Автобус едет со скоростью 56 миль в час. В последнем ряду сидят три человека, а в предпоследнем - два. Сколько всего людей в автобусе?»

GPT-5.2 Pro