Компания xAI представила свои новые ИИ-модели — Grok 4 и Grok 4 Heavy, в которой несколько агентов работают над проблемой параллельно. По утверждениям xAI, это позволило добиться значительного роста в производительности.

Одним из самых сложных на данный момент ИИ-бенчмарков является Humanity Last Exam — набор из 2500 вопросов в самых разных дисциплинах. Grok 4 с режимом рассуждений показывает результат в 41%, что в два раза лучше, чем у ChatGPT o3 (21%) и Gemini 2.5 Pro (21,6%). Достигается это за счет использования инструментов во время процесса рассуждения — например, модель может несколько раз использовать поиск в сети, чтобы уточнять нужную информацию. Ранее эта технология была доступна только ChatGPT o3.
Результат Grok 4 Heavy в HLE еще больше впечатляет — 50,7% в режиме test time compute, где несколько «агентов» — самостоятельных версий модели — работают параллельно, обмениваясь результатами во время решения вопроса. Разумеется, такой подход требует бОльших вычислительных ресурсов, поэтому Grok 4 Heavy будет доступен в отдельной более дорогой подпискe.

Модель обходит конкурентов и в других бенчмарках. 87,5% / 88,9% (результаты для обычного / heavy) в GPQA (Graduate-Level Google-Proof Q&A) — бенчмарке из 448 вопросов с множественным выбором по биологии, физике и химии на уровне аспирантуры. 98,8% / 100% в AIME25 (American Invitational Mathematics Examination 2025) — американской пригласительной математической олимпиаде 2025 года. 79,3% / 79,4% в LCB (LiveCodeBench, январь-май) — бенчмарке по созданию кода на основе задач из конкурсов LeetCode, опубликованных с января по май. 93,9% / 96,7% в HMMT25 (Harvard-MIT Mathematics Tournament 2025) — турнире по математике Гарварда и MIT 2025 года для школьников. 37,5% / 61,9% в USAMO25 (USA Mathematical Olympiad 2025) — американской математической олимпиаде 2025 года (высший уровень для школьников США).

Наконец, серьезный рост модель показала в бенчмарке ARC-AGI, который призван измерять способность систем искусственного интеллекта к абстрактному мышлению, рассуждению и обобщению, подобно человеку. В отличие от многих других бенчмарков, которые проверяют способность ИИ запоминать информацию или выполнять конкретные задачи, ARC-AGI фокусируется на интеллектуальной гибкости. Здесь Grok 4 на уровне 15,9% — почти в два раза выше ближайшего конкурента.
Обещано, что Grok 4 с первого дня будет доступен в API (запуск может занять некоторое время) по цене в 3 доллара за миллион входящих токенов и 15 долларов за миллион исходящих токенов. У автора этих строк модель уже доступна в подписке SuperGrok за 30 долларов в месяц. А вот для Grok 4 Heavy запущен новый план подписки — SuperGrok Heavy за 300 долларов в месяц.
Также в xAI поделились планами на ближайшее будущее. В ближайшие недели выйдет Grok 4 Coder, отдельная модель для кодинга. Далее планируется улучшить мультимодальные возможности Grok 4 и выпустить модель для генерации видео.
P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Комментарии (32)
Arxitektor
10.07.2025 06:25Да тоже есть в приложении. После обновления. Я надеюсь Grok не будет постепенно глупеть как Gemini ? Просто последнюю версию видимо оттимизировали по затратам вычислительных ресурсов. А то знаем мы их 2 недели все круто а потом... Как я понимаю для оплаты нужна зарубежная карта. Ну и жать что нет пусть и ограниченного по запросам но бесплатного режима.
DarkTiger
10.07.2025 06:25Как я понимаю для оплаты нужна зарубежная карта
Сейчас вторая половина 2025 года. Вы правда все еще не знаете, как можно быстро заплатить за рубеж небольшую сумму?
Подсказка: Авито и фильтр по количеству сделок. Вряд ли продавец с 1000 сделок будет херить свою историю, чтобы присвоить Ваши 10$.
muradali
10.07.2025 06:25Хороший способ, но есть лучше. ТГ бот через который можно завести виртуальную карту Виза или Мастеркард и спокойно платить ей за сервисы. Сам пользуюсь, друзья тоже. Не благодарите https://t.me/WantToPayBot?start=w17851188--ZQXYA
blztech-io
10.07.2025 06:25Потестил немного, он буквально ужасен. Правда тестил пока на русском.
Великий пиарщик тянул время, чтобы не опозориться, до последнего, как мне видится. От 3.5 в апреле(мае) до 4 версии сразу после 4 июля (9 июля с опозданием на стрим).Пока что очень сыро, явно им не хватает инженеров, которых понятно кто переманил.
runaway_llm Автор
10.07.2025 06:25А тестили на каких промптах?
blztech-io
10.07.2025 06:25Конкретные промпты или какие задачи? В основном сложные логические : рассуждения и аналитика. Сейчас дойду до кода.
С текстами не работал, да мне и без разницы, хотя мне нравился Grok 3 в этом.
Если есть интересные промпты для проверки, с радостью выложу результатыrunaway_llm Автор
10.07.2025 06:25У меня есть подписка, свои промты могу сам протестить. Просто любопытно, где именно модель подвела вас.
Adgery_f
10.07.2025 06:25Почему такой странный вопрос - потому что наверняка ответит что сейчас донбидон президент. У почти всех ИИ "свой мир". Вроде обучали в этом году, а информация точно не этого года.
Dhwtj
10.07.2025 06:25Напиши код на Rust чтения Excel с учётом поворота текста.
Подвох в том, что в Раст нет сейчас таких библиотек.
2/395%LLM ошибаются / врутПравильный ответ парсить XML который внутри архива, который и есть xlsx файл
Вопрос 2 такого же плана
PHP HTML -> PDF с учётом поворота текста в ячейках таблицы чтобы текст не вылезал из ячеек (был как в HTML)
Правильный ответ вообще не очевиден. Не скажу )
blztech-io
10.07.2025 06:25use std::path::Path; use umya_spreadsheet::*; fn main() -> Result<(), umya_spreadsheet::SpreadsheetError> { let path = Path::new("example.xlsx"); let book = reader::xlsx::read(path)?; // Assuming the first sheet; adjust as needed let sheet = book.get_sheet(&0)?; let max_row = sheet.get_highest_row(); let max_col = sheet.get_highest_column(); for row in 1..=max_row { for col in 1..=max_col { // Check if cell exists if let Some(_cell) = sheet.get_cell((row, col)) { let value = sheet.get_value((row, col)); let style = sheet.get_style((row, col)); let alignment = style.get_alignment(); let rotation = alignment.get_text_rotation(); println!("Cell ({}, {}): \"{}\" with text rotation: {} degrees", row, col, value, rotation); } } } Ok(()) }
Dhwtj
10.07.2025 06:25Возможно, проблема в том что некоторые редакторы задают поворот в стилях, а некоторые прямо в ячейке
<!-- xl/styles.xml --> <styleSheet> <cellXfs count="1"> <xf numFmtId="0" fontId="0" fillId="0" borderId="0"> <alignment textRotation="90"/> </xf> </cellXfs> </styleSheet>
И
<!-- xl/worksheets/sheet1.xml --> <c r="B2" t="s"> <alignment textRotation="90"/> <v>0</v> </c>
Второй точно не прочитает. Первый ХЗ
zartdinov
Окей гугл, правильные ответы AIME25