В два раза лучше ChatGPT o3. Представлен Grok 4 / forpes.ru

Главная
В два раза лучше ChatGPT o3. Представлен Grok 4

В два раза лучше ChatGPT o3. Представлен Grok 4 +16

10.07.2025 05:17

runaway_llm 32 17000 Источник

Компания xAI представила свои новые ИИ-модели — Grok 4 и Grok 4 Heavy, в которой несколько агентов работают над проблемой параллельно. По утверждениям xAI, это позволило добиться значительного роста в производительности.

Одним из самых сложных на данный момент ИИ-бенчмарков является Humanity Last Exam — набор из 2500 вопросов в самых разных дисциплинах. Grok 4 с режимом рассуждений показывает результат в 41%, что в два раза лучше, чем у ChatGPT o3 (21%) и Gemini 2.5 Pro (21,6%). Достигается это за счет использования инструментов во время процесса рассуждения — например, модель может несколько раз использовать поиск в сети, чтобы уточнять нужную информацию. Ранее эта технология была доступна только ChatGPT o3.

Результат Grok 4 Heavy в HLE еще больше впечатляет — 50,7% в режиме test time compute, где несколько «агентов» — самостоятельных версий модели — работают параллельно, обмениваясь результатами во время решения вопроса. Разумеется, такой подход требует бОльших вычислительных ресурсов, поэтому Grok 4 Heavy будет доступен в отдельной более дорогой подпискe.

Модель обходит конкурентов и в других бенчмарках. 87,5% / 88,9% (результаты для обычного / heavy) в GPQA (Graduate-Level Google-Proof Q&A) — бенчмарке из 448 вопросов с множественным выбором по биологии, физике и химии на уровне аспирантуры. 98,8% / 100% в AIME25 (American Invitational Mathematics Examination 2025) — американской пригласительной математической олимпиаде 2025 года. 79,3% / 79,4% в LCB (LiveCodeBench, январь-май) — бенчмарке по созданию кода на основе задач из конкурсов LeetCode, опубликованных с января по май. 93,9% / 96,7% в HMMT25 (Harvard-MIT Mathematics Tournament 2025) — турнире по математике Гарварда и MIT 2025 года для школьников. 37,5% / 61,9% в USAMO25 (USA Mathematical Olympiad 2025) — американской математической олимпиаде 2025 года (высший уровень для школьников США).

Наконец, серьезный рост модель показала в бенчмарке ARC-AGI, который призван измерять способность систем искусственного интеллекта к абстрактному мышлению, рассуждению и обобщению, подобно человеку. В отличие от многих других бенчмарков, которые проверяют способность ИИ запоминать информацию или выполнять конкретные задачи, ARC-AGI фокусируется на интеллектуальной гибкости. Здесь Grok 4 на уровне 15,9% — почти в два раза выше ближайшего конкурента.

Обещано, что Grok 4 с первого дня будет доступен в API (запуск может занять некоторое время) по цене в 3 доллара за миллион входящих токенов и 15 долларов за миллион исходящих токенов. У автора этих строк модель уже доступна в подписке SuperGrok за 30 долларов в месяц. А вот для Grok 4 Heavy запущен новый план подписки — SuperGrok Heavy за 300 долларов в месяц.

Также в xAI поделились планами на ближайшее будущее. В ближайшие недели выйдет Grok 4 Coder, отдельная модель для кодинга. Далее планируется улучшить мультимодальные возможности Grok 4 и выпустить модель для генерации видео.

P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Комментарии (32)

zartdinov
10.07.2025 06:25
#28552100
Окей гугл, правильные ответы AIME25

Arxitektor
10.07.2025 06:25
#28552130
Да тоже есть в приложении. После обновления. Я надеюсь Grok не будет постепенно глупеть как Gemini ? Просто последнюю версию видимо оттимизировали по затратам вычислительных ресурсов. А то знаем мы их 2 недели все круто а потом... Как я понимаю для оплаты нужна зарубежная карта. Ну и жать что нет пусть и ограниченного по запросам но бесплатного режима.
1. DarkTiger
  10.07.2025 06:25
  #28552396
  Как я понимаю для оплаты нужна зарубежная карта
  
  Сейчас вторая половина 2025 года. Вы правда все еще не знаете, как можно быстро заплатить за рубеж небольшую сумму?
  
  Подсказка: Авито и фильтр по количеству сделок. Вряд ли продавец с 1000 сделок будет херить свою историю, чтобы присвоить Ваши 10$.
  1. muradali
    10.07.2025 06:25
    #28557720
    Хороший способ, но есть лучше. ТГ бот через который можно завести виртуальную карту Виза или Мастеркард и спокойно платить ей за сервисы. Сам пользуюсь, друзья тоже. Не благодарите https://t.me/WantToPayBot?start=w17851188--ZQXYA

blztech-io
10.07.2025 06:25
#28552178
Потестил немного, он буквально ужасен. Правда тестил пока на русском.
Великий пиарщик тянул время, чтобы не опозориться, до последнего, как мне видится. От 3.5 в апреле(мае) до 4 версии сразу после 4 июля (9 июля с опозданием на стрим).

Пока что очень сыро, явно им не хватает инженеров, которых понятно кто переманил.
1. runaway_llm Автор
  10.07.2025 06:25
  #28552188
  А тестили на каких промптах?
  1. blztech-io
    10.07.2025 06:25
    #28552210
    Конкретные промпты или какие задачи? В основном сложные логические : рассуждения и аналитика. Сейчас дойду до кода.
    С текстами не работал, да мне и без разницы, хотя мне нравился Grok 3 в этом.
    
    Если есть интересные промпты для проверки, с радостью выложу результаты
    
    runaway_llm Автор
    10.07.2025 06:25
    #28552216
    У меня есть подписка, свои промты могу сам протестить. Просто любопытно, где именно модель подвела вас.
    
    Adgery_f
    10.07.2025 06:25
    #28554158
    Попробуйте спросить "кто сейчас является президентом США".
    
    Adgery_f
    10.07.2025 06:25
    #28554298
    Почему такой странный вопрос - потому что наверняка ответит что сейчас донбидон президент. У почти всех ИИ "свой мир". Вроде обучали в этом году, а информация точно не этого года.
    
    Dhwtj
    10.07.2025 06:25
    #28552304
    Напиши код на Rust чтения Excel с учётом поворота текста.
    
    Подвох в том, что в Раст нет сейчас таких библиотек.
    
    ~~2/3~~ 95%LLM ошибаются / врут
    
    Правильный ответ парсить XML который внутри архива, который и есть xlsx файл
    
    Вопрос 2 такого же плана
    
    PHP HTML -> PDF с учётом поворота текста в ячейках таблицы чтобы текст не вылезал из ячеек (был как в HTML)
    
    Правильный ответ вообще не очевиден. Не скажу )
    
    blztech-io
    10.07.2025 06:25
    #28552388
    use std::path::Path; use umya_spreadsheet::*; fn main() -> Result<(), umya_spreadsheet::SpreadsheetError> { let path = Path::new("example.xlsx"); let book = reader::xlsx::read(path)?; // Assuming the first sheet; adjust as needed let sheet = book.get_sheet(&0)?; let max_row = sheet.get_highest_row(); let max_col = sheet.get_highest_column(); for row in 1..=max_row { for col in 1..=max_col { // Check if cell exists if let Some(_cell) = sheet.get_cell((row, col)) { let value = sheet.get_value((row, col)); let style = sheet.get_style((row, col)); let alignment = style.get_alignment(); let rotation = alignment.get_text_rotation(); println!("Cell ({}, {}): \"{}\" with text rotation: {} degrees", row, col, value, rotation); } } } Ok(()) }
    
    Dhwtj
    10.07.2025 06:25
    #28552468
    Я проверю, думаю что нет. Глюки...
    
    Проблема где-то в style.get_alignment()
    
    Dhwtj
    10.07.2025 06:25
    #28552652
    Возможно, проблема в том что некоторые редакторы задают поворот в стилях, а некоторые прямо в ячейке
    
     <styleSheet> <cellXfs count="1"> <xf numFmtId="0" fontId="0" fillId="0" borderId="0"> <alignment textRotation="90"/> </xf> </cellXfs> </styleSheet>
    
    И
    
     <c r="B2" t="s"> <alignment textRotation="90"/> <v>0</v> </c>
    
    Второй точно не прочитает. Первый ХЗ

В два раза лучше ChatGPT o3. Представлен Grok 4 +16

Комментарии (32)

runaway_llm Автор

runaway_llm Автор