Компания xAI представила свои новые ИИ-модели — Grok 4 и Grok 4 Heavy, в которой несколько агентов работают над проблемой параллельно. По утверждениям xAI, это позволило добиться значительного роста в производительности.

Одним из самых сложных на данный момент ИИ-бенчмарков является Humanity Last Exam — набор из 2500 вопросов в самых разных дисциплинах. Grok 4 с режимом рассуждений показывает результат в 41%, что в два раза лучше, чем у ChatGPT o3 (21%) и Gemini 2.5 Pro (21,6%). Достигается это за счет использования инструментов во время процесса рассуждения — например, модель может несколько раз использовать поиск в сети, чтобы уточнять нужную информацию. Ранее эта технология была доступна только ChatGPT o3.

Результат Grok 4 Heavy в HLE еще больше впечатляет — 50,7% в режиме test time compute, где несколько «агентов» — самостоятельных версий модели — работают параллельно, обмениваясь результатами во время решения вопроса. Разумеется, такой подход требует бОльших вычислительных ресурсов, поэтому Grok 4 Heavy будет доступен в отдельной более дорогой подпискe.

Модель обходит конкурентов и в других бенчмарках. 87,5% / 88,9% (результаты для обычного / heavy) в GPQA (Graduate-Level Google-Proof Q&A) — бенчмарке из 448 вопросов с множественным выбором по биологии, физике и химии на уровне аспирантуры. 98,8% / 100% в AIME25 (American Invitational Mathematics Examination 2025) — американской пригласительной математической олимпиаде 2025 года. 79,3% / 79,4% в LCB (LiveCodeBench, январь-май) — бенчмарке по созданию кода на основе задач из конкурсов LeetCode, опубликованных с января по май. 93,9% / 96,7% в HMMT25 (Harvard-MIT Mathematics Tournament 2025) — турнире по математике Гарварда и MIT 2025 года для школьников. 37,5% / 61,9% в USAMO25 (USA Mathematical Olympiad 2025) — американской математической олимпиаде 2025 года (высший уровень для школьников США).

Наконец, серьезный рост модель показала в бенчмарке ARC-AGI, который призван измерять способность систем искусственного интеллекта к абстрактному мышлению, рассуждению и обобщению, подобно человеку. В отличие от многих других бенчмарков, которые проверяют способность ИИ запоминать информацию или выполнять конкретные задачи, ARC-AGI фокусируется на интеллектуальной гибкости. Здесь Grok 4 на уровне 15,9% — почти в два раза выше ближайшего конкурента.

Обещано, что Grok 4 с первого дня будет доступен в API (запуск может занять некоторое время) по цене в 3 доллара за миллион входящих токенов и 15 долларов за миллион исходящих токенов. У автора этих строк модель уже доступна в подписке SuperGrok за 30 долларов в месяц. А вот для Grok 4 Heavy запущен новый план подписки — SuperGrok Heavy за 300 долларов в месяц.

Также в xAI поделились планами на ближайшее будущее. В ближайшие недели выйдет Grok 4 Coder, отдельная модель для кодинга. Далее планируется улучшить мультимодальные возможности Grok 4 и выпустить модель для генерации видео.

P. S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Комментарии (32)


  1. zartdinov
    10.07.2025 06:25

    Окей гугл, правильные ответы AIME25


  1. Arxitektor
    10.07.2025 06:25

    Да тоже есть в приложении. После обновления. Я надеюсь Grok не будет постепенно глупеть как Gemini ? Просто последнюю версию видимо оттимизировали по затратам вычислительных ресурсов. А то знаем мы их 2 недели все круто а потом... Как я понимаю для оплаты нужна зарубежная карта. Ну и жать что нет пусть и ограниченного по запросам но бесплатного режима.


    1. DarkTiger
      10.07.2025 06:25

      Как я понимаю для оплаты нужна зарубежная карта

      Сейчас вторая половина 2025 года. Вы правда все еще не знаете, как можно быстро заплатить за рубеж небольшую сумму?

      Подсказка: Авито и фильтр по количеству сделок. Вряд ли продавец с 1000 сделок будет херить свою историю, чтобы присвоить Ваши 10$.


      1. muradali
        10.07.2025 06:25

        Хороший способ, но есть лучше. ТГ бот через который можно завести виртуальную карту Виза или Мастеркард и спокойно платить ей за сервисы. Сам пользуюсь, друзья тоже. Не благодарите https://t.me/WantToPayBot?start=w17851188--ZQXYA


  1. blztech-io
    10.07.2025 06:25

    Потестил немного, он буквально ужасен. Правда тестил пока на русском.
    Великий пиарщик тянул время, чтобы не опозориться, до последнего, как мне видится. От 3.5 в апреле(мае) до 4 версии сразу после 4 июля (9 июля с опозданием на стрим).

    Пока что очень сыро, явно им не хватает инженеров, которых понятно кто переманил.


    1. runaway_llm Автор
      10.07.2025 06:25

      А тестили на каких промптах?


      1. blztech-io
        10.07.2025 06:25

        Конкретные промпты или какие задачи? В основном сложные логические : рассуждения и аналитика. Сейчас дойду до кода.
        С текстами не работал, да мне и без разницы, хотя мне нравился Grok 3 в этом.

        Если есть интересные промпты для проверки, с радостью выложу результаты


        1. runaway_llm Автор
          10.07.2025 06:25

          У меня есть подписка, свои промты могу сам протестить. Просто любопытно, где именно модель подвела вас.


          1. Adgery_f
            10.07.2025 06:25

            Попробуйте спросить "кто сейчас является президентом США".


          1. Adgery_f
            10.07.2025 06:25

            Почему такой странный вопрос - потому что наверняка ответит что сейчас донбидон президент. У почти всех ИИ "свой мир". Вроде обучали в этом году, а информация точно не этого года.


        1. Dhwtj
          10.07.2025 06:25

          Напиши код на Rust чтения Excel с учётом поворота текста.

          Подвох в том, что в Раст нет сейчас таких библиотек.

          2/3 95%LLM ошибаются / врут

          Правильный ответ парсить XML который внутри архива, который и есть xlsx файл

          Вопрос 2 такого же плана

          PHP HTML -> PDF с учётом поворота текста в ячейках таблицы чтобы текст не вылезал из ячеек (был как в HTML)

          Правильный ответ вообще не очевиден. Не скажу )


          1. blztech-io
            10.07.2025 06:25

            use std::path::Path;
            use umya_spreadsheet::*;
            
            fn main() -> Result<(), umya_spreadsheet::SpreadsheetError> {
                let path = Path::new("example.xlsx");
                let book = reader::xlsx::read(path)?;
            
                // Assuming the first sheet; adjust as needed
                let sheet = book.get_sheet(&0)?;
            
                let max_row = sheet.get_highest_row();
                let max_col = sheet.get_highest_column();
            
                for row in 1..=max_row {
                    for col in 1..=max_col {
                        // Check if cell exists
                        if let Some(_cell) = sheet.get_cell((row, col)) {
                            let value = sheet.get_value((row, col));
                            let style = sheet.get_style((row, col));
                            let alignment = style.get_alignment();
                            let rotation = alignment.get_text_rotation();
            
                            println!("Cell ({}, {}): \"{}\" with text rotation: {} degrees", row, col, value, rotation);
                        }
                    }
                }
            
                Ok(())
            }


            1. Dhwtj
              10.07.2025 06:25

              Я проверю, думаю что нет. Глюки...

              Проблема где-то в style.get_alignment()


            1. Dhwtj
              10.07.2025 06:25

              Возможно, проблема в том что некоторые редакторы задают поворот в стилях, а некоторые прямо в ячейке

              <!-- xl/styles.xml -->
              <styleSheet>
                <cellXfs count="1">
                  <xf numFmtId="0" fontId="0" fillId="0" borderId="0">
                    <alignment textRotation="90"/>
                  </xf>
                </cellXfs>
              </styleSheet>

              И

              <!-- xl/worksheets/sheet1.xml -->
              <c r="B2" t="s">
                <alignment textRotation="90"/>
                <v>0</v>
              </c>

              Второй точно не прочитает. Первый ХЗ