9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит.
На что способен NVIDIA Rubin CPX
Графический процессор Rubin CPX представили на саммите AI Infra Summit 9 сентября 2025 года. Генеральный директор NVIDIA Дженсен Хуанг назвал его первым графическим процессором CUDA, созданным специально для ИИ с огромным контекстом. Например, для Grok 4 Fast на два миллиона токенов. Эта модель ИИ от компании Илона Маска xAI предназначена для оперативных задач, где требуется низкая задержка.
Rubin CPX выдает 30 петафлопс вычислительной мощности NVFP4, что в три раза больше скорости обработки внимания NVIDIA GB300 NVL72. Для хранения данных используется 128 ГБ памяти GDDR7, как в Blackwell, — в отличие от стандартного Rubin GPU, который будет использовать память HBM4.
Это различие в типах памяти отражает специализацию чипов: Rubin CPX оптимизирован для вычислительно интенсивной фазы обработки контекста (prefill phase), а стандартный Rubin GPU с HBM4 — для фазы генерации (decode phase), требующей высокой пропускной способности памяти.

В отличие от многочиповых решений Blackwell (два чипа) и Rubin Ultra (четыре чипа), у Rubin CPX монолитная конструкция кристалла. Такой подход снижает стоимость производства и при этом сохраняет высокую производительность для обработки кода и генерации видео.
Как мы уже рассказывали, архитектура Rubin представляет собой следующий шаг эволюции после Blackwell. В потребительском сегменте Blackwell лежит в основе видеокарт серии GeForce RTX 50, включая флагманскую RTX 5090 (на чипе GB202) и RTX 5080 (на чипе GB203), которые используют память GDDR7.
В сегменте центров обработки данных Blackwell представлен решениями GB200 NVL72 и GB300 NVL72, которые используют более производительную память HBM3E и предназначены для обучения и инференса крупных моделей искусственного интеллекта.
А Rubin Ultra — флагманская модель семейства Rubin, ее выход анонсирован на 2027 год. Она будет использовать четыре чипа графического процессора вместо двух, как в стандартном Rubin, обеспечивая 100 петафлопс производительности FP4 и поддерживая до 1 ТБ памяти HBM4E с пропускной способностью 32 ТБ/с.
Монолитная конструкция Rubin CPX с одним кристаллом упрощает производство и делает чип более доступным по сравнению с многочиповыми решениями, которые требуют сложной интеграции нескольких кристаллов и более дорогой памяти HBM.
Чип легко обрабатывает программный код объемом более 100 000 строк. AI-ассистенты теперь могут не только генерировать отдельные фрагменты, но и анализировать, оптимизировать и перестраивать крупные программные проекты целиком. Компания Cursor планирует использовать новый чип для создания продвинутых инструментов разработки. По словам генерального директора Cursor Майкла Труэлла, с NVIDIA Rubin CPX «компания Cursor сможет обеспечить молниеносную генерацию кода и аналитику для разработчиков».
Rubin CPX специализируется на первой фазе инференса — обработке контекста (prefill phase). Эта фаза требует огромных вычислительных ресурсов для анализа всего входного контекста. Вторая фаза — генерация (decode phase) — перекладывается на стандартные GPU Rubin, которые лучше справляются с задачами, требующими высокой пропускной способности памяти.
На борту Rubin CPX четыре видеокодировщика NVENC и четыре декодера NVDEC — идеально для задач, связанных с видеоконтентом. Теперь можно одновременно декодировать, анализировать и кодировать видео на одном устройстве. Час видеоконтента может содержать до миллиона токенов, и новый чип эффективно обрабатывает такие объемы. Компания Runway планирует использовать эти возможности для создания кинематографического контента и сложных визуальных эффектов.
Почему GDDR7 — важная часть Rubin CPX
Один из важнейших факторов эффективности Rubin CPX — память GDDR7 на 128 ГБ. Это обеспечивает оптимальный баланс между производительностью и стоимостью. По сравнению с памятью HBM, GDDR7 снижает стоимость производства чипа на 50% и при этом сохраняет достаточную пропускную способность для задач с длинным контекстом.
GDDR7 отличается высокой скоростью передачи данных — до 48 Гбит/с на контакт, обеспечивает пропускную способность до 192 ГБ/с на устройство. Для сравнения: GDDR6 выдавало скорость максимум 24 Гбит/с.
Такой рост производительности стал возможен благодаря использованию трехуровневой модуляции амплитуды импульсов (PAM3). Технология позволяет передавать на 50% больше данных за такт по сравнению с NRZ (PAM2), который использовался в предыдущих поколениях памяти.
GDDR7 работает при напряжении 1,1–1,2 В — это на 10% ниже, чем у GDDR6X. Соответственно, ниже энергопотребление и тепловыделение, что особенно важно для систем с плотной компоновкой.
NVIDIA выбрала GDDR7 вместо HBM для Rubin CPX из-за оптимального соотношения производительности и стоимости. Хотя HBM3 предлагает более высокую пропускную способность (819 ГБ/с против 192 ГБ/с у GDDR7), для задач обработки контекста такая высокая пропускная способность избыточна, а большой объем памяти (128 ГБ) и скорость GDDR7 полностью соответствуют требованиям.
Как Vera Rubin NVL144 CPX раскрывает потенциал чипа
Rubin CPX — лишь один из компонентов комплексной экосистемы NVIDIA для центров обработки данных нового поколения. Полноценное решение представлено платформой NVIDIA Vera Rubin NVL144 CPX, которая объединяет в одной стойке 144 GPU Rubin CPX, 144 GPU Rubin и 36 CPU Vera.
Эта интегрированная система обеспечивает 8 эксафлопс вычислительной мощности NVFP4. В одной стойке Vera Rubin NVL144 CPX размещается 100 ТБ быстрой памяти с пропускной способностью 1,7 петабайта в секунду.

Такая высокая производительность достигается благодаря оптимальному балансу компонентов системы. GPU Rubin CPX с монолитным кристаллом и памятью GDDR7 отвечают за этап prefill (обработку контекста), а двухчиповые GPU Rubin с памятью HBM4 — за этап decode (генерацию). Процессоры Vera обеспечивают общую координацию работы системы.
В каждой вычислительной панели стойки размещается 4 GPU Rubin, 8 GPU Rubin CPX и 2 CPU Vera. Всего таких панелей в стойке 18. Для отвода излишнего тепла при такой плотной компоновке используется жидкостное охлаждение, что позволяет справиться с тепловыделением около 370 кВт на стойку.
Что еще, кроме Rubin CPX, есть на рынке ИИ-ускорителей
Рынок ИИ-ускорителей переживает бурный рост: к 2028 году его объем превысит 500 миллиардов долларов. В этой высококонкурентной среде NVIDIA с долей более 80–90% продолжает доминировать, но конкуренты активизируются.
AMD готовит Instinct MI400 к 2026 году — в то же время, что и ожидаемый выход Rubin CPX. По данным TechPowerUp, MI400 предложит 432 ГБ памяти HBM4 с пропускной способностью 19,6 ТБ/с и производительностью около 40 петафлопс FP4.
Intel развивает линейку Gaudi, чье третье поколение — Gaudi 3 — уже доступно на рынке. По данным Intel, Gaudi 3 обеспечивает 1678 TFLOPS в операциях с BF16 и FP8, имеет 128 ГБ памяти HBM2e с пропускной способностью 3,7 ТБ/с и потребляет около 600 Вт (Intel).
Однако NVIDIA выигрывает за счет комплексного подхода. Пока конкуренты фокусируются на отдельных чипах, NVIDIA создает целые экосистемы с интегрированным аппаратным и программным обеспечением. Платформа Vera Rubin NVL144 CPX — яркий тому пример.
А как вы оцениваете перспективы NVIDIA Rubin CPX — станет ли он таким же популярным, как H100, или это лишь промежуточный шаг к следующему поколению универсальных ускорителей? Поделитесь своим мнением в комментариях!
Комментарии (0)
melodictsk
25.09.2025 09:58Меня бы вполне устроило устройство расширения памяти для соединения с видеокартой посредством той же nvlink (или аналог), где на плате расширения спец проц и куча слотов расширения для обычной озу. Слотом можно сделать много для широкой шины. Учитывая скорости нвлинка, вполне нормально должно получиться. Особенно для моделей типа МоЕ, где работающий эксперт и контекст в локальной памяти видеокарты, а остальные не работающие части в плате расширения.
Rezzet
Это все очень интересно, но это продукт для 10 компаний в мире, может быть 20. Сложно представить сколько одна такая стойка стоит, миллион долларов? два?
Для меня ключевая загадка следующего года это будут ли пользовательские видеокарты с 48Гб памяти на борту или нет, и начнет ли цена на них падать или наоборот будет расти. Сможет ли АМД выпустить конкурента условной будущей 6090 или текущей 5090, закроет интел свое дискретное направление или наоборот нас ждут хорошие бюджетные карточки. Завезут ли поддержку ROCm в ComfyUI
mClouds_editor Автор
Сейчас даже 5090 с 32GB стоит достаточно кусаче для десктоп сегмента ) Но с другой стороны, наследник карты L40S 48GB - RTX 6000 Blaсkwell Server уже перешла на 96GB, при практически той-же цене.
Rezzet
При той же цене в облаке или в магазине? RTX 6000 стоит $8500 (вроде самый низкий ценник что можно найти), это существенно дороже чем 5090( $2500).