В апреле 2026-го Intel и ИИ-платформа SambaNova опубликовали совместный blueprint гетерогенного инференса: prefill — на GPU, decode — на SambaNova SN50 RDU, агентские действия — на Intel Xeon 6. Готовое решение обещают во второй половине 2026-го, и оно встает в обычную стойку 30 кВт с воздушным охлаждением, без капитальных переделок машинного зала.

Идея такая: как только случился массовый приход агентов, decode перестал быть побочной фазой и становится доминирующей нагрузкой, а монолитная архитектура «GPU на всё» начала просаживаться по экономике. Коротко разберем, как это работает и почему это может стать востребованным.

Почему одного ускорителя мало

Инференс LLM состоит из двух фаз с противоположными требованиями к оборудованию. Prefill обрабатывает входной промпт, операции независимы и считаются параллельно — фаза compute-bound. 

Decode — авторегрессионная генерация, каждый токен зависит от предыдущего, на каждом шаге читается весь KV-кеш на десятки гигабайтов ради сравнительно скромного числа операций. Это memory-bandwidth-bound-фаза. Устройство KV-кеша отлично разобрано в этом материале.

GPU исторически закрывал обе фазы потому, что под prefill его архитектура подходит идеально, а под decode — приемлемо: дорого, но работало. Пока пользователь дергал чат раз в минуту, decode-фазы между сессиями перекрывались параллельными prefill других пользователей и утилизация в целом сходилась.

С агентами картина становится ну совсем другой.
Один пользовательский запрос порождает 5–15 обращений к модели — «подумать, что делать», «написать SQL», «сформулировать вывод», и так до конца цепочки. Каждое обращение — это фактически decode. Узкое место сместилось туда, и простаивающие compute-блоки GPU на каждом цикле стали заметной строкой в счете. Собственно, так появились условия для возникновения логики разделения фаз по специализированному оборудованию.

Три роли в пайплайне

GPU на prefill

На prefill GPU остается эталоном, и Intel с SambaNova не предлагают его заменять. Подойдет любой ускоритель из существующего парка: H100, B200, MI300.

Это осознанный и логичный выбор. У энтерпрайза и облачных провайдеров в GPU-мощностях лежат миллиарды долларов; предложение «выкиньте всё и переезжайте на новое» — плохое предложение. Гетерогенная архитектура встраивается дополнением (вместо полной замены), и под эту brownfield-логику выстроена вся коммерческая упаковка.

Brownfield-логика — подход к развитию бизнеса, строительству или IT-проектам, основанный на использовании, модернизации или реконструкции уже существующей инфраструктуры, зданий или старых систем, вместо создания их с нуля.

SambaNova SN50 RDU на decode

И вот технический центр всей конструкции. Без SN50 остается обычный CPU+GPU-сервер.

RDU — Reconfigurable Dataflow Unit, реконфигурируемая dataflow-архитектура. От традиционного ускорителя отличается двумя вещами:

  • Первое: граф потока данных задается на этапе компиляции и фиксируется в виде физического маршрута по чипу, а не координируется в рантайме.

  • Второе: память интегрирована с вычислителями вместо выноса в отдельную иерархию.

Для трансформеров на стадии decode это удачное попадание. Per-token шаблон операций предсказуем и одинаков для одной модели, поэтому его можно один раз скомпилировать в конвейер и дальше выполнять без runtime-оверхеда. Под другую модель граф пересобирается — отсюда «реконфигурируемый» в названии.

Вторая особенность SN50 — трехуровневая иерархия памяти SRAM/HBM/DDR. SRAM хранит активации текущего шага. HBM держит веса модели и KV-кеш активной сессии. DDR большой и медленный, но дешевый пул для долгоживущих данных.

Главное практическое следствие — prefix caching под агентские воркфлоу. Если агент весь день работает с одной кодовой базой и подгружает в контекст одни и те же 50 тысяч токенов документации и истории, KV-кеш для них имеет смысл посчитать один раз и держать готовым. На GPU это решается софтом и упирается в HBM и host memory: как только переиспользуемый контекст не помещается, идет полный пересчет. У SN50 такие куски штатно живут в DDR; достать готовый KV-кеш оттуда медленнее, чем из HBM, но быстрее, чем пересчитать с нуля.

И это один из первых ускорителей, явно спроектированных и продвигаемых под такие agentic caching сценарии. 

Intel Xeon 6 как action CPU

Раньше CPU в ИИ-сервере координировал: загружал данные в ускоритель, забирал результат, возвращал клиенту.

С агентами CPU выполняет реальную работу между обращениями к модели — исполняет сгенерированный SQL, запускает скрипты, ходит в vector DB, валидирует промежуточные результаты, дергает внешние API. На эту работу уходит больше половины wall-clock агентского цикла, и от ее скорости напрямую зависит latency всего пайплайна.

Xeon 6 в этой архитектуре у SambaNova получил специальное имя — action CPU (процессор действия). Имя точное: он реально выполняет полезную работу наравне с GPU и RDU, а не нянчит или координирует. 

Заодно у Xeon 6 нашлись приятные специфические преимущества. SambaNova хвастается, что Xeon 6 на 50% быстрее Arm-серверов на компиляции LLVM (это критично для кодинг-агентов, которым постоянно надо собирать код) и на 70% быстрее конкурирующих x86-процессоров на работе с векторными базами данных (это критично для RAG-агентов). Цифры, понятно, маркетинговые, проверять их надо в реальных условиях. Суть — Xeon 6 целят именно в типовые задачи, которые делает агент за пределами модели. Xeon в принципе стал самостоятельным компонентом инференс-стека наравне с GPU и RDU.

Почему это влезает в обычный ЦОД

Стандартный предел корпоративного ЦОД — около 30 кВт на стойку при воздушном охлаждении. Под него спроектировано большинство существующих площадок: банки, больницы, госструктуры, отраслевые операторы. Топовое решение Nvidia GB200 NVL72 потребляет порядка 120 кВт на стойку и требует жидкостного охлаждения с разводкой к чипам, что фактически означает перестройку машинного зала, если он сделан под стандартные стойки. Позволить себе это могут только гиперскейлеры со свежими площадками.

Архитектура Intel и SambaNova с самого начала спроектирована под 30 кВт и воздух. Стойку привезли, поставили, подключили — работает.

Целевой сегмент те, кому современный ИИ нужен on-premise: финсектор, здравоохранение, госсектор, оборонка, суверенные AI-программы. У всей этой группы данные уносить в облако нельзя по регуляторике, а перестраивать ЦОД нет ни возможности, ни бюджета. Ключевое преимущество здесь — сама возможность развернуть гетерогенный инференс там, где раньше выбора не было.

Что остается за кадром?

Очевидно, что малые игроки рынка хотят каким-то образом занять большую долю рынка, который давно поглотила Nvidia. В 2025 году она показала очень похожую идею — Rubin CPX, отдельный чип для prefill-стадии на дешевой памяти GDDR7, с той же логикой разделения на prefill и decode. Но чип скоропостижно исчез из роадмапа компании, то ли по экономическим причинам, то ли из нежелания конкурировать с самой собой. 

Последние годы Intel тяжело искала свою роль в ИИ-эпохе: проект Gaudi (линейка ускорителей) не выстрелил, конкурировать с Nvidia на ее поле не получилось. С SambaNova ситуация может измениться. Для SambaNova ставки еще выше, это ведь небольшой стартап с классической проблемой: технология есть, массового рынка нет, потому что потенциальные заказчики не станут перестраивать дата-центры под экзотику. А теперь SN50 будет поставляться в комплекте с Xeon, в обычной стойке, с поддержкой крупного вендора. Из нишевого ускорителя SambaNova волшебным образом превращается в часть мейнстримного предложения, и для компании это экзистенциально важно.

А если посмотреть еще шире, мы наблюдаем симптом более крупного процесса.

Рынок инференса дробится на сегменты, и эпоха «все покупают Nvidia, потому что вариантов нет» постепенно может схлопнуться. Groq и Cerebras с экстремально быстрым decode, Google с TPU, теперь SambaNova с Intel — никто не пытается заменить Nvidia целиком, но каждый отгрызает свой кусок.

Но не все так гладко

У архитектуры есть серьезные открытые вопросы. Главный — как физически передается KV-кеш между GPU и SN50. Заметки модели после prefill — это десятки гигабайтов, и если интерконнект медленный, все преимущество от разделения стадий сожрется временем передачи. SambaNova ссылается на open source проекты, стандартизирующие интерфейсы между prefill- и decode-узлами, но конкретики мало, а независимых бенчмарков пока нет.

Второй вопрос — реальная экономика. SambaNova заявляет о пятикратно меньшей задержке и втрое более дешевом инференсе, но это вендорский маркетинг на удобных сценариях. Полное TCO с учетом железа, электричества, охлаждения и инженерного времени может выглядеть иначе, и независимой проверки на реальных нагрузках пока нет. Следующий вопрос — с софтом. Архитектура работает только при зрелом стеке (vLLM, SGLang, TensorRT-LLM), умеющем разруливать гетерогенную конфигурацию. Поддержка появляется, но «появляется» и «работает в продакшен как часы» — разные вещи: команды, разворачивающие это в 2026 году, столкнутся с необходимостью допиливать вещи руками.

Наконец, более фундаментальное: архитектура заточена под текущее представление о работе агентов — prefill, decode, действия CPU, и так по кругу. Но завтра может появиться новый класс моделей или паттерн, при котором такое разделение окажется неоптимальным. Гетерогенный инференс — хорошая ставка на сегодня, но не гарантия лучшего решения через пять лет. Наблюдать за этим стоит как за интересной промежуточной точкой: индустрия еще несколько раз перевернет сама себя, прежде чем мы увидим устоявшийся стандарт.

Куда движется рынок

В 2025 году Nvidia анонсировала Rubin CPX — отдельный чип под prefill на GDDR7-памяти, ровно с той же логикой разделения стадий. К началу 2026-го Rubin CPX тихо ушел из публичного роадмапа: то ли по экономическим соображениям, то ли из нежелания компании конкурировать с самой собой. Логику разделения это не отменяет, нишу — оставляет.

Для Intel это очередная попытка войти в ИИ-инфраструктуру после Gaudi, который не выстрелил; в пакете с SambaNova расклад другой. Для SambaNova ставки выше: стартап с технологией без массового рынка превращается в часть мейнстримного предложения, с поддержкой крупного вендора и совместимостью с обычной стойкой. Это для них экзистенциально.

Соседние ниши уже заняты — Groq и Cerebras с собственными архитектурами под быстрый decode, Google со своим TPU-стеком. Эпоха «Одного GPU на всё» не закончилось, но впервые получило работающую альтернативу для конкретного класса нагрузок — и это, на мой взгляд, новая точка отсчета.

Комментарии (0)