
Majestic Labs — небольшая команда, о которой мало кто слышал до ноября прошлого года. В мае 2026 они анонсировали серверную ИИ-платформу Prometheus. Задача, которую взялась решать компания, хорошо знакома всем, кто разворачивал инференс больших моделей. Вычислительные блоки простаивают, пока ждут данные из памяти. Чем крупнее модель, тем острее эта проблема — и тем сложнее и дороже обойти ее в «традиционных» GPU. Что предлагает стартап и что это за устройство, которое согласно громкому заявлению заменяет целую стойку?
Архитектура
В основе серверов Prometheus — Ignite, собственные чипы AIU (AI Processing Unit, специализированный ускоритель для задач искусственного интеллекта).
Гибридная конструкция с нетипичным сочетанием компонентов:
CPU-ядра на архитектуре Arm,
векторные и тензорные движки на базе RISC-V,
единое адресное пространство памяти до 128 ТБ на весь сервер,
поддержка фреймворков PyTorch, vLLM и OpenAI Triton без изменения кода.
Пункт про память — ключевой. Речь не о распределенной памяти с сетевым доступом через межсерверный интерконнект, а именно о едином пространстве, в котором работают все Ignite-чипы одновременно.
Для масштаба: восемь B300 SXM в стандартной HGX-конфигурации от NVIDIA дают суммарно 2304 ГБ памяти типа HBM3e. Prometheus предлагает примерно в 60 раз больше, но при этом компания пока не публикует цифры по пропускной способности. Это может оказаться неспроста: объем без скорости — даже не половина истории. Какой смысл в автобусе, который везет 1 000 пассажиров, но со скоростью 10 км/ч?
Архитектурно идея опирается на разделение вычислений и памяти в отдельные домены (disaggregation). Сама по себе концепция не новая: аналогичным образом устроен стандарт CXL (Compute Express Link — высокоскоростной интерфейс для связи процессора с памятью и ускорителями), который активно развивается на рынке. Однако, Majestic Labs заявляет, что у них это не надстройка над стандартным сервером, а нативная архитектура с нуля.

Новые GPU в облаке Selectel от 196,09 ₽/час
Видеокарты для ресурсоемких задач — NVIDIA® H100, H200, RTX™ 6000 Pro.
Конкуренты

Majestic Labs заходит на рынок, где уже есть несколько игроков с похожими амбициями.
Cerebras со своим WSE-3 (Wafer Scale Engine — ускоритель размером с целую кремниевую пластину) решает проблему памяти радикально: 900 000 ядер и 44 ГБ SRAM прямо на чипе, без каких-либо обращений во внешнюю память. Латентность минимальная, но объем все равно несопоставим с тем, что обещает Prometheus.
SambaNova идет другим путем — архитектура RDU (Reconfigurable Dataflow Unit — реконфигурируемый ускоритель с потоковой обработкой данных) оптимизирована под конкретные модели и переносит часть работы с памятью на уровень компилятора. Работает хорошо на узком классе задач, гибкость меньше.
Groq строит системы на основе своих TSP (Tensor Streaming Processor — потоковый процессор для тензорных вычислений) с детерминированным временем выполнения и огромной пропускной способностью памяти, но ценой жесткой привязки к своей экосистеме.
Наконец, в корпоративном сегменте активно развивается стандарт CXL, предлагающий расширение пула памяти через стандартные интерфейсы – без проприетарных ускорителей. Это решение совместимо с уже существующей инфраструктурой, процессорами и памятью.
На этом фоне Prometheus занимает свою нишу: больше памяти, чем у Cerebras, больше гибкости, чем у Groq, и более цельная архитектура, чем CXL-расширения. Но всё это – пока только на бумаге, а не в виде конечного продукта.
Сценарии
Majestic Labs метит в задачи, где классические GPU-кластеры не справляются: модели с триллионами параметров, длинные контекстные окна, MoE-архитектуры (Mixture of Experts — подход, при котором модель состоит из множества специализированных подсетей, активируя только часть из них при каждом запросе), графовые нейронные сети и AI-агенты.
MoE — показательный пример. У DeepSeek или Mixtral в каждый момент активна лишь часть весов, но весь банк экспертов должен быть доступен с низкой латентностью. На GPU-кластерах это решается через NVSwitch (коммутатор NVIDIA для высокоскоростной связи между GPU) и быстрый межузловой интерконнект. Это работает, но дорого и сложно масштабируется, вплоть до расчета места в дата-центрах. Единое пространство памяти снимает часть этой головной боли концептуально — вопрос в том, хватит ли реальной пропускной способности.
Итог

Идея здравая, архитектурное направление интересное. Но пока Prometheus существует в виде лендинга и описания — без публичных бенчмарков, цен, сроков поставок. Утверждение «заменяем несколько стоек одним сервером» требует цифр, а не деклараций.
Главный вопрос, ответа на который компания пока избегает — какая реальная пропускная способность у этих 128 ТБ видеопамяти? Если она окажется на порядок ниже HBM, преимущество по объему превратится в красивую цифру на слайде. Следим за первыми реальными тестами и остаемся на связи.