
Главный барьер для развития искусственного интеллекта — не процессоры, а скорость доступа к данным. Мощность чипов растет, но память не успевает за ними, и это создает так называемую «стену памяти» (memory wall). Основатели компании d-Matrix из Санта-Клары считают, что технология 3DIMC (3D Digital In-Memory Compute) способна эту стену преодолеть: по словам компании, она в десять раз быстрее и на 90% энергоэффективнее HBM в задачах инференса. Давайте разберемся, что это за технология, почему она важна и сможет ли она изменить рынок.
Проблема HBM и узкое место памяти
Современные системы ИИ, особенно те, что работают с LLM, упираются в ограничения памяти. Вычислительные мощности процессоров увеличиваются втрое каждые два года, а пропускная способность памяти — лишь в 1.6 раза. Этот разрыв означает, что даже самые мощные чипы простаивают, ожидая, пока данные доберутся до них. HBM (High Bandwidth Memory) долгое время считался спасением. Его суть — в вертикальном расположении чипов памяти, соединенных через кремниевые переходы (TSV), что дает пропускную способность до 2 ТБ/с в HBM4 и плотность до 64 ГБ. Это идеально для обучения моделей, где нужно перелопачивать огромные массивы данных.
Но для инференса HBM не так хорош. Во-первых, он дорог. Производство контролируют всего три крупных компании: SK hynix, Samsung и Micron, что держит цены на высоте. SK hynix прогнозирует рост спроса на HBM на 30% ежегодно до 2030 года, но это только укрепляет их монополию. Во-вторых, HBM потребляет много энергии, что становится проблемой для дата-центров, особенно на периферии, где охлаждение ограничено. В-третьих, инференс требует не только высокой пропускной способности, но и минимальной задержки, а HBM здесь не всегда справляется. Например, чат-боты или системы рекомендаций работают с постоянными запросами, где важна не столько скорость потока данных, сколько быстрый доступ к ним.

Ограничения HBM делают его не самым удобным решением для инференса. А ведь он уже сейчас занимает львиную долю нагрузки на IT-инфраструктуру в дата-центрах. Компании ищут не только высокую скорость, но и энергоэффективность с адекватной стоимостью. Именно здесь d-Matrix предлагает свой вариант — технологию 3DIMC, которая объединяет память и вычисления в одном чипе, снижая задержки и энергозатраты и тем самым обещая сломать «стену памяти».

ML Impact — про ML и AI без хайпа
Мы запустили ресурс, на котором разбираем реальную пользу ИИ для бизнеса.
3DIMC: технология и ее потенциал
3DIMC — подход, согласно которому вычисления происходят прямо в массиве памяти, минуя пересылку данных между процессором и хранилищем. Это не новая идея: концепция In-Memory Compute обсуждалась годами, но d-Matrix вывела ее на новый уровень с помощью 3D-стекинга и чиплетной архитектуры. Их первый чип, Pavehawk, построен на 5-нм техпроцессе TSMC и сочетает LPDDR5 с вычислительными чиплетами, соединенными через интерпосер — промежуточный слой для плотной интеграции. Следующий шаг — чип Raptor, который, по словам компании, обеспечит десятикратный прирост скорости и 90% экономии энергии по сравнению с HBM.
Ключ к 3DIMC — в минимизации перемещения данных. Когда вычисления происходят там, где хранятся данные, это резко снижает латентность и энергопотребление. Для инференса, где модели обрабатывают запросы в реальном времени, это критично. Например, в чат-боте данные должны быстро пройти через слои нейросети, чтобы пользователь получил ответ без задержек. 3DIMC позволяет это сделать, не тратя ресурсы на пересылку информации.

Чиплетная архитектура добавляет гибкости. Вместо монолитного чипа, где все интегрировано, d-Matrix создает модули: логика, память и вычисления производятся отдельно и соединяются. Это снижает затраты на разработку и позволяет быстро адаптироваться к новым стандартам, например, к будущим версиям LPDDR. Если завтра появится более продвинутая память, 3DIMC сможет ее интегрировать без полной переработки. Плюс, использование LPDDR5 вместо HBM делает технологию дешевле, что важно для компаний, которые не могут позволить себе закупать дорогие модули у топовых производителей.
Но 3DIMC — это не только про технику. Технология может изменить расклад на рынке памяти, где сейчас правят бал крупные игроки. SK hynix, Samsung и Micron доминируют в HBM, оставляя небольшим компаниям мало шансов. 3DIMC, если оправдает ожидания, даст альтернативу, которая не только быстрее, но и доступнее. Это особенно важно для периферийных вычислений — умных устройств, IoT-гаджетов, где энергоэффективность и компактность на первом месте.
Однако есть и риски. Pavehawk — это пока прототип, а Raptor — лишь концепт. Заявления о десятикратной скорости и экономии энергии звучат громко, но без реальных тестов остаются маркетингом. d-Matrix привлекла $154 млн инвестиций, что говорит о доверии, но путь от лаборатории до массового производства долог. Конкуренция тоже не дремлет: SK hynix и Sandisk работают над High Bandwidth Flash (HBF), который использует NAND для большей емкости и меньшего энергопотребления, а NEO Semiconductor продвигает 3D X-DRAM с плотностью до 512 ГБ. Все эти технологии решают ту же проблему «стены памяти», и d-Matrix придется доказать, что их подход лучше.
Перспективы и вызовы: от дата-центров до геймеров
По обещаниям d-Matrix, 3DIMC позволит обрабатывать больше запросов при меньших тратах на энергию и оборудование. Если все будет именно так, дата-центрам не придется тратить миллионы на дорогие HBM-модули и сложные системы охлаждения.
На периферии — в умных камерах, IoT-устройствах, смартфонах — энергоэффективная память может стать ключом к локальному инференсу. Представьте смартфон, который обрабатывает голосовые команды или улучшает фото с помощью ИИ без обращения к облаку. 3DIMC, благодаря своей компактности и низкому энергопотреблению, идеально подходит для таких сценариев.
Интересно, что технология может повлиять и на геймеров. HBM сейчас слишком дорог для массовых видеокарт, но если 3DIMC займет нишу в ИИ, это освободит производственные мощности HBM. Цены на него могут упасть, и мы увидим игровые GPU с HBM по цене, сравнимой с GDDR6. Это было бы настоящим подарком для энтузиастов, мечтающих о мощных видеокартах без космического ценника.
Но есть и вызовы.
Во-первых, внедрение 3DIMC потребует изменений в архитектуре дата-центров и софта. Компании, уже вложившиеся в HBM и GPU, могут не торопиться переходить на новую технологию, особенно если она потребует переработки инфраструктуры.
Во-вторых, заявления d-Matrix о десятикратной производительности и экономии энергии пока не подтверждены реальными тестами. Стартапы часто преувеличивают ради внимания инвесторов, и $154 млн, которые привлекла компания, — это лишь начало пути.
В-третьих, конкуренция с HBF и 3D X-DRAM может оказаться жесткой. Эти технологии тоже обещают решить проблему памяти, и их интеграция может быть проще для рынка, привыкшего к традиционным подходам.
Как бы там ни было, рынок памяти сегодня сосредоточен в руках трёх гигантов — SK hynix, Samsung и Micron. Чтобы занять в нем место, d-Matrix нужно не только подтвердить на практике заявленные преимущества 3DIMC, но и убедить индустрию в целесообразности перехода. Если технология оправдает ожидания, она может стать новым стандартом для ИИ-инференса и постепенно выйти за его пределы.
Комментарии (6)
Komrus
07.09.2025 08:31"HBM потребляет много энергии, что становится проблемой для дата-центров, особенно на периферии, где охлаждение ограничено"
Интересно, в данном случае "на периферии" - имеется в виду "в Урюпинске" (но тогда не понятно - почему же у них там охлаждение ограничено? :) или "в крайних стойках дата-центра" (но тогда вопрос к дизайну системы охлаждения конкретного ЦОДа) ?
old_bear
07.09.2025 08:31Я не знаю, откуда был творчески переведён данный конкретный абзац сабжевой статьи, но подозреваю что в оригинале это были "вычисления на периферии", что обычно означает вычислительные мощности расположенные ближе к потребителю, чем крупномасштабные ЦОДы. Это может быть, например, сервер предприятия или базовая станции сотовой связи, или вовсе локальное устройство.
P.S. Смотрю, что статью уже подправили.
programania
07.09.2025 08:31Всё уже придумано до нас - в мозге хранение и обработка давно объединены.
Далее можно ожидать имитацию слоёв и колонок неокортекса.
old_bear
07.09.2025 08:31Если отбросить маркетинговую шелуху, то это "In-Memory Compute" никакой не in memory, как можно подумать по названию. В том смысле, что никаких операций в самой памяти не производится, а просто память находится ближе к вычислениям, чем в более традиционных архитектурах. По сравнению с HBM всё сводится к тому что ту же DRAM порезали более мелко и размешали в много-чиповой сборке (package) более равномерно (как и описано в статье красивыми длинными словами). Если посмотреть в доступную документацию на d-Matrix Corsair, видно два важных результата этого:
Во первых, пропускная способность действительно высокая - 150 TB/s на package (на PCIe карте их установлено два).
Во вторых объём этой памяти весьма скромные 2 GB, потому что много разнородных слоёв в package так просто не напихаешь.
Понятно что в такой объём не влезет всё что нужно для инференса достаточно больших сетей, поэтому к каждому чипу пристёгнуто ещё два канала "обычной" LPDDR5 256 GB суммарного объёма и 51.2 GB/s пропускной способности. По сути товарищи изобрели большой кэш высокого уровня основанный на DRAM. Что как-то не тянет на прорывную инновацию (кто сказал "AMD 3D V-Cache"?). Меня, как давно работающего с FPGA, вообще удивляет весь этот хайп вокруг весьма старой и активно используемой идеи распределённой памяти.
dyadyaSerezha
Вроде бы это давно не так.
Не латентность, а задержку.