Зачем вашему процессору нейронный блок, если есть RTX 4090? / forpes.ru

Главная
Зачем вашему процессору нейронный блок, если есть RTX 4090?

Зачем вашему процессору нейронный блок, если есть RTX 4090? +11

30.11.2025 18:24

Wanderrer 13 14000 Источник

2024 и 2025 годы в индустрии железа прошли под знаком двух букв: AI. Если раньше нам продавали гигагерцы и количество ядер, то теперь маркетологи Intel, AMD и Qualcomm меряются TOPS (триллионами операций в секунду). Нам обещают эру «AI PC», встраивают нейронные блоки (NPU) даже в бюджетные «камни» и лепят отдельные кнопки для вызова ассистентов на клавиатуры.

Но у энтузиаста, собравшего систему с условной RTX 4090, возникает резонный вопрос: зачем мне этот "хилый отросток" в процессоре, если моя видеокарта мощнее его в 50 раз? Спойлер: не ради мощности, а ради того, чтобы ваш компьютер перестал быть просто "числодробилкой" и стал действительно отзывчивым.

Давайте отбросим маркетинг и разберемся в архитектуре, сценариях использования и том, почему индустрия упорно толкает нас к гетерогенным вычислениям.

Архитектурный ликбез: Скаляр, Вектор и Матрица

Чтобы понять, зачем нужен NPU (Neural Processing Unit), нужно вспомнить, как мыслят разные компоненты вашего ПК.

CPU (Central Processing Unit): Это универсальный солдат. Он великолепен в последовательных задачах, ветвлениях и управлении логикой. Но когда нужно перемножить две огромные матрицы (основа работы нейросетей), CPU захлебывается. Для него это миллионы тактов.
GPU (Graphics Processing Unit): Король параллелизма. Тысячи ядер могут одновременно обрабатывать пиксели или вершины. Тензорные ядра в современных картах NVIDIA специально созданы для матричных вычислений (здравствуй, DLSS).
NPU (Neural Processing Unit): Это ASIC (специализированная интегральная схема). Он не умеет запускать Windows и плох в рендеринге. Но он дьявольски эффективен в одной задаче: Multiply-Accumulate (MAC) - операции умножения с накоплением, выполняемые над тензорами данных.

Главное отличие - специализация и накладные расходы. Да, тензорные ядра вашей RTX 4090 прекрасно умеют «щелкать» INT8-задачи. Но чтобы выполнить простую операцию, видеокарте нужно задействовать сложный конвейер, поднять частоты и прогреть память. NPU же - это аскет. Он работает с квантованными данными (INT8/INT4) на аппаратном уровне, не тратя энергию на обвязку, необходимую для графики.

Нюанс: Для инференса (запуска) уже обученной нейросети вам чаще всего не нужна хирургическая точность FP32. Нейросеть прекрасно понимает, что на картинке кот, даже если веса модели "сжаты" до 8 бит. Это называется квантование.

Битва Ватт: Ferrari против Электросамоката

В десктопе, где у вас блок питания на 1200 Вт, экономия 20 Вт кажется смешной. Но здесь вступает в силу фактор шума и ресурса. Вы действительно хотите, чтобы вентиляторы вашей видеокарты раскручивались (Stop Fan отключался) каждый раз, когда голосовой ассистент слушает вашу команду? NPU позволяет системе оставаться бесшумной.
Представьте сценарий: вы сидите на созвоне в Teams или Zoom. У вас включено размытие фона (работает нейросеть) и шумоподавление микрофона (еще одна нейросеть).

Если это делает GPU: Видеокарте нужно «проснуться», поднять частоты памяти, раскрутить вентиляторы. Потребление всей системы подскакивает на 20-40 Вт. Батарея ноутбука тает на глазах, кулеры начинают выть.
Если это делает NPU: Нейронный блок выполняет эту фоновую задачу, потребляя 1-2 Вт. Основные ядра CPU спят, дискретная GPU вообще обесточена. NPU создан не для пиковой производительности, а для энергоэффективности рутинных AI-задач.

Магия (и обман) TOPS: Почему 40 > 1300?

Microsoft установила стандарт для AI PC следующего поколения: NPU должен выдавать не менее 40 TOPS (триллионов операций в секунду), чтобы локально крутить Copilot.
Давайте сравним цифры:

NPU в Intel Core Ultra 200V (Lunar Lake): ~48 TOPS.
NPU в AMD Ryzen AI 300: ~50 TOPS.
NVIDIA GeForce RTX 4090: ~1300+ AI TOPS. Разница колоссальная. RTX 4090 уничтожает любой NPU. Если вы захотите сгенерировать картинку в Stable Diffusion или дообучить Llama 3, вы, безусловно, будете использовать видеокарту. За секунды 4090 сделает то, что NPU будет делать минуты. Так зачем нужен NPU в мощном десктопе? NPU работает параллельно, не трогая видеокарту. Но важнее другое - латентность. Обращение к NPU происходит мгновенно.

Гейминг + Стриминг

Представьте, что вы играете в тяжелую игру с Path Tracing, загружая GPU на 99%. Если вы параллельно запустите AI-шумодав для микрофона или AI-аватар на GPU, вы отнимете ресурсы у игры. FPS просядет, появятся статтеры.
NPU же работает параллельно, не трогая видеокарту.

Always-on Assistants

Вы хотите спросить у локального ассистента: «Найди в моих документах договор от марта». Заводить ради этого 450-ваттную видеокарту - это как ездить на карьерном самосвале за хлебом. NPU ответит быстрее, потому что он всегда активен и не требует переключения контекста VRAM.

Реальность 2025: Железо опередило софт

Сейчас мы находимся в странной точке. Производители железа (Intel, AMD, Qualcomm) свои задачи выполнили. У нас есть мощные NPU.
А вот разработчики софта... отстают.

Adobe Premiere/Lightroom: многие AI-функции по-прежнему привязаны к CUDA или Metal.
Игры: использование NPU для NPC-интеллекта существует только в техно-демках.
Локальные LLM: LM Studio, Ollama лучше всего работают на GPU.
API: OpenVINO, Ryzen AI, QNN - зоопарк. Это ад поддержки. Спасением должен стать Microsoft DirectML - универсальная прослойка, которая позволит писать код один раз и запускать его на любом NPU.

Будущее: NPU станет новым QuickSync

Помните времена, когда просмотр 4K-видео на YouTube загружал процессор на 100%? Потом появился аппаратный декодинг, и теперь даже дешевый ноутбук крутит 4K/60fps без нагрузки.
С NPU произойдет то же самое.
В ближайшие 2-3 года мы увидим переход к гетерогенному AI:

Микро-задачи (NPU):

шумоподавление
транскрибация голоса
умный фокус камеры
анализ почты

Тяжелые задачи (GPU):

DLSS/FSR
генерация изображений
обучение моделей

Супер-тяжелые (Cloud):

ChatGPT-5/6 и т.п.

Итоговый вердикт: Обновляться или ждать?

Для владельцев мощных десктопов NPU - приятный бонус, но не причина для апгрейда. RTX 4090 сделает всё быстрее. Ждите перехода софта на DirectML.
Для тех, кто выбирает ноутбук, наличие NPU критично. Лэптоп с NPU проживёт в смешанном режиме на 20-30% дольше.
Для энтузиастов и кодеров NPU - интересная игрушка, но пока больше про «борьбу с драйверами» и документацию.

Резюме

Эра AI PC наступила, но софт опоздал на вечеринку. Железо готово, осталось дождаться, когда разработчики научатся им пользоваться.

На связи был Антон Будкевич. В продолжении раскрою тему архитектурных подходов к энергосбережению AI

Комментарии (13)

Zalechi
30.11.2025 18:34
#29185348
Теперь заживем. Еще два-три года потерпеть, и Коммунизм наступит! /s

Rezzet
30.11.2025 18:34
#29185456
Видеокарта то же может не в полную нагрузку работать.
1. Wanderrer Автор
  30.11.2025 18:34
  #29185506
  верно, но даже при небольших задачах, требующих перемножений больших матриц (основные вычисления нейросети), видеокарточка выкачает в разы больше ватт-часов из аккумулятора в ноуте, повоет вентиллятором, т.к.даже кратковременный небольшой ее напряг поднимает температуру в трубках охладителя и т.д.
  Так что в ноуте - чем современнее проц - тем дольше будет работать от заряда до заряда. А в геймерском дэсктопе прямо сейчас - нет смысла в апгрейде только ради NPU. Товарищ @Zalechi правильно сказал, 2-3 года и заживем)))
  1. Tiriet
    30.11.2025 18:34
    #29186866
    для небольшой задачи, требующей перемножения больших матриц- нужно много-много TOPS*s. там, где мощная видях (которая 1300) отработает за секунуд, NPU на 40топсов будет работать полминуты. И в этой раскладке утверждение про "дольше будет работать от заряда"- требует каких-то измерений в подтверждение. особенно с учетом того, что видяха может перемножать матрицы в fp16, а НПУ- в int4. да и как там это все будет еще фурыкать с учетом доступа к памяти и всяких латентностей- большой вопрос. в общем- пруфов бы к статье, а то какой-то популизм и очковтирательство получается.
    
    JarodSpock
    30.11.2025 18:34
    #29187198
    Я всегда думал что это просто мракетинг, как и в случае с аппаратным TPM - МС заставляет пользователей апгрейдиться. Но при этом я пользовал Райзен 1600 7 лет с его выхода и он не соответствал требованиям Вин 11, а потом MSI в последнем обновлении БИОС на мою материнку x370 Gaming Pro Carbon просто взяла и включила этот самый TPM который ВНЕЗАПНО всегда был на чипе в виде ARM ядра PSP. И теперь Ryzen 1600 тоже имеет модуль ТРМ, правда мало кто об этом знает потому что мало кто сейчас юзает 1600, когда все проапгрейдились чтобы поставить Вин 11 можно и модуль TPM включить в старых процессорах потому что Вин 11 что-то оказалась не очень популярной и можно и обладателям 1600-х позволить ее ставить.

proton-me
30.11.2025 18:34
#29185792
А есть бенчмарк для TOPS? Чтобы оценить, сколько их в моей системе.

melodictsk
30.11.2025 18:34
#29186426
Все эти топс тоже такие себе, при постоянной полной нагрузке он упрется в псп памяти. Что там у ноутбуков сейчас? 50-100 гб/с. И она делиться на всё. 4090 имеет 1 тб/с и большой кэш. Мелкие модельки, сопостовимого размера с кэшем будут летать на видеокарта. Нпу сделали исключительно для экономии батарейки, ничего такого они сделать не могут с чем бы справился цпу. Все эти размытия фона, шумодав и т. П.

JarodSpock
30.11.2025 18:34
#29186944
Все равно не объяснил почему МС не считает мою систему ИИ совместимой с моей 5070Ти 1406 AI TOPS + 9600X райзен у котрого кстати есть еще и расширения AVX-VNNI. Да и сама АМД как то избегает пояснения что актуальная линейка десктопных Зен5 вовсе не AI. Они так уклончиво там расписывают мол наши процессоры AI ready НО при этом упоминают только мобильные процессоры, то есть они прямо избегают признавать что десктопные Райзен 9000 вовсе не AI ready.

Aleksas
30.11.2025 18:34
#29187484
А почему подавление эхо и размытие экрана могут и на стационарных фильтрах быть выполнены тоже.

GrafRaf999
30.11.2025 18:34
#29188156
Ну что же, придется ждать и надеяться что все у них получится, может НПС наконец то поумнеют
1. Guestishe
  30.11.2025 18:34
  #29188346
  Для этого просто нужно обучить нейронку на синтетических данных соответствующих лору с соответствующими входами/выходами. Но это дорого.

yrub
30.11.2025 18:34
#29188200
по-моему все это из-за того, что нужно сделать как apple но тогда nvidia и amd оказываются неудел. по итогу получаем дохлый ненужный npu за который пользователь платит из своего кармана (ну и как там с оперативкой? Модули отдельные теперь тоже не выбрать, все идет с cpu же?). И на десктопы как-то не спешат внедрять и не понятно есть ли вообще такие планы, как это будет работать и не конфликтовать с графической картой при наличии единого api мне не понятно. по итогу победила apple у которой все отлично и даже можно в игры играть на средних+

ShiWarai
30.11.2025 18:34
#29188986
В этом месяце прикупил ноутбук с Amd Ryzen AI 365. Пока доволен чистой производительностью, но уже и фишки пытаюсь сам накатывать с использованием NPU. Lemonade + FLM позволяет мою любимую Gemma3:4b использовать без особо напряга по потреблению, как было ну ноуте с 2070. Сейчас, правда, приходится искать софт, который адекватно дружит с локальными нейросетями и позволяет например заменить всякие Copilot и Cursor. В крайнем случае сам допишу адаптеры к open source аналогам.

В тему NPU полез еще в начале этого года. На Orange Pi 5 активно использую встроенный NPU для задач автономной говорилки и синтеза текста (типо Алексы, но для робота маленького). Пока очень доволен мощностью за свой прайс.