2024 и 2025 годы в индустрии железа прошли под знаком двух букв: AI. Если раньше нам продавали гигагерцы и количество ядер, то теперь маркетологи Intel, AMD и Qualcomm меряются TOPS (триллионами операций в секунду). Нам обещают эру «AI PC», встраивают нейронные блоки (NPU) даже в бюджетные «камни» и лепят отдельные кнопки для вызова ассистентов на клавиатуры.
Но у энтузиаста, собравшего систему с условной RTX 4090, возникает резонный вопрос: зачем мне этот "хилый отросток" в процессоре, если моя видеокарта мощнее его в 50 раз? Спойлер: не ради мощности, а ради того, чтобы ваш компьютер перестал быть просто "числодробилкой" и стал действительно отзывчивым.
Давайте отбросим маркетинг и разберемся в архитектуре, сценариях использования и том, почему индустрия упорно толкает нас к гетерогенным вычислениям.
Архитектурный ликбез: Скаляр, Вектор и Матрица
Чтобы понять, зачем нужен NPU (Neural Processing Unit), нужно вспомнить, как мыслят разные компоненты вашего ПК.
CPU (Central Processing Unit): Это универсальный солдат. Он великолепен в последовательных задачах, ветвлениях и управлении логикой. Но когда нужно перемножить две огромные матрицы (основа работы нейросетей), CPU захлебывается. Для него это миллионы тактов.
GPU (Graphics Processing Unit): Король параллелизма. Тысячи ядер могут одновременно обрабатывать пиксели или вершины. Тензорные ядра в современных картах NVIDIA специально созданы для матричных вычислений (здравствуй, DLSS).
NPU (Neural Processing Unit): Это ASIC (специализированная интегральная схема). Он не умеет запускать Windows и плох в рендеринге. Но он дьявольски эффективен в одной задаче: Multiply-Accumulate (MAC) - операции умножения с накоплением, выполняемые над тензорами данных.
Главное отличие - специализация и накладные расходы. Да, тензорные ядра вашей RTX 4090 прекрасно умеют «щелкать» INT8-задачи. Но чтобы выполнить простую операцию, видеокарте нужно задействовать сложный конвейер, поднять частоты и прогреть память. NPU же - это аскет. Он работает с квантованными данными (INT8/INT4) на аппаратном уровне, не тратя энергию на обвязку, необходимую для графики.
Нюанс: Для инференса (запуска) уже обученной нейросети вам чаще всего не нужна хирургическая точность FP32. Нейросеть прекрасно понимает, что на картинке кот, даже если веса модели "сжаты" до 8 бит. Это называется квантование.
Битва Ватт: Ferrari против Электросамоката
В десктопе, где у вас блок питания на 1200 Вт, экономия 20 Вт кажется смешной. Но здесь вступает в силу фактор шума и ресурса. Вы действительно хотите, чтобы вентиляторы вашей видеокарты раскручивались (Stop Fan отключался) каждый раз, когда голосовой ассистент слушает вашу команду? NPU позволяет системе оставаться бесшумной.
Представьте сценарий: вы сидите на созвоне в Teams или Zoom. У вас включено размытие фона (работает нейросеть) и шумоподавление микрофона (еще одна нейросеть).
Если это делает GPU: Видеокарте нужно «проснуться», поднять частоты памяти, раскрутить вентиляторы. Потребление всей системы подскакивает на 20-40 Вт. Батарея ноутбука тает на глазах, кулеры начинают выть.
Если это делает NPU: Нейронный блок выполняет эту фоновую задачу, потребляя 1-2 Вт. Основные ядра CPU спят, дискретная GPU вообще обесточена. NPU создан не для пиковой производительности, а для энергоэффективности рутинных AI-задач.
Магия (и обман) TOPS: Почему 40 > 1300?
Microsoft установила стандарт для AI PC следующего поколения: NPU должен выдавать не менее 40 TOPS (триллионов операций в секунду), чтобы локально крутить Copilot.
Давайте сравним цифры:
NPU в Intel Core Ultra 200V (Lunar Lake): ~48 TOPS.
NPU в AMD Ryzen AI 300: ~50 TOPS.
NVIDIA GeForce RTX 4090: ~1300+ AI TOPS. Разница колоссальная. RTX 4090 уничтожает любой NPU. Если вы захотите сгенерировать картинку в Stable Diffusion или дообучить Llama 3, вы, безусловно, будете использовать видеокарту. За секунды 4090 сделает то, что NPU будет делать минуты. Так зачем нужен NPU в мощном десктопе? NPU работает параллельно, не трогая видеокарту. Но важнее другое - латентность. Обращение к NPU происходит мгновенно.
Гейминг + Стриминг
Представьте, что вы играете в тяжелую игру с Path Tracing, загружая GPU на 99%. Если вы параллельно запустите AI-шумодав для микрофона или AI-аватар на GPU, вы отнимете ресурсы у игры. FPS просядет, появятся статтеры.
NPU же работает параллельно, не трогая видеокарту.
Always-on Assistants
Вы хотите спросить у локального ассистента: «Найди в моих документах договор от марта». Заводить ради этого 450-ваттную видеокарту - это как ездить на карьерном самосвале за хлебом. NPU ответит быстрее, потому что он всегда активен и не требует переключения контекста VRAM.
Реальность 2025: Железо опередило софт
Сейчас мы находимся в странной точке. Производители железа (Intel, AMD, Qualcomm) свои задачи выполнили. У нас есть мощные NPU.
А вот разработчики софта... отстают.
Adobe Premiere/Lightroom: многие AI-функции по-прежнему привязаны к CUDA или Metal.
Игры: использование NPU для NPC-интеллекта существует только в техно-демках.
Локальные LLM: LM Studio, Ollama лучше всего работают на GPU.
API: OpenVINO, Ryzen AI, QNN - зоопарк. Это ад поддержки. Спасением должен стать Microsoft DirectML - универсальная прослойка, которая позволит писать код один раз и запускать его на любом NPU.
Будущее: NPU станет новым QuickSync
Помните времена, когда просмотр 4K-видео на YouTube загружал процессор на 100%? Потом появился аппаратный декодинг, и теперь даже дешевый ноутбук крутит 4K/60fps без нагрузки.
С NPU произойдет то же самое.
В ближайшие 2-3 года мы увидим переход к гетерогенному AI:
Микро-задачи (NPU):
шумоподавление
транскрибация голоса
умный фокус камеры
анализ почты
Тяжелые задачи (GPU):
DLSS/FSR
генерация изображений
обучение моделей
Супер-тяжелые (Cloud):
ChatGPT-5/6 и т.п.
Итоговый вердикт: Обновляться или ждать?
Для владельцев мощных десктопов NPU - приятный бонус, но не причина для апгрейда. RTX 4090 сделает всё быстрее. Ждите перехода софта на DirectML.
Для тех, кто выбирает ноутбук, наличие NPU критично. Лэптоп с NPU проживёт в смешанном режиме на 20-30% дольше.
Для энтузиастов и кодеров NPU - интересная игрушка, но пока больше про «борьбу с драйверами» и документацию.
Резюме
Эра AI PC наступила, но софт опоздал на вечеринку. Железо готово, осталось дождаться, когда разработчики научатся им пользоваться.
На связи был Антон Будкевич. В продолжении раскрою тему архитектурных подходов к энергосбережению AI
Комментарии (8)

Rezzet
30.11.2025 18:34Видеокарта то же может не в полную нагрузку работать.

Wanderrer Автор
30.11.2025 18:34верно, но даже при небольших задачах, требующих перемножений больших матриц (основные вычисления нейросети), видеокарточка выкачает в разы больше ватт-часов из аккумулятора в ноуте, повоет вентиллятором, т.к.даже кратковременный небольшой ее напряг поднимает температуру в трубках охладителя и т.д.
Так что в ноуте - чем современнее проц - тем дольше будет работать от заряда до заряда. А в геймерском дэсктопе прямо сейчас - нет смысла в апгрейде только ради NPU. Товарищ @Zalechi правильно сказал, 2-3 года и заживем)))
Tiriet
30.11.2025 18:34для небольшой задачи, требующей перемножения больших матриц- нужно много-много TOPS*s. там, где мощная видях (которая 1300) отработает за секунуд, NPU на 40топсов будет работать полминуты. И в этой раскладке утверждение про "дольше будет работать от заряда"- требует каких-то измерений в подтверждение. особенно с учетом того, что видяха может перемножать матрицы в fp16, а НПУ- в int4. да и как там это все будет еще фурыкать с учетом доступа к памяти и всяких латентностей- большой вопрос. в общем- пруфов бы к статье, а то какой-то популизм и очковтирательство получается.

JarodSpock
30.11.2025 18:34Я всегда думал что это просто мракетинг, как и в случае с аппаратным TPM - МС заставляет пользователей апгрейдиться. Но при этом я пользовал Райзен 1600 7 лет с его выхода и он не соответствал требованиям Вин 11, а потом MSI в последнем обновлении БИОС на мою материнку x370 Gaming Pro Carbon просто взяла и включила этот самый TPM который ВНЕЗАПНО всегда был на чипе в виде ARM ядра PSP. И теперь Ryzen 1600 тоже имеет модуль ТРМ, правда мало кто об этом знает потому что мало кто сейчас юзает 1600, когда все проапгрейдились чтобы поставить Вин 11 можно и модуль TPM включить в старых процессорах потому что Вин 11 что-то оказалась не очень популярной и можно и обладателям 1600-х позволить ее ставить.

melodictsk
30.11.2025 18:34Все эти топс тоже такие себе, при постоянной полной нагрузке он упрется в псп памяти. Что там у ноутбуков сейчас? 50-100 гб/с. И она делиться на всё. 4090 имеет 1 тб/с и большой кэш. Мелкие модельки, сопостовимого размера с кэшем будут летать на видеокарта. Нпу сделали исключительно для экономии батарейки, ничего такого они сделать не могут с чем бы справился цпу. Все эти размытия фона, шумодав и т. П.

JarodSpock
30.11.2025 18:34Все равно не объяснил почему МС не считает мою систему ИИ совместимой с моей 5070Ти 1406 AI TOPS + 9600X райзен у котрого кстати есть еще и расширения AVX-VNNI. Да и сама АМД как то избегает пояснения что актуальная линейка десктопных Зен5 вовсе не AI. Они так уклончиво там расписывают мол наши процессоры AI ready НО при этом упоминают только мобильные процессоры, то есть они прямо избегают признавать что десктопные Райзен 9000 вовсе не AI ready.
Zalechi
Теперь заживем. Еще два-три года потерпеть, и Коммунизм наступит! /s