Мы уткнулись в потолок. Почему видеокарты перестали быстро расти

Главная
Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать +4

04.05.2026 16:45

Claritas 5 11000 Источник

О смерти закона Мура применительно к GPU, стене памяти, которую никто не хочет замечать, и архитектурах, которые пытаются с этим жить.

H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Это, на самом деле, структурная проблема. Давайте разберёмся, откуда она взялась и куда мы движемся.

Откуда взялась проблема

В 2006 году Дженсен Хуанг пообещал с большой сцены, что NVIDIA будет удваивать производительность GPU каждые два года. Тогда это звучало почти банально — удвоение и так происходило само по себе, потому что транзисторы просто становились меньше, и всё работало лучше.

Ключевой момент: закон Мура никогда не был законом физики. Это было наблюдение Гордона Мура за тем, что экономика позволяла уменьшать транзисторы вдвое примерно каждые 18 месяцев. Когда экономика перестала это позволять — наблюдение умерло.

А прогресс техпроцесса на бумаге всё ещё выглядит внушительно:

7 нм — A100 (2020)
4 нм — H100 (2022)
3 нм — H200 (2024)

На практике H200 быстрее H100 примерно на 40% при практически идентичной архитектуре. Большая часть прироста — это HBM3e с увеличенной пропускной способностью памяти, а не транзисторы.

Три стены, в которые мы врезались одновременно

Стена #1 — Память

Это, пожалуй, самый недооценённый кризис в индустрии.

GPU умеет вычислять несравнимо быстрее, чем получать данные. H100 теоретически выдаёт ~67 TFLOPS для FP32, но пропускная способность памяти — всего 3,35 ТБ/с. Для нагрузок с большими матрицами GPU простаивает до 70% времени, просто ожидая данные.

Возьмём конкретный пример — умножение матриц FP16 на H100:

Пиковая производительность: 312 TFLOPS
Реальная утилизация при LLM inference: 30–50 TFLOPS

Причина проста: токены генерируются по одному, батчи маленькие, матричные блоки загружены плохо.

Решение существует — High Bandwidth Memory. Но HBM безумно дорог и дефицитен. SK Hynix, Micron и Samsung производят его суммарно на пределе своих возможностей. Поэтому GB200 с HBM3e — это не просто дорогой товар, а дефицитный.

Стена #2 — Тепло и энергия

Транзистор, который стал вдвое меньше, потребляет не вдвое меньше энергии. Реальность жёстче: плотность мощности на кристалле растёт быстрее, чем мы умеем её отводить.

Denard Scaling — принцип, по которому уменьшение транзистора сохраняло плотность мощности постоянной — умер ещё в 2007 году, примерно на отметке 65 нм. Всё, что происходило после — это инженерная заслуга.

H100 SXM5 потребляет 700 Вт. GB200 в конфигурации NVL72 — это серверная стойка с суммарным TDP порядка 120+ кВт. Дата-центры переходят на жидкостное охлаждение потому что воздух больше не справляется.

Стена #3 — Соединения между чипами

Монолитный кристалл упёрся в реальность литографии: большой чип = больше дефектов при производстве = меньше выхода годных = дороже. NVIDIA начала делать чиплеты начиная с Hopper, хотя особо это не афишировала. AMD с MI300X пошла ещё дальше — это уже стопка из трёх GPU-кристаллов и четырёх CPU-кристаллов.

Посмотрим на эволюцию поколений:

Поколение	Чип	Техпроцесс	Что изменилось
Pascal (2016)	GP102, 471 мм²	12 нм	Монолитный дизайн, честное масштабирование
Turing (2018)	TU102, 754 мм²	12 нм	Первые тензорные ядра, прирост уже скромный
Ampere (2020)	GA102, 628 мм²	8 нм Samsung	Скачок на нормы техпроцесса — большой прирост
Hopper (2022)	GH100, 814 мм²	4 нм TSMC	NVLink Switch, Transformer Engine
Blackwell (2024)	GB202	4 нм TSMC	Два кристалла, объединённых NVLink

Монолитный дизайн официально умер.

Что индустрия придумала в ответ

Это параллельно развивающийся зоопарк архитектурных идей, каждая из которых обходит физические ограничения по-своему.

Chiplet / 2.5D packaging. Несколько кристаллов на одном корпусе с быстрым интерконнектом (CoWoS, HBM). AMD MI300X — 153 млрд транзисторов. Экономически выгодно, технически сложно.

In-Memory Computing. Вычисления прямо в ячейках памяти. Убивает проблему bandwidth принципиально. Стартапы вроде Mythic AI делали это на flash-памяти. Пока нишево, но концептуально — радует, что идем в правильном направлении.

Sparse Computation. H100 поддерживает structured sparsity: пропускает нули и тем самым удваивает эффективную производительность. Проблема в том, что модели нужно специально готовить к pruning — само по себе не работает.

Domain-Specific Accelerators. TPU (Google), Trainium (AWS), Gaudi (Intel) отказываются от универсальности в пользу специализации. Для конкретной задачи они выигрывают у GPU по эффективности в разы.

Настоящая революция — это топология

Самое интересное происходит между чипами.

NVLink 5.0 в GB200 обеспечивает 1,8 ТБ/с двунаправленной пропускной способности между GPU — это больше, чем bandwidth памяти внутри GPU трёхлетней давности.

Логика такая: если нельзя сделать один GPU быстрее, нужно сделать так, чтобы сотни GPU вели себя как один. NVL72 — это 72 GPU, которые с точки зрения модели выглядят как один гигантский ускоритель с 13,5 ТБ HBM3e. Модели на 70B параметров помещаются целиком.

Это фундаментальный сдвиг: мы перестаём оптимизировать отдельный чип и начинаем проектировать системы.

Что будет дальше?

Фотолитография дойдёт до 1,6–1,4 нм (TSMC N1.6, A14) к 2027–2028 году. Это не конец масштабирования, но каждый следующий шаг стоит экспоненциально дороже. Завод TSMC для N3 обошёлся в $20 млрд. N2 — ещё дороже.

Реальный прогресс следующих пяти лет будет приходить от трёх направлений.

Архитектурная специализация. GPU общего назначения будет вытесняться смесью специализированных блоков — отдельные engine под attention, под activation, под prefill/decode. Blackwell уже разделяет эти фазы.

Программно-аппаратный co-design. Flash Attention, PagedAttention, Speculative Decoding — это алгоритмы, написанные под конкретное железо. Следующие модели будут проектироваться с учётом hardware constraints с самого начала (а не как сейчас, постфактум).

Новая физика. Оптические интерконнекты уже в продакшене (Ayar Labs, Lightmatter). Нейроморфные чипы (Intel Loihi 2) — нишевый, но реальный класс устройств. Аналоговые in-memory вычисления — горизонт 5–10 лет до production-ready.

Что мы имеем сегодня?

Мы не уткнулись в тупик. Мы уткнулись в конец эпохи, когда железо умнело само по себе — пока инженеры ПО могли ничего особо не делать.

Следующие десять лет потребуют совместной работы на всех уровнях стека: физика материалов → топология чипов → архитектура систем → алгоритмы → обучение моделей. Команды, которые понимают все эти уровни одновременно, выиграют. Остальные будут ждать следующего поколения GPU и удивляться, почему разрыв не сокращается.

Хорошая новость: мы живём в самый интересный момент в истории вычислительной техники за последние 30 лет. Плохая новость: халявы больше нет.

Комментарии (5)

WASD1
04.05.2026 17:09
#29926012
Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать
....
Откуда взялась проблема

Из хорошего - в статье берётся известная с 2000х проблема "memory wall".
Из плохого - примеры в статье некачественные, а предлагаемые решения - или вовсю используются или расхайпленные но бесполезные (in memory computing). Эдакая сборная солянка из парсенга нейросетью интернета за 5 минут, без реального понимания.

Давайте пройдёмся по конкретике:

> H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт.
Проблема №1 - вы сравниваете enterprise решение H100 и consumer решение RTX 5090. Они никогда не предполагались сравнивать их "впрямую", хотя да для некоторого класса "небольших сеток" они взаимозаменяемы.

> Для нагрузок с большими матрицами GPU простаивает до 70% времени, просто ожидая данные.
Проблема №2 - вы приводите манипулятивные метрики (скидка до 70%), а не репрезентативные - в среднем простаивает.

> Возьмём конкретный пример — умножение матриц FP16 на H100:
Проблема №3 - вы пишите "конкретный пример", но не приводите его. Сеть, кёрнел, нагрузка?

> GPU умеет вычислять несравнимо быстрее, чем получать данные. H100 теоретически выдаёт ~67 TFLOPS для FP32, но пропускная способность памяти — всего 3,35 ТБ/с.
Проблема №4 - вы сравниваете величины в разных размерностях, даже не разбираясь можно ли их сравнивать. Сложноть умножения матриц - близка к O(n^1.5) в реальных cublas кернелах.

Проблема №5 в выводах:
О чём они вообще?

Chiplet / 2.5D packaging.

Уже используется.

In-Memory Computing.

Одна из самых расхайпленных "в теории" технологий без практического пока применения.
Т.к. нарушает фундаментальные основы эффективных вычислений для реальных задач - временную и пространственную локальность.

Sparse Computation.

Уже используется

Domain-Specific Accelerators.

Уже используется.
1. entze
  04.05.2026 17:09
  #29926166
  Нубский вопрос - почему вообще речь идет про GPU, а не про NPU? Или просто исторически удобное понятие? Потому что NVIDIA эксплуатирует и развивает архитектуру GPU?
  
  Еще не понял почему у автора для 70B модели - скажем так средней по нынешним временам, надо аж 13,5ТБ памяти. Даже 1,35 не нужно. Квантование уже не так отупляет модели. Сокращение на несколько попугаев при возможности запускать 30B вообще локально в 90 токенов (правда индивидуально).
  1. entze
    04.05.2026 17:09
    #29926194
    Не, мне правда интересно. Зачем условно мне 5090 с монстрами на коробке, если нужен только ИИ, лучше чтобы Flash-память прям там же со стримингом данных в память NPU.
  1. WASD1
    04.05.2026 17:09
    #29926326
    google: GPU TPU NPU - в чём разница и почему в статьях про "железо" для ИИ обсуждают в основном GPU. Ответ будет вполне хорошим, поверьте.
    
    *) Один момент - в последнее время разница сокращается. GPU становится TPU-образным, т.е. обзаводится MMA (блоками умножения матриц) всё бОльшего размера, а TPU - GPU-образным, т.е. вспомогательными блоками, чтобы исполнять дополнительные операции.

dmitrye1
04.05.2026 17:09
#29926442
Еще момент, разделите площадь кристалла на количество транзисторов и сравним с заявленными нанометрами, получим декларируемую и эффективную площадь площадь транзистора - собачья будка на футбольном поле.