Недавно на рынке появились PCIe-карты NVIDIA H100: они позиционируются как решения на базе SXM-чипов, извлеченных из HGX-модулей. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL?
Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special) и NVIDIA H100 NVL. Для этого провели испытания с использованием сервера YADRO G4208P G3. Методику построили так, чтобы результат можно было проверить и воспроизвести: для сравнения использовали одинаковую серверную платформу, одинаковые версии драйвера, CUDA и ОС, а также два уровня тестов — прикладной vLLM benchmark и NCCL all_reduce_perf для проверки GPU-интерконнекта.
Ниже покажу результаты бенчмарков на типовых LLM-конфигурациях и дам рекомендации, как валидировать ускорители перед включением в проектный или продуктовый контур. Будет полезно, если приобретаете карты для работы над задачами ИИ.
Характеристики тестируемых конфигураций
Посмотрим, какими характеристиками обладают PCIe-карт NVIDIA H100 Special:
# nvidia-smi Wed Dec 17 18:28:01 2025 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.171.04 Driver Version: 535.171.04 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA H100 80GB HBM3 Off | 00000000:16:00.0 Off | 0 | | N/A 73C P0 697W / 700W | 72977MiB / 81559MiB | 100% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 3876 C ./gpu_burn 72968MiB | +---------------------------------------------------------------------------------------+
По данным утилиты nvidia-smi, энергопотребление карты доходит до 700 Вт включительно, а это может стать серьезным вызовом для системы охлаждения сервера. Для сравнения: у NVIDIA H100 NVL энергопотребление — 350–400 Вт.
В испытаниях мы использовали сервер YADRO G4208P G3 — это наш главный сервер под задачи ИИ. Он поддерживает установку не менее восьми GPU, предназначенных для выполнения задач искусственного интеллекта, машинного обучения, высокопроизводительных вычислений и обработки больших массивов данных. Конструктивно он готов к установке ускорителей с суммарной расчетной мощностью не менее 4 800 Вт — то есть не менее 600 Вт каждый.
Конфигурации стендов были такими:
Компонент/платформа |
YADRO G4208P G3 (4 × NVIDIA H100 Special) |
YADRO G4208P G3 (4 × H100 NVL) |
CPU |
2 × Intel Xeon Platinum 6430 |
2 × Intel Xeon Platinum 6430 |
GPU |
4 × NVIDIA H100 Special (80 ГБ), попарно объединены NVIDIA NVLink bridge |
4 × H100 NVL (94 ГБ), попарно объединены NVIDIA NVLink bridge |
RAM |
2 ТБ (32 × 64 ГБ) |
2 ТБ (32 × 64 ГБ) |
SSD |
7 ТБ NVMe |
7 ТБ NVMe |
Драйвер NVIDIA |
560.35.5 |
560.35.5 |
Версия CUDA |
12.6 |
12.6 |
ОС |
Ubuntu 22.04, Linux 6.8.0-57-generic |
Ubuntu 22.04, Linux 6.8.0-57-generic |
ИИ-модели, которые мы применяли, отличались размером и требуемым числом GPU при контексте 128k. Характеристики:
Модель |
Релиз |
Число параметров |
Precision |
Требования для запуска при контексте 128k. Количество GPU H100 |
Ссылка на Hugging Face |
Qwen3-Coder-30B-A3B-Instruct |
май, 2025 |
31B |
BF16 |
2 |
|
Qwen3-Coder-Next |
февраль, 2026 |
80B |
BF16 |
4 |
Методика тестирования
Для оценки производительности серверной платформы мы использовали бенчмарки из проекта vLLM. Этот проект представляет собой инструменты для загрузки и экспериментов с LLM-моделями и набор сценариев для сравнения производительности на разных платформах с гибкой настройкой параметров. Так мы могли оценить производительность релевантных моделей на различных конфигурациях сервера.
Чтобы оценить эффективность GPU-интерконнекта, дополнительно использовали бенчмарки NCCL all_reduce_perf из репозитория nccl-tests. NCCL — это библиотека стандартных процедур коммуникации между GPU, разрабатываемая NVIDIA. Она используется для выполнения инференса — в случае, когда модель требует более одной NVIDIA GPU для исполнения, а указанные тесты как раз и призваны оценить эффективность работы этой библиотеки при передаче данных между GPU.
Присоединяйтесь к команде! У нас открыты вакансии:
Бенчмарк vLLM
Для тестирования взяли фреймворк vLLm версии v0.18.0 — релиз от марта 2026 года, который поставляется в готовом docker image от vLLM.
Запуски vLLM server и vLLM benchmark
Ниже покажу, как выглядели запуски и какие результаты мы получили.
vLLM server
Qwen3-Coder-30B-A3B-Instruct:
docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-30B-A3B-Instruct -tp 2
Qwen3-Coder-Next:
docker run --network host --gpus all --shm-size 64G -v <models_dir>:/models vllm/vllm-openai:v0.18.0 --model /models/Qwen3-Coder-Next -tp 4
Важно: <models_dir> нужно заменить на полный путь до места нахождения моделей.
vLLM benchmark
Этот эксперимент нацелен не на точное воспроизведение пользовательского сценария, а на сравнение поведения карт NVIDIA H100 Special и H100 NVL. Поэтому для удобства воспроизводимости мы будем использовать случайные датасеты заданных размеров: 1k токенов на входе и 1k на выходе, а также 127k на входе и 1k на выходе. Это позволяет изолировать влияние GPU и интерконнекта от вариативности реальных пользовательских запросов.
Команды запуска vLLM server для двух тестируемых моделей:
random 1k-1k:
docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 1024 --num-prompts 1000 --port 8000
random 127k-1k:
docker run --rm --entrypoint vllm --network=host -v <models_dir>:/models vllm/vllm-openai:v0.18.0 bench serve --model /models/<model_name> --dataset-name random --random-output-len 1024 --random-input-len 130048 --num-prompts 10 --port 8000
Здесь <models_dir> — это полный путь к каталогу с моделями, а <model_name> — название тестируемой модели: Qwen3-Coder-30B-A3B-Instruct или Qwen3-Coder-Next.
Результаты бенчмарков vLLM
На этой диаграмме вы видите сравнение пропускной способности по выходным токенам, профиль random 1k-1k:

Тут то же самое, но профиль random 127k-1k:

Ниже в таблице покажу сводные значения по двум профилям нагрузки. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.
Модель |
Профиль нагрузки |
Производительность NVIDIA H100 Special, выходных токенов/с |
Производительность H100 NVL, выходных токенов/с |
Отношение H100 NVL / NVIDIA H100 Special |
Qwen3-Coder-Next |
random 1k-1k |
3592,70 |
8923,46 |
2,48 |
Qwen3-Coder-30B-A3B-Instruct |
8310,40 |
9207,59 |
1,11 |
|
Qwen3-Coder-Next |
random 127k-1k |
64,37 |
166,50 |
2,59 |
Qwen3-Coder-30B-A3B-Instruct |
73,27 |
72,75 |
0,99 |
По результатам бенчмарков vLLM ускорители NVIDIA H100 Special заметно уступают H100 NVL в сценариях, где Tensor Parallelism используется между несколькими GPU.На модели Qwen3-Coder-Next отставание более чем в два раза как в профиле random 1k–1k, так и в профиле random 127k–1k. На модели Qwen3-Coder-30B-A3B-Instruct различие значительно меньше. Это указывает на высокую зависимость производительности от характеристик GPU-интерконнекта при развертывании модели.
Чтобы полностью провалидировать такие ускорители, кроме производительности нужно отдельно оценивать энергопотребление и тепловой профиль. Эти параметры могут отличаться от параметров оригинальных PCIe-ускорителей NVIDIA H100 NVL.
Тестирование производительности GPU-интерконнекта
Теперь очередь бенчмарка NCCL all_reduce_perf. Клонируем репозиторий в директорию <nccl_tests_dir>. Сборку выполняем с такими параметрами:
cd <nccl_tests_dir> make MPI=1 MPI_HOME=<mpi_dir> CUDA_HOME=<cuda_dir>
Использовались cuda=12.6 и nvcc=12.6.
Запуск мы выполняли в двух режимах — Ring и Tree, почитать о них можно в документации NCCL. Параметры такие:
export LD_LIBRARY_PATH=<mpi_dir>/lib:$LD_LIBRARY_PATH export PATH=<mpi_dir>/bin:$PATH export NCCL_MIN_NCHANNELS=4 export NCCL_ALGO=Ring mpirun -np 4 -N 4 -H <host_name>:4 \ -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \ -x LD_LIBRARY_PATH -x PATH \ <nccl_tests_dir>/build/all_reduce_perf \ -b 1M -e 8G -f 2 -g 1 export NCCL_ALGO=Tree mpirun -np 4 -N 4 -H <host_name>:4 \ -x NCCL_ALGO -x NCCL_MIN_NCHANNELS \ -x LD_LIBRARY_PATH -x PATH \ <nccl_tests_dir>/build/all_reduce_perf \ -b 1M -e 8G -f 2 -g 1
Результаты
Ниже в таблице показываю результаты теста NCCL all_reduce_perf — отношение H100 NVL к NVIDIA H100 PCIe. Ratio > 1 означает, что конфигурация с NVIDIA H100 Special уступает по производительности H100 NVL.
Algo |
4 × NVIDIA H100 Special, ГБ/с |
4 × H100 NVL ГБ/с |
Отношение H100 NVL / NVIDIA H100 Special |
Ring |
7,93 |
39,37 |
4,96 |
Tree |
11,55 |
45,38 |
3,93 |
Результаты подтверждают, что пропускная способность GPU-интерконнекта в конфигурации с NVIDIA H100 Special ниже, чем в конфигурации с H100 NVL. Это согласуется с результатами бенчмарков vLLM и объясняет заметное снижение производительности в сценариях развертывания моделей на нескольких GPU.
Выводы и рекомендации

Наши испытания показывают, что ускорители NVIDIA H100 Special в PCIe-форм-факторе на базе SXM-чипов могут уступать оригинальным H100 NVL в сценариях, где требуется интенсивный обмен данными между несколькими GPU. В протестированных конфигурациях на модели Qwen3-Coder-Next отставание достигло 2,5 раз. Результаты бенчмарков NCCL подтверждают, что ключевая причина — ограниченная пропускная способность GPU-интерконнекта.
Вывод: использовать такие ускорители в продуктовых или проектных решениях допустимо только после полноценной технической валидации. Она должна включать как прикладные бенчмарки, так и измерение характеристик GPU-интерконнекта и энергопотребления.
Напоследок — рекомендация для проектной практики. Перед включением ускорителей в проект проверяйте не только паспортные характеристики GPU, но и постоянную мощность (Sustained Power), тепловой режим, фактическую топологию NVLink/PCIe и результаты прикладного бенчмарка LLM на целевой модели.
Комментарии (7)

goshmar
25.06.2026 19:00Какие ещё ИИ эксперименты пробовали для сравнения? Инференс?

makart19 Автор
25.06.2026 19:00Добрый день! Результаты всех экспериментов, проведенных по данным картам, включая инференс с использованием vLLM, представлены в статье. Больше информации о результатах наших исследований можно найти по ссылке https://yadro.com/ru/documentation/search/?product_id=96&category_id=805&release_id=1324 в разделе “White Paper”
Razoon
Да боже ж мой, ядро, вы ещё и блог на Хабре ведёте? И вам даже не стыдно? Вы когда свои убожественные ген3 почините? Когда они начнут хотя бы 5 раз из 10 загружаться, уже не говоря про их работу? Когда ваши инженеры перестанут окирпичивать ваши же серваки вашими же прошивками? Когда вы начнёте делать нормальные салазки под диски что б они в руках не разлагались на плесень и липовый мед? Какой вам ИИ, какие H100? Доведите до ума сначала свое железо и микрокод пожалуйста.
yadro_team
Добрый день! Пытались ли вы связаться с сервисом компании? Наша команда обычно чутко относится к фидбэку по работе продуктов, тем более негативному. Чтобы эффективнее помочь, напишем вам в личку
Razoon
А как вы думаете пробовали ли мы обращаться к вам в поддержку если к нам приехал ваш инженер и окирпичил новой прошивкой весь сервер?) Или он это сделал по собственной инициативе из чистого любопытства?)
Razoon
Ну и вот вы действительно пришли ко мне в личку с вопросом кто же я такой. И вот я стесняюсь спросить, если вы по описанным кейсам не смогли понять откуда я, то я могу справедливо предположить, что описанных мною кейсов больше чем один? Или даже два? Или даже десять? Ядро, мне становится страшно за судьбы родины...
yadro_team
Вы общаетесь с представителем маркетинговой функции компании) Естественно, мы не можем определить клиента по вашему сообщению. Возможно, специалист поддержки узнал бы вас с первой буквы вашего сообщения, но вы написали в блоге на Хабре, а специалисты поддержки его не ведут. Обязательно передадим ваши комментарии, спасибо