Что такое Tensor Core GPU
NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.
Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.
Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.
В облаке Cloud4Y представлены все ключевые поколения этих карт: доступны в аренду серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.
Сводная таблица: все GPU Cloud4Y
Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.
Краткий ориентир по строкам таблицы:
FP32, FP16, FP8 — вычислительная мощность на разных форматах точности. Чем больше — тем быстрее выполняются задачи. FP16 и FP8 — основные форматы для AI.
Память — сколько данных помещается «в карту». Определяет, модель какого размера можно запустить.
Проп. памяти — скорость подачи данных в вычислитель. Критична для инференса больших моделей.
NVLink — межкарточное соединение. Есть только у серверных GPU, позволяет объединять карты в кластер.
-
TDP — энергопотребление. Влияет на стоимость эксплуатации и требования к охлаждению.
Производительность в таблице указана в TFLOPS (триллионов операций с плавающей точкой в секунду). Чем больше значение — тем быстрее карта выполняет вычисления на данной точности.
V100 |
A100 |
H100 |
H200 |
B200 |
B300 |
RTX 4090 |
A6000 Ada |
RTX 5090 |
RTX 6000 Blackwell |
|
|---|---|---|---|---|---|---|---|---|---|---|
Архитектура |
Volta |
Ampere |
Hopper |
Hopper |
Blackwell |
Blackwell Ultra |
Ada Lovelace |
Ada Lovelace |
Blackwell |
Blackwell |
Год |
2017 |
2020 |
2022 |
2024 |
2025 |
2025 |
2022 |
2022 |
2025 |
2025 |
Сегмент |
ЦОД |
ЦОД |
ЦОД |
ЦОД |
ЦОД |
ЦОД |
Раб. станция |
Раб. станция |
Раб. станция |
Раб. станция |
FP64 |
7.8 TFLOPS |
9.7 TFLOPS |
34 TFLOPS |
34 TFLOPS |
37 TFLOPS |
1.2 TFLOPS |
— |
— |
— |
— |
FP32 |
15.7 TFLOPS |
19.5 TFLOPS |
67 TFLOPS |
67 TFLOPS |
75 TFLOPS |
75 TFLOPS |
82.6 TFLOPS |
91.1 TFLOPS |
104.8 TFLOPS |
125 TFLOPS |
TF32 Tensor |
— |
312 TFLOPS |
989 TFLOPS |
989 TFLOPS |
2200 TFLOPS |
2200 TFLOPS |
— |
— |
— |
— |
FP16/BF16 Tensor |
125 TFLOPS |
624 TFLOPS |
1979 TFLOPS |
1979 TFLOPS |
4500 TFLOPS |
4500 TFLOPS |
330 TFLOPS |
364 TFLOPS |
419 TFLOPS |
500 TFLOPS |
FP8 Tensor |
— |
— |
3958 TFLOPS |
3958 TFLOPS |
9000 TFLOPS |
9000 TFLOPS |
660 TFLOPS |
728 TFLOPS |
838 TFLOPS |
1000 TFLOPS |
FP4 Tensor (Dense) |
— |
— |
— |
— |
9000 TFLOPS |
15000 TFLOPS |
— |
— |
1676 TFLOPS |
2000 TFLOPS |
Память |
32 ГБ HBM2 |
80 ГБ HBM2e |
80 ГБ HBM3 |
141 ГБ HBM3e |
192 ГБ HBM3e |
288 ГБ HBM3e |
24 ГБ GDDR6X |
48 ГБ GDDR6 |
32 ГБ GDDR7 |
96 ГБ GDDR7 |
Проп. памяти |
900 ГБ/с |
2 ТБ/с |
3.35 ТБ/с |
4.8 ТБ/с |
8 ТБ/с |
8 ТБ/с |
1.01 ТБ/с |
960 ГБ/с |
1.79 ТБ/с |
1.8 ТБ/с |
NVLink |
300 ГБ/с |
600 ГБ/с |
900 ГБ/с |
900 ГБ/с |
1.8 ТБ/с |
1.8 ТБ/с |
— |
— |
— |
— |
TDP |
300 Вт |
400 Вт |
700 Вт |
700 Вт |
1000 Вт |
1400 Вт |
450 Вт |
300 Вт |
575 Вт |
600 Вт |
*Источники: NVIDIA Datasheets (V100, A100, H100, H200, B200, RTX PRO 6000 Blackwell); NVIDIA Technical Blog «Inside NVIDIA Blackwell Ultra» (B300, январь 2026); Exxact Corporation (A100–B200); TechPowerUp GPU Database (RTX 4090, A6000 Ada); Notebookcheck, Spheron, GPUPoet (RTX 5090 — 3352 AI TOPS FP4 sparse, пересчёт в dense: FP16 = 419, FP8 = 838, FP4 = 1676 TFLOPS); WareDB (RTX PRO 6000 Blackwell — FP16 dense = 500, пересчёт: FP8 = 1000, FP4 = 2000 TFLOPS); Leadtek (RTX PRO 6000 Blackwell — 4000 AI TOPS FP4 sparse).
Если смотреть на производительность, выраженную в количестве операций с плавающей точкой в секунду на заданной точности, видно: GPU поколения Blackwell жертвуют производительностью FP64 Tensor Core ради кратного ускорения в FP32 и ниже. B300 доводит эту логику до предела: его FP64 составляет всего 1.2 TFLOPS, зато FP4 — 15 PFLOPS.
Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.
Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.
Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса. RTX 6000 Blackwell с 96 ГБ ECC-памяти занимает уникальную нишу между рабочими станциями и серверными GPU: это единственная несерверная карта, способная запустить 70B-модель в FP8 на одном ускорителе.
Нужно ли обновляться?
«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.
Разворачиваете новую AI-инфраструктуру → Blackwell
Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).
По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.
Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.
Обновляете существующий парк H100 или H200 → гибридная стратегия
Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.
Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.
Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.
NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.
Тарифы
Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.
GPU |
₽/час |
₽/мес. |
Типовой сценарий |
|---|---|---|---|
Tesla V100 32 ГБ |
147 |
68 814* |
Компьютерное зрение, OCR, классический ML, рендер |
Tesla A100 40 ГБ |
155 |
72 410* |
Дообучение и инференс моделей до 7B, MIG, классический ML |
Tesla H100 80 ГБ |
686 |
321 157* |
Обучение трансформеров, инференс 13–70B |
Tesla H200 141 ГБ |
686 |
321 157* |
Инференс LLM 70B+, длинные контексты |
Tesla B200 180 ГБ |
1 123 |
525 559* |
Флагманские модели, HPC + AI |
Tesla B300 288 ГБ |
1 116 |
803 306 |
Инференс 100B+ с FP4, большой KV-кэш |
RTX 4090 24 ГБ |
100 |
72 061* |
Stable Diffusion, инференс до 13B |
RTX 5090 32 ГБ |
83 |
75 667* |
Инференс FP4 до 24B, рендер, Stable Diffusion |
RTX A6000 Ada 48 ГБ |
105 |
81 967* |
Промышленный инференс 13–30B, ECC |
RTX 6000 Blackwell 96 ГБ |
137 |
98 364* |
Инференс 70B в FP8 на одной карте, 96 ГБ ECC |
* Цена указана с учётом скидки. Актуальный прайс и условия.
Метрика эффективности
Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.
Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.
Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.
Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.
Почему аренда GPU в Cloud4Y выгоднее покупки
Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.
Капзатраты → операционные. При аренде вы платите только за реально использованные часы.
ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.
ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.
Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.
Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.
Заключение
Выбор GPU определяется не новизной карты, а стоимостью результата. Правильная формула: карта, у которой себестоимость единицы работы минимальна. Для моделей 70B+ — H200 или Blackwell. Для инференса 70B на одной карте без серверной инфраструктуры — RTX 6000 Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.
Cloud4Y даёт доступ ко всему диапазону: от V100 до B300 и RTX 6000 Blackwell, с почасовой оплатой и в рамках российского правового поля.
Чтобы подобрать сервер с GPU в аренду, перейдите по ссылке.
Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).
Комментарии (6)

Tirarex
22.04.2026 15:08Tesla V100 32 ГБ
68 814 р/мес
На 10к дороже чем купить Tesla v100/32гб с али, сразу с охлаждением.

Cloud4Y Автор
22.04.2026 15:08Интересное сравнение, но давайте разберёмся в деталях.
Во-первых, V100 с AliExpress — это, как правило, карта в исполнении SXM2 или SXM3, которая физически не вставляется в обычный сервер без специализированной платы. Под SXM2 ещё можно найти б/у платформы, а SXM3 использовался только в DGX-2 — найти под него что-то на вторичном рынке практически нереально. «С охлаждением» в таких объявлениях означает кустарный радиатор с вентилятором, прикрученный к голой плате, — без него карта уходит в троттлинг за минуты. Это не серверное охлаждение, не электричество и не инфраструктура.
Во-вторых, в тариф 68 814 ₽/мес входит не голая карта, а готовое рабочее место: GPU + CPU + RAM + NVMe-хранилище + сетевой канал + электричество + охлаждение ЦОД + мониторинг + техподдержка + сертификации ФЗ-152/ФЗ-187. Сравнивать это с ценой карты на маркетплейсе — всё равно что сравнивать стоимость аренды офиса со стоимостью стула.
Если у вас есть ссылка на V100 32 ГБ за 58 тыс. ₽ — будем признательны, поделитесь. Мы проверили — такого предложения не нашли.

Tirarex
22.04.2026 15:08Во-первых, V100 с AliExpress — это, как правило, карта в исполнении SXM2 или SXM3, которая физически не вставляется в обычный сервер без специализированной платы.
Вы не в курсе рынка. Китайцы уже давно сделали переходную плату SXM<> PCIE X16, стоит копейки.
«С охлаждением» в таких объявлениях означает кустарный радиатор с вентилятором, прикрученный к голой плате
И тут вы не в курсе. Есть готовые наборы PCIE паереходника + Турбинное охлаждение. Есть даже киты с трехвентиляторным охлаждением как на обычных домашних видеокартах типа RTX4090. Огромные 3U радиаторы тоже продаются. Если не хочется воздух то есть готовые водоблоки.

Их полно на али и на озоне, купить там не проблема. Модули 16гб стоят всего 10-11 тысяч рублей. Голый модуль на 32гб от 40к.
Люди любят это железо как раз за очень низкую цену. Карта 2017 года, сейчас EOL, долгое время стоила в 2 раза дешевле так как вообще никому не нужна была. Сейчас же ее берут энтузиасты, так как все еще относительно дешево и много памяти, но ни в какое сравнение с современными гпу она уже не идет.
Во-вторых, в тариф 68 814 ₽/мес входит не голая карта, а готовое рабочее место: GPU + CPU + RAM + NVMe-хранилище + сетевой канал + электричество + охлаждение ЦОД + мониторинг + техподдержка + сертификации ФЗ-152/ФЗ-187.
Было бы круто если бы вы писали какие железо там кроме карты. На сайте по ссылке написано " 16 vCPU+ 64 RAM" но что это? 16 ядер старого зеон 2698 V3 и 64гб ддр? Или свежий тредриппер с ддр 5 памятю?
Сравнивать это с ценой карты на маркетплейсе — всё равно что сравнивать стоимость аренды офиса со стоимостью стула.
А вы по ту сторону посмотрите. Крупные ребята типа яндекса и сбера, могут сами купить нормальные карты а не платить за аренду. Мелкие ребята могут купить V100 и учить/гонять модели дома/в офисе на обычном железе и домашнем интернете, потратив 1 раз столько, сколько вы просите за месяц.
В целом, я не представляю бизнес, который вот жить не быть хочет взять в аренду карту из 2017 года.
зы.
Что за интересная RTX 5090 24 ГБ у вас в табличке? Сами Nvidia знают что у них вместо 32гб появился новый SKU? Конечно есть ноутбучная версия на 24гб, но мне кажется это явно не про датацентр.

Cloud4Y Автор
22.04.2026 15:08Спасибо за развёрнутый комментарий, по делу.
Про переходники SXM → PCIe и охлаждение — вы правы. Некоторые переходные платы и турбинные кулеры действительно доступны и стоят недорого. Для энтузиаста, который готов собрать рабочую станцию своими руками, V100 — разумный вариант. Не спорим.
Наш сервис — про другое. Это готовая инфраструктура enterprise-класса с SLA, мониторингом 24/7 и сертификациями для бизнеса, которому нужно запустить задачу сегодня и не нарушить закон 152-ФЗ. Мы регулярно мониторим рынок и держим цены ниже основных облачных конкурентов. Но да, с вашим подходом мы не конкурируем — целевая аудитория разная, и оба сценария имеют право на жизнь.
По RTX 5090 24 ГБ: ошибка в описании конфигурации, спасибо, что заметили. Конечно, 32 ГБ — уже исправили.
MaxAkaAltmer
Пишите, если кому доступ нужен - мне и полтоса хватит )))Хотя нет - сейчас лето на носу - жарко будет от них ))