Эпоха универсальных CPU закончилась: как выбрать между P- и E-ядрами Xeon 6 / forpes.ru

Главная
Эпоха универсальных CPU закончилась: как выбрать между P- и E-ядрами Xeon 6

Эпоха универсальных CPU закончилась: как выбрать между P- и E-ядрами Xeon 6 +27

26.11.2025 08:00

Maksvelis 0 814 Источник

Привет! На связи Максим Башмаков. Мы в Selectel производим, собираем и внедряем в продакшен серверы на Intel^® Xeon^® 6, используя обе архитектуры: P-ядра (Granite Rapids) и E-ядра (Sierra/Clearwater Forest). Я руковожу лабораторией тестирования «железа», и наша задача — выявлять истинные характеристики оборудования, которые, как показывают наши исследования, далеко не всегда совпадают с маркетинговыми заявлениями вендоров.

Представляем вашему выжимку нашего практического опыта работы с реальными серверными нагрузками, подкрепленную результатами тестов и выводами.

Содержание
→ История Xeon® 6
→ Применимость
→ Зачем вообще Intel «разделил» Xeon® 6
→ Куда смотрят облака
→ Почему универсальные CPU перестали быть оптимальными
→ Типовые ошибки при выборе сервера или CPU
→ Бенчмарки
→ Заключение

*Тестирование PCIe Gen 5 на нашей платформе.*

История Xeon® 6

Начнем с небольшой предыстории. Первыми на рынок вышла архитектура Intel Sierra Forest — процессоры Intel^® Xeon^® 6 на базе E-ядер (Efficiency Cores). Их ключевое отличие от предыдущих поколений Xeon^® — отсутствие Hyper-Threading и поддержки инструкций AVX-512. В технические подробности углубляться не станем, вся информация есть в официальных спецификациях Intel.

Процессоры Xeon^® 6 с E-ядрами позиционируются как энергоэффективные решения, оптимизированные под высокую плотность вычислений. Ориентированы они на нагрузки, не требующие максимальной производительности на один поток.

Типичные примеры таких задач:

микросервисы и приложения в контейнерах;
облачные и edge-платформы;
веб-сервисы, CDN и кэширование;
сетевые и коммуникационные задачи.

Бизнес-требования, под которые Intel создавала эту серию, продиктованы в первую очередь экономикой современных ЦОД.

Ключевая цель — снижение совокупной стоимости владения (TCO). Достигается она прямым путем: за счет значительной экономии электроэнергии и, как следствие, снижения затрат на охлаждение.

Вторая, тесно связанная с этим, задача — высокая плотность развертывания. Возможность разместить до нескольких сотен ядер в одном сервере критически важна для дата-центров, так как позволяет максимально эффективно использовать дорогое пространство в стойках. Такая плотность, в свою очередь, обеспечивает масштабируемость, необходимую для облачных и распределенных сред.

Наконец, эти процессоры должны быть универсальными для типовых веб-сервисов. Тот факт, что в них отсутствует поддержка AVX-512 (расширенных векторных вычислений) — осознанный компромисс. Предполагается, что для целевых нагрузок этот недостаток с избытком компенсируется огромным количеством доступных ядер.

Таким образом, наш вывод: Xeon^® 6 на E-ядрах лучше всего подходит для инфраструктуры, где приоритет отдается плотности, энергоэффективности и простоте масштабирования. Именно с этими процессорами мы анонсировали свою новую серверную платформу, и результаты нашего тестирования, о которых пойдет речь далее, оказались весьма позитивными.

Следом мы ждали релиза P-ядер (Performance Cores), известных под кодовым названием Granite Rapids. В отличие от E-ядер, P-ядра ориентированы на максимальную производительность в расчете на одно ядро и поддержку сложных вычислительных инструкций.

Основные отличия P-ядер от E-ядер:

поддержка Hyper-Threading;
наличие AVX-512 и AMX (Advanced Matrix Extensions), что критически важно для задач ИИ, машинного обучения и высокопроизводительных вычислений (HPC);
более высокая тактовая частота и увеличенные объемы кэш-памяти.

Собственный сервер Selectel

В основе — самые современные процессоры Intel^® Xeon^® 6, до 8 ТБ DDR5 и специально разработанная материнская плата. Арендуйте сервер у нас или закажите в свой дата-центр.

Узнать подробности →

Применимость

Модели Intel^® Xeon^® 6 с P-ядрами — решения, созданные для самых требовательных и критически важных корпоративных нагрузок. С точки зрения бизнеса, они отвечают трем ключевым требованиям:

максимальной производительности на каждое отдельное ядро;
полной поддержке современных инструкций для ИИ и машинного обучения;
гибкости масштабирования.

Эти требования напрямую определяют их сферу применения:

HPC — поддержка инструкций AMX и AVX-512 делает их основным выбором для этой цели;
облачные вычисления;
аналитика больших данных и обучение нейросетей;
виртуализация корпоративного уровня, где скорость отклика каждого виртуального ядра имеет первостепенное значение;
бизнес-критичных приложения, требующие высокой и однопоточной, и многопоточной производительности — например, СУБД.

Таким образом, процессоры Xeon^® 6 с P-ядрами — решения для самых требовательных корпоративных и научных вычислений. В этом сегменте производительность, масштабируемость и поддержка современных технологий важнее энергоэффективности.

Рынок был уверен, что P-ядра окажутся безоговорочно мощнее и будут опережать E-ядра по всем показателям. Однако результаты наших тестов показали, что реальная картина гораздо интереснее.

Да, P-ядра мощнее в расчете на поток и предназначены для тяжелых вычислений. Тем большим сюрпризом для нас стало то, что в ряде сценариев СУБД E-ядра обгоняют P-ядра — на реальных нагрузках и даже в небольшом числе синтетических тестов.

Поначалу это выглядело «странно». Мы пересобирали тесты, меняли методики, проводили глубокое профилирование и в итоге разобрались. Удалось выявить, в каких конкретно сценариях E-ядра выигрывают, а где P-ядра остаются абсолютно незаменимыми из-за более быстрых кешей, пропускной способности памяти или поддержки специфических инструкций.

Считаем, что этот материал станет хорошим руководством при выборе сервера, особенно при столкновении с такой задачей впервые.

Профессионалы, конечно, прогонят собственные бенчмарки перед покупкой или арендой. Однако они могут не заметить колоссальную разницу между «ветками» Intel^® Xeon^® 6, если не проведут такое же глубокое профилирование, как мы. Поэтому мы предоставляем клиентам максимально подробную информацию о тестируемом железе.

Наша цель — показать узкие места современных CPU и помочь бизнесу сделать осознанный выбор сервера под конкретную нагрузку, будь то:

OLTP или OLAP;
key-value хранилища или кэши;
стриминг;
пре- и постобработка, а также сборка данных для AI;
задачи компрессии и шифрования;
сетевые сервисы и т. п.

*Продакшн‑сервер Selectel с двумя GPU RTX A5000.*

Зачем вообще Intel «разделил» Xeon® 6

Исторически процессоры Xeon^® были универсальными. Один и тот же CPU предназначался и для баз данных, и для виртуализации, и для микросервисов. Однако с ростом масштабов облачных платформ и изменением профиля нагрузок стало очевидно, что универсальность — это компромисс. Такой подход приводит к потере эффективности по двум ключевым параметрам: по производительности на ватт и совокупной стоимости владения (TCO).

Центры обработки данных, такие как AWS, Google Cloud, Azure, Alibaba Cloud, столкнулись с радикальной диверсификацией нагрузок. В одном кластере работают высокопроизводительные инстансы ИИ, а рядом — тысячи микросервисов в контейнерах, которые большую часть времени простаивают или потребляют доли ядра. Использовать для этих полярных задач один и тот же тип CPU — крайне неэффективно.

Intel отреагировала на возникший запрос, разделив линейку Xeon^® 6 на две специализированные ветви:

Sierra Forest (E-ядра) — для массовых, параллельных и энергоэффективных задач;
Granite Rapids (P-ядра) — для нагрузок, требующих максимальной производительности на поток и поддержки сложных инструкций, таких как AVX-512 или AMX.

Такое разделение позволило, наконец, оптимизировать платформу под конкретные сценарии, а не под «среднюю температуру по больнице».

Куда смотрят облака

Современные hyperscale-компании давно измеряют эффективность не в гигагерцах, а в ваттах на один запрос. В этой экономической модели приоритет отдается не пиковой скорости, а четырем ключевым метрикам:

производительности на ватт (Perf/Watt);
совокупной стоимости владения (TCO);
плотности размещения ядер в стойке;
гибкости подбора ресурсов под конкретный тип нагрузки.

Именно поэтому облачные провайдеры, такие как Google, AWS, Azure, уже перешли на гибридные кластеры. В таких средах ресурсы подбираются не по количеству ядер, а по их типу и TDP-профилю, что позволяет достичь оптимального баланса цены, энергопотребления и производительности.

Почему универсальные CPU перестали быть оптимальными

Раньше универсальный серверный CPU был удобен: одна архитектура, одна платформа, меньше сложностей при интеграции. Однако по мере роста масштабов дата-центров и усложнения нагрузок стало очевидно, что такой «универсальный» подход — прямой перерасход ресурсов.

Он по своей природе является компромиссом:

для легких сервисов слишком мощен и энергозатратен;
для тяжелых вычислений, наоборот, не хватает поддержки специфических инструкций или высокой тактовой частоты.

В масштабах hyperscale-инфраструктуры этот компромисс выливается в огромную сумму переплаты за электроэнергию и охлаждение.

Именно поэтому рынок движется к специализации. Теперь разные типы ядер и даже разные архитектуры — x86, ARM, RISC-V — работают в общей экосистеме. Такой подход позволяет оптимизировать каждый тип нагрузки по его собственному, ключевому параметру эффективности.

*6710E на родной удерживающей подложке.*

Типовые ошибки при выборе сервера или CPU

Даже в крупных IT-инфраструктурах до сих пор распространен ошибочный подход к выбору серверов. Решения часто принимаются по инерции, по принципу «больше — значит, лучше», без предварительного анализа характера нагрузки.

Ошибка №1: «Главное — количество ядер»

— Вот возьмем побольше ядер, частоту и… будет быстрее.
— А вот и нет!

Это одно из самых устойчивых заблуждений в индустрии. Количество ядер, безусловно, важно, но производительность крайне редко масштабируется с ними линейно.

Во множестве реальных сценариев — будь то веб-приложения, API, базы данных, ETL-пайплайны или аналитика — прирост скорости упирается не в число доступных потоков. Настоящим «бутылочным горлышком» становятся:

пропускная способность памяти (Memory Bandwidth),
задержки при межъядерном взаимодействии (inter-core latency),
задержки при межсокетном взаимодействии,
ограничения со стороны дисковой подсистемы (I/O) или сети,
программные блокировки (locks) внутри самого приложения.

Ошибка №2: «Главное — мощность»

— Так все равно же выгрузим данные в GPU!
— Но CPU-часть кластера по‑прежнему останется узким местом.

Часто выбор делают, глядя только на «бумажные» спецификации: тактовую частоту, объем кеша и TDP.

Однако такой подход игнорирует реальный профиль нагрузки, энергоэффективность и долгосрочные затраты. В результате компания легко переплачивает за избыточный запас мощности, который в итоге никогда не будет востребован.

Вывод: правильный подход — это подбор CPU под конкретный SLA и тип задачи, а не «по принципу запаса». Например, для микросервисов мы берем энергоэффективные E-core. Для AI и аналитики — производительные P-core. А для смешанных сценариев — сбалансированные гибридные платформы.

Как избежать

Современный CPU — это не просто «коробка с ядрами», а сложный специализированный компонент, интегрированный во всю экосистему дата-центра.

Ошибка в выборе такого процессора обходится бизнесу дороже, чем кажется. Речь идет не о его закупочной стоимости, а о потерянной эффективности и возникновении «бутылочных горлышек» на уровне всего кластера.

Снижаем цены на выделенные серверы в реальном времени

Успейте арендовать со скидкой до 35%, пока лот не ушел другому.

Подробнее →

Бенчмарки

Изучив спецификации, мы, разумеется, ожидали увидеть колоссальную разницу в профилях применения этих процессоров. Результаты тестирования удивили:

Модель	Ядра / Потоки	Баз. / Турбо (GHz)	L3 (MB)	TDP (W)	RRC цена
6520P	24 / 48	2,40 / 4,00	144	210	1 295 $
6530P	32 / 64	2,30 / 4,10	144	225	2 234 $
6740P	48 / 96	2,10 / 3,80	288	270	4 650 $
6760P	64 / 128	2,20 / 3,80	320	330	7 803 $

Модель	Ядра / Потоки	Баз. / Турбо (GHz)	L3 (MB)	TDP (W)	RRC цена
6710E	64 / 64	2,40 / 3,20	96	205	2 199 $
6731E	96 / 96	2,20 / 3,10	96	250	3 297 $
6746E	112 / 112	2,00 / 2,70	96	250	4 447 $
6756E	128 / 128	1,80 / 2,60	128	225	6 320 $

Первоначальное рыночное предположение казалось очевидным: P-ядра — это премиальный продукт, а значит, они должны быть безоговорочно лучше во всем. Наши тесты показали, что это фундаментальное заблуждение.

Для тестов мы использовали двухсокетные серверы Selectel в двух конфигурациях:

2x Xeon^® 6710E (E-cores): 128 ядер / 128 потоков (на графиках — сиреневый),
2x Xeon^® 6530P (P-cores): 64 ядра / 128 потоков (на графиках — зеленый).

Результаты на реальных приложениях сразу показали неожиданную картину. Вопреки ожиданиям, P-ядра (6530P) значительно уступили по всем бенчмаркам E-ядрам (6710E). Изначально это выглядело нелогично, но дальнейшее исследование прояснило общую картину.

*Стороны гексагона обозначают типы/виды application-бенчмарков: PSQL, MySQL, Nginx, MongoDB.*

В синтетических тестах все было наоборот и соответствовало привычной логике: чем выше частота и дороже процессор (P-core), тем лучше результат. Эта предсказуемость в «синтетике» лишь подчеркнула аномалию, выявленную на реальных нагрузках.

На следующей иллюстрации сравниваем две конфигурации:.

2x Xeon^® 6710E (E-cores): 128 ядер и 128 потоков (сиреневый график);
2x Xeon^® 6530P (P-cores): 64 ядра и те же 128 потоков (зеленый график).

*Стороны гексагона обозначают типы/виды синтетических бенчмарков: Geekbench 5−6, specCPU — multi-core, single-core.*

Синтетические бенчмарки действительно показали преимущество P-ядер, однако оно оказалось не таким решающим, как можно было ожидать.

Такой поворот заставил нас идти дальше. Мы углубились в анализ специфики реальных нагрузок и конкретных сценариев применения, чтобы понять, как процессоры поведут себя за рамками «синтетики».

Наши тесты выявили сферу, где P-ядра абсолютно доминируют и не имеют альтернатив — задачи ML и HPC. Благодаря поддержке инструкций вроде AVX-512 и AMX, которых нет у E-ядер, мы зафиксировали 20‑кратное преимущество в производительности. Такой разрыв особенно впечатляет, если учесть, что 48 P-ядер опередили топовый 112-ядерный E-core (модель 6746E).

*Производительность Xeon® 6747P и Xeon® 6746E.*

На диаграмме выше — сравнение масштабируемой производительности двухпроцессорных конфигураций Xeon^® 6747P и Xeon^® 6746E. Рабочие нагрузки — самые разные: криптография, кодирование видео, архивирование, Blender и Java. Хорошо видна разница в специализации ядер.

P-ядра показывают доминирование во всех задачах, чувствительных к частоте и однопоточной производительности:

на 230% — ускорение криптографических алгоритмов OpenSSL, таких как RSA, ChaCha20, AES-GCM;
на 90−150% — кодирование видео SVT-AV1;
на 47% — архивирование при работе с 7-Zip;
на 12−22% — Blender.

E-ядра в тех же задачах оказываются ближе к базовой линии и уступают по интенсивным рабочим нагрузкам, которые требуют высокой тактовой частоты либо производительных блоков AVX-512.

Таким образом, P-серия нацелена на высокопроизводительные вычисления, а E-серия — на энергоэффективность и массовый параллелизм.

E-ядра, как мы видели, показывают превосходные результаты в работе с базами данных. Для таких сценариев — например, высоконагруженных OLTP-сервисов — мы рекомендуем выбирать именно эту архитектуру.

*Ускорения в ML‑задачах — Xeon® 6746E и Xeon® 6747P.*

На диаграмме выше — сравнение ускорения в задачах машинного обучения при использовании Llama.cpp и BLAS-оптимизаций для моделей Llama, Granite и Mistral на двухпроцессорных системах Xeon^® 6746E и Xeon^® 6747P.

Тестирование показывают колоссальный отрыв модели 6747P в задачах BLAS. Прирост производительности относительно базовой линии — от 900% до 2 300%. Столь внушительные цифры подтверждают безоговорочное превосходство P-ядер в бенчмарках машинного обучения, основанных на линейной алгебре.

Высокие результаты в тестах обеспечены благодаря реализации BLAS, которая максимально эффективно задействует исполнительные ресурсы процессора 6747P. Ключевую роль здесь сыграли архитектурные преимущества модели: наличие широких векторных блоков и высокая пропускная способность каждого ядра.

Лидерство модели 6747P во взятых сценариях объясняется эффективной реализацией наборов инструкций AVX и AMX, которые обеспечивают аппаратное ускорение вычислений.

В данной выборке ML-бенчмарков P-ядра имеют неоспоримое преимущество при ускорении вычислений, интенсивно использующих библиотеки BLAS. Напротив, E-ядра в показывают значительно меньшую эффективность, проигрывая в производительности при той же стоимости.

Заключение

Чем дальше индустрия движется в сторону AI и ML, тем менее жизнеспособной становится идея «универсального» процессора. Попытка купить один тип CPU для всего дата-центра — локального или облачного — теперь означает гарантированный перерасход бюджета или потерю эффективности.

Правильный подбор специализированного железа под конкретную задачу становится не просто оптимизацией, а экономической необходимостью. Такой подход позволяет не только получить максимальную производительность там, где она нужна, но и значительно сэкономить, так как P-ядра ощутимо дороже E-ядер.

Надеемся, что наше небольшое исследование поможет компаниям точнее определять профиль своей нагрузки и подбирать под нее оптимальный CPU. Такой подход позволяет не только сэкономить миллионы на электроэнергии, но и повысить общий КПД своих дата-центров.