Для рядового пользователя ЦОД — это место, где хранятся фотографии и обрабатываются запросы ИИ-помощников. Однако это сложнейший инженерный организм, функционирующий на стыке термодинамики, электротехники, гидравлики и цифровой логики. Под катом попробую за одну статью объяснить вам логику работы дата-центров и рассказать, что вообще означают магические Tier. 

Непростое здание — ЦОД

Дата-центр — это специализированные помещения. Точнее, это специализированное здание с этими помещениями. И ещё точнее, это специализированная территория, на которой всё заточено под стабильную работу оборудования.

Здесь не ограничиваются рядами стоек серверов. На территории ЦОДа есть свои кабельные трассы, инженерные зоны, высоковольтные вводы, насосные и машинные комнаты, резервные источники питания, контуры охлаждения, системы связи, безопасности и пожаротушения. Все эти элементы входят в базовую конфигурацию и определяют, может ли площадка называться дата-центром.

Дальше попробую объяснить, как вообще работают эти цифровые левиафаны, а в конце материала «поясню» за Tier.

Сердце дата-центра

Если представить ЦОД как живой организм, то электричество — это кровь, которая должна поступать к органам (серверам) непрерывно, с идеальными параметрами напряжения и частоты, независимо от внешних катаклизмов. 

В сердце системы гарантированного питания идёт нескончаемый спор между статическими преобразователями (ИБП) и дизель-роторными установками (также ИБП). Выбор между ними определяет не только бюджет, но и архитектура здания, системы вентиляции и регламенты обслуживания: 

  • Статические ИБП — это классическое решение, знакомое каждому сисадмину, но масштабированное до промышленных размеров. В них реализован принцип двойного преобразования, который подразумевает выпрямление переменного тока в постоянный (AC/DC) для зарядки батарей и обратное инвертирование (DC/AC) для питания нагрузки. Не буду раскрывать все преимущества и недостатки, их главная проблема — аккумуляторы. Они занимают огромные площади, чувствительны к температуре и требуют замены каждые 5-7 лет. Проблему решают через Li-Ion, но мигрировали ещё не все. 

  • Дизель-роторные ИБП — это инженерный шедевр тяжёлого машиностроения, объединяющий функции ИБП и дизель-генератора. Вместо химических батарей в них используется массивный маховик, вращающийся в вакууме или среде гелия для снижения трения. За счёт огромной инерции вращающихся масс такой ИБП работает как идеальный фильтр, «сглаживая» любые гармонические искажения и скачки напряжения из городской сети. Кроме того, он позиционируется как «зелёное решение», ведь нет свинца и кислоты. 

Характеристика

Статический ИБП (свинцово-кислотный или литий-ионный)

DRUPS (Дизель-роторный)

Принцип накопления энергии

Электрохимический (батареи)

Кинетический (маховик)

Время автономности без ДГУ

5-30 минут (масштабируемо)

15-20 секунд (только на запуск дизеля)

Занимаемая площадь

Большая (нужны отдельные аккумуляторные)

Большая: сами ИБП + отдельные аккумуляторные помещения (в зависимости от емкости)

Обслуживание

Замена батарей (OpEx), контроль ёмкости

Механическое ТО дизеля и подшипников

Влияние температур

Требует охлаждения батарей (строго 20-25°C)

Рабочий температурный диапазон от +5°C до +40°C (зависит от модели и требований производителя)

Отказоустойчивость

Множество точек отказа (ячейки батарей)

Простая, но критичная механика

Проектирование системы электроснабжения начинается задолго до закладки фундамента и требует филигранного баланса между надёжностью и эффективностью. Надёжность не берётся из воздуха, в её основе лежит теория вероятностей. Ни один компонент не вечен, поэтому инженеры оперируют топологиями резервирования. 

Топология N

Прежде чем обсуждать их, нужно разобраться с отправной точкой — N. Это минимальная мощность, которая требуется ЦОД, чтобы тянуть свою ИТ-нагрузку в полном объеме.

Если площадка работает на четырех ИБП, то N и есть эти четыре. В N нет никакого запаса, только голая необходимость, поэтому любое обслуживание, сбой модуля или случайный отказ — и все останавливается. 

Топология N+1

Это стандарт для коммерческих ЦОД (Tier III). К необходимому количеству модулей (N) добавляется один запасной (+1). Если нагрузку несут 3 модуля ИБП (N=3), то устанавливается 4-й. При выходе из строя любого из них, нагрузка мгновенно и бесшовно перераспределяется между оставшимися. 

Отмечу, N+1 защищает от отказа компонента, но не всегда защищает от отказа пути распределения. Если 4 ИБП работают на одну общую шину, и эта шина сгорает — резервирование модулей не спасет. 

Топология 2N 

«Золотой стандарт» для критически важных объектов (Tier IV). Здесь дублируются не просто компоненты, а целиком системы. В этом случае существуют два полностью независимых луча питания (А и Б), каждый из которых способен нести 100% нагрузки объекта. Они физически разнесены, подключены к разным ячейкам главного распределительного щита и часто даже питаются от разных трансформаторов. 

Это решение, конечно, удваивает капитальные затраты, но обеспечивает «параллельное обслуживание». Например, в ЦОД можно полностью отключить, разобрать и заменить всю ветку А, пока ветка Б питает серверы. 

Топология 2N+1

Вершина инженерной паранойи, применяемая в банковском секторе и стратегических государственных ЦОД. Это архитектура, где существуют две независимые системы (2N), и внутри каждой из них реализовано модульное резервирование (N+1). 

Такая система способна пережить «идеальный шторм», например, плановое отключение луча А на обслуживание и одновременный внезапный выход из строя модуля ИБП в работающем луче Б. 

Все это обеспечивает отказоустойчивость, но стоимость реализации (CAPEX) и обслуживания (ОРЕХ) здесь максимальная. Ведь нужно на что-то содержать огромный парк простаивающего «железа».

Идем дальше.

Шинопровод против кабеля

Когда энергия очищена и зарезервирована, её нужно доставить к стойкам. Традиционные кабельные лотки, напоминающие сплетения чёрных змей под фальшполом, уступают место модульным шинопроводам.

Шинопровод — это, по сути, медная или алюминиевая рельса в защитном кожухе, проходящая над рядами стоек. Её главный плюс в том, что подключение новой стойки занимает минуты. Электрик просто вставляет ответвительную коробку в разъём шинопровода, не отключая всю линию. 

В кабельной системе для добавления новой мощности нужно прокладывать новый кабель от щита распределения через весь зал, вскрывать фальшпол и монтировать розетки, что дорого и долго.

Кстати, шинопроводы обладают лучшими характеристиками по падению напряжения и реактивному сопротивлению на высоких токах. При нагрузках выше 1000А использование параллельных кабелей становится кошмаром монтажника и создаёт риски неравномерного распределения токов. 

Шинопровод компактнее и не препятствует воздушным потокам под фальшполом (если используется такая схема охлаждения — об этом в следующем разделе).

Почему кремний не плавится

Охлаждение — вторая по важности подсистема ЦОДа, потребляющая до 40% всей энергии объекта. Задача системы охлаждения сводится не к тому, чтобы «генерировать холод», а к тому, чтобы эвакуировать тепловую энергию, выделяемую процессорами, за пределы здания. 

Фреоны, фрикулинг и адиабатика

Традиционные фреоновые кондиционеры (DX-системы), работающие как домашний холодильник, ушли в прошлое из-за чудовищной неэффективности. 

В современных ЦОДах применяется фрикулинг — использование наружного воздуха для охлаждения теплоносителя. Традиционно он делится: 

  • на прямой фрикулинг, где наружный воздух фильтруется и подаётся прямо в машзал;

  • косвенный фрикулинг, где наружный воздух охлаждает внутренний контур через теплообменник воздух-воздух, не смешиваясь с ним. 

Есть и адиабатическое охлаждение. Оно тоже потихоньку уходит в прошлое, потому что использует испарение воды. Когда вода испаряется, система поглощает энергию из воздуха, снижая его температуру.

Жидкостное охлаждение

Воздух как теплоноситель имеет низкую теплоёмкость. Для охлаждения стойки мощностью 100 кВт (например, с серверами NVIDIA для обучения ИИ-шки) потребовался бы ураганный поток воздуха, который физически невозможно прокачать через сервер. Поэтому индустрия переходит на жидкость.

В этом случае вода или специальный хладагент подаётся по трубкам прямо к самым горячим элементам — CPU и GPU. На них устанавливаются медные водоблоки, поэтому жидкость забирает 70–80% тепла. Остальные компоненты (память, VRM, диски) охлаждаются воздухом. 

Есть и другой вариант — иммерсионное охлаждение. В этом случае сервер целиком погружается в ванну с диэлектрической жидкостью. Она контактирует со всеми компонентами напрямую, обеспечивая идеальный теплосъём. Делится такое охлаждение на однофазное и двухфазное. На этом моменте можно переходить к внутрянке. 

Внутренние органы ЦОДа

В ЦОДе обычно десятки коммутаторов и маршрутизаторов, которые нередко работают в кластере. Отказ одного узла мгновенно переводит трафик на соседний. Кроме того, дата-центр подключается к нескольким интернет-провайдерам — при отключении одного, остальные автоматически подхватывают трафик. По сути, дублируются и коммутаторы, и маршрутизаторы, и даже DNS-службы.

Оптическая инфраструктура

Внутри дата-центра используются два основных типа оптоволокна. Выбор между ними влияет на стоимость и дальность передачи данных:

  • Single Mode (SM, обычно жёлтый кабель) — имеет тонкое ядро (9 микрон), в котором лазерный луч идёт по прямой без отражений. Он используется для дальних связей (между зданиями, городами) и всё чаще внутри машзалов для скоростей 100G/400G. Однако требует более дорогих трансиверов.

  • Multi Mode (MM, стандартно, бирюзовый OM3/OM4) — имеет толстое ядро (50 микрон). Световой сигнал в нём идёт, отражаясь от стенок («модами»). В этом случае трансиверы дешевле, но дальность ограничена (до 100-150 метров для высоких скоростей). 

Ещё есть фиолетовый — OM4/OM5, но используется он там, где нужна высокая плотность и длинные рабочие дистанции на скоростях 40/100/200G. Внутри кабеля по-прежнему сердцевина 50 микрон, но сама линия рассчитана на работу с несколькими длинами волн (особенно в случае OM5). 

Нейтральная полоса интернета

Многие полагают, что интернет «заходит» в каждый сервер отдельно. На самом деле, сердцем связности любого коммерческого ЦОДа является «комната ввода» (Meet-Me-Room). Это специально защищённое помещение, куда физически заводятся магистральные оптоволоконные кабели от внешних провайдеров. В MMR стоят большие оптические кроссы — на них сходятся и подключаются тысячи волокон.

Газ вместо воды

В серверных залах вода — это табу. Водяное тушение существует только как «последний рубеж» для спасения здания, когда оборудование уже потеряно. Для защиты электроники используются системы газового пожаротушения.

В них используется «сухая вода» (Novec 1230) или гептафторпропан (FM-200), которые при выпуске из форсунок мгновенно превращаются в газ и поглощают тепло из очагов возгорания. 

Для людей они безопасны, но FM-200 влияет на глобальное потепление. Novec 1230 безопасен для природы, но недавно компания 3M объявила о сворачивании его производства из-за проблем с «вечными химикатами» в процессе синтеза.

Сейчас индустрия ищет альтернативы. Уже тестируются инертные газы или системы тонкораспылённой воды высокого давления, которая создаёт туман.

Мозг и нервная система ЦОДа 

Чтобы управлять тысячами устройств, требуется централизованная система (BMS), система управления инфраструктурой (DCIM) и иное ПО.

Modbus vs. BACnet

В недрах ЦОДа «зоопарк» оборудования общается на разных языках: 

  • Modbus — старейший промышленный протокол, который используется для опроса «железа» (счётчиков электроэнергии, ИБП, дизель-генераторов и датчиков протечки). Он идеально подходит для быстрой передачи сырых данных, но требует жёсткой настройки адресации.

  • BACnet — протокол, созданный ASHRAE специально для автоматизации зданий. Он используется для управления сложными системами климата (чиллеры, кондиционеры, вентиляция), где важна логика взаимодействия, расписания и сложные типы данных.

Есть и другие SNMP (почти всегда используется для сетевого оборудования и части ИБП), LONWorks (в старых системах охлаждения), OPC (в крупных SCADA-системах) и IPMI/Redfish (ближе к серверной части).

В свою очередь, BMS собирает данные по Modbus с электрики и по BACnet с климата, сводя всё в единый диспетчерский пункт на экраны SCADA-систему (ПАК для диспетчерского управления и сбора данных в реальном времени).

DCIM же объединяет все компоненты ИТ-инфраструктуры на одной платформе и предоставляет информацию для принятия решений

Иное ПО 

Также есть ПО для сети и связности, дополнительные системы для мониторинга, ПО для поддержки/эксплуатации (ITSM, CMDB), ПО для управления нарядами/доступами/обходами и т. д. 

На всякий случай отмечу, что на уровне вычислений сервисы часто запускают в виртуальных машинах или контейнерах с миграцией.

Перейдём к Tier. 

Магический Tier

Для начала отмечу, что Tier, как ни странно, не является аббревиатурой, а считается «уровнем». Если коротко, тут всё легко понять — чем выше уровень, тем больше резервирования и тем меньше вероятность простоя, но и тем дороже. Разберём каждый отдельно: 

Tier I — это базовая мощность. Тут нет никакого резервирования (N) и есть только один путь для питания и охлаждения. В этом случае допустим простой до 28,8 часов в год (99,671%). Грубо говоря, это маленькая серверная, где всем правит один бородатый сисадмин.

Tier II — это резервирование компонентов (N+1). Тут появляется запасной генератор, лишний чиллер или модуль ИБП. Путь распределения всё ещё один, и если сгорит главный кабель или труба с водой — резервные генераторы не помогут, так как энергию не по чему передать. Это уже большая серверная с допустимым простоем до 22 часов в год (99,741%).

Tier III — полноценный ЦОД с параллельным обслуживанием. Любой компонент инфраструктуры такого дата-центра (генератор, ИБП, щит, кабель или трубу) можно вывести в ремонт, заменить или обслужить без остановки работы серверов. Обычно реализуется через топологии N+1 с двойным вводом в стойку или 2N. Допустим простой до 1,6 часа в год (99,982%).

Tier IV — отказоустойчивый дата-центр (вроде как в России такой появился в 2024 году). В этом случае система ЦОДа должна пережить любую единичную аварию (пожар в отсеке, затопление, взрыв батареи, разрыв кабеля экскаватором) без какого-либо влияния на ИТ-нагрузку. Допустимый простой в этом случае — до 26 минут в год (99,995%). 

Уровень

Резервирование

Пути дистрибуции

Ключевое свойство

Допустимый простой/год

Tier I

N

1

Базовая ёмкость

~29 часов

Tier II

N+1 (компоненты)

1

Резерв «железа»

~22 часа

Tier III

N+1 (система)

1 активный, 1 пассивный

Обслуживание без остановки

~1.6 часа

Tier IV

2N / 2N+1

2 активных

Отказоустойчивость

~26 минут

О том, сколько стоит девятка в аптайме, уже рассказал тут

Вместо заключения

Как вы уже поняли, дата-центр — это отдельная территория со своей инженерной средой, способная не только «хранить» серверы, но и обеспечивать аптайм. Конструкция ЦОДа требует серьёзных ресурсов (и не только финансовых) на этапе строительства и постоянных усилий в эксплуатации. Отсюда и появляется необходимость разделять их по классам надёжности.

Безусловно, всё о работе ЦОД в одной статье рассмотреть тяжело, поэтому прошу не писать в комментариях, что автор «важное не отметил». Лучше пишите, о чём ещё стоит рассказать — может, есть какие-то животрепещущие темы или вопросы.

© 2025 ООО «МТ ФИНАНС»

Комментарии (0)