
Каждый год объем корпоративных данных растет процентов на 30–40, а к 2028 году глобальная сфера данных, по прогнозам IDC, достигнет почти 400 зеттабайт. Проблема в том, что большинство этих данных нельзя просто выкинуть. Логи нужны для аудита, датасеты для переобучения моделей, архивы проектов для юридических требований. Хранить все это на горячих дисках в продакшене ну просто очень дорого. Держать в облаке, впрочем, тоже. Причем с каждым годом все дороже. И что же выбрать?
Основные способы хранения данных
Если отбросить экзотику вроде лент IBM 3592 и картриджей с голографией, то в реальном мире используются четыре инструмента хранения данных:
Жесткие диски
Ленточные библиотеки LTO
Оптика
Облако
И у каждого из них своя логика применения.
Кстати, а чем пользуетесь вы? Поделитесь своим опытом в нашем коммьюнити Практики FinOps в Telegram. Будет очень интересно почитать и подискутировать.
Жесткие диски
С HDD все более‑менее понятно. Это просто рабочая лошадка, на которую полагаются не только в быту, но и в корпоративном сегменте. Потому что оно надежно (ну, относительно), понятно и, главное, доступно.
В российских магазинах 20‑терабайтный IronWolf Pro или его серверные аналоги можно купить в районе 50 тысяч рублей за штуку. То есть на каждый терабайт выходит примерно 2500 рублей. Для домашнего NAS и небольших серверов лучше и проще ничего не придумать. Воткнул несколько дисков в корпус, поднял ZFS, настроил снапы, и всего делов.
On-prem объектное хранилище
Да, по логике вещей следующим инструментом в списки должны были стать магнитные ленты, но между классическим файловым NAS и LTPO есть еще и промежуточный вариант — свое объектное хранилище. Ceph, MinIO и подобные штуки позволяют поднять у себя в ЦОДе что-то вроде публичного облака, только сервер стоит у вас.
Да, внутри это все равно куча жестких дисков, собранных в кластер, диски распределены по нескольким серверам, данные реплицируются автоматически, а цена за терабайт примерно как у обычного NAS. Но! Если у вас уже есть приложения, которые умеют работать с объектным хранилищем, то можно просто переключить их на свой сервер вместо облака. Код менять не надо.
Что это дает:
Во-первых, данные хранятся у вас.
Во-вторых, заплатить надо один раз (на самом деле не один, но будем считать, что один) за железо, а не каждый месяц.
Но минусы тоже имеются: кто-то должен это все настроить, поддерживать, обновлять. Для компаний с собственным ЦОДом и админами это нормально. А вот для всех остальных — весьма спорно.
Кстати, порог входа в этот мир, тоже выше обычного NAS:
Минимум 3–4 сервера для отказоустойчивости, а не один бокс
Серверная конфигурация с минимум 64 ГБ RAM (лучше 128–256 ГБ для прода), 10 GbE-сеть, процессоры от 16 ядер
Лицензии MinIO Enterprise
Электричество для 4 серверов по 200–300 Вт — это уже 1200 Вт круглосуточно
Если прикинуть TCO кластера на 100 ТБ, получится примерно 1,5–2 млн рублей на 5 лет с учетом железа, электричества и минимальной поддержки. Это в 3 раза дороже одного NAS на тот же объем. Но и проектируется объектное хранилище не на сотню терабайт, а на сотни и петабайты, поэтому там математика начинает работать по-другому.
Магнитные ленты
Лента выглядит более странно, чем HDD, особенно через призму домашнего пользователя. Но тут важно не первое впечатление, а пересчет на терабайт и годы жизни. Кассета LTO‑9 в России стоит примерно 12 тысяч рублей. На ней — 18 ТБ нативной емкости. А это, на минуточку, всего 650-700 рублей за терабайт.
Да, цены самих приводов, конечно, выше, чем в случае с NAS. Новый LTO‑9 легко может встать в те же 600-700 – но уже не рублей, а тысяч. Так что порог входа в мир ленты в разы выше. Но на горизонте в несколько сотен терабайт и несколько лет, более чем актуально для корпоративного сегмента, математика начинает складываться.
Оптические диски
Оптика — отдельная история. Естественно, речь идет не о DVD, а о форматах типа Blu-ray BDXL. У них философия совсем другая: в их случае слой, который прожигает лазер, по сути ведет себя как стекло или керамика, а не пластик. Это делает ячейки куда более устойчивыми, поэтому в долгую они показывают себя лучше.
Теоретически это хороший вариант для долгосрочного хранения. Но как только начинаешь считать стоимость, начинаешь понимать, где тут подвох. Стоить такой диск в России может около 2000-2500 рублей за 100 ГБ. То есть на терабайт получаем в лучшем случае 20 000 рублей.
А это на порядок дороже HDD и раз в десятки раз дороже ленты при больших объемах. То есть для пары терабайт критически важных данных еще сгодится. Но для настоящего архива большой компании — нет.
Облачные хранилища
И, наконец, облако. Это вообще отдельная история. Помимо того, что оно может быть потребительским как iCloud или Google Drive и корпоративным как AWS и Azure, оно может быть еще и горячим, холодным или архивным.
От этого, кстати, зависит и цена. Горячие классы (типа Standard у корпоративного Яндекс.Диска или их аналоги у локальных игроков) рассчитаны на частые чтения и записи. Холодные классы и архивные уровни (ICE, COLD, Archive или их аналоги) — на редкий доступ, но более низкую цену за терабайт, зато с задержками на восстановление и ограничениями по операциям.
Возьмем для примера Яндекс.Облако. В его случае горячее хранилище (Standard) стоит около 1,8 рублей за гигабайт в месяц. То есть терабайт обойдется уже в 1800 рублей в месяц. За год набежит 21 600 рублей, а за 5 лет — 108 000 рублей. В общем, сильно дороже, чем купить HDD один раз.
Но есть холодное хранилище (ICE и COLD). Там цена падает примерно до 1 и 0,5 рублей за гигабайт в месяц соответственно. Если прикинуть на дистанции в 5 лет, получается, что это уже ближе к HDD, но все равно дороже единоразовой покупки дисков.
Но дьявол, как водится, в деталях. Мало того, что восстановление из холодных (и тем более ледяных) облаков будет происходить медленнее, так еще и сами операции в нем будут стоить дороже, чем в горячем. В общем, получается уже не хваленый мгновенный доступ, за который так любят облака, а архив в чистом виде.
Российская математика: считаем TCO в рублях
Цифры в описаниях типов хранилищ — это одно, а реальный бюджет на несколько лет вперед — совсем другое. Чтобы понять, что в итоге выгоднее, нужно посчитать полную стоимость владения. Для этого возьмем два базовых сценария: архив на 100 ТБ и на 500 ТБ, горизонт — 5 лет.
TCO хранилища на HDD
Начнем с HDD. Чтобы получить честные 100 ТБ с защитой от отказа пары дисков, логичнее смотреть в сторону 8×20 ТБ и RAID‑Z2 или аналогичной схемы. А значит, закладываем тысяч 350 рублей только на накопители.
Добавляем сюда материнку, память, блок питания, нормальный корпус под 8 дисков и какой‑нибудь защищенный от жары и пыли уголок для всего этого. Все это потянет еще тысяч на 120–150, так что итоговый чек выйдет на уровне 500 тысяч рублей.
Электричество для такой коробки кажется мелочью. Но это пока не посчитать. Если хранилище потребляет 90–110 Вт под смешанной нагрузкой, круглосуточная работа за год выливается в 800–1000 кВт·ч. А при тарифе в районе 6–7 рублей за кВт·ч это выливается примерно в 6–7 тысяч рублей в год.
За пять лет — 30–40 тысяч. В сумме TCO NAS на 100 ТБ получится примерно 500–520 тысяч рублей. И это без учета замены дисков по мере деградации и роста тарифов, которые обязательно будут расти.
Для 500 ТБ чистыми потребуется 800 ТБ сырой емкости, а это примерно 2 200 000 рублей непосредственно на HDD. Плюс ко всему – 700-800 тысяч на серверное железо и в районе 30 000 рублей за электричество в год. То есть на старт получаем порядка 3 000 000 рублей, и примерно 3 450 000 – 3 550 000 рублей за 5 лет (с учетом возможных замен дисков).
TCO ленточного хранилища
Теперь считаем тот же объем, но на ленте. Для 100 ТБ достаточно 6 кассет LTO‑9: 6×18 ТБ дают 108 ТБ нативной емкости. Если брать их по 12 тысяч рублей за штуку, получаем (вернее отдаем) примерно 70 тысяч на носители.
Еще нам понадобится привод, а в российских условиях это 600-700 тысяч рублей, если не охотиться за б/у железом на зарубежных площадках, и, собственно, все. Электричество ленте практически не требуется, поскольку кассеты лежат на полке. Так что в итоге грубый чек выходит на 700-750 тысяч. Очень похоже на NAS. Поэтому на небольших объемах смысла в ленточном хранилище нет.
Но на отметке в 500 ТБ все получается куда лучше. Там математика становится совсем другой: у NAS каждый следующий терабайт — это еще один дорогой HDD (плюс место в корзине, плюс питание, плюс риск, что через пару лет придется менять парк целиком).
А у ленты привод уже куплен, и вы докупаете только кассеты, просто прибавляя емкость по цене, которая в разы ниже “дискового” терабайта. Так, чтобы расширить объем со 100 до 500 ТБ, необходимо потратить порядка 360 тысяч рублей, что в совокупности даст лишь немногим больше 1 млн.
TCO облачного хранилища
Облако в сценарии «100 ТБ и 5 лет» выглядит дружелюбно только на старте. Потому что даже на холодном классе по 2000–2200 рублей за терабайт в год за хранение набегает минимум миллион рублей. И это без учета трафика и запросов.
А периодические проверки бэкапов, восстановление части архива, банальные миграции между проектами? Они добавят сверху еще какую‑то сумму, так что в любой практике, где архив не лежит мертвым грузом, итог легко переваливает за цифру, при которой лента или собственный NAS будут выглядеть гораздо привлекательнее.
Пытаться загнать в ту же таблицу оптику можно даже не пытаться. Если умножить 20 тысяч рублей за терабайт на 100, итог в 2 миллиона рублей убивает всю экономическую составляющую на взлете. Опять же, для 1–2 ТБ особо важных данных это еще терпимо. Про 500 ТБ и говорить нечего.
Надежность при хранении данных: что лучше
Но финансовая модель — это лишь половина картины. Вторая половина — как эти данные выживут в реальной жизни.
Жесткие диски за последние годы стали заметно надежнее. Средняя наработка на отказ (MTBF) у корпоративных дисков — где-то 1-2 миллиона часов. Вроде неплохо. Скорее даже достойно. Но на практике это означает, что в массиве из 10 дисков один может приказать долго жить уже через пару лет активной работы. RAID, конечно, спасает, но не всегда.
Отвалятся два диска одновременно в RAID 5 — и привет. Да и цифры MTBF относятся только к работающим в стойке накопителям с регулярными проверками, а не к дискам, которые пять лет лежат на полке в кладовке. А такое отношение механика переносит плохо. Чем дольше диск не действует, тем выше риск, что при возврате в стойку шпиндель уже не раскрутится.
Вторая проблема HDD — тихая деградация данных. Файловые системы вроде ZFS борются с этим, регулярно прогоняя scrub и сверяя контрольные суммы. Но это требует дисциплины. Ведь для этого проверку надо не забывать включать и отслеживать результаты. А один диск с XFS в одиночестве этот сценарий не вытянет. На уровне домашнего архива это еще можно отложить на потом, в корпоративной среде так лучше не делать.
Лента в этом смысле ведет себя более предсказуемо просто в силу того, что внутри кассеты нет никакой электроники, а магнитный слой рассчитан на десятилетия. При условии нормальной температуры и влажности, разумеется. Но в целом кассета спокойно переживает даже механические удары, падения и переезды в другой офис. Не чета HDD. Более того, сами форматы LTO изначально проектируются как архивное решение, поэтому уровень коррекции ошибок и запас по деградации там куда как выше, чем у дисков. Плюс – физический air gap. Пока кассета не вставлена в привод, к данным нельзя добраться ни вирусу, ни залетевшему по ошибке rm -rf.
Устойчивее лент в этом смысле только оптика. Она не содержит не только электроники, но и подвижных частей, а структура данных в ее случае физически выжжена в слое, который не боится ни магнитных полей, ни коротких замыканий.
Правда, там есть другая проблема – обвязка. Оставьте такой диск лет на 10, а потом попробуйте найти исправный привод под нужный формат. Вынуть из шкафа LTO‑картридж и вставить его в новый привод в библиотеке, конечно, куда проще. В корпоративном окружении этот риск очень ощутим: одним из требований к архиву становится гарантированный доступ к данным не только через пять лет, но и через 20–15. К ленте рынок адаптирован. А к мало распространенной оптике — нет.
Облако выглядит идеально в буклетах по надежности. Тут вам и несколько копий, и децентрализованные дата‑центры, и встроенная защита от bit rot, и автоматические репликации, и тесты восстановления. Проблема только в том, что в этом уравнении есть не только технология, но и бизнес‑модель.
Проще говоря, надо быть готовым, что на горизонте в 5–10 лет тарифы изменятся, и скорее всего, заметно. А ведь есть еще внешние факторы, когда провайдеры объединяются, банкротятся и даже уходят из регионов. Помножьте эти риски на санкции, как в России, переносы инфраструктуры и смену юрисдикций, и получится уже не так интересно. Нет, для горячих данных облако – вариант, бесспорно, хороший. Но для долговременных архивов, которые должны пережить несколько поколений IT‑стека компании, это уже не просто риск.
Чтобы не утонуть в цифрах, можно свести канву к простой схеме:
Параметр |
HDD (NAS, 8×20 ТБ, 100 ТБ) |
LTO‑9 (привод + 6 кассет, 100 ТБ) |
Облако (100 ТБ, холодный класс) |
Оптика (M‑Disc, 100 ТБ) |
Стартовые затраты на железо |
~450–470 тыс. ₽ |
~500–550 тыс. ₽ |
0 |
~2 млн ₽ и выше |
Стоимость хранения за 5 лет |
~30–40 тыс. ₽ (электричество) |
пренебрежимо мало |
~1–1,1 млн ₽ |
0 |
Стоимость терабайта за 5 лет |
~5–5,5 тыс. ₽ |
~5–5,5 тыс. ₽ при 100 ТБ, сильно ниже при 500 ТБ |
~10–11 тыс. ₽ |
~20 тыс. ₽ |
Масштабирование до 500 ТБ |
почти линейный рост затрат |
рост в основном по кассетам |
почти линейный рост затрат |
экономически бессмысленно |
Надежность и защита от ошибок |
требует ZFS, регулярных проверок, резервов |
высокая, встроенная коррекция и air gap |
высокая, но с завязкой на провайдера |
высокая по среде, но с риском устаревания формата |
Из таблицы видно, что при объеме около 100 ТБ лента и NAS фактически выходят в одну ценовую категорию. Разница уже упирается в сценарий использования. Если нужно часто читать и писать, NAS удобнее. Если записи происходят пачками, а чтение случается редко, выигрывает лента. Облако оказывается примерно в два раза дороже по суммарной стоимости хранения на тот же период, но по удобству ему нет равных, поскольку оно избавляет от любых забот с железом. Оптика — есть оптика.
Практическая стратегия под российские реалии
Самый неприятный вывод здесь в том, что универсального решения нет. Поэтому логичнее говорить не о выборе одного носителя, а о комбинации.
Для небольших команд, фриланс‑студий, домашнего архива до 20–30 ТБ разумнее всего выглядит связка из одного‑двух NAS на HDD и потребительского облака. NAS возьмет на себя основной массив данных, а облако сработает в качестве страховки от разного рода ЧП типа пожара или кражи оборудования. Даже необязательно пытаться выжать из этой связки максимум экономии. Не завести систему, за которой никто не умеет следить, и остаться просто в пределах своего бюджета – куда важнее.
В диапазоне 50–250 ТБ ситуация меняется. Тут появляется резон смотреть на прошлые поколения ленты. LTO‑7 или LTO‑8 с вторичного рынка по цене в несколько сотен тысяч рублей за привод и набор кассет уже может дать понятный TCO для студии, которая снимает много видео, или для компании, которая обязана хранить документы и логи по формальным требованиям. Здесь NAS играет роль «текущего рабочего пространства», а лента — долгосрочного архива. Облако остается для распределенных команд и как запасной контур.
Ну, и для объемов выше 500 ТБ и горизонта в 5–7 лет в российских условиях альтернатив ленте практически нет. Библиотека с роботизированной загрузкой кассет, несколько приводов, политика ротации – считать такой проект просто по чеку из магазина бессмысленно. Там уже важно сравнивать его с реальными счетами за облако и стоимостью стойко‑дисковой инфраструктуры в дата‑центре. Но тренд один: на холодных данных запись на кассету выигрывает одновременно по цене, по энергоэффективности и по удобству архивирования.
А оптика – по-прежнему есть оптика. Для большого архива она не подходит просто по бюджету. Зато для небольших объемов — юридические документы, критическая научная информация, что‑то, что не хочется перепоручать ни провайдеру, ни механике — это один из самых защищенных вариантов. Конечно, если есть люди, готовые следить за парком приводов и носителей.
Оптимизация хранилища – не только про цену
Безусловно, соблазн свести разговор к деньгам есть всегда. Но для долгосрочного хранения данных финансы и надежность идут в связке. Слишком дешевая система, за которой некому следить, через несколько лет просто перестанет содержать полезные данные. А слишком дорогая модель с облаком и тройными репликациями может через пару-тройку лететь банально влететь в копеечку.
Рациональный подход для российских реалий обычно выглядит так:
разложить данные по температуре, а не складывать все в одну корзину;
горячие и теплые держать на дисках и в облаке, с репликацией между площадками;
холодные агрегировать и выносить в ленточный архив или, при небольших объемах, в более дешевый локальный диск с периодической проверкой;
самое ценное дублировать на принципиально другой среде, будь то оптика или внешнее хранилище в другой юрисдикции.
При таком подходе нет нужды выбирать «одну победившую технологию». Жесткие диски остаются универсальным инструментом для ежедневной работы. Лента превращается в тяжелую артиллерию для больших объемов. Облако закрывает задачи распределенного доступа и быстрой масштабируемости. А оптика послужит своего рода якорем для наиболее важных вещей.
С учетом российской специфики, скачков курса и стоимости железа, многие решения, которые в американских статьях выглядят очевидными, у нас не сходятся по цифрам. Поэтому полезнее не копировать чужие схемы, а отталкиваться от реального ТCO в рублях и ясного понимания, что именно нужно сохранять через 5–10 лет. Тогда выбор хранилища перестанет быть дискуссией на уровне «облако или свой сервер» и станет нормальным инженерным решением с внятной мотивацией.