Когда вы слышите «облачный провайдер», что первое приходит в голову? Компания, которая предоставляет виртуальные ресурсы и с которой приходится разговаривать строго по шаблону? Но чтобы решения действительно работали, нужен не поставщик, а партнёр — тот, кто погружён в вашу инфраструктуру, анализирует, советует, помогает.
Мы в K2 Cloud не всегда были такими. Наш путь начался более 15 лет назад, и сначала мы были просто провайдером. Но время, опыт и сотни проектов изменили всё: мы прошли путь от первого ЦОД до облачной платформы собственной разработки с партнёрскими услугами под любой запрос бизнеса. И сегодня я расскажу, как это было — без маркетингового шума, просто как есть.
Меня зовут Кирилл Бойко, я технический директор K2 Cloud, и в облаках (в хорошем смысле) — давно.
Первые шаги: от open-source к собственной разработке
Наша история началась в 2009 году. Тогда мы назывались «КРОК Облачные сервисы», а наша платформа — Облако КРОК, или Виртуальный дата-центр КРОК. Если хотите найти старые новости, ищите именно по этим именам.
В 2009 году был запущен первый собственный ЦОД — и это стало точкой входа в новый тип услуг. Начинали с классического хостинга: сдача стоек в аренду, железо клиента — всё по стандарту. Но в компании были энтузиасты, которые смотрели чуть дальше: а что если сделать свою облачную платформу?
Основой первой версии стало open-source решение Eucalyptus. Его и начали дорабатывать и адаптировать под наши задачи. Спустя несколько лет в коде платформы не осталось ни строчки от Eucalyptus — мы полностью ушли от исходного проекта, который потом и вовсе закрылся.
Уже в 2010 году мы представили первую версию K2 Облака с сервисами Compute и S3. Наше облако было построено на серверах Dell и коммутаторах Mellanox. В качестве хранилища использовалась файловая система GPFS. Для S3 написали собственное API поверх той же GPFS.
Это был непростой, но очень важный этап: с минимальными ресурсами и максимумом инженерного оптимизма мы собрали то, что потом стало фундаментом всей экосистемы K2 Cloud.
Как мы запускали облако в 2010-х, когда это ещё не было мейнстримом
Сегодня рассказов о том, как устроены облака, в избытке. Все знают, из чего они состоят, как выглядят модели предоставления услуг, зачем нужны зоны доступности и резервирование. Но в 2010-х всё было иначе — особенно в России. Облачные технологии только начинали появляться, и большинство заказчиков попросту не понимали, как это работает и зачем им это нужно. Удивительно осознавать, насколько круто мы тогда опережали время.
На первом этапе важнейшую роль сыграла просветительская работа. Мы проводили вебинары, объясняли, как устроено облако, зачем оно бизнесу. И это работало — к нам начали приходить первые клиенты. А мы, в свою очередь, не просто поддерживали инфраструктуру, а уже тогда делали технически значимые доработки.
Одна из первых крупных задач касалась сетевой архитектуры. Изначально облачные сети у нас были построены на VLAN’ах. Это давало функциональность, но ограничивало масштабирование. Поэтому мы пошли дальше и перевели облако на первое в мире решение Software Defined Network (SDN) — платформу для виртуализации сети.
Она называлась тогда NVP. На тот момент её выпускала небольшая компания под названием Nicira — позже её купит VMware, а идея станет мейнстримом. Но тогда это был технический прорыв, который дал нам задел на несколько лет вперёд.
В 2012 году мы запустили второй дата-центр — ЦОД «Компрессор». Это передовой в техническом плане ЦОД, расположенный рядом с центром Москвы, и он вскоре получил все возможные сертификаты от Uptime Institute. В частности, мы были одними из первых в мире, кто прошёл сертификацию уровня Tier III на эксплуатацию ЦОД — Gold Certification of Operational Sustainability.
В нём мы развернули вторую зону доступности нашего облака. На «Компрессоре» для облака использовали сетевую фабрику на InfiniBand, которая на тот момент была также передовой: 56 Гбит/с звучали более чем внушительно.
Но уже тогда мы начали сталкиваться с реальными ограничениями этого решения — как с точки зрения масштабирования, так и в части совместимости с будущими сетевыми требованиями к облаку.
2014-15 годы: фичи, которые опережали рынок
Облачные технологии в начале 2010-х — это не только про инфраструктуру, но и про попытки предугадать, что будет востребовано через пару лет. Именно тогда мы начали разрабатывать фичи, которые на тот момент были уникальными для российского рынка.
Например, уже в те годы мы внедрили первый в стране облачный firewall — и это был не просто маркетинг, а реально рабочее решение, хоть и простое, но востребованное в проектах с повышенными требованиями к безопасности.
В 2014 году мы встроили в облако технологию, которая тогда считалась прорывной — all-flash системы хранения данных от Violin Memory. Закупили партию устройств, написали под них драйвер, адаптировали под облачную инфраструктуру.
Мы вышли на рынок с обещанием дисков до 100 000 IOPS. На тот момент таких показателей в облаке не было ни у кого. Кампания сработала: объёмы продаж были впечатляющими. Правда, их же масштабы позже стали для нас отдельной проблемой — но об этом чуть позже.
В 2015 году мы приняли важное архитектурное решение: отказались от собственной разработки S3 API и перешли на Ceph. Для Ceph использовались сервера с десятком двух терабайтных дисков — казалось, неплохо, но масштабировать их было сложно. Особенно если нужны были десятки и сотни терабайт — слишком мало ёмкости прибавлялось при добавлении сервера.
Сегодня всё иначе: мы используем дисковые полки, вмещающие шестьдесят 18-терабайтных дисков для Ceph. Раньше из-за небольшого размера хранилища одна полка была бы слишком большим доменом отказа. Но при наших сегодняшних объёмах это уже нормально. Полка может вылететь — кластер этого даже не заметит.
У нас один из самых больших кластеров Ceph в России на текущий момент, его размер — десятки петабайт. В 2015-м такое казалось невозможным. А сегодня — реальность.
На пути к партнёрству: сложные проекты под ключ
Но наше развитие не останавливалось. Тогда же, в 2015-м, произошёл поворотный момент: запуск услуги Hardware-as-a-Service. Название, если честно, не отражает всей сути. Речь шла не просто об аренде железа. Сначала возник наш первый полноценный проект под ключ: мы спроектировали и внедрили для клиента инфраструктуру в двух наших ЦОДах, развернули десятки серверов, подняли виртуализацию, наладили мониторинг, бэкап и организовали последующее сопровождение.
Этот проектный опыт компании стал первым шагом к партнёрскому сервису. Клиент получал инфраструктурный слой, полностью готовый к использованию — за фиксированный ежемесячный (это важно!) платёж. То есть формат подписки, а не капитальных затрат. Это стало одним из наших первых действительно партнёрских кейсов, притом успешных — клиент с нами до сих пор. Опыт этого проекта мы масштабировали. Так появился первый продукт, который сближал нас с клиентами и делал нас их полноценными партнёрами.
2016-2017 года: турбулентность
Затем начался период, который я называю турбулентностью. То, что мы были первыми, одновременно давало фору и делало нас уязвимыми. У нас просто не было чужого опыта, на который можно было бы опереться — мы учились только на своём. Пробовали новое, масштабировали, добавляли функциональность — и иногда ошибались. К сожалению, в тот период это выражалось в нестабильности сервисов, и мы это честно признаём. Зато именно на этом этапе мы получили важные уроки, на которых базируется нынешняя стабильность платформы.
В те времена у нас было простое правило: не отходи далеко от ноутбука. Сейчас всё стабильно, SLA отлажены, но до сих пор есть ребята, которые на всякий случай это правило соблюдают.
SDN
К этому моменту SDN NVP от компании Nicira сменила название на NSX-MH и перешла в собственность VMware, которая в какой-то момент заявила: «Мы больше не будем её поддерживать. Делайте, что хотите».
Пришлось искать замену. И это был не просто выбор, а настоящий эпос миграции. Подробности можно узнать в тексте Влада Одинцова — он рассказал про этот титанический подвиг на конференции и в статье.
Уход от Violin
И тут возникла ещё одна проблема. Violin, мягко говоря, не тянул нашу динамичную инфраструктуру: сотни хостов, подключённых одновременно, — всё это работало очень нестабильно. Мы пробовали разные решения — даже летали в США по приглашению вендора, но это ничего не дало. Стало понятно, что пора двигаться дальше и искать что-то другое.
Можно было перенести диски пользователей с Violin на GPFS, но GPFS для этого не подходил по производительности. Надо было искать новое хранилище. И тут выяснилось, что нам почти ничего не подходит — мало какой storage тянул такую производительность.
Мы перебрали массу вариантов, пока не остановились на решении от ScalelO — программно-определяемом хранилище (SDS) от компании Dell EMC. Оно оказалось лучшим по характеристикам среди всех протестированных и подошло идеально.
Начали миграцию. Быстро перенесли на него медленные диски с GPFS, но вот с Violin’ами пришлось помучаться — застряли с ними надолго. Но мы преодолели и это. Турбулентность закончилась, началась новая веха развития.
2018 год: первые партнёры
Несмотря на сложности, облако продолжало развиваться. Тогда мы внедрили интересную связку: два эшелона облачных файерволов с гибко настраиваемой фильтрацией — один на уровне подсетей, другой на уровне интерфейсов виртуальных машин. Такое решение и сейчас не у всех облаков есть, а у нас появилось ещё тогда.
2018-й год запомнился не только лучшим чемпионатом мира по футболу, но и первым пилотным запуском «отчуждаемого» облака. Летом наши инженеры внедрили первую отдельную инсталляцию нашего облака для турецкой компании. Это был и технический, и организационный прорыв. С тех пор заказчик сам работает как облачный провайдер на базе этой инсталляции — и, судя по обратной связи, успешно.
В этом же году мы сделали, пожалуй, самый важный шаг на пути от провайдера к партнёру. Раньше весь рынок выглядел как гонка продавцов CPU и ОЗУ на развес. Кто больше продаст виртуальных ресурсов — тот и молодец. Но постепенно запросы клиентов менялись. Вместо «дайте побольше ресурсов» стало звучать:
– «Нужен растянутый Kubernetes-кластер».
– «Хочется централизованный мониторинг».
– «Нам бы всё под ключ, в контейнерах, с БД и веб-серверами».
Мы уже тогда двигались в сторону PaaS в облаке, но это требовало времени. При этом было понятно, что компетенции и экспертиза наших инженеров, полученные в интеграторских проектах, востребованы на рынке. Одновременно торговать виртуалками и мастерски делать энтерпрайз-решения могли тогда единицы. Поэтому мы начали предлагать облачную инфраструктуру под ключ: с контейнеризацией, базами данных, веб-серверами и прочим. Это был уже совсем другой уровень ответственности и партнёрства. Professional Services стали нашими базовыми услугами, которыми сегодня пользуются уже 40% клиентов.
2020 год: третья зона, миграция на Ethernet и платформа как сервис
2020-й стал для нас знаковым: мы запустили третью зону доступности, причём сеть в третьем ЦОДе строили уже на Ethernet. InfiniBand — мощная, но нишевая технология. В какой-то момент стало очевидно: технология, мягко говоря, не массовая, поддержки мало, все подводные камни и проблемы оказались нашими — до нас с ними просто никто не сталкивался, и решение на Stackoverflow или Reddit было не отыскать. Натерпевшись, мы начали миграцию живого продакшена с одной фабрики на другую — с InfiniBand на Ethernet. Процесс занял почти год — это тоже история для отдельной статьи.
Параллельно мы продолжали двигаться в сторону PaaS, и в 2020-м году дошли до первых продуктов. Сначала запустили Kubernetes, потом — другие платформы. Использовали богатый опыт развёртывания и настройки инфраструктурных решений из Professional Services.
Внутри самого направления перешли от проектного подхода к процессному с формированием выделенных команд. Они берут на себя всё: от проектирования до сопровождения инфраструктуры 24/7. Это не одноразовая инициатива, а живые команды, которые эволюционируют до сих пор.
Так, шаг за шагом, мы шли к уникальной ценности для клиента с двух сторон: строили новые платформы и автоматизированные сервисы и стандартизировали работу инженеров, которые эти инструменты применяли.
2022 год: от живой миграции сети до масштабирования PaaS и сервисов
В 2022 году мы завершили огромную и непростую миграцию — переезд с NSX на OVN. С учётом подготовки она заняла четыре года, и, честно говоря, мы испытали огромное облегчение, когда всё завершилось.
В том же году мы поняли: вдолгую нельзя полагаться на последнюю импортную технологию ScaleIO, даже если она нас устраивает. Поэтому начали переход на SDS Ceph RBD.
В PaaS мы не останавливались: выпускали новые инструменты, расширяли каталог платформенных решений. А в направлении Professional Services столкнулись с хронической для всех в 2022 году проблемой — кадровой.
Linux-инженеров и так не хватало, а тогда дефицит вырос ещё сильнее. При этом запросы становились сложнее, а число задач росло. Чтобы не терять в качестве, решили действовать нестандартно и запустили собственную «Школу Linux».
Это оплачиваемая стажировка для тех, кто уже имеет опыт работы с Linux, но хочет систематизировать и расширить свои знания. Профобучение длится около двух месяцев, и по итогам мы часто предлагаем выпускникам постоянную работу. Мероприятие стало ежегодным, и по статистике больше половины выпускников остаются в команде K2 Cloud.
Школа стала одним из наших главных кадровых каналов в условиях высокой потребности в инженерах, их дефиците на рынке. В сочетании с низкой текучкой это позволило даже в период острого кадрового кризиса на рынке поддерживать численность и уровень подготовки нашей инженерной команды Professional Services.
2023: всплеск спроса на частные облака
2023-й ознаменовался резким ростом интереса к частным инсталляциям. Мы запустили сразу несколько крупных проектов — в том числе в банке из топ-10 и на предприятии атомной отрасли.
Частные облака — это всегда очень индивидуальная история: где-то мы полностью брали проработку архитектуры на себя, а где-то клиент приходил с жёстким видением и ожиданиями. Было много задач по кибербезу и полезных внутренних доработок.
Такой опыт стал важной проверкой платформы на гибкость. Мы много допиливали внутри и развивали инструменты под внешние команды. Сейчас можем уверенно сказать — платформа стала гораздо лучше адаптирована к эксплуатации внешними командами.
Новая SDN расчистила путь к активной разработке сетевых сервисов. С тех пор мы начали выпускать их с очень высокой частотой.
Ещё одним толчком к росту спроса на наши услуги стал собственный сервис резервного копирования. Это не просто интеграция стороннего решения, а наша разработка, глубоко встроенная в платформу.
В тот же период появилось новое направление: проекты локализации под международные компании. Клиенты приходили с запросом: «Сделайте нам так же удобно, как было там, только здесь, в России». Удобство заключалось не только в инфраструктуре, но и в привычной функциональности как у иностранных продуктов — речь про почтовые серверы, доменные контроллеры, офисные решения. Мы сделали это «под ключ», оформили как продукт — и реализовали десятки таких проектов.
2024 год: от облака на развес — к облаку с умом
2024 год можно назвать моментом окончательного становления нас как партнёров. Мы подружили наш провайдерский бизнес с кейсами интеграции. Занимались разнообразными задачами — от предоставления облачных ресурсов до проектов локализации и импортозамещения, где внедряли для клиента конечные сервисы и обеспечивали их безопасность.
Разумеется, и сама облачная платформа не стояла на месте. Мы выпустили:
File system as a service.
Direct Connect — фичу для подключения клиентов через L3-соединения (идеально для гибридных инфраструктур).
Новые L7-балансировщики.
Что дальше?
Наша главная новость — запуск К2 Облака в Санкт-Петербурге. Всё то же качество и разнообразие сервисов, к которому вы привыкли, но уже в новом регионе.
В Professional Services продолжаем повышать ценность для клиентов. Наращиваем проактивность — будем регулярно проводить аудит инфраструктуры и предоставлять клиентам различные отчёты, чтобы показывать ту незаметную работу, которую делаем.
Кроме того, в ближайшем будущем наших клиентов ждёт:
Расширение предложения GPU: больше карт, гибкие тарифы.
Облачные сервисы в сфере ИБ.
Релиз нового веб-интерфейса с мобильной версией.
В результате этих усилий сейчас мы одни из немногих на рынке можем отвечать за все части сложных комплексных проектов, потому что реализуем их самостоятельно и по собственным стандартам. И, главное, — продолжаем делать критически важную работу, чтобы сервисы наших клиентов работали стабильно, безопасно и прогнозируемо.