• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • Управление мощностями ? та ещё задачка

Управление мощностями ? та ещё задачка +5

24.04.2017 16:45
ITSystemsManagement 0 1600 Источник
Серверное администрирование*, Серверная оптимизация*, IT-инфраструктура*, Блог компании Инфосистемы Джет
Отлично, когда ваше ИТ-детище сталкивается с ростом выручки, пользователей, CTR, обрабатываемых документов, кредитных заявок, количества филиалов и прочих приятно почесывающих ЧСВ вещах. Все эти штуки называются бизнес-драйверами, которые в правильной ситуации коррелируют с нагрузкой на ИТ-инфраструктуру, расположенной под вашим сервисом. Правильное планирование мощностей защитит вас от epic fails в чёрную пятницу (чтобы она не стала действительно чёрной ;)) и ваш бюджет во все остальные дни. Сегодня поговорим не о самом процессе управления мощностями, а о технической стороне вопроса. Расскажу, при помощи каких отчетов можно прикидывать тренды и строить корреляционные матрицы. Давайте вкратце расскажу какой опыт мы скопили, а все вопросы задавайте в комментариях или личным сообщением. Поехали!
cost_risk_balance



Первый метод оценки ? временной анализ. Сам по себе он бывает нескольких видов.

1. Производительность во времени (PTA – Performance vs Time analysis) –показывает значения одной или более метрик производительности за выбранный интервал времени. Ещё можно визуализировать несколько метрик, принадлежащих к различным системам в разных масштабах.

Основными задачами этого типа анализа являются:

  • определение наиболее критических ресурсов, для последующего использования в «что-если» анализе;
  • создание пороговых (базовых) уровней производительности для систем, основанных на исторических данных, для:
    • проверки или изменения временных интервалов, которые будут использоваться в дальнейшем анализе,
    • анализа тенденций (линейные, скользящие средние),
    • обнаружения типичного поведения (ежедневно, еженедельно, ежемесячно);
  • определения пиковых нагрузок;
  • определения повторяющихся всплесков и их значений.


pta_analyse

Пример временного анализа с визуализаций 3 метрик – загрузок ЦПУ, оперативной и дисковой памяти

2. Нагрузка во времени (LTA – Load vs Time analysis) – показывает поведение одной или нескольких бизнес-метрик в выбранный интервал времени. Примером является количество сделок в течение определенного периода времени.

Основные задачи LTA:

  • провести анализ и выбрать бизнес-метрики по следующим критериям:
    • значимость приложений,
    • зависимость между бизнес-метриками;

  • проверки или изменения временных интервалов, которые будут использоваться в дальнейшем анализе;
  • анализ тенденций (линейные, скользящие средние);
  • обнаружение типичного поведения (ежедневно, еженедельно, ежемесячно), возможных пиков нагрузок при выполнении периодических заданий;
  • определение повторяющихся всплесков и их значений;
  • определение пороговых значений бизнес-метрик для расчёта средних показателей и дисперсии.


pta_analyse_business_metrics

Пример временного анализа бизнес-метрик

3. Анализ конфигураций (CA — configuration analysis) – показывает исторические значения конфигурации конечных серверов и т.п. за выбранный период времени.

pta_analyse_infrastructure

Пример временного анализа конфигураций аппаратного комплекса

Второй метод оценки — корреляционный анализ.

При анализе данных создаются связки между бизнес-драйверами и технологическими ресурсами в соответствии с коэффициентом корреляции. Коэффициент корреляции ? это такой зверь, который показывает степень взаимосвязи двух метрик и может принимать значения от -100% (полная обратная зависимость) до +100% (полная прямая зависимость). Значение равное 0 (и близкое к нему) показывает отсутствие зависимости между парой метрик.

При построении отчета корреляционный анализ используется для построения корреляционных карт и карт бизнес-метрик. Карты бизнес-метрик ? ключевой компонент при построении отчета, отображающий зависимость бизнес-показателей и используемых ресурсов. К примеру, на рисунке ниже, приведена зависимость бизнес-метрик (количество запросов от веб-клиента и количество отправленных сообщений веб-клиенту) от ресурсов сервера приложений и СУБД, на котором работает приложение.

depending_metrics

Пример зависимостей метрик

На основании этой информации настраиваются карты бизнес-метрик для последующего анализа производительности в разрезе бизнес-нагрузки.

business_metrics_map

Пример карты бизнес-метрик

metrics_correlation

Расчет корреляции значений параметров производительности и бизнес-метрик

В результате выявляется степень загрузки бизнес-метриками конкретных ресурсов на конкретных серверах:

resource_load

Степень загрузки ресурсов нагрузкой бизнес-метрик

Полученные данные позволяют наглядно отразить зависимость бизнес-метрик от выделенных ресурсов и определить точки насыщения и т.п.:

PLA

Зависимость и точка насыщения общего количества запросов в бизнес-системе к загрузке CPU

Также, корреляционный анализ используется для сравнения любых пар метрик в системе. Это могут быть как бизнес-метрики, так и метрики производительности:

LLA

Пример сравнения двух бизнес-метрик (количество заходов на сайт против количества просмотренных страниц

comparison

Пример сравнения метрик производительности

И, наконец, третий тип оценки ? расчет трендов.

Модель прогнозирования будущего поведения (расчет трендов) используется, для определения будущих значений и динамики изменения одного или нескольких показателей производительности (или бизнес-метрик) по историческим данным.

Ниже на рисунке представлена модель возможного использования данного механизма. В систему загружены исторические данные по загрузке исходящего канала связи. Для этого параметра выставлено пороговое значение – 70% загрузки канала от максимально возможного. С помощью механизма экстраполяции автоматически выстраивается тренд динамики роста параметра и определяется время насыщения (достижения порогового значения) – менее 1 календарного месяца.

trend_calculation

Пример использования расчета тренда для определения времени насыщения

Такой инструмент также используется для проведения «что-если» анализа. К примеру, ниже представлен вариант сценария по расчету увеличения общего дискового пространства. На графике зеленым показан выделенный объем и точка увеличения дискового пространства (середина марта). Синим – график использования дискового пространства. Таким образом, построенный тренд и «что-если» анализ (добавление диска) показывают, что точка насыщения не наступит до конца года.

what_if

Вариант сценария по расчету увеличения общего дискового пространства

«Что-если» анализ также используется для расчета показателей работы ИТ-инфраструктуры в зависимости от изменяемых значений бизнес-метрик.

На рисунке ниже приведен пример расчета максимально возможных показателей заходов в систему и количества отправляемых заказов. В первой части таблицы указаны бизнес-метрики (Visits, Orders Received) и их текущие значения (30 000 заходов в час и 1 000 заказов). В графе Target указываются проверяемые значения параметров (120 000 и 5 000). В результате можно рассчитать максимальную нагрузку на инфраструктуру (61 500 и 2 400 соответственно), а также видна точка отказа – производительность CPU (красная точка на таблице внизу).

point_of_failure

Пример расчета максимально возможных показателей заходов в систему и количества отправляемых заказов

Таким образом, можно определить максимальную мощность инфраструктуры, определить узкие места и своевременно принять решение о модернизации.

Пожалуйста, обращайтесь с вопросами в комментариях. А если задача требует чуть более вдумчивого подхода, наш консалтинг – он, как майские праздники, – всегда вас порадует.

В конце поста есть пара опросов, будет здорово, если вы сможете уделить на них пару десятков секунд. Спасибо!

Автор статьи: Антон Касимов, архитектор систем управления, компания «Инфосистемы Джет».
Расскажите, как вы управляете мощностями

Проголосовало 12 человек. Воздержалось 7 человек.

Внедрен ли у вас в компании ITIL-процесс управления мощностями?

Проголосовало 10 человек. Воздержалось 6 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Серверное администрирование

Серверная оптимизация

IT-инфраструктура

Блог компании Инфосистемы Джет

ит-инфраструктура

управление мощностями

инфосистемы джет

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • Управление мощностями ? та ещё задачка +5

    • 24.04.2017 16:45

    Удобная памятка и 8 ссылок на документацию по ГОСТ 34 (автоматизированные системы) +8

    • 17.02.2017 03:20

    Gartner выкатил новый магический квадрант для систем мониторинга +8

    • 19.01.2017 12:24

    Декомпиляция Java-методов на продуктивном приложении под нагрузкой – миф или реальность? +7

    • 10.11.2016 07:06

    Тестируем не совсем реальный (или совсем нереальный) мониторинг от New Relic и Appdynamics +7

    • 20.10.2016 16:39

    Как приготовить тосты и заодно визуализировать ИТ-системы +10

    • 03.10.2016 23:20

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
07:00

Нейро сети для самых маленьких. Часть первая (которая после нулевой). Удобство в прокрустовом ложе оптимизации +27

07:52

«Гражданин, обновитесь»: анализ вредоносной кампании Falcon +24

08:30

Хватит прятать ключи под ковром: переносим их в облачный сервис управления ключами (KMS) +21

08:11

Не только красные и синие — новые серверные процессоры от Qualcomm и Hygon +20

07:00

Сегментация опухолей головного мозга на МРТ-снимках с акцентом на точность границы +19

06:52

Работодатели давно играют в волков. Просто теперь соискатели научились отвечать +18

06:31

Лучший способ изучить разработку с Qt +16

08:00

Кастомизация Битрикс24 на платформе Вайбкод: создаём паспорт клиента +15

07:06

Клод Шеннон. Информатика на максималках +15

09:40

Как вайбкодинг довел меня до депрессии, а потом привел к вайб‑инжинирингу +11

08:57

TPC-DS в 07.2026. Lakehouse: Spark, Trino, StarRocks, Impala и Doris. Greenplum & Cloudberry vs StarRocks как MPP +10

07:35

Контекстная инженерия для слабой локальной модели: как мы делаем среднюю модель надёжной +10

11:01

Как установить Hermes на VPS. Один из лучших агентов в 2026 году +9

08:20

Навигация в Jetpack Compose без магии: что на самом деле делают библиотеки навигации +8

07:01

Автомобильные сигнализации РФ и их безопасность. Часть 1 +8

08:49

Не Bluetooth, а Wi-Fi: третья версия моей мощной портативной Hi-Fi акустики +7

07:00

Go vs GoF: положите паттерны ООП на пол и отойдите +7

08:11

65 бесплатных уроков июля: от LLM и RAG до Kubernetes, Go и QA +6

08:10

Совет требует ИИ, а данные не готовы. Как ESM даёт фундамент, который не провалит пилот +6

08:10

Машинное зрение: патенты в мире и в России +6

08:32

Что такое парадокс изогнутой трубы — и почему интуиция нас подводит +169

10:05

Почему я ухожу из Timeweb Cloud: 46 часов простоя в Амстердаме за два месяца — по данным самого хостера +96

12:00

Пузырь ИИ лопнул? Бизнес отказывается от ChatGPT, а Microsoft пытается спасти положение софтом: ML-дайджест +58

12:30

Passkey без Apple, Google и облаков: делаем собственный аппаратный ключ за 4 евро +55

18:44

PostgreSQL для бэкендера: 10 фич, которыми мало пользуются, а зря +51

09:02

Почему cron — самый опасный инструмент в Linux +44

07:03

Почтовый ящик пандоры. Какие сервисы работают с внешними почтовыми клиентами в России в 2026 году +35

13:01

Flappy Bird: делаем игру сложнее и добавляем автопилот на чистой математике +34

14:42

Почему сгорел Нотр-Дам: человеческий фактор, SHERPA и HTA в UX-проектировании интерфейса +29

07:05

kafkactl — другой взгляд на работу с Kafka +29

07:04

Умеют ли трансформеры водить машину +28

07:01

Шахматная память: как гроссмейстеры запоминают тысячи партий и почему это не мнемотехника +28

17:57

Антенный ротатор на PTZ 3050DZ +23

09:17

Почему опасно покупать Intel Core i7 и i9 с рук: разбираемся с деградацией процессоров 13900K и 14900K +23

09:09

Проектируем с нуля калькулятор на FPGA. Часть 6: CPU +23

08:01

Распределённый монолит: как одну проблему превратить в целый кластер проблем +21

14:27

Я больше не объясняю нейросети контекст. Вот что я сделал вместо этого… +18

10:26

Я декомпилировал свою зависимость: как программист раскидал курение на 100+ субличностей и перестал курить +17

08:00

Как мы реализовали оптимальное обучение CV-моделей в Luna Line. Часть 2. Сегментация +17

10:13

Бездумное использование ИИ ведёт к вырождению специалистов +16

15:10

Народная карта бензина собрала почти 2 млн посетителей за три дня. Её навайбкодил один человек +109

05:26

Как Яндекс меня кинул на фестивале для будущих яндексоидов, или Хроники одного YoungCon +62

07:01

Манипуляция ответами нейронок — как сеошники убивают интернет +59

05:05

Как одна операция из линейной алгебры захватила мир ИИ +55

07:59

Как мы работаем со студентами: дипломы, которые становятся частью YDB +46

07:59

Как мы работаем со студентами: дипломы, которые становятся частью YDB +46

11:13

Айсберг Доменов Верхнего Уровня (ICANN и не только) +44

07:05

Размагничивание кораблей: мины, физика и Курчатов. Часть 2 +43

11:12

Event Sourcing в платформе данных: миграция с JSON на Avro +42

09:01

TeamPCP: как команда хакеров-любителей «Дюны» закинула в наши Node.js-пакеты червей Shai-Hulud +42

21:02

Рунет без Google Login: что теперь делать с авторизацией +38

13:01

Триллионы километров данных: ваш автомобиль следит за вами, и это только начало +36

06:00

Человек-легенда, давший нам Спектрум и предсказавший ИИ +34

11:19

Как я переехал с Altium Designer на KiCAD +33

07:06

Семь раз подумай, один раз пошардируй: как мы начали горизонтально масштабировать метаданные чатов Телемоста +33

08:09

Обзор необычного и очень мощного мини-ПК Khadas Mind 2 +31

17:14

Что на самом деле означают теоремы Гёделя о неполноте? +27

15:05

И снова самый быстрый парсер JSON. Очередной +27

18:13

Как «ужать» мегаполис до размеров iPhone 4 +25

06:28

Забор из волшебных палочек +24

ОБСУЖДАЕМОЕ

  • Народная карта бензина собрала почти 2 млн посетителей за три дня. Её навайбкодил один человек +109

    • 199   45000

    Почему я ухожу из Timeweb Cloud: 46 часов простоя в Амстердаме за два месяца — по данным самого хостера +96

    • 151   22000

    Рунет без Google Login: что теперь делать с авторизацией +38

    • 134   25000

    Кажется я выяснил кто открыл Америку -9

    • 100   11000

    Что такое парадокс изогнутой трубы — и почему интуиция нас подводит +169

    • 84   26000

    Что лучше — C++ или C#? +6

    • 67   9600

    Как Let's Encrypt, только роднее: автоматическое получение бесплатного RSA DV-сертификата НУЦ +19

    • 59   11000

    Что на самом деле означают теоремы Гёделя о неполноте? +27

    • 57   14000

    Дело на вечер: собираем домашний ИИ-сервер +17

    • 54   17000

    Почему Минобрнауки боится ИИ и правда ли, что дипломные работы утратили смысл? +7

    • 39   12000

    Почтовый ящик пандоры. Какие сервисы работают с внешними почтовыми клиентами в России в 2026 году +35

    • 39   9700

    И все‑таки самая реальная защита дома или квартиры — электронно‑механический шлюз -10

    • 39   8500

    Почему «удалёнка» съедает ROI компании: расчёты потерь -1

    • 32   11000

    Passkey без Apple, Google и облаков: делаем собственный аппаратный ключ за 4 евро +55

    • 31   15000

    Отрежьте мне миллиард символов: как C++20, string_view и шаблонный ад могут скрывать баг годами +19

    • 31   11000
  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.