• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • Управление мощностями ? та ещё задачка

Управление мощностями ? та ещё задачка +5

24.04.2017 16:45
ITSystemsManagement 0 1600 Источник
Серверное администрирование*, Серверная оптимизация*, IT-инфраструктура*, Блог компании Инфосистемы Джет
Отлично, когда ваше ИТ-детище сталкивается с ростом выручки, пользователей, CTR, обрабатываемых документов, кредитных заявок, количества филиалов и прочих приятно почесывающих ЧСВ вещах. Все эти штуки называются бизнес-драйверами, которые в правильной ситуации коррелируют с нагрузкой на ИТ-инфраструктуру, расположенной под вашим сервисом. Правильное планирование мощностей защитит вас от epic fails в чёрную пятницу (чтобы она не стала действительно чёрной ;)) и ваш бюджет во все остальные дни. Сегодня поговорим не о самом процессе управления мощностями, а о технической стороне вопроса. Расскажу, при помощи каких отчетов можно прикидывать тренды и строить корреляционные матрицы. Давайте вкратце расскажу какой опыт мы скопили, а все вопросы задавайте в комментариях или личным сообщением. Поехали!
cost_risk_balance



Первый метод оценки ? временной анализ. Сам по себе он бывает нескольких видов.

1. Производительность во времени (PTA – Performance vs Time analysis) –показывает значения одной или более метрик производительности за выбранный интервал времени. Ещё можно визуализировать несколько метрик, принадлежащих к различным системам в разных масштабах.

Основными задачами этого типа анализа являются:

  • определение наиболее критических ресурсов, для последующего использования в «что-если» анализе;
  • создание пороговых (базовых) уровней производительности для систем, основанных на исторических данных, для:
    • проверки или изменения временных интервалов, которые будут использоваться в дальнейшем анализе,
    • анализа тенденций (линейные, скользящие средние),
    • обнаружения типичного поведения (ежедневно, еженедельно, ежемесячно);
  • определения пиковых нагрузок;
  • определения повторяющихся всплесков и их значений.


pta_analyse

Пример временного анализа с визуализаций 3 метрик – загрузок ЦПУ, оперативной и дисковой памяти

2. Нагрузка во времени (LTA – Load vs Time analysis) – показывает поведение одной или нескольких бизнес-метрик в выбранный интервал времени. Примером является количество сделок в течение определенного периода времени.

Основные задачи LTA:

  • провести анализ и выбрать бизнес-метрики по следующим критериям:
    • значимость приложений,
    • зависимость между бизнес-метриками;

  • проверки или изменения временных интервалов, которые будут использоваться в дальнейшем анализе;
  • анализ тенденций (линейные, скользящие средние);
  • обнаружение типичного поведения (ежедневно, еженедельно, ежемесячно), возможных пиков нагрузок при выполнении периодических заданий;
  • определение повторяющихся всплесков и их значений;
  • определение пороговых значений бизнес-метрик для расчёта средних показателей и дисперсии.


pta_analyse_business_metrics

Пример временного анализа бизнес-метрик

3. Анализ конфигураций (CA — configuration analysis) – показывает исторические значения конфигурации конечных серверов и т.п. за выбранный период времени.

pta_analyse_infrastructure

Пример временного анализа конфигураций аппаратного комплекса

Второй метод оценки — корреляционный анализ.

При анализе данных создаются связки между бизнес-драйверами и технологическими ресурсами в соответствии с коэффициентом корреляции. Коэффициент корреляции ? это такой зверь, который показывает степень взаимосвязи двух метрик и может принимать значения от -100% (полная обратная зависимость) до +100% (полная прямая зависимость). Значение равное 0 (и близкое к нему) показывает отсутствие зависимости между парой метрик.

При построении отчета корреляционный анализ используется для построения корреляционных карт и карт бизнес-метрик. Карты бизнес-метрик ? ключевой компонент при построении отчета, отображающий зависимость бизнес-показателей и используемых ресурсов. К примеру, на рисунке ниже, приведена зависимость бизнес-метрик (количество запросов от веб-клиента и количество отправленных сообщений веб-клиенту) от ресурсов сервера приложений и СУБД, на котором работает приложение.

depending_metrics

Пример зависимостей метрик

На основании этой информации настраиваются карты бизнес-метрик для последующего анализа производительности в разрезе бизнес-нагрузки.

business_metrics_map

Пример карты бизнес-метрик

metrics_correlation

Расчет корреляции значений параметров производительности и бизнес-метрик

В результате выявляется степень загрузки бизнес-метриками конкретных ресурсов на конкретных серверах:

resource_load

Степень загрузки ресурсов нагрузкой бизнес-метрик

Полученные данные позволяют наглядно отразить зависимость бизнес-метрик от выделенных ресурсов и определить точки насыщения и т.п.:

PLA

Зависимость и точка насыщения общего количества запросов в бизнес-системе к загрузке CPU

Также, корреляционный анализ используется для сравнения любых пар метрик в системе. Это могут быть как бизнес-метрики, так и метрики производительности:

LLA

Пример сравнения двух бизнес-метрик (количество заходов на сайт против количества просмотренных страниц

comparison

Пример сравнения метрик производительности

И, наконец, третий тип оценки ? расчет трендов.

Модель прогнозирования будущего поведения (расчет трендов) используется, для определения будущих значений и динамики изменения одного или нескольких показателей производительности (или бизнес-метрик) по историческим данным.

Ниже на рисунке представлена модель возможного использования данного механизма. В систему загружены исторические данные по загрузке исходящего канала связи. Для этого параметра выставлено пороговое значение – 70% загрузки канала от максимально возможного. С помощью механизма экстраполяции автоматически выстраивается тренд динамики роста параметра и определяется время насыщения (достижения порогового значения) – менее 1 календарного месяца.

trend_calculation

Пример использования расчета тренда для определения времени насыщения

Такой инструмент также используется для проведения «что-если» анализа. К примеру, ниже представлен вариант сценария по расчету увеличения общего дискового пространства. На графике зеленым показан выделенный объем и точка увеличения дискового пространства (середина марта). Синим – график использования дискового пространства. Таким образом, построенный тренд и «что-если» анализ (добавление диска) показывают, что точка насыщения не наступит до конца года.

what_if

Вариант сценария по расчету увеличения общего дискового пространства

«Что-если» анализ также используется для расчета показателей работы ИТ-инфраструктуры в зависимости от изменяемых значений бизнес-метрик.

На рисунке ниже приведен пример расчета максимально возможных показателей заходов в систему и количества отправляемых заказов. В первой части таблицы указаны бизнес-метрики (Visits, Orders Received) и их текущие значения (30 000 заходов в час и 1 000 заказов). В графе Target указываются проверяемые значения параметров (120 000 и 5 000). В результате можно рассчитать максимальную нагрузку на инфраструктуру (61 500 и 2 400 соответственно), а также видна точка отказа – производительность CPU (красная точка на таблице внизу).

point_of_failure

Пример расчета максимально возможных показателей заходов в систему и количества отправляемых заказов

Таким образом, можно определить максимальную мощность инфраструктуры, определить узкие места и своевременно принять решение о модернизации.

Пожалуйста, обращайтесь с вопросами в комментариях. А если задача требует чуть более вдумчивого подхода, наш консалтинг – он, как майские праздники, – всегда вас порадует.

В конце поста есть пара опросов, будет здорово, если вы сможете уделить на них пару десятков секунд. Спасибо!

Автор статьи: Антон Касимов, архитектор систем управления, компания «Инфосистемы Джет».
Расскажите, как вы управляете мощностями

Проголосовало 12 человек. Воздержалось 7 человек.

Внедрен ли у вас в компании ITIL-процесс управления мощностями?

Проголосовало 10 человек. Воздержалось 6 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Серверное администрирование

Серверная оптимизация

IT-инфраструктура

Блог компании Инфосистемы Джет

ит-инфраструктура

управление мощностями

инфосистемы джет

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • Управление мощностями ? та ещё задачка +5

    • 24.04.2017 16:45

    Удобная памятка и 8 ссылок на документацию по ГОСТ 34 (автоматизированные системы) +8

    • 17.02.2017 03:20

    Gartner выкатил новый магический квадрант для систем мониторинга +8

    • 19.01.2017 12:24

    Декомпиляция Java-методов на продуктивном приложении под нагрузкой – миф или реальность? +7

    • 10.11.2016 07:06

    Тестируем не совсем реальный (или совсем нереальный) мониторинг от New Relic и Appdynamics +7

    • 20.10.2016 16:39

    Как приготовить тосты и заодно визуализировать ИТ-системы +10

    • 03.10.2016 23:20

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
09:01

У Microsoft не было целостной концепции GUI со времён Петцольда +49

08:05

ADSL. Откуда в телефонной линии берётся интернет? +35

05:05

Привет, GT! Я сделал свой луноход и закрыл гештальт +35

08:11

Из середнячков в помидоры: прикладной гайд, как мидл‑аналитику вырасти до синьора +31

07:01

Про дела лисапетные: самодельные поворотники, зеркала заднего вида, электронная коробка передач +29

11:06

Avalon: как построить эффективный Feature Store на YDB +27

09:21

Почему «душнила» — возможно, ваш лучший босс: 9 причин, зачем руководитель лезет в разработку +25

06:04

Математический анализ для разработчика: что действительно нужно понимать +19

07:05

Создаем I2C Master Controller на Verilog. Тестируем ядро +18

13:05

Сделал пет‑проект, а дальше что? Как я получил первые 2500 пользователей за 0 рублей +17

08:16

Обзор нейросети Suno v5 в 2026 году: чем она лучше Udio и Riffusion после выхода обновления 5.5? +17

13:01

Пора перечитывать Азимова? 3 закона робототехники +16

11:44

Собачий корм, фичекрип и несостоявшаяся революция — Windows Longhorn +14

09:54

Как я спас компьютеры миллионов юзеров Winget. История одного форка «Запрета» +14

13:09

Как НЕ провалить аудит смарт-контрактов? +13

11:38

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов +13

07:42

Чтение на выходные: «Код. Тайный язык информатики» Чарльза Петцольда +12

07:00

От конфигуратора до AI: как обновили софт Wiren Board +12

06:00

Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента +10

12:00

The Sector — онлайн 2D-игра. Свой 2D Freelancer +9

19:16

Вероятно, последняя попытка сохранить интернет — «СтопЧебурнет» +171

06:03

Создаем собственную базовую станцию при помощи SDR +83

20:46

Технотекст 8: длинные списки превращаются в элегантные шорт-листы +67

09:01

Мария-Ритм — полистироловая электрогитара из СССР +47

16:47

Fail2Ban больше не нужен? Разбираем PerSourcePenalties в OpenSSH на Ubuntu 26.04 +45

11:12

Что именно сломалось: разбираем блокировки РКН/ТСПУ по слоям сетевого стека. Rkn Block Checker +41

13:02

Визуальные сети связи: семафоры, флаги, руки, фары и цветок на подоконнике +37

23:36

Как Сетунь обогнала время и проиграла кремнию +35

08:17

В чем особенность виртуальных машин размером с хост +33

11:30

Не рискуй конверсией: как исследовать витрину цифрового продукта до запуска +30

15:18

Почему плохие менеджеры провалят внедрение ИИ точно так же, как провалили работу с людьми +27

14:54

Rust: зачем он появился, что умеет и почему компании переписывают на него части своих систем +21

07:19

Реально большая стейт-машина: как мы строили облачную запись и ИИ-конспектирование в Телемосте +21

07:01

Worldometer: как один сайт научил мир чувствовать масштаб +21

13:24

Настройка self-hosted gitlab runner (CI/CD) +19

11:43

Как улучшить опыт работы с Zabbix: разбираем юзкейсы +18

07:05

Турбина Тесла + Органический Цикл Ренкина = электроэнергия почти от любого тепла +18

06:12

Пиратство в эпоху VHS: как Universal судилась с Sony и почему последствия этого спора мы ощущаем и в наши дни +17

09:01

Утопали в дефектах, пока собирали «единое окно» +15

11:11

«Концевой эффект» атомной энергетики СССР. Трагедия Чернобыля — 40 лет спустя +14

10:46

Давайте уже сделаем отдельный хаб: «Я собрал приложение за вечер — зачем теперь разработчики?» +211

15:00

Радар для слежения за БПЛА. Часть 1 +190

08:50

Чебурнет близко +91

08:00

Муравьи против трансформеров: старый алгоритм 1992 года, который вернулся +81

13:31

Голосуй, или проиграешь! разбор фишинга, который пытается угнать Telegram +79

13:01

Ваш ИИ ошибался, ошибается и будет ошибаться +67

13:29

OneOCR — скрытая OCR внутри Windows 11 +45

12:00

Люди скупают Mac Mini M4, а SpaceX покупает Cursor за $60 млрд: ML-дайджест +44

07:00

Как подготовиться к алгоритмическим соревнованиям: опыт финалиста ICPC +37

09:01

Flappy Bird: код веб-клона под микроскопом +35

05:29

Баги, которые не ловит Rust +35

07:01

Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу +32

07:05

Что делает match после того, как вы нажали Compile +29

22:14

Как ИИ потерял доверие общества в США +28

09:00

Как Monium приручил GC: разбираемся со сборщиками мусора в observability‑платформе +26

08:32

Коэффициент токсичности задачи: как одна метрика снизила текучку в команде до 10% +26

23:40

Я пошутил, что разработчики больше не нужны — и мне поверили. Давайте теперь серьезно +24

15:30

Радар для слежения за БПЛА. Часть 2 +24

13:22

«Алгоритмы на языке Go». Книга, которую ждали +20

22:43

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем +19

ОБСУЖДАЕМОЕ

  • Чебурнет близко +91

    • 525   30000

    Вероятно, последняя попытка сохранить интернет — «СтопЧебурнет» +171

    • 193   36000

    Давайте уже сделаем отдельный хаб: «Я собрал приложение за вечер — зачем теперь разработчики?» +211

    • 113   22000

    Радар для слежения за БПЛА. Часть 1 +190

    • 103   49000

    Как Сетунь обогнала время и проиграла кремнию +35

    • 73   19000

    «Концевой эффект» атомной энергетики СССР. Трагедия Чернобыля-40 лет спустя (окончание) +13

    • 66   13000

    Голосуй, или проиграешь! разбор фишинга, который пытается угнать Telegram +79

    • 61   19000

    Rust: зачем он появился, что умеет и почему компании переписывают на него части своих систем +21

    • 48   12000

    Как Ричард Докинз решил, что ИИ разумен +12

    • 47   11000

    Как ИИ потерял доверие общества в США +28

    • 44   26000

    У Microsoft не было целостной концепции GUI со времён Петцольда +49

    • 34   7100

    Я пошутил, что разработчики больше не нужны — и мне поверили. Давайте теперь серьезно +24

    • 33   20000

    Год с Claude Code: как собрать рабочую конфигурацию с первого запуска +14

    • 33   12000

    Коэффициент токсичности задачи: как одна метрика снизила текучку в команде до 10% +26

    • 32   11000

    Fail2Ban больше не нужен? Разбираем PerSourcePenalties в OpenSSH на Ubuntu 26.04 +45

    • 31   18000
  • Главная
  • Контакты
© 2026. Все публикации принадлежат авторам.