У доски стоит менеджер и обосновывает фичу, показывая медианные значения. На задней парте в обнимочку, с попкорном, сидят аналитик с датасайентистом.

  • А почему ты используешь здесь именно медиану?

  • Потому что она, в отличие от среднего, отбрасывает крайние значения.

Учитель по математике замер примерно в этой позе.

А он ведь рассказывал..
А он ведь рассказывал..

Этот пост я решила написать, потому что у меня подгорело. Продакты и исследователи накрепко запомнили, что среднее усредняет 2 крайних значения (это когда Катя ростом 1 метр, Вася ростом 2 метра, и по средним меркам им шьют джинсы на 1.50) и действительно стали почти повсеместно использовать медиану.

Её используют просто по умолчанию, в любой ситуации.

Буквально вчера в одном уважаемом исследовании я прочитала про «медианные зарплаты айтишников». Ну и да, когда их спрашиваешь, что такое медиана, ребята отвечают про то, что она корректнее показывает обычную зарплату и втихую гуглят определение.

Когда это верно и что не так? Давайте я напомню определение и проиллюстрирую примерами.

Медиана — грубо говоря, это значение в середине числового ряда.

Если представить реальные данные, то медиана почти ничего нам не говорит о крайних значениях. И ничто не мешает медиане совпадать с минимальным или максимальным значением.

Например, утверждение «медианная зарплата разработчика мидла — 400 тыс» может на самом деле выглядеть так: 50, 50, 400, 400, 400 или так 400, 400, 400, 900, 900.
Или вообще вот так: 50, 50, 400, 900, 900.

Есть разница на практике? Какой будет обычная зарплата?

Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.

Почему же уважаемые люди используют медиану?

Есть ситуация, в которой медиана действительно надёжнее: это когда данные близки к нормальному распределению: большинство значений собраны в центре графика в виде горба, и выбросов немного. В этом случае обычно среднее гораздо чувствительнее к выбросам, чем медиана.

Например, когда сырые данные опроса по зарплатам звучат вот так: 200, 390, 395, 400, 405, 410, 950.

Невооруженным глазом видно, что первое и последнее значение выбиваются, и если их не учитывать, получим зарплату в 400 тыс. А средним в нашем примере будет 450, или сколько угодно, если кому‑то повезло и он зарабатывает 3 миллиона в месяц.

Я Таня из Семейки Продактов (телеграм) У меня правда чуточку подгорела эта тема, и я очень надеюсь, что тут найдется кто‑то, кто поймет, о чем именно я говорю.

Но чаще всего распределение бывает нормальным на академических примерах, в той же теории вероятности с подбрасыванием кубика. То есть, когда результаты ни от чего не зависят и друг на друга не влияют.

А насколько часто такое бывает в жизни?

Ну то есть, вы можете думать, что у вас в даных обычный горб, а график на самом деле U‑образный график.

Что я хочу сказать? Использовать медиану, не показав или не понимая распределение данных — это манипуляшки. Расчет на то, что все мы плохо помним статистику, а научные термины настолько уважаем, что без достойного повода гуглить не будем.

Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть. И что вы хотите проиллюстрировать, тоже надо учитывать. Там на задней парте, с попкорном уже сидят два профи, работа которых в этом и заключается, и если они говорят, что менеджеры загоняются — менеджеры загоняются.

Комментарии (8)


  1. dyadyaSerezha
    15.08.2025 17:43

    подгорела эта тема

    Интересно, а как это будет на обычном русском?)

    а график на самом деле U-образный график.

    Где там U? Не увидел.

    А в целом, все верно.


  1. TryDotAtwo
    15.08.2025 17:43

    Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.

    Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении


    1. Gutt
      15.08.2025 17:43

      где 50% выборки меньше, а 50% больше.

      Меньше или равны медиане, больше или равны медиане.


  1. Vict777
    15.08.2025 17:43

    Даже во всех представленных случаях медианное значение более показательно чем среднее.

    А крайние значения (определенный процент в зависимости от цели) слева и справа обычно специально отбрасывается


  1. lolikandr
    15.08.2025 17:43

    Вообще то медиану используют потому, что это более правдивый показатель при любом распределении. Если медианная зарплата - значит половина людей точно получает эту сумму, а то и больше. А средняя зарплата вообще непонятно что показывает - может 10% людей получают такую сумму, а может и 45%, никто не знает.
    Конечно лучше бы приводили 90ый-процентиль, но и медиана - уже хорошо!


    1. TryDotAtwo
      15.08.2025 17:43

      Ну точно не. Автор в целом тему говорит, просто бугурт не туда


    1. Andy_U
      15.08.2025 17:43

      А средняя зарплата вообще непонятно что показывает

      Нее. Понятно. Если ее умножить на количество сотрудников, то мы получим общую сумму, ушедшую на оплату труда в организации. Т.е. все от задачи зависит.


  1. Pusk1
    15.08.2025 17:43

    Вот прямо сегодня продакту рассказывал, что медиана для его кейса ни о чём не говорит и продукт на неё никак не влияет. Возили курьеры заказы и сами разбирались кто какой заказ повезёт. Решение за них стала принимать система. Заказов столько же, курьеров столько же, ставка такая же. Ни средняя ни мидиана не изменились и не должны были измениться. Другое дело, что раньше были курьеры, которые зарабатывали 7, а были кто зарабатывал 3. Но это уже другая история про отклонения и возможность найма ребят подешевле.