У доски стоит менеджер и обосновывает фичу, показывая медианные значения. На задней парте в обнимочку, с попкорном, сидят аналитик с датасайентистом.

  • А почему ты используешь здесь именно медиану?

  • Потому что она, в отличие от среднего, отбрасывает крайние значения.

Учитель по математике замер примерно в этой позе.

А он ведь рассказывал..
А он ведь рассказывал..

Этот пост я решила написать, потому что у меня подгорело. Продакты и исследователи накрепко запомнили, что среднее усредняет 2 крайних значения (это когда Катя ростом 1 метр, Вася ростом 2 метра, и по средним меркам им шьют джинсы на 1.50) и действительно стали почти повсеместно использовать медиану.

Её используют просто по умолчанию, в любой ситуации.

Буквально вчера в одном уважаемом исследовании я прочитала про «медианные зарплаты айтишников». Ну и да, когда их спрашиваешь, что такое медиана, ребята отвечают про то, что она корректнее показывает обычную зарплату и втихую гуглят определение.

Когда это верно и что не так? Давайте я напомню определение и проиллюстрирую примерами.

Медиана — грубо говоря, это значение в середине числового ряда.

Если представить реальные данные, то медиана почти ничего нам не говорит о крайних значениях. И ничто не мешает медиане совпадать с минимальным или максимальным значением.

Например, утверждение «медианная зарплата разработчика мидла — 400 тыс» может на самом деле выглядеть так: 50, 50, 400, 400, 400 или так 400, 400, 400, 900, 900.
Или вообще вот так: 50, 50, 400, 900, 900.

Есть разница на практике? Какой будет обычная зарплата?

Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.

Почему же уважаемые люди используют медиану?

Есть ситуация, в которой медиана действительно надёжнее: это когда данные близки к нормальному распределению: большинство значений собраны в центре графика в виде горба, и выбросов немного. В этом случае обычно среднее гораздо чувствительнее к выбросам, чем медиана.

Например, когда сырые данные опроса по зарплатам звучат вот так: 200, 390, 395, 400, 405, 410, 950.

Невооруженным глазом видно, что первое и последнее значение выбиваются, и если их не учитывать, получим зарплату в 400 тыс. А средним в нашем примере будет 450, или сколько угодно, если кому‑то повезло и он зарабатывает 3 миллиона в месяц.

Я Таня из Семейки Продактов (телеграм) У меня правда чуточку подгорела эта тема, и я очень надеюсь, что тут найдется кто‑то, кто поймет, о чем именно я говорю.

Но чаще всего распределение бывает нормальным на академических примерах, в той же теории вероятности с подбрасыванием кубика. То есть, когда результаты ни от чего не зависят и друг на друга не влияют.

А насколько часто такое бывает в жизни?

Ну то есть, вы можете думать, что у вас в даных обычный горб, а график на самом деле U‑образный график.

Что я хочу сказать? Использовать медиану, не показав или не понимая распределение данных — это манипуляшки. Расчет на то, что все мы плохо помним статистику, а научные термины настолько уважаем, что без достойного повода гуглить не будем.

Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть. И что вы хотите проиллюстрировать, тоже надо учитывать. Там на задней парте, с попкорном уже сидят два профи, работа которых в этом и заключается, и если они говорят, что менеджеры загоняются — менеджеры загоняются.

Комментарии (35)


  1. dyadyaSerezha
    15.08.2025 17:43

    подгорела эта тема

    Интересно, а как это будет на обычном русском?)

    а график на самом деле U-образный график.

    Где там U? Не увидел.

    А в целом, все верно.


    1. vesper-bot
      15.08.2025 17:43

      В примерах его и нет, возможно пропущен, правда и называется это "бимодальное распределение", а не "U-образный", хм. Там кстати с медианой всё вообще шоколадно :)


      1. dyadyaSerezha
        15.08.2025 17:43

        Не бимодальное, а биполярное, и не распределение, а расстройство. Всему вас учи)


        1. vesper-bot
          15.08.2025 17:43

          А это что такое, по-вашему? "Не выиграл, а проиграл, а так всё правильно"


  1. TryDotAtwo
    15.08.2025 17:43

    Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.

    Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении


    1. Gutt
      15.08.2025 17:43

      где 50% выборки меньше, а 50% больше.

      Меньше или равны медиане, больше или равны медиане.


    1. Vsevo10d
      15.08.2025 17:43

      Вот именно, обычно- то как раз мы берём не пять зарплат по отделу, а пять миллионов зарплат в стране, где 30% получают пенсию в 18 тысяч, основная масса где-то пыхтит за тысяч 40 - 100, и ещё в эту выборку попадёт пара десятков миллионеров и пара миллиардеров, и в среднем выйдет, что люди получают 340 тысяч в месяц. И я как научный сотрудник, который должен зарабатывать "200% от средней зп по региону" прекрасно знаю, как высчитывается эта цифра, чтобы и Путин с майскими указами был сыт, и ФОТы целы.

      Так что медиана именно для зарплат рулит при любой более- менее показательной выборке.


      1. lear
        15.08.2025 17:43

        Сейчас в РФ медиана 75к, средняя 90к.
        Разница в 20% относительно большая, но не критичная.

        Если взять 2021 год, то там 40к и 60к, что даёт разницу в 50%.
        Т.е. прогресс в сторону выравнивания есть.

        (Средняя-Медиана)/Медиана

        PS. Зарплаты немного округлил, т.к. это комментарий, а не статья.


        1. QweLoremIpsum
          15.08.2025 17:43

          Всегда было интересно а есть ли цифры по России но без Москвы? и было бы интересно сравнить их с Москвой


          1. lear
            15.08.2025 17:43

            https://rosstat.gov.ru/labor_market_employment_salaries

            Там есть и по субъектам, и по типам предприятий, и гпх.


        1. vanxant
          15.08.2025 17:43

          Не мешайте научному работнику своим скучными цифрами. Ну хочет он 200% от медианы вместо средней — пожелаем ему успеха в его борьбе:)


  1. Vict777
    15.08.2025 17:43

    Даже во всех представленных случаях медианное значение более показательно чем среднее.

    А крайние значения (определенный процент в зависимости от цели) слева и справа обычно специально отбрасывается


  1. lolikandr
    15.08.2025 17:43

    Вообще то медиану используют потому, что это более правдивый показатель при любом распределении. Если медианная зарплата - значит половина людей точно получает эту сумму, а то и больше. А средняя зарплата вообще непонятно что показывает - может 10% людей получают такую сумму, а может и 45%, никто не знает.
    Конечно лучше бы приводили 90ый-процентиль, но и медиана - уже хорошо!


    1. TryDotAtwo
      15.08.2025 17:43

      Ну точно не. Автор в целом тему говорит, просто бугурт не туда


    1. Andy_U
      15.08.2025 17:43

      А средняя зарплата вообще непонятно что показывает

      Нее. Понятно. Если ее умножить на количество сотрудников, то мы получим общую сумму, ушедшую на оплату труда в организации. Т.е. все от задачи зависит.


      1. venanen
        15.08.2025 17:43

        Так получается телега впереди лошади, среднее - это метрика, для которой общая сумма уже известна и является входным параметром для расчета. Средняя ЗП в стране 100 тугриков - ни о чем не говорит, потому что распределение непонятно, а вот средняя 100 тугриков, а медианная - 10 говорит о сильном перекосе зарплат.


        1. Andy_U
          15.08.2025 17:43

          это метрика, для которой общая сумма уже известна и является входным параметром для расчета.

          Кому-то известна, кому-то - нет.


          1. fav0rit
            15.08.2025 17:43

            Да просто нельзя посчитать среднюю, не зная общей суммы. Вам правильно написали...


            1. Kanut
              15.08.2025 17:43

              Ну если есть действительно репрезентативная выборка, то... :)


    1. dng-md
      15.08.2025 17:43

      Если 100 рабовтников получает зп 10.000 тугриков, один получает 100.000, а ещё 100 (эффективных менеджеров) получает 1.000.000 - то какая будет медианная зп ?


      1. tentakle
        15.08.2025 17:43

        А средняя? Вы сами то хоть считали? Даже в этом случае медиана лучше.


  1. Pusk1
    15.08.2025 17:43

    Вот прямо сегодня продакту рассказывал, что медиана для его кейса ни о чём не говорит и продукт на неё никак не влияет. Возили курьеры заказы и сами разбирались кто какой заказ повезёт. Решение за них стала принимать система. Заказов столько же, курьеров столько же, ставка такая же. Ни средняя ни мидиана не изменились и не должны были измениться. Другое дело, что раньше были курьеры, которые зарабатывали 7, а были кто зарабатывал 3. Но это уже другая история про отклонения и возможность найма ребят подешевле.


  1. nikolz
    15.08.2025 17:43

    Медиана - робастная оценка.

    Оценка, на которую не влияют выбросы, называется робастной (robust). 


  1. lear
    15.08.2025 17:43

    Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть.

    Ну тогда стоило привести примеры.
    Когда медиана уместна, а когда другие более показательны.
    А так это больше похоже на наброс, а не на конструктив.

    Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.

    "Когда кажется, креститься надо", ну или хотя бы самому разобраться, прежде чем писать.
    Что вам среднее показывает того, что не показывает медиана в ваших данных?
    Что вы хотели увидеть? Какая цель?


  1. Anton_Menshov
    15.08.2025 17:43

    .... и классический пример Квартета Энскомба : на данные действительно нужно сначала смотреть, а не только среднее\медиану\ и т. д.


  1. SebastianP
    15.08.2025 17:43

    еще полезно динамику зп определять по "среднее геометрическое" : Предположим, например, что человек инвестирует 1000 долларов и получает годовую прибыль в размере +10%, −12%, +90%, −30% и +25%, в результате чего конечная сумма составляет 1609 долларов. Средний процентный рост — это среднее геометрическое годовых коэффициентов роста (1,10, 0,88, 1,90, 0,70, 1,25), а именно 1,0998, то есть среднегодовой рост составляет 9,98 %. Среднее арифметическое этих годовых доходов составляет 16,6 % годовых, что не является значимым средним показателем, поскольку темпы роста не складываются аддитивно.


  1. Earthsea
    15.08.2025 17:43

    Есть еще мода, или модальное значение - самое часто встречающееся число. Например в ряду 25, 50, 50, 50, 100, 400, 500, 1000000, 2000000, 1000000000 это будет 50. В статистике зарплат это самый интересный показатель, но чтобы что-то значимое получилось, надо округлять, допустим до десятков тысяч рублей.


    1. SebastianP
      15.08.2025 17:43

      а вы думаете в названии статьи МОДА в какой коннотации ? ))


  1. iiwabor
    15.08.2025 17:43

    Если честно, то ни средняя, ни медианная зарплата не имеет никакого практического смысла. Что реально имеет значение - это какая зарплата у тебя лично прямо сейчас)


    1. Habr4687544
      15.08.2025 17:43

      Ну так медианная это и показывает: если ткнуть в случайного человека, то у него окажется медианная. А вот средняя с меньшей вероятностью, хотя автору почему-то средняя больше "нравится "


    1. vanxant
      15.08.2025 17:43

      Для предпринимателей средняя как раз имеет смысл. Допустим, вы прикидываете, а не открыть ли IT-подразделение рыл так на 100. Среднюю зарплату айтишников можно тупо умножить на 100 и получить примерный размер ФОТ (фонда оплаты труда). И там уже будет учтён и директор, и стайка студентов-джунов. С медианой вы так не сделаете.


  1. Frostbitten-man
    15.08.2025 17:43

    Совершенно пустой пост.


  1. economist75
    15.08.2025 17:43

    1. Медиана не должна применяться вместо или без Средней.

    2. Средняя важнее, т.к. она применяется вместе с другими ключевыми техниками (ЦПТ, сигмы, квантильный анплиз)

    3. Сравнивать две совокупности/выборки по средним можно, по медианам - почти что нельзя.

    4. Средняя должна считаться по очищенным данным (выбросы - ошибки ввода убираем, выбросы - ЗП топов госкомпаний, протерев глаза, оставляем). В большинстве случаев в журналистике этого никто не делает. Ошибок все меньше, так что пункт самоликвидируется году так к 2030 (по зарплате в России).

    5. Зарплата - лучшая тема для рассуждений обо всем, равнодушных нет. В РФ с некоторыми рук. госкомпаний, получающими 4 млн в день - создаётся идеальная иллюстрация важности Медианы. Именно из-за этих счастливчиков средняя в РФ 90, а медиана 75. И хотя их мало - получают они так много, что дают те самые 20% разницы. Которые порождают 80% народного гнева (правило Парето, но в данном случае шутка).

    Впрочем, ситуация сейчас меняется к лучшему, и это хорошо. Ещё некоторые недовольные забывают что 90 и 75 это до вычета налогов, а свою ЗП до удержаний они не знают. Там не только НДФЛ 13-15%, но и 20% людей с исполнительными листами, корпоративными ипотеками, распоряжениями по квартплате, начетами итд. Прочесть расчетный листок или 2-ндфл могут единицы процентов.


  1. oldmold
    15.08.2025 17:43

    Ещё можно использовать "alpha-trimmed mean" - это такой микс среднего и медианы, который используется в обработке сейсмических данных.


  1. kravian
    15.08.2025 17:43

    Горячо поддерживаю тезис автора о том, что полезно задуматься, какая метрика и для чего считается. Хочу дополнить аргументы, когда медиана хуже.

    Уже было сказано, что а) медиана ближе к настоящему среднему, чем выборочное среднее, когда есть выбросы, (та самая робастность к выбросам), и б) при асимметричном распределении медиана ближе к основной массе наблюдений, чем среднее (все примеры про з/п). Это так, и отсюда же ясны недостатки медианы: а) когда выбросов мало, медиана менее точна, чем среднее. Если вы взяли 10 сотрудников из 1000, изучили их данные и хотите экстраполировать на всю 1000, то в отсутствие выбросов в выборке через среднее это делается точнее, чем через медиану. На самом деле, есть такой показатель, как эксцесс (который четвертый центральный момент), он как раз тесно связан с долей и величиной "очень больших" отклонений - так вот можно прямо найти для эксцесса порог, ниже которого лучше пользоваться средним, а выше - медианой, и часто в реальных данных будет предпочтительно среднее. Не говоря уже о подготовленной выборке, когда выбросы удалены.

    Что касается б), то тут еще проще: да, среднее дальше от моды, чем медиана, но если хочется ближе к моде, то надо использовать саму моду :) В споре про з/п все аргументы в пользу медианы - это аргументы в пользу моды. "Медиана отражает типичное наблюдение" - нет, мода делает это еще лучше.

    P.S. Этим я стараюсь не запретить использование медианы, а сбалансировать комментарии, показав аргументы против медианы - в пользу медианы аргументов достаточно.