У доски стоит менеджер и обосновывает фичу, показывая медианные значения. На задней парте в обнимочку, с попкорном, сидят аналитик с датасайентистом.
А почему ты используешь здесь именно медиану?
Потому что она, в отличие от среднего, отбрасывает крайние значения.
Учитель по математике замер примерно в этой позе.

Этот пост я решила написать, потому что у меня подгорело. Продакты и исследователи накрепко запомнили, что среднее усредняет 2 крайних значения (это когда Катя ростом 1 метр, Вася ростом 2 метра, и по средним меркам им шьют джинсы на 1.50) и действительно стали почти повсеместно использовать медиану.
Её используют просто по умолчанию, в любой ситуации.
Буквально вчера в одном уважаемом исследовании я прочитала про «медианные зарплаты айтишников». Ну и да, когда их спрашиваешь, что такое медиана, ребята отвечают про то, что она корректнее показывает обычную зарплату и втихую гуглят определение.
Когда это верно и что не так? Давайте я напомню определение и проиллюстрирую примерами.
Медиана — грубо говоря, это значение в середине числового ряда.
Если представить реальные данные, то медиана почти ничего нам не говорит о крайних значениях. И ничто не мешает медиане совпадать с минимальным или максимальным значением.
Например, утверждение «медианная зарплата разработчика мидла — 400 тыс» может на самом деле выглядеть так: 50, 50, 400, 400, 400 или так 400, 400, 400, 900, 900.
Или вообще вот так: 50, 50, 400, 900, 900.
Есть разница на практике? Какой будет обычная зарплата?
Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.
Почему же уважаемые люди используют медиану?
Есть ситуация, в которой медиана действительно надёжнее: это когда данные близки к нормальному распределению: большинство значений собраны в центре графика в виде горба, и выбросов немного. В этом случае обычно среднее гораздо чувствительнее к выбросам, чем медиана.

Например, когда сырые данные опроса по зарплатам звучат вот так: 200, 390, 395, 400, 405, 410, 950.
Невооруженным глазом видно, что первое и последнее значение выбиваются, и если их не учитывать, получим зарплату в 400 тыс. А средним в нашем примере будет 450, или сколько угодно, если кому‑то повезло и он зарабатывает 3 миллиона в месяц.
Я Таня из Семейки Продактов (телеграм) У меня правда чуточку подгорела эта тема, и я очень надеюсь, что тут найдется кто‑то, кто поймет, о чем именно я говорю.
Но чаще всего распределение бывает нормальным на академических примерах, в той же теории вероятности с подбрасыванием кубика. То есть, когда результаты ни от чего не зависят и друг на друга не влияют.
А насколько часто такое бывает в жизни?

Ну то есть, вы можете думать, что у вас в даных обычный горб, а график на самом деле U‑образный график.
Что я хочу сказать? Использовать медиану, не показав или не понимая распределение данных — это манипуляшки. Расчет на то, что все мы плохо помним статистику, а научные термины настолько уважаем, что без достойного повода гуглить не будем.
Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть. И что вы хотите проиллюстрировать, тоже надо учитывать. Там на задней парте, с попкорном уже сидят два профи, работа которых в этом и заключается, и если они говорят, что менеджеры загоняются — менеджеры загоняются.
Комментарии (35)
TryDotAtwo
15.08.2025 17:43Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.
Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении
Gutt
15.08.2025 17:43где 50% выборки меньше, а 50% больше.
Меньше или равны медиане, больше или равны медиане.
Vsevo10d
15.08.2025 17:43Вот именно, обычно- то как раз мы берём не пять зарплат по отделу, а пять миллионов зарплат в стране, где 30% получают пенсию в 18 тысяч, основная масса где-то пыхтит за тысяч 40 - 100, и ещё в эту выборку попадёт пара десятков миллионеров и пара миллиардеров, и в среднем выйдет, что люди получают 340 тысяч в месяц. И я как научный сотрудник, который должен зарабатывать "200% от средней зп по региону" прекрасно знаю, как высчитывается эта цифра, чтобы и Путин с майскими указами был сыт, и ФОТы целы.
Так что медиана именно для зарплат рулит при любой более- менее показательной выборке.
lear
15.08.2025 17:43Сейчас в РФ медиана 75к, средняя 90к.
Разница в 20% относительно большая, но не критичная.Если взять 2021 год, то там 40к и 60к, что даёт разницу в 50%.
Т.е. прогресс в сторону выравнивания есть.(Средняя-Медиана)/Медиана
PS. Зарплаты немного округлил, т.к. это комментарий, а не статья.
QweLoremIpsum
15.08.2025 17:43Всегда было интересно а есть ли цифры по России но без Москвы? и было бы интересно сравнить их с Москвой
lear
15.08.2025 17:43https://rosstat.gov.ru/labor_market_employment_salaries
Там есть и по субъектам, и по типам предприятий, и гпх.
vanxant
15.08.2025 17:43Не мешайте научному работнику своим скучными цифрами. Ну хочет он 200% от медианы вместо средней — пожелаем ему успеха в его борьбе:)
Vict777
15.08.2025 17:43Даже во всех представленных случаях медианное значение более показательно чем среднее.
А крайние значения (определенный процент в зависимости от цели) слева и справа обычно специально отбрасывается
lolikandr
15.08.2025 17:43Вообще то медиану используют потому, что это более правдивый показатель при любом распределении. Если медианная зарплата - значит половина людей точно получает эту сумму, а то и больше. А средняя зарплата вообще непонятно что показывает - может 10% людей получают такую сумму, а может и 45%, никто не знает.
Конечно лучше бы приводили 90ый-процентиль, но и медиана - уже хорошо!Andy_U
15.08.2025 17:43А средняя зарплата вообще непонятно что показывает
Нее. Понятно. Если ее умножить на количество сотрудников, то мы получим общую сумму, ушедшую на оплату труда в организации. Т.е. все от задачи зависит.
venanen
15.08.2025 17:43Так получается телега впереди лошади, среднее - это метрика, для которой общая сумма уже известна и является входным параметром для расчета. Средняя ЗП в стране 100 тугриков - ни о чем не говорит, потому что распределение непонятно, а вот средняя 100 тугриков, а медианная - 10 говорит о сильном перекосе зарплат.
Andy_U
15.08.2025 17:43это метрика, для которой общая сумма уже известна и является входным параметром для расчета.
Кому-то известна, кому-то - нет.
Pusk1
15.08.2025 17:43Вот прямо сегодня продакту рассказывал, что медиана для его кейса ни о чём не говорит и продукт на неё никак не влияет. Возили курьеры заказы и сами разбирались кто какой заказ повезёт. Решение за них стала принимать система. Заказов столько же, курьеров столько же, ставка такая же. Ни средняя ни мидиана не изменились и не должны были измениться. Другое дело, что раньше были курьеры, которые зарабатывали 7, а были кто зарабатывал 3. Но это уже другая история про отклонения и возможность найма ребят подешевле.
nikolz
15.08.2025 17:43Медиана - робастная оценка.
Оценка, на которую не влияют выбросы, называется робастной (robust).
lear
15.08.2025 17:43Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть.
Ну тогда стоило привести примеры.
Когда медиана уместна, а когда другие более показательны.
А так это больше похоже на наброс, а не на конструктив.Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.
"Когда кажется, креститься надо", ну или хотя бы самому разобраться, прежде чем писать.
Что вам среднее показывает того, что не показывает медиана в ваших данных?
Что вы хотели увидеть? Какая цель?
Anton_Menshov
15.08.2025 17:43.... и классический пример Квартета Энскомба : на данные действительно нужно сначала смотреть, а не только среднее\медиану\ и т. д.
SebastianP
15.08.2025 17:43еще полезно динамику зп определять по "среднее геометрическое" : Предположим, например, что человек инвестирует 1000 долларов и получает годовую прибыль в размере +10%, −12%, +90%, −30% и +25%, в результате чего конечная сумма составляет 1609 долларов. Средний процентный рост — это среднее геометрическое годовых коэффициентов роста (1,10, 0,88, 1,90, 0,70, 1,25), а именно 1,0998, то есть среднегодовой рост составляет 9,98 %. Среднее арифметическое этих годовых доходов составляет 16,6 % годовых, что не является значимым средним показателем, поскольку темпы роста не складываются аддитивно.
Earthsea
15.08.2025 17:43Есть еще мода, или модальное значение - самое часто встречающееся число. Например в ряду 25, 50, 50, 50, 100, 400, 500, 1000000, 2000000, 1000000000 это будет 50. В статистике зарплат это самый интересный показатель, но чтобы что-то значимое получилось, надо округлять, допустим до десятков тысяч рублей.
iiwabor
15.08.2025 17:43Если честно, то ни средняя, ни медианная зарплата не имеет никакого практического смысла. Что реально имеет значение - это какая зарплата у тебя лично прямо сейчас)
Habr4687544
15.08.2025 17:43Ну так медианная это и показывает: если ткнуть в случайного человека, то у него окажется медианная. А вот средняя с меньшей вероятностью, хотя автору почему-то средняя больше "нравится "
vanxant
15.08.2025 17:43Для предпринимателей средняя как раз имеет смысл. Допустим, вы прикидываете, а не открыть ли IT-подразделение рыл так на 100. Среднюю зарплату айтишников можно тупо умножить на 100 и получить примерный размер ФОТ (фонда оплаты труда). И там уже будет учтён и директор, и стайка студентов-джунов. С медианой вы так не сделаете.
economist75
15.08.2025 17:43Медиана не должна применяться вместо или без Средней.
Средняя важнее, т.к. она применяется вместе с другими ключевыми техниками (ЦПТ, сигмы, квантильный анплиз)
Сравнивать две совокупности/выборки по средним можно, по медианам - почти что нельзя.
Средняя должна считаться по очищенным данным (выбросы - ошибки ввода убираем, выбросы - ЗП топов госкомпаний, протерев глаза, оставляем). В большинстве случаев в журналистике этого никто не делает. Ошибок все меньше, так что пункт самоликвидируется году так к 2030 (по зарплате в России).
Зарплата - лучшая тема для рассуждений обо всем, равнодушных нет. В РФ с некоторыми рук. госкомпаний, получающими 4 млн в день - создаётся идеальная иллюстрация важности Медианы. Именно из-за этих счастливчиков средняя в РФ 90, а медиана 75. И хотя их мало - получают они так много, что дают те самые 20% разницы. Которые порождают 80% народного гнева (правило Парето, но в данном случае шутка).
Впрочем, ситуация сейчас меняется к лучшему, и это хорошо. Ещё некоторые недовольные забывают что 90 и 75 это до вычета налогов, а свою ЗП до удержаний они не знают. Там не только НДФЛ 13-15%, но и 20% людей с исполнительными листами, корпоративными ипотеками, распоряжениями по квартплате, начетами итд. Прочесть расчетный листок или 2-ндфл могут единицы процентов.
oldmold
15.08.2025 17:43Ещё можно использовать "alpha-trimmed mean" - это такой микс среднего и медианы, который используется в обработке сейсмических данных.
kravian
15.08.2025 17:43Горячо поддерживаю тезис автора о том, что полезно задуматься, какая метрика и для чего считается. Хочу дополнить аргументы, когда медиана хуже.
Уже было сказано, что а) медиана ближе к настоящему среднему, чем выборочное среднее, когда есть выбросы, (та самая робастность к выбросам), и б) при асимметричном распределении медиана ближе к основной массе наблюдений, чем среднее (все примеры про з/п). Это так, и отсюда же ясны недостатки медианы: а) когда выбросов мало, медиана менее точна, чем среднее. Если вы взяли 10 сотрудников из 1000, изучили их данные и хотите экстраполировать на всю 1000, то в отсутствие выбросов в выборке через среднее это делается точнее, чем через медиану. На самом деле, есть такой показатель, как эксцесс (который четвертый центральный момент), он как раз тесно связан с долей и величиной "очень больших" отклонений - так вот можно прямо найти для эксцесса порог, ниже которого лучше пользоваться средним, а выше - медианой, и часто в реальных данных будет предпочтительно среднее. Не говоря уже о подготовленной выборке, когда выбросы удалены.
Что касается б), то тут еще проще: да, среднее дальше от моды, чем медиана, но если хочется ближе к моде, то надо использовать саму моду :) В споре про з/п все аргументы в пользу медианы - это аргументы в пользу моды. "Медиана отражает типичное наблюдение" - нет, мода делает это еще лучше.
P.S. Этим я стараюсь не запретить использование медианы, а сбалансировать комментарии, показав аргументы против медианы - в пользу медианы аргументов достаточно.
dyadyaSerezha
Интересно, а как это будет на обычном русском?)
Где там U? Не увидел.
А в целом, все верно.
vesper-bot
В примерах его и нет, возможно пропущен, правда и называется это "бимодальное распределение", а не "U-образный", хм. Там кстати с медианой всё вообще шоколадно :)
dyadyaSerezha
Не бимодальное, а биполярное, и не распределение, а расстройство. Всему вас учи)
vesper-bot
А это что такое, по-вашему? "Не выиграл, а проиграл, а так всё правильно"