Всем привет!
Меня зовут Александр Щукин, я аналитик в СКБ «Контур». В этой статье я расскажу о базовых основах применения t‑критерия Стьюдента.
Для начала предлагаю Вам поучаствовать в викторине: если вы уверенно ответите на все вопросы ниже, то будете освобождены от прочтения этой статьи :-)
Что именно распределяет t-распределение? Что за метрику мы видим на графике?
Как Центральная предельная теорема помогает нам использовать t-распределение?
Что такое критическое значение?
В чем разница между одновыборочным и двухвыборочным тестом?
Что за односторонняя и двусторонняя проверка?
Почему при расчете степеней свобод нужно вычитать 1?
Зачем считать p-value, если есть t-критическое?
Отлично, если вы ответили на все эти вопросы без труда, и это значит, что уровень ваших знаний в статистике выше, чем требуется для прочтения этой статьи.
Если же ответили не на все вопросы, или вы вообще в начале своего пути в изучении статистики, я надеюсь, что эта статья будет вам полезна.
Мотивацией для написания статьи стало желание осветить вещи, которые либо считаются сопутствующими, либо по умолчанию понятными, при изучении темы проверки статистических гипотез. Кроме того, хочется попытаться объяснить и закрепить вопросы которые "на слуху", потому что, увы, даже на некоторых собеседованиях интервьюер, задавая вопросы из этого списка мне, не знал на них правильного ответа.
Итак, впервые с идеей t-теста я столкнулся еще в университете, а потом и на курсах по математической статистике Анатолия Карпова, которые, я думаю, известны многим аналитикам. Алгоритм академического объяснения статистики (на примере t-критерия Стьюдента) всегда примерно одинаковый и предлагает в числе прочего такой порядок погружения в тему:
Меры центральной тенденции и изменчивости
Идея проверки гипотез и статистического вывода
Центральная предельная теорема
t-распределение Стьюдента
t-критерий
Степени свободы
p-value
В целом, ничего сложного, но проблема возникла тогда, когда я решил понять, как эти сущности, термины и законы связаны между собой. У меня родилось множество вопросов, лишь некоторая часть которых представлена в топике этой статьи. Тем не менее, они наиболее важные. Сразу скажу, что не буду углубляться в детали, окружающие эту тему, например, где применяется t-тест, что такое гипотезы, ошибки I и II рода, Z-распределение и прочее. Ответы на эти вопросы желательно получить до прочтения этой статьи, для ее понимания.
Итак.
Что именно распределяет t-распределение? Что за метрику мы видим на графике?
Ответ: график показывает [нормированное] распределение разницы двух средних, что также зовется t-значением. Этот же график показывает распределение нулевой гипотезы о равенстве средних.
Теперь более подробно:
Рассмотрим формулу t-критерия для одновыборочного t-теста и попытаемся в ней разобраться.
где
В числителе находится разница выборочного среднего и среднего, которое дано нам как какая-то известная константа (например, в инструкции к прибору написано, что среднее время работы от батарейки равно 10 часов). А в знаменателе - стандартное отклонение, нормированное на размер выборки. Абстрагируясь от математического смысла, эта формула возвращает величину, которая демонстрирует нормированную разницу средних (говоря чуть сложнее, она показывает, насколько в единицах стандартной ошибки отличается наше среднее от ожидаемого). Это и есть t-значение.
Если мы возьмем, например, 10000 приборов и для каждого посчитаем среднее время работы от аккумулятора, после чего подставим эти средние в формулу выше, мы эмпирически получим форму t-распределения. Нанесем ее на график.

Но какой в этом смысл?
Мы видим, что большинство значений лежат близко к 0 - и это логично. Ведь если в инструкции написано верное среднее время работы, то большинство приборов будут иметь примерно такое же значение, и разница с заявленным временем будет около нуля. Поэтому этот график - ни что иное, как распределение нулевой гипотезы о равенстве средних.
Так, каждый столбик на графике - это то, как отклоняется среднее время работы отдельно взятого прибора от заявленного в инструкции в единицах t-значений.
Причем здесь центральная предельная теорема (ЦПТ)?
Ответ: ЦПТ говорит, что распределение выборочных средних стремится к нормальному. А t-распределение — это распределение нормированной разницы средних, когда настоящая дисперсия неизвестна и мы подставляем выборочную. Благодаря ЦПТ и t-распределению мы уверенно можем анализировать средние даже при одной выборке.
Теперь более подробно:
Мы наглядно продемонстрировали это в примере выше. t-критерий работает с распределением выборочных средних значений, а не с исходным распределением начальной метрики. По Центральной предельной теореме это распределение выборочных средних стремится к нормальному, что позволяет нам использовать знакомые методы анализа.
А t-распределение — это уточнённая версия нормального распределения на случай, когда истинное стандартное отклонение неизвестно и мы вынуждены заменять его выборочным значением.
Почему это так важно понимать?
Вас обязательно спросят об этом на собеседовании
В реальной жизни у вас не будет возможности извлечь 10000 выборок и построить эмпирическое t-распределение. У вас будет всего одна партия с приборами, по которой вы измерите среднее время работы, чтобы сравнить его с тем, что написано в инструкции. 1 партия = 1 выборка = 1 выборочное среднее для проведения t-теста. И вы должны быть четко уверены, что вычисляете не какое-то техническое число, а статистически интерпретируемую величину. Зная ЦПТ и форму t-распределения, мы можем рассчитывать на то, что не ошибемся хотя бы в этом.
Требование нормальности
Именно благодаря ЦПТ в современном мире, насыщенном данными, мы можем применять t-критерий даже к тем показателям, исходное распределение которых не похоже на нормальное. Но здесь легко скатиться в околонаучные споры, поэтому важно расставить акценты.
Сразу оговоримся: автор статьи не делает научных открытий. Всё, о чём мы говорим, — давно известные и проверенные факты.
В литературе действительно встречаются разные трактовки требования нормальности начального распределения. Иногда пишут, что t-тест корректен только для нормальных данных. Однако это не совсем так.
Почему?
Потому что t-тест работает не с исходными данными, а с распределением выборочных средних.

А по Центральной предельной теореме выборочные средние стремятся к нормальному распределению при достаточно больших выборках. То есть даже если исходные данные не нормальны, распределение средних — примерно нормальное, и мы можем применять методы, основанные на нормальности. (Но помимо этого, есть и другие условия применимости t-критерия, такие как гомогенность дисперсий и отсутствие сильных выбросов, поэтому, прежде чем загонять в t-тест экстремально скошенные данные, лучше сначала ознакомиться с условиями применимости).
Почему важно понимать эту логику?
Вас точно спросят об этом на собеседовании
-
Чтобы правильно применять статистику в реальной работе. Если выборка достаточно большая, строгого требования нормальности нет — ЦПТ сделает распределение средних достаточно близким к нормальному. Но прежде чем применять t-тест, всегда нужно смотреть на саму выборку.
Например, представьте исследование, где вы хотите оценить среднее число подписчиков пользователей соцсети. Можно ли просто посчитать среднее по 1000 пользователям? Нет, если среди них 900 аккаунтов с 50 подписчиками и 100 аккаунтов-миллионников. В таком случае изначальное распределение не будет нормальным, и среднее не будет репрезентативной метрикой. Нам следует отказаться от t-теста именно по причине нерепрезентативности среднего, а не из-за формы распределения.
Причем здесь степени свободы?

Казалось бы, это можно просто запомнить и использовать механически, потому что правило в случае t-распределения достаточно простое - df (degrees of freedom) = n-1.
Но какой смысл кроется за этим?
Есть 2 пути, как можно попытаться это объяснить:
интуитивно-понятийно
математически - его можно найти в статье Анатолия Карпова
Я попробую объяснить это, не прибегая к сложным (для автора) математическим конструкциям, которые стоят за этим.
Итак, почему степени свободы так важны в t-распределении (и не только)?
Потому что степени свободы задают форму распределения t-статистики (от их количества зависит “высота хвостов” распределения), а значит - и площадь под графиком распределения, и вероятность, сосредоточенная в этих хвостах. Ниже наглядно видно, что на синем графике (с 1 степенью свободы) вероятность получить сильное отклонение от нуля намного выше, чем на зеленом (с 30 степенями свободы).

Так зачем же вычитать 1?
В поисках ответа на этот вопрос у меня сложилось впечатление, что авторам академической литературы, ровно как и авторам курсов, платят за шифровку этой информации. Все объяснения, которые я находил, формальны, и по умолчанию требуют либо продвинутого понимания статистики и математики, либо бездумного подхода с запоминанием, что
“1 вычитается по причине того, что при расчете т-критерия мы уже задействовали 1 кусок информации, когда рассчитали среднее”.
И что? Мне вот понятнее не стало.
Попробую объяснить это так. Когда мы считаем t-критерий, мы не знаем настоящую дисперсию в генеральной совокупности, поэтому вынуждены заменять её на выборочную. Но есть проблема: если просто поделить сумму отклонений на n (размер выборки), эта выборочная дисперсия почти всегда получится заниженной.
Почему?
Потому что когда мы посчитали среднее, мы автоматически предопределили судьбу одного из наблюдений выборки и оно стало зависимым.
Например
Выборка - росты пяти детей: 140, 150, 155, 160, 165 см.
Считаем среднее: Среднее = 154 см.
Считаем отклонения каждого значения от среднего (первый шаг вычисления дисперсии)
140 – 154 = –14
150 – 154 = –4
155 – 154 = 1
160 – 154 = 6
А для пятого мы считать не будем, а попробуем "угадать". Мы знаем, что сумма всех отклонений от среднего равна нулю. Это математический закон. Получается, нам необязательно знать, что рост последнего ребенка в выборке равен 165 см, мы это можем определить по формуле:
х - 154(среднее) = -14-4+1+6
⇒ х = 165. Это ключевой момент. Получается, что одно из наблюдений зависимо, и если его не убрать, мы недооценим дисперсию.
Из-за такой недооценки дисперсии график распределения стал бы уже, а хвосты — ниже, чем должны быть. А значит, мы бы неправильно оценивали вероятность редких отклонений.
Поэтому из размера выборки и вычитается 1. Это простой способ компенсировать потерянную степень свободы и получить честную, не заниженную оценку разброса данных. Именно это обеспечивает t-критерию правильную форму распределения и корректные выводы.
Одновыборочные и двухвыборочные тесты
Одновыборочный тест - это сравнение выборочной статистики (среднего в случае t-теста) с известным числом (средним временем работы прибора из инструкции в примере выше)
Двухвыборочный тест - это сравнение статистик из двух разных выборок.
Такая классификация тестов применима не для всех распределений (например, в распределении Хи-квадрат возможно применять только односторонний критерий. Чтобы понять, почему - попробуйте построить Хи-квадрат распределение здесь).
Односторонние и двусторонние тесты
Разница между ними заключается в том, ЧТО мы хотим понять из эксперимента. Если вы уверены, что отклонение от среднего возможно только в одну сторону - используйте односторонний тест.
Как правило, в бизнесе придется опираться на двусторонний тест, потому что почти никогда неизвестно, в какую сторону отклонится среднее.
Разница состоит в том, что при alpha = 0.05 в одностороннем тесте вся критическая зона будет собрана в одном из хвостов распределения (если проверяется гипотеза, что выборочное среднее выше известного, то будет собрана в правом хвосте, если ниже - то наоборот). В случае же двустороннего теста, эта критическая область (alpha = 0.05) обозначится с обеих сторон распределения (по 0.025 с каждой).

Из этого, кстати, следует важный вывод - при равных размерах выборки односторонний тест покажет более высокую мощность, чем двусторонний, потому что при двустороннем тесте для отклонения нулевой гипотезы критическая область “дальше” и ее тяжелее пересечь. Это также один из любимых вопросов на собеседованиях, но более подробно останавливаться на этом здесь не буду, т.к. это полноценная отдельная тема.
Откуда берется критическое t-значение?

В доисторические времена, когда не было python и мгновенных вычислений, проверка гипотез базировалась на вычислениях критических значений распределения. Рассчитанные значения заносились в таблицы, которые потом использовались для оценки экспериментов. Пример такой таблицы
Критическое значение - это такая точка на оси x, за которой лежат маловероятные значения.
Иными словами, критическое значение - это квантиль t-распределения, или такое число, что вероятность при истинной нулевой гипотезе попасть правее него равна alpha (или alpha/2 при двухстороннем тесте).
Чтобы найти критические значения t-распределения при разных степенях свободы и уровнях значимости, исторически приходилось решать интегральное уравнение:
то есть подбирать такое значение при котором площадь хвоста t-распределения равна заданному уровню значимости.
Это делалось численными методами, и результаты собирались в таблицы
Сегодня всё значительно проще: во-первых, эти таблицы давно существуют, а во-вторых, критическое значение можно получить напрямую программно — например, с использованием функции ppf (percent point function) или quantile в Python, R или Excel.
Зачем от t-критического переходить к расчету p-value?
Казалось бы, что когда мы определили критическую зону и оценили, попадает ли наше t-значение в эту зону, мы имеем все карты на руках для оценки гипотезы. И это действительно так. Однако это имеет один существенный недостаток: мы не можем оценить вероятность получения такого или еще более сильного отклонения от 0, если верна нулевая гипотеза.
Именно для этого рассчитывается p-value - он отвечает на вопрос “а насколько вероятно получить такое отклонения при верной нулевой гипотезе?”
Резюмируя, p-value полезнее по следующим причинам:
p-value показывает силу эффекта относительно нулевой гипотезы
p-value можно сравнивать между исследованиями
p-value можно интерпретировать независимо от выбранного α
p-value позволяет адаптивно выбирать пороги значимости
p-value применяется в мета-анализах, где критические значения неудобны