Привет! На связи Серёжа и Маша, и это третья часть в нашей серии обучений по статистике. В прошлых статьях мы разобрали, как оценить среднюю удовлетворенность пользователей и как её сравнить. Сегодня мы научимся анализировать взаимосвязь качественных переменных между собой. 

z-критерий для пропорций

Давайте представим, что мы решили запустить A/B-тест, чтобы проверить, помогает ли новая версия дизайна успешно завершать сценарий. Допустим, мы замерили поведение 1000 пользователей старой версии и 1000 новой. Получили 324 успешных прохождения сценария на старой версии и 392 на новой.

Действительно ли новая версия дизайна более понятна и удобна?

Или эти изменения обоснованы только случайностью?

Ответить на эти вопросы нам поможет z-тест для пропорций.

Для начала запишем в таблицу результаты нашего A/B теста. 

Затем переведём абсолютные значения успехов в доли. Чтобы сделать это, разделим количество успехов (324 и 392) на размер выборки (1000). 

Значение z-критерия можно рассчитать по следующей формуле:

Легенда:

p1, p2 — доля успешного прохождения сценария в каждом из дизайнов;

N — суммарный объём обеих выборок (в нашем случае 2000);

P — о нём скажем ниже;

n1, n2 — размеры выборок (в нашем случае 1000 и 1000).

❗️ Во многих источниках вы можете встретить версию z-теста без корня в числителе. Версия, приводимая нами, лучше работает на выборках маленького размера. В то же время она не хуже оригинала работает с выборками большого размера. Поэтому мы рекомендуем всегда использовать вариант, приведённый здесь.

Что же такое P? 

P — это дробь, в числителе которой находится общее количество успешных прохождений сценария для обоих дизайнов, а в знаменателе — суммарный объём выборок. 

В нашем случае P = (324+392)/1000 =  0,358. А (1 - P), соответственно, 0,642.

Теперь подставим все наши значения в формулу, чтобы получить значение z-критерия. 

В нашем случае он равен -3,17. 

Далее следует воспользоваться онлайн-калькулятором и рассчитать для z соответствующий показатель p. 

Нажмём «Compute P» и получим:

Значение p получилось меньше, чем 0,05 (о том, почему именно 0,05 — читайте в первой статье). Значит, наши результаты статистически значимы и новая версия дизайна действительно помогает пользователям эффективнее справляться со сценарием. 

Критерий Хи-квадрат

z-тест помогает нам, когда мы имеем дело с двумя пропорциями. Однако что делать в более сложных ситуациях? Давайте представим, что мы спросили пользователей «Как часто вы сталкиваетесь с техническими проблемами?» и предложили следующие варианты ответов:

  • Еженедельно

  • Ежемесячно

  • Реже раза в месяц

И получили следующие результаты: 

Навскидку мы видим, что сотрудники испытывают технические проблемы реже, но как мы можем подтвердить это статистически? В такой и других задачах, в которых нужно проверить связь двух качественных переменных между собой, нам поможет критерий Хи-квадрат. Давайте научимся его рассчитывать. 

Хи-квадрат рассчитывается по следующей формуле:

Легенда:

О — фактическая частота, количество раз, которое сочетание признаков встретилось в нашей выборке. Например, сочетание признака «Бухглатер» и «Ежемесячно» встретилось в нашем исследовании 233 раза.

E — ожидаемая частота, количество раз, которое сочетание признаков  встретилось бы, если бы они были независимы друг от друга. Как рассчитать ожидаемые частоты, мы разберём ниже. 

Чтобы рассчитать Хи-квадрат, нужно посчитать такую дробь для каждого сочетания признаков, а затем просуммировать эти дроби между собой. Чем больше значение суммы, тем более значима связь между переменными.

Для начала нам нужно посчитать количество значений в каждом столбце и строке. А также общее количество всех наших наблюдений. 

Далее рассчитаем так называемые ожидаемые частоты. Для сотрудников, которые встречаются с техническими проблемами еженедельно, ожидаемая частота будет рассчитываться следующим образом: нужно умножить количество ответов всех сотрудников (371) на количество всех ответов «Еженедельно» (439) и разделить на общий размер выборки (1511). 

Чтобы получить ожидаемую частоту для, например, бухгалтеров, которые сталкиваются с проблемами реже раза в месяц,  нужно умножить общее количество бухгалтеров в выборке (849) на общее количество ответов «Реже раза в месяц» (681) и разделить на размер выборки (1511). Таким способом нужно рассчитать ожидаемую частоту для каждого сочетания признаков из оригинальной таблицы. В итоге получится таблица ожидаемых частот, как на скриншоте выше.

Следующий шаг — рассчитать дробь, в числителе которой будет квадрат разности ожидаемой и фактической частоты, а в знаменателе — ожидаемая частота. Сделать это нужно для каждой ячейки. В итоге получаем таблицу:

Чтобы получить итоговое значение Хи-квадрат, просуммируем значения в каждой из ячеек.

И последний штрих. Необходимо рассчитать показатель, который называется «количество степеней свободы». Он поможет нам в определении значения, с которым мы будем сравнивать получившееся у нас значение Хи-квадрата.

Посчитать его очень просто: нужно вычесть 1 из количества строк и из количества столбцов в таблице и перемножить между собой, т.е. в нашем случае (3-1)*(3-1) = 4. 

Теперь снова воспользуемся онлайн-калькулятором и введём получившееся значение Хи-квадрат и степеней свободы (DF). 

На выходе получаем значение p, которое снова оказывается меньше чем наша альфа (0,05).

Какой вывод мы можем сделать 

Должность сотрудника статистически значимо связана с частотой возникновения технических проблем. 

❗️ Важно отметить, что критерий Хи-квадрат чувствителен к количеству наблюдений. Если в таблице ожидаемых частот больше 20% ячеек, значение которых равняется или меньше 5, хи-квадрат может выдавать некорректные значения. 

Давайте рассмотрим исходный опрос, но с другим распределением ответов: 

Рассчитаем ожидаемые частоты:

В таблице ~40% ячеек, значение которых равно или меньше 5, а значит применять Хи-квадрат нельзя. В таком случае стоит увеличить размер выборки.  Если это невозможно, то следует воспользоваться точным F-критерием Фишера. К сожалению, рассчитать его в Excel проблематично, поэтому лучше воспользоваться помощью аналитика, владеющего пакетами для обработки данных в R или Python.

Заключение

z-тест и Хи-квадрат помогают нам анализировать качественные переменные. С их помощью можно проверить результаты A/B-теста или гипотезу о связи между двумя переменными. Однако сегодня мы в первый раз встретились с тем, что некоторые критерии имеют требования к исследуемым данным. Так, Хи-квадрат нельзя использовать, если в таблице ожидаемых частот более чем 20% ячеек имеют значение равное или меньше 5. 

С подобными ограничениями мы встретимся и в будущем, когда будем говорить про регрессию. А в следующей статье мы научимся проверять наличие линейной зависимости между переменными с помощью коэффициента корреляции.

Комментарии (0)