Привет! На связи Серёжа, UX-исследователь Контура. А это наш пятый текст по статистике. В предыдущих частях мы с вами научились строить доверительные интервалы, сравнивать средние и оценивать связи качественных и количественных переменных. Однако применение всех этих инструментов теряет смысл, если вы применяете их на некачественно собранных или некачественно предобработанных данных. 

В этой статье мы расскажем о нескольких приёмах, которые позволят вам подготовить данные к анализу. Разберём, как обеспечить репрезентативность выборки и как определить и очистить данные от выбросов.

Давайте представим, что мы с вами работаем исследователями в Контур.КЭДО — сервисе для обмена электронными кадровыми документами. В один день к нам приходит продакт и спрашивает: «Исследователь, а связаны ли как-то количество документов, которые обрабатывает человек, и его удовлетворённость сценарием отправки документа?» Немного почесав затылок, мы понимаем, что количество отправляемых документов можем собрать из метрик, а про удовлетворённость можно спросить в опросе. 

В этой статье мы не будем разбирать конкретные методы анализа данных для ответа на вопрос продакта, а только научимся корректно их собирать и подготавливать. 

Метрики можно собрать в любой момент, а вот опрос лучше запустить пораньше. Поэтому с него и начнём.

Репрезентативность

Самой главной характеристикой выборки является репрезентативность. Репрезентативность — это обеспечение в выборке наличия всех видов единиц генеральной совокупности в достаточном количестве.

Она имеет качественное выражение — в выборке должны присутствовать все значимые категории пользователей. И количественное — значимые категории должны присутствовать в тех же пропорциях, что и в генеральной совокупности.

Важно! Как видно из определения, размер выборки напрямую не связан с её репрезентативностью. Поэтому высказывания в духе: «Наша выборка нерепрезентативна, потому что в ней менее n респондентов» — грубая ошибка. 

Как же нам получить репрезентитвную выборку? Начнём с качественного измерения. 

В начале нам нужно решить, на какие значимые категории делятся наши пользователи. Может быть, должность? Например, кадровики отправляют документы по более сложным маршрутам согласования, чем сотрудники, и поэтому количество отправленных документов у них сильнее влияет на удовлетворённость? А может быть возраст? Молодые люди чаще имеют более высокий уровень цифровых компетенций, и им без разницы: отправить 1 документ или 100. Для возрастных же пользователей отправка каждого нового документа может превращаться в отдельный квест. 

Это решение стоить принять вместе с командой на основе уже известных фактов о пользователях. 

Допустим, для нашего исследования мы решили, что значимой категорией является должность пользователя (кадровик / линейный руководитель / сотрудник).

Важно! Всегда, когда мы говорим о репрезентативности, мы говорим о репрезентативности только по определенным признакам. Например, по нашему решению выборка репрезентативна по должности и возрасту, но вполне может быть не репрезентативной по гендеру, региону, росту и т.п. И это абсолютно нормально.

Итак, с качественным выражением разобрались: все значимые группы пользователей должны присутствовать в нашей выборке. Что же делать с количественным? Всё просто. В нашей выборке процент каждой из категорий должен быть таким же, как и в генеральной совокупности. Например, если среди наших пользователей 10% кадровиков, то и в выборке их должно быть 10%. 

Чаще всего в UX-исследователях используют рандомизированную вероятностную выборку. Простыми словами, мы составляем список подходящих людей и пытаемся с ними проконтактировать: в почте, по телефону, в продукте. В теории репрезентативность обеспечивается уже засчёт этого — если предположить, что сотрудник и руководитель одинаково часто отвечают на призыв пройти опрос из письма, в итоговую выборку они попадут в нужной пропорции. Например, если руководителей 10 000, а сотрудников 5 000, то, отправив письма, конверсия которых равна 1%, мы получим 100 и 50 ответов соответственно, что будет соответствовать пропорциям в генеральной совокупности. Однако на практике это часто не так. Разные группы пользователей с разным энтузиазмом откликаются на наши призывы, кто-то читает письма чаще, а кто-то реже. Из-за этого пропорции в итоговой выборке почти всегда отличаются от пропорций в генеральной совокупности.

Что же делать в такой ситуации? Разберём на примере. Представим, что в нашей генеральной совокупности 10% кадровиков, 20% линейных руководителей и 70% рядовых сотрудников. Мы провели опрос, в котором нам ответило 400 человек, из них: 120 кадровики (20%), 80 руководители (20%) и 200 сотрудники (50%). Кадровиков перебрали почти в 2 раза, а сотрудников, наоборот, недобрали. Существует несколько выходов из этой ситуации.

Первый — добрать необходимое количество пользователей. Однако на практике исследователь часто ограничен временем и бюджетом, поэтому далеко не всегда этот способ возможен.

Второй — удалить несколько значений, чтобы итоговые пропорции совпадали с пропорциями генеральной совокупности. Для этого сначала определим, кого из пользователей мы больше всего не добрали? Очевидно, в данном случае это сотрудники. Наша задача сейчас состоит в том, чтобы понять, какого размера выборка должна быть, чтобы в ней было 200 сотрудников, но сотрудники составляли в ней 70%, а не 50%? 

Для этого нужно составить и решить следующее уравнение:

В числителе дроби — количество самых дефицитных ответов, в знаменателе — неизвестнный нам размер обрезанной выборки, а равняется это всё доле, которую должны по итогу занимать дефицитные пользователи.

В данном случае х=285,7. Округлим до 286. Получается, выборка должна быть размером 286, чтобы 200 сотрудников составляли в ней 70%. Теперь нам нужно удалить из выборки лишних кадровиков и руководителей. Сделать это очень просто. Кадровиков в итоговой выборке должно быть 10%. 10% от 286 это 28,6, округлим до 29. Всего у нас есть 120 ответов кадровиков, соответственно нам нужно удалить 120-29 = 91 случайных ответов кадровиков. Руководителей должно быть 20%, это 57. 80-57 = 23, т.е. нужно удалить 23 случайных ответа. 

Важно! Удалять ответы нужно именно случайно. Ни в коем случае нельзя удалять ответы, которые не укладываются в вашу картину мира. Единственный критерий, которым можно выбирать ответы для удаления, — случайность.

Третий способ — умножить каждое значение в выборке на определенный коэффициент, чтобы скомпенсировать перекос в данных. Этот метод также называется взвешивание. Чтобы получить коэффициент, нужно разделить долю пользователей в генеральной совокупности на её долю в выборке. Например, для кадровиков этот коэффициент будет равен 0,1/0,2 = 0,5, для руководителей 0,2/0,2 = 1, для сотрудников 0,7/0,5 = 1,4. Далее нужно каждый из ответов представителей группы домножить на соответствующий коэффициент. 

Например, мы попросили пользователей оценить продукт от 1 до 10. Если кадровик поставил нам 10 баллов, они превратятся в 10*0,5 = 5. Если сотрудник поставил нам 4 балла, они превратятся в 4*1,4 = 5,6. Аналогично мы делаем и с качественными переменными. Например, если мы спросили про предпочитаемую операционную систему, то каждый из кадровиков, ответивший Windows, будет засчитан не за целого человека, а за 0,5 человека. 

Однако такие манипуляции с данными не проходят бесследно, наши данные становятся менее качественными. Чтобы скомпенсировать это при дальнейших рассчётах, принято корректировать размер выборки в меньшую сторону. Чтобы рассчитать новый размер выборки, применяют следующую формулу:

, где в числителе — квадрат суммы коэффициентов, умноженных на соответствующее число респондентов, а в знаменателе — сумма квадратов коэффициентов, умноженных на соответствующее число респондентов. 

Разберём на примере. Для начала представим в табличной форме количество наших респондентов и коэффициенты.

Затем рассчитаем числитель нашей дроби.

И знаменатель.

Наконец, посчитаем значение нашей дроби.

Это и будет размером нашей выборки с учётом взвешивания. В рассчетах доверительных интервалов и в других способах анализа мы должны будем считать размер выборки равным 360, а не 400. При этом никакие ответы вырезать не нужно.

Важно! Все эти приемы стоит использовать только тогда, когда мы пытаемся сделать вывод обо всех пользователях, а не только о каком-то сегменте. Например, если мы хотим узнать удовлетворённость всех пользователей. Если же мы хотим узнать удовлетворённость только кадровиков или сравнить удовлетворенность кадровиков с удовлетворенностью сотрудников, мы берём все их ответы и рассчитываем, что нужно, без дополнительных манипуляций с данными.

Выбросы

Отлично, данные опроса мы подготовили. Теперь перейдём к метрикам. Нам интересно, сколько документов отправил каждый из ответивших нам в опросе. В отличие от вопроса про «Оцените от 1 до 10», где ответ соответственно принимает значение от 1 до 10, метрики могут принимать значение в большем диапазоне. Допустим, средний наш пользователь отправляет 10 документов в день. Однако кто-то из них отправляет всего 1, кто-то 15, а кто-то 10000. Такие выбивающиеся значения называют выбросами. Выбросы могут существенно влиять на результаты проверки статистических гипотез, поэтому перед анализом важно очистить от них нашу выборку. 

Давайте разберемся, как определить выброс. 

Для определения выбросов существует несколько методик, в этой статье мы рассмотрим z-оценку. Чтобы её провести, нужно рассчитать показатель z для каждого элемента нашей выборки. Рассчитывается он по следующей формуле:

, где

x — элемент выборки;

μ — среднее арифметическое;

σ — стандартное отклонение.

Попробуем его на практике! Для начала выгрузим наши данные в Excel. 

Затем рассчитаем среднее значение с помощью функции =СРЗНАЧ()

После — стандартное отклонение по формуле =СТАНДОТКЛОН.В()

И наконец, рассчитаем z-показатель для каждого элемента нашей выборки. Также сразу после этого отсортируем z-показатель от наибольшего к наименьшему.

Итак, для каждого из элементов нашей выборки мы рассчитали z-показатель. Какие же значения z-показателя обозначают выброс? Выбросами считаются все элементы, в которых z-показатель либо больше чем 3, либо меньше чем -3. В нашем случае выбросами получились значения 1384 и 751. Выбросов «снизу» в нашей выборке нет.

Что же нам делать с этими 1384 и 751? Чтобы ответить на этот вопрос, нужно понять, а почему они получились такими большими? Может быть, у нас неправильно пишется метрика? А может быть, мы смогли выцепить уникальный пользовательский сценарий? Если вы считаете, что выбросы обусловлены какой-то технической ошибкой или ошибкой в проектировании выборки, то лучше всего будет просто удалить их. Если же вы считаете, что эти цифры — тоже часть реальности, просто в экстремальном виде, то можно заменить их на максимальные (или минимальные) невыбросовые значения. Например, в нашем случае мы бы заменили 1384 и 751 на 46.

Заключение

В этом тексте мы с вами познакомились с приёмами, которые помогут вам получить свободные от искажений данные, пригодные для анализа. Помните, что качество данных — всегда на первом месте. Если данные некачественные, то никакой способ анализа не поможет вам получить инсайты для улучшения пользовательского опыта. 

Этот текст — последний в нашей серии обучающих статей по статистике. Мы с вами научились строить доверительные интервалы, строить средние, искать зависимости между качественными и количественными переменными, а также готовить данные к анализу. Этого набора навыков хватает для решения большинства задач. Однако мир статистики намного шире и глубже, чем представили его для вас мы, поэтому не бойтесь погрузиться в него самостоятельно! Этот мир прекрасен не только тем, что позволяет доставать из цифр ценные инсайты по улучшению пользовательского опыта, но и прекрасен сам по себе.

Наша серия текстов подошла к концу, но мы всё ещё будем рады ответить на ваши вопросы в комментариях или даже отдельной статьёй. 

Комментарии (0)