
На связи Ульяна Айкович, UX-исследователь и адепт статистики из БКС Мир Инвестиций. Сегодня я расскажу, в каких случаях применять статистические тесты, как легко реализовать их в гугл-таблицах, а также, как интерпретировать результат этих тестов. Не бойтесь, будет много практики и совсем немного важной теории.
Когда мы проводим тест первого клика (First click test), у нас почти всегда возникают два базовых вопроса:
Нажимают ли пользователи на ту самую «правильную» зону экрана чаще, чем если бы выбирали случайно?
Отличается ли поведение пользователей между двумя версиями интерфейса?
Для ответа на эти вопросы есть два инструмента из статистики — биномиальный тест и χ²-тест.
Часть 1.
Представьте задачу: у вас есть экран с несколькими зонами. В нашем примере, мы будем проверять кнопку “избранное” в интерфейсе Портфеля, и по логике пользователь должен нажать на одну конкретную — кнопка звездочки “Избранное”. Вы проводите тест первого клика и видите: из 100 участников 45 нажали именно на проверяемую область.
Перед нами возникает вопрос: это хороший результат или люди могли нажимать на эту кнопку просто случайно, без понимания?
Чтобы ответить на него, нужно понять, что бы произошло при случайном выборе. Если кнопок четыре, то вероятность угадать правильную при случайном клике — 1/4. Значит, если бы пользователи кликали наугад, мы ожидали бы около 25 кликов на эту кнопку из 100. Но мы увидели 45. Это заметно больше. Теперь нужно понять: настолько ли больше, что это уже нельзя объяснить случайностью? Здесь на помощь приходит статистика с биноминальным тестом!
Биноминальный тест поможет проверить, отличается ли доля успехов (например, доля кликов в целевую зону) от той доли, которую мы ожидали бы при случайном выборе. Говоря про наш пример, он позволит подсчитать вероятность того, что при случайном выборе (с шансом 1/4) мы вдруг получим 45 или больше попаданий в «правильную» кнопку. Если эта вероятность очень мала — например, меньше 5% (p < 0.05) — мы можем сделать вывод: «Ага, похоже, люди действительно осознанно выбирают эту кнопку, а не кликают куда попало».
Если же вероятность получается высокой (p > 0.05), значит, разница между ожидаемым (25) и фактическим (45) не так уж впечатляет. И тогда мы осторожно заключаем: «Пока нет уверенности, что эта зона работает лучше, чем случайный клик».
Таким образом, биномиальный тест отвечает на вопрос «пользователи кликают на нужную зону осознанно или результат можно объяснить удачным совпадением?»
Теперь перейдем к практике:
Перед вами таблица с результатами по кликам на экране “Избранного” среди клиентов БКС. Наша задача: проверить, кликали ли пользователи в кнопку звезды “Избранное” осознанно или же это было случайно.
Клиенты БКС |
Зоны на экране |
Количество кликов |
Доля кликов, % |
Избранное |
45 |
45% |
|
Портфель |
5 |
5% |
|
Активы |
37 |
37% |
|
Неразмеченная область |
13 |
13% |
Для получения ответа на вопрос мы будем использовать биноминальный тест в гугл-таблицах по следующей формуле:
1-BINOM.DIST(число_успехов; число_испытаний; вероятность_успеха; cumulative)
1. Число_успехов – так как наша функция имеет обратный аргумент “-1”, здесь мы вписываем число кликов по целевой зоне -1. В нашем примере: 45-1
2. Число_испытаний – общее количество кликов. В нашем примере 100
3. Вероятность_успеха – вероятность успеха при случайном выборе. В нашем случае здесь зона одна из четырёх равновероятных, поэтому шанс угадать «правильную» равен 1/4 = 0.25
4. Cumulative – аргумент TRUE возвращает вероятность получить не больше, чем x успехов (в нашем случае ≤ 44). FALSE вернула бы вероятность «ровно x успехов» (в нашем случае ровно 44).
Итого, в нашем случае, чтобы проверить вероятность того, что целевую зону “Избранное” по формуле будет равна:
1-BINOM.DIST(45-1, 100, 1/4, TRUE)
Она вернет нам 0.0000109. Данное значение меньше, чем 0.05, значит мы можем говорить о том, что клики по “Избранному” не случайны, и пользователи кликают по ней осознанно. Ура!
Часть 2.
Совсем другая история, когда у нас две группы пользователей — например, пользователи БКС и брокера N — и мы хотим понять, изменилось ли распределение кликов по зонам. Для простоты возьмем наше знакомое задание с “Избранным”.
Представьте, вы собрали данные и видите, что пользователи БКС верно идут в “Звездочку”, а вот пользователи брокера N – чаще выбирают “Активы”
Возникает вопрос: это действительно результат изменения дизайна или просто случайные колебания в выборке?
Чтобы решить эту задачу, мы строим таблицу кликов: строки — это зоны для кликов, столбцы — группа пользователей БКС и клиенты брокера N. В каждой ячейке у нас число кликов. Теперь нужно понять: если бы пользователи на самом деле вели себя одинаково не зависимо от принадлежности к группе, насколько правдоподобно увидеть именно такое распределение?
Вот здесь на арену выходит χ²-тест. Это статистический тест, который помогает понять, случайны ли различия в распределении данных или за ними стоит какая-то закономерность. Он применяется тогда, когда у нас есть категориальные данные, то есть данные, которые разбиваются на группы и категории. Важное уточнение: с первого взгляда кажется, что количество кликов это количественная переменная, но на самом деле клик означает именно выбор одной из зон экрана (категории)
Сначала мы рассчитываем, как данные должны были бы распределиться, если бы всё происходило случайно или группы вели себя одинаково. Потом сравниваем это с тем, что получилось в реальности. Чем сильнее реальное распределение отличается от ожидаемого, тем больше статистика χ² и тем ниже p-value. Если она достаточно велика, то мы говорим: такие различия слишком маловероятны для случайности, значит, скорее всего группы действительно разные или категория «ведёт себя» не так, как ожидалось (p-value < 0.05). Если p-value > 0.05 — значит, статистических доказательств разницы нет, и клики распределились примерно одинаково.
Простыми словами, χ²-тест отвечает на вопрос: «ведут ли себя две (или больше) группы пользователей одинаково, или распределение кликов в них реально отличается?»
Переходим к практике:
Перед вами снова та же таблица из 1 части, но дополненная кликами из группы брокера N:
Зоны на экране |
Клиенты БКС |
Клиенты брокера N |
Избранное |
45 |
11 |
Портфель |
5 |
5 |
Неразмеченная область |
13 |
31 |
Активы |
37 |
53 |
Для решения задачи о поведении между двумя группами, сначала нужно построить таблицу с математическим ожиданиями (как данные должны были бы распределиться, если бы всё происходило случайно или группы вели себя одинаково).
Для каждой ячейки, где стоит количество кликов нужно вписать формулу:
сумма_кликов по_строке сумма_кликов_по_столбцу / общая_сумма_кликов_по_таблице
Так, мат. ожидание для зоны избранное среди клиентов БКС в гугл таблицах будет считаться так:
=(SUM($B2:$C2)SUM(B$2:B$5))/SUM($B$2:$C$5)
Получается = 56*100/200 = 28

При аналогичном подсчете мат. ожиданий для остальных ячеек, у нас получается вот такая таблица:
Зоны на экране |
Клиенты БКС |
Клиенты брокера N |
Избранное |
28 |
28 |
Портфель |
5 |
5 |
Неразмеченная область |
22 |
22 |
Активы |
45 |
45 |
У нас остался последний шаг: сравнить реальные данные и подсчитанные мат. ожидания. Здесь мы и используем χ².
В гугл-таблицах формула выглядит следующим образом:
=CHISQ.TEST(реальные_значения, ожидаемые_значения)
1. Реальные_значения – все ячейки, в которых находятся клики, полученные в ходе исследования
2. Ожидаемые_значения – все ячейки, в которых находятся клики, получение при построении мат. ожиданий
Если применять формулу к нашим таблицам, то нам вернется значение p-value, равное 0.0000001. Как мы обсуждали выше, данное значение <0.05, следовательно скорее всего группы действительно разные. И такой итог действительно виден на данных: клиенты БКС чаще кликали на звездочку “Избранного” (45 кликов), в то время, как большинство клиентов брокера N чаще выбирали “Активы” (53 клика). Поведенческие паттерны двух групп и правда отличается.
Говоря в целом, про оба теста есть нюанс с количеством данных. Для биномиального теста строгих ограничений нет, он работает и на маленьких выборках, но практический смысл появляется хотя бы от 20 кликов. Для χ²-теста требования строже: нужно, чтобы в каждой зоне в каждой группе ожидалось минимум 5 кликов. При использовании 3 зон на экране это примерно 15 на группу, при 4 зонах — 20, но лучше ориентироваться на 30–50 и выше на группу (выборку), чтобы результаты были надёжнее. Если зон слишком много и клики размазаны, разумно объединять редкие зоны в категорию «другое».
Давайте подытожим: биномиальный тест отвечает на вопрос «выбирают ли эту кнопку (зону) осознанно, специально», χ²-тест отвечает на вопрос «отличаются ли распределения кликов между группами (выборками)». Первый применим, когда у нас есть одна целевая зона, второй — когда мы хотим увидеть общие сдвиги в поведении.