Привет, Хабр. Меня зовут Дима Кушнир, я руководитель аналитики Спорта и Видеоплатформы в Okko. В специализацию я пришел органично, благодаря сплаву любви к спорту и математическим задачам. 

Сегодня поговорим о «грехах», которые часто совершают начинающие аналитики данных. Эта информация будет полезна и другим специалистам, работающим с аналитиками — например, ML и дата-инженерам, а также руководителям и менеджерам, которые хотят знать, где могут возникнуть ошибки и как их предотвратить. Просто показывать пальцем и цокать языком не будем: в статье будут полезные инсайты, которые помогут улучшить качество вашей работы.

Поехали.

Спортивная аналитика в Okko

Уверен, об Okko вы слышали: это не только онлайн-кинотеатр, а полноценный мультимедийный сервис, собравший в себе более 100 тысяч единиц контента в каталоге — включая спортивные трансляции и онлайн-концерты.

На платформе можно посмотреть контент в высоком качестве и собственного производства. Но для меня главное — это, конечно, спорт. С лета 2024 года Okko — единственный официальный вещатель Лиги Чемпионов в РФ. Показываем крупные турниры UEFA, матчи европейских, южноамериканских и африканских сборных, баскетбольную Евролигу и много чего еще. А еще у нас классные комментаторы и программы собственного производства, связанные со спортом.

Мы хотим рекомендовать каждому пользователю контент, который точно ему зайдёт — даже если сам пользователь сначала этого не понимает. Кроме того, нам нужно стабилизировать работу сервиса, чтобы он не падал под большой нагрузкой во время больших спортивных мероприятий, когда разово наплывает аудитория. 

Для работы в этих направлениях нужно много качественных данных. Я давно заметил за собой и коллегами некоторые «грехи», которые потенциально могли сказаться на результатах работы сервиса и его выручке. 

Василий Поленов, «Христос и грешница» 
Василий Поленов, «Христос и грешница» 

«Кто из вас, кто не без греха, пусть первый кинет в неё камень». 

ИН. 8:7 

Почему мы грешим

Не всегда причина в нехватке опыта или невнимательности. Я выделяю несколько моментов, которые могут привести к ошибкам:

  • Давят сроки — часто быстрые результаты важнее качества.

  • Недооценивание качества данных — дубли, null’ы, всё это влияет на результаты аналитики.

  • Когнитивные искажения — желание подтвердить гипотезу или предвзятость, даже неосознанные, могут привести к серьёзным ошибкам.

  • Отсутствие ревью и контроля — аналитик работает в вакууме.

Разберёмся с грехами. Их всего семь — как библейских грехов, как голов, которые пропустила сборная Бразилии в полуфинале ЧМ 2014 с защитником Данте.

Грех первый: Игнорирование проблем с данными

Пример из жизни. В 2022 году я только пришёл в аналитику Спорта. Был матч Лиги Наций, Франция-Австрия, Мбаппе, Гризманн, Жиру, Забитцер, Арнаутович, все играют. В 23:10 я включил матч, посмотрел 26 минут, решил посмотреть, все ли события прилетели в аналитику. Накидал на коленке sql-запрос. Из просмотренных мною 26 минут в витрине данных я получил результат — 2,5 минуты.

Начал разбираться, пошел в сырые данные — там всё хорошо. Проблема произошла на этапе агрегации данных. Было бы хуже, если бы что-то произошло на стороне клиента, и мы потеряли бы 23 минуты здесь. 

Еще одна неприятная проблема — дубли данных. Например, мы запустили новый плеер. Он отправляет логи о том, что пользователь просмотрел n секунд видео. Всё вроде бы хорошо — внедрили, проверили, заметили, что у пользователя улучшился опыт, события отправляются. Но время смотрения почему-то сильно увеличилось. Когда начали разбираться, оказалось, что не только новый плеер шлёт события, но и старый. 

Проблем в данных может быть целая куча —- поехали форматы, вдруг стали приходить null’ы, что-то перестало заполняться. Игнорировать их критично для принятия решений.

Как не согрешить?

Перед работой с данными провести исследовательский анализ данных EDA и посмотреть, что вообще с данными происходит. И конечно же внедрить DQ (Data Quality) — проверки данных и того, как эти данные трансформируются на разных этапах.

Грех второй: Отсутствие чёткого понимания задачи

И тут я уже согрешил, пока говорил о первом грехе. Потому что в первую очередь аналитик должен задаваться простым вопросом: «А зачем я вообще это делаю?».

Важно понимать задачу, которая перед тобой стоит. Бросаться выполнять задачи с формулировками:

  • «Мне нужен такой-то отчёт (нужен был вчера)» 

  • «Посмотри еще метрику Х» 

  • «Сделай анализ ради анализа. Просто сделай» — не дело.

Как не согрешить?

Здесь вам поможет техника «Пяти почему». Задавайте вопросы. Например:

Нужен отчёт по оттоку → Почему? → Чтобы снизить отток → Почему он вырос? → Клиенты жалуются на поддержку

Делаем вывод: нам нужен анализ обращений, а не самого оттока.

Еще один метод — SMART. В зависимости от интерпретации аббревиатура расшифровывается по-разному, но идея везде одна. Разберём применение техники на том же примере с оттоками, но немного иначе — нужно найти причины оттока именно премиум-клиентов.

Мы понимаем, что проблема только среди тех, кто много платит. Также мы знаем, что проблема в поддержке, и нам нужно дать рекомендации по её улучшению. Все это влияет на 30% нашей выручки, поэтому нужно сделать так, чтобы отток снизился на 15% за квартал. И успеть всё это к 20 июля. Погнали:

Анализ оттока среди премиальных клиентов — Specific.

Снижение оттока на 15% за квартал — Measurable.

Рекомендации по улучшению поддержки — Actionable.

Влияет на 30% выручки — Relevant.

Отчёт нужен к 20 июля — Time-bound.

Еще можете воспользоваться вот таким чек-листом:

  • Какое бизнес-решение примут на основе вашего анализа?

  • Какие метрики действительно важны?

  • Какие данные доступны и какие есть ограничения?

  • Каков критерий успеха?

  • Кто будет использовать результаты и как будем внедрять?

Если это не принесёт пользы — зачем это делать?

Грех третий: Излишнее усложнение

Технические ребята, аналитики в том числе, любят закапываться с головой в сложные задачи. Поэтому придумывают достаточно сложные модели. Сложные модели — круто, но не всегда практично. Иногда проще доехать на велосипеде или хотя бы сначала понять, куда едешь.

Пример: нужно предсказать средний чек в кафе. 

Простое решение — посмотреть исторические данные и сезонность.

Но аналитик, который прошёл много курсов и хочет опробовать всё изученное, может построить какую-то серьёзную нейросетку, накидать фичей, сравнить данные по фазам луны и активности в твиттере.

Как не согрешить?

KISS (Keep it simple, stupid) — сначала попробовать самое простое решение. Не сработает — вот тогда можно и усложнить подход.

«А зачем?» — если не можешь объяснить, зачем тебе нужен пятиуровневый градиентный бустинг, скорее всего он и не нужен.

Окупаемость сложности — если добавление 10 фич даст всего 0,5% точности прогноза, но при этом требует трёх недель работы, стоит ли игра свеч?

Грех четвёртый: Игнорирование базовой статистики

Аналитик понял, зачем нам задача, убедился, что с данными всё хорошо, нашёл метод решения. Что-то построил, промоделировал, и вот, моё предсказание — средняя выручка компании будет 1 млн рублей.

Менеджер спрашивает о медиане, а он и не знает, что ответить.

Вернёмся к примеру с кафе. Средний чек в нём — 850 рублей. Кажется, всё здорово — люди много платят, и если мы повысим цены, ничего не изменится. Но стоит копнуть глубже, как мы поймём:

  • 70% гостей кафе тратят всего 300 рублей,

  • 5% гостей — 15 000 рублей.

Если будем принимать решение по среднему и повысим цену, основываясь только на богатых клиентах — обязательно разоримся.

Как не согрешить?

EDA здесь — наше всё. Нужно построить распределение, выбросы и дисперсии, понять, случайный результат или нет. Провести эксперименты, если это возможно — например, с футбольными матчами это сделать не получится, но в других сферах — на маркетплейсе, например — вполне.

Грех пятый: Плохая подача

И речь не о теннисе или волейболе, а о том, как вы представляете свои отчёты и исследования.

Аналитика — это не только цифры и графики, это влияние на бизнес-решения. И если аналитик не умеет убедительно преподносить свои выводы, его работа теряет ценность. Если вы не можете объяснить это просто, скорее всего, вы сами не до конца понимаете предмет.

Аналитик, не умеющий доносить до бизнеса свои мысли, теряет:

  • Репутацию — создаётся впечатление, что он просто выгружает цифры и не делает выводы.

  • Влияние — решение принимают без его данных.

  • Карьерный рост — аналитик всегда останется на уровне исполнителя.

Как не согрешить?

Научиться говорить на языке бизнеса, а не данных. 

Вместо

p-value < 0,05

можно просто сказать

«Мы на 95% уверены, что это сработает» .

Для презентации результатов большим боссам kfc можно использовать Пирамиду Минто:

  • Главный вывод — на первом слайде,

  • Аргументы — простыми словами,

  • Детали — только если вас спросят.

Визуализируйте, а не заваливайте цифрами. Вместо десяти таблиц с данными сделайте график с ключевой метрикой. 

Предлагайте решения, а не констатируйте проблемы. Вместо

«Конверсия упала»

можно сказать

«Конверсия упала из-за долгой загрузки. Если уменьшим скорость загрузки изображения — получим +5% к конверсии» 

Грех шестой: Отсутствие документирования

Как одни слова можно понять совершенно по-разному, так и разные аналитики могут посчитать одну метрику по-своему.

  • Аналитик А: Retention = пользователи, вернувшиеся в первые 7 дней.

  • Аналитик В: Retention = пользователи, совершившие любые действия за 7 дней.

В результате получим разные выводы, основанные на одних данных, а из-за этого — конфликты в решениях.

Чаще всего это следствие неэффективного онбординга аналитиков. Без документации и гайдов новички будут дольше разбираются в джунглях скриптов. Поэтому важно записывать всё. Скорее всего, к этому вернутся — если не сейчас, то через несколько лет.

Как не согрешить?

Несколько способов.

  • DBT — документировать прямо в коде через yml-файлы;

  • Вести Confluence или Notion — базу данных с глоссарием всех метрик;

  • Создать Data Catalog на базе Amundsen или DataHub — с поиском по датасетам и их описанием.

Грех седьмой: Игнорирование бизнес-контекста

Я могу быть прекрасным аналитиком, всё документировать, создавать классные работающие модели. Но я также должен понимать, что происходит в сфере, в которой я работаю. Было бы странно, если бы я не знал, например, что метрики смотрения увеличились, потому что недавно был финал Клубного Чемпионата Мира, где Челси разгромил ПСЖ. 

В общем, нельзя фокусироваться только на данных. Нужно понимать, какие события контекста на какие метрики повлияют, и что ты, как аналитик, сможешь улучшить. Нахождение вне контекста приведёт к куче бесполезных исследований. 

Как не согрешить

Здесь всё просто — нужно следить за происходящим в сфере (в моём случае — спорте) и регулярно общаться с коллегами, таким образом можно узнать о том, как устроен бизнес, какие вводные нужны для принятия решений. 

Что делать не нужно — саммари

1. Игнорировать проблемы с данными. Иначе и результаты исследований могут быть ошибочными и ни к чему хорошему не приведут.

2. Работать без понимания задачи. Чревато множеством бесполезных движений и потраченного впустую времени.

3. Излишне усложнять. Некоторые задачи решаются проще, чем кажется, а строить модель ради модели — так себе идея.

4. Забивать на документирование. Сегодня тебе кажется очевидным, а через месяц и еще сотни задач ты забудешь, что и как делал. А когда в команду придёт новый аналитик, документация поможет не запутаться в скриптах и погрузиться в процесс быстрее.

5. Игнорировать бизнес-контекст. Нужно знать, с чем и для кого мы работаем. Аналитик спорта должен знать, что происходит в мире спорта, а аналитик маркетплейса — быть в курсе сезонного спроса и трендов.

6. Пренебрегать базовой статистикой. Это просто база.

7. Демонстрировать отчёты так, что поймут только другие аналитики. Мы работаем в команде, не все обязаны знать, что такое p-value и ошибки первого и второго рода.

Конечно, ошибиться может каждый. Но, зная, какие грехи можно совершить в своей работе, аналитик сможет понять, что исправить в настоящем и что предотвратить в будущем.

А если вы в этом списке обнаружили какой-то свой любимый грех — его я вам отпускаю, идите с миром. Всё равно круг ада для аналитиков пока не придумали.

Комментарии (0)