Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик / forpes.ru

Главная
Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик

Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик +1

10.12.2025 09:37

gofat 0 1000 Источник

В A/B-тестах хотелось бы смотреть на главную метрику, ту самую North Star, которая показывает успех продукта. Но на практике она почти всегда медленная, шумная и бесполезная для быстрых решений. Например, вы запускаете тест новой системы рекомендаций, ждёте неделю, две, а LifeTime Value не двигается. И непонятно, это потому что нет результата или ещё рано делать выводы.

Чтобы не тратить месяцы на догадки, можно воспользоваться прокси-метриками — быстрыми, чувствительными показателями, которые реагируют раньше, чем бизнес-метрика «успевает моргнуть». Проблема в том, что это решение часто требует дополнительные ресурсы.

Привет, Хабр! Меня зовут Артем Ерохин, и я Data Scientist в X5 Tech. Я прочитал современные исследования, пропустил их через свой опыт и собрал концентрат подходов к работе с прокси-метриками. Постараюсь передать только суть. Разберемся, зачем нужны прокси, как с ними не выстрелить себе в ногу, где заканчивается польза и начинается самообман.

Почему North Star метрики не подходят для экспериментов

Начнём с главного. North Star Metric (NSM) отражает ценность для пользователя и успех компании. Обычно это LifeTime Value (LTV), Retention, Brand Awareness — что-то большое и стратегическое, ради чего живёт продукт.

В идеале: сравниваем NSM в контрольной и тестовой группах.

На практике всё не так красиво и слишком долго.

Представьте, что вы работаете в E-commerce, запустили новую систему рекомендаций. Ваша NSM — LTV. Проходит неделя, а пожизненная ценность клиента не меняется. Но проблема не в вас и не в продукте, а в самой метрике.

У NSM есть типичные проблемы:

1. Они слепы к мелким эффектам. Изменение есть, но оно тонет в шуме. Мелкие улучшения просто не видны, даже если пользователям реально стало удобнее.

2. Они реагируют слишком поздно. Пока LTV или Retention сдвинется, могут пройти месяцы. Поэтому ваши A/B-тесты превращаются в сезонные марафоны.

3. Они слишком «высокоуровневые». NSM показывает стратегический тренд, но не помогает решать более мелкие тактические задачи, которые важны для принятия оперативных решений.

Это как вести корабль по звёздам, не зная, где по пути можно пополнить запасы пресной воды и провизии.

В итоге эксперименты становятся медленными, итерации — редкими, а решения принимаются наугад. Остаётся искать обходной путь, но при этом важно не забывать, что NSM не плохие. Просто они созданы для длинных дистанций. А нам не всегда нужны марафонцы.

И чем могут помочь прокси-метрики?

Прокси-метрики реагируют быстрее, стоят дешевле и дают сигналы раньше, чем «большая» бизнес-метрика сдвинется с места.

Они сильно выручают:

1. Когда нужно ускориться. Ждать полгода, пока LTV покажет результат, слишком расточительно. Вместо этого можно через неделю посмотреть, как быстро пользователи добавляют товары в корзину или как растёт глубина сессий.

2. Чтобы предсказывать. Хорошие прокси работают как опережающие индикаторы. Рост активации сегодня — часто сигнал того, что через месяц Retention тоже пойдёт вверх. А если пользователи не вовлекаются, не стоит ждать чудес от удержания.

3. Чтобы фокусироваться. Большие метрики распадаются на управляемые части. Например, LTV зависит от частоты покупок, среднего чека и удержания. Поэтому вместо того, чтобы влиять на North Star, лучше сосредоточиться на её составляющих, чтобы понять, какие из них и куда двигают бизнес.

4. Чтобы экономить. Измерять удовлетворенность через NPS-опросы дорого, а считать количество обращений в поддержку — копейки. Получается, что более «дешевая» метрика дает похожую, но менее точную информацию и может быть заметно шумнее.

На графике видно два варианта, одна прокси-метрика более чувствительная, а другая быстрее реагирует на воздействие.

��ример того, как могут выглядеть идеальные прокси-метрики (из статьи Zito et al. (2025) “Pareto optimal proxy metrics”). — Пример того, как могут выглядеть идеальные прокси-метрики (из статьи Zito et al. (2025) “Pareto optimal proxy metrics”).

Конечно, прокси-метрики не заменяют стратегическую картину, а только «подсвечивают путь». Поэтому надо быть внимательнее. Иначе метрика может расти, команда радоваться, а через месяц выяснится, что бизнес-результат стоит на месте.

1. От корреляций к причинности

Когда начинаешь копаться в прокси-метриках, замечаешь, что многие источники сводятся примерно к одной мысли: «ищите корреляцию с бизнес-метрикой и радуйтесь». Но современные исследования пошли ещё дальше и вместо того, чтобы спрашивать «Что коррелирует?», разбираются в том «Почему это вообще работает?». Тема причинно-следственного анализа популярна и описывается в свежих статьях от Zito, Tripuraneni и на Netflix Experimentation. Но чтобы ответить на вопрос «почему это вообще работает», разберёмся с выбором прокси-метрик.

Важность признаков

Обычно начинают с простого подхода: берут список доступных метрик, считают корреляцию с North Star и смотрят, какие показатели ведут себя похоже. Если зависимость сильная, метрика становится потенциальной прокси. Или чуть сложнее: строим модель, которая предсказывает NSM, и по важности признаков выбираем лучшие кандидаты в прокси. Это быстро, интуитивно, но корреляция не равна причинности. Поэтому у подхода есть три серьезные проблемы.

Ложные совпадения

Даже если вероятность случайно увидеть эффект мала, при большом количестве сравнений мы почти наверняка наткнемся на связь, которой на самом деле нет. Например, продажи мороженого и число утонувших в летний сезон растут одновременно. Но никакой связи между ними нет, просто из-за жары люди чаще купаются и чаще покупают мороженое.

Нестабильность

Связь, которая наблюдалась в прошлом месяце, легко может исчезнуть в следующем. Например, из-за небольшого смещения данных или сезона.

Скрытые факторы

Иногда связь между метриками объясняется чем-то третьим, о чём вы не знаете. Например, Netflix проводил эксперимент с промо «Игры в кальмара» и увидел всплеск вовлечённости. На первый взгляд — победа, но анализ показал, что эффект пришёл не от рекламы, а от общего интереса к корейскому контенту в тот момент.

Другой подход более продвинутый и помогает уйти от подобных совпадений. В нем уже заложена внутренняя логика и структура связей.

Дерево метрик

Строим иерархическую структуру связей от стратегических показателей к локальным метрикам. Такое дерево помогает понять, как метрики влияют друг на друга и где искать узкие места.

С деревом метрик проще объяснить, почему изменилась NSM. Этот подход делает путь от причины к следствию наглядным, но у него тоже есть минусы.

Для простоты, каждая метрика живёт только в одной ветви, и связь с чем-то вне этой ветви уже не добавляется. В итоге теряется часть реальных связей.

Эти подходы полезны, когда вы только начинаете систематизировать метрики, но если нужно лучше понимать, что влияет на бизнес, больше подходит причинно-следственный анализ.

Causal Inference

Этот подход помогает уточнить модель мира и связи в ней (в какой-то очень небольшой части мира):

где настоящие причины,
где следствия,
а где просто шум, совпадения и скрытые факторы.

Обычно при таком анализе строится более сложная структура, чем дерево метрик. Directed Acyclic Graph (DAG) точнее описывает связи между явлениями.

Treatment — то, что вы изменяете (например, новую фичу).
Target — целевая метрика, вроде LTV.
Mediating — прокси, которая связывает одно с другим.
Confounding — скрытый фактор, который может всё исказить.

Подробнее можно почитать в дополнительных материалах: Root Cause Analysis enhanced by Causal Discovery and Topological Data Analysis, Causal Inference for The Brave and True.

Causal-подход не гарантирует магии, но даёт понимание, какие метрики действительно тянут за собой бизнес, а какие просто двигаются рядом.

Конечно, у Causal Inference есть базовые допущения, без которых результаты нельзя считать надежными.

Несмешиваемость. Воздействие назначается случайно от результата при учёте влияния других факторов. В A/B тестах это условие выполняется автоматически благодаря рандомизации.
Суррогатность. Прокси должны перехватывать все пути в графе причинности от воздействия к целевой метрике, иначе часть влияния останется неучтенной.
Сопоставимость. Метрики должны оставаться стабильными во времени, без резких структурных изменений, которые могут исказить картину.

Перед применением таких методов важно убедиться, что предположения хотя бы частично выполняются или близки к этому. В реальных данных идеальных условий не бывает, но даже частичное выполнение делает модель надежнее.

Causal Inference — подход непростой, зато честный. Он заставляет формулировать гипотезы явно, фиксировать предположения и проверять, не попали ли вы в ловушку иллюзий. Если хотите использовать готовые инструменты для построения моделей причинности и работы с причинно-следственным выводом, рассмотрите фреймворки: Do-Why, Causal ML.

Даже если вы не будете использовать все особенности этого метода, то все равно появится привычка думать иначе.

2. Следим за качеством прокси

Допустим, вы протестировали перечисленные подходы и нашли несколько прокси, которые выглядят разумно: коррелируют, реагируют быстро и вроде бы логично объясняют изменения в бизнесе. Но так ли они полезны, как кажется? Прежде чем доверять прокси, стоит проверить их качество.

Хорошая прокси должна быть:

чувствительной — замечать эффект чаще, чем NSM;

Простая проверка чувствительности выглядит так: считаем, в скольких экспериментах прокси «поймала» эффект, и делим на общее число экспериментов.

Чувствительность = Число значимых экспериментов / Общее число экспериментов

Если процент низкий, в метрике нет смысла, она просто дублирует NSM, а не помогает быстрее выходить на результат.

сонаправленной — метрики должны стабильно соотноситься.

Например, мы можем уменьшить число жалоб или критических инцидентов/обращений, а NPS (или CSI) при этом вырастут.

Сонаправленность можно измерить разными способами: через корреляцию, среднеквадратичную ошибку (MSE) или Proxy Score.

Главная идея одна: направление движения должно быть стабильным.

Как проверить, не живёт ли метрика своей жизнью

Proxy Score (или Label Agreement) помогает понять, насколько прокси «соглашается» с NSM. Метод простой:

Берём набор прошлых экспериментов.
Делим их по результату: Positive (t > 2), Negative (t < -2), иначе Neutral.
Вычисляем: Proxy Score = (Совпадение классов - Ошибки в классе) / Значимые NSM эксперименты.
Сравниваем, в скольких случаях прокси показала тот же знак эффекта, что и NSM.

Если совпадений мало — метрика живёт своей жизнью. Она может быть интересной, но бесполезной для принятия решений.

Более сложный метод:

В числителе corr (ΔN и ΔP) — это сонаправленность, то есть корреляция истинного эффекта NSM и истинного эффекта прокси.

Описание формулы

В числителе Var (ΔP) — это дисперсия истинного эффекта прокси-метрики в разных экспериментах. Она отражает, насколько сильно изменяется популяционный эффект в популяции экспериментов. Если высокий уровень сигнала или большой разброс данных, то растет эта часть формулы, потому общее выражение под корнем уменьшается (что, для нас хорошо).
[-]pp - дисперсия внутри эксперимента — это шум (чем больше элементов в выборке, тем точнее результаты). Если это значение падает, это хорошо, так как уменьшается значение под корнем. Условно, если мы делаем малые выборки, то там очень много шума, и мы не можем понять, оказываем ли мы какой-то эффект.

Формула описывает, как меняется качество прокси-метрики. Чем выше чувствительность и сонаправленность с NSM, тем лучше. Если внутри слишком много шума и разброса между экспериментами, качество падает.

Эту метрику можно использовать отдельно или как часть оптимизации при построении композитных прокси.

Качество не равно популярность

Мы можем смотреть не только на то, насколько прокси связана с целевой метрикой, но и на то, как часто она используется в компании и достигает позитивных эффектов. Это помогает понять, какие метрики существуют только в отчетах, а какие работают в реальных экспериментах. Качество не равно популярность. Важно помнить, что метрика, которую любят команды, не обязательно хорошая. Здесь включается закон Гудхарта:

«Когда мера становится целью, она перестаёт быть хорошей мерой.»

Если метрика резко становится популярной, стоит насторожиться. Возможно, её просто научились «взламывать». Например, если команду оценивают только по количеству трафика, очень скоро в отчётах появятся миллионы кликов от ботов или нецелевых пользователей.

Чтобы популярная прокси не стала бесполезной, нужно:

анализировать, почему метрика вдруг стала популярной Частота использования = (Эксперименты с прокси) / (Все эксперименты);
пересматривать набор прокси с определенной частотой, которая зависит от компании (например, раз в полгода);
считать не только «эффект», но и «эффективность»: сколько экспериментов с этой метрикой реально дали значимый результат Эффективность использования = (Значимые эксперименты с прокси) / (Эксперименты с прокси).

Эти шаги помогают не только держать метрики в форме, но и поддерживать культуру осознанного измерения. Но стоит учитывать, что понятие «значимости» эксперимента тоже можно сломать. Это называется p-value hacking. Например, у аналитика есть доступ к фильтрам и преобразованиям данных и соблазн сделать эксперимент значимым, чтобы получить премию. И тогда проблема уже не в статистике, а в культуре принятия решений.

3. Композитные прокси-метрики

Вот вы нашли и проверили несколько прокси. Каждая из них что-то отражает, но по отдельности не даёт полной картины. Одна чувствительная, но шумная. Другая — стабильная, но медленно реагирует. Третья вроде бы предсказывает нужное направление, но с погрешностью. Естественно, хочется объединить их в одну метрику, которая будет наследовать плюсы и сглаживать минусы. Для этого и придумали композитные метрики. Их можно автоматически получить следующими способами.

Оптимизация качества прокси

Здесь мы ищем такую комбинацию метрик, при которой общий «качество-прокси-баланс» (тот самый, из предыдущего раздела) максимален. В данном случае, качество — это корреляция между реальным эффектом над NSM и оценкой эффекта над прокси-метрикой.

Это похоже на инвестиционный портфель: вы управляете условной «доходностью/риском», вкладываясь в разные прокси-метрики.

Фактически, вместо акций и облигаций у вас метрики, а вместо безрискового актива — чувствительность и сонаправленность с NSM.

На практике использование этого метода несколько сложнее. В работе Tripuraneni et al. (2024), «Choosing a Proxy Metric from Past Experiments» есть дополнительные разделы, связанные с корректной оценкой латентных параметров с помощью иерархической модели.

Парето-оптимизация

Если подходить к задаче как к многокритериальной оптимизации, то мы ищем метрики, которые нельзя улучшить по одному параметру без ухудшения другого.

Представьте, что у вас +100500 метрик в продукте. Вы сравниваете их с целевой NSM и видите, что те, что отмечены на графике светло-серыми точками, слабее по параметрам чувствительности и сонаправленности. Их можно сразу отбросить, потому что они не дадут ничего нового. А при выборе из оставшихся чёрных точек придётся идти на компромисс, чтобы улучшить одну метрику, пожертвовать чем-то у другой.

Как при выборе нового телефона: один дешевле, но с камерой похуже, другой мощнее, но стоит дороже. Парето-фронт — это линия таких разумных компромиссов, за пределами которой метрики уже не становятся лучше, только дороже в смысле качества.

На графике эта линия, где каждая точка балансирует между чувствительностью и стабильностью.

Выбираем метрики, лежащие на этой границе, и получаем набор лучших кандидатов для комбинирования.

В книге «Trustworthy Online Controlled Experiments» (Kohavi, Tang, Xu, 2020) приводится пример из Bing, где итоговую метрику поисковой эффективности считают так:

n * (пользователи / месяц) * (сеансы / пользователь) * (отдельные запросы / сеанс)

Фактически это тоже композитная метрика, просто построенная вручную.

Современные методы позволяют находить такие комбинации автоматически, через оптимизацию или ML-модели.

Композитные прокси особенно полезны, когда:

метрик много, но ни одна не идеальна;
эксперименты дают разнонаправленные результаты;
нужна одна понятная цифра, потому что на неё удобнее смотреть, но за ней кроется целый процесс.

Но есть и риск: чем больше метрик вы объединяете, тем сложнее объяснить, почему композитная метрика выросла или упала. Главное — не превратить её в «чёрный ящик», иначе команда будет верить не результатам анализа, а своим предположениям о том, что произошло.

Если хочется погрузиться в детали, они расписаны в работе Zito et al. (2025) «Pareto optimal proxy metrics».

4. Добавляем щепотку магии предсказаний

Есть способ улучшить прокси-метрики, не просто комбинировать их, а научиться предсказывать, куда двинется основная метрика. Для этого можно построить Surrogate-модель, которая сама оценит влияние изменений на NSM. Пример описан в статье Athey et al. (2019) «The Surrogate Index: combining short-term proxies to estimate long-term treatment effects more rapidly and precisely».

По сути, мы не ждём, пока вырастет показатель, а предсказываем, каким он станет, если текущие прокси изменятся.

Упрощенно методы Surrogate Index и Surrogate Score работают довольно интуитивно:

Берём исторические данные. В них уже есть NSM (например, LTV) и быстрые метрики вроде CTR, Retention на 1-й день и глубины сессий.
Обучаем модель, чтобы она предсказывала NSM по этим метрикам. Фактически модель учится видеть, как короткие сигналы превращаются в долгосрочные результаты.
Дополнительно строим модель склонности (Propensity Score). Она показывает, насколько велика вероятность попасть в тестовую группу при текущих значениях прокси и других признаков. Так мы смотрим на задачу с двух сторон: одна модель оценивает эффект, а другая — вероятность самого воздействия. Такой двойной подход делает итоговую оценку устойчивее (robust).
Применяем её в новых экспериментах. Мы ещё не знаем, вырос ли LTV на самом деле, но модель уже даёт прогноз, как будто NSM «смотрит в будущее».

Таким образом, мы измеряем эффект эксперимента раньше, чем бизнес-метрика успевает измениться.

В статье оценивается польза курсов повышения квалификации. Для того чтобы понять, сколько выпускники будут зарабатывать, экспериментаторы построили surrogate-модель, которая предсказывала рост дохода по вовлечённости в обучение, активности на платформе и обратную связь.

Но Surrogate Index, конечно, не волшебная кнопка, а способ сократить цикл обратной связи. Вы не заменяете NSM, а «предсказываете» результаты её использования. Такие модели хорошо работают, когда:

NSM медленная, а вы не можете ждать месяцы;
у вас накоплен большой объём исторических данных;
вы готовы проверять и пересобирать модель по мере накопления новых экспериментов.

Допустим, ваша модель готова и вроде работает, остаётся её проверить.

5. Делаем поправки

Хороший пример описан в работе Duan et al. (2021) “Online Experimentation with Surrogate Metrics”. Исследователи строили surrogate-модель predicted confirmed hire на платформе поиска вакансий. Она предсказывала вероятность того, что отклик на вакансию превратится в подтверждённый найм, и в какой-то момент начала выдавать слишком оптимистичный прогноз.

Когда мы используем предсказанные значения NSM вместо настоящих, t-статистика перестаёт быть честной. Мы оцениваем не сам показатель, а его приближение, и если не добавить поправку на неопределённость, t-значение получается завышенным, и система начинает выдавать «победы», которых в реальности нет. Поэтому в обычную формулу t-статистики

$t = \frac{\mu}{\sqrt{\operatorname{Var}(\mu)}}$

нужно ввести поправку

$t_{\text{adjusted}} = \frac{\mu}{\sqrt{\dfrac{\operatorname{Var}(s)}{n} + \dfrac{2\sigma_{\varepsilon}^{2}}{n}}}$

И чем хуже модель предсказывает NSM, тем сильнее нужно корректировать оценку. Если этого не сделать, можно начать внедрять изменения, которые работают только «в глазах модели». У поправки есть ещё один минус, мы сильно снижаем чувствительность.

6. Не бегите применять всё подряд

После знакомства со всеми методами хочется сразу приступить к практике, но не стоит торопиться. Прежде чем строить сложные модели, стоит задать себе несколько простых вопросов.

А точно ли нужны прокси?

Сначала проверьте чувствительность и время проявления эффекта. Если ваша NSM ведёт себя неплохо, не стоит усложнять процесс оценки и плодить новые метрики.

А можно ли улучшить сам эксперимент?

Если вы можете компенсировать негативные свойства основной метрики, то не стоит использовать заменители.

Метрика понятна всем?

Если метрику нельзя быстро объяснить продакту, маркетологу и аналитику из соседней команды, значит, она слишком сложная. Хорошие прокси не должны требовать лекции по статистике. «Время до первого клика» звучит понятнее, чем «фактор 3 из PCA».

Метрики живут или застыли?

Даже хорошие прокси со временем деградируют. Меняется продукт, аудитория, контекст. И то, что было чувствительным год назад, может стать шумом сегодня. Поэтому хотя бы раз в полгода стоит задавать себе вопрос: «Эта метрика всё ещё отражает реальность или просто красиво выглядит в отчёте?».

Если метрика перестала работать?

Если метрика вдруг стала сверхпопулярной и все команды её обожают — это сигнал. Возможно, её научились «взламывать».

Итог

Прокси-метрики — это не магия. Они нужны, чтобы ускорить итерации, а не совершить чудо. Если подходить к ним аккуратно, проверять чувствительность и причинность, объединять метрики осознанно и не забывать про поправки — это мощный инструмент.
Но если применять все подряд без системы, получится шум вместо сигналов, и будет непонятно, какие изменения действительно сработали.

Так что не спешите искать «идеальную» прокси. Для начала лучше построить простую, понятную и честную, которую со временем можно улучшать вместе с продуктом.