Эта статья о том, как можно оптимизировать набор закупаемых источников данных для ML моделей на примере модели для кредитного скоринга физических лиц. И как сократить расходы на данные на 30% без изменения качества модели.

Исторически основными покупателями внешних данных в России являются финансовые организации. За последние годы они были вынуждены оптимизировать свои расходы на закупку внешних данных. Для работы с существующей клиентской базой им часто достаточно внутренних данных, а запросы к дорогим внешним источникам данных, таким как БКИ или мобильные операторы стали сокращаться ради экономии.

Тем не менее рынок уже готовится к будущему. Дальнейшее снижение ставки рефинансирования ЦБ будет делать кредитование новых клиентов более привлекательным, и перед финансовыми организациями встанет вопрос: насколько оптимально были сокращены внешние источники ранее, стоит ли вернуть какой-то из них, появились ли новые типы данных на рынке, и как выстроить оптимальный набор данных для оценки новых клиентов.

Параметры юз-кейса

Для этой статьи раскрываются показатели проекта оптимизации набора источников данных в российском BNPL-сервисе, работающем с розничными покупателями в сегменте онлайн и офлайн торговли.

По условиям NDA с заказчиком и с поставщиками данных, не получится раскрыть точные условия получения разных типов данных и параметры портфеля. Поэтому в статье все оценки приведены в условных единицах.

Формат BNPL («купи сейчас — плати потом») предполагает короткие займы на небольшие суммы. Это накладывает особые требования к точности скоринга: каждая ошибка в оценке клиента распространяется на десятки и сотни его транзакций.

Основные параметры портфеля на момент исследования

  • Средний чек покупки в рассрочку — около 1200 у.е. (ниже, чем в классическом кредитовании, за счёт розничного характера сделок).

  • Средний срок рассрочки — 4 месяца (значительно короче стандартного займа на 8 месяцев или кредита).

  • Эффективная доходность — 70% годовых (с учётом комиссий и платы от магазинов за сервис BNPL).

  • Ожидаемый уровень потерь (Expected Losses) — порядка 7% (выше, чем в классическом портфеле, что объясняется низким порогом входа для клиентов и высоким уровнем одобрения).

  • Основной драйвер бизнеса — массовое привлечение новых клиентов и высокая частота повторных покупок.

Таким образом, BNPL-портфель является более рискованным и «быстрым», чем классическое POS-кредитование, но именно на нём проверка оптимального набора источников данных даёт наиболее показательные результаты. Любое улучшение модели скоринга даже на доли процента напрямую конвертируется в значимый прирост прибыли.

Шаги проекта Оптимизации источников данных

Шаг 1. Сбор данных
В качестве исследуемой генеральной совокупности был использован небольшой поток новых клиентов, которые кредитовались в 2024 году. Эта выборка позволяет моделировать показатели именно на том сегменте, который станет актуальным при снижении ставки ЦБ, — клиенты «с улицы».

Для них были собраны следующие источники данных:

Источник

Стоимость 1 запроса, у.е.

Число фичей

Собственные данные

0

540

БКИ

1

1430

Телеком

3

1

Ecom

2

64

B2B маркетплейс данных

1.8

90

Мессенджеры (Whatsapp, Telegram)

1.6

135


Собственные данные, данные БКИ, Телеком данные уже находились в контуре BNPL сервиса.

Остальные источники были собраны с помощью python-библиотеки upgini.

Вся обработка данных производилась в контуре BNPL сервиса.

В результате был сформирован набор из 6 источников данных и 2260 признаков.
Более подробное описание источников представлено ниже.

Шаг 2. Определение стоимости наборов признаков
Каждый признак должен быть привязан к своему источнику данных. Для каждого источника была назначена стоимость одного запроса, чтобы в итоговой модели можно было учитывать не только качество скоринга, но и стоимость источника. Такой подход делает задачу ближе к реальной экономике: источник может быть ценным по ROC AUC и IV, но невыгодным с точки зрения затрат.

Шаг 3. Оптимизация
Оптимизация источников осуществлялась с помощью оптимизационного модуля собственной разработки. Его задача — автоматически оценить вклад каждого источника и найти оптимальный набор источников данных.

Если бы такой анализ проводился вручную, потребовалось бы несколько недель работы: обучить сотни моделей, рассчитать множество статистик. Оптимизатор выполнил эту задачу за один час.

Что делал Оптимизатор источников данных под капотом:

  1. Обучил интегральные модели на каждой комбинации источников данных. Для каждой комбинации источников строилась отдельная модель, которая сворачивала все признаки из источников в интегральный скор.

  2. Оценил качество и параметры портфеля для каждой комбинации. Для оценки качества каждой комбинации источников использовалась метрика Information Value (IV). Оценка производилась не по сумме признаков, а по интегральному скору. То есть на каждом источнике строились отдельные скоры. Далее эти скоры комбинировались между собой. Таким образом, мы получили набор готовых скоринговых баллов по каждой комбинации источников с конкретной ценой и расчитанными метриками по портфелю.

  3. Нашел оптимальные комбинации источников. На этом этапе осуществлялся автоматический перебор всех комбинаций источников. Для каждой комбинации рассчитывались:

    • уровень ожидаемых потерь (EL),

    • доля одобренных заявок (approval rate),

    • совокупная стоимость запросов,

    • цена рассмотрения одной заявки,

    • прибыль на 1 выдачу

    • общая прибыль по портфелю новых клиентов.

      По сути, оптимизатор решал задачу поиска оптимального баланса между рисками, доходностью и затратами на данные.

Состав источников данных

Сравнительные характеристики использованных источников данных
Сравнительные характеристики использованных источников данных

Источник

Состав/Описание

IV

ROC AUC

Собственные данные

Фичи по новым клиентам: данные из анкеты (пол, возраст, регион, доход, семейное положение, занятость), данные об устройстве с которого заполнялась заявка (тип устройства, производитель и модель устройства, ОС).

Фичи по действующим клиентам: те же фичи что по новым клиентам + кредитная источрия внутри BNPL‑сервиса

0.4

0.67

БКИ

Фичи на основе расширенной кредитной истории, содержащей информацию о запросах по данному пользователю из других кредитных учреждений, о выданных кредитах, о просрочках и тому подобное

1.2

0.78

E-com

Число и частота покупок в маркетплейсе, средний чек, LLM эмбеддинги на наименованиях товаров в корзине.

0.1

0.56

B2B маркетплейс данных

Информация об использовании различных оффлайн и онлайн сервисов, частота использования, срок жизни, категории интересов.

0.3

0.63

Мессенджеры (Whatsapp, Telegram)

Флаги наличия аккаунтов, срок жизни профилей, характеристики профилей (открытый/закрытый, частный/корпоративный) и пр.

0.2

0.6

Телеком

Cкоринговый балл от мобильного оператора.

0.3

0.65

Методика поиска оптимального набора источников данных

Для оценки эффективности различных комбинаций источников использовались IV и стоимость источников. Approval rate определялся на основании скоринга как одобренных так и отказных заявок. EL определялся на основании EL выделенного сегмента среди выдач. Для оценки эффективности различных комбинаций источников использовались IV и стоимость источников.

Комбинации источников данных

Текущий набор данных (baseline)

  • Источники: Собственные данные + БКИ + Телеком

  • Стоимость: 400 000 у.е.

  • IV: 1,5

  • ROC AUC: 0,82

  • Approval rate: 24%

  • EL: 6,5%

  • Прибыль от новых клиентов на одну выдачу: ≈ 66 у.е.

  • Общая прибыль от новых клиентов в месяц: ≈ 1,48 млн у.е.

Набор данных «Экономный»

  • Цель: получить тот же IV что в baseline, но за меньшую стоимость.

  • Источники: БКИ + собственные данные + B2B маркетплейс данных

  • Стоимость: 280 000 у.е. (-30%)

  • IV: 1,5

  • ROC AUC: 0,81

  • Approval rate: 24%

  • EL: 6,5%

  • Прибыль от новых клиентов на одну выдачу: ≈ 72 у.е.

  • Общая прибыль от новых клиентов в месяц: ≈ 1,6 млн у.е. (+9%)

Полный набор данных

  • Цель: получить максимальный IV за счёт подключения всех источников данных.

  • Источники: БКИ + собственные данные + Телеком + Ecom + B2B маркетплейс данных + Данные мессенджеров.

  • Стоимость: 760 000 у.е. (+90%)

  • IV: 2,6

  • ROC AUC: 0,83

  • Approval rate: 40%

  • EL: 6,5%

  • Прибыль от новых клиентов на одну выдачу: ≈ 65 у.е.

  • Общая прибыль от новых клиентов в месяц: ≈ 2,56 млн у.е. (+73%)

Набор данных «Оптимальный»

  • Цель: максимизировать прибыль на портфель.

  • Источники: БКИ + собственные данные + B2B маркетплейс данных + Данные мессенджеров.

  • Стоимость: 440 000 у.е. (+10%)

  • IV: 2,5

  • ROC AUC: 0,82

  • Approval rate: 38%

  • EL: 6,5%

  • Прибыль от новых клиентов на одну выдачу: ≈ 72 у.е.

  • Общая прибыль от новых клиентов в месяц: ≈ 2,7 млн у.е. (+84%)

Сравнительные характеристики основных комбинаций источников данных
Сравнительные характеристики основных комбинаций источников данных

Вывод

Проведённый анализ продемонстрировал, что использование комплексного подхода из анализа IV, стоимости источников и ключевых бизнес‑метрик (approval rate, expected losses, прибыль на 1 выдачу) позволяет системно сопоставлять сценарии и выявлять оптимальные комбинации данных.

Основные результаты нашего проекта следующие:

  1. Текущий набор данных (собственные данные + 1 бюро + 1 телеком) задает baseline по информационной ценности (IV = 1,5), и позволяет получить средний по рынку уровень одобрения (AR = 24%), что отражается в умеренной прибыльности портфеля новых клиентов в размере около 1,48 млн у.е. в месяц.

  2. Подключение всех доступных источников повышает IV до 2,6 и AR до 40%. Прибыль по портфелю новых клиентов возрастает на 73% из за низкой базы (≈ 2,56 млн у.е./мес.), однако при этом затраты на закупку данных почти удваиваются, что делает сценарий малореалистичным в условиях бюджетных ограничений.

  3. Оптимальный сценарий позволяет получить IV чуть ниже чем при использовании всех источников (IV = 2,5)и немного сниженный уровень одобрения (AR = 38%) при 10% росте затрат. Прибыль на выдачу достигает максимальных 72 у.е., а совокупная прибыль до рекордных 2,7 млн у.е./мес. (+84% к базовому сценарию).

Заключение

Как показал опыт нашего проекта полагаться исключительно на «проверенный» пул источников данных без тестирования новых моделей и источников столь же неэффективно, как и бездумно наращивать количество источников. Консервативный подход ведёт к упущенной выгоде, а экстенсивное расширение числа подключенных источников данных к неоправданному росту затрат. Оптимальный результат достигается за счёт интеллектуальной оптимизации набора источников данных. Такой подход в нашем проекте позволил смоделировать прирост прибыли на 84% при 10% увеличении затрат в сегменте новых клиентов.

Комментарии (0)