Эта статья о том, как можно оптимизировать набор закупаемых источников данных для ML моделей на примере модели для кредитного скоринга физических лиц. И как сократить расходы на данные на 30% без изменения качества модели.
Исторически основными покупателями внешних данных в России являются финансовые организации. За последние годы они были вынуждены оптимизировать свои расходы на закупку внешних данных. Для работы с существующей клиентской базой им часто достаточно внутренних данных, а запросы к дорогим внешним источникам данных, таким как БКИ или мобильные операторы стали сокращаться ради экономии.
Тем не менее рынок уже готовится к будущему. Дальнейшее снижение ставки рефинансирования ЦБ будет делать кредитование новых клиентов более привлекательным, и перед финансовыми организациями встанет вопрос: насколько оптимально были сокращены внешние источники ранее, стоит ли вернуть какой-то из них, появились ли новые типы данных на рынке, и как выстроить оптимальный набор данных для оценки новых клиентов.
Параметры юз-кейса
Для этой статьи раскрываются показатели проекта оптимизации набора источников данных в российском BNPL-сервисе, работающем с розничными покупателями в сегменте онлайн и офлайн торговли.
По условиям NDA с заказчиком и с поставщиками данных, не получится раскрыть точные условия получения разных типов данных и параметры портфеля. Поэтому в статье все оценки приведены в условных единицах.
Формат BNPL («купи сейчас — плати потом») предполагает короткие займы на небольшие суммы. Это накладывает особые требования к точности скоринга: каждая ошибка в оценке клиента распространяется на десятки и сотни его транзакций.
Основные параметры портфеля на момент исследования
Средний чек покупки в рассрочку — около 1200 у.е. (ниже, чем в классическом кредитовании, за счёт розничного характера сделок).
Средний срок рассрочки — 4 месяца (значительно короче стандартного займа на 8 месяцев или кредита).
Эффективная доходность — 70% годовых (с учётом комиссий и платы от магазинов за сервис BNPL).
Ожидаемый уровень потерь (Expected Losses) — порядка 7% (выше, чем в классическом портфеле, что объясняется низким порогом входа для клиентов и высоким уровнем одобрения).
Основной драйвер бизнеса — массовое привлечение новых клиентов и высокая частота повторных покупок.
Таким образом, BNPL-портфель является более рискованным и «быстрым», чем классическое POS-кредитование, но именно на нём проверка оптимального набора источников данных даёт наиболее показательные результаты. Любое улучшение модели скоринга даже на доли процента напрямую конвертируется в значимый прирост прибыли.
Шаги проекта Оптимизации источников данных
Шаг 1. Сбор данных
В качестве исследуемой генеральной совокупности был использован небольшой поток новых клиентов, которые кредитовались в 2024 году. Эта выборка позволяет моделировать показатели именно на том сегменте, который станет актуальным при снижении ставки ЦБ, — клиенты «с улицы».
Для них были собраны следующие источники данных:
Источник |
Стоимость 1 запроса, у.е. |
Число фичей |
Собственные данные |
0 |
540 |
БКИ |
1 |
1430 |
Телеком |
3 |
1 |
Ecom |
2 |
64 |
B2B маркетплейс данных |
1.8 |
90 |
Мессенджеры (Whatsapp, Telegram) |
1.6 |
135 |
Собственные данные, данные БКИ, Телеком данные уже находились в контуре BNPL сервиса.
Остальные источники были собраны с помощью python-библиотеки upgini.
Вся обработка данных производилась в контуре BNPL сервиса.
В результате был сформирован набор из 6 источников данных и 2260 признаков.
Более подробное описание источников представлено ниже.
Шаг 2. Определение стоимости наборов признаков
Каждый признак должен быть привязан к своему источнику данных. Для каждого источника была назначена стоимость одного запроса, чтобы в итоговой модели можно было учитывать не только качество скоринга, но и стоимость источника. Такой подход делает задачу ближе к реальной экономике: источник может быть ценным по ROC AUC и IV, но невыгодным с точки зрения затрат.
Шаг 3. Оптимизация
Оптимизация источников осуществлялась с помощью оптимизационного модуля собственной разработки. Его задача — автоматически оценить вклад каждого источника и найти оптимальный набор источников данных.
Если бы такой анализ проводился вручную, потребовалось бы несколько недель работы: обучить сотни моделей, рассчитать множество статистик. Оптимизатор выполнил эту задачу за один час.
Что делал Оптимизатор источников данных под капотом:
Обучил интегральные модели на каждой комбинации источников данных. Для каждой комбинации источников строилась отдельная модель, которая сворачивала все признаки из источников в интегральный скор.
Оценил качество и параметры портфеля для каждой комбинации. Для оценки качества каждой комбинации источников использовалась метрика Information Value (IV). Оценка производилась не по сумме признаков, а по интегральному скору. То есть на каждом источнике строились отдельные скоры. Далее эти скоры комбинировались между собой. Таким образом, мы получили набор готовых скоринговых баллов по каждой комбинации источников с конкретной ценой и расчитанными метриками по портфелю.
-
Нашел оптимальные комбинации источников. На этом этапе осуществлялся автоматический перебор всех комбинаций источников. Для каждой комбинации рассчитывались:
уровень ожидаемых потерь (EL),
доля одобренных заявок (approval rate),
совокупная стоимость запросов,
цена рассмотрения одной заявки,
прибыль на 1 выдачу
общая прибыль по портфелю новых клиентов.
По сути, оптимизатор решал задачу поиска оптимального баланса между рисками, доходностью и затратами на данные.
Состав источников данных

Источник |
Состав/Описание |
IV |
ROC AUC |
Собственные данные |
Фичи по новым клиентам: данные из анкеты (пол, возраст, регион, доход, семейное положение, занятость), данные об устройстве с которого заполнялась заявка (тип устройства, производитель и модель устройства, ОС). Фичи по действующим клиентам: те же фичи что по новым клиентам + кредитная источрия внутри BNPL‑сервиса |
0.4 |
0.67 |
БКИ |
Фичи на основе расширенной кредитной истории, содержащей информацию о запросах по данному пользователю из других кредитных учреждений, о выданных кредитах, о просрочках и тому подобное |
1.2 |
0.78 |
E-com |
Число и частота покупок в маркетплейсе, средний чек, LLM эмбеддинги на наименованиях товаров в корзине. |
0.1 |
0.56 |
B2B маркетплейс данных |
Информация об использовании различных оффлайн и онлайн сервисов, частота использования, срок жизни, категории интересов. |
0.3 |
0.63 |
Мессенджеры (Whatsapp, Telegram) |
Флаги наличия аккаунтов, срок жизни профилей, характеристики профилей (открытый/закрытый, частный/корпоративный) и пр. |
0.2 |
0.6 |
Телеком |
Cкоринговый балл от мобильного оператора. |
0.3 |
0.65 |
Методика поиска оптимального набора источников данных
Для оценки эффективности различных комбинаций источников использовались IV и стоимость источников. Approval rate определялся на основании скоринга как одобренных так и отказных заявок. EL определялся на основании EL выделенного сегмента среди выдач. Для оценки эффективности различных комбинаций источников использовались IV и стоимость источников.
Комбинации источников данных
Текущий набор данных (baseline)
Источники: Собственные данные + БКИ + Телеком
Стоимость: 400 000 у.е.
IV: 1,5
ROC AUC: 0,82
Approval rate: 24%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 66 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 1,48 млн у.е.
Набор данных «Экономный»
Цель: получить тот же IV что в baseline, но за меньшую стоимость.
Источники: БКИ + собственные данные + B2B маркетплейс данных
Стоимость: 280 000 у.е. (-30%)
IV: 1,5
ROC AUC: 0,81
Approval rate: 24%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 72 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 1,6 млн у.е. (+9%)
Полный набор данных
Цель: получить максимальный IV за счёт подключения всех источников данных.
Источники: БКИ + собственные данные + Телеком + Ecom + B2B маркетплейс данных + Данные мессенджеров.
Стоимость: 760 000 у.е. (+90%)
IV: 2,6
ROC AUC: 0,83
Approval rate: 40%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 65 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 2,56 млн у.е. (+73%)
Набор данных «Оптимальный»
Цель: максимизировать прибыль на портфель.
Источники: БКИ + собственные данные + B2B маркетплейс данных + Данные мессенджеров.
Стоимость: 440 000 у.е. (+10%)
IV: 2,5
ROC AUC: 0,82
Approval rate: 38%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 72 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 2,7 млн у.е. (+84%)

Вывод
Проведённый анализ продемонстрировал, что использование комплексного подхода из анализа IV, стоимости источников и ключевых бизнес‑метрик (approval rate, expected losses, прибыль на 1 выдачу) позволяет системно сопоставлять сценарии и выявлять оптимальные комбинации данных.
Основные результаты нашего проекта следующие:
Текущий набор данных (собственные данные + 1 бюро + 1 телеком) задает baseline по информационной ценности (IV = 1,5), и позволяет получить средний по рынку уровень одобрения (AR = 24%), что отражается в умеренной прибыльности портфеля новых клиентов в размере около 1,48 млн у.е. в месяц.
Подключение всех доступных источников повышает IV до 2,6 и AR до 40%. Прибыль по портфелю новых клиентов возрастает на 73% из за низкой базы (≈ 2,56 млн у.е./мес.), однако при этом затраты на закупку данных почти удваиваются, что делает сценарий малореалистичным в условиях бюджетных ограничений.
Оптимальный сценарий позволяет получить IV чуть ниже чем при использовании всех источников (IV = 2,5)и немного сниженный уровень одобрения (AR = 38%) при 10% росте затрат. Прибыль на выдачу достигает максимальных 72 у.е., а совокупная прибыль до рекордных 2,7 млн у.е./мес. (+84% к базовому сценарию).
Заключение
Как показал опыт нашего проекта полагаться исключительно на «проверенный» пул источников данных без тестирования новых моделей и источников столь же неэффективно, как и бездумно наращивать количество источников. Консервативный подход ведёт к упущенной выгоде, а экстенсивное расширение числа подключенных источников данных к неоправданному росту затрат. Оптимальный результат достигается за счёт интеллектуальной оптимизации набора источников данных. Такой подход в нашем проекте позволил смоделировать прирост прибыли на 84% при 10% увеличении затрат в сегменте новых клиентов.