Оптимизация источников данных для ML моделей / forpes.ru

Главная
Оптимизация источников данных для ML моделей

Оптимизация источников данных для ML моделей +3

09.10.2025 07:16

Upgini 0 539 Источник

Эта статья о том, как можно оптимизировать набор закупаемых источников данных для ML моделей на примере модели для кредитного скоринга физических лиц. И как сократить расходы на данные на 30% без изменения качества модели.

Исторически основными покупателями внешних данных в России являются финансовые организации. За последние годы они были вынуждены оптимизировать свои расходы на закупку внешних данных. Для работы с существующей клиентской базой им часто достаточно внутренних данных, а запросы к дорогим внешним источникам данных, таким как БКИ или мобильные операторы стали сокращаться ради экономии.

Тем не менее рынок уже готовится к будущему. Дальнейшее снижение ставки рефинансирования ЦБ будет делать кредитование новых клиентов более привлекательным, и перед финансовыми организациями встанет вопрос: насколько оптимально были сокращены внешние источники ранее, стоит ли вернуть какой-то из них, появились ли новые типы данных на рынке, и как выстроить оптимальный набор данных для оценки новых клиентов.

Параметры юз-кейса

Для этой статьи раскрываются показатели проекта оптимизации набора источников данных в российском BNPL-сервисе, работающем с розничными покупателями в сегменте онлайн и офлайн торговли.

По условиям NDA с заказчиком и с поставщиками данных, не получится раскрыть точные условия получения разных типов данных и параметры портфеля. Поэтому в статье все оценки приведены в условных единицах.

Формат BNPL («купи сейчас — плати потом») предполагает короткие займы на небольшие суммы. Это накладывает особые требования к точности скоринга: каждая ошибка в оценке клиента распространяется на десятки и сотни его транзакций.

Основные параметры портфеля на момент исследования

Средний чек покупки в рассрочку — около 1200 у.е. (ниже, чем в классическом кредитовании, за счёт розничного характера сделок).
Средний срок рассрочки — 4 месяца (значительно короче стандартного займа на 8 месяцев или кредита).
Эффективная доходность — 70% годовых (с учётом комиссий и платы от магазинов за сервис BNPL).
Ожидаемый уровень потерь (Expected Losses) — порядка 7% (выше, чем в классическом портфеле, что объясняется низким порогом входа для клиентов и высоким уровнем одобрения).
Основной драйвер бизнеса — массовое привлечение новых клиентов и высокая частота повторных покупок.

Таким образом, BNPL-портфель является более рискованным и «быстрым», чем классическое POS-кредитование, но именно на нём проверка оптимального набора источников данных даёт наиболее показательные результаты. Любое улучшение модели скоринга даже на доли процента напрямую конвертируется в значимый прирост прибыли.

Шаги проекта Оптимизации источников данных

Шаг 1. Сбор данных
В качестве исследуемой генеральной совокупности был использован небольшой поток новых клиентов, которые кредитовались в 2024 году. Эта выборка позволяет моделировать показатели именно на том сегменте, который станет актуальным при снижении ставки ЦБ, — клиенты «с улицы».

Для них были собраны следующие источники данных:

Источник	Стоимость 1 запроса, у.е.	Число фичей
Собственные данные	0	540
БКИ	1	1430
Телеком	3	1
Ecom	2	64
B2B маркетплейс данных	1.8	90
Мессенджеры (Whatsapp, Telegram)	1.6	135

Собственные данные, данные БКИ, Телеком данные уже находились в контуре BNPL сервиса.

Остальные источники были собраны с помощью python-библиотеки upgini.

Вся обработка данных производилась в контуре BNPL сервиса.

В результате был сформирован набор из 6 источников данных и 2260 признаков.
Более подробное описание источников представлено ниже.

Шаг 2. Определение стоимости наборов признаков
Каждый признак должен быть привязан к своему источнику данных. Для каждого источника была назначена стоимость одного запроса, чтобы в итоговой модели можно было учитывать не только качество скоринга, но и стоимость источника. Такой подход делает задачу ближе к реальной экономике: источник может быть ценным по ROC AUC и IV, но невыгодным с точки зрения затрат.

Шаг 3. Оптимизация
Оптимизация источников осуществлялась с помощью оптимизационного модуля собственной разработки. Его задача — автоматически оценить вклад каждого источника и найти оптимальный набор источников данных.

Если бы такой анализ проводился вручную, потребовалось бы несколько недель работы: обучить сотни моделей, рассчитать множество статистик. Оптимизатор выполнил эту задачу за один час.

Что делал Оптимизатор источников данных под капотом:

Обучил интегральные модели на каждой комбинации источников данных. Для каждой комбинации источников строилась отдельная модель, которая сворачивала все признаки из источников в интегральный скор.
Оценил качество и параметры портфеля для каждой комбинации. Для оценки качества каждой комбинации источников использовалась метрика Information Value (IV). Оценка производилась не по сумме признаков, а по интегральному скору. То есть на каждом источнике строились отдельные скоры. Далее эти скоры комбинировались между собой. Таким образом, мы получили набор готовых скоринговых баллов по каждой комбинации источников с конкретной ценой и расчитанными метриками по портфелю.
Нашел оптимальные комбинации источников. На этом этапе осуществлялся автоматический перебор всех комбинаций источников. Для каждой комбинации рассчитывались:
- уровень ожидаемых потерь (EL),
- доля одобренных заявок (approval rate),
- совокупная стоимость запросов,
- цена рассмотрения одной заявки,
- прибыль на 1 выдачу
- общая прибыль по портфелю новых клиентов.
  
  По сути, оптимизатор решал задачу поиска оптимального баланса между рисками, доходностью и затратами на данные.

Состав источников данных

Сравнительные характеристики использованных источников данных

Источник	Состав/Описание	IV	ROC AUC
Собственные данные	Фичи по новым клиентам: данные из анкеты (пол, возраст, регион, доход, семейное положение, занятость), данные об устройстве с которого заполнялась заявка (тип устройства, производитель и модель устройства, ОС). Фичи по действующим клиентам: те же фичи что по новым клиентам + кредитная источрия внутри BNPL‑сервиса	0.4	0.67
БКИ	Фичи на основе расширенной кредитной истории, содержащей информацию о запросах по данному пользователю из других кредитных учреждений, о выданных кредитах, о просрочках и тому подобное	1.2	0.78
E-com	Число и частота покупок в маркетплейсе, средний чек, LLM эмбеддинги на наименованиях товаров в корзине.	0.1	0.56
B2B маркетплейс данных	Информация об использовании различных оффлайн и онлайн сервисов, частота использования, срок жизни, категории интересов.	0.3	0.63
Мессенджеры (Whatsapp, Telegram)	Флаги наличия аккаунтов, срок жизни профилей, характеристики профилей (открытый/закрытый, частный/корпоративный) и пр.	0.2	0.6
Телеком	Cкоринговый балл от мобильного оператора.	0.3	0.65

Методика поиска оптимального набора источников данных

Для оценки эффективности различных комбинаций источников использовались IV и стоимость источников. Approval rate определялся на основании скоринга как одобренных так и отказных заявок. EL определялся на основании EL выделенного сегмента среди выдач. Для оценки эффективности различных комбинаций источников использовались IV и стоимость источников.

Комбинации источников данных

Текущий набор данных (baseline)

Источники: Собственные данные + БКИ + Телеком
Стоимость: 400 000 у.е.
IV: 1,5
ROC AUC: 0,82
Approval rate: 24%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 66 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 1,48 млн у.е.

Набор данных «Экономный»

Цель: получить тот же IV что в baseline, но за меньшую стоимость.
Источники: БКИ + собственные данные + B2B маркетплейс данных
Стоимость: 280 000 у.е. (-30%)
IV: 1,5
ROC AUC: 0,81
Approval rate: 24%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 72 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 1,6 млн у.е. (+9%)

Полный набор данных

Цель: получить максимальный IV за счёт подключения всех источников данных.
Источники: БКИ + собственные данные + Телеком + Ecom + B2B маркетплейс данных + Данные мессенджеров.
Стоимость: 760 000 у.е. (+90%)
IV: 2,6
ROC AUC: 0,83
Approval rate: 40%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 65 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 2,56 млн у.е. (+73%)

Набор данных «Оптимальный»

Цель: максимизировать прибыль на портфель.
Источники: БКИ + собственные данные + B2B маркетплейс данных + Данные мессенджеров.
Стоимость: 440 000 у.е. (+10%)
IV: 2,5
ROC AUC: 0,82
Approval rate: 38%
EL: 6,5%
Прибыль от новых клиентов на одну выдачу: ≈ 72 у.е.
Общая прибыль от новых клиентов в месяц: ≈ 2,7 млн у.е. (+84%)

Сравнительные характеристики основных комбинаций источников данных

Вывод

Проведённый анализ продемонстрировал, что использование комплексного подхода из анализа IV, стоимости источников и ключевых бизнес‑метрик (approval rate, expected losses, прибыль на 1 выдачу) позволяет системно сопоставлять сценарии и выявлять оптимальные комбинации данных.

Основные результаты нашего проекта следующие:

Текущий набор данных (собственные данные + 1 бюро + 1 телеком) задает baseline по информационной ценности (IV = 1,5), и позволяет получить средний по рынку уровень одобрения (AR = 24%), что отражается в умеренной прибыльности портфеля новых клиентов в размере около 1,48 млн у.е. в месяц.
Подключение всех доступных источников повышает IV до 2,6 и AR до 40%. Прибыль по портфелю новых клиентов возрастает на 73% из за низкой базы (≈ 2,56 млн у.е./мес.), однако при этом затраты на закупку данных почти удваиваются, что делает сценарий малореалистичным в условиях бюджетных ограничений.
Оптимальный сценарий позволяет получить IV чуть ниже чем при использовании всех источников (IV = 2,5)и немного сниженный уровень одобрения (AR = 38%) при 10% росте затрат. Прибыль на выдачу достигает максимальных 72 у.е., а совокупная прибыль до рекордных 2,7 млн у.е./мес. (+84% к базовому сценарию).

Заключение

Как показал опыт нашего проекта полагаться исключительно на «проверенный» пул источников данных без тестирования новых моделей и источников столь же неэффективно, как и бездумно наращивать количество источников. Консервативный подход ведёт к упущенной выгоде, а экстенсивное расширение числа подключенных источников данных к неоправданному росту затрат. Оптимальный результат достигается за счёт интеллектуальной оптимизации набора источников данных. Такой подход в нашем проекте позволил смоделировать прирост прибыли на 84% при 10% увеличении затрат в сегменте новых клиентов.