В этой статье я расскажу про открытые данные Whatsapp и Telegram: насколько они ценны и насколько легальны.

В России уже сложился рынок "больших данных": данные для ML-моделей, рекламы и систем принятия решений продают Бюро кредитных историй, Ecom-компании (от крупных маркетплейсов и классифайдов до небольших приложений), Оффлайн ретейлеры, Операторы сотовой связи, различные агрегаторы и другие компании. Новые типы данных появляются на рынке не так часто. Одной из новинок в данных последних лет стали данные мессенджеров - открытые данные Whatsapp и Telegram.
Сейчас их можно получить через публичные API Whatsapp и Telegram, также эти API проинтегрированы в ряд глобальных сервисов, которые в свою очередь доступны через различные интерфейсы, например через отдельные API и python библиотеку upgini.
Какие фичи из Whatsapp и Telegram можно получить для вашей ML модели:
- факт наличия профиля в WhatsApp и Telegram
- тип профиля (открытый / закрытый)
- флаг корпоративного профиля
- тип бизнеса корпоративного профиля
- оценка пола и возраста на основании открытых данных мессенджеров
- оценка настроения пользователя на основании открытых данных мессенджеров
- дата регистрации (соответственно срок жизни номера телефона)
Такие данные, конечно, могут быть полезны для различных скоринговых моделей: от оценки рисков до CRM и предсказания оттока. Давайте посмотрим на метрики.
Результаты тестирования данных мессенджеров в задаче кредитного скоринга

На графике выше сравниваются 3 типовых и 3 новых источника данных для кредитного скоринга.
Источник |
Описание |
IV |
ROC AUC |
Собственные данные |
Новые клиенты: анкета (пол, возраст, регион, доход, семейное положение, занятость) и device data (тип устройства, ОС, IP, браузер). Действующие клиенты: дополнительно учитывается история платежей |
0,4 |
0,67 |
Кредитная история (БКИ) |
Расширенная кредитная история заемщика, содержащая информацию о запросах других кредитных учреждений, о выданных кредитах, платежной дисциплине и т.п. |
1,2 |
0,78 |
E-com |
Агрегированные данные о транзакциях в маркетплейсе, частота покупок, средний чек, категории приобретаемых товаров. |
0,1 |
0,56 |
B2B маркетплейс данных |
Информация об использовании различных оффлайн и онлайн сервисов, частота использования, срок жизни, категории интересов. |
0,3 |
0,63 |
Телеком данные |
Cкоринговый балл мобильного оператора |
0,3 |
0,65 |
Данные мессенджеров |
Регистрации и активность в глобальных мессенджерах и соцсетях, информация с публичных профилей, время с момента начала использования сервисов. |
0,2 |
0,60 |
Однако, помимо практической ценности, возникает важный вопрос: насколько легально использование подобных данных?
Легальность данных из мессенджеров
-
Интеллектуальная собственность
Риск: Данные, полученные из открытых API третьих лиц могут быть признаны интеллектуальной собственностью этих лиц.
Учитывая спор DoubleData/ВКонтакте и иную судебную практику в России и за рубежом, мы проанализировали вероятность предъявления претензий со стороны владельцев сторонних ресурсов о нарушении прав на принадлежащие им базы данных.
Результат анализа приводит нас к выводу об отсутствии нарушения интеллектуальных прав на базы данных третьих лиц при использовании рассматриваемых данных. Для доказательства нарушения владельцу ресурса необходимо обосновать следующие факты (последовательно и в совокупности):
Объект доказывания для владельца ресурса
Митигация риска для пользователя данных
Доказать факт наличия проприетарной базы данных, охраняемой в РФ
1. Актуальная практика зарубежных судебных инстанций разрешает использование открытых баз данных, если оно не причиняет вред владельцу базы данных: В 2021 г. по делу CV-Online Latvia v Melons в 2021 г. Европейский суд справедливости пришел к выводу, что если ПО не причиняет вред владельцу базы данных (например, создаваемый продукт не является конкурирующим), то одного этого обстоятельства достаточно для вывода о законности такого ПО. Даже если есть извлечение из базы данных, владелец базы данных не должен препятствовать созданию инновационных продуктов (например, поисковых систем).
2. Базы данных иностранных ресурсов содержат сведения о гражданах РФ и не локализованы на территории России – в нарушение требований закона. В связи с этим спорным является вопрос о возможности правовой охраны не локализованных в РФ баз данных иностранных ресурсов, содержащих сведения о российский гражданах.
Доказать неправомерное использование – факт извлечения данных из базы
Получение указанных данных не осуществляются через извлечение каких-либо данных из базы владельца ресурса:
- данные являются информационными сведениями о наличии или отсутствии определенного факта (регистрации номера в сервисе и проч.),
- такая информация общедоступна и не является проприетарной (объектом интеллектуальных прав)
- эту информацию может получить (увидеть) каждое лицо в «ручном» режиме.
Доказать факт недобросовестного использования
1) Данные используются в общественно-полезных целях противодействия мошенничеству (anti-fraud),
2) Данные не используются для недобросовестной конкуренции клиента с сервисами (ресурсами) третьих лиц, копирования самих сервисов или воспроизведения их проприетарного контента,
3) Данные не используются в иных целях, «причиняющих вред владельцу базы данных» (см. решение по делу CV-Online Latvia v Melons).
-
Персональные данные
Риск: Рассматриваемые данные могут быть признаны персональными, полученными и обработанными без соответствующего согласия пользователя.
Номер телефона сам по себе не является персональными данными, поскольку он идентифицирует оконечное устройство (мобильный телефон), а не физическое лицо – пользователя услуг связи. Такой позиции придерживаются Роскомнадзор в разъяснениях на частные запросы и высшие судебные инстанции РФ в актуальной практике: Определение ВС РФ от 21.07.2023 N 305-ЭС23-12160 оставило в силе Постановление Арбитражного суда Московского округа от 30.03.2023 по делу №А40-139096/22 «Совокупность данных, получаемых обществом посредством формы «Заявка на оформление полиса», как обоснованно отметили суды, не обеспечивает возможности доподлинно определить конкретное физическое лицо, которому принадлежит номер телефона и/или адрес электронной почты, поскольку форма не подразумевает предоставления полных «Фамилии имени отчества» и/или иных идентификаторов, таких как «Номер документа удостоверяющего личность», «ИНН», «СНИЛС», «Дата и место рождения», в особенности принимая во внимание тот факт, что в форме могут быть указаны номер телефона и адрес электронной почты, принадлежащие юридическому лицу или иному физическому лицу, не являющемуся заполнителем формы».
В крайнем случае признания рассматриваемых данных персональными – необходимо согласие пользователя на запрос подобной информации для обеспечения законности обработки таких данных. Подобное согласие является стандартом для компаний которые покупают данные о пользователях для своих моделей (банки, мфо, страховые компании, онлайн-ретейлеры, онлайн-классифайды и пр.)
Вывод
Данные из WhatsApp, Telegram и других мессенджеров позволяют улучшить качество действующих клиентских ML-моделей (выявление мошенников/антифрод, оценка кредитных рисков, прогноз оттока). Их использование при первом рассмотрении кажется нарушающим интеллектуальную собственность владельцев баз данных. Но мы показали выше, что это не так, использованные публичных данных Whatsapp и Telegram интеллектуальную собственность владельцев баз данных не нарушает.
А законодательство о персональных данных не нарушается в случае наличия соответствующего согласия пользователя. Кроме того, в соответствии с последней судебной практикой номер телефона сам по себе не является персональными данными, поскольку он не идентифицирует конкретное физическое лицо.