Искусственный интеллект меняет управление мастер-данными (MDM), не только высвобождая время людей и минимизируя ошибки, но и предоставляя новые инструменты для обработки неструктурированной информации и генерации контекста. В этой статье поговорим о том, как именно ИИ трансформирует MDM-системы, какие решения уже можно считать рабочими, и какие вызовы еще предстоит решить, чтобы он смог стать полноценным помощником в этой области.
Технологии ИИ способны улучшить взаимодействие пользователя с MDM-системой, а также повысить эффективность его труда. При этом не стоит забывать о том, что сами по себе практики управления данными, а в частности — мастер-данными, в свою очередь создают фундамент для корректной работы алгоритмов искусственного интеллекта. Достоверность результатов ИИ определяется тем, насколько качественные данные используются как при обучении моделей, так и в процессе их эксплуатации. Тут как никогда кстати можно вспомнить русскую пословицу: «Что посеешь, то и пожнешь».

Передовые тренды VS классические проблемы
Наш мир во всех смыслах стремительно меняется, это ни для кого не секрет. Каждая здравомыслящая и амбициозная компания сталкивается с вызовами, которые нужно преодолевать, чтобы оставаться конкурентноспособной. А чтобы занять позицию лидера, нужно применять передовые практики и решения. Однако в попытках «догнать и перегнать», внедряя последние ноу-хау, среди которых как раз и находится ИИ (например, для продвинутой аналитики и прогнозирования, персонализации контента в маркетинге, создания новых продуктов в R&D и др.), не стоит забывать о фундаменте: понимании своих данных, возможности оценки их качества, поддержания их в актуальном состоянии.

А сейчас минутка, чтобы выдохнуть, немного сбавить градус серьезности и посмотреть веселые картинки?

Мемы мемами, но, как известно, в каждой шутке есть доля правды – зачастую так люди пытаются высмеять какую-то наболевшую злободневную проблему, поэтому в каком-то смысле эта картинка может служить подтверждением актуальности мыслей выше.
История применения ИИ в MDM-системах
Первое достоверное упоминание использования ML-функционала в системе MDM, которое мне удалось обнаружить, относилось к 2017-2018 годам. На тот момент как минимум в двух системах был реализован механизм поиска похожих записей с использованием ML, причем стоит отметить, что среди них была и отечественная система (например, IBM InfoSphere и Semantic MDM).
Затем, в 2019-2020 годах появляются упоминания об использовании ML для более гибкого контекстного поиска данных по запросу пользователя (например, в IBM).
В 2022 году появилась информация о применении ML для прогнозирования ошибок при вводе данных – по сути, улучшение функционала проверки качества данных (например, в SAP MDG).
И наконец в 2023-2024 годах, с бурным развитием больших языковых моделей, начинают появляться и попытки разработки персонализированных интерфейсов и ассистентов на базе ИИ (например, в SAP и Informatica).

Возможно, от меня ускользнули еще какие-то факты из истории, поэтому мне будут интересны ваши комментарии о том, как же все было на самом деле.
Наши зарубежные коллеги-эксперты считают, что интеграция искусственного интеллекта, в частности генеративного (ГенИИ), в системы управления мастер-данными — это не просто трансформация, а революционный скачок в управлении данными. Например, эксперты Gartner прогнозируют, что уже в 2026 году внедрение генеративного ИИ может сократить затраты на операции с мастер-данными, которые выполняются сейчас вручную, на 20%, при этом позволяя использовать в четыре раза больше новых сценариев их обработки. Более того, по мнению того же Gartner, к 2027 году применение генеративного ИИ ускорит получение ценности от управления мастер-данными на 40%, что соответственно отразится на скорости формирования эталонных («золотых») записей.
Ключевые тренды применения ИИ в MDM, которые уже становятся реальностью
Перечислю основные функции, для которых уже сегодня многие вендоры планируют или начинают использовать машинное обучение и искусственный интеллект:
Автоматическая очистка и стандартизация данных (например, InfoSphere MDM + отдельные модули) – алгоритмы могут автоматически исправлять опечатки, приводить данные к единому формату. Например, ИИ может автоматически стандартизировать названия компаний или адреса, даже если они были введены в разных форматах. Такой функционал, даже в качестве самостоятельного решения, сейчас очень востребован компаниями, которые задумываются о внедрении практики ведения справочников и НСИ и, в частности, одним из первых шагов планируют именно очистку и нормализацию мастер-данных, накопившихся в разных системах-источниках. И если еще не так давно для целей нормализации использовался длительный ручной процесс выверки, то сейчас ситуация понемногу меняется.
В операционном процессе при создании новых записей справочников или изменении существующих этот блок также полезен – например, ИИ можно обучить на исторических данных для выявления паттернов, которые будут говорить о потенциальных ошибках и использовать это как один из вариантов проверки качества данных.Обнаружение и устранение дубликатов (пример – SAP MDG) – по сути продолжение и расширение предыдущего пункта. Ключевая проблема тут кроется именно в корректном поиске похожих записей, которые могут быть потенциальными дубликатами. До недавнего времени для поиска похожих записей использовались детерминированные алгоритмы, например, расстояние Левенштейна, которое показывает, сколько операций нужно выполнить, чтобы преобразовать одну строку в другую. Тем самым оценивается критерий схожести. Но качество этой операции возрастает с применением методов машинного обучения и ИИ.
Структурирование, нормализация и обогащение данных (пример здесь – «1С:MDM Управление нормативно-справочной информацией») – ИИ извлекает из неструктурированной информации массивы, соответствующие заданным критериям, а также проводит высокоуровневую нормализацию таблиц с сырыми данными, извлекая все возможные колонки и значения, обобщая значения и приводя их к известным классификаторам. Также он обогащает и расширяет данные, заполняя описательные поля по наименованию объекта НСИ.
Следующие блоки функций уже касаются получения данных из внешних источников и в большей степени релевантны для PIM-систем:Классификация и категоризация атрибутов, интеграция данных (например, Informatica Product 360) – для реализации этих задач используется механизм «понимания естественного языка» или Natural Language Understanding, который помогает в определении полей и типов полей в источниках и сопоставлении их с моделями справочников. Средство обнаружения и маппинга структур данных также может использоваться в процессах интеграции приложений, повышая эффективность бизнес-процессов, в которых данные справочников требуется получать из систем клиентов и/или партнеров. Категоризация товаров — важная операция для электронной коммерции. Она улучшает поиск и навигацию, а также влияет на качество рекомендаций по товарам, основанных на совместной работе и алгоритмах фильтрации контента. Ритейлеры постоянно обновляют ассортимент товаров, иногда добавляя тысячи новых позиций за один релиз. В такой ситуации просмотр карточек товаров вручную и присвоение категорий занимает много времени и чреват ошибками, поэтому применение методов искусственного интеллекта здесь оказывается особенно ценным, позволяя автоматизировать процесс и минимизировать риски.
В продолжение функционала классификации атрибутов можно отметить возможность маркировки и маскирования чувствительных данных – в этом случае система автоматически определяет принадлежность атрибута или группы атрибутов, например, к персональным данным или коммерческой тайне, и на лету может скрывать значения от пользователя, у которого нет прав на их просмотр.
Визуализация происхождения и использования мастер-данных (пример – Informatica) – подобный функционал в большей степени характерен для таких решений по управлению данными, как каталоги данных и бизнес-глоссарии. Однако он также важен для пользователей, например, при проведении impact-анализа ключевых данных. Механизм искусственного интеллекта позволяет автоматизировать построение карты происхождения данных.
Обнаружение аномалий и мошенничества – ИИ способен анализировать мастер-данные на предмет аномалий или подозрительных действий. Например, выявлять фальшивые учетные записи клиентов, несоответствия в данных или некорректные значения данных о поставщике, такие как несуществующие адреса или номера телефонов.
Перспективы и возможности внедрения ИИ в системы MDM: наша попытка заглянуть в светлое будущее
Поделюсь мыслями, которые родились в дискуссиях нашей команды, экспертов практики 1С, а также экспертов со стороны вендора системы "Гармония MDM". Не удивлюсь, если так или иначе все эти функции уже кем-то прорабатываются, однако хотелось бы их обозначить.
Итак, первый пункт мы сформулировали как «Настройка системы с помощью естественного языка» – таким образом мы хотели бы развить тренд на low-code/no-code системы и упрощение возможностей администрирования. Было бы удобно иметь возможность настройки процессов согласования, шаблонов уведомлений, а также пользовательских проверок качества данных в рамках диалога с ИИ-ассистентом, который переводил бы ТЗ от пользователя в код или конфигурационный файл.
Подобные ассистенты разработчика уже создаются, в том числе и силами нашей компании Axenix, поэтому эта задача не кажется нереализуемой.«Ассистент формирования контролей качества» – на наших проектах возникали ситуации, когда проверок качества атрибутов на справочнике становилось очень много (счет шел на тысячи). В такой ситуации может возникнуть путаница: «Какая логика уже реализована?», «Не противоречит ли новое правило какому-либо из уже заведенных?», поэтому востребован функционал, позволяющий инспектировать логику настраиваемой проверки и сопоставлять ее с уже имеющимися, а в случае обнаружения противоречий – выдавать предупреждения.
-
«База знаний – виртуальный консультант» – с одной стороны такого рода задачи уже начинают реализовываться, в том числе и в MDM-системах, этим в 2025 году никого не удивишь. С другой, уже реализующиеся проекты предполагают взаимодействие пользователей с ассистентом для уточнения информации о состоянии данных в системе. Мы же предположили, что на базе этих наработок можно создать виртуального консультанта по функционалу системы, который бы содержал всю актуальную информацию о последнем релизе и подсказывал бы пользователям необходимую последовательность действий в той или иной ситуации.
В развитие этой идеи также возникла мысль о функциях первой линии поддержки и помощника в создании полных и удобных для анализа форм заявок об инцидентах. В режиме диалога такой ассистент мог бы выяснять детали и формировать заявку в поддержку, а также прикладывать к ней логи компонентов, не привлекая при этом специалистов ИТ или администраторов.
Ассистент моделирования справочников – некий интеллектуальный профилировщик данных, который кроме информации по основным характеристикам структур данных в системах-потребителях и системах-источниках мастер-данных предлагал бы рекомендации, какую структуру требуется создать для справочника, который мы централизуем.
Обогащение данных – функционал, который в автоматическом режиме позволит дополнять карточку записи справочника значениями отсутствующих атрибутов. Логика работы предполагается следующей: организация технического доступа к операционным системам компании (например, системе документооборота) для того, чтобы ИИ мог «просканировать» содержание активов данных и обнаружить пробелы, которые не были заполнены человеком при создании записи, либо данные, которые не пришли из какой-то системы-источника.
Кроме того, надеемся, что ИИ будет активно применяться (если уже не применяется) отечественными вендорами при разработке, отладке и тестировании функционала собственных MDM-систем.
Доверие – ограничитель безграничных возможностей ИИ
На текущий момент нельзя обойти стороной и тренды развития так называемых мультиагентных архитектур или мультиагентных систем. В основе мультиагентного подхода лежит понятие агента, который представляет из себя сущность, способную собирать данные об окружающей среде и самостоятельно принимать какие-либо решения. Группа взаимодействующих агентов, имеющих общую цель, называется мультиагентной системой.
Поскольку MDM предназначена для синхронизации и согласования основных данных между различными операционными системами компании, то теоретически возможен вариант появления мультиагентной архитектуры, которая будет выполнять ту же самую задачу, но уже в фоновом режиме, без активного участия человека.

Однако на сегодняшний день применение таких технологий затруднительно. Бизнес пользуется системами и алгоритмами, имеющими фиксированную, понятную логику, которую можно контролировать. При использовании самостоятельных агентов возникают вопросы: как обеспечить прозрачность и обоснованность принимаемых решений, доверие к ним, информационную безопасность и др.
Ремарка: в процессе поиска материалов к этой статье я использовал в том числе и различные сервисы ГенИИ (ничто человеческое и мне не чуждо), где в запросе просил выдать год, наименование системы MDM, описание внедренного функционала, ссылку на источник информации и цитату из этого источника, подтверждающую факт. Результаты выглядели очень прилично – все требования формально были соблюдены, однако на поверку оказалось, что только одна из всех предоставленных ссылок вела на существующую страницу… Так что «доверяй, но проверяй». В итоге пришлось искать все по старинке?.
Эти вызовы ставят перед нами, интеграторами и методологами, новую задачу: вместе с заказчиками и вендорами продумать, как создать все вышеперечисленные условия и обеспечить успешную адаптацию и приживаемость таких автономных систем.