В связи с вступлением в силу новых правил по обезличиванию персональных данных (писал об этом тут https://habr.com/ru/articles/931348/) пришлось разбираться, а как же правильно делать обезличивание, что бы выполнить требование о необратимости процесса. В результате получился тако чек-лист по проверке необратимости обезличивания данных.

1) Прямые идентификаторы удалены
Что это: ФИО, телефоны, e-mail, паспорт/ИНН/СНИЛС, точный адрес, ID устройств/аккаунтов.
Как сделать: выгрузите список полей и проверьте, что этих столбцов нет (или они очищены/заменены кодами, не связанными с реальными данными).
Инструменты: Excel (фильтр по названию колонок), DLP/регэксп-поиск по шаблонам.
ОК, если: в наборе нет явных персональных полей.


2) Ключи/словари сопоставления недоступны получателю
Что это: таблицы «реальный ID → анонимный ID», соли/seed, любые «ключи».
Как сделать: храните такие файлы отдельно в защищённой зоне; не пакуйте их вместе с датасетом; запретите доступ внешним лицам.
ОК, если: получателю датасета невозможно восстановить исходные идентификаторы.


3) Свободный текст очищен
Что это: поля «комментарий», «примечание», «описание» (там часто «утекают» ФИО/телефоны).
Как сделать: прогоните текст через поиск шаблонов (телефон/e-mail/паспорт), удалите совпадения или замените масками.
Пример: «Иванов И.И. +7-900-…» → «[скрыто]».
ОК, если: автоматическая проверка не находит ПДн в тексте.


4) Квазиидентификаторы укрупнены
Что это: поля, по комбинации которых человека можно «вычислить» (возраст+район+должность и т.п.).
Как сделать:

  • Возраст → группы (напр., 18–24, 25–34, …).

  • Дата → месяц/квартал/год (без дня).

  • Адрес → только город/регион (без улицы/квартиры).

  • Доход/сумма → диапазоны.
    ОК, если: ни одно поле не даёт избыточной точности.


5) Редкие значения подавлены
Что это: значения/категории, встречающиеся очень мало (в «хвостах»).
Как сделать: посчитайте частоты; категории с частотой < n (выберите порог, напр., <10 записей) объедините в «Прочее» или укрупните до родительской группы.
ОК, если: нет «редких» значений, по которым можно уникально опознать человека.


6) Перестановка/перемешивание применена (если уместно)
Что это: разрыв «сцепки» между полями (например, перетасуйте строки или некоторые атрибуты внутри группы).
Как сделать: в выборках, где возможны уникальные сочетания, используйте перемешивание или микс-техники (swapping) внутри однородных сегментов (один город/класс).
ОК, если: исходные «уникальные связки» разбиты.


7) Добавлен шум/бининг для числовых полей (где нужно)
Что это: небольшое контролируемое искажение чисел, либо перевод чисел в «бины» (диапазоны).
Как сделать: суммы округляйте (до тысячи/десятков тыс.), длительности — до минут/часов, координаты — до района/квадрата.
ОК, если: точные значения не восстанавливаются, а бизнес-метрики (тренды) сохраняются.


8) k-анонимность ≥ 10 (рекомендуемо)
Что это: каждый «профиль» по выбранным квазиидентификаторам встречается минимум у 10 разных записей.
Как сделать:

  1. Выберите набор квазиидентификаторов (напр., возрастная группа + пол + город).

  2. Постройте сводную таблицу и посчитайте размер каждой группы.

  3. Если группа <10 — укрупняйте поля (см. пп. 4–7) и повторяйте.
    Инструменты: Excel.
    ОК, если: минимальный размер группы ≥10.


9) Доля уникальных комбинаций < 0,5% (или 0)
Что это: «одиночные» записи по выбранной комбинации квазиидентификаторов.
Как сделать: по той же сводной таблице посчитайте процент групп с размером =1 от общего числа записей.
ОК, если: ≤0,5% (или вовсе нет одиночек). При превышении — укрупнить поля/объединить редкие.


10) Мини-группы отсутствуют
Что это: группы меньше порога k (напр., 2–9, если k=10).
Как сделать: выявите такие группы и примените укрупнение/подавление (как в пп. 4–5).
ОК, если: минимальная группа ≥k.


11) Линкейдж-оценка (попытка «сопоставить» с внешними источниками)
Что это: проверка, можно ли «сшить» ваш набор с открытыми данными/внутренними витринами и восстановить личности.
Как сделать: выберите реалистичные внешние источники (открытые реестры, данные компании из другой системы), попробуйте сопоставить по общим полям (город+период+категория и т.п.).
ОК, если: совпадения редки и ниже заданного порога; риск ре-идентификации низкий.


12) Метаданные/служебные поля очищены
Что это: внутренние ID, пути к файлам, имена пользователей, комментарии, GUID, URL, хэши, которые могут «выдать» ключи.
Как сделать: проверьте перечень колонок и свойства файла; удалите ненужные служебные поля.
ОК, если: получатель не увидит служебных «следов» вашей системы.


13) Имена файлов и структура нейтральные
Что это: названия «client_ivanov.xlsx», «2025-07-HR-petrov.docx» — так делать нельзя.
Как сделать: используйте нейтральные имена (например, dataset_A_v3_2025-08-10.parquet), без намёков на личности/ключи/службы.
ОК, если: по имени файла нельзя догадаться о содержимом ПДн.


14) Запрещённые «единственные методы» не используются
Что это: нельзя считать анонимизацией «только шифрование» или «только хэш».
Как сделать: применяйте комбинацию методов из пп. 4–7; криптография может использоваться дополнительнодля защиты, но не как способ обезличивания.
ОК, если: обезличивание достигается содержательными методами (обобщение, подавление, перемешивание и т.д.).


15) Артефакты собраны и сохранены
Что это: отчёт об анонимизации, список полей до/после, скрипты/версии, параметры биннинга/шума, контрольные суммы, результаты k-анонимности и доли уникальных, лог действий.
Как сделать: сложите всё в защищённую папку/репозиторий; дайте названия, дату, версию.
ОК, если: любой внутренний аудит сможет воспроизвести процесс.


17) Подписи ответственных получены
Что это: финальный «допуск» на передачу.
Как сделать: короткий лист согласования: владелец набора → ИБ/данные-сайентист → юрист/ответственный за ПДн → утверждающий (CISO/DPO).
ОК, если: все подписи/одобрения есть; канал выгрузки согласован.


Сделал шаблон для проверки в Excel с автоподсчётом k-анонимности/уникальности, чтобы можно было пройтись по пунктам и поставить «ОК/НЕ ОК». Шаблон выложил в своем телеграмм-канале. Буду благодарен за подписку.

Комментарии (2)


  1. Emulyator
    13.08.2025 08:21

    5) Редкие значения подавлены

    Как неспециалист по обезличиванию,прошу прошу уточнить, не будет ли гипотетических негативных последствий, если на постоянной основе медучреждения будут все редкие диагнозы перекидывать в прочее или приписывать к группе "насморк"?


    1. Atolstikov Автор
      13.08.2025 08:21

      Может. Но нужно найти компромисс между точностью датасета и уровнем его обезличенности.