Machine Unlearning. Как измерить и достичь «забывания»? / forpes.ru

Главная
Machine Unlearning. Как измерить и достичь «забывания»?

Machine Unlearning. Как измерить и достичь «забывания»? +11

06.05.2026 09:00

MidavNibush 0 6800 Источник

Всем привет! Меня зовут Вадим, я — Data Scientist в компании Raft. Эта статья написана по мотивам моего выступления на конференции AiConf 2025. В ней мы разберём, какими метриками измеряется машинное разучивание и какие основные методы позволяют добиться контролируемого «забывания» без полного переобучения модели. Погрузимся в методы, метрики и бенчмарки, связанные с машинным разучиванием.

В первой части мы рассказали, зачем моделям вообще нужно уметь забывать требования регуляторов, удаление персональных данных, устранение вредных или чувствительных знаний. Логичный вопрос — как понять, что модель действительно забыла информацию и как этого можно добиться?

Недостаточно просто удалить конкретные примеры: модель может по-прежнему хранить их в параметрах и воспроизводить при другом контексте или атаке. И даже если забывание произошло, как убедиться, что при этом не разрушилась вся остальная функциональность модели?

В этой статье я рассмотрю три ключевых аспекта:

Метрики разучивания: как формально измерить, что информация из модели была удалена, и при этом не пострадала её полезность. Рассмотрим показатели, которые оценивают как забывание конкретных данных, так и сохранение производительности на оставшихся задачах, а также эффективность вычислений.
Методы разучивания: как «стереть» информацию из модели без полного переобучения и как выбрать подходящий подход на основе вашей задачи. Будут рассмотрены различные методы: градиентные подходы, дистилляция знаний и другие архитектурные решения.
Бенчмарки: какие на текущий момент времени существуют бенчмарки в этой области. Рассмотрим наиболее распространенные для LLM, VGM и MLLM.

Основные метрики оценки разучивания

В целом, метрики для разучивания моделей можно поделить на три большие группы:

Метрики забвения, которые показывают, насколько эффективно модель смогла «забыть» данные для удаления.
Метрики качества модели, которые оценивают, насколько хорошо модель сохранила свое качество после «удаления» данных.
Метрики вычислительной эффективности, которые оценивают количественные затраты ресурсов для процесса разучивания.

Рассмотрим каждый класс метрик наиболее подробно.

Метрики забывания

Базовой метрикой для оценки качества разучивания является Unlearn Accuracy. Она измеряет, насколько модель успешно «забыла» именно те примеры, которые должны быть исключены из её знаний.

По сути, эта метрика напоминает стандартную accuracy из машинного обучения, но трактуется противоположным образом: если при классическом подходе совпадение предсказания модели с истинной меткой повышает значение метрики, то в задаче разучивания целевым считается обратное поведение — модель не должна воспроизводить корректный ответ для данных, подлежащих удалению.

Однако искать простые совпадения в большинстве случаев не валидно, поэтому исследователи прибегают к более сложным метрикам, которые принято разделять на три крупные категории:

MIA Metrics — проверяют, можно ли по поведению модели определить, входил ли конкретный пример в обучающую выборку; успешно разученная модель не должна отличаться от модели, никогда не видевшей эти данные.
Memorization Metrics — оценивают, в какой мере модель продолжает «помнить» содержание забытых данных: от дословного воспроизведения текста до сохранения фактических знаний о забытых примерах.
Privacy Metrics — измеряют реальный риск утечки данных после разучивания: насколько легко извлечь оригинальные примеры из модели и насколько её внутренние представления изменились по сравнению с исходным состоянием. В широком смысле MIA-метрики также можно рассматривать как частный случай privacy-оценки — они моделируют поведение внешнего adversary, пытающегося установить факт участия данных в обучении.

Метрики MIA

Отдельного внимания заслуживают метрики семейства MIA (Membership Inference Attacks). Их основная цель — определить, использовался ли конкретный экземпляр данных в обучающем наборе модели, анализируя только её ответы.

Идея атаки заключается в том, что модели часто ведут себя немного иначе на примерах, которые присутствовали в обучении, и на тех, которые она никогда не видела. Атакующий использует это различие и строит отдельный классификатор, который по поведению модели пытается предсказать, был ли пример в обучающем наборе данных или нет. Здесь важно отметить, что для проведения MIA-атаки наличие исходного forget set и даже точных копий обучающих данных не обязательно. Атакующий может сформировать собственный набор тестовых примеров и анализировать поведение модели, пытаясь определить, какие из них могли присутствовать в обучении.

Если после процедуры разучивания атака MIA по-прежнему может с высокой точностью определить, что определенные примеры были в обучающем наборе, это означает, что модель фактически продолжает хранить информацию об этих данных.

Для оценки эффективности таких атак обычно можно использовать стандартные методики классификации: Accuracy, AUC-ROC, Precision, Recall, TPR@FPR.

Метрики сохранения качества модели

Метрики сохранения качества оценивают, насколько модель сохраняет свою производительность на исходных данных после разучивания.

Здесь базовой метрикой является Accuracy (Locality) — по сути, обычная accuracy на retain-данных. Она показывает, насколько модель сохраняет свои способности на данных, которые не должны быть удалены. Высокое значение Accuracy (Locality) вместе с низкой Unlearn Accuracy указывает на успешное и точное разучивание.

Но кроме этого мы в целом можем принять всеми известные метрики из машинного обучения: Precision, Recall, F1 для классификации, MSE, RMSE, MAE для регрессии, а также BLEU, ROUGE, BERTScore для оценки качества генерации текста и т.д.

Метрики вычислительной эффективности

Здесь метрики, в целом, такие же, как и для обычного обучения моделей. Они помогают оценить, сколько ресурсов требуется на процесс разобучения и помогают сравнивать разные методы по их затратам. Основные из них включают:

Время разучивания (Unlearning Time) — сколько времени требуется, чтобы удалить заданный набор данных из модели.
Используемая память (Memory Usage) — объём оперативной и видеопамяти, необходимый для процесса удаления данных, включая промежуточные градиенты и параметры.
Количество вычислений (Compute Cost / FLOPs) — общее количество операций (FLOPs, GPU-часы и др.), затраченных на разучивание.

Основные методы разучивания

Методы можно поделить на две большие группы: с изменением параметров модели и без. В первом случае информация удаляется через обновление весов модели, во втором — с помощью внешних механизмов, не требующих переобучения.

Также подходы с изменением параметров, в свою очередь, можно разделить на два типа:

Точный (exact) unlearning — изменяются все веса модели, чтобы полностью устранить влияние забываемых данных и приблизить поведение модели к результату переобучения с нуля.
Частичный (approximate) unlearning — изменяется только часть параметров, что позволяет добиться похожего поведения модели при меньших вычислительных затратах.

Параметрические методы

Если нам нужно удалить информацию из модели и у нас есть доступ к её весам, логично действовать напрямую — изменить её параметры. Давайте рассмотрим несколько методов, которые позволяют сделать это.

Градиентный подъём

В традиционном обучении моделей обычно используют метод градиентного спуска, который минимизирует функцию потерь, корректируя параметры модели в направлении уменьшения ошибки. Для процесса разучивания можно применить обратный приём — градиентный подъём (gradient ascent) по тем данным, которые требуется «забыть».

Принцип заключается в следующем:

Вычисляются градиенты для выбранных примеров из forget‑набора.
Параметры модели обновляются в направлению градиента, чтобы целенаправленно увеличить ошибку функции потерь.

Такой подход позволяет быстро и просто уменьшить влияние конкретных примеров, но имеет существенный недостаток: модель может деградировать на retain‑данных, теряя точность на остальных задачах.

Для смягчения этого эффекта обычно используют комбинированную функцию потерь:

Loss на retain‑данных — удерживает производительность модели на важных данных.
Loss на forget‑данных — обеспечивает вытеснение информации о забываемых примерах. Для этого компонента обычно используют параметр λ, который регулирует баланс: насколько сильно мы хотим «забыть» данные по сравнению с сохранением качества на retain‑данных.

Формула комбинированной функции потерь между retain и forget сетами

Градиентный спуск

В целом, мы можем применять и градиентный спуск для разучивания, однако подходы, основанные только на информации первого порядка (градиентах), часто нестабильны и могут серьёзно ухудшать общую производительность модели.

Чтобы корректно и стабильно изменять параметры модели, используют информацию второго порядка, которая описывает кривизну функции потерь и позволяет точнее управлять обновлением весов. Для учета этой кривизны необходимо вычислить матрицу Гессе — квадратную матрицу, элементы которой состоят из вторых частных производных функции потерь по параметрам модели.

Вычисление матрицы Гессе

Вычисление матрицы Гессе заключается в нахождении всех вторых частных производных функции потерь $L(\theta)$ по каждой паре параметров $\theta_i$ и $\theta_j$ :

Пример вычисления матрицы Гессе:

Пусть функция потерь простая:

Тогда матрица Гессе состоит из всех вторых производных по параметрам:

На основе этой матрицы можно понять, как изменение одного параметра влияет на градиент по другому, что позволяет точнее подбирать шаги обновления весов.

Для небольших моделей вычисление этой матрицы напрямую возможно через аналитические формулы или автоматическое дифференцирование, но для больших моделей, её точное вычисление становится крайне дорогим и долгим процессом. Поэтому на практике обычно используют её аппроксимации, например, через матрицу Фишера.

На её основе выделяют два основных метода:

Fisher Removal (Удаление Фишера) — более агрессивный метод. Сочетает информацию второго порядка (от retain‑данных) с информацией первого порядка (от forget‑данных), обеспечивая надёжное и эффективное стирание целевой информации.
Fisher Forgetting (Забывание Фишера) — менее агрессивный вариант. Добавление гауссовского шума в процесс обновления весов помогает лучше сохранять общую точность модели и её полезность, делая метод устойчивым при многократных циклах разучивания.

Методы Фишера (слева) и матрица Гессе (справа)

В обоих подходах также обычно используется комбинированная функция потерь.

Дистилляция знаний

Помимо методов на основе градиентов, можно использовать распространенный подход с дистилляцией знаний (knowledge distillation). Он может быть особенно полезен, когда вы дообучили модель на собственных данных, а затем обнаружили, что они содержат нежелательную или конфиденциальную информацию. Полное переобучение модели с нуля в таких случаях может быть дорогостоящим и ресурсоёмким, поэтому дистилляция позволяет эффективно удалить нежелательные данные, сохранив при этом полезные знания модели.

Базово идея в следующем:

Определяем модель-учителя — это исходная модель до Fine-Tuning, которая не содержит нежелательных или конфиденциальных данных.
Определяем модель-студента — это дообученная модель, из которой нужно удалить нежелательные данные.
Прогоняем forget‑набор через модель-учителя и получаем предсказания, которые не содержат вредной информации.
Обучаем модель-студента на этих предсказаниях:

а) студент усваивает полезные знания, которые предоставляет учитель;

б) студент не усваивает нежелательные данные, так как учитель для них не даёт сигналов.
В результате получаем модель, которая сохраняет полезную функциональность, но «забывает» нежелательные или конфиденциальные данные.

SISA

Другим, уже архитектурным методом, является SISA — он требует дополнительной подготовки данных и моделей перед обучением и относится к методам точного (exact) unlearning.

Метод базируется на четырёх ключевых принципах:

Sharding (Разделение): основной датасет делится на несколько несвязанных частей — шардов. Каждый объект данных попадает только в один шард, что ограничивает влияние каждой записи на отдельную часть модели.
Isolation (Изоляция): для каждого шарда обучается отдельная модель, между которыми нет обмена информацией. Это гарантирует, что влияние каждой записи локализовано и не распространяется на другие шард-модели.
Slicing (Нарезка): каждый шард дополнительно разбивается на срезы (slices), которые подаются в модель поэтапно. После обучения каждого среза сохраняется состояние модели. Это позволяет при удалении данных быстро откатиться к состоянию до добавления удаляемого объекта, без необходимости полного переобучения.
Aggregation (Агрегация): для предсказаний используется ансамбль всех шард-моделей. Финальный ответ формируется с помощью агрегации, например, мажоритарным голосованием или усреднением предсказаний.

Когда пользователь запрашивает удаление своих данных:

Система через индекс-таблицу определяет, в каких шард-слайсах содержатся его действия.
В каждом соответствующем шард-слайсе данные пользователя удаляются, и проводится локальное переобучение только этой части модели.
После обновления срезы агрегируются с остальными, и влияние удалённых данных исчезает из всей модели, не затрагивая глобальные рекомендации для других пользователей.

Метод SISA особенно полезен для систем с частыми запросами на удаление данных и когда необходима точная гарантия удаления влияния данных для регуляторных требований (например, GDPR).

Непараметрические методы

Параметрические методы эффективны, но они дорогие и требуют доступа к весам модели. А что делать, если таких ресурсов нет или мы вообще не можем менять веса? В таких случаях на помощь приходят непараметрические подходы — они позволяют «забывать» данные без переобучения, просто управляя тем, что модель видит на входе.

Манипуляция с контекстом (In-Context Unlearning)

Помимо методов, которые изменяют параметры модели, существует подход, основанный на манипуляции контекстом. Он похож на in-context learning, но применяем «обратно» — для разучивания данных. Метод использует врождённую способность модели к обучению в контексте: во время запроса к модели (инференса) ей передаётся специально сконструированный промпт, который заставляет модель игнорировать или «забыть» определённую информацию

Метод работает следующим образом:

Изменение метки (Label Alteration): в промпт помещается пример, который нужно «забыть», но с неправильной меткой. Например, если модель обучена, что «отзыв Алисы — положительный», в промпт подаётся «отзыв Алисы — отрицательный».
Добавление корректных примеров (Correct Context Examples): чтобы модель сохраняла общую производительность и не «сломалась», в промпт добавляются несколько правильно размеченных примеров из обучающей выборки.
Основной запрос (Query): после подготовительных примеров в промпт добавляется основной запрос к модели.

Такая подача контекста снижает уверенность модели в отношении забываемых примеров, создавая эффект, как если бы эти примеры не участвовали в обучении.

Краткое обобщение методов

Чтобы было проще сравнивать рассмотренные подходы, ниже приведена сводная таблица основных методов machine unlearning. Важно помнить, что оценка качества разучивания сильно зависит от данных forget set, retain set, размера модели и настроек метода. Поэтому показатели в таблице носят ориентировочный характер.

Метод	Доступ к весам	Тип unlearning	Среднее качество разучивания	Среднее качество сохранения производительности	Вычислительные затраты	Особенности / когда использовать
Gradient Ascent	Да	approximate	Высокое	Среднее–низкое	Среднее–высокое	Быстрое удаление отдельных примеров; baseline для небольших моделей
Fisher Removal / Fisher Forgetting	Да	approximate	Высокое	Среднее–низкое	Среднее–высокое	Основан на информации второго порядка; более строгие гарантии стирания информации с сохранение полезности модели
Knowledge Distillation	Частично (доступен teacher)	approximate	Среднее	Высокое	Среднее–высокое	Эффективно для удаления нежелательных данных после fine-tuning; сохраняет полезные знания
SISA	да	exact	Высокое	Высокое	Среднее–высокое	Подходит для GDPR и частых запросов на удаление; требует подготовку шардов и моделей
In-Context Unlearning	Нет	non-parametric	Низкое–среднее	Среднее	Низкое	Не изменяет веса; работает только на уровне инференса; подходит для оперативного “забывания” без переобучения; уязвимо к обходу

Области применения и бенчмарки

Схема работы бенчмарков для разучивания моделей немного отличается от стандартного подхода, в котором мы по заранее заготовленному набору данных прогоняем модель и получаем необходимые метрики. Прежде чем их получить, необходимо сначала дообучить саму модель на данных бенчмарка, чтобы усвоить их. А уже после этого можно применить определённый алгоритм разучивания, для того, чтобы удалить или ослабить ненужные целевые знания. Только после этих шагов можно приступать к оценке модели с использованием метрик. Рассмотрим самые распространенные бенчмарки.

Схема работы бенчмарков для методов разучивания

Visual Generative Model

Одной из наиболее распространённых областей применения методов разучивания является генерация изображений. Визуальные модели могут запоминать нежелательные объекты, конкретные стили, чувствительные или авторские элементы из обучающих наборов данных. Для предотвращения этого разрабатываются различные бенчмарки.

Unlearn Canvas

UnlearnCanvas — это бенчмарк для оценки machine unlearning в диффузионных моделях, представляющий собой набор из 20 классов высокоразрешённых стилизованных изображений. Каждый класс соответствует определённому художественному стилю и связанным с ним объектам. Цель — разучить выбранные стили (Forget Set), не разрушив способность модели корректно генерировать изображения в остальных стилях (Retain Set).

Оценка строится через три ключевые метрики:

Unlearning Accuracy (насколько успешно модель «забыла» целевые стили),
In-Domain Retain Accuracy (сохранение качества внутри обученного распределения)

Cross-Domain Retain Accuracy (обобщающая способность на новых комбинациях).

Large Language Models

Другой важной областью применения методов разучивания является работа с крупными языковыми моделями (LLM). Они также могут сохранять личные данные пользователей, устаревшие факты и токсичные или предвзятые выражения из обучающих текстов. Бенчмарков для них значительно больше, ниже приведены самые распространенные.

TOFU

TOFU (Task of Fictitious Unlearning) — это бенчмарк для оценки machine unlearning в больших языковых моделях, основанный на синтетическом наборе из 200 профилей фиктивных авторов, где каждый профиль содержит 20 пар «вопрос‑ответ». Цель эксперимента — заставить модель забыть определённое число авторов (например, 2, 10 или 20) из этого набора (Forget Set), после чего проверяется, насколько успешно забыта информация о них по сравнению с остальными профилями, которые модель должна сохранить (Retain Set).

Процесс unlearning обычно включает дополнительное тонкое обучение или адаптацию модели на оставшихся данных с целью подавить воспроизведение забываемых профилей без полного переобучения. Оценка эффективности проводится не только по способности «забыть» целевых авторов, но и по сохранению производительности на остальных синтетических профилях, на реальных авторах и по общим фактам модели, что позволяет измерить баланс между качеством забывания и сохранением общей полезности LLM.

WMDP

WMDP (Weapons of Mass Destruction Proxy) — это бенчмарк для оценки machine unlearning и опасных знаний в больших языковых моделях. Он состоит из 3 668 вопросов с множественным выбором, охватывающих области биологической, кибер‑ и химической безопасности, служащих прокси для измерения hazardous knowledge — знаний, которые потенциально могут быть использованы вредоносно. WMDP помогает понять, насколько LLM запоминают и, при необходимости, могут «забыть» такие опасные знания.

В рамках оценки unlearning методы применяются так, чтобы снизить способность модели отвечать на вопросы WMDP без значительной потери общих навыков. Для проверки сохранения общей компетентности дополнительно измеряют производительность на стандартных задачах вроде MMLU и MT‑Bench, чтобы убедиться, что удаление опасных знаний не разрушило общие способности модели.

MUSE

MUSE (Music Understanding and Structural Evaluation) — это бенчмарк для оценки machine unlearning в больших языковых моделях, проверяющий шесть ключевых свойств:

отсутствие дословного запоминания;
отсутствие запоминания знаний;
предотвращение утечек приватности;
сохранение полезности;
масштабируемость;
устойчивость к последовательным запросам.

В качестве данных используются реальные тексты из книг и новостей, на которых проверяется способность модели забывать удалённую информацию, не снижая производительность на остальных данных.

Процесс unlearning оценивается количественно через эти свойства: модель не должна воспроизводить удалённые фрагменты, сохранять обобщённые знания или раскрывать приватную информацию, при этом должна поддерживать высокое качество работы на остальном контенте. MUSE позволяет тестировать методы unlearning на практических данных и контролировать баланс между эффективностью удаления и сохранением функциональности модели

Выводы

В этой статье я привел только самые основные и главные, на мой взгляд, метрики, методы и бенчмарки. Конечно же, их гораздо больше, если вас что-то из этого заинтересовало, либо хотите знать больше — дайте знать об этом в комментариях ?

Больше полезного материала можно найти в материалах прикладной конференции по Data Science AiConf 2026!

Полезные ресурсы

Open Source инструмент OpenUnlearning
Мой форк с интеграцией LoRA адаптеров и дополнительными фичами
Обзорная статья о Machine Unlearning в GenAI
Статья о MIA
Бенчмарки VGML: UnlearnCanvas
Бенчмарки LLM: TOFU, WMDP, MUSE