Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ? / forpes.ru

Главная
Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?

Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ? +35

04.07.2025 12:00

Darya_Frolova 13 5100 Источник

Может ли искусственный интеллект запомнить целую книгу? А если да, что это значит для авторов, издателей и самих разработчиков ИИ? Недавнее исследование от ученых из Стэнфорда, Корнелла и Университета Западной Виргинии показало, что языковая модель Llama 3.1 может дословно воспроизвести до 42% текста «Гарри Поттера и Философского камня». Это заставляет усомниться в механизмах ограничения памяти ИИ и поднимает вопросы о защите авторских прав. Дальше — как раз об этом.

Погружение в память ИИ

Исследователи решили проверить, насколько хорошо языковые модели с открытым исходным кодом — три от оператора Facebook*, одна от Microsoft и одна от EleutherAI — способны запоминать и воспроизводить реальные книги. Для этого они использовали коллекцию Books3, в которую входят тысячи работ, включая тексты, защищенные авторским правом. Результаты оказались неожиданными: в некоторых случаях модели дословно цитировали целые абзацы. Выглядит как магия, но на самом деле модель просто воспроизводит то, что «видела» в исходных данных — благодаря ML-алгоритмам и огромным объемам текста, на которых она обучалась.

Особое внимание привлекла Llama 3.1 70B — модель среднего размера, выпущенная в июле 2024 года. Обнаружили, что она способна воспроизвести 42% текста «Гарри Поттера и Философского камня» в отрывках по 50 токенов (примерно 30–40 слов) с вероятностью не менее 50%. Для сравнения: более ранняя модель Llama 1 65B, выпущенная в 2023 году, запомнила лишь 4,4% книги.

Чтобы понять, как работает память ИИ, нужно разобраться, как LLM предсказывают текст. Когда вы задаете фразу вроде «Мой любимый сэндвич — это…», она выдает вероятности для следующего слова. Например, для фразы «Мой любимый сэндвич — это…» модель может предложить:

«арахисовое» — 20%;
«масло» — 90% (если предыдущее слово «арахисовое»);
«и» — 80%;
«джем» — 70%.

Перемножив эти вероятности (0,2×0,9×0,8×0,7=0,1008), можно вычислить, что фраза «арахисовое масло и джем» будет сгенерирована примерно в 10% случаев. Ученые задействовали этот метод, чтобы оценить, как часто модель воспроизводит точные отрывки из книг. Исследователи брали отрывки длиной 100 токенов и делили их пополам. Затем они проверяли, насколько вероятно, что модель продолжит первые 50 токенов точно такими же следующими 50, как в оригинале. Если результат был выше 50%, они считали, что модель запомнила этот фрагмент.

Метод позволил исследователям точно оценить, какие отрывки сетка действительно запомнила, не перебирая миллиарды вариантов вручную. Для менее известных книг вероятность точного воспроизведения оказалась крайне низкой, чтобы случайно сгенерировать нужный фрагмент, потребовалось бы более 10 квадриллионов попыток. А вот с популярными книгами и рассказами ситуация иная: модель Llama 3.1 воспроизводила фрагменты из «Гарри Поттера», «Хоббита» и «1984» с заметно большей вероятностью. Можно предположить, что эти тексты попали в обучающую выборку.

Почему именно «Гарри Поттер и Философский камень» оказался в центре внимания? Выше уже сказано, что Llama 3.1 лучше запоминает популярные книги, чем менее известные произведения. Но для «Поттера» результат был неожиданным. Так, модель запомнила лишь 0,13% текста романа Sandman Slim Ричарда Кадри 2009 года. А вот для «Поттера» вышло целых 42%. Вероятно, дело в том, что популярные книги чаще цитируются в интернете — на фанатских форумах, в рецензиях, эссе или даже школьных сочинениях. Эти тексты могли попасть в тренировочные данные, усилив эффект запоминания.

Объем такой информации оказался сюрпризом для самих ученых. «Мы ожидали, что воспроизведение будет на уровне 1–2%», — прокомментировал Марк Лемли, профессор права из Стэнфорда и один из авторов исследования. Высокий уровень запоминания для отдельных книг, таких как «Гарри Поттер», говорит о том, что модель, вероятно, обучалась на данных, включающих полные тексты или их значительные части. Возможно, оператор LLM использовал коллекцию Books3 несколько раз или добавил сторонние источники с цитатами из популярных книг. Точный ответ остается загадкой — оператор Facebook* не раскрывает детали тренировочного процесса.

И что теперь с авторскими правами?

В последние годы издатели, авторы и компании, такие как The New York Times, подавали иски против разработчиков ИИ, обвиняя их в использовании защищенных авторским правом материалов для обучения моделей. Например, в иске против OpenAI газета The New York Times показала, что GPT-4 может точно воспроизводить большие отрывки из ее статей. OpenAI назвала это «крайним случаем», но исследование с Llama 3.1 намекает, что запоминание текста — не такая уж редкость.

Для авторов вроде Джоан Роулинг высокая степень повторяемости может стать основанием для исков. Если модель может воспроизвести почти половину книги, это может быть расценено как нарушение авторского права. Суды пока не выработали четкого подхода к таким делам, но результаты исследования могут повлиять на их решения. Например, в деле Google Books суд признал сканирование и распознавание книг для поиска «добросовестным использованием» (fair use), поскольку Google показывал лишь короткие отрывки. Но если модель ИИ выдает большие куски текста, это может быть воспринято как менее «трансформативное» использование, что усложнит защиту компаний.

Есть проблемы и для юристов. Разница между 42% для «Гарри Поттера» и 0,13% для Sandman Slim может создать трудности для коллективных исков, таких как иск Ричарда Кадри. Суды могут усомниться, можно ли объединять авторов с разными уровнями «запоминания» их текстов в один иск. Ну и, конечно, далеко не у всех из писателей есть ресурсы для индивидуальных судебных процессов.

Провести такое исследование смогли благодаря открытым весам моделей вроде Llama. Они позволили ученым получить доступ к вероятностям генерации токенов — именно это дало возможность точно определить, какие фрагменты текста модель запомнила. У закрытых систем, вроде GPT-4 от OpenAI или LLM от Google и Anthropic, такого доступп нет, так что исследования практически невозможны. К тому же разработчики закрытых моделей могут использовать встроенные фильтры, которые блокируют выдачу защищенных авторским правом фрагментов, тем самым снижая юридические риски.

Это создает парадокс: открытые модели, которые делают ИИ прозрачнее и позволяют проводить независимые исследования, становятся уязвимее с точки зрения авторского права. «Это несправедливо, — говорит Лемли, — открытость моделей, по сути, общественное благо». Но суды могут воспринимать ее по-разному: кто-то увидит в ней вклад в развитие науки, а кто-то — угрозу для правообладателей, чьи тексты могут быть воспроизведены без разрешения.

Что в итоге

Исследование показывает, что вопрос качества и емкости памяти ИИ не просто техническая задача, а сложная юридическая и этическая дилемма. Если модели могут запоминать и воспроизводить большие куски текста, утверждение, что ИИ лишь «учится на данных, а не копирует их», ставится под сомнение. Для авторов и издателей это сигнал тревоги: их работы могут быть использованы без разрешения. А для разработчиков ИИ — вызов: как создавать мощные модели, минимизируя юридические риски?

Пока ответы на эти вопросы остаются неясными. Llama 3.1, возможно, и вспомнила Гарри Поттера, но как и почему это произошло — загадка, достойная Хогвартса. Разбираться во всем этом, вероятно, придется еще не один месяц.

*Facebook принадлежит компании Meta Platforms Inc., признанной экстремистской организацией. Деятельность компании запрещена на территории Российской Федерации.

Комментарии (13)

Hopenolis
04.07.2025 13:15
#28528372
Гарри Поттера просто чаще цитируют в других текстах? Растащили на цитаты.

falldown
04.07.2025 13:15
#28528804
утверждение, что ИИ лишь «учится на данных, а не копирует их», ставится под сомнение.

Если учитель сотню раз скажет ученику, что после "арахисовое" должно идти "масло", то это будет обучением, в процессе которого ученик обучится повторению (копированию) фразы "арахисовое масло". Где граница?
1. winkyBrain
  04.07.2025 13:15
  #28530856
  Да вроде просто всё) то, что вы описываете - это не обучение, а заучивание. без какой-либо логики и объяснений, просто запомни. а процесс обучения как раз подразумевает какую-то логику происходящего, её объяснение, закрепление на схожих примерах и т.д. чтобы в итоге пришло понимание. вы правда не видите разницы?
  1. falldown
    04.07.2025 13:15
    #28532786
    Я-то вижу. Но нейросети не обучаются через "логику происходящего, её объяснение, закрепление на схожих примерах и т.д. чтобы в итоге пришло понимание.". Обучение нейросетей происходит на заучивании последовательностей токенов через вероятность.

jetnet
04.07.2025 13:15
#28529216
Я уже который год тестирую модели на память простым вопросом: перечисли все действия Пилата в МиМ.
И только в этом году гугловская Гемини 2.5 смогла точно ответить на этот вопрос. Что как бы намекает, что этот роман ей скормили много раз. Вот интересно, сколько? Десятки, сотни?
Гемма 3 до сих пор фантазирует.

RusikR2D2
04.07.2025 13:15
#28529258
Что-то я не понимаю, зачем такое странное ограничение наложили на нейросеть? Что она не может "запомнить прочитанное" (увиденное, сказанное и т.п.)? Ведь это так просто сохранить текст. И если вдруг выпустят "надстройки" над человеческим мозгом, то такой прямой способ "запомнить" будет самым простым и желанным.
1. BlackMokona
  04.07.2025 13:15
  #28533902
  Потому как архитектура нейросети не позволяет что то запомнить.

Kamil_GR
04.07.2025 13:15
#28529444
Интересно, а не значит ли это что писатели просто пишут наиболее статистически вероятными паттернами... )
1. Wosk1947
  04.07.2025 13:15
  #28530762
  Да как бы большинство людей пишут и говорят наиболее статистически вероятными паттернами, так языки устроены. Можно, конечно, начать переставлять слова местами как какой-нибудь Йода, только понимать перестанут. В этих рассуждениях можно пойти еще дальше и вспомнить о мономифе Кэмпбелла, и понять, что все художественные произведения еще и построены по одним и тем же шаблонам, и имеют фактически одну и ту же структуру, то есть по факту любое худ.произведение ни на одном из масштабов рассмотрения текста не является уникальным. Мне интересно другое про все эти права на интеллектуальную собственность. А вот если я, например, запомнил книгу, и я ее буду ходить и пересказывать? Ну например устраивать литературные вечеринки, где мы будем друг другу пересказывать по памяти книги? (Как это делали в древности, когда какого-нибудь Гомера никто не записывал, потому что барды его знали наизусть и зарабатывали как раз его прочтением из памяти вслух). В таком случае я буду нарушать какие-то права? И чем это формально отличается от воспроизведения текста нейронкой из памяти? Ведь ни у меня, ни у нейронки нигде фактически не хранится цельный файл с текстом, который я воспроизвожу, то есть текста как бы нет.
1. REPISOT
  04.07.2025 13:15
  #28538266
  а не значит ли это что писатели просто пишут наиболее статистически вероятными паттернами
  
  Мономиф

l1onsun
04.07.2025 13:15
#28530990
Авторские право такой, конечно, поломанный концепт. Читать можно, запоминать нельзя. Записывать нельзя, но можно цитировать. И т.д.

Visualynx
04.07.2025 13:15
#28533964
Если в сша ограничат как-то развитие нейронок, то Китай вырвется вперед. С точки зрения гб на право придется положить болт. Для вида что-то придумают, но суть не тронут.

einhorn
04.07.2025 13:15
#28535410
Вы открыли для себя переобучение