Как ломают ИИ-агентов. Часть 1: Кейс с Operator ChatGPT
В 2025 году ИИ-агенты стали настоящим медиа-феноменом:
Y-Combinator объявляет ИИ-агенты ключевым направлением для инвестиций в 2025 году;
управляющий венчурного фонда Dragonfly называет ИИ-агенты главным нарративом криптосообщества и технологической индустрии на 2025 год;
лидеры индустрии LLM – OpenAI и Anthropic – выпускают на рынок своих Operator и Claude Computer Use.
Ну а нас, естественно, больше всего интересует вопрос уязвимости таких систем: у агентов все больше возможностей, а значит и поверхностей атаки.
Наша команда работала над отчетом OWASP State of Agentic AI Security and Governance, где был раздел об инцидентах, который не попал в финальную версию отчета. Поэтому несколько инцидентов я хотел бы разобрать в серии статей. Кейс, рассмотренный в этой статье, показывает новый класс угроз, присущих именно автономным ИИ-агентам, и эта проблема носит системный характер, а не является единичным багом.
Немного базы для тех, кто впервые на нашей волне
Что такое ИИ-агенты? Это нейросети, которые не просто отвечают на вопросы или генерируют контент, а способны действовать автономно: планировать задачи, использовать инструменты, взаимодействовать с другими системами и принимать решения.
Пока агентные системы не получили массового распространения в России. Пользователи чаще сталкиваются с простыми вопросно-ответными ботами на сайтах и в приложениях. Но мы в HiveTrace, общаясь каждый день с клиентами Raft, кто создает прикладные приложения на ИИ, знаем, что рынок активно обсуждает и разрабатывает таких агентов, и их внедрение запланировано в ближайшие годы, а где-то и месяцы.
ИИ-агенты представляют особый интерес для атакующих: ведь с их помощью можно добиваться своих целей круглосуточно и в промышленных масштабах. Нужно только найти правильный подход и запустить цепочку действий, с помощью которых ИИ-агент поочередно обойдет все виды защиты и выдаст результат.
Один из ловких способов показал зимой 2025 исследователь Johann Rehberger, также известный как Wunderwuzzi, тестируя продукт от OpenAI — Operator. Это ИИ-агент,
“который может выходить в Интернет для выполнения задач за вас. Используя свой собственный браузер, он может просматривать веб-страницы и взаимодействовать с ними, вводя текст, щелкая мышью и прокручивая их” — цитата из описания поставщика.
Например, перед поездкой можно поручить такому агенту купить вам билеты в поезд, забронировать отель и столик в ресторане. Продукт доступен пользователям подписки ChatGPT Pro за 229 евро в месяц. Дальше в тексте будем называть его просто “Оператор”.
Как взламывают ИИ-агентов
Промпт-инъекция, скрытая в веб-контенте, заставляла Оператор следовать инструкциям хакера, получать доступ к закрытым страницам и раскрывать личные данные пользователей. Вот как он это провернул.
Шаг 1. Подготовка “ловушки”
Автор создал простую страницу с одним полем вводе, которая автоматически отправляет на сервер все, что пользователь вводит в поле, без нажатия кнопки “Отправить”.
Шаг 2. Использование GitHub для размещения “закладки”
Вредоносные инструкции (payload) были размещены в виде задачи (issue) на GitHub. Это реалистичный сценарий, так как кто угодно может создавать задачи в большинстве проектов на GitHub, а ИИ-агенты часто используются для чтения и обработки таких задач.

Шаг 3. Манипуляция Оператором
Далее автор заставил Оператор перейти по ссылке на эту задачу на GitHub. Для этого можно было просто скормить Оператору URL или попросить исследовать задачу, используя фразы вроде “Исследуй эту задачу на GitHub”.
Шаг 4. Получение данных
Ознакомившись с задачей, Оператор перешел на страницы настроек учётной записи на сайтах news.ycombinator.com и booking.com. Расчет был на то, что пользователи обычно не закрывают авторизованную сессию на сайтах (logout), а значит доступ в авторизованное пространство получит и Оператор. Так и получилось: агент скопировал с сайтов кучу персональных данных (имя, email, домашний адрес, номер телефона) и затем вставил эти данные на страницу-ловушку. (Автор поясняет, что это не уязвимость самих сайтов, так как Оператор использует нормальную авторизацию пользователя, который его запустил.)

Как только Оператор ввел данные в “ловушку”, информация отправилась на сервер атакующего. На видео часть процесса показана в реальном времени.
Таким образом, Йохан показал, как с помощью комбинации социальной инженерии и уязвимостей в работе Operator ChatGPT можно заставить его выполнять нежелательные действия и передавать личные данные пользователя злоумышленнику. В этом сценарии под угрозой оказываются не просто данные в социальных сетях, но и потенциально учетные записи с сайтов госуслуг, корпоративных порталов, банковских систем — отовсюду, где пользователь авторизован в браузере.
Чтобы по этой же схеме получить данные других пользователей, авторизованных на сайтах, атакующий может запустить аналогичный сценарий следующими способами.
Распространение ссылок на «вредоносные» GitHub issues или другие платформы:
злоумышленник создаёт issue на GitHub (или другой платформе), содержащее инструкции (payload) для Оператора Или любого другого агента на базе LLM;
в issue описываются якобы полезные задачи, которые побуждают Оператор перейти на целевую страницу и выполнить нужные действия;
пользователи, которые используют Оператор для работы с GitHub issues (например, для анализа или обработки задач), невольно запускают сценарий атаки.
Использование приемов социальной инженерии:
атакующий может рассылать сообщения или письма, побуждающие использовать Оператор для решения какой-либо задачи;
например, предлагать исследовать определённый GitHub issue, утверждая, что там содержится важная информация или решение какой-то проблемы;
пользователь, не подозревая об опасности, запускает Оператор и вводит указанный URL или запрос.
Создание «привлекательных» задач или контента:
злоумышленник может размещать ссылки на вредоносные инструкции в местах, где их с большей вероятностью заметят пользователи Оператор — например, в тематических сообществах, на форумах, в блогах;
контент может быть оформлен как руководство, совет или демонстрация возможностей Operator;
когда пользователь исследует такой контент с помощью Оператор, запускается цепочка действий, ведущая к утечке данных.
Таким образом, основная идея заключается в том, чтобы “заманить” Оператор на страницу с вредоносными инструкциями и использовать его для доступа к личным данным авторизованных пользователей. Атакующий манипулирует как самим Operator ChatGPT, так и пользователями, которые его применяют. При этом пользователь может даже не осознавать, что Оператор выполняет опасные действия — они выглядят как обычная работа инструмента.
Что дальше?
Система Operator ChatGPT экспериментальная, на сайте OpenAI она обозначена как research preview, а в описаниях ее называют “фичей”. Когда выпускали Оператор, треть текста пресс-релиза была о том, как в OpenAI позаботились о безопасности решения. Компания Anthropic, когда выпускала аналогичный продукт, отменила запуск по причине неготовности с точки зрения безопасности. Доступ к браузеру и ОС пользователя открывает широкий спектр опасностей
Компании-производители сильно инвестируют в защиту. Защита состоит из трех основных компонентов.
1. Подтверждение важных действий. Пользователь должен явно подтверждать важные действия — например, если идет покупка чего-то. В нашем кейсе Йохан как раз обошел этот механизм, создав страницу, на которой не нужно нажимать на отправку.
2. Наборы проверок. Так как оператор работает с недоверенным содержимым с внешних веб-страниц, в модели есть слои проверки на наличие каких-то вредоносных сообщений. Но эти проверки обходятся, принципы этих атак регулярно освещаются в том числе в нашем ТГ-канале.
3. Вызов внешних инструментов, которые обеспечивают безопасность агентных систем. Для ведущих проприетарных продуктов, таких как Operator ChatGPT, защита явно будет улучшаться. Но для тех, кто захочет собирать аналогичные инструменты из опенсорс-моделей (например, это могут быть российские компании), вопрос защиты остается открытым.
Описанный кейс не единственный, наша база знаний о вредоносных методах использования ИИ-агентов постоянно пополняется. В следующей статье расскажу, как атакующие, зная, что HR-менеджер использует ИИ-агента для разбора откликов, использовали резюме в качестве “троянского коня”.
Безопасность ИИ — обширная тема, которая становится все более актуальной. Мы исследуем ее вместе с AI Security Lab ИТМО, участвуем в активностях OWASP, пишем рекомендации и делимся опытом на конференциях, изучаем такие инциденты, как описанный в статье. Если хотите следить за трендами в безопасности ИИ вместе с нами — подписывайтесь на наш ТГ-канал.
msnfd,mfns,