LLM-пентест в 2026: что изменилось за год / forpes.ru

Главная
LLM-пентест в 2026: что изменилось за год

LLM-пентест в 2026: что изменилось за год +7

04.05.2026 17:44

cheebo 8 10000 Источник

Привет, Хабр! Согласно отчёту Trend Micro TrendAI за прошлый год число CVE во всей AI-экосистеме почти удвоилось: с 419 до 756. Цифры стартовые, но мысль простая. Тестировать нейросетевые сервисы как обычные веб-приложения в 2026-м уже недостаточно. И вот почему.

В этой статье разберу:

что появилось нового в OWASP LLM Top 10 (версия 2025);
какие атаки реально работают в проде, а какие так и остались в arXiv;
чем тестируют LLM сейчас (open-source стек плюс российские игроки);
плюс короткий практический playbook на четыре уровня.

OWASP LLM Top 10 2025: что новое

Версия 2025 закрепила то, что было на слуху, но не было каноном. Главные изменения:

LLM01 Prompt Injection теперь явно делится на direct, indirect и multimodal. Это уже не “что-то странное в чате”, а три разных вектора с разными митигациями.
LLM07 System Prompt Leakage (NEW). Системный промпт стал отдельной сущностью, потому что хидден-промпт у Grok, утечка инструкций ChatGPT по запросу “Windows product key” и схожие истории показали: разработчики до сих пор кладут туда конфиденциальные данные.
LLM08 Vector and Embedding Weaknesses (NEW). RAG-poisoning, embedding inversion, similarity-attacks. На бенчмарках ASR (Attack Success Rate) на отравлённой базе знаний доходит до 60%.
LLM10 Unbounded Consumption (NEW). Бывший Denial-of-Service, расширенный до Denial-of-Wallet и model extraction. В мире pay-per-token это бьёт по кошельку быстрее, чем по доступности.

Параллельно в декабре 2025-го вышел OWASP Top 10 for Agentic Applications 2026 (ASI01–ASI10). Это не “ещё один список”, а другая модель угроз: tool-use, browsing, code execution. Если ваш ассистент умеет дёргать инструменты, обычный LLM Top 10 покрывает примерно половину рисков.

Атаки, которые реально работают

Crescendo и Skeleton Key

Crescendo (Russinovich et al., arXiv 2404.01833) — многоступенчатый jailbreak. Модель сама себя загоняет в нужное состояние: серия безобидных вопросов, постепенное смещение контекста, к восьмому-десятому ходу выполняет то, что отклонила бы на первом. Crescendomation на AdvBench даёт +29…61% ASR на GPT-4 и +49…71% на Gemini-Pro по сравнению со state-of-the-art. Воспроизводится на проде стабильно и это сделало вектор де-факто бенчмарком для multi-turn-атак.

Skeleton Key подход проще, но дольше держится. По сути просьба обновить инструкции “только для исследовательских целей”. В тестах Microsoft пробил Llama 3, Gemini Pro, GPT-3.5, GPT-4o, Mistral Large, Claude 3 Opus и Cohere Commander R Plus. Защищённость от этого вектора в 2024–2025 у разных моделей сильно различалась. Если давно не проверяли, стоит проверить.

Many-shot

Anthropic в 2024-м показал, что модели с длинными контекстными окнами пробиваются простой подачей десятков “примеров” вредных диалогов перед целевым запросом. Чем длиннее контекст, тем выше ASR. Логика простая: пример важнее системного промпта.

Linguistic Sandwich и Time Machine

Эти два часто недооценивают, особенно в русскоязычной среде.

Linguistic Sandwich оборачивает запрос в смесь языков и диалектов так, что safety-classifier на английских паттернах ломается, а основная модель всё ещё понимает, что от неё хотят. По данным LLAMATOR, ASR на русскоязычных запросах выше базового в 2-4 раза.

Time Machine (он же Past Tense): “А как раньше делали то-то?”. Модели чаще соглашаются обсуждать действия, отнесённые в прошлое. Просто, работает.

Публичных бенчмарков с измерением ASR именно для русского пока почти нет и это неудобный пробел. Вендоры показывают цифры на английском, а заказчик в РФ хочет про русский.

GCG, AmpleGCG и универсальные суффиксы

GCG (Greedy Coordinate Gradient, arXiv 2307.15043) подбирает adversarial-суффиксы, которые ломают согласование. AmpleGCG (arXiv 2404.07921) ускорил атаку до сотен суффиксов в час с ASR ~99% на GPT-3.5. В 2025-м вышла работа “Universal Jailbreak Suffixes Are Strong Attention Hijackers” (arXiv 2506.12880), которая объяснила механику: суффиксы перетягивают внимание модели, а не “обманывают” её. Это меняет подход к защите.

Атаки на цепочку: RAG, MCP и MCPTox

Тут стало интереснее всего.

RAG-poisoning. Атакующий внедряет в knowledge base документы с инструкциями, которые срабатывают, когда retriever их вытащит. Защита через TrustRAG (k-means кластеризация подозрительных документов) и context-based access control помогает, но не радикально.

Tool poisoning через MCP. Anthropic выпустил Model Context Protocol в конце 2024-го и за год MCP стал основной поверхностью атаки на агенты. MCPTox (arXiv 2508.14925) это бенчмарк на 45 реальных MCP-серверах, 353 инструментах и 1312 тест-кейсах против 20 LLM. ASR у o1-mini получился 72.8%, у DeepSeek-R1 выше 60%. Самой “стойкой” из топовых моделей оказалась Claude-3.7-Sonnet, но и у неё доля отказов меньше 3%, то есть атака пробивает почти всегда. Разброс между моделями серьёзный, и публичных воспроизведений на GigaChat, YandexGPT или Cotype я пока не встречал. Если у вас есть, поделитесь в комментариях.

Дополнительно вышел MCP-38 (arXiv 2603.18063), который описал 38 классов уязвимостей MCP, включая parasitic tool chaining и dynamic trust violations.

CVE 2025 года: то, что прилетело в прод

Список того, что попало в публичные базы и реально использовалось:

CVE	Что	Класс
CVE-2025-32711 EchoLeak	Zero-click prompt injection в Microsoft 365 Copilot. Эксфильтрация данных без действий пользователя. Aim Security, arXiv 2509.10540	Indirect prompt injection
CVE-2025-53773	RCE в GitHub Copilot через prompt injection с записью в файл агента	Tool-use exploit
CVE-2025-54135 CurXecute	Prompt injection через Slack MCP-сервер в Cursor IDE с RCE (Aim Security)	MCP poisoning
CVE-2025-54136 MCPoison	Подмена `.cursor/mcp.json` в репозитории, эскалация до RCE при открытии проекта (Check Point Research)	MCP config
CVE-2025-49596	CSRF в MCP Inspector с RCE при дефолтной конфигурации	Dev-tooling
CVE-2025-55182 React2Shell	Уязвимость десериализации в React Server Components (затронуты Next.js 15.x/16.x). Использовалась сканером Bissa: десятки тысяч `.env`-файлов и сотни успешных эксплоитов	Supply chain

Отдельно стоит упомянуть Whisper Leak (Microsoft Defender Research, 2025). Это side-channel: по размерам и таймингам пакетов streaming-LLM можно восстановить тему диалога, не имея доступа к содержимому. Атака работает поверх TLS. В OWASP LLM Top 10 этой атаки нет. Возможно, зря.

И ещё: утечка системных промптов персонажей Grok в августе 2025-го и история с Windows product keys из ChatGPT в июле 2025-го (классический jailbreak через “guessing game”). Оба кейса бьют в LLM07.

Чем тестируют LLM в 2026-м

Open-source стек

Garak (NVIDIA, Leon Derczynski). Самый зрелый сканер. Больше сотни probe-классов, тысячи генерируемых промптов на прогон, интеграция с NeMo Auditor и AVID (AI Vulnerability Database). Помимо классического pass/fail умеет в Z-score: видно, насколько модель отклоняется от state-of-the-art на конкретном тесте. Для отчёта заказчику сильно удобнее, чем сухое “37 фейлов из 120”.

PyRIT (Microsoft). Orchestration-фреймворк с converter-ами, scoring engines и интеграцией с Azure AI Foundry. Базовая команда AI Red Team Microsoft на нём же.

Promptfoo. Application-aware: тестирует не модель в вакууме, а ваше приложение целиком (RAG, плагины, REST). Хорошо ложится в CI/CD, есть мэппинг на OWASP, NIST AI RMF, MITRE ATLAS, EU AI Act, ISO 42001.

DeepTeam (Confident AI). Plug-and-play, минимум кода, готовый OWASPTop10() пресет. Удобен, когда нужно быстро отчитаться по compliance.

FuzzyAI (CyberArk). ArtPrompt (ASCII-art jailbreak), many-shot, Crescendo, Unicode smuggling, веб-интерфейс, поддержка OpenAI/Anthropic/Gemini/Azure/Ollama.

Ещё рантайм-страж: LLM Guard (Protect AI), NeMo Guardrails (NVIDIA, DSL Colang), Lakera Guard, Prompt Security. Это уже не red-teaming, а защита in-line.

Российские игроки

HiveTrace (Raft Digital Solution + AI Talent Hub ИТМО). Два продукта. Monitor для SOC поверх GenAI с детектом prompt injection и утечек PII в инференсе. Red Enterprise — отчёт по red-teaming-аудиту с маппингом находок на OWASP LLM Top 10.

LLAMATOR (open-source, тот же коллектив ИТМО, лицензия CC BY-NC-SA 4.0). Архитектура на трёх моделях: attack model, tested model, judge model. Большой набор атак с маркерами all/eng/rus/vlm/owasp:llm01–llm10. Интеграция: REST API, OpenAI-совместимые, Telegram (через Telethon), WhatsApp, Selenium для веб-чатов вроде Gandalf от Lakera. На русскоязычных атаках работает заметно лучше англоязычных альтернатив, точные публичные цифры по ASR в README отсутствуют. На коммерческое применение лицензия NC накладывает ограничения, на это стоит смотреть до встраивания в энтерпрайз-CI.

ML-команды Bi.Zone, Kaspersky MLTech и Positive Technologies подходят к теме сбоку, через свои основные продукты (TDR, MaxPatrol). Прямого сравнения “open-source стек против enterprise red-teaming в РФ” по фактам и метрикам публично не делал никто и тут есть пространство для отдельной заметки.

Что меняет приказ ФСТЭК №117

Приказ №117 от 11 апреля 2025 года “Об утверждении Требований о защите информации, содержащейся в государственных информационных системах” зарегистрирован в Минюсте 16 июня 2025-го (рег. №82619), вступает в силу 1 марта 2026-го и заменяет Приказ №17 от 11 февраля 2013 года.

Касается он ГИС, а не любой LLM в проде. Если у вас обычный b2c-сервис без госконтрактов, прямого требования “пройти аудит по 117” нет. Но как только сервис интегрируется с государственными системами или попадает в периметр оператора ГИС, требования начинают накладываться и на AI-обвязку: журналирование, контроль целостности, сегментация, подсистема обнаружения вторжений. Конкретной методики “как тестировать LLM” в самом приказе нет, эта часть отдана методическим документам ФСТЭК более низкого уровня и оператору системы. На практике: формальной процедуры пентеста LLM регулятор пока не предписывает, но требует, чтобы у оператора она была и была документирована.

Параллельно идёт законопроект Минцифры (regulation.gov.ru, ID 02/04/03-26/00166424) с четырёхуровневой градацией рисков ИИ-систем. Пилоты намечены на 2027-й. Это уже про ИИ как таковой, а не про ГИС.

Российские LLM и почему это про деньги тоже

GigaChat 2 / GigaChat MAX / GigaChat 3 Ultra Preview (последняя в open-weight MoE-варианте, ~702B общих, ~36B активных параметров, MIT). YandexGPT 5 / 5.1 Pro / Alice AI LLM (контекст 128K, по данным Яндекса побеждает GPT-4.1 в 56% запросов в их закрытых тестах). T-Pro и T-lite от Т-Банка. Cotype от MTS AI. RuGPT, RuT5, RuBERT по мелочи.

По исследованию Nodul (ноябрь 2025), при генерации текста объёмом 10 тысяч символов GigaChat-2 MAX оказался в 208 раз дороже DeepSeek. Цифра выглядит дико, но порядок именно такой. И вот тут Denial-of-Wallet из теоретической атаки превращается в осязаемый финансовый риск. Простой repetition-token attack по несколько часов в день и счёт за инфраструктуру растёт.

Это атака не на доступность сервиса, а на P&L. На неё мало смотрят при пентесте и её обычно не закрывают rate-limiting, потому что rate-limiting обычно ограничивает запросы, а не токены.

Практический playbook

Микс, который реально работает (по сути, рекомендация Microsoft AI Red Team плюс Vectra AI плюс мой опыт):

Broad scan, 30–60 минут на модель. Garak или Promptfoo пробегают полный набор probe-ов: jailbreak, encoding, утечки. Цель: отсечь явное.
Compliance scan, 15–30 минут на PR. Promptfoo с пресетом OWASP Agentic Top 10 или DeepTeam с OWASPTop10(). Регрессия покрытия видна сразу.
Deep exploitation, 2–4 часа. PyRIT с Crescendo и TAP-ветками, кастомные converter-ы под ваш домен, multi-turn-сценарии. Здесь же LLAMATOR с Linguistic Sandwich на русском.
Manual expert testing, 1–2 дня. Архитектурный обзор, бизнес-логика, social engineering chains, эксплуатация цепочек. Это то, что Garak и Promptfoo в принципе не покрывают, что бы там ни обещали маркетинговые материалы.

Если в стеке есть RAG, добавьте отдельный прогон корпус-poisoning с подмешиванием отравленных документов и проверкой similarity-метрик. Если есть MCP-сервер, прогоните MCPTox или его адаптацию под ваши инструменты. Если есть streaming в проде, оцените Whisper Leak risk через падение или его отсутствие в TLS-метриках после паддинга.

И не забыть AI-BOM (AI Bill of Materials): список моделей, fine-tune датасетов, плагинов, MCP-серверов. Без него supply-chain (LLM03) превращается в гадание.

FAQ

В чём разница между OWASP LLM Top 10 и Agentic Top 10?

Первый про модель и её ввод-вывод. Второй про агента, который пользуется инструментами, ходит в интернет и исполняет код. Если у вас просто чат-бот, хватит первого. Если ассистент дёргает API и пишет в БД, нужны оба.

LLAMATOR или Garak, что выбрать?

LLAMATOR сильнее на русскоязычных атаках и сценариях с реальными каналами (Telegram, WhatsApp, веб-чаты через Selenium). Garak это индустриальный стандарт, лучше документирован, удобнее для регрессий в CI. В норме их используют вместе.

Whisper Leak реально использовали в проде?

Публично подтверждённых атак на конкретные сервисы пока нет, но Microsoft Defender уже добавил его в свою модель угроз. Если ваш сервис стримит ответы LLM наружу через TLS, проверять стоит. Митигация: паддинг чанков. Готовых рецептов от провайдеров пока мало.

Если коротко: “пентест нейронки” в 2026-м это уже не одна задача, а четыре разных (модель, RAG, агент, инфраструктура). Garak и LLAMATOR не закроют всё, человеческая экспертиза тоже нужна. Денежные риски в виде Denial-of-Wallet недооценены. И судя по динамике CVE, в 2026-м их станет больше.

Что из этого у вас уже в проде, а что белые пятна? Какой комплект вы реально гоняли на ваших моделях? Любопытно сверить часы.

Комментарии (8)

ktrn92
04.05.2026 17:53
#29926196
Такое чувство, что автоматическое сканирование llm на уязвимости это какая-то кроличья нора
1. cheebo Автор
  04.05.2026 17:53
  #29926220
  Сфера только развивается. Пока что в принципе много белых пятен. Время должно всё расставить на места))
1. arman_avakian
  04.05.2026 17:53
  #29934880
  Согласен).
  
  Автоматизированное выявление уязвимостей должно быть только одним из методов контроля. Дальше нужна экспертная оценка применимости уязвимостей, моделирование реализации актуальных угроз, проверка достаточности реализованных мер защиты и, при необходимости, компенсирующие меры.

LENGIDROPROM_812
04.05.2026 17:53
#29926334
спасиб за интересный материал

steplerronin
04.05.2026 17:53
#29928066
Пара вопросов: По цифре “GigaChat-2 MAX в 208 раз дороже DeepSeek” от Nodul — интересно, какие именно тарифы и сценарии там сравнивались? DeepSeek через публичный API и корпоративный GigaChat это всё-таки разные продукты в разных периметрах и Denial-of-Wallet как риск зависит скорее от разрыва “цена токена vs маржа на запрос”, чем от абсолютной стоимости. Если есть ссылка на методологию, было бы здорово.

И про LLAMATOR: вы сами отмечаете, что публичных ASR-цифр в README нет, но при этом она идёт как заметно более сильная на русском в 2–4 раза. Это внутрение замеры команды или где-то есть воспроизводимый бенч? Хочется понять, на что опираться при выборе. В остальном плейбук на четыре уровня выглядит здраво, особенно акцент на ручной экспертизе, её и правда мало кто закладывает в скоуп.
1. arman_avakian
  04.05.2026 17:53
  #29934932
  «208», конечно, как показатель для новости звучит ярко.
  
  Но если рассуждать, то DoW лучше оформлять не через абсолютную цену токена, а через недопустимое событие (негативное последствие), т.е. исчерпание лимитов, нарушение функционирования сервиса, использование ИС не по назначению, рост затрат на обработку запросов сверх допустимых значений. Тогда уже можно задавать контролируемые параметры (лимиты по токенам, сессиям, инструментам, внешним вызовам, контексту, RAG-запросам и событиям мониторинга ИБ).

cheebo Автор
04.05.2026 17:53
#29928686
Методология, насколько её раскрыли в пресс-релизе (полный отчёт публично не выкладывали, есть версии у CNews и Sostav): взяли 9 типовых сценариев — переводчик (1 тыс. знаков), копирайтер (10 тыс. знаков), оператор поддержки (одно обращение), документооборот, секретарь на 5 минут разговора, SDR на лиде, супервайзер кол-центра, HR на одном резюме, аналитик на сводном отчёте из 10 документов. Для каждого посчитали ввод/вывод в токенах и умножили на действующие публичные тарифы. Цифра 208× — это именно копирайтинг на 10 тыс. знаков (154,5 ₽ против 0,74 ₽).

Воспроизводимого публичного бенча с конкретными ASR-цифрами по русскому у них действительно нет. В README (актуальный 3.5.0 от января 2026) есть только перечень атак с маркерами, классификация по OWASP и описание архитектуры attack/tested/judge — без таблиц сравнения. Цифра «в 2–4 раза выше базового на русском» для Linguistic Sandwich — это, насколько я понимаю, внутренний замер команды AI Security Lab ИТМО, который мелькал в их докладах и обсуждениях, но не оформлен как публикация
1. steplerronin
  04.05.2026 17:53
  #29928796
  Спасибо