Интенсивный курс «AI-агенты» от Google День 5 / forpes.ru

Главная
Интенсивный курс «AI-агенты» от Google День 5

Интенсивный курс «AI-агенты» от Google День 5 +1

15.11.2025 09:48

noobaitranslator 0 539 Источник

На данный момент я прохожу 5-дневный интенсив по AI-агентам от Google и параллельно веду собственный конспект. Эта статья представляет собой перевод оригинального материала, выполненный с помощью Gemini и мной. В некоторых местах я немного упростила формулировки или обобщила идеи. Этот документ детально описывает методологию AgentOps для превращения прототипов AI-агентов в надёжные системы производственного уровня через жизненный цикл, включающий строгую автоматизированную оценку, непрерывное операционное управление и безопасное стандартизированное взаимодействие.

Другие статьи:

Интенсивный курс «AI-агенты» от Google День 1

Интенсивный курс «AI-агенты» от Google День 2

Интенсивный курс «AI-агенты» от Google День 3

Интенсивный курс «AI-агенты» от Google День 4

Создать агента легко. Доверять ему — сложно.

Аннотация

Этот технический документ представляет собой комплексное руководство по операционному жизненному циклу AI-агентов, уделяя особое внимание развёртыванию, масштабированию и вводу в эксплуатацию. Основываясь на материалах Дня 4, посвящённых оценке и наблюдаемости, это руководство подчёркивает, как сформировать необходимое доверие для перевода агентов в производственную среду с помощью надёжных CI/CD-конвейеров и масштабируемой инфраструктуры. В нём исследуются проблемы перехода систем на основе агентов от прототипов к решениям корпоративного уровня, с особым вниманием к взаимодействию Agent2Agent (A2A). Это руководство предлагает практические рекомендации для инженеров AI/ML, специалистов по DevOps и системных архитекторов.

Введение: От прототипа к производству

Создать прототип AI-агента можно за минуты, а может, и за секунды. Но превратить это хитроумное демо в надёжную систему производственного уровня, на которую может положиться ваш бизнес? Вот здесь и начинается настоящая работа. Добро пожаловать в проблему «последней мили» при вводе в эксплуатацию, где на практике мы постоянно наблюдаем у клиентов, что примерно 80% усилий тратится не на основной интеллект агента, а на инфраструктуру, безопасность и валидацию, необходимые для обеспечения его надёжности.

Пропуск этих заключительных шагов может вызвать несколько проблем. Например:

Агента службы поддержки обманом заставляют бесплатно раздавать товары, потому что вы забыли установить правильные защитные механизмы (guardrails).
Пользователь обнаруживает, что через вашего агента можно получить доступ к конфиденциальной внутренней базе данных, так как аутентификация была настроена неправильно.
За выходные агент генерирует большой счёт за потребление ресурсов, но никто не знает почему, потому что вы не настроили мониторинг.
Критически важный агент, вчера работавший идеально, внезапно останавливается, а ваша команда в растерянности, потому что не была внедрена непрерывная оценка.

Это не просто технические проблемы, а серьёзные сбои в бизнесе. И хотя принципы DevOps и MLOps служат важной основой, их одних недостаточно. Развёртывание агентных систем порождает новый класс проблем, требующих эволюции нашей операционной дисциплины. В отличие от традиционных ML-моделей, агенты автономно интерактивны, обладают состоянием (stateful) и следуют динамическим путям выполнения.

Это создаёт уникальные операционные сложности, требующие специализированных стратегий:

Динамическая оркестрация инструментов: «Траектория» агента собирается на лету, по мере того как он выбирает инструменты. Это требует надёжного управления версиями, контроля доступа и наблюдаемости для системы, которая каждый раз ведёт себя по-разному.
Масштабируемое управление состоянием: Агенты могут запоминать информацию между взаимодействиями. Безопасное и последовательное управление сессиями и памятью в масштабе — сложная задача проектирования систем.
Непредсказуемые затраты и задержки: Агент может использовать множество разных путей для поиска ответа, что делает стоимость и время отклика крайне сложными для прогнозирования и контроля без продуманного бюджетирования и кэширования.

Чтобы успешно справляться с этими проблемами, вам нужен фундамент, построенный на трёх ключевых принципах: автоматизированная оценка, автоматизированное развёртывание (CI/CD) и комплексная наблюдаемость (observability).

Мы начнём с основ подготовки к производству, покажем, как настроить автоматизированные CI/CD-конвейеры и использовать строгую оценку в качестве критически важной проверки качества. Затем мы углубимся в проблемы запуска агентов в реальных условиях, рассмотрим стратегии масштабирования, настройки производительности и мониторинга в реальном времени. Наконец, мы заглянем в захватывающий мир мультиагентных систем с протоколом Agent-to-Agent и исследуем, что необходимо для их безопасного и эффективного взаимодействия.

Руководство по практической реализации

В этом документе практические примеры ссылаются на Google Cloud Platform Agent Starter Pack¹ — пакет Python, предоставляющий готовые к производству шаблоны агентов на основе Generative AI для Google Cloud. Он включает в себя готовые агенты, автоматизированную настройку CI/CD, развёртывание с помощью Terraform, интеграцию с системой оценки Vertex AI и встроенные средства наблюдаемости Google Cloud. Этот стартовый пакет демонстрирует обсуждаемые здесь концепции на примере рабочего кода, который вы можете развернуть за считанные минуты.

Люди и процессы

После всех этих разговоров о CI/CD, observability (наблюдаемости) и динамических конвейерах, почему мы уделяем внимание людям и процессам? Потому что даже самая лучшая в мире технология неэффективна без команды, способной её создавать, ею управлять и её контролировать.

Агент службы поддержки не каким-то волшебным образом защищён от раздачи бесплатных товаров; это AI Engineer и Prompt Engineer проектируют и внедряют защитные механизмы (guardrails). Конфиденциальная база данных защищена не абстрактной концепцией; аутентификацию настраивает команда Cloud Platform. За каждым успешным агентом производственного уровня стоит слаженная команда специалистов, и в этом разделе мы познакомим вас с ключевыми участниками.

В традиционной среде MLOps в этот процесс вовлечены несколько ключевых команд:

Команда облачной платформы (Cloud Platform Team): Эта команда, состоящая из облачных архитекторов, администраторов и специалистов по безопасности, управляет базовой облачной инфраструктурой, безопасностью и контролем доступа. Команда предоставляет инженерам и сервисным аккаунтам роли с минимальными привилегиями, обеспечивая доступ только к необходимым ресурсам.
Команда инженерии данных (Data Engineering Team): Инженеры данных и владельцы данных создают и поддерживают конвейеры данных (data pipelines), отвечая за их загрузку, подготовку и стандарты качества.
Команда Data Science и MLOps: В неё входят специалисты по данным (data scientists), которые экспериментируют с моделями и обучают их, и ML-инженеры, которые автоматизируют сквозной конвейер ML (например, предварительная обработка, обучение, постобработка) в масштабе с использованием CI/CD. Инженеры MLOps поддерживают этот процесс, создавая и обслуживая стандартизированную инфраструктуру конвейеров.

Управление жизненным циклом машинного обучения (Machine Learning Governance): Эта централизованная функция, включающая владельцев продуктов и аудиторов, контролирует жизненный цикл ML, выступая в роли репозитория для артефактов и метрик с целью обеспечения соответствия требованиям, прозрачности и подотчётности.

Генеративный AI (Generative AI) добавляет в эту картину новый уровень сложности и специализированные роли:

Prompt Engineers: Хотя название этой роли в индустрии всё ещё формируется, эти специалисты сочетают технические навыки составления промптов с глубокой доменной экспертизой. Они определяют правильные вопросы и ожидаемые ответы от модели, хотя на практике эту работу могут выполнять AI-инженеры, эксперты в предметной области или выделенные специалисты в зависимости от зрелости организации.
AI-инженеры (AI Engineers): Они отвечают за масштабирование GenAI-решений до производственного уровня, создавая надёжные бэкенд-системы, которые включают в себя оценку в масштабе, защитные механизмы (guardrails) и интеграцию с RAG/инструментами.
DevOps-инженеры/разработчики приложений (DevOps/App Developers): Эти разработчики создают фронтенд-компоненты и удобные пользовательские интерфейсы, которые интегрируются с бэкендом GenAI.

Масштаб и структура организации будут влиять на эти роли; в небольших компаниях сотрудники могут совмещать несколько функций, в то время как в зрелых организациях будут более специализированные команды. Эффективная координация всех этих разнопрофильных ролей необходима для создания надёжной операционной основы и успешного вывода в продакшн как традиционных ML, так и инициатив в области генеративного AI.

Процесс ввода в эксплуатацию

Теперь, когда мы определили состав команды, перейдём к процессу. Как превратить работу всех этих специалистов в надёжную и готовую для пользователей систему, заслуживающую доверия?

Ответ кроется в чётко выстроенном процессе подготовки к производству, основанном на одном ключевом принципе: развёртывание возможно только после успешной оценки. Идея проста, но эффективна: ни одна версия агента не должна попасть к пользователям, не пройдя предварительную всестороннюю оценку, подтверждающую её качество и безопасность. На этом этапе подготовки мы заменяем ручную неопределённость автоматизированной уверенностью, и состоит он из трёх столпов: строгий процесс оценки, который действует как шлюз качества (quality gate), автоматизированный CI/CD-конвейер, который обеспечивает его выполнение, и безопасные стратегии выкатки для снижения рисков на финальном этапе.

Оценка как шлюз качества

Зачем нам нужен специальный шлюз качества для агентов? Традиционных тестов ПО недостаточно для систем, которые способны рассуждать и адаптироваться. Более того, оценка агента отличается от оценки LLM; требуется анализировать не только конечный ответ, но и всю траекторию рассуждений и действий, предпринятых для выполнения задачи. Агент может пройти 100 юнит-тестов для своих инструментов, но всё равно с треском провалиться, выбрав не тот инструмент или сгенерировав галлюцинацию. Нам нужно оценивать качество его поведения, а не только функциональную корректность. Этот шлюз можно реализовать двумя основными способами:

Ручная оценка до создания Pull Request: Для команд, которым нужна гибкость или которые только начинают свой путь в оценке, шлюз качества обеспечивается через командный процесс. Перед отправкой pull request (PR) AI-инженер или Prompt Engineer (или тот, кто отвечает за поведение агента) локально запускает набор тестов для оценки. Полученный отчёт о производительности, сравнивающий нового агента с эталонной версией, затем прикрепляется в виде ссылки в описании PR. Это делает результаты оценки обязательным артефактом для проверки человеком. Рецензент — как правило, другой AI-инженер или специалист по Machine Learning Governance — теперь отвечает за оценку не только кода, но и поведенческих изменений агента на предмет нарушений защитных механизмов (guardrails) и уязвимостей к prompt injection.
Автоматизированный контроль в конвейере: В зрелых командах система оценки (evaluation harness), созданная и поддерживаемая командой Data Science и MLOps, интегрирована непосредственно в CI/CD-конвейер. Неудовлетворительный результат оценки автоматически блокирует развёртывание, обеспечивая жёсткое программное соблюдение стандартов качества, определённых командой Machine Learning Governance. Этот подход обменивает гибкость ручной проверки на надёжность автоматизации. CI/CD-конвейер можно настроить так, чтобы он автоматически запускал задачу оценки, которая сравнивает ответы нового агента с эталонным набором данных (golden dataset). Развёртывание программно блокируется, если ключевые метрики, такие как «процент успешных вызовов инструментов» (tool call success rate) или «полезность» (helpfulness), опускаются ниже заданного порога.

Независимо от метода, принцип один: ни один агент не попадает в продакшн без проверки качества. Мы подробно рассмотрели, что именно измерять и как создавать эту систему оценки, в нашем материале Дня 4: «Качество агентов: наблюдаемость, логирование, трассировка, оценка, метрики». Там мы исследовали всё: от создания эталонного набора данных (golden dataset) — тщательно подобранного, репрезентативного набора тестов для оценки поведения агента и соблюдения им защитных механизмов — до внедрения техник LLM-as-a-judge (использования LLM в качестве судьи) и, наконец, использования сервиса вроде Vertex AI Evaluation² для проведения оценки.

Автоматизированный CI/CD-конвейер

AI-агент — это комплексная система, включающая в себя не только исходный код, но и промпты, определения инструментов и файлы конфигурации. Эта сложность создаёт серьёзные проблемы: как убедиться, что изменение в промпте не ухудшит работу инструмента? Как протестировать взаимодействие всех этих артефактов до того, как они попадут к пользователям?

Решение — это конвейер CI/CD (непрерывной интеграции/непрерывного развёртывания). Это больше, чем просто скрипт автоматизации; это структурированный процесс, который помогает разным специалистам в команде сотрудничать, чтобы управлять сложностью и обеспечивать качество. Он работает путём поэтапного тестирования изменений, последовательно формируя уверенность в качестве агента перед его выпуском для пользователей.

Надёжный конвейер устроен по принципу воронки. Он позволяет обнаруживать ошибки как можно раньше и с минимальными затратами — практика, известная как «сдвиг влево» (shift left). Он разделяет быстрые проверки, выполняемые до слияния веток (pre-merge), и более комплексные, ресурсоёмкие развёртывания после слияния (post-merge). Этот последовательный рабочий процесс обычно состоит из трёх отдельных этапов:

Этап 1: Интеграция до слияния (CI). Первая задача конвейера — обеспечить быструю обратную связь AI-инженеру или Prompt Engineer'у, открывшему pull request. Этот CI-этап, запускаемый автоматически, служит барьером для основной ветки. Он выполняет быстрые проверки, такие как юнит-тесты, линтинг кода и сканирование зависимостей. Ключевой момент: это идеальный этап для запуска набора тестов для оценки качества агента, разработанного Prompt-инженерами. Это даёт немедленную обратную связь о том, улучшает или ухудшает изменение поведение агента по ключевым сценариям, ещё до его слияния с основной веткой. Обнаруживая проблемы здесь, мы предотвращаем попадание ошибок в основную ветку. Шаблон конфигурации для PR-проверок³, создаваемый с помощью Agent Starter Pack¹ (ASP), является практическим примером реализации этого этапа с использованием Cloud Build.⁴
Этап 2: Валидация после слияния в среде Staging (CD). Как только изменение проходит все проверки CI, включая оценку производительности, и сливается с основной веткой, фокус смещается с корректности кода на операционную готовность интегрированной системы. Процесс непрерывного развёртывания (CD), часто управляемый командой MLOps, упаковывает агента и развёртывает его в промежуточной среде (staging). Здесь выполняются более комплексные и ресурсоёмкие тесты, такие как нагрузочное тестирование и интеграционные тесты с удалёнными сервисами. Это также критически важный этап для внутреннего тестирования пользователями (практика, известная как «dogfooding»), где сотрудники компании могут взаимодействовать с агентом и предоставлять качественную обратную связь до того, как он попадёт к конечному пользователю. Это гарантирует, что агент как интегрированная система работает надёжно и эффективно в условиях, приближенных к производственным, прежде чем он будет допущен к выпуску. Шаблон развёртывания в staging⁵ из ASP демонстрирует пример этого этапа.
Этап 3: Контролируемое развёртывание в продакшн. После того как агент был тщательно проверен в среде staging, финальным шагом является развёртывание в производственную среду. Этот шаг почти никогда не бывает полностью автоматическим и обычно требует финального одобрения от владельца продукта (Product Owner), что обеспечивает участие человека в процессе (human-in-the-loop). После утверждения тот же самый артефакт развёртывания, который был протестирован и проверен в staging, переносится в производственную среду. Шаблон развёртывания в продакшн⁶, генерируемый с помощью ASP, показывает, как на этом заключительном этапе используется проверенный артефакт и развёртывается в производственную среду с соответствующими мерами предосторожности.

Для реализации этого трёхэтапного CI/CD-процесса необходимы надёжная инфраструктура автоматизации и правильное управление секретами. Эта автоматизация обеспечивается двумя ключевыми технологиями:

Инфраструктура как код (IaC): Инструменты, такие как Terraform, позволяют программно определять конфигурацию сред, гарантируя их идентичность, воспроизводимость и контроль версий. Например, этот шаблон⁷, сгенерированный с помощью Agent Starter Pack, предоставляет конфигурации Terraform для всей инфраструктуры агента, включая ресурсы Vertex AI, Cloud Run и BigQuery.
Фреймворки для автоматизированного тестирования: Фреймворки, такие как Pytest, выполняют тесты и оценки на каждом этапе, обрабатывая специфичные для агента артефакты: истории диалогов, логи вызовов инструментов и трассировки динамических рассуждений.

Кроме того, конфиденциальной информацией, такой как API-ключи для инструментов, следует управлять безопасно с помощью сервиса вроде Secret Manager⁸. Ключи должны внедряться в окружение агента во время выполнения, а не быть жёстко прописаны в коде репозитория.

Стратегии безопасной выкатки

Хотя комплексные проверки перед развёртыванием необходимы, использование в реальных условиях неизбежно выявляет непредвиденные проблемы. Вместо того чтобы переключать 100% пользователей сразу, следует минимизировать риски с помощью постепенного развёртывания и тщательного мониторинга.

Вот четыре проверенных подхода, которые помогают командам развёртывать новые версии с большей уверенностью:

Canary (канареечное развёртывание): Начните с 1% пользователей, отслеживая попытки prompt injection и непредвиденное использование инструментов. Постепенно увеличивайте охват или мгновенно откатывайтесь назад.
Blue-Green: Запустите две идентичные производственные среды. Направляйте трафик на «синюю» (blue), пока развёртываете новую версию на «зелёной» (green), а затем мгновенно переключитесь. Если возникнут проблемы, вернитесь обратно — нулевое время простоя, мгновенное восстановление.
A/B Testing (A/B-тестирование): Сравнивайте версии агента по реальным бизнес-метрикам для принятия решений на основе данных. Это можно делать как с внутренними, так и с внешними пользователями.
Feature Flags (флаги функций): Разверните код, но управляйте его выпуском динамически, тестируя новые возможности сначала на избранных пользователях.

В основе всех этих стратегий лежит строгий контроль версий. Версионировать необходимо каждый компонент: код, промпты, эндпоинты моделей, схемы инструментов, структуры памяти и даже наборы данных для оценки. Когда проблемы возникают несмотря на все меры предосторожности, это позволяет мгновенно выполнить откат (rollback) к последней стабильной версии. Считайте это вашей кнопкой «Отмена» для продакшена!

Вы можете развёртывать агентов с помощью Agent Engine⁹ или Cloud Run¹⁰, а затем использовать Cloud Load Balancing¹¹ для управления трафиком между версиями или для подключения к другим микросервисам. Agent Starter Pack¹ предоставляет готовые к использованию шаблоны с рабочими процессами в стиле GitOps, где каждое развёртывание — это git commit, каждый откат — это git revert, а ваш репозиторий становится единственным источником истины (single source of truth) как о текущем состоянии, так и о полной истории развёртываний.

Проектирование безопасности с самого начала

Стратегии безопасной выкатки защищают от багов и сбоев, но агенты сталкиваются с уникальной проблемой: они могут рассуждать и действовать автономно. Идеально развёрнутый агент всё равно может причинить вред, если он не был создан с учётом надлежащих мер безопасности и ответственности. Это требует комплексной стратегии управления, заложенной с самого первого дня, а не добавленной в последний момент.

В отличие от традиционного ПО, которое следует заранее определённым путям, агенты принимают решения. Они интерпретируют неоднозначные запросы, получают доступ к нескольким инструментам и сохраняют память между сессиями. Эта автономия создаёт особые риски:

Prompt Injection и несанкционированные действия: Злоумышленники могут обманом заставить агентов выполнять непредусмотренные действия или обходить ограничения.
Утечка данных: Агенты могут непреднамеренно раскрыть конфиденциальную информацию в своих ответах или при использовании инструментов.
Memory Poisoning (отравление памяти): Ложная информация, сохранённая в памяти агента, может исказить все последующие взаимодействия.

К счастью, такие фреймворки, как подход Google Secure AI Agents¹² и Google Secure AI Framework (SAIF)¹³, решают эти проблемы с помощью трёх уровней защиты:

Определение правил и системные инструкции («Конституция» агента): Процесс начинается с определения правил желаемого и нежелательного поведения агента. Они формулируются в виде системных инструкций (System Instructions, SIs), которые действуют как основная «конституция» агента.
Защитные механизмы (Guardrails), средства защиты (Safeguards) и фильтрация (Уровень обеспечения соблюдения правил): Этот уровень действует как механизм жёсткого принудительного контроля.
- Фильтрация входных данных: Используйте классификаторы и сервисы, такие как Perspective API, для анализа промптов и блокировки вредоносных запросов до того, как они достигнут агента.
- Фильтрация выходных данных: После того как агент сгенерирует ответ, встроенные фильтры безопасности Vertex AI обеспечивают финальную проверку на наличие вредоносного контента, PII (персональных данных) или нарушений политик. Например, перед отправкой ответа пользователю он проходит через встроенные фильтры безопасности Vertex AI¹⁴, которые можно настроить для блокировки вывода, содержащего определённые PII, токсичные выражения или другой нежелательный контент.
- Эскалация для контроля человеком (Human-in-the-Loop, HITL): Для высокорисковых или неоднозначных действий система должна приостанавливать работу и передавать задачу человеку для проверки и одобрения.
Непрерывный контроль и тестирование: Безопасность — это не разовая настройка. Она требует постоянной оценки и адаптации.
- Строгая оценка: Любое изменение модели или её систем безопасности должно запускать полный прогон комплексного конвейера оценки с использованием Vertex AI Evaluation.
- Специализированное тестирование ответственного AI (RAI): Проводите тщательное тестирование на предмет специфических рисков, создавая специальные наборы данных или используя симуляционных агентов, включая оценки с нейтральной точки зрения (Neutral Point of View, NPOV) и оценки на паритетность (Parity evaluations).
- Проактивный Red Teaming: Активно пытайтесь обойти системы безопасности с помощью креативного ручного тестирования и симуляций на основе AI-персонажей.

Эксплуатация в производственной среде

Ваш агент запущен. Теперь фокус смещается с разработки на принципиально иную задачу: поддержание надёжности, экономической эффективности и безопасности системы при её взаимодействии с тысячами пользователей. Традиционный сервис работает по предсказуемой логике. Агент, в отличие от него, — это автономная система. Его способность следовать неожиданным путям рассуждений означает, что он может демонстрировать эмерджентное поведение и накапливать затраты без прямого контроля.

Управление этой автономией требует иной операционной модели. Вместо статичного мониторинга эффективные команды внедряют непрерывный цикл: Наблюдение за поведением системы в реальном времени, Действие для поддержания производительности и безопасности, и Развитие агента на основе данных, полученных в ходе эксплуатации. Этот интегрированный цикл — ключевой принцип успешной эксплуатации агентов в производственной среде.

Наблюдение: «система восприятия» вашего агента

Чтобы доверять автономному агенту и управлять им, необходимо сначала понимать его внутренние процессы. Именно наблюдаемость (observability) даёт это ключевое понимание, выступая в роли «системы восприятия» для последующих этапов «Действие» и «Развитие». Надёжная практика наблюдаемости строится на трёх компонентах, которые вместе создают полную картину поведения агента:

Логи (Logs): Детальная, фактическая хроника того, что произошло, фиксирующая каждый вызов инструмента, ошибку и решение.
Трассировки (Traces): Последовательность, которая связывает отдельные логи, раскрывая причинно-следственную цепочку того, почему агент предпринял определённое действие.
Метрики (Metrics): Сводный отчёт, обобщающий производительность, затраты и операционное состояние в масштабе, чтобы показать, насколько хорошо работает система.

Например, в Google Cloud это достигается с помощью набора инструментов для эксплуатации: запрос пользователя генерирует уникальный ID в Cloud Trace¹⁵, который связывает вызов Vertex AI Agent Engine⁹, обращения к модели и выполнение инструментов с отображением их длительности. Подробные логи поступают в Cloud Logging¹⁶, а панели Cloud Monitoring¹⁷ отправляют оповещения при превышении пороговых значений задержки. Agent Development Kit (ADK)¹⁸ предоставляет встроенную интеграцию с Cloud Trace для автоматической инструметации операций агента.

Внедряя эти компоненты, мы переходим от работы «вслепую» к чёткому, основанному на данных представлению о поведении нашего агента, что создаёт основу для эффективного управления им в производственной среде. (Более подробное обсуждение этих концепций см. в документе «Качество агентов: наблюдаемость, логирование, трассировка, оценка, метрики»).

Действие: инструменты оперативного управления

Наблюдения без действий — это просто дорогие дашборды. Этап «Действие» подразумевает вмешательство в реальном времени — использование инструментов для управления производительностью, затратами и безопасностью агента на основе наблюдаемых данных.

Считайте этап «Действие» автоматизированными «рефлексами» системы, предназначенными для поддержания стабильности в реальном времени. В отличие от этого, этап «Развитие», который мы рассмотрим позже, — это стратегический процесс извлечения уроков из поведения системы для создания её фундаментально лучшей версии.

Поскольку агент автономен, вы не можете заранее запрограммировать каждый возможный исход. Вместо этого необходимо создать надёжные механизмы для влияния на его поведение в производственной среде. Эти оперативные инструменты делятся на две основные категории: управление работоспособностью системы и управление её рисками.

Управление работоспособностью системы: производительность, затраты и масштабирование

В отличие от традиционных микросервисов, нагрузка на агента динамична, и он обладает состоянием (stateful). Управление его работоспособностью требует стратегии для работы с этой непредсказуемостью.

Проектирование с учётом масштабирования: Основа — это отделение логики агента от его состояния.
- Горизонтальное масштабирование: Проектируйте агента как stateless-сервис в контейнере. При внешнем хранении состояния любой экземпляр может обработать любой запрос, что позволяет бессерверным платформам, таким как Cloud Run¹⁰ или управляемой среде выполнения Vertex AI Agent Engine⁹, масштабироваться автоматически.
- Асинхронная обработка: Для длительных задач переносите нагрузку, используя событийно-ориентированные подходы (event-driven patterns). Это позволяет агенту оставаться отзывчивым, пока сложные задачи обрабатываются в фоновом режиме. Например, в Google Cloud сервис может публиковать задачи в Pub/Sub¹⁹, который затем может запустить сервис Cloud Run для асинхронной обработки.
- Внешнее управление состоянием: Поскольку LLM не имеют состояния, внешнее хранение памяти является обязательным требованием. Здесь возникает ключевой архитектурный выбор: Vertex AI Agent Engine предоставляет встроенный, надёжный сервис для сессий и памяти, в то время как Cloud Run предлагает гибкость прямой интеграции с базами данных, такими как AlloyDB²⁰ или Cloud SQL²¹.
Баланс между конкурирующими целями: Масштабирование всегда включает в себя поиск баланса между тремя конкурирующими целями: скоростью, надёжностью и затратами.
- Скорость (задержка): Поддерживайте высокую скорость работы агента, проектируя его для параллельной работы, кэшируя результаты и используя более компактные и эффективные модели для рутинных задач.
- Надёжность (обработка сбоев): Агенты должны справляться с временными сбоями. При неудачном вызове автоматически повторяйте попытку, в идеале с экспоненциальной задержкой (exponential backoff), чтобы дать сервису время на восстановление. Это требует проектирования «безопасных для повторного вызова» (идемпотентных) инструментов, чтобы избежать ошибок, таких как двойное списание средств.
- Затраты: Снижайте стоимость работы агента, сокращая промпты, используя более дешёвые модели для простых задач и группируя запросы (batching).

Управление рисками: план действий при инцидентах безопасности

Поскольку агент может действовать самостоятельно, вам необходим план для быстрого сдерживания угроз. При обнаружении угрозы реакция должна следовать чёткой последовательности: сдерживание, анализ и устранение.

Первый шаг — немедленное сдерживание. Приоритет — остановить ущерб, обычно с помощью механизма аварийного отключения («circuit breaker») — флага функции, позволяющего мгновенно деактивировать затронутый инструмент.

Далее — анализ. После сдерживания угрозы подозрительные запросы направляются в очередь для проверки человеком (human-in-the-loop, HITL) для расследования масштаба и последствий эксплойта.

Наконец, фокус смещается на окончательное устранение. Команда разрабатывает исправление (patch) — например, обновлённый фильтр входных данных или системный промпт — и развёртывает его через автоматизированный CI/CD-конвейер, гарантируя, что исправление полностью протестировано, прежде чем окончательно заблокировать уязвимость.

Развитие: обучение на основе опыта эксплуатации

Если этап «Действие» обеспечивает немедленные, тактические «рефлексы» системы, то этап «Развитие» — это долгосрочное, стратегическое улучшение. Он начинается с анализа закономерностей и тенденций, собранных в данных наблюдаемости, и постановки ключевого вопроса: «Как нам устранить первопричину, чтобы эта проблема больше никогда не повторилась?»

На этом этапе вы переходите от реакции на инциденты в продакшене к проактивному совершенствованию вашего агента, делая его умнее, эффективнее и безопаснее. Вы превращаете необработанные данные с этапа «Наблюдение» в долгосрочные улучшения архитектуры, логики и поведения вашего агента.

Ключевой механизм развития: автоматизированный процесс вывода в эксплуатацию

Идея, возникшая на основе данных из продакшена, ценна только в том случае, если вы можете быстро её реализовать. Наблюдение, что 30% ваших пользователей не справляются с определённой задачей, бесполезно, если вашей команде требуется шесть месяцев, чтобы выкатить исправление. Именно здесь автоматизированный CI/CD-конвейер, который вы построили на этапе подготовки (Раздел 3), становится важнейшим компонентом вашего операционного цикла. Это и есть двигатель, который обеспечивает быстрое развитие.

Надёжный и быстрый процесс вывода в эксплуатацию позволяет вам замкнуть цикл между наблюдением и улучшением за часы или дни, а не за недели или месяцы.

Когда вы определяете потенциальное улучшение — будь то отточенный промпт, новый инструмент или обновлённый механизм безопасности — процесс должен быть следующим:

Зафиксировать изменение: Предлагаемое улучшение фиксируется в вашем репозитории с контролем версий.
Запустить автоматизацию: Коммит автоматически запускает ваш CI/CD-конвейер.
Тщательно проверить: Конвейер запускает полный набор юнит-тестов, сканирований безопасности и тестов для оценки качества агента на основе ваших обновлённых наборов данных.
Безопасно развернуть в релиз: После проверки изменение развёртывается в продакшн с использованием стратегии безопасной выкатки.

Этот автоматизированный рабочий процесс превращает развитие из медленного, рискованного ручного проекта в быстрый, воспроизводимый и основанный на данных процесс.

Рабочий процесс развития: от идеи к внедрённому улучшению

Анализ данных из продакшена: Выявляйте тенденции в поведении пользователей, показателях успешности выполнения задач и инцидентах безопасности на основе логов из производственной среды.
Обновление наборов данных для оценки: Превращайте сбои в продакшене в тестовые случаи для будущих проверок, пополняя ваш эталонный набор данных (golden dataset).
Улучшение и развёртывание: Фиксируйте улучшения в репозитории, чтобы запустить автоматизированный конвейер — будь то доработка промптов, добавление инструментов или обновление защитных механизмов.

Это создаёт цикл постоянного совершенствования, в котором ваш агент становится лучше с каждым взаимодействием с пользователем.

Пример цикла развития в действии

Логи агента для розничной торговли (Наблюдение) показывают, что 15% пользователей получают ошибку при запросе «похожих товаров». Команда продукта реагирует (Действие), создавая высокоприоритетную задачу. Начинается этап Развития: логи из продакшена используются для создания нового, заведомо провального тестового случая для набора данных оценки. AI-инженер улучшает промпт агента и добавляет новый, более надёжный инструмент для поиска похожих товаров. Изменение фиксируется в репозитории, проходит проверку на обновлённом наборе тестов в CI/CD-конвейере и безопасно выкатывается с помощью канареечного развёртывания (canary deployment), решая проблему пользователя менее чем за 48 часов.

Развитие безопасности: производственный цикл обратной связи

Хотя базовая структура безопасности и ответственности закладывается на этапе подготовки к производству (Раздел 3.4), эта работа никогда по-настоящему не заканчивается. Безопасность — это не статический чек-лист, а динамичный, непрерывный процесс адаптации. Производственная среда — это главное поле для испытаний, и выводы, полученные в ней, необходимы для усиления защиты вашего агента от реальных угроз.

Именно здесь цикл «Наблюдение → Действие → Развитие» становится критически важным для безопасности. Этот процесс является прямым продолжением рабочего процесса развития:

Наблюдение: Ваши системы мониторинга и логирования обнаруживают новый вектор угрозы. Это может быть новый метод prompt injection, который обходит ваши текущие фильтры, или непредвиденное взаимодействие, которое приводит к незначительной утечке данных.
Действие: Команда немедленного реагирования на инциденты безопасности сдерживает угрозу.
Развитие: Это решающий шаг для обеспечения долгосрочной устойчивости. Полученные выводы по безопасности интегрируются обратно в жизненный цикл разработки:
- Обновление наборов данных для оценки: Новая атака типа prompt injection добавляется в качестве постоянного тестового случая в ваш набор для оценки.
- Улучшение защитных механизмов (Guardrails): Prompt Engineer или AI Engineer дорабатывает системный промпт агента, входные фильтры или политики использования инструментов, чтобы заблокировать новый вектор атаки.
- Автоматизация и развёртывание: Инженер фиксирует изменение, что запускает полный CI/CD-конвейер. Обновлённый агент проходит строгую проверку на расширенном наборе данных для оценки и развёртывается в продакшн, закрывая уязвимость.

Это создаёт мощный цикл обратной связи, в котором каждый инцидент в продакшене делает вашего агента сильнее и устойчивее, что превращает ваш подход к безопасности из оборонительной позиции в стратегию непрерывного, проактивного совершенствования.

Чтобы узнать больше об ответственном AI и защите агентных AI-систем, пожалуйста, ознакомьтесь с техническим документом «Google's Approach for Secure AI Agents»¹² и фреймворком «Google Secure AI Framework (SAIF)»¹³.

За пределами эксплуатации одиночных агентов

Вы освоили эксплуатацию отдельных агентов в производственной среде и можете быстро их внедрять. Но по мере того как организации создают десятки специализированных агентов — каждый из которых разработан разными командами с использованием разных фреймворков — возникает новая проблема: эти агенты не могут взаимодействовать друг с другом. В следующем разделе мы рассмотрим, как стандартизированные протоколы могут превратить этих изолированных агентов во взаимодействующую экосистему, что позволяет многократно повысить ценность их совместной работы.

A2A — Повторное использование и стандартизация

Ваша организация создала десятки специализированных агентов. У команды обслуживания клиентов есть свой агент поддержки. Аналитики построили систему прогнозирования. Команда по управлению рисками создала систему обнаружения мошенничества. Но вот в чём проблема: эти агенты не могут общаться друг с другом — будь то потому, что они созданы на разных фреймворках, в разных проектах или даже в разных облаках.

Эта изоляция создаёт огромную неэффективность. Каждая команда заново создаёт одни и те же возможности. Важные инсайты остаются изолированными в рамках отдельных систем. Вам нужна интероперабельность — способность любого агента использовать возможности любого другого агента, независимо от того, кто его создал и какой фреймворк использовал.

Для решения этой проблемы требуется принципиальный подход к стандартизации, основанный на двух разных, но дополняющих друг друга протоколах. Хотя Model Context Protocol (MCP²²) , который мы подробно рассмотрели в разделе «Инструменты агентов и интероперабельность с MCP», предоставляет универсальный стандарт для интеграции инструментов, его недостаточно для сложного взаимодействия с учётом состояния (stateful), необходимого между интеллектуальными агентами. Именно для решения этой проблемы был разработан протокол Agent2Agent (A2A²³), который теперь находится под управлением Linux Foundation.

Это различие критически важно. Когда вам нужна простая функция без сохранения состояния (stateless), такая как получение данных о погоде или запрос к базе данных, вам нужен инструмент, работающий по протоколу MCP. Но когда вам нужно делегировать сложную цель, например, «проанализировать отток клиентов за прошлый квартал и порекомендовать три стратегии по их удержанию», вам нужен интеллектуальный партнёр, способный рассуждать, планировать и действовать автономно через A2A. Коротко говоря, MCP позволяет сказать: «Сделай вот это», в то время как A2A позволяет сказать: «Достигни вот этой сложной цели».

Протокол A2A: от концепции к реализации

Протокол A2A предназначен для устранения организационной разобщённости и обеспечения бесшовного взаимодействия между агентами. Представьте сценарий, где агент по обнаружению мошенничества замечает подозрительную активность. Чтобы понять полный контекст, ему нужны данные от отдельного агента по анализу транзакций. Без A2A аналитику-человеку пришлось бы вручную связывать эти системы — процесс, который мог бы занять часы. С A2A агенты взаимодействуют автоматически, решая проблему за минуты.

Первый шаг такого взаимодействия — обнаружение подходящего агента для делегирования задачи. Это становится возможным благодаря Agent Cards²⁴ — стандартизированным JSON-спецификациям, которые служат «визитной карточкой» для каждого агента. Agent Card описывает, что может делать агент, его требования к безопасности, его навыки и как с ним связаться, позволяя любому другому агенту в экосистеме динамически обнаруживать своих «коллег». Пример Agent Card приведён ниже:

Внедрение этого протокола не требует кардинальной перестройки архитектуры. Фреймворки, такие как ADK, значительно упрощают этот процесс (документация²⁵). Вы можете сделать существующего агента A2A-совместимым одним вызовом функции, который автоматически сгенерирует его AgentCard и сделает его доступным в сети.

Как только агент становится доступным, любой другой агент может к нему обращаться, используя его AgentCard. Например, агент службы поддержки теперь может запрашивать удалённого агента по каталогу товаров, не зная его внутреннего устройства.

Это позволяет создавать мощные иерархические системы. Корневой агент можно настроить для оркестрации как локального подагента для простой задачи, так и удалённого специализированного агента через A2A, создавая таким образом более функциональную систему.

Однако реализация такого уровня автономного взаимодействия требует соблюдения двух обязательных технических условий. Во-первых, это распределённая трассировка (distributed tracing), в рамках которой каждый запрос снабжается уникальным идентификатором трассировки (trace ID), что необходимо для отладки и ведения целостного аудиторского следа (audit trail) при взаимодействии нескольких агентов. Во-вторых, это надёжное управление состоянием (state management). Взаимодействия A2A по своей природе сохраняют состояние (stateful), что требует развитого слоя персистентности (persistence layer) для отслеживания прогресса и обеспечения транзакционной целостности.

Протокол A2A лучше всего подходит для формальных межкомандных интеграций, требующих надёжного контракта на обслуживание. Для тесно связанных задач в рамках одного приложения легковесные локальные подагенты часто остаются более эффективным выбором. По мере развития экосистемы новые агенты следует создавать со встроенной (нативной) поддержкой обоих протоколов. Это гарантирует, что каждый новый компонент будет сразу обнаруживаемым, интероперабельным и готовым к повторному использованию, что приумножает ценность всей системы.

Как A2A и MCP работают вместе

Протоколы A2A и MCP не конкурируют; они являются взаимодополняющими протоколами, предназначенными для работы на разных уровнях абстракции. Различие зависит от того, с чем взаимодействует агент. MCP — это область инструментов и ресурсов: примитивы с чётко определёнными, структурированными входами и выходами, такие как калькулятор или API базы данных. A2A — это область других агентов: автономных систем, которые могут рассуждать, планировать, использовать несколько инструментов и поддерживать состояние для достижения сложных целей.

Самые мощные агентные системы используют оба протокола в многоуровневой архитектуре. Приложение может преимущественно использовать A2A для оркестрации высокоуровневого взаимодействия между несколькими интеллектуальными агентами, в то время как каждый из этих агентов внутренне использует MCP для взаимодействия со своим собственным специфическим набором инструментов и ресурсов.

Практической аналогией может служить автосервис, укомплектованный автономными AI-агентами.

Пользователь-агент (A2A): Клиент использует A2A для связи с агентом «Управляющий магазином», чтобы описать общую проблему: «Моя машина издаёт дребезжащий звук».
Агент-агент (A2A): Управляющий магазином ведёт многоэтапный диагностический диалог, а затем делегирует задачу специализированному агенту «Механик», снова используя A2A.
Агент-инструмент (MCP): Агент «Механик» теперь должен выполнить конкретные действия. Он использует MCP для вызова своих специализированных инструментов: запускает scan_vehicle_for_error_codes() на диагностическом сканере, запрашивает базу данных ремонтных мануалов с помощью get_repair_procedure() и управляет подъёмной платформой с помощью raise_platform().
Агент-агент (A2A): После диагностики проблемы агент «Механик» определяет, что требуется запчасть. Он использует A2A для связи с внешним агентом «Поставщик запчастей», чтобы узнать о наличии и разместить заказ.

В этой схеме A2A обеспечивает высокоуровневое, диалоговое и целевое взаимодействие между клиентом, агентами сервиса и внешними поставщиками. При этом MCP предоставляет стандартизированную основу, позволяющую агенту-механику надёжно использовать свои конкретные, структурированные инструменты для выполнения работы.

Архитектуры реестров: когда их стоит создавать

Почему одни организации создают реестры, а другим они не нужны? Ответ кроется в масштабе и сложности. Когда у вас пятьдесят инструментов, ручная настройка вполне подходит. Но когда количество инструментов достигает пяти тысяч, и они распределены по разным командам и средам, вы сталкиваетесь с проблемой их обнаружения, которая требует системного решения.

Реестр инструментов (Tool Registry) использует протокол, такой как MCP, для каталогизации всех активов — от функций до API. Вместо того чтобы предоставлять агентам доступ к тысячам инструментов, вы создаёте тщательно подобранные списки, что приводит к трём распространённым паттернам:

Агенты-универсалы (Generalist agents): Получают доступ ко всему каталогу, жертвуя скоростью и точностью ради широты охвата.
Агенты-специалисты (Specialist agents): Используют заранее определённые наборы для более высокой производительности.
Динамические агенты (Dynamic agents): Обращаются к реестру во время выполнения, чтобы адаптироваться к новым инструментам.

Основное преимущество — это возможность обнаружения инструментов людьми: разработчики могут искать существующие инструменты, прежде чем создавать дубликаты, команды безопасности — проводить аудит доступа к инструментам, а владельцы продуктов — понимать возможности своих агентов.

Реестр агентов (Agent Registry) применяет ту же концепцию к агентам, используя форматы, подобные AgentCards из протокола A2A. Он помогает командам находить и повторно использовать существующих агентов, сокращая избыточную работу. Это также закладывает основу для автоматического делегирования задач от агента к агенту, хотя этот паттерн всё ещё только формируется.

Реестры предлагают возможности обнаружения и управления, но требуют затрат на обслуживание. Можно рассмотреть возможность начать без реестра и создать его только тогда, когда масштаб вашей экосистемы потребует централизованного управления.

Собираем всё воедино: Жизненный цикл AgentOps

Теперь мы можем собрать все эти элементы в единую, целостную эталонную архитектуру! Жизненный цикл начинается с внутреннего цикла разработки (inner loop) — этапа быстрого локального тестирования и прототипирования для формирования основной логики агента. Как только изменение готово, оно попадает в формализованный механизм подготовки к производству, где автоматизированные шлюзы оценки (evaluation gates) проверяют его качество и безопасность на основе эталонного набора данных (golden dataset). Затем, с помощью безопасных стратегий выкатки, оно выпускается в производственную среду. Там комплексная наблюдаемость (observability) собирает реальные данные, необходимые для поддержания непрерывного цикла развития, превращая каждый инсайт в следующее улучшение.

Чтобы получить полное руководство по вводу AI-агентов в эксплуатацию, включая оценку, управление инструментами, стандартизацию CI/CD и эффективные архитектурные решения, посмотрите видео «AgentOps: Operationalize AI Agents»²⁶ на официальном YouTube-канале Google Cloud.

Заключение: Решение проблемы «последней мили» с помощью AgentOps

Перевод AI-прототипа в производственную систему — это организационная трансформация, требующая новой операционной дисциплины: AgentOps.

Большинство проектов с агентами терпят неудачу на этапе «последней мили» не из-за технологий, а из-за недооценки операционной сложности автономных систем. Это руководство описывает, как устранить этот пробел. Всё начинается с выстраивания процессов и определения ролей (Люди и Процессы) как основы для управления. Далее, стратегия подготовки к производству, основанная на развёртывании через шлюз оценки, автоматизирует выпуск критически важных версий. После запуска непрерывный цикл «Наблюдение → Действие → Развитие» превращает каждое взаимодействие с пользователем в ценную информацию для улучшений. Наконец, протоколы интероперабельности (interoperability) масштабируют систему, превращая изолированных агентов в единую интеллектуальную экосистему для совместной работы.

Прямые выгоды — такие как предотвращение нарушений безопасности или возможность быстрого отката — оправдывают вложения. Но настоящая ценность заключается в скорости. Зрелые практики AgentOps позволяют командам внедрять улучшения за часы, а не за недели, превращая статичные развёртывания в непрерывно развивающиеся продукты.

Ваш дальнейший путь

Если вы только начинаете, сосредоточьтесь на основах: создайте свой первый набор данных для оценки, внедрите CI/CD-конвейер и настройте комплексный мониторинг. Agent Starter Pack — отличное начало, он позволяет за минуты создать готовый к продакшену проект агента с уже встроенными базовыми компонентами.
Если вы масштабируете систему, совершенствуйте свои подходы: автоматизируйте цикл обратной связи от получения данных из продакшена до внедрения улучшений и стандартизируйте использование протоколов интероперабельности, чтобы строить целостную экосистему, а не просто точечные решения.

Следующий рубеж — это не просто создание более совершенных отдельных агентов, а оркестрация сложных мультиагентных систем, которые обучаются и взаимодействуют. Операционная дисциплина AgentOps — это фундамент, который делает это возможным.

Мы надеемся, что это руководство поможет вам в создании нового поколения интеллектуальных, надёжных и заслуживающих доверия AI. Преодоление «последней мили» — это не заключительный этап проекта, а первый шаг к созданию ценности