Как собрать ИИ-агента — открытые руководства для чтения / forpes.ru

Главная
Как собрать ИИ-агента — открытые руководства для чтения

Как собрать ИИ-агента — открытые руководства для чтения +9

31.07.2025 09:12

beeline_cloud 1 5200 Источник

ИИ-агенты — одна из относительно новых и обсуждаемых тем в технологической индустрии. Все больше компаний развивают решения, способные не только отвечать на вопросы и поддерживать беседу, но и взаимодействовать с операционной системой, приложениями и веб-сайтами: автономно решать комплексные задачи.

Мы в Beeline Cloud подобрали несколько профильных материалов для тех, кто хочет познакомиться с темой, разобраться в устройстве современных ИИ-агентов и (возможно) разработать собственную систему подобного типа.

Интро, фреймворки, схемы

В прошлом году компания Anthropic — её основали бывшие специалисты OpenAI — опубликовала материал, посвященный принципам построения агентных систем. Статья начинается с основ и определений, но авторы быстро переходят к техническим моментам. В частности, они не рекомендуют использовать фреймворки вроде LangGraph или Rivet, поскольку те вводят избыточные уровни абстракции, затрудняющие отладку кода. Если же без фреймворка не обойтись, они рекомендуют подробно изучить его устройство — такой подход позволит избежать ошибок в будущем.

Фокус статьи — наиболее часто встречающиеся архитектуры агентных систем и workflow-шаблоны. Один из них называется «цепочка промптов» — в этом случае задача делится на последовательные шаги, а каждый вызов языковой модели обрабатывает результат предыдущего (такой подход чаще всего применяют для генерации текста с последующим переводом). Другой вариант получил название «оркестратор-воркеры», в котором главная модель разбивает задачу на части, передает их другим LLM на обработку, а затем собирает результаты и формирует окончательный ответ. Примеры кода для этих и других реализаций можно найти в специальном кукбуке, который авторы выложили на GitHub.

Материал Anthropic привлек внимание на Hacker News — соответствующий тред набрал больше ста комментариев и сотни плюсов. Статью назвали «самым полезным практическим руководством по созданию ИИ-агентов».

Дата-сайентист и автор подкаста про LLM и машинное обучение Vanishing Gradients Хьюго Боун-Андерсон даже опубликовал статью, в которой, опираясь на свой опыт работы в Netflix и других американских корпорациях, привел примеры реального кода по каждому из описанных workflow-шаблонов. Среди них: подготовка писем для рассылки на основе профилей в соц.сетях и извлечение структурированных данных. Однако Хьюго Боун-Андерсон все же рекомендует сперва попробовать решить задачу с помощью классических детерминированных подходов — и только потом подключать ИИ-агентов.

Практическое руководство по созданию агентов

Это — гайд от OpenAI 2024 года. Он представляет собой практическое пособие для начинающих разработчиков и охватывает выбор моделей, настройку инструментов и инструкций, а также методы защиты данных с помощью PII-фильтров и систем безопасности для предотвращения утечек данных и некорректных ответов. Хотя примеры приведены для продуктов компании-автора, принципы носят универсальный характер.

В начале материала поднят важный вопрос: когда нужно разрабатывать ИИ-агентов [в частности, речь идет о процессах принятия решений и необходимости работать с большими объемами неструктурированных данных], а когда стоит обойтись детерминированными подходами. На Hacker News отметили, что руководство действительно может пригодиться новичкам, а также менеджерам, желающим быстро пройти краткий ликбез по работе с ИИ-агентами.

12 принципов для построения надежных ИИ-агентов

Инженер Декстер Хорти является разработчиком open source проекта HumanLayer, предоставляющего API и SDK, которые позволяют ИИ-агентам обращаться к людям за обратной связью. И он опубликовал на GitHub руководство под названием Twelve-Factor Agents, вдохновленное принципами Twelve-Factor App для веб-разработки и SaaS.

Поводом для подготовки материала стал личный опыт автора. Он перепробовал существующие фреймворки для разработки агентов — от «коробочных» решений CrewAI и LangChain до LangGraph и GripTape — пообщался с десятками основателей ИИ-стартапов (включая выпускников Y Combinator). В итоге он пришел к выводу, что в продакшене фреймворки почти не используют. А большинство продуктов, которые называют себя ИИ-агентами, на деле — это детерминированный код, «приправленный» LLM-вызовами.

Декстер сформулировал 12 принципов, которые позволят разработать программное обеспечение на основе LLM, пригодное для использования в продакшене. Под каждый из них выделена отдельная страница в репозитории с кодом. Первый фактор описывает распространенный подход к построению агентов. Второй — идею, что не стоит перекладывать настройку промптов на фреймворки. Как правило, они представляют собой «черный ящик» — позволяют быстро стартовать, но ограничивают контроль. Такой подход удобен для прототипов, но затрудняет настройку модели и доработку под реальные задачи.

Третий принцип посвящен тому, как организовать передачу контекста LLM (включая историю взаимодействий, документы и инструкции). Что касается остальных факторов, то они посвящены темам вроде управления состоянием системы, API, триггерам. Документ ориентирован на инженеров, разрабатывающих приложения с LLM. И хотя автор пишет на TypeScript, предложенные концепции легко адаптировать под Python или другой язык.

Архитектура ИИ-агентов

«Агенты» — документ, опубликованный в сентябре 2024 года сотрудниками Google. Авторы описывают архитектуру ИИ-агентов. Сначала они объясняют, что такое агент и чем он отличается от LLM, затем выделяют три ключевых компонента: модель, инструменты и слой оркестрации. LLM в этой архитектуре отвечает за принятие решений. Она может использовать разные фреймворки рассуждений: ReAct, Chain-of-Thought, Tree-of-Thoughts. Также агенту нужны внешние инструменты, которые позволяют системе получать и обрабатывать реальные данные: вызывать почтовые сервисы, искать информацию на картах, запускать функции и так далее. Оркестрация — это управляющий цикл, который решает, когда и что делать. Система не просто отвечает на запрос — она помнит историю разговора, выбирает инструменты и «накапливает» результат.

В документе также разбираются подходы к обучению моделей и пайплайн разработки агента с помощью LangChain и LangGraph на простом примере: ИИ-агент отвечает на вопрос, с кем играла футбольная команда на прошлой неделе и где находится стадион.

Стандарты взаимодействия ИИ-агентов

Академическая статья, подготовленная исследователями из Шанхайского университета Цзяотун (SJTU) и членами сообщества разработчиков протокола ANP в 2025 году. Авторы подчеркивают проблему отсутствия единых стандартов для интеграции агентов. Из-за этого они не могут эффективно взаимодействовать друг с другом, что тормозит развитие экосистем коллективного интеллекта для решения сложных задач.

Чтобы системно подойти к проблеме, исследователи предложили классификацию протоколов по двум категориям. Первая — по направлению взаимодействия: либо с внешними ресурсами (контекстно-ориентированные), либо между агентами (межагентные). Вторая — по охвату применения: универсальные или заточенные под конкретную доменную область. Такая классификация помогает ориентироваться в решениях и выбирать подходящие под задачу. Пример универсального контекстно-ориентированного протокола — это MCP от Anthropic. Пример доменно-специфичного — agents.json. Протокол позволяет сайтам описывать доступ к своему API в машинно-читаемом формате.

Чтобы понять сильные и слабые стороны разных решений, авторы провели сравнение по семи метрикам: эффективность, масштабируемость, безопасность, надежность, расширяемость, удобство интеграции и совместимость.

В финале статьи авторы обсуждают будущее протоколов. В краткосрочной перспективе нужны решения для безопасного и согласованного взаимодействия агентов (им может стать предложенный авторами статьи Agent Mesh Protocol). В долгосрочной перспективе цель гораздо масштабнее: проектирование «интернета агентов» — единой инфраструктуры для обмена знаниями и коллективной работы.

Математика успеха ИИ-агентов

Исследователь Тоби Орд опубликовал материал, в котором попытался объяснить, почему успешность выполнения ИИ-агентами многошаговых задач снижается экспоненциально с ростом длительности задачи.

В тексте автор приводит понятие «периода полураспада», под которым подразумевается критический размер задачи, при которой вероятность успешного её решения ИИ-агентом сокращается до 50%.

У людей же шанс успеха плотно связан с тем, что мы замечаем и исправляем свои ошибки на разных этапах работы. Провалы ИИ-агентов возможно объяснить накоплением критических ошибок в цепочке подзадач: чем дольше задача, тем больше её компонентов требуется выполнить без ошибок. В случае критически важных задач (например, медицинских) даже современные ИИ-агенты пригодны только для коротких операций. Однако, как подчеркивает Орд, согласно результатам исследования организации METR — которая занимается разработкой и оценкой способности ИИ-систем выполнять сложные задачи — максимальная длительность задач, которые агенты могут решать с 50% успехом, удваивается каждые семь месяцев.

Beeline Cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще есть у нас в блоге: