Взять и собрать ИИ-агента: редактор сценариев, мультимодальная основа и другие открытые инструменты / forpes.ru

Главная
Взять и собрать ИИ-агента: редактор сценариев, мультимодальная основа и другие открытые инструменты

Взять и собрать ИИ-агента: редактор сценариев, мультимодальная основа и другие открытые инструменты +8

17.08.2025 07:50

beeline_cloud 0 1800 Источник

Агенты — одна из горячих тем этого лета: интерес к ним существенно вырос, как и потребность в инструментах, упрощающих разработку таких систем. И мы в Beeline Cloud собрали несколько open source-проектов по теме под лицензией Apache 2.0.

Инструмент для изоляции

Первый проект в подборке — container-use. Он представляет собой инструмент для управления изолированными контейнерными средами для ИИ-агентов. Проектом занимается компания Dagger — она известна решениями для контейнеризации, включая открытую одноименную платформу для автоматизации рабочих процессов.

Если говорить о возможностях, то container-use позволяет выстроить работу ИИ-агентов особым образом, чтобы каждый из них был «привязан» к своей git-ветке. Такой подход исключает вероятность конфликтов. В основе инструмента лежит протокол MCP — открытый стандарт от специалистов из Anthropic, который помогает интеллектуальным системам обмениваться данными с внешними инструментами. Один из разработчиков container-use пояснил, почему такой протокол важен: он повышает устойчивость системы, снижает вероятность галлюцинаций и помогает «удерживать агентов в заданных рамках».

В качестве дополнительной функциональности container-use предлагает безопасную работу с секретами: API-ключами, токенами и паролями. Секреты не передаются в модель, не отображаются в логах, коде или в контексте диалога. Еще одна важная особенность инструмента — наличие системы конфигураций окружения. Для всех агентов можно задать базовую среду со стандартными утилитами и переменными (конфигурацию по умолчанию), из которой будут «стартовать» все новые процессы. Если в ходе работы ИИ-агент понимает, что ему не хватает какого-либо инструмента, он может модифицировать конфигурацию. При этом изменения не затрагивают другие среды. Такой подход позволяет разработчикам проанализировать, какие настройки оказались полезны, и по необходимости сделать их частью базовой конфигурации. Так достигается баланс между предсказуемостью и гибкостью среды, с которой может работать агент.

К недостаткам container-use можно отнести компактную документацию с небольшим количеством примеров. Хотя в ней есть инструкции по установке и быстрому старту. В любом случае проект пока находится на ранних этапах разработки — ведь первый релиз состоялся в июне этого года — и можно предположить, что он будет развиваться при участии комьюнити.

Фреймворк от создателя Spring

Embabel — это фреймворк для построения агентских цепочек на JVM. Автор проекта — Род Джонсон, создатель универсального фреймворка Spring для Java-платформы, ставшего ключевым инструментом корпоративной разработки. Что касается Embabel, то он появился из необходимости интегрировать системы ИИ в Java-экосистему. Таким образом, фреймворк рассчитан на разработчиков, которые хотят внедрить LLM-функциональность в приложения, не выходя за привычный стек.

В основе фреймворка лежит концепция Goal-Oriented Action Planning (GOAP). Так, она используется в игровой индустрии для управления поведением агентов (например, NPC в играх) через динамическое планирование последовательности действий для достижения цели, формируя так называемую «петлю Бойда». Этот подход позволяет выполнять задачи, для которых нет прописанных инструкций.

Embabel поддерживает работу с локальными и облачными моделями, что облегчает настройку под разные задачи. Однако документация может показаться запутанной, поскольку большая часть релевантной информации собрана в README-файлах нескольких репозиториев. При этом там можно найти инструкции по запуску, примеры, а также шаблоны для Java и Kotlin.

Агентная архитектура

Еще один фреймворк — Agent Development Kit (ADK) от Google для разработки, тестирования и запуска ИИ-агентов. ADK оптимизирован для работы с Gemini и экосистемой корпорации, но он все же совместим с другими решениями и платформами. Доступны два отдельных SDK: для Python и для Java.

Фреймворк появился в силу интереса к мультиагентным системам (когда один агент отвечает за обработку запросов, другой — за поиск ответов, третий — за выполнение задач) и желания упростить их разработку. Среди возможностей ADK — последовательная и параллельная оркестрация задач, интеграция с LangChain и CrewAI. Важную роль в архитектуре инструмента играют специальные модули (tools), позволяющие ИИ-агентам обращаться к внешним системам. Они бывают разных типов: встроенные (например, поиск в Google или RAG), кастомные, написанные под конкретную задачу, и third-party — из библиотек вроде LangChain или CrewAI.

Логика работы ADK построена на событиях (events) — сообщениях, фиксирующих каждый шаг агента: от вызова инструмента или до оповещений об ошибках. Благодаря событиям компоненты обмениваются данными, управляют порядком действий. Поскольку вся история взаимодействия сохраняется, легко проследить, как именно агент пришел к своему ответу — а это полезно при отладке.

Документация проекта подробная: в ней есть инструкции по настройке окружения и установке ADK, описан этап создания проекта (включая описание его структуры). Отдельный раздел посвящен настройке модели, где объясняется, как ее подключить аутентификацию. Также есть примеры тестовых запросов.

Редактор ИИ-сценариев

Sim — визуальный конструктор для ИИ-приложений, первая версия которого была представлена на GitHub в апреле 2025 года. Авторы — команда из Sim Studio, открытого сообщества, развивающего инструментарий для построения ИИ-агентов. Работа с процессами ведется с помощью графического редактора путем соединения специализированных модулей, выполняющих свои задачи. Например, блок Agent для инференса или Condition для ветвления сценариев по условиям.

Среди других возможностей конструктора — интеграция с более чем 60 сервисами: например, Gmail, Slack, Notion и Pinecone. Есть и поддержка локальных LLM.

Документация подробная: в ней авторы рассказывают о платформе, как создавать блоки и собирать рабочие процессы, настраивать связи. В ней также можно найти пример, как за 10 минут собрать первый рабочий процесс — агент для поиска информации о людях (например, соискателей). Пошагово расписан алгоритм настройки с подключением внешних сервисов и тестами.

Мультимодальная основа

Magma — мультимодальная модель от Microsoft. Она предназначена для обработки визуальных и текстовых данных, а также выполнения действий в физическом и цифровом пространствах. Данные для обучения модели размечены с использованием подходов Set-of-Mark и Trace-of-Mark. Модель обучали на видеоданных и задачах робототехники. Поэтому её используют для управления манипулятором как в симуляциях, так и в реальной жизни — например, чтобы перенести предмет с места на место. Однако после дообучения Magma может быть применима в разных задачах. Она умеет генерировать описания к изображениям и видеороликам, отвечать на вопросы по визуальной информации — то есть применима для анализа изображений, поиска объектов на видео. Еще одна важная функция — навигация по интерфейсу: Magma может понять, где находится нужная кнопка, и «нажать» на нее, как это сделал бы пользователь.

В репозитории можно найти обучающие ролики, инструкции по установке инструмента, предобработке данных, а также обучению модели. И на Hacker News проект и идею мультимодального агента, способного не только воспринимать визуальную информацию, но и выполнять действия, встретили положительно.

Однако некоторые посчитали модель довольно «сырой», ведь она медленнее промышленных систем. Здесь важно отметить, что на данный момент Magma не предназначена для коммерческого применения. В первую очередь, это исследовательский проект, направленный на развитие мультимодальных систем ИИ. Он создавался с целью ускорить прогресс в разработке интеллектуальных агентов нового поколения. Но в целом сообщество ждет улучшений Magma и надеется, что развитие проекта продолжится.

Beeline Cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще у нас есть по теме:

Как собрать ИИ-агента — открытые руководства для чтения. Мы нашли несколько материалов для тех, кто хочет понять, как устроены современные ИИ-агенты, и, возможно, создать своего. Среди них — разбор от компании Anthropic, где эксперты анализируют популярные архитектуры агентных систем: «цепочки промптов», «параллельное выполнение», «оркестратор с воркерами» и другие. Также в подборке представлено руководство Twelve-Factor Agents, основанное на принципах Twelve-Factor App для веб-разработки и SaaS, — его подготовил разработчик независимого open source проекта.
Как нейросетям перестать бояться и полюбить «синтетику». Разбираемся, какие риски скрывают синтетические датасеты. С одной стороны, они помогают генерировать данные, которые сложно собрать в реальных условиях. С другой — исследователи предупреждают, что «синтетика» может содержать шумы и в перспективе приводить к схлопыванию моделей — когда система ИИ начинает серьезно галлюцинировать и буквально «терять связь с реальностью».
Интернет против капчи: есть ли будущее у тестов вроде «найдите все картинки с велосипедами»? В профессиональном сообществе всё чаще говорят о том, что капчи с поиском мотоциклов и светофоров больше неэффективны. Исследователи из различных университетов подтверждают это, создавая ботов, которые обходят такую защиту без особого труда. В статье рассматриваем несколько новых способов идентифицировать людей: от физических проверок до решений на базе блокчейна. А также обсуждаем, как быть, если в ближайшем будущем основными «пользователями» сайтов и сервисов станут ИИ-агенты.