Как мы строим клиентские стенды AI-ассистента: per-tenant overlay без форка кодовой базы / forpes.ru

Главная
Как мы строим клиентские стенды AI-ассистента: per-tenant overlay без форка кодовой базы

Как мы строим клиентские стенды AI-ассистента: per-tenant overlay без форка кодовой базы

20.05.2026 07:17

1forma 0 5900 Источник

Когда мы начали встраивать AI-агента в BPM-платформу, перед нами встала знакомая enterprise-задача: десятки клиентов, у каждого своя онтология, словарь, роли и ограничения безопасности. В одной компании «заявка на покупку» — это «реестр заявок», в другой — «карточкой закупки». Один клиент работает на изолированном контуре с локальной моделью, другой не даёт ассистенту доступ к почте и репозиториям.

Традиционный ответ — форк репозитория под каждого клиента — при масштабировании превращается в ад поддержки: багфиксы не попадают автоматически, стоимость растёт экспоненциально, качество падает. Мы решили эту проблему иначе: per-tenant overlay позволяет кастомизировать поведение агента без изменения кода.

Что такое overlay

Overlay — это конфигурация, которая загружается после базовой и переопределяет её значения. Это похоже на CSS-override для веб-страниц: есть базовый стиль, а поверх него можно добавить свои правила, которые меняют цвет, шрифт или отступы, не трогая саму разметку. В нашем случае базовая конфигурация описывает стандартное поведение AI-агента для production-версии, а overlay клиента меняет то, что нужно именно ему.

Процесс загрузки выглядит так. Сначала система загружает базовую конфигурацию из продакшна. Затем подгружается слой с подстройкой под конкретного клиента. При конфликте значений побеждает overlay. Полученная runtime-конфигурация используется для обработки всех запросов на этом стенде. Код остаётся неизменным, меняются только данные — промпты, словари, маршрутизация, параметры модели.

Точки расширения

Мы выделили четыре точки расширения, которые покрывают 90% кастомизаций, необходимых клиентам. Эти границы позволяют менять поведение агента без изменения логики кода.

Первая точка — persona_paths. Это конфигурация соответствия функциональных областей и файлов с промптами. В production-версии агент может использовать стандартные промпты для проектного управления, HR и финансов. На клиентском стенде можно переопределить пути к этим файлам, чтобы использовать кастомные промпты, учитывающие терминологию и специфику клиента. Например, вместо базового промпта для проектного менеджера загружается файл с описанием процессов и терминологии конкретной организации.

{
 "crm": [
 "clients/{client}/boxes/crm/persona-sales.md", // Кастомная экспертиза для CRM
 "boxes/crm/persona-analytics.md" // Стандартная экспертиза
 ]
}

Пример подмены промпта на кастомный уже на клиентской инсталляции

Вторая точка — root_section_map. Это маршрутизатор запросов по категориям. Когда пользователь задаёт вопрос, система определяет, к какой функциональной области он относится, и направляет его в соответствующую «коробку». В production-версии конфигурация может содержать несколько десятков записей: «управление проектами» идёт в коробку pm, «подбор персонала» — в hr, «бюджетирование» — в finance.

{
"sales": "crm", // Категория «Продажи» → коробка CRM
"clients": "crm", // Категория «Клиенты» → коробка CRM
"meetings": "crm", // Категория «Встречи» → коробка CRM
"proposals": "library" // Категория «Коммерческие предложения» → Библиотека
}

Пример маршрутизации категории

На крупном клиентском стенде конфигурация может содержать несколько тысяч записей, каждая из которых переопределяет маршрутизацию под терминологию клиента.

Третья точка — disabled_toolsets. Список инструментальных наборов, которые недоступны на площадке. Базовый набор включает десять наборов:

поиск по коду,
работа с почтой,
веб-поиск,
продажи,
персональные утилиты,
локальные MCP-серверы,
контейнеры,
интеграция с 1С,
доступ к данным,
работа с персонами.

На клиентском стенде можно отключить всё, что не соответствует требованиям безопасности или не нужно пользователю. Например, один из наших клиентов отключил восемь из десяти наборов, оставив только доступ к данным и работу с пользователями, а также Диадок через root_section_map. Это превратило многофункционального агента в специализированный ассистент для работы с документооборотом.

Четвёртая точка — model_config. Параметры модели, которые можно переопределить под клиента: провайдер, размер контекстного окна, алиас модели. В production-версии по умолчанию используется облачный провайдер вроде OpenAI с определённым контекстным окном. На клиентском стенде можно переключиться на локальный вывод, увеличить или уменьшить контекст, использовать собственную модель вместо стандартной.

Как это работает на практике

Рассмотрим конкретный пример. Наш клиент — крупная организация с чувствительными данными, которая категорически не позволяет отправлять информацию за периметр. У компании собственный инфраструктурный контур с мощными вычислительными ресурсами и развёрнутая локальная модель.

Overlay-конфигурация для этого клиента выглядит так:

В persona_paths прописаны пути к кастомным промптам для проектного управления, HR, финансов и документооборота.
В root_section_map добавлены маршрутизации для тысяч терминов, которые используются внутри организации.
В disabled_toolsets перечислены восемь наборов инструментов, которые нужно отключить.
В model_config указан провайдер local-inference, увеличенный контекст и алиас кастомной модели.

Роутер берёт ID категории вопроса, находит его в конфигурации из 3000 записей и направляет в нужную коробку. Затем через persona_paths выбирается промпт — сначала система ищет кастомный файл в директории клиента, а если его нет, использует базовый. Далее фильтруется набор инструментов и финально переопределяются параметры модели.

Как бороться с расхождениями

Главный риск кастомизации — клиентский стенд постепенно расходится с production и перестаёт принимать обновления. Чтобы этого не произошло, мы контролируем метрики совпадения кодовой базы по хэшу SHA-256. Из основных модулей агента на клиентском стенде 95% файлов полностью совпадают с production-версией. Только три файла имеют намеренные расхождения, и каждое такое изменение закреплено в deploy-tool как патч.

При запуске агента система загружает базовые настройки из ядра, затем — overlay клиента, и объединяет их. Для полей-объектов значения из overlay перезаписывают базовые, для полей-массивов — объединяются, а для вложенных параметров модели работает частичное переопределение. Промпты загружаются через запасные варианты: сначала система ищет кастомный файл по пути из overlay, а если не находит — берёт базовый из ядра.

Процесс деплоя при выпуске новой версии выглядит так: копируется production-код, применяется overlay клиента (конфигурация, промпты, патчи), запускается health-check. При следующем обновлении production свежий код автоматически подтягивается на все клиентские стенды — overlay накладывается поверх новой базовой версии.

Патчи, которые не помещаются в overlay, используются крайне редко и только по обоснованным причинам: критический багфикс, который нельзя отложить до следующего релиза, или уникальная интеграция. Каждый патч привязан к клиенту, задокументирован и не должен блокировать доставку production-обновлений.

Что можно и что нельзя менять

Через этот дополнительный слой клиент может переопределять промпты, настраивать маршрутизацию запросов, отключать инструменты по требованиям безопасности, менять параметры модели. Это покрывает подавляющее большинство потребностей в кастомизации.

Через патчи, которые применяются только по согласованию, можно вносить критические улучшения и уникальные интеграции. Патчи используются редко, тщательно документируются и не должны блокировать доставку production-обновлений.

Нельзя менять логику роутера, добавлять новые точки расширения, менять протоколы MCP или вносить изменения, которые мешают автоматическому обновлению. Эти границы чётко определены и доведены до клиентов. Если клиенту нужно что-то за пределами этих границ, это рассматривается как изменение в production-версии, которое получат все.

Метрики и roadmap

Сейчас мы работаем с десятками клиентских стендов. Среднее время деплоя на клиентский стенд не превышает пяти минут, а доставка production-обновлений автоматизирована полностью.

Per-tenant overlay позволяет одной кодовой базе работать на десятках клиентских площадок. Он закрывает 90% потребностей enterprise-кастомизации. Результат: клиент получает адаптированного ассистента, мы поддерживаем единый продукт.