
На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили.
Я открыл логи Hermes Agent и нашёл то, о чём не знал: блок auxiliary: с двенадцатью фоновыми задачами. Сжатие контекста, извлечение из веба, vision, поиск по сессиям, подбор навыков — всё это молча запускалось при каждом моём сообщении. Каждая задача стояла на provider: auto. И поскольку у меня не было ключей для цепочки fallback, каждая молча откатывалась на kimi-k2.6, мою основную модель на триллион параметров.
Я понятия не имел, что это происходит. Пока я печатал одно сообщение, агент отправлял одиннадцать других в фоне — через ту же модель, из той же квоты, не показывая мне промпты. Только сжатие контекста срабатывало 10–20 раз за длинную сессию, каждый раз отправляя всю историю.
Решение
Вот что я изменил в блоке auxiliary: файла ~/.hermes/config.yaml. Полный YAML — в разделе Полный конфиг ниже.
Применяется через /reset или перезапуск Hermes. Изменения вступают в силу только для новых сессий.
Как работает роутинг

Двенадцать задач раньше сваливались в одну модель на триллион параметров. Теперь распределены по шести моделям — от 8B до 1T.
Как работает provider: auto
Я прочитал десятки гайдов по Hermes — ни в одном не упоминается блок auxiliary. Официальная документация описывает структуру YAML, но нет предупреждения, что provider: auto молча откатывается на основную модель. Нашёл только одно видео от AI Garage на эту тему — больше ничего. Цепочка такая: openrouter → new portal → codex → gemini flash. Если ни у одного бэкенда нет настроенного ключа, система возвращается к основной модели чата.
Мой каталог Ollama Cloud Pro
У меня подписка Ollama Cloud Pro. Вот модели из каталога, которые имеют значение для роутинга:
Модель |
Размер |
Сильная сторона |
Лучше всего для |
|---|---|---|---|
|
~1T параметров, 256K контекст |
Рассуждения, архитектура, отладка |
Только основной чат |
|
~1T параметров |
То же семейство, оптимизирована под длинный контекст |
Суммаризация, сжатие |
|
235B параметров |
Мультимодальная (vision + текст) |
Скриншоты, анализ изображений |
|
~20B параметров |
Быстрая, хороша на структурированный вывод |
Проверки безопасности, классификация |
|
12B параметров |
Лёгкая, быстрая |
Триаж, профиль |
|
8B параметров |
Самая дешевая в каталоге |
Заголовки, поиск, навыки |
|
2B параметров |
Самая маленькая |
Не используется — слишком слабая |
Я использовал доступные модели из каталога и настроил их для двенадцати вспомогательных задач. Результат тестирования — ниже.
Двенадцать фоновых задач
# |
Задача |
Что делает |
Почему дорого |
|---|---|---|---|
1 |
|
Сжимает переполненный контекст |
10–20 раз за сессию. Вся история каждый раз. |
2 |
|
Очищает HTML после |
На каждый поиск. |
3 |
|
Обрабатывает скриншоты |
Мультимодальные токены дороже. |
4 |
|
Записывает факты в память при |
При каждом завершении сессии. |
5 |
|
Разбивает Kanban-задачи на шаги |
Средняя сложность. |
6 |
|
Анализирует качество и дубли навыков |
Тяжёлый анализ. |
7 |
|
Ищет по прошлым сессиям |
При поиске по истории. |
8 |
|
Подбирает навык под запрос |
На почти каждый вопрос. |
9 |
|
Классифицирует входящие сообщения |
Бинарная классификация. |
10 |
|
Проверка перед терминалом |
Простое да/нет. |
11 |
|
Генерирует биографию профиля |
Редкая, лёгкая. |
12 |
|
Автоматически именует сессии |
Тривиальная, постоянно. |
Как я распределил модели по задачам
Логика: поставить на задачу самую лёгкую модель, которая не ломается, и оставить k2.6 только для настоящих разговоров.
Задача |
Модель |
Почему именно она |
|---|---|---|
Основной чат |
|
Архитектура, отладка, обсуждение. Единственная задача, которая реально нуждается в триллионе параметров. |
Сжатие, web_extract, kanban, curator |
|
То же семейство Kimi, оптимизировано под длинный контекст. Качество сводок остаётся высоким. |
Vision |
|
Единственная мультимодальная модель в каталоге. Альтернатив нет. |
Классификация, профиль |
|
12 млрд против триллиона. Классификация и генерация био не требуют глубины рассуждений. |
Проверка безопасности |
|
Бинарная проверка. Важнее скорость ответа. |
Заголовки, поиск, навыки, MCP |
|
8 млрд параметров. В 125 раз легче k2.6. Основная экономия здесь — они запускаются постоянно. |
Первая попытка: локальные модели
Я работаю на ноутбуке RTX 5070 Ti, 8 ГБ VRAM. Одна модель на 6 млрд параметров помещается. Две — на грани. Каждый раз, когда Hermes переключался с сжатия на проверку безопасности, Ollama выгружал одну модель и загружал другую. Пять–десять секунд простоя, а это неприятно, потому что у меня настроены агенты и к концу дня это может привести к неприятным последствиям. Вдобавок вентилятор гудел. В результате от локальных моделей в auxiliary отказался в тот же день, я хотел ставить на них незначительные процессы, но даже это повлекло за собой проблемы, если характеристики вашего железа лучше, думаю, этот вариант будет более разумным
Цифры
Задача |
До (по умолчанию) |
После (роутинг) |
Уменьшение |
|---|---|---|---|
Заголовки, поиск, навыки, MCP |
|
|
В 125 раз легче |
Классификация, профиль |
|
|
В 83 раза легче |
Проверка безопасности |
|
|
В 50 раз легче |
Сжатие, web_extract |
|
|
Освобождает k2.6 для чата |
Vision |
|
|
Специализированная мультимодальная |
В видео AI Garage автор замерил стоимость сжатия: Claude Opus при контексте 50K = 13 центов за проход. Kimi K2 для той же задачи = 1.9 цента. Снижение на 85% за один проход. Для активных пользователей сжатие срабатывает 10–20 раз в день. По оценке автора: со стандартными настройками только сжатие может стоить $60 в месяц на Claude Opus. Перенаправленное на более дешёвую модель — $9 в месяц.
К сожалению точную экономию в долларах для Ollama Cloud я подтвердить не могу — они не выдают цену за вызов. Но разница в масштабе однозначна.
Что изменилось
Компонент |
Статус |
Примечания |
|---|---|---|
Тяжёлые задачи на k2.5 |
Работает |
Сжатие и web_extract больше не блокируют основную модель |
Vision на qwen3-vl |
Работает |
Единственная доступная мультимодальная опция |
Средние задачи на gemma3:12b |
Работает |
Классификация и профиль |
Проверка safety на deepseek-v4-flash |
Работает |
Быстрые бинарные решения |
Лёгкие задачи на rnj-1:8b |
Работает |
Заголовки, поиск, навыки, MCP |
|
Готово |
Явный провайдер на каждой задаче |
Локальные модели в auxiliary |
Отказано |
Конфликт VRAM на 8 ГБ ноутбуке |
Подсчёт стоимости по задачам |
Невозможен |
Ollama Cloud не выдаёт цену за вызов |
Сессии больше не останавливаются и счётчик токенов перестал монополизировать k2.6.
Полный конфиг
Вот полный блок auxiliary: из моего ~/.hermes/config.yaml:
auxiliary: compression: provider: ollama-cloud model: kimi-k2.5 timeout: 120 web_extract: provider: ollama-cloud model: kimi-k2.5 timeout: 360 kanban_decomposer: provider: ollama-cloud model: kimi-k2.5 timeout: 180 curator: provider: ollama-cloud model: kimi-k2.5 timeout: 600 vision: provider: ollama-cloud model: qwen3-vl:235b-instruct timeout: 120 download_timeout: 30 triage_specifier: provider: ollama-cloud model: gemma3:12b timeout: 120 profile_describer: provider: ollama-cloud model: gemma3:12b timeout: 60 approval: provider: ollama-cloud model: deepseek-v4-flash timeout: 30 title_generation: provider: ollama-cloud model: rnj-1:8b timeout: 30 session_search: provider: ollama-cloud model: rnj-1:8b timeout: 30 max_concurrency: 3 skills_hub: provider: ollama-cloud model: rnj-1:8b timeout: 30 mcp: provider: ollama-cloud model: rnj-1:8b timeout: 30
Как проверить у себя
Если вы используете Hermes Agent и никогда не трогали блок auxiliary::
hermes config edit
Найдите auxiliary:. Поставьте конкретный provider и model для каждой задачи — ту, которая справляется, но не тянет за собой лишние параметры. Сохраните. /reset. Основная модель перестанет съедать весь токен-бюджет. Если ваша основная модель — Claude или другая frontier-модель, настройка auxiliary ещё важнее. По умолчанию каждая фоновая задача наследует её, и вы платите premium-цену за сжатие контекста и генерацию заголовков.
Какой роутинг используете вы? Пишите в комментариях.
Если интересуетесь AI-агентами, автоматизацией рабочих процессов и конфигурации LLM — подписывайтесь на канал. Там регулярно: сырые заметки по архитектуре агентов и доработки под себя
? Telegram-канал — @azamat_dasein