Я давно заметил одну и ту же схему у крупных игроков на рынке AI coding agents. Codex, Claude Code, Gemini и похожие инструменты сначала затягивают тебя дешевыми подписками за 20$ в месяц. Ты пробуешь, быстро привыкаешь, начинаешь использовать это каждый день, а потом внезапно упираешься в лимиты. После этого тебе предлагают например перейти на тариф за 200$ (ChatGPT Pro).

Я не говорю, что это плохо. Это нормальная рыночная модель. Но я для себя выработал другой способ работы с coding agents, и при таком подходе мне нет особого смысла платить за один дорогой тариф.
Я использую AI-агентов довольно строго и утилитарно.
Перед почти каждым новым запросом я очищаю историю чата (/clear), чтобы не тащить лишний контекст и не сжигать токены.
Я не даю агенту огромный список задач сразу. Только одна изолированная задача за раз. Один баг, одна доработка, один небольшой рефакторинг.
В промпте я почти всегда указываю конкретные файлы, которые надо менять. Либо даю примеры файлов, где уже есть похожая реализация, чтобы агент просто повторил нужный паттерн.
Из-за этого мне, честно говоря, стало почти все равно, каким именно агентом пользоваться: Codex, Claude Code или Gemini. При моем сценарии использования они дают примерно сопоставимый результат. Я не передаю им огромную сложную задачу в стиле "разберись во всем проекте и сделай хорошо". Я даю маленький контролируемый кусок работы, проверяю результат, прогоняю тесты, смотрю diff и только потом коммичу изменения в Git.
Но потом я пошел дальше.
Сначала я удивлялся, когда видел, что люди держат открытыми несколько окон с AI-агентами и запускают несколько задач параллельно. Потом сам начал делать так же. Обычно один агент работает над задачей примерно 3–5 минут. Поэтому сейчас я часто держу открытыми три окна одновременно. В одном Codex, во втором Claude Code, в третьем Gemini. Каждый агент работает над своей отдельной частью кодовой базы.
По ощущениям это похоже на трех middle-разработчиков, которым я раздал маленькие независимые задачи. Один чинит баг в одном модуле, второй пишет тест, третий дорабатывает соседний функционал. Я в это время проверяю результаты, принимаю или отклоняю изменения и коммичу только то, что действительно выглядит нормально.
И вот тут начинается сама экономия.
Вместо того чтобы платить 200$ за один жирный тариф, я просто взял самые дешевые подписки у разных провайдеров. Codex за 20$, Claude Code за 20$ и Gemini за 20$. Когда заканчивается лимит в одном инструменте, я переключаюсь на второй. Когда упираюсь во второй, перехожу на третий.
В итоге я трачу 60$ в месяц вместо 200$.
Понятно, что одна модель может быть на 10% умнее другой. Где-то Codex лучше понимает структуру проекта. Где-то Claude аккуратнее пишет код. Где-то Gemini быстрее справляется с простыми задачами. Но если использовать их не как "автономного senior-разработчика, которому можно отдать весь проект", а как инструменты для маленьких изолированных задач, эта разница становится не такой критичной.
Для моего workflow важнее не то, какая модель "самая умная вообще", а то, чтобы у меня всегда был доступный агент, которому можно быстро отдать небольшую задачу и через несколько минут получить diff.
В результате я получаю почти тот же практический эффект, что и от дорогого тарифа, но плачу заметно меньше.
Такой подход, конечно, подойдет не всем. Если вы хотите отдать агенту большую фичу целиком и забыть о ней на час, тогда, возможно, вам действительно важнее один максимально сильный инструмент с большим лимитом. Но если вы, как и я, используете AI coding agents как набор быстрых помощников для маленьких контролируемых задач, то подписки у нескольких провайдеров могут оказаться выгоднее одного дорогого плана.
Капитализм и конкуренция иногда работают в пользу пользователя. Главное не привязываться к одному инструменту слишком сильно.
Комментарии (13)

Ru6aKa
08.05.2026 09:21Какой-то древний подход. Сейчас используют сабагентов и умный роутинг. Главный агент (например Claude oppus) разбивает задачу на подзадачи для других агентов, доку пишет например gemini, код пишет например sonnet, мр ревьюит например deepseek, анализирует код например chatgp и так далее. Для каждой задачи/шага выбирают своего оптимального агента. И это все работает в связке, chatgp проанализировал код и отдал главному, главный прям в плане вписал какие именно файлы надо менять, чтобы кодописатель не лез в кодовую базу и ничего не анализиовал сам. Причем если например закончились токены для кодописателя sonnet, через конфигурацию идем и меняет на что-то другое.
Такой подход позволяет более равномерно утилизировать токены на всех агентах и использовать бесплатных/дешевых агентов для вспомогательных вещей, типа поиск по кодовой базе.
igumnov Автор
08.05.2026 09:21Звучит интерено - статью напишите? и с цифрами - по чем удовольствие выходит.

Ru6aKa
08.05.2026 09:21А тут и писать особо нечего, ставим opencode в виде cli или плагина для ide. Все делаете по инструкции. Если надо чтобы это все было заряжено, ставите ohmyopenagent или расширяете плагинами. Так же читаете доку на ohmyopenagent, там есть рекомендованный сетап на 30 баксов, есть описание всех моделей, и почему и для чего они были выбраны и для каких задач лучше. Что подключать зависит уже от вас, можете подключить любой провайдер, тот же openrouter или copilot c кучей моделей (если ставите ohmyopenagent то он спросит что за провайдеры нужны и сгенерирует нужную конфигурацию)
Можно использовать Claude code + proxy, через прокси подменить модели на нужные, и потом уже переключаться вручную между ними.Я бы использовал так, Claude code + proxy если именно надо все фишки Claude code, скилы, хуки, и прочие возможности. Вот статья на эту тему https://habr.com/ru/companies/yadro/articles/1029288/
Чистый opencode, если охота иметь больше контроля, и меньше тратить токенов. Всегда можно навернуть плагинов, чтобы получить например Ralph режим (это что-то типа while true; делай задачу пока все тесты не будут зелеными)
И opencode + ohmyopenagent, куча интергированных плагинов, разные агенты, автоматические режимы работы. Больше потребляет токенов.Есть и другие агенты(оркестраторы агентов) - roo, kilo, cline, но их я не пробовал.
С opencode бывают проблемы, за ним надо следить, бывает игнорирует промпт, надо повторять, бывает в авторежиме (ohmyopenagent) как будто зацикливаться на этапе планирования и его выполняет по кругу не переходя к кодингу, бывает сабтаска подвисает. В этом плане Claude code получше будет.
Есть еще get-shit-done, это полностью разработка автоматическая разработка, тоже есть возможность настраивать модели для разных задач (под капотом там pi agent). Но мне не сильно зашло, сильно много вопросов задает, результат очень зависит от того что ты отвечаешь. Создавал один и тот же проект с нуля, чуть по разному отвечал, план создания и развития проекта получался очень разный. В существующий проект интегрировалось сложно, генерит кучу документов которые забивают контекстное окно. Вообщем вещь хорошая, но не для моих задач.
Конкретно сейчас мой сетап такой opencode + ohmyopenagent и copilot за 10 баксов, поменяется тарификация или лимиты у copilot перейду что-то другое.

igumnov Автор
08.05.2026 09:21Прикольно - надо попробовать - спасибо!

igumnov Автор
08.05.2026 09:21Единственно не уверен что будет выгодно по токенам платить даже за Kimi, DeepSeek, GLM. По факту они в 5 раз дешевле за 1 млн токенов чем GPT и то что от Anthropic. Но опять же вы покупаете когда тариф с лимитами это не одно и тоже как платить за каждый токен... к томуже уровень умности у этих моделей куда ниже...


Ru6aKa
08.05.2026 09:21Переходить на оплату по токенам нужно тогда когда не влазишь в лимиты подписки. И тот же opencode(как и другие оркестратор) никак не управляет подписками, он просто подключает провайдер и дергает внутри агента нужную модель в нужно провайдере.
Объясняю на примере Copilit Pro за 10 баксов доступно 300 запросов в месяц, для Cloude Sonnet 4.6 мультипликатор 1, тоесть в месяц доступно 300 запросов, для Grok Code Fast 1 мультипликатор 0.25 тоесть всего доступно 1200 запросов в месяц.
Причем один запрос максимально 128К входящих токенов, тоесть в идеальной ситуации мы можем послать 128К * 300 токенов = 37.5M токенов. Да это все в 5 часовых лимитах и прочие ограничения.А если те же 37.5М токенов заслать через api для того же Cloude Sonnet 4.6 это 3$ за миллион токенов это уже 112.5$.
Но вот для Grok Code Fast 1 ситуация другая, можно послать 128К * 1200 токенов = 150M токенов. Через api 150M токенов для Grok Code Fast 1 обойдутся 30 баксов, по 0.2$ за миллион. Думаю что это из-за того что Microsoft вложился в Anthropic и получает ресурсы по скидки, и заинтересован в раскрутке их моделей.
У opencode go в доке написано
Бесплатные модели включают Big Pickle плюс промо-модели, доступные на данный момент, с квотой 200 запросов/день. Go включает GLM-5.1, GLM-5, Kimi K2.5, Kimi K2.6, MiMo-V2.5-Pro, MiMo-V2.5, Qwen3.5 Plus, Qwen3.6 Plus, MiniMax M2.5, MiniMax M2.7, DeepSeek V4 Pro и DeepSeek V4 Flash с более высокими квотами запросов, применяемыми в скользящих окнах (5 часов, неделя и месяц), что примерно эквивалентно $12 за 5 часов, $30 в неделю и $60 в месяц (фактическое количество запросов зависит от модели и использования).
Тоесть если посылать максимально большие запросы как в примере выше то максимум можно утилизировать на 60$, если сравнивать с ценой за токены.
Похоже что для провайдеров выгодно продавать такие планы, потому что клиенты не утилизируют все запросы по максимуму, плюс многие пользователи берут минималку чтобы просто попробовать, и в реальности не тратят даже 10$ если смотреть по цене api.
У копилота плюс что у него доступны модели Anthropic и OpenAI одновременно, и для оркестраторов это круто, потому что там где сильны модели Anthropic слабы модели от OpenAI и наоборот. Но c 1-го июня майки меняют тарификацию и вроде как мультипликаторы и надо будет смотреть выгодно будет их дальше использовать или нет.

igumnov Автор
08.05.2026 09:21Я пробовал считать это не только через цену токенов, а через реальную практику использования AI-агентов для разработки.
У меня вывод такой: не всегда выгоднее сразу уходить в API и платить по токенам. В моем сценарии часто проще и дешевле взять несколько отдельных подписок по 20$.
Например, за условные 60$ в месяц можно держать сразу три подписки: ChatGPT Plus / Codex, Claude Pro / Claude Code, Google AI Pro / Gemini.
В итоге получается не один общий лимит, а три независимых пула лимитов у разных провайдеров. Для обычной разработки это удобно: одну задачу можно дать Codex, другую Claude, третью Gemini. Где-то лучше справляется Anthropic, где-то OpenAI, где-то Gemini. При этом ты не сжигаешь деньги напрямую за каждый токен.
Я пробовал работать через токены, и там проблема в том, что математически это выглядит красиво только в идеальных расчетах. Например, можно посчитать 128k контекста, умножить на количество запросов и получить огромную цифру. Но в реальной работе ты не всегда эффективно используешь весь контекст. Часто агенту нужна одна конкретная задача: поправить баг, отрефакторить файл, написать тесты, объяснить кусок кода, проверить PR.
В таком режиме подписки оказываются очень практичными. Ты платишь фиксированную сумму, не думаешь о каждом запросе как о расходе, и можешь переключаться между сильными моделями.
Да, сравнивать подписки и API напрямую сложно. У подписок лимиты непрозрачные: там окна, мультипликаторы, ограничения по моделям и внутренние правила. Это не то же самое, что купить чистые токены через API. Но с практической точки зрения для разработчика фиксированные подписки часто дают больше пользы за те же деньги.
По поводу дешевых моделей через API у меня позиция такая: они не плохие. Qwen, Kimi, DeepSeek, GLM и другие модели иногда очень хорошо работают за свою цену. Но для сложного кодинга, архитектуры, рефакторинга, поиска багов и агентной работы топовые модели OpenAI, Anthropic и Google в среднем пока надежнее.
Поэтому я бы не сравнивал только цену за миллион токенов. Это важная метрика, но не единственная. В разработке важнее не сколько токенов ты купил, а сколько задач реально закрыл.
Для себя я пришел к такой схеме: лучше иметь несколько подписок по 20$ и использовать каждую под свои задачи, чем пытаться все время оптимизировать цену токена через API. В моем сценарии это оказалось практичнее.

Ru6aKa
08.05.2026 09:21Я бы сказал так.
Сначала начинаем с провайдеры с простой подпиской за 10/20 баксов, с 5-и часовыми лимитами и прочими ограничениями. Оптимизируем свою работу за счет умного оркестратора и нужных настроек. Дорогие модели выполняют более сложную работу, дешевые простую и с учетом особенностей моделей, в доке про ohmyopenagent можно про это почитать. Оптимизируем более сложные моменты, например, добавляем lsp сервера, mcp сервера и прочее, чтобы оркестратор например типы для typescript выводил с помощью lsp или фиксил ошибки, а не слал запросы, или mcp для индексации кодовой базы, чтобы не было кучи вызовов grep и анализа выводов этой команды.
Когда упираемся в лимиты, добавляем еще один/два провайдера с простой подпиской за 10/20 баксов. Оптимизируем роутинг, lsp, mcp.
Если опять упираемся в лимиты, то да уже переходим на оплату за API для каких-то моделей, но опять таки оптимизация тут такая же как и в предыдущих пунктах. Никто например не мешает для планировщика использовать github-copilot/claude-opus-4.6, а для кодинга, openrouter/claude-sonnet-4.6 с оплатой за токены.
С оптимизаций роутинга все просто, или делаем `bunx oh-my-openagent install` отвечаем на вопросы какие провайдеры подключены и получаем готовый конфиг с fallback или читаем доки и правим конфиг. В вот с lsp/mcp надо играться и подбирать под свои задачи и свой стек.
И еще все сильно зависит от стиля разработки, при ручной разработке, написал задачу, посмотрел diff, запустил, скинул ошибку, получил фикс довольно сложно попасть в лимиты, и токены улетают не очень сильно. При полностью автоматической разработке каждый шаг очень сильно зависит от предыдущего. Планировщик должен простой промпт преобразовать в хороший план задавая вопросы и анализируя код. От плана зависит то какие задачу каким сабагентам уйдут в работу. От того как задача поставлена сабагенту и какие lsp/mcp доступны такой и будет результат.
Я бы сказал что пока не пройдешь путь с лимитированными планами, и оптимизациями, идти в платное API смысла нету, токены будут улетать.
И еще, если проект большой, и надо модели с большим контекстом, то тут вариант только API. Если окно забито больше чем на 50% то llm начинает галлюцинировать, а на лимитированном плане копилота например всего 128К для любой модели, а через API можно получить окно 1М для Opus/Sonnet
У Вас же просто ручной роутинг без учета особенностей моделей, и вы по сути залили проблему деньгами. За 50 баксов можно взять Copilot Pro+ (40 баксов) + OpenCode Go(10 баксов) - в таком сетапе моделей будет больше(и полностью бесплатные тоже есть в этих планах) и по лимитам явно не меньше чем в Вашем сетапе. Так же явная проблема с том что качество кода всегда плавает из-за того что разные задачи идут в разные модели, с оркестратором качество +- одинаковое из-за того что этапы и модели стандартизированы.

gerbert_MX
08.05.2026 09:21что то из мира вайбкодинга
у меня параллельно codex и clode не потому что я экономлю, а потому что они оба часто впадают в маразм, урезая модели внезапно из-за чего пользоваться чем то одним нормальным нереально.
сабагенты бесполезны если модель-лидер окажется шизом с альцгеймером
а перекрестные проверки и фиксы жрут больше токенов чем просто юзать один и тот же провайдер на постоянке. в таком случае тогда лучше просто несколько по 20 иметь

tony1483
08.05.2026 09:21никто кроме сс / codex не может нормальный код писать. Я пробовал gemini cli, opencode (qwen3.6, minimax, kimi …) качество хуже / либо занимает больше времени. Проще купить нормальную подписку и добавить туда всяких оптимизаций токенов и тп

igumnov Автор
08.05.2026 09:21ну самый аутсайдер это gemini если сравнивать с codex и claud code - но работать можно... а китайский модели на сложных агентских задачах мне кажется вообще не тянут - по крайней мере те что запускались на мой 16 GB VRAM видюхе на компе - может если меть мощную видюху они тянут? где 120-200B параметров? просто такая видюха стоит явно на 1 косарь баксов
shoba
Сомнительно, ну Ок
igumnov Автор
Жень, а ты за 200 баксов купил? ))) или вообще не пользуешься ) По старинке копи-паст из ChatGPT или DeepSeek китайский? )