Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.
Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.
Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.
Ollama скачивают 52 миллиона раз в месяц. Рост в 520 раз за 3 года. Нарратив один: “no subscription fees”, “inference is free”, “eliminates API costs”. Разберём эту бесплатность.
Видеокарта для 7B-модели: $180-220 за б/у RTX 3060. Для 27-32B: $800-1000 за б/у RTX 3090. И это открытые модели, не frontier. Frontier-модели (Claude Sonnet, Opus, DeepSeek V4) локально не запустишь вообще: они либо закрытые, либо требуют сотни гигабайт VRAM. То есть ты платишь за железо и получаешь модели слабее тех, что доступны через API за копейки.
Но дело не в цене входа. Железо устаревает за 1-2 года. Модели растут быстрее чем VRAM. Купил, настроил, привязался. Через год покупаешь снова. API не устаревает. Провайдер обновляет модели, ты платишь за использование. На дистанции 3-4 лет железо проигрывает.
Локальное железо |
API |
|
|---|---|---|
Вход |
$800-1800 (1-2 карты) |
$0 |
В месяц |
$10-30 (свет + обслуживание) |
$200 |
За 3 года |
$1200-2900 |
$7200 |
Через 2 года |
Устарело, покупай снова |
Новые модели бесплатно |
За 3 года с апгрейдом |
$2500-5000+ |
$7200 |
Амортизация |
Есть. Железо теряет в цене |
Нет. Платишь за использование |
Моделей одновременно |
1 (переключаешь) |
Любое количество |
Настройка |
Драйверы, CUDA, конфиги |
Ключ API |
Шум, тепло |
Да |
Нет |
На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза. Локальное за $2500-5000 дало одну карту, один апгрейд и кучу мороки.
И вот что забавно: на практике даже те кто купил карту, гоняют одну модель за раз и переключаются. 3 одновременно не тянет почти никто. А для серьёзной работы нужны минимум 3, разного калибра.
Локальная модель это не “бесплатно”. Это другая форма оплаты: деньгами за железо, временем за настройку, комфортом за шум и тепло. И ещё устаревание в подарок.
Есть сценарии где локальное оправдано: air-gap, compliance, NDA-код. Но это не про экономию. Это про ограничения. И даже в этих сценариях ты получаешь Qwen или Llama на все отделы, а не Opus на каждого.
А вот что я получил за API.
PKI-on-box (криптографическая система для embedded):
Метрика |
Значение |
|---|---|
Коммитов |
131 |
PR (merged) |
15 |
Тестов |
62 contract + 15 HW |
MCU-борды |
3 (STM32) |
Сессий с агентом |
52 |
Дней |
11 |
Стоимость |
~3000₽ |
Около 3000 рублей за весь проект. Экстраполяция: трекинг был в 30 из 52 сессий, остальные по средней.
IDE (форк до рабочего прототипа):
Метрика |
Значение |
|---|---|
Сессий |
20 |
Кредитов |
2800 |
Дней |
11 |
Стоимость |
~5000₽ |
5000 рублей. Один ужин в ресторане на двоих. Убейте меня, но API это смешно дёшево. Прототип, но уже рабочий. Цель: не привязываться ни к чужой инфраструктуре, ни к чужому редактору.
Стоимость одного коммита в PKI-проекте: 23 рубля. Одной сессии: 58 рублей.
Для токенной разработки не важно, пишешь ты драйвер для STM32 или собираешь патчи для Electron. 11 дней активной работы над PKI. 11 дней над IDE. Важно сколько токенов ты тратишь и как эффективно ими управляешь.
Для бизнеса токены это уже не абстракция. Это строка в бюджете. Для команды цифры другие. $800 за карту — это на одного. Сервер на команду — несколько сотен тысяч рублей, плюс кто-то должен его обслуживать. API на 5 — те же $200/мес каждому, без железа, без обслуживания, с доступом к frontier-моделям. Компании которые сейчас закупают железо “чтобы не платить за API” через 2 года будут списывать устаревшие карты и всё равно покупать API. Те кто сразу считает токены как расходник, уже знают стоимость каждой фичи, каждого коммита, каждого проекта.
$200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.
Предыдущие публикации:
P.S. Этот пост написан в кооперации с AI-агентом и обошёлся в 138 кредитов. Около 210 рублей. Чуть дороже одного коммита в PKI-проекте.
Комментарии (9)

nikulin_krd
03.05.2026 11:34Ну а теперь немножко разбавим влажные фантазии автора:
Локальные модели сейчас приблизились по качеству к Sonnet
Локальные модели обеспечивают закрытый контур безопасности, где данные компании и коммерческая тайна не улетают на чужие сервера
В локальных моделях ты можешь быть уверен в постоянном качестве инференса и не зависеть от политики компании предоставляющей тебе модель за деньги, как это было с резким отупением opus4.6, что приводило к кратному увеличению траты токенов

tutanhamon
03.05.2026 11:34Локальные модели сейчас приблизились по качеству к Sonnet
Можете посоветовать какие конкретно?

nikulin_krd
03.05.2026 11:34Если из тех моделей что влезут в 1 карточку, то Qwen3.6 только квантизацию ниже 4 бит лучше не брать

ampir-nn
03.05.2026 11:34https://huggingface.co/Qwen/Qwen3.6-27B только не ниже Q_4 - то здесь любят потестить на Q_2, VRAM минимум 40 Гб

nikulin_krd
03.05.2026 11:34Лучше уже в GGUF-формате от Unsloth UD-Q4-K-XL https://huggingface.co/unsloth/Qwen3.6-27B-GGUF
И она прекрасно влезает в 3090, если еще и квантовку чуть понизить у KV или использовать TurboQuant

ampir-nn
03.05.2026 11:34И вот одна из причин использования локальных llm //// Локализация и трансграничная передача: Согласно 152-ФЗ, персональные данные граждан РФ должны обрабатываться на территории России. Использование публичных облачных LLM (ChatGPT, Claude) часто означает передачу данных за рубеж, что без специальных мер нарушает закон. Скоро еще привезут законов - к бабке не ходи ...
fire64
А зачем видеокарты для нейросетей обновлять, если объема памяти текущих карт вам хватает, а принципиального роста объема в новых моделях не предвидится.
Вы как запускали на текущих видеокартах локальные модели, так и дальше сможете их запускать.