Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.

Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.

Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.


Ollama скачивают 52 миллиона раз в месяц. Рост в 520 раз за 3 года. Нарратив один: “no subscription fees”, “inference is free”, “eliminates API costs”. Разберём эту бесплатность.

Видеокарта для 7B-модели: $180-220 за б/у RTX 3060. Для 27-32B: $800-1000 за б/у RTX 3090. И это открытые модели, не frontier. Frontier-модели (Claude Sonnet, Opus, DeepSeek V4) локально не запустишь вообще: они либо закрытые, либо требуют сотни гигабайт VRAM. То есть ты платишь за железо и получаешь модели слабее тех, что доступны через API за копейки.

Но дело не в цене входа. Железо устаревает за 1-2 года. Модели растут быстрее чем VRAM. Купил, настроил, привязался. Через год покупаешь снова. API не устаревает. Провайдер обновляет модели, ты платишь за использование. На дистанции 3-4 лет железо проигрывает.

Локальное железо

API

Вход

$800-1800 (1-2 карты)

$0

В месяц

$10-30 (свет + обслуживание)

$200

За 3 года

$1200-2900

$7200

Через 2 года

Устарело, покупай снова

Новые модели бесплатно

За 3 года с апгрейдом

$2500-5000+

$7200

Амортизация

Есть. Железо теряет в цене

Нет. Платишь за использование

Моделей одновременно

1 (переключаешь)

Любое количество

Настройка

Драйверы, CUDA, конфиги

Ключ API

Шум, тепло

Да

Нет

На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза. Локальное за $2500-5000 дало одну карту, один апгрейд и кучу мороки.

И вот что забавно: на практике даже те кто купил карту, гоняют одну модель за раз и переключаются. 3 одновременно не тянет почти никто. А для серьёзной работы нужны минимум 3, разного калибра.

Локальная модель это не “бесплатно”. Это другая форма оплаты: деньгами за железо, временем за настройку, комфортом за шум и тепло. И ещё устаревание в подарок.

Есть сценарии где локальное оправдано: air-gap, compliance, NDA-код. Но это не про экономию. Это про ограничения. И даже в этих сценариях ты получаешь Qwen или Llama на все отделы, а не Opus на каждого.


А вот что я получил за API.

PKI-on-box (криптографическая система для embedded):

Метрика

Значение

Коммитов

131

PR (merged)

15

Тестов

62 contract + 15 HW

MCU-борды

3 (STM32)

Сессий с агентом

52

Дней

11

Стоимость

~3000₽

Около 3000 рублей за весь проект. Экстраполяция: трекинг был в 30 из 52 сессий, остальные по средней.

IDE (форк до рабочего прототипа):

Метрика

Значение

Сессий

20

Кредитов

2800

Дней

11

Стоимость

~5000₽

5000 рублей. Один ужин в ресторане на двоих. Убейте меня, но API это смешно дёшево. Прототип, но уже рабочий. Цель: не привязываться ни к чужой инфраструктуре, ни к чужому редактору.

Стоимость одного коммита в PKI-проекте: 23 рубля. Одной сессии: 58 рублей.

Для токенной разработки не важно, пишешь ты драйвер для STM32 или собираешь патчи для Electron. 11 дней активной работы над PKI. 11 дней над IDE. Важно сколько токенов ты тратишь и как эффективно ими управляешь.


Для бизнеса токены это уже не абстракция. Это строка в бюджете. Для команды цифры другие. $800 за карту — это на одного. Сервер на команду — несколько сотен тысяч рублей, плюс кто-то должен его обслуживать. API на 5 — те же $200/мес каждому, без железа, без обслуживания, с доступом к frontier-моделям. Компании которые сейчас закупают железо “чтобы не платить за API” через 2 года будут списывать устаревшие карты и всё равно покупать API. Те кто сразу считает токены как расходник, уже знают стоимость каждой фичи, каждого коммита, каждого проекта.

$200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.


Предыдущие публикации:

  1. Design by Contract в эпоху AI-агентов:

  2. Новый LAMP, или почему ваш Agent Pipeline — это Apache в 2006 году


P.S. Этот пост написан в кооперации с AI-агентом и обошёлся в 138 кредитов. Около 210 рублей. Чуть дороже одного коммита в PKI-проекте.

Комментарии (9)


  1. fire64
    03.05.2026 11:34

    А зачем видеокарты для нейросетей обновлять, если объема памяти текущих карт вам хватает, а принципиального роста объема в новых моделях не предвидится.

    Вы как запускали на текущих видеокартах локальные модели, так и дальше сможете их запускать.


  1. nikulin_krd
    03.05.2026 11:34

    Ну а теперь немножко разбавим влажные фантазии автора:

    1. Локальные модели сейчас приблизились по качеству к Sonnet

    2. Локальные модели обеспечивают закрытый контур безопасности, где данные компании и коммерческая тайна не улетают на чужие сервера

    3. В локальных моделях ты можешь быть уверен в постоянном качестве инференса и не зависеть от политики компании предоставляющей тебе модель за деньги, как это было с резким отупением opus4.6, что приводило к кратному увеличению траты токенов


    1. tutanhamon
      03.05.2026 11:34

      1. Локальные модели сейчас приблизились по качеству к Sonnet

      Можете посоветовать какие конкретно?


      1. nikulin_krd
        03.05.2026 11:34

        Если из тех моделей что влезут в 1 карточку, то Qwen3.6 только квантизацию ниже 4 бит лучше не брать


      1. ampir-nn
        03.05.2026 11:34

        https://huggingface.co/Qwen/Qwen3.6-27B только не ниже Q_4 - то здесь любят потестить на Q_2, VRAM минимум 40 Гб


        1. nikulin_krd
          03.05.2026 11:34

          Лучше уже в GGUF-формате от Unsloth UD-Q4-K-XL https://huggingface.co/unsloth/Qwen3.6-27B-GGUF

          И она прекрасно влезает в 3090, если еще и квантовку чуть понизить у KV или использовать TurboQuant


          1. ampir-nn
            03.05.2026 11:34

            Я это и имел в виду :)


  1. ggo
    03.05.2026 11:34

    очередной спор из разряда - железо on-premise vs cloud


  1. ampir-nn
    03.05.2026 11:34

    И вот одна из причин использования локальных llm //// Локализация и трансграничная передача: Согласно 152-ФЗ, персональные данные граждан РФ должны обрабатываться на территории России. Использование публичных облачных LLM (ChatGPT, Claude) часто означает передачу данных за рубеж, что без специальных мер нарушает закон. Скоро еще привезут законов - к бабке не ходи ...