Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо / forpes.ru

Главная
Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо

Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо -6

03.05.2026 11:27

Miller83 23 8900 Источник

Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.

Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.

Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.

Ollama скачивают 52 миллиона раз в месяц. Рост в 520 раз за 3 года. Нарратив один: “no subscription fees”, “inference is free”, “eliminates API costs”. Разберём эту бесплатность.

Видеокарта для 7B-модели: $180-220 за б/у RTX 3060. Для 27-32B: $800-1000 за б/у RTX 3090. И это открытые модели, не frontier. Frontier-модели (Claude Sonnet, Opus, DeepSeek V4) локально не запустишь вообще: они либо закрытые, либо требуют сотни гигабайт VRAM. То есть ты платишь за железо и получаешь модели слабее тех, что доступны через API за копейки.

Но дело не в цене входа. Железо устаревает за 1-2 года. Модели растут быстрее чем VRAM. Купил, настроил, привязался. Через год покупаешь снова. API не устаревает. Провайдер обновляет модели, ты платишь за использование. На дистанции 3-4 лет железо проигрывает.

	Локальное железо	API
Вход	$800-1800 (1-2 карты)	$0
В месяц	$10-30 (свет + обслуживание)	$200
За 3 года	$1200-2900	$7200
Через 2 года	Устарело, покупай снова	Новые модели бесплатно
За 3 года с апгрейдом	$2500-5000+	$7200
Амортизация	Есть. Железо теряет в цене	Нет. Платишь за использование
Моделей одновременно	1 (переключаешь)	Любое количество
Настройка	Драйверы, CUDA, конфиги	Ключ API
Шум, тепло	Да	Нет

На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза. Локальное за $2500-5000 дало одну карту, один апгрейд и кучу мороки.

И вот что забавно: на практике даже те кто купил карту, гоняют одну модель за раз и переключаются. 3 одновременно не тянет почти никто. А для серьёзной работы нужны минимум 3, разного калибра.

Локальная модель это не “бесплатно”. Это другая форма оплаты: деньгами за железо, временем за настройку, комфортом за шум и тепло. И ещё устаревание в подарок.

Есть сценарии где локальное оправдано: air-gap, compliance, NDA-код. Но это не про экономию. Это про ограничения. И даже в этих сценариях ты получаешь Qwen или Llama на все отделы, а не Opus на каждого.

А вот что я получил за API.

PKI-on-box (криптографическая система для embedded):

Метрика	Значение
Коммитов	131
PR (merged)	15
Тестов	62 contract + 15 HW
MCU-борды	3 (STM32)
Сессий с агентом	52
Дней	11
Стоимость	~3000₽

Около 3000 рублей за весь проект. Экстраполяция: трекинг был в 30 из 52 сессий, остальные по средней.

IDE (форк до рабочего прототипа):

Метрика	Значение
Сессий	20
Кредитов	2800
Дней	11
Стоимость	~5000₽

5000 рублей. Один ужин в ресторане на двоих. Убейте меня, но API это смешно дёшево. Прототип, но уже рабочий. Цель: не привязываться ни к чужой инфраструктуре, ни к чужому редактору.

Стоимость одного коммита в PKI-проекте: 23 рубля. Одной сессии: 58 рублей.

Для токенной разработки не важно, пишешь ты драйвер для STM32 или собираешь патчи для Electron. 11 дней активной работы над PKI. 11 дней над IDE. Важно сколько токенов ты тратишь и как эффективно ими управляешь.

Для бизнеса токены это уже не абстракция. Это строка в бюджете. Для команды цифры другие. $800 за карту — это на одного. Сервер на команду — несколько сотен тысяч рублей, плюс кто-то должен его обслуживать. API на 5 — те же $200/мес каждому, без железа, без обслуживания, с доступом к frontier-моделям. Компании которые сейчас закупают железо “чтобы не платить за API” через 2 года будут списывать устаревшие карты и всё равно покупать API. Те кто сразу считает токены как расходник, уже знают стоимость каждой фичи, каждого коммита, каждого проекта.

$200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.

Предыдущие публикации:

P.S. Этот пост написан в кооперации с AI-агентом и обошёлся в 138 кредитов. Около 210 рублей. Чуть дороже одного коммита в PKI-проекте.

Комментарии (23)

fire64
03.05.2026 11:34
#29919554
А зачем видеокарты для нейросетей обновлять, если объема памяти текущих карт вам хватает, а принципиального роста объема в новых моделях не предвидится.

Вы как запускали на текущих видеокартах локальные модели, так и дальше сможете их запускать.
1. acc0unt
  03.05.2026 11:34
  #29920566
  "Объёма памяти текущих карт хватает" - это как те 640 килобайт, которых хватит всем.
  
  Хочется более способных моделей или более длинных контекстов? Докидывай железа. При прочих равных 32B топит 4B, а KV кэш по ходу выполнения задач жирнеет и выливается из VRAM на диск, роняя скорость инференса.
  
  Когда-то и 8 ГБ за глаза хватало для запуска передовых вещей вроде Stable Diffusion 1 и GPT-2. Сейчас же энтузиасты собирают системы на 96 гигов чтобы LLM средних размеров туда влезали без неприличных уровней квантизации.
  
  И это LLM средних размеров. В лабораториях тем временем жарят вещи вроде Mythos 5 на 10T параметров.
  1. fire64
    03.05.2026 11:34
    #29921064
    Ну вы так говорите, что Nvidia вот прям в следующем релизе сделает объем 48Гб в игровой линейки, а по факту они объем памяти не сильно то увеличивают от серии к серии и в тех же RTX60XX не факт что что-то изменится...
    
    Автор то про игровые серии пишет, а не про промышленные.

nikulin_krd
03.05.2026 11:34
#29919738
Ну а теперь немножко разбавим влажные фантазии автора:
1. Локальные модели сейчас приблизились по качеству к Sonnet
2. Локальные модели обеспечивают закрытый контур безопасности, где данные компании и коммерческая тайна не улетают на чужие сервера
3. В локальных моделях ты можешь быть уверен в постоянном качестве инференса и не зависеть от политики компании предоставляющей тебе модель за деньги, как это было с резким отупением opus4.6, что приводило к кратному увеличению траты токенов
1. pkaptus
  03.05.2026 11:34
  #29919874
  Локальные модели сейчас приблизились по качеству к Sonnet
  
  Можете посоветовать какие конкретно?
  1. nikulin_krd
    03.05.2026 11:34
    #29919920
    Если из тех моделей что влезут в 1 карточку, то Qwen3.6 только квантизацию ниже 4 бит лучше не брать
    
    sergeym69
    03.05.2026 11:34
    #29920616
    До Sonnet ей очень далеко, у Qwen3.6 уровень GPT 5-mini
    
    Кстати Mistral сегодня выпустила новую модель на 108B, местами у нее уровень Qwen3.5-397B, ну и вообще у Мистрал очень неплохие модели, надо потестить возможно это лучше Qwen3.6, а Qwen надо не жлобиться и выложить новые более мощные модели
    
    nikulin_krd
    03.05.2026 11:34
    #29920672
    SWEBench Verified
    
    https://llm-stats.com/benchmarks/swe-bench-verified
  1. ampir-nn
    03.05.2026 11:34
    #29919924
    https://huggingface.co/Qwen/Qwen3.6-27B только не ниже Q_4 - то здесь любят потестить на Q_2, VRAM минимум 40 Гб
    
    nikulin_krd
    03.05.2026 11:34
    #29919942
    Лучше уже в GGUF-формате от Unsloth UD-Q4-K-XL https://huggingface.co/unsloth/Qwen3.6-27B-GGUF
    
    И она прекрасно влезает в 3090, если еще и квантовку чуть понизить у KV или использовать TurboQuant
    
    ampir-nn
    03.05.2026 11:34
    #29919948
    Я это и имел в виду :)
1. Romatio
  03.05.2026 11:34
  #29922484
  Приблизились. Какое железо надо под них, чтоб нормально тянули хотя бы 200k токенов контекста? Это не так и много для нынешних задач.

ggo
03.05.2026 11:34
#29919788
очередной спор из разряда - железо on-premise vs cloud

ampir-nn
03.05.2026 11:34
#29919966
И вот одна из причин использования локальных llm //// Локализация и трансграничная передача: Согласно 152-ФЗ, персональные данные граждан РФ должны обрабатываться на территории России. Использование публичных облачных LLM (ChatGPT, Claude) часто означает передачу данных за рубеж, что без специальных мер нарушает закон. Скоро еще привезут законов - к бабке не ходи ...

diderevyagin
03.05.2026 11:34
#29920446
$200 в месяц или карта которая устареет через год

А если учесть:
- Возможное изменение тарификации на стороне облачного оператора. Сегодня 200, а кто сказал что завтра не будет 400 ?
- Кто сказал что завтра облачный оператор будет работать вообще или для Вас ? Яркий пример ДЦ на Ближнем Востоке. Или Вас не заблокируют по непонятной хотелке
- Кто сказал что канал связи с облаком будет работать ?
- Кто сказал что мы можем передавать облаку данные проекта ? Очень много случаев, когда хозяин данных (вполне обоснованно) подозревает что передача в облако == данные утекут в 1000 мест. Сколько уже было инцидентов ...
и так далее и прочее.

Локальная инфраструктура требует вложение но - дешевле, безопаснее и гибче
1. Romatio
  03.05.2026 11:34
  #29922494
  Нормальное железо под хорошие модели стоит как автомобиль. $200 банально дешевле.

codecity
03.05.2026 11:34
#29920774
Тут основной вопрос - для разработки ты почти для всех сценариев будешь использовать лучшие модели из доступных. Нет смысла экономить на спичках, как правило.

А есть ли бесплатные аналоги топовых моделей и какое железо нужно, чтобы их запустить?
1. nikulin_krd
  03.05.2026 11:34
  #29920868
  Kimi-K2.6 из сравнимых с Opus, но там много надо памяти.
  
  для разработки ты почти для всех сценариев будешь использовать лучшие модели из доступных
  
  Локальные модели вместе с RAG и скилами вполне могут использоваться в большинстве задач

nidalee
03.05.2026 11:34
#29920980
$200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.

Это посчитали?
Форму по ссылке никто не читает даже, я гарантирую это!

Bardakan
03.05.2026 11:34
#29921570
На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза.

Давайте начнем с самого начала. Вы рассказываете что-то там про Claude. А чего вы не включили тогда в смету услуги посредников, через которых платить подписку? А стоимость vpn? А почему вы умалчиваете тот факт, что anthropic периодически банит аккаунты? А то, что постоянно режет лимиты?

Nikoteressi
03.05.2026 11:34
#29922226
Ну если мы берём кампанию, то они вполне себе могут позволить купить сервер с теми же A100 под капотом. И их хватит на долгие годы. Вряд-ли в ближайшее время появятся новые архитектуры которые A100 не будут поддерживать. Ну а для Хоум Юза можно тоже сервер купить за тысяч 20 долларов с парой штук A100 под капотом и тоже залить на годы вперёд, и хватит чтобы запустить несколько ллм одновременно... В нашем мире ничего бесплатно не бывает, к сожалению,

DasProtoss
03.05.2026 11:34
#29922248
Я перестал читать этот бред сгенерированный ИИ вот тут:

“Для 27-32B: $800-1000 за б/у >>>RTX 3090<<<”
“Железо устаревает за 1-2 года”

“Видеокарта NVIDIA GeForce RTX 3090 официально поступила в продажу 24 сентября 2020 года”
1. Romatio
  03.05.2026 11:34
  #29922516
  RTX 3090 в целом на сегодня слабая и берет только количеством vram.