Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:
корпус или рама, например, такая (~7 тыс. руб.):

мат. плата + процессор + память (от 64 Гб, лучше 128 Гб, б/у - хороший вариант)
-
видеокарты, допустим 4 шт. по 24 Гб (например, AMD RX 7900 XTX по ~75 тыс. руб. на вторичке):

AMD RX 7900 XTX парочка блоков питания по ~1.2 кВт
синхронизатор блоков питания (небольшая платка, чтобы блоки питания стартовали одновременно)
-
райзеры для подключения видеокарт (бывают разные, сойдут и USB-варианты, но мы будем использовать в виде шлейфов pcie x16):

Райзер pcie x16
-
сплиттер pcie x16 на 2 по x8 или 4 по x4 (у нас ведь нет 4-х разъёмов pcie на плате, ведь так?); помните, что BIOS мат. платы должен поддерживать соответствующий режим бифуркации!

Сплиттер pcie x16 на 4 по x4 SSD/HDD по вкусу, но лучше не меньше чем на 1 TB
не забываем про кабели для БП (часто на БП есть выходы под новомодные 12VHPWR, но не во все видеокарты можно воткнуть такой провод - ищите 12VHPWR to 3 x 2x8pin reverse cable, если у вас на видеокарте разъёмы 2x8pin)
-
корзина для дисков, если хочется шикануть; настоящие diy-еры могут спроектировать свою:

Корзина для дисков 2.5" (модуль)
Что получаем по итогу? Судите сами:

Что по софту?
ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС
Запуск LLM: сервис на базе llama.cpp (rocm* и vulkan под капотом работают приблизительно одинаково для видеокарт AMD; vulkan чуть быстрее); можно поставить docker и запустить local AI, где удобно крутить всякое-разное, а не только LLM.
* ROCM - это аналог NVIDIA/CUDA, но для видеокарт от AMD; сейчас усиленно развивается, но пока не дотягивает до лидера; уже поддерживается много где, но не всегда успешно :)
Практический тест: qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс. токенов со встроенным MTP (это небольшая draft-модель внутри основной модели, позволяющая делать вычисления наперёд и ускоряющая работу в ~2 раза) выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).
Если бюджет резиновый
GPU на таком сервере у нас будут работать последовательно. Почему? Для одновременной работы видеокарт (tensor parallelism) нужен очень быстрый обмен данными между видеокартами. А здесь у нас два варианта - либо иметь систему с несколькими линиями pcie x16 (ищи серверные процессоры со 128 линиями pcie, например, модели AMD Threadripper), либо иметь серверные видеокарты, которые имеют отдельные мостики для подключения друг к другу (например, AMD Instinct).
Если вы любите страдать
Существует софт, оптимизированный под запуск LLM (вместо llama.cpp). Например, vllm. Заставить его работать на потребительских видеокартах от AMD - проще простого (нет). А ведь мы не ищем лёгких путей. Поэтому, пусть всё же будет llama.cpp.
Что в итоге?
Сервер крутится, программировать помогает. А что ещё нужно для счастья простому программисту? :)
P.S. если купите такую раму и pcie x16 райзеры - понадобится болгарка или хотя бы хорошие ножницы по металлу. Не говорите, что я вас не предупреждал.
Комментарии (46)

Void-Cowboy
29.06.2026 18:15все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке
видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год

firegurafiku
29.06.2026 18:15вшивание весов на уровне fpga-логики
Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.
Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:
ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,
ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).

Void-Cowboy
29.06.2026 18:15ну да, я где-то это и имел в виду
серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно
но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же
но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша

JerryI
29.06.2026 18:15Поддерживаю!
ПЛИС это логичный шаг, но просто нет таких плисин в размерах подходящих под нормальную сеть в рознице. Если вместо ЛЕ брать интерфейс к ddr памяти, то мы возвращаемся к архитектуре типа видеокарты. Тогда дешевле ее и взять

izogfif
29.06.2026 18:15видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.

savostin
29.06.2026 18:15Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.
Ну ее, эту приватность.

KoIIIeY
29.06.2026 18:15Я купил fevm faex 9, минипк на амд райзен 395.
Цена вопроса около 250, 128гб озу, для одного хорошо работает.
Сейчас сижу на дипсик 4 флэш в 2q и оно работает! Не тупит, кодит хорошо (через opencode).
14 токенов в сек, но для личного использования вполне.

ViskasSP1vom
29.06.2026 18:15Локальный сервер окупается, если на нем крутятся агентные системы, делающие тысячи запросов в день. Подписки на API с такими лимитами стоят как крыло от самолета

ampir-nn
29.06.2026 18:15Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal

Arioch
29.06.2026 18:15хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора....но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.
Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?
VO_Obsidian
29.06.2026 18:15FP4 и даже BF16 вообще никакой роли не играют для моделей в квантах. По ценам 32 сейчас на али с pcie адаптером 50-60к. Там больше проблема в том что не поддерживаются штуки типа flash attention, их конечно портировали умельцы, но это значит нужно использовать форки движков для инференса, возможно навайбкоженные.

max9
29.06.2026 18:15ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС
нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.
и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш

inklesspen
29.06.2026 18:15Я думаю, вы просто не видели эту разницу. Как минимум, на северных линуксах квант времени выделяется побольше раза в 3, чтобы было меньше переключений контекста.

max9
29.06.2026 18:15если очень хочется поиграться шедалером это можно сделать на любом линусе, все ядра собираются одинаково в линейках убунты, там даже репы одни и те же

ViskasSP1vom
29.06.2026 18:15Терминал и ssh лучшие друзья для таких сборок. Если так нужен мониторинг лучше поставить нормальную веб-панель вроде Proxmox или Portainer

badsynt
29.06.2026 18:15Очень много статей и каналов в телеграме на эту тему.
Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...

pon007
29.06.2026 18:15Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.

slabnoff
29.06.2026 18:15Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.

TheSima
29.06.2026 18:15~30 токенов в секунду
Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s
punzik
29.06.2026 18:15Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.

TheSima
29.06.2026 18:15Расскажи пожалуйста, "до 140" это на этой Qwen3.6-35B-A3B моделе, с MTP? или без? Таких цифр не видел на таком количестве слоёв

punzik
29.06.2026 18:15Таких цифр не видел на таком количестве слоёв
Вчера обновил llama.cpp до версии 9837, стало ещё быстрее. Вот параметры запуска модели:
CUDA_VISIBLE_DEVICES=0,1 llama-server --host 0.0.0.0 --port 8081 -m Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf -fitt 1024 -c 262144 -ngl 999 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4Вот лог со скоростью вывода (в основном это генерация кода, она на MTP немного быстрее, чем просто текст):
0.57.525.739 I slot print_timing: id 3 | task 0 | n_decoded = 464, tg = 154.33 t/s, tg_3s = 154.31 t/s 1.00.547.542 I slot print_timing: id 3 | task 0 | n_decoded = 945, tg = 156.76 t/s, tg_3s = 159.18 t/s 1.03.564.859 I slot print_timing: id 3 | task 0 | n_decoded = 1469, tg = 162.40 t/s, tg_3s = 173.66 t/s 1.06.568.765 I slot print_timing: id 3 | task 0 | n_decoded = 2013, tg = 167.06 t/s, tg_3s = 181.10 t/s 1.09.573.904 I slot print_timing: id 3 | task 0 | n_decoded = 2425, tg = 161.08 t/s, tg_3s = 137.10 t/s 1.12.586.396 I slot print_timing: id 3 | task 0 | n_decoded = 2817, tg = 155.92 t/s, tg_3s = 130.12 t/s 1.15.589.639 I slot print_timing: id 3 | task 0 | n_decoded = 3262, tg = 154.81 t/s, tg_3s = 148.17 t/s 1.18.591.986 I slot print_timing: id 3 | task 0 | n_decoded = 3639, tg = 151.17 t/s, tg_3s = 125.57 t/sКарты - обычные 3090 с максимальной мощностью 350Вт, включены в плату MACHINIST X99 MR9S с процессором Xeon E5-2697 v4 и 64Г оперативы.

Damnt
29.06.2026 18:15А из-за MTP нет проблем с постоянной потерей кэша контекста "erased invalidated context checkpoint"?

punzik
29.06.2026 18:15Такое было, но не из-за MTP. Лечится опцией
--chat-template-kwargs '{"preserve_thinking": "True"}'. В новой версии llama.cpp появилась опция--reasoning-preserve, но я ещё не проверял.

Areso
29.06.2026 18:15Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.
выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).
А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.

wisprp
29.06.2026 18:15Кеш очень сильно помогает. С первым запросом приходится в любом случае подождать, но потом достаточно шустро работает.
Посмотрел локальную статистику за все время - M2 MAX c oMLX выдает 51.1 tok/s генерации на
Qwen3.6-35B-A3B-mxfp4и 12.1 tok/s наQwen3.6-27B-mxfp4при эффективности кеша ~85%Греется все это, конечно, знатно.

Tetragramaton
29.06.2026 18:15я бы советовал смотреть в сторону blackhole tensorent - если хочется дешевле и мощнее. но подписка сейчас дает доступ к лучшим моделям и весьма дешево.

melodictsk
29.06.2026 18:15Есть же проверенные ступеньки локального ии. Самый дешёвый вариант это 1) 3070м 16гб (500гб/с). Суете в систему, сколько сможете, цена 20-25тр. Очень экономичные. 2) 3090 24гб (1000 гб/с), по скорости в 2 раза быстрее и есть nvlink (для инференса не нужен). 3) 5090 32гб (1600 гб/с) суперскорость. 4) 4090 48гб (1100гб/с) и скорость высокая и памяти вагон. Если планируется ставить 3+ видеокарты, то это однозначно тредрипер или зеон. Всякие в100 и прочие амд это мусор, не тратьте деньги и время. Эпл и амд 395 тоже мимо, сильно медленно и дорого. Можете на придумывать себе другие варианты, но все они будут или дороже или медленнее.

yamifa_1234
29.06.2026 18:15qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс.
Для этой модели мне кажется двух видеокарт по 24гб за глаза должно хватать. И скорость тоже должна быть приемлемой. А в таком большом контексте она не путается?

VO_Obsidian
29.06.2026 18:15Блин, это пока самая low effort статья про домашний "суперкомпьютер". Типа надо купить проц, мать и память, хотя бы 64 гига - отлично, замечательно, ладно точные модели но можно было хотя бы примерно сказать о какой платформе идет речь? Десктоп? HEDT/Рабочая станция? Б/У серверное?
Если брать серверное, то найти плату с 4, а иногда более, x16 разъемами не такое сложное дело. Это намного лучше чем страдать с райзерами и бифуркацией.
По поводу дисков, мое мнение, но если человек собирает такое, то у него наверняка дома где-то уже стоит NAS на пару (десятков) ТБ, хватит одного или двух SSD под систему.
Брать видеокарты AMD под вычисления - осуждаю. LLM на них гоняться то будет, но запускать любые другие HPC вычисления - много боли.
GoogleResearch
Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ