Дело на вечер: собираем домашний ИИ-сервер / forpes.ru

Главная
Дело на вечер: собираем домашний ИИ-сервер

Дело на вечер: собираем домашний ИИ-сервер +15

29.06.2026 18:06

yar3333 46 15000 Источник

Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:

корпус или рама, например, такая (~7 тыс. руб.):

мат. плата + процессор + память (от 64 Гб, лучше 128 Гб, б/у - хороший вариант)
видеокарты, допустим 4 шт. по 24 Гб (например, AMD RX 7900 XTX по ~75 тыс. руб. на вторичке):

AMD RX 7900 XTX
парочка блоков питания по ~1.2 кВт
синхронизатор блоков питания (небольшая платка, чтобы блоки питания стартовали одновременно)
райзеры для подключения видеокарт (бывают разные, сойдут и USB-варианты, но мы будем использовать в виде шлейфов pcie x16):

Райзер pcie x16

сплиттер pcie x16 на 2 по x8 или 4 по x4 (у нас ведь нет 4-х разъёмов pcie на плате, ведь так?); помните, что BIOS мат. платы должен поддерживать соответствующий режим бифуркации!

Сплиттер pcie x16 на 4 по x4
SSD/HDD по вкусу, но лучше не меньше чем на 1 TB
не забываем про кабели для БП (часто на БП есть выходы под новомодные 12VHPWR, но не во все видеокарты можно воткнуть такой провод - ищите 12VHPWR to 3 x 2x8pin reverse cable, если у вас на видеокарте разъёмы 2x8pin)
корзина для дисков, если хочется шикануть; настоящие diy-еры могут спроектировать свою:

Корзина для дисков 2.5" (модуль)

Что получаем по итогу? Судите сами:

Топовый домашний сервер для запуска LLM массой ~10 кг

Что по софту?

ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

Запуск LLM: сервис на базе llama.cpp (rocm* и vulkan под капотом работают приблизительно одинаково для видеокарт AMD; vulkan чуть быстрее); можно поставить docker и запустить local AI, где удобно крутить всякое-разное, а не только LLM.

* ROCM - это аналог NVIDIA/CUDA, но для видеокарт от AMD; сейчас усиленно развивается, но пока не дотягивает до лидера; уже поддерживается много где, но не всегда успешно :)

Практический тест: qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс. токенов со встроенным MTP (это небольшая draft-модель внутри основной модели, позволяющая делать вычисления наперёд и ускоряющая работу в ~2 раза) выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

Если бюджет резиновый

GPU на таком сервере у нас будут работать последовательно. Почему? Для одновременной работы видеокарт (tensor parallelism) нужен очень быстрый обмен данными между видеокартами. А здесь у нас два варианта - либо иметь систему с несколькими линиями pcie x16 (ищи серверные процессоры со 128 линиями pcie, например, модели AMD Threadripper), либо иметь серверные видеокарты, которые имеют отдельные мостики для подключения друг к другу (например, AMD Instinct).

Если вы любите страдать

Существует софт, оптимизированный под запуск LLM (вместо llama.cpp). Например, vllm. Заставить его работать на потребительских видеокартах от AMD - проще простого (нет). А ведь мы не ищем лёгких путей. Поэтому, пусть всё же будет llama.cpp.

Что в итоге?

Сервер крутится, программировать помогает. А что ещё нужно для счастья простому программисту? :)

P.S. если купите такую раму и pcie x16 райзеры - понадобится болгарка или хотя бы хорошие ножницы по металлу. Не говорите, что я вас не предупреждал.

Комментарии (46)

GoogleResearch
29.06.2026 18:15
#30167722
Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ

Void-Cowboy
29.06.2026 18:15
#30167758
все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке

видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
1. firegurafiku
  29.06.2026 18:15
  #30168252
  вшивание весов на уровне fpga-логики
  
  Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.
  
  Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:
  
  ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,
  
  ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).
  1. Void-Cowboy
    29.06.2026 18:15
    #30168258
    ну да, я где-то это и имел в виду
    
    серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно
    
    но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же
    
    но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша
  1. JerryI
    29.06.2026 18:15
    #30169542
    Поддерживаю!
    
    ПЛИС это логичный шаг, но просто нет таких плисин в размерах подходящих под нормальную сеть в рознице. Если вместо ЛЕ брать интерфейс к ddr памяти, то мы возвращаемся к архитектуре типа видеокарты. Тогда дешевле ее и взять
1. izogfif
  29.06.2026 18:15
  #30168284
  видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
  
  Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.

savostin
29.06.2026 18:15
#30167814
Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.

Ну ее, эту приватность.
1. KoIIIeY
  29.06.2026 18:15
  #30168742
  Я купил fevm faex 9, минипк на амд райзен 395.
  
  Цена вопроса около 250, 128гб озу, для одного хорошо работает.
  
  Сейчас сижу на дипсик 4 флэш в 2q и оно работает! Не тупит, кодит хорошо (через opencode).
  
  14 токенов в сек, но для личного использования вполне.
1. 4external
  29.06.2026 18:15
  #30168960
  а доступность?
  1. savostin
    29.06.2026 18:15
    #30168972
    Я нахожусь с другой стороны файрвола. Но думаю полно всякий сервисов по улучшению доступности.
1. ViskasSP1vom
  29.06.2026 18:15
  #30170980
  Локальный сервер окупается, если на нем крутятся агентные системы, делающие тысячи запросов в день. Подписки на API с такими лимитами стоят как крыло от самолета

ampir-nn
29.06.2026 18:15
#30167856
Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal
1. Arioch
  29.06.2026 18:15
  #30168280
  хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
  1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
  2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора.
  
  ...но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.
  
  Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?
  1. Dreams_and_magic
    29.06.2026 18:15
    #30168482
    аренда v100 стоит 2 цента в час
    
    Jutqe
    29.06.2026 18:15
    #30168992
    от 20 центов уже. Подскажите, где 2 цента?
  1. VO_Obsidian
    29.06.2026 18:15
    #30170350
    FP4 и даже BF16 вообще никакой роли не играют для моделей в квантах. По ценам 32 сейчас на али с pcie адаптером 50-60к. Там больше проблема в том что не поддерживаются штуки типа flash attention, их конечно портировали умельцы, но это значит нужно использовать форки движков для инференса, возможно навайбкоженные.

max9
29.06.2026 18:15
#30167900
ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.

и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш
1. inklesspen
  29.06.2026 18:15
  #30168746
  Я думаю, вы просто не видели эту разницу. Как минимум, на северных линуксах квант времени выделяется побольше раза в 3, чтобы было меньше переключений контекста.
  1. max9
    29.06.2026 18:15
    #30168974
    если очень хочется поиграться шедалером это можно сделать на любом линусе, все ядра собираются одинаково в линейках убунты, там даже репы одни и те же
1. ViskasSP1vom
  29.06.2026 18:15
  #30170994
  Терминал и ssh лучшие друзья для таких сборок. Если так нужен мониторинг лучше поставить нормальную веб-панель вроде Proxmox или Portainer

badsynt
29.06.2026 18:15
#30167904
Очень много статей и каналов в телеграме на эту тему.

Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...
1. mazdai19
  29.06.2026 18:15
  #30169380
  Ну это интересно. Другой вопрос, что сейчас эти серверы будут золотые.

pon007
29.06.2026 18:15
#30167906
Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.
1. slabnoff
  29.06.2026 18:15
  #30168056
  Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.

vazir
29.06.2026 18:15
#30167982
А раму где такую взял? Ссылку можно?
1. yar3333 Автор
  29.06.2026 18:15
  #30168010
  Брал на озоне, но там они закончились. Искать по "Корпус Dr.Miner". Конкретно у меня на 6 видеокарт, но реально скорее на 5.
  1. izogfif
    29.06.2026 18:15
    #30168304
    В него 6 карточек с четырехслотовым охлаждением поместится?
    
    yar3333 Автор
    29.06.2026 18:15
    #30168666
    Вряд ли... Входит максимум 6 двухслотовых видеокарт с промежутками по ~3 см между ними.

TheSima
29.06.2026 18:15
#30168050
~30 токенов в секунду

Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s
1. punzik
  29.06.2026 18:15
  #30168100
  Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.
  1. TheSima
    29.06.2026 18:15
    #30169112
    Расскажи пожалуйста, "до 140" это на этой Qwen3.6-35B-A3B моделе, с MTP? или без? Таких цифр не видел на таком количестве слоёв
    
    punzik
    29.06.2026 18:15
    #30169412
    Таких цифр не видел на таком количестве слоёв
    
    Вчера обновил llama.cpp до версии 9837, стало ещё быстрее. Вот параметры запуска модели:
    
    CUDA_VISIBLE_DEVICES=0,1 llama-server --host 0.0.0.0 --port 8081 -m Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf -fitt 1024 -c 262144 -ngl 999 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4
    
    Вот лог со скоростью вывода (в основном это генерация кода, она на MTP немного быстрее, чем просто текст):
    
    0.57.525.739 I slot print_timing: id 3 | task 0 | n_decoded = 464, tg = 154.33 t/s, tg_3s = 154.31 t/s 1.00.547.542 I slot print_timing: id 3 | task 0 | n_decoded = 945, tg = 156.76 t/s, tg_3s = 159.18 t/s 1.03.564.859 I slot print_timing: id 3 | task 0 | n_decoded = 1469, tg = 162.40 t/s, tg_3s = 173.66 t/s 1.06.568.765 I slot print_timing: id 3 | task 0 | n_decoded = 2013, tg = 167.06 t/s, tg_3s = 181.10 t/s 1.09.573.904 I slot print_timing: id 3 | task 0 | n_decoded = 2425, tg = 161.08 t/s, tg_3s = 137.10 t/s 1.12.586.396 I slot print_timing: id 3 | task 0 | n_decoded = 2817, tg = 155.92 t/s, tg_3s = 130.12 t/s 1.15.589.639 I slot print_timing: id 3 | task 0 | n_decoded = 3262, tg = 154.81 t/s, tg_3s = 148.17 t/s 1.18.591.986 I slot print_timing: id 3 | task 0 | n_decoded = 3639, tg = 151.17 t/s, tg_3s = 125.57 t/s
    
    Карты - обычные 3090 с максимальной мощностью 350Вт, включены в плату MACHINIST X99 MR9S с процессором Xeon E5-2697 v4 и 64Г оперативы.
    
    Damnt
    29.06.2026 18:15
    #30169748
    А из-за MTP нет проблем с постоянной потерей кэша контекста "erased invalidated context checkpoint"?
    
    punzik
    29.06.2026 18:15
    #30169952
    Такое было, но не из-за MTP. Лечится опцией --chat-template-kwargs '{"preserve_thinking": "True"}'. В новой версии llama.cpp появилась опция --reasoning-preserve, но я ещё не проверял.

vazir
29.06.2026 18:15
#30168108
А почему АМД? 3090 не сильно вроде дороже но сильно проще в эксплуатации

Areso
29.06.2026 18:15
#30168150
Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.

выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.
1. wisprp
  29.06.2026 18:15
  #30169290
  Кеш очень сильно помогает. С первым запросом приходится в любом случае подождать, но потом достаточно шустро работает.
  
  Посмотрел локальную статистику за все время - M2 MAX c oMLX выдает 51.1 tok/s генерации на Qwen3.6-35B-A3B-mxfp4 и 12.1 tok/s на Qwen3.6-27B-mxfp4 при эффективности кеша ~85%
  
  Греется все это, конечно, знатно.

serg12345678
29.06.2026 18:15
#30168536
игрушки для богатеньких

Tetragramaton
29.06.2026 18:15
#30168886
я бы советовал смотреть в сторону blackhole tensorent - если хочется дешевле и мощнее. но подписка сейчас дает доступ к лучшим моделям и весьма дешево.

SurMaster
29.06.2026 18:15
#30168918
на кой гуй на серверном лине я так и не понял. простите
1. mazdai19
  29.06.2026 18:15
  #30169376
  Покуражиться!
  1. SurMaster
    29.06.2026 18:15
    #30169978
    а месье знает толк в извращениях! ))

melodictsk
29.06.2026 18:15
#30170022
Есть же проверенные ступеньки локального ии. Самый дешёвый вариант это 1) 3070м 16гб (500гб/с). Суете в систему, сколько сможете, цена 20-25тр. Очень экономичные. 2) 3090 24гб (1000 гб/с), по скорости в 2 раза быстрее и есть nvlink (для инференса не нужен). 3) 5090 32гб (1600 гб/с) суперскорость. 4) 4090 48гб (1100гб/с) и скорость высокая и памяти вагон. Если планируется ставить 3+ видеокарты, то это однозначно тредрипер или зеон. Всякие в100 и прочие амд это мусор, не тратьте деньги и время. Эпл и амд 395 тоже мимо, сильно медленно и дорого. Можете на придумывать себе другие варианты, но все они будут или дороже или медленнее.

yamifa_1234
29.06.2026 18:15
#30170272
qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс.

Для этой модели мне кажется двух видеокарт по 24гб за глаза должно хватать. И скорость тоже должна быть приемлемой. А в таком большом контексте она не путается?

VO_Obsidian
29.06.2026 18:15
#30170428
Блин, это пока самая low effort статья про домашний "суперкомпьютер". Типа надо купить проц, мать и память, хотя бы 64 гига - отлично, замечательно, ладно точные модели но можно было хотя бы примерно сказать о какой платформе идет речь? Десктоп? HEDT/Рабочая станция? Б/У серверное?

Если брать серверное, то найти плату с 4, а иногда более, x16 разъемами не такое сложное дело. Это намного лучше чем страдать с райзерами и бифуркацией.

По поводу дисков, мое мнение, но если человек собирает такое, то у него наверняка дома где-то уже стоит NAS на пару (десятков) ТБ, хватит одного или двух SSD под систему.

Брать видеокарты AMD под вычисления - осуждаю. LLM на них гоняться то будет, но запускать любые другие HPC вычисления - много боли.

ViskasSP1vom
29.06.2026 18:15
#30170934
Аренда облачных GPU пока обходится дешевле если не гонять модели 24/7