Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:

  • корпус или рама, например, такая (~7 тыс. руб.):

Dr. Miner
Dr. Miner
  • мат. плата + процессор + память (от 64 Гб, лучше 128 Гб, б/у - хороший вариант)

  • видеокарты, допустим 4 шт. по 24 Гб (например, AMD RX 7900 XTX по ~75 тыс. руб. на вторичке):

    AMD RX 7900 XTX
    AMD RX 7900 XTX
  • парочка блоков питания по ~1.2 кВт

  • синхронизатор блоков питания (небольшая платка, чтобы блоки питания стартовали одновременно)

  • райзеры для подключения видеокарт (бывают разные, сойдут и USB-варианты, но мы будем использовать в виде шлейфов pcie x16):

    Райзер pcie x16
    Райзер pcie x16
  • сплиттер pcie x16 на 2 по x8 или 4 по x4 (у нас ведь нет 4-х разъёмов pcie на плате, ведь так?); помните, что BIOS мат. платы должен поддерживать соответствующий режим бифуркации!

    Сплиттер pcie x16 на 4 по x4
    Сплиттер pcie x16 на 4 по x4
  • SSD/HDD по вкусу, но лучше не меньше чем на 1 TB

  • не забываем про кабели для БП (часто на БП есть выходы под новомодные 12VHPWR, но не во все видеокарты можно воткнуть такой провод - ищите 12VHPWR to 3 x 2x8pin reverse cable, если у вас на видеокарте разъёмы 2x8pin)

  • корзина для дисков, если хочется шикануть; настоящие diy-еры могут спроектировать свою:

    Корзина для дисков 2.5" (модуль)
    Корзина для дисков 2.5" (модуль)

Что получаем по итогу? Судите сами:

Топовый домашний сервер для запуска LLM массой ~10 кг
Топовый домашний сервер для запуска LLM массой ~10 кг

Что по софту?

ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

Запуск LLM: сервис на базе llama.cpp (rocm* и vulkan под капотом работают приблизительно одинаково для видеокарт AMD; vulkan чуть быстрее); можно поставить docker и запустить local AI, где удобно крутить всякое-разное, а не только LLM.

* ROCM - это аналог NVIDIA/CUDA, но для видеокарт от AMD; сейчас усиленно развивается, но пока не дотягивает до лидера; уже поддерживается много где, но не всегда успешно :)

Практический тест: qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс. токенов со встроенным MTP (это небольшая draft-модель внутри основной модели, позволяющая делать вычисления наперёд и ускоряющая работу в ~2 раза) выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

Если бюджет резиновый

GPU на таком сервере у нас будут работать последовательно. Почему? Для одновременной работы видеокарт (tensor parallelism) нужен очень быстрый обмен данными между видеокартами. А здесь у нас два варианта - либо иметь систему с несколькими линиями pcie x16 (ищи серверные процессоры со 128 линиями pcie, например, модели AMD Threadripper), либо иметь серверные видеокарты, которые имеют отдельные мостики для подключения друг к другу (например, AMD Instinct).

Если вы любите страдать

Существует софт, оптимизированный под запуск LLM (вместо llama.cpp). Например, vllm. Заставить его работать на потребительских видеокартах от AMD - проще простого (нет). А ведь мы не ищем лёгких путей. Поэтому, пусть всё же будет llama.cpp.

Что в итоге?

Сервер крутится, программировать помогает. А что ещё нужно для счастья простому программисту? :)

P.S. если купите такую раму и pcie x16 райзеры - понадобится болгарка или хотя бы хорошие ножницы по металлу. Не говорите, что я вас не предупреждал.

Комментарии (46)


  1. GoogleResearch
    29.06.2026 18:15

    Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ


  1. Void-Cowboy
    29.06.2026 18:15

    все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке

    видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год


    1. firegurafiku
      29.06.2026 18:15

      вшивание весов на уровне fpga-логики

      Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.

      Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:

      • ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,

      • ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).


      1. Void-Cowboy
        29.06.2026 18:15

        ну да, я где-то это и имел в виду

        серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно

        но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же

        но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша


      1. JerryI
        29.06.2026 18:15

        Поддерживаю!

        ПЛИС это логичный шаг, но просто нет таких плисин в размерах подходящих под нормальную сеть в рознице. Если вместо ЛЕ брать интерфейс к ddr памяти, то мы возвращаемся к архитектуре типа видеокарты. Тогда дешевле ее и взять


    1. izogfif
      29.06.2026 18:15

      видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год

      Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.


  1. savostin
    29.06.2026 18:15

    Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.

    Ну ее, эту приватность.


    1. KoIIIeY
      29.06.2026 18:15

      Я купил fevm faex 9, минипк на амд райзен 395.

      Цена вопроса около 250, 128гб озу, для одного хорошо работает.

      Сейчас сижу на дипсик 4 флэш в 2q и оно работает! Не тупит, кодит хорошо (через opencode).

      14 токенов в сек, но для личного использования вполне.


    1. 4external
      29.06.2026 18:15

      а доступность?


      1. savostin
        29.06.2026 18:15

        Я нахожусь с другой стороны файрвола. Но думаю полно всякий сервисов по улучшению доступности.


    1. ViskasSP1vom
      29.06.2026 18:15

      Локальный сервер окупается, если на нем крутятся агентные системы, делающие тысячи запросов в день. Подписки на API с такими лимитами стоят как крыло от самолета


  1. ampir-nn
    29.06.2026 18:15

    Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal


    1. Arioch
      29.06.2026 18:15

      хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
      1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
      2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора.

      ...но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.

      Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?


      1. Dreams_and_magic
        29.06.2026 18:15

        аренда v100 стоит 2 цента в час


        1. Jutqe
          29.06.2026 18:15

          от 20 центов уже. Подскажите, где 2 цента?


      1. VO_Obsidian
        29.06.2026 18:15

        FP4 и даже BF16 вообще никакой роли не играют для моделей в квантах. По ценам 32 сейчас на али с pcie адаптером 50-60к. Там больше проблема в том что не поддерживаются штуки типа flash attention, их конечно портировали умельцы, но это значит нужно использовать форки движков для инференса, возможно навайбкоженные.


  1. max9
    29.06.2026 18:15

    ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

    нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.

    и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш


    1. inklesspen
      29.06.2026 18:15

      Я думаю, вы просто не видели эту разницу. Как минимум, на северных линуксах квант времени выделяется побольше раза в 3, чтобы было меньше переключений контекста.


      1. max9
        29.06.2026 18:15

        если очень хочется поиграться шедалером это можно сделать на любом линусе, все ядра собираются одинаково в линейках убунты, там даже репы одни и те же


    1. ViskasSP1vom
      29.06.2026 18:15

      Терминал и ssh лучшие друзья для таких сборок. Если так нужен мониторинг лучше поставить нормальную веб-панель вроде Proxmox или Portainer


  1. badsynt
    29.06.2026 18:15

    Очень много статей и каналов в телеграме на эту тему.

    Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...


    1. mazdai19
      29.06.2026 18:15

      Ну это интересно. Другой вопрос, что сейчас эти серверы будут золотые.


  1. pon007
    29.06.2026 18:15

    Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.


    1. slabnoff
      29.06.2026 18:15

      Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.


  1. vazir
    29.06.2026 18:15

    А раму где такую взял? Ссылку можно?


    1. yar3333 Автор
      29.06.2026 18:15

      Брал на озоне, но там они закончились. Искать по "Корпус Dr.Miner". Конкретно у меня на 6 видеокарт, но реально скорее на 5.


      1. izogfif
        29.06.2026 18:15

        В него 6 карточек с четырехслотовым охлаждением поместится?


        1. yar3333 Автор
          29.06.2026 18:15

          Вряд ли... Входит максимум 6 двухслотовых видеокарт с промежутками по ~3 см между ними.


  1. TheSima
    29.06.2026 18:15

    ~30 токенов в секунду

    Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
    У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
    RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s


    1. punzik
      29.06.2026 18:15

      Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.


      1. TheSima
        29.06.2026 18:15

        Расскажи пожалуйста, "до 140" это на этой Qwen3.6-35B-A3B моделе, с MTP? или без? Таких цифр не видел на таком количестве слоёв


        1. punzik
          29.06.2026 18:15

          Таких цифр не видел на таком количестве слоёв

          Вчера обновил llama.cpp до версии 9837, стало ещё быстрее. Вот параметры запуска модели:

          CUDA_VISIBLE_DEVICES=0,1 llama-server --host 0.0.0.0 --port 8081 -m Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf -fitt 1024 -c 262144 -ngl 999 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4
          

          Вот лог со скоростью вывода (в основном это генерация кода, она на MTP немного быстрее, чем просто текст):

          0.57.525.739 I slot print_timing: id  3 | task 0 | n_decoded =    464, tg = 154.33 t/s, tg_3s = 154.31 t/s
          1.00.547.542 I slot print_timing: id  3 | task 0 | n_decoded =    945, tg = 156.76 t/s, tg_3s = 159.18 t/s
          1.03.564.859 I slot print_timing: id  3 | task 0 | n_decoded =   1469, tg = 162.40 t/s, tg_3s = 173.66 t/s
          1.06.568.765 I slot print_timing: id  3 | task 0 | n_decoded =   2013, tg = 167.06 t/s, tg_3s = 181.10 t/s
          1.09.573.904 I slot print_timing: id  3 | task 0 | n_decoded =   2425, tg = 161.08 t/s, tg_3s = 137.10 t/s
          1.12.586.396 I slot print_timing: id  3 | task 0 | n_decoded =   2817, tg = 155.92 t/s, tg_3s = 130.12 t/s
          1.15.589.639 I slot print_timing: id  3 | task 0 | n_decoded =   3262, tg = 154.81 t/s, tg_3s = 148.17 t/s
          1.18.591.986 I slot print_timing: id  3 | task 0 | n_decoded =   3639, tg = 151.17 t/s, tg_3s = 125.57 t/s
          

          Карты - обычные 3090 с максимальной мощностью 350Вт, включены в плату MACHINIST X99 MR9S с процессором Xeon E5-2697 v4 и 64Г оперативы.


          1. Damnt
            29.06.2026 18:15

            А из-за MTP нет проблем с постоянной потерей кэша контекста "erased invalidated context checkpoint"?


            1. punzik
              29.06.2026 18:15

              Такое было, но не из-за MTP. Лечится опцией --chat-template-kwargs '{"preserve_thinking": "True"}'. В новой версии llama.cpp появилась опция --reasoning-preserve, но я ещё не проверял.


  1. vazir
    29.06.2026 18:15

    А почему АМД? 3090 не сильно вроде дороже но сильно проще в эксплуатации


  1. Areso
    29.06.2026 18:15

    Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.

    выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

    А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.


    1. wisprp
      29.06.2026 18:15

      Кеш очень сильно помогает. С первым запросом приходится в любом случае подождать, но потом достаточно шустро работает.

      Посмотрел локальную статистику за все время - M2 MAX c oMLX выдает 51.1 tok/s генерации на Qwen3.6-35B-A3B-mxfp4 и 12.1 tok/s на Qwen3.6-27B-mxfp4 при эффективности кеша ~85%

      Греется все это, конечно, знатно.


  1. serg12345678
    29.06.2026 18:15

    игрушки для богатеньких


  1. Tetragramaton
    29.06.2026 18:15

    я бы советовал смотреть в сторону blackhole tensorent - если хочется дешевле и мощнее. но подписка сейчас дает доступ к лучшим моделям и весьма дешево.


  1. SurMaster
    29.06.2026 18:15

    на кой гуй на серверном лине я так и не понял. простите


    1. mazdai19
      29.06.2026 18:15

      Покуражиться!


      1. SurMaster
        29.06.2026 18:15

        а месье знает толк в извращениях! ))


  1. melodictsk
    29.06.2026 18:15

    Есть же проверенные ступеньки локального ии. Самый дешёвый вариант это 1) 3070м 16гб (500гб/с). Суете в систему, сколько сможете, цена 20-25тр. Очень экономичные. 2) 3090 24гб (1000 гб/с), по скорости в 2 раза быстрее и есть nvlink (для инференса не нужен). 3) 5090 32гб (1600 гб/с) суперскорость. 4) 4090 48гб (1100гб/с) и скорость высокая и памяти вагон. Если планируется ставить 3+ видеокарты, то это однозначно тредрипер или зеон. Всякие в100 и прочие амд это мусор, не тратьте деньги и время. Эпл и амд 395 тоже мимо, сильно медленно и дорого. Можете на придумывать себе другие варианты, но все они будут или дороже или медленнее.


  1. yamifa_1234
    29.06.2026 18:15

    qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс.

    Для этой модели мне кажется двух видеокарт по 24гб за глаза должно хватать. И скорость тоже должна быть приемлемой. А в таком большом контексте она не путается?


  1. VO_Obsidian
    29.06.2026 18:15

    Блин, это пока самая low effort статья про домашний "суперкомпьютер". Типа надо купить проц, мать и память, хотя бы 64 гига - отлично, замечательно, ладно точные модели но можно было хотя бы примерно сказать о какой платформе идет речь? Десктоп? HEDT/Рабочая станция? Б/У серверное?

    Если брать серверное, то найти плату с 4, а иногда более, x16 разъемами не такое сложное дело. Это намного лучше чем страдать с райзерами и бифуркацией.

    По поводу дисков, мое мнение, но если человек собирает такое, то у него наверняка дома где-то уже стоит NAS на пару (десятков) ТБ, хватит одного или двух SSD под систему.

    Брать видеокарты AMD под вычисления - осуждаю. LLM на них гоняться то будет, но запускать любые другие HPC вычисления - много боли.


  1. ViskasSP1vom
    29.06.2026 18:15

    Аренда облачных GPU пока обходится дешевле если не гонять модели 24/7