LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры.

Поэтому всё чаще возникает идея: а что если запускать агентов на своём сервере — локально или на VPS?

Разберёмся, как это сделать, какое железо для этого нужно и почему такие сценарии могут быть выгодны не только пользователям, но и самим хостерам.

На практике это выглядит достаточно просто: агент запускается на удалённом сервере, а пользователь подключается к нему по SSH или через веб-интерфейс. При этом сами модели могут быть как облачными, так и локальными — в зависимости от задач и доступных ресурсов.

В качестве такой инфраструктуры обычно используют VPS в зарубежных дата-центрах: это позволяет избежать ограничений по доступу (например, Claude Code заблокировал доступ для пользователей из России) и при этом не требует покупки собственного железа (что сейчас очень актуально). По сути, это тот же «личный сервер», но можно быстро масштабироваться и не надо тратить деньги на обслуживание.

Многие хостинг-провайдеры уже подстраиваются под этот сценарий и предлагают VPS в разных юрисдикциях — с возможностью быстро развернуть сервер под такие задачи и работать с ним из любой точки. Например, RUVDS предлагает VPS в зарубежных дата-центрах Швейцарии, Нидерландов, Турции, Великобритании и Казахстана:

Если мы берём Claude Code, для агента подойдёт стандартный VPS с минимальным объёмом памяти и CPU, потому что консольный клиент работает с удалённым облачным сервером. На практике комфортный минимум — это несколько гигабайт RAM и 1–2 vCPU.

Запуск агента на VPS даёт ряд преимуществ:

  • обход ограничений для пользователей из России;

  • постоянный доступ к агенту 24/7 с любого устройства, в том числе со смартфона;

  • безопасная песочница: даже при работе с максимальными разрешениями агент ничего не сотрёт и не испортит на личном ПК, только на VPS.

Однако дальше возникает логичный вопрос: какие ресурсы вообще нужны для такой схемы? Всё зависит от того, используете ли вы облачные модели или запускаете LLM локально. Во втором случае требования к железу становятся заметно выше.

Arm-серверы для ИИ-агентов

Для запуска локальных LLM нужны специализированные серверы со специализированным железом. В идеале — с топовыми GPU типа Nvidia H200. Но можно выбрать и более бюджетные варианты, тем более агенты работают на любом железе (об этом ниже).

Индустрия микроэлектроники чутко реагирует на спрос — и выпускает всё больше CPU и ускорителей для ИИ-приложений. Например, компания Arm недавно представила серверный процессор Arm AGI «для серверов с ИИ-агентами». В данном случае аббревиатура AGI означает “Agentic AI Infrastructure”, а не «общий интеллект».

Arm AGI — первый собственный процессор компании Arm за 35-летнюю историю
Arm AGI — первый собственный процессор компании Arm за 35-летнюю историю

Заявляется, что CPU на ядрах Arm Neoverse V3 по производительности на стойку превосходит серверные x86-процессоры благодаря архитектуре памяти и быстрой шине ввода-вывода. Arm AGI не создан конкретно для ИИ-вычислений, однако в нынешней рыночной конъюнктуре эти процессоры с хорошей масштабируемостью и параллелизацией удобно позиционировать как «ИИ-процессоры». Сегодня многие продукты добавляют в название “AI”, “AGI”, “Agentic” и прочее, это благоприятно действует на инвесторов.

В каждом CPU упаковано до 136-ти ядер Arm Neoverse V3 на частоте до 3,7 ГГц, пропускная способность памяти 6 ГБ/с (задержка менее 100 нс), кэш 2 МБ на ядро. В плане ввода-вывода поддерживается 96 линий PCIe Gen 6 и расширение памяти CXL 3.0. TDP 300 Вт
В каждом CPU упаковано до 136-ти ядер Arm Neoverse V3 на частоте до 3,7 ГГц, пропускная способность памяти 6 ГБ/с (задержка менее 100 нс), кэш 2 МБ на ядро. В плане ввода-вывода поддерживается 96 линий PCIe Gen 6 и расширение памяти CXL 3.0. TDP 300 Вт

Образец блейд-сервера в одном юните содержит два чипа с выделенной памятью и вводом-выводом, что в сумме даёт 272 ядра на сервер, память DDR5-8800 (до 6 ТБ на чип). Такие серверы предназначены для полного заполнения стандартной 36 кВт стойки с воздушным охлаждением: 30 блейдов обеспечивают в общей сложности 8160 ядер. В такой серверной стойке можно разместить несколько тысяч клиентских VPS с ИИ-агентами. Примерно так выглядят серверы для ИИ-агентских вычислений в дата-центрах будущего.

Arm также сотрудничала с Supermicro над разработкой конструкции с жидкостным охлаждением мощностью 200 кВт, которая может разместить 336 процессоров Arm AGI с более чем 45 000 ядами.

В такой конфигурации Arm AGI обеспечивает лучшую производительность на стойку, по сравнению с системами x86. По информации Arm, процессоры x86 деградируют, когда ядра максимально нагружены при длительной параллельной нагрузке, и там меньше пропускная способность памяти.

Локальные LLM на сервере

Как упоминалось выше, для запуска локальных LLM нужны серверы со специализированным железом. В идеале — с топовыми Nvidia H200. Мало кто из обычных пользователей может позволить себе такой сервер. А вот крупная хостинг-компания — может. И сдавать его в аренду своим клиентам. Таким образом, клиенты получат относительно безопасную и недорогую альтернативу облачным LLM.

В интернете можно найти много инструкций, как поднять свой LLM-сервер и работать локально. Для локального инференса используется движок llama.cpp, графические оболочки Ollama и LM Studio или универсальный интерфейс OpenRouter. Все опенсорсные модели можно свободно скачать с Hugging Face, из каталога Ollama Library (готовые GGUF, оптимизированные под Ollama), коллекций Unsloth (ускоренные и дообученные модели) и др.

LM Studio
LM Studio

Утилита llmfit показывает список моделей, которые можно запустить на машине, исходя из текущей конфигурации CPU/RAM/GPU, аналогичную информацию выдаёт сервис Can I Run AI locally?.

Через Ollama запускаются не только локальные модели, но и другие приложения, облачные сервисы и агенты, в том числе Claude Code и OpenClaw, всего более 40 тыс. интеграций с разными инструментами.

В документации см. советы, какие модели лучше использовать для каждого инструмента. На Хабре много полезных статей на эту тему.

Ollama интегрируется с разными IDE, так что в них можно выбрать локальные модели для использования. Например, настройка VS Code:

Сначала загружаем модели Ollama в VS Code, а потом выбираем из них подходящую:

Или можно запустить локальную модель Ollama в VS Code прямо из командной строки:

ollama launch vscode --model qwen3.5:cloud

Что касается установки локальных моделей на VPS, то процесс принципиально ничем не отличается от установки на локальном ПК. Вот инструкция по установке Ollama на сервере:

curl -fsSL https://ollama.com/install.sh | sh

Установка LM Studio на сервер:

curl -fsSL https://lmstudio.ai/install.sh | bash

Какой должен быть сервер для LLM

Вот примеры оптимальных конфигураций сервера для разных моделей:

Llama 3.1 70B

  • CPU: 32+ ядер

  • RAM: 256GB DDR5

  • GPU: 4× NVIDIA H100 80GB

  • SSD: 1TB+ NVMe, + 4TB+ HDD для хранения моделей

Оценочная производительность, бенчмарки:

  • Q4_K_M: ~15-25 ток/с

  • Q8_0: ~10-18 ток/с

  • FP16: ~5-10 ток/с

Mistral 7B

  • CPU: 16 ядер

  • RAM: 32GB DDR5

  • GPU: 1× NVIDIA RTX 4090 24GB

  • SSD: 250GB+ NVMe

Оценочная производительность, бенчмарки:

  • Q4_K_M: ~80-120 ток/с

  • Q8_0: ~60-90 ток/с

  • FP16: ~30-50 ток/с

Такие VPS вполне можно сдавать пользователям в аренду, и для клиентов во многих случаях это тоже будет выгоднее, чем поддерживать собственный сервер или подписываться на платные облачные сервисы.

Некоторые западные хостеры уже предлагают нечто подобное для LLM, даже дают VPS с уже установленными моделями. Возможно, за этим будущее. Вполне вероятно, что такая практика будет расширяться, поскольку спрос есть.

Для таких сценариев важную роль играют техники оптимизации LLM — например, TurboQuant, которые позволяют запускать более крупные модели на ограниченных ресурсах. Параллельно растёт интерес к более компактным моделям с низкой стоимостью инференса, которые в ряде задач (например, программировании) уже конкурируют с более дорогими решениями.

Например, вот оценка стоимости решения задач агента ATLAS на своём сервере с RTX 5060 Ti 16GB, 16 ГБ RAM, ОС RHEL 9 (Proxmox VM) и локальной моделью Qwen3-14B-Q4_K_M, по сравнению со стоимостью API облачных моделей, в задачах LiveCodeBench v5 на программирование:

Система

LCB pass@1

Средняя цена на задачу

Примечание

DeepSeek V3.2 Reasoning

86,2%

~$0,002

API, один запуск

GPT-5 (high)

84,6%

~$0,043

API, один запуск

ATLAS V3 (pass@1-v(k=3))

74,6%

~$0,004

Только электричество, лучший из трёх + конвейер исправлений

Claude 4.5 Sonnet

71,4%

~$0,066

API, один запуск

Claude 4 Sonnet

65,5%

~$0,066

API, один запуск

В данном случае сервер с дешёвой видеокартой за $500 превосходит по качеству программирования платный Claude 4.5 Sonnet. О стоимости нечего и говорить: на локальном сервере расходы только на электричество, поэтому цена на порядок ниже.

Прогноз на будущее

В будущем инфраструктура VPS для LLM будет расширяться. Наверняка появится больше специализированного серверного железа: ARM-процессоры, ускорители NPU и TPU. Экосистема инструментов продолжит развиваться бурными темпами. Мы уже видим многочисленные фреймворки для работы с агентами (LangChain, LlamaIndex) и надстройки более высокого уровня вроде CrewAI и AutoGen, в которых программные агенты работают почти как обычные сотрудники, а создаются одним нажатием кнопки:

Появились даже отдельные сервисы для генерации аватаров к созданным агентам:

В общем, индустрия бурно развивается. Уже несколько месяцев в списке самых популярных репозиториев Github за неделю — практически только агенты, за редкими исключениями.

© 2026 ООО «МТ ФИНАНС»

Комментарии (4)


  1. psemilanceata
    06.05.2026 09:00

    Цифры красивые, вот только с трудом верится, что локальная открытая модель, да ещё и на таком железе будет кодить лучше клауда. На деле ведут себя зачастую странно и нередко даже не совсем адекватно в задачах, по крайней мере в кодинге.


    1. burandby
      06.05.2026 09:00

      Я бы сказал что сейчас в кодинг умеет mimo 2.5 и kimi 2.6 +- на уровне гпт, не Клауда. А модели раньше можно даже не смотреть, они даже с 3.5 еле конкурируют.


  1. steus_au
    06.05.2026 09:00

    арендовать gpu сильно проще


  1. Mersavets
    06.05.2026 09:00

    Как понять что статья иишная, квен3. 5, клауд 4..