В этом посте я покажу, как использовать Continue Plugin вместо GitHub Copilot, подключив к нему собственную локальную модель LLM без доступа к интернету. Такой подход обеспечивает максимальную конфиденциальность: ни IDE, ни LM Studio не имеют возможности передавать ваши файлы в облако.

Никакой сети – всё работает только в вашем компьютере.

Что такое Continue и зачем он нужен

Плагин

Функции

Как работает

Continue

Генерация кода, исправление ошибок, чат‑режим по коду

Делает запросы к выбранному LLM‑провайдеру (в нашем случае – LM Studio) через HTTP/REST на localhost.

Если вы используете GitHub Copilot, ваш код отправляется в облако.
Continue с локальной моделью никогда не покидает вашу машину.

1) Установка и настройка LM Studio

Устанавливаем LMStudio с офф сайта.

  1. Выберите Windows → скачайте LMStudio-<версия>-win64.exe.

  2. Запустите установщик, следуйте мастеру:

    • Путь установки – любой удобный (рекомендуется C:\Program Files\LM Studio).

    • Тип пользователя – выберите Developer (позволяет смотреть логи и управлять моделью).

Если вы случайно пропустили не переживайте эта плашка находится в левом нижнем углу.

Первая модель

  1. Откройте LM Studio.

  2. В строке поиска введите, например, Qwen-3.0-Coder-30B.

  3. Убедитесь, что выбран формат GGUF (быстрее и легче).

  4. Нажмите Download – модель скачается в LM Studio\llms\<название>.

  5. В меню слева выберите Models → убедитесь, что галочка стоит рядом с вашей моделью.

При поиске вам отобразятся дополнительные параметры главные из которых запустится ли вообще данная ИИ на вашем ПК.
При поиске вам отобразятся дополнительные параметры главные из которых запустится ли вообще данная ИИ на вашем ПК.


Если она не подойдет как правило система сама напишет так что переживать не стоит.
Если она не подойдет как правило система сама напишет так что переживать не стоит.
Выбираем необходимую модель и переходим в настройки.
Выбираем необходимую модель и переходим в настройки.

Включение локального сервиса

  1. Откройте Settings (иконка шестерёнки в правом нижнем углу).

  2. Перейдите во вкладку LM Studio → Local Server.

  3. Установите флажок Enable local server.

  4. Запустите сервер, кликнув Start Server.

    • Порт по умолчанию: 5000.

  5. Сохраните настройки.

Проверка работы сервера
Откройте браузер и введите http://localhost:5000/v1/models – вы увидите список доступных моделей.

2.1) Через Marketplace

  1. В IDE откройте File → Settings (Ctrl+Alt+S).

  2. Выберите Plugins → вкладка Marketplace.

  3. В строке поиска напишите Continue.

  4. Нажмите Install рядом с плагином (требуется VPN).

  5. После установки перезапустите IDE.

2.2) Через загруженный .jar (если Marketplace недоступен)

  1. Скачайте последнюю версию плагина: .

  2. В Settings → Plugins нажмите Install plugin from disk…, выберите скачанный .jar.

  3. Перезапустите IDE.

Pugin Continue
Pugin Continue

После успешной установки у нас появился дополнительный виджет в который мы переходим находится он в правом верхнем углу.

Виджет Continue
Виджет Continue

Добавление модели

  1. Кликните по иконке Llama 3.1 8B → откроется диалог Add Chat model.

  2. Выберите ProviderLMStudio.

  3. В поле Model выберите Autodetect (Continue сам определит, какие модели доступны через LM Studio).

  4. Нажмите Connect.

Add Chat model
Add Chat model


После этого у вас сразу появится окно Config.yaml в котором вы можете устанавливать роли вашего ИИ будет ли он подсказывать вам при написании кода или просто будет в роли чата. Подробнее можно прочитать тут Документация для config.yaml

Базовая настройка без дополнительных параметров
Базовая настройка без дополнительных параметров

После того как мы подключились к нашей LMStudio при нажатии на Llama 3.1 8B у нас появился список всех доступных скаченных моделей в LM.

Список всех LLM в LMStudio
Список всех LLM в LMStudio

Преимущество заключается в том что при выборе модели и выполнении первого запроса LMStudio сама проинициализирует и загрузит необходимую нам ИИ модель.

Теперь можно проверить работает ли наш ИИ пишем в окне справа текст и ждем ответа.

Отлично теперь можно проверить как отрабатывает ИИ в работе с кодом. Делается это путем команд:

Горячая клавиша

Что делает

Ctrl+I

Отправляет выделенный/текущий фрагмент кода на обработку (получает автодополнение, исправления).

Ctrl+J

Копирует выбранный код в чат‑панель Continue для дальнейшего обсуждения.

Alt+Enter

Открывает контекстное меню с предложениями от модели (если включена функция «Smart Completion»).

Пример Ctrl+I
Пример Ctrl+I

Путем нажатием на кнопки или горячие клавиши вы можете подтверждать замену кода или отклонять предложенные варианты.

Пример Ctrl+J
Пример Ctrl+J

Так же присутствует вариант с дополнением кода, добавляется путем дополнения ролей в config.yaml

3) Полная изоляция от интернета

Настройка прокси IntelliJ

  1. В Marketplace → Settings → HTTP Proxy

  2. Выберите Manual proxy configuration:

    • Host name: 127.0.0.1

    • Port number: 5000 (порт, который слушает LM Studio)

  3. В поле No proxy for укажите ваш локальный IP‑адрес (без префикса https).

  4. Нажмите OK.

Теперь все запросы из IntelliJ проходят только через localhost.

Блокировка соединения.
Блокировка соединения.



Блокировка LM Studio в Windows Firewall

  1. Запустите Брандмауэр Защитника Windows → Дополнительные параметры.

  2. В левой панели выберите Правила для исходящего подключения → Создать правило….

  3. Укажите Для программы и нажмите Далее.

  4. Введите путь к файлу LMStudio.exe (обычно C:\Program Files\LM Studio\LMStudio.exe) → Далее.

  5. Отметьте Блокировать подключение → Далее.

  6. Отметьте все три профиля: ДоменныеЧастныеОбщедоступные → Далее.

  7. Введите имя (например, "Блокировка исходящих подключений LM Studio") → Готово.

Теперь исходящие соединения для LM Studio будут заблокированы.

Если хотите также запретить входящие подключения, создайте аналогичное правило в разделе Правила для входящего подключения.

Итоги

  • Вы получили полностью офлайн‑среду автодополнения кода.

  • GitHub Copilot больше не нужен; все запросы идут только на localhost.

  • Конфиденциальность гарантирована: ни IDE, ни LM Studio не имеют доступа к внешним серверам.

Если вам нужна ещё более изолированная среда, просто перенесите всю конфигурацию (LM Studio + IntelliJ + Continue) в виртуальную машину или Docker‑контейнер без сети.

Комментарии (6)


  1. neodavinchi
    18.08.2025 09:22

    Очень интересуют требования к железу, скорость генерации токенов и качество ответов *30B модели в сравнении с копилотом


    1. SergeyRoot Автор
      18.08.2025 09:22

      Требования к железу для малых LLM весьма скромные. Видеокарта 1060 и оперативная память от 8гб. Что касается у приведенной в примере модели у меня стоит 4090 и 32гб.
      Но уверяю что работать будет не на столь производительных ПК.
      Что касается сравнения тут не подскажу, но учитывая что запуск происходит оффлайн у меня практически нет ожидания ответа.
      Что касается качества ответа тут по большей части зависит от промта и самой LLM которую вы установите. Советую попробовать несколько, и иметь в запасе штуки 3 для выбора)


      1. aladkoi
        18.08.2025 09:22

        Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига. Иначе смысла особого нет. Слабые модели можно брать только под конкретные узкие задачи.


        1. SergeyRoot Автор
          18.08.2025 09:22

          Тут не соглашусь, вполне себе хватает как для помошника. Даже с более слабой моделью.


          1. aladkoi
            18.08.2025 09:22

            Нормальные модели начинаются от 30B. Все , что ниже, чисто "поиграться"

            Это как в кино, чем меньше "разрешение", тем хуже качество ответа. Сейчас локальные llm, это как первые мониторы 640на 480. До 1080p они дойдут еще не скоро.


            1. Shannon
              18.08.2025 09:22

              Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига.
              Нормальные модели начинаются от 30B.

              Для запуска 30B из статьи нужно всего 2 гб VRAM и будет работать на скорости 10+ t/s.

              В статье Qwen3-Coder-30B, но полное название модели Qwen3-Coder-30B-A3B. A3B - означает, что это MoE модель, где на каждый токен активных параметров всего 3B.

              В llama.cpp есть оптимизация для работы с MoE моделями через --override-tensor exps=CPU или просто --cpu-moe. Этот параметр отправляет MoE-веса на CPU, а тензоры внимания и общие ffn тензоры всех слоев на GPU. Это работает так, что даже настоящую большую DeepSeek R1 671B можно запустить на игровом ПК и особо не заскучать дожидаясь ответов.

              Несколько дней назад в LM Studio 0.3.23 добавили возможность активировать этот параметр. Во время загрузки модели нужно включить "Force MoE expert weights onto CPU" и выставить полную выгрузку всех слоёв несмотря на предупреждение о том, что памяти не хватит. Flash Attention тоже стоит включить, это сэкономит много памяти контекста.

              LM Studio 0.3.23
              LM Studio 0.3.23

              Нужно всего 2 Гб VRAM + контекст. Например, на 32к контекста потребуется +2 Гб. Скорость работы на 4060ti + i7-14700 получилась 14 t/s.

              LM Studio Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf
              LM Studio Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf

              Скорость можно повысить, если воспользоваться параметром --n-cpu-moe и заполнить VRAM до отказу, сколько есть. Этого параметра пока нет в LM Studio, поэтому нужно запускать llama.cpp напрямую. llama-server создает и веб-клиент и openai completions api, как и LM Studio Local Server, поэтому для работы с Continue ничего не изменится.

              .\llama-server.exe -m "D:\models\lmstudio-community\Qwen3-Coder-30B-A3B-Instruct-GGUF\Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf" --n-cpu-moe 16 -ngl 99 -fa -c 32768

              llama.cpp Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf
              llama.cpp Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf

              Загружено 15гб VRAM, скорость выросла до 38 t/s.

              И на таких маленьких моделях лучше брать квант побольше, не тот, что в LM Studio предлагается по умолчанию. По умолчанию там Q4_K_M, лучше взять Q5_K_M или сразу Q6_K. Ещё лучше обратить внимание на имя авторов квантов и поискать среди них Unsloth, у них выбрать кванты с припиской XL, это динамическое квантование UD, при том же размере дает выше качество.

              Сейчас много разных MoE-моделей. Можно запустить и openai_gpt-oss-120b, там тоже всего 5.1B активных параметров, для запуска нужно 4гб VRAM и 62гб RAM. Скорость просядет, так как объем модели куда выше, и уже много тензоров считается на CPU, но всё еще приемлемая.

              openai_gpt-oss-120b-MXFP4.gguf
              openai_gpt-oss-120b-MXFP4.gguf