Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin / forpes.ru

Главная
Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin

Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin +23

18.08.2025 04:31

SergeyRoot 6 6000 Источник

В этом посте я покажу, как использовать Continue Plugin вместо GitHub Copilot, подключив к нему собственную локальную модель LLM без доступа к интернету. Такой подход обеспечивает максимальную конфиденциальность: ни IDE, ни LM Studio не имеют возможности передавать ваши файлы в облако.

Никакой сети – всё работает только в вашем компьютере.

Что такое Continue и зачем он нужен

Плагин	Функции	Как работает
Continue	Генерация кода, исправление ошибок, чат‑режим по коду	Делает запросы к выбранному LLM‑провайдеру (в нашем случае – LM Studio) через HTTP/REST на `localhost`.

Если вы используете GitHub Copilot, ваш код отправляется в облако.
Continue с локальной моделью никогда не покидает вашу машину.

1) Установка и настройка LM Studio

Устанавливаем LMStudio с офф сайта.

Выберите Windows → скачайте LMStudio-<версия>-win64.exe.
Запустите установщик, следуйте мастеру:
- Путь установки – любой удобный (рекомендуется C:\Program Files\LM Studio).
- Тип пользователя – выберите Developer (позволяет смотреть логи и управлять моделью).

Если вы случайно пропустили не переживайте эта плашка находится в левом нижнем углу.

Первая модель

Откройте LM Studio.
В строке поиска введите, например, Qwen-3.0-Coder-30B.
Убедитесь, что выбран формат GGUF (быстрее и легче).
Нажмите Download – модель скачается в LM Studio\llms\<название>.
В меню слева выберите Models → убедитесь, что галочка стоит рядом с вашей моделью.

При поиске вам отобразятся дополнительные параметры главные из которых запустится ли вообще данная ИИ на вашем ПК.

Если она не подойдет как правило система сама напишет так что переживать не стоит.

Выбираем необходимую модель и переходим в настройки.

Включение локального сервиса

Откройте Settings (иконка шестерёнки в правом нижнем углу).
Перейдите во вкладку LM Studio → Local Server.
Установите флажок Enable local server.
Запустите сервер, кликнув Start Server.
- Порт по умолчанию: 5000.
Сохраните настройки.

Проверка работы сервера
Откройте браузер и введите http://localhost:5000/v1/models – вы увидите список доступных моделей.

2.1) Через Marketplace

В IDE откройте File → Settings (Ctrl+Alt+S).
Выберите Plugins → вкладка Marketplace.
В строке поиска напишите Continue.
Нажмите Install рядом с плагином (требуется VPN).
После установки перезапустите IDE.

2.2) Через загруженный .jar (если Marketplace недоступен)

Скачайте последнюю версию плагина: .
В Settings → Plugins нажмите Install plugin from disk…, выберите скачанный .jar.
Перезапустите IDE.

После успешной установки у нас появился дополнительный виджет в который мы переходим находится он в правом верхнем углу.

Добавление модели

Кликните по иконке Llama 3.1 8B → откроется диалог Add Chat model.
Выберите Provider: LMStudio.
В поле Model выберите Autodetect (Continue сам определит, какие модели доступны через LM Studio).
Нажмите Connect.

После этого у вас сразу появится окно Config.yaml в котором вы можете устанавливать роли вашего ИИ будет ли он подсказывать вам при написании кода или просто будет в роли чата. Подробнее можно прочитать тут Документация для config.yaml

Базовая настройка без дополнительных параметров

После того как мы подключились к нашей LMStudio при нажатии на Llama 3.1 8B у нас появился список всех доступных скаченных моделей в LM.

Преимущество заключается в том что при выборе модели и выполнении первого запроса LMStudio сама проинициализирует и загрузит необходимую нам ИИ модель.

Теперь можно проверить работает ли наш ИИ пишем в окне справа текст и ждем ответа.

Отлично теперь можно проверить как отрабатывает ИИ в работе с кодом. Делается это путем команд:

Горячая клавиша	Что делает
`Ctrl+I`	Отправляет выделенный/текущий фрагмент кода на обработку (получает автодополнение, исправления).
`Ctrl+J`	Копирует выбранный код в чат‑панель Continue для дальнейшего обсуждения.
`Alt+Enter`	Открывает контекстное меню с предложениями от модели (если включена функция «Smart Completion»).

Путем нажатием на кнопки или горячие клавиши вы можете подтверждать замену кода или отклонять предложенные варианты.

Так же присутствует вариант с дополнением кода, добавляется путем дополнения ролей в config.yaml

3) Полная изоляция от интернета

Настройка прокси IntelliJ

В Marketplace → Settings → HTTP Proxy
Выберите Manual proxy configuration:
- Host name: 127.0.0.1
- Port number: 5000 (порт, который слушает LM Studio)
В поле No proxy for укажите ваш локальный IP‑адрес (без префикса https).
Нажмите OK.

Теперь все запросы из IntelliJ проходят только через localhost.

Блокировка LM Studio в Windows Firewall

Запустите Брандмауэр Защитника Windows → Дополнительные параметры.
В левой панели выберите Правила для исходящего подключения → Создать правило….
Укажите Для программы и нажмите Далее.
Введите путь к файлу LMStudio.exe (обычно C:\Program Files\LM Studio\LMStudio.exe) → Далее.
Отметьте Блокировать подключение → Далее.
Отметьте все три профиля: Доменные, Частные, Общедоступные → Далее.
Введите имя (например, "Блокировка исходящих подключений LM Studio") → Готово.

Теперь исходящие соединения для LM Studio будут заблокированы.

Если хотите также запретить входящие подключения, создайте аналогичное правило в разделе Правила для входящего подключения.

Итоги

Вы получили полностью офлайн‑среду автодополнения кода.
GitHub Copilot больше не нужен; все запросы идут только на localhost.
Конфиденциальность гарантирована: ни IDE, ни LM Studio не имеют доступа к внешним серверам.

Если вам нужна ещё более изолированная среда, просто перенесите всю конфигурацию (LM Studio + IntelliJ + Continue) в виртуальную машину или Docker‑контейнер без сети.

Комментарии (6)

neodavinchi
18.08.2025 09:22
#28722124
Очень интересуют требования к железу, скорость генерации токенов и качество ответов *30B модели в сравнении с копилотом
1. SergeyRoot Автор
  18.08.2025 09:22
  #28722250
  Требования к железу для малых LLM весьма скромные. Видеокарта 1060 и оперативная память от 8гб. Что касается у приведенной в примере модели у меня стоит 4090 и 32гб.
  Но уверяю что работать будет не на столь производительных ПК.
  Что касается сравнения тут не подскажу, но учитывая что запуск происходит оффлайн у меня практически нет ожидания ответа.
  Что касается качества ответа тут по большей части зависит от промта и самой LLM которую вы установите. Советую попробовать несколько, и иметь в запасе штуки 3 для выбора)
  1. aladkoi
    18.08.2025 09:22
    #28724870
    Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига. Иначе смысла особого нет. Слабые модели можно брать только под конкретные узкие задачи.
    
    SergeyRoot Автор
    18.08.2025 09:22
    #28724926
    Тут не соглашусь, вполне себе хватает как для помошника. Даже с более слабой моделью.
    
    aladkoi
    18.08.2025 09:22
    #28724964
    Нормальные модели начинаются от 30B. Все , что ниже, чисто "поиграться"
    
    Это как в кино, чем меньше "разрешение", тем хуже качество ответа. Сейчас локальные llm, это как первые мониторы 640на 480. До 1080p они дойдут еще не скоро.
    
    Shannon
    18.08.2025 09:22
    #28725288
    Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига.
    Нормальные модели начинаются от 30B.
    
    Для запуска 30B из статьи нужно всего 2 гб VRAM и будет работать на скорости 10+ t/s.
    
    В статье Qwen3-Coder-30B, но полное название модели Qwen3-Coder-30B-A3B. A3B - означает, что это MoE модель, где на каждый токен активных параметров всего 3B.
    
    В llama.cpp есть оптимизация для работы с MoE моделями через --override-tensor exps=CPU или просто --cpu-moe. Этот параметр отправляет MoE-веса на CPU, а тензоры внимания и общие ffn тензоры всех слоев на GPU. Это работает так, что даже настоящую большую DeepSeek R1 671B можно запустить на игровом ПК и особо не заскучать дожидаясь ответов.
    
    Несколько дней назад в LM Studio 0.3.23 добавили возможность активировать этот параметр. Во время загрузки модели нужно включить "Force MoE expert weights onto CPU" и выставить полную выгрузку всех слоёв несмотря на предупреждение о том, что памяти не хватит. Flash Attention тоже стоит включить, это сэкономит много памяти контекста.
    
    LM Studio 0.3.23
    Нужно всего 2 Гб VRAM + контекст. Например, на 32к контекста потребуется +2 Гб. Скорость работы на 4060ti + i7-14700 получилась 14 t/s.
    
    LM Studio Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf
    Скорость можно повысить, если воспользоваться параметром --n-cpu-moe и заполнить VRAM до отказу, сколько есть. Этого параметра пока нет в LM Studio, поэтому нужно запускать llama.cpp напрямую. llama-server создает и веб-клиент и openai completions api, как и LM Studio Local Server, поэтому для работы с Continue ничего не изменится.
    
    .\llama-server.exe -m "D:\models\lmstudio-community\Qwen3-Coder-30B-A3B-Instruct-GGUF\Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf" --n-cpu-moe 16 -ngl 99 -fa -c 32768
    
    llama.cpp Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf
    Загружено 15гб VRAM, скорость выросла до 38 t/s.
    
    И на таких маленьких моделях лучше брать квант побольше, не тот, что в LM Studio предлагается по умолчанию. По умолчанию там Q4_K_M, лучше взять Q5_K_M или сразу Q6_K. Ещё лучше обратить внимание на имя авторов квантов и поискать среди них Unsloth, у них выбрать кванты с припиской XL, это динамическое квантование UD, при том же размере дает выше качество.
    
    Сейчас много разных MoE-моделей. Можно запустить и openai_gpt-oss-120b, там тоже всего 5.1B активных параметров, для запуска нужно 4гб VRAM и 62гб RAM. Скорость просядет, так как объем модели куда выше, и уже много тензоров считается на CPU, но всё еще приемлемая.
    
    openai_gpt-oss-120b-MXFP4.gguf