? Привет, Хабр!
Сегодня хочу поделиться своим опытом работы с локальными LLM (Large Language Models). Это что-то вроде GitHub Copilot, только без подписки, оффлайн и с контролем над своими данными.
Зачем вообще связываться с локальными LLM?
У многих часто одни и те же страхи будь это локальная или облачная модель:
«Это слишком сложно».
«Оно съест всю оперативку».
«А вдруг мой код утечёт в облако».
«Да оно будет писать чушь».
На деле, уже сегодня можно запустить модель в 7B параметров на обычном MacBook или ноутбуке с 16 GB RAM.
И получить вполне рабочего помощника для кода, тестов и рефакторинга.
Облачные vs локальные модели
☁️ Облачные (Copilot, ChatGPT) |
? Локальные (Ollama, LM Studio) |
|
---|---|---|
Простота |
работает сразу |
надо один раз настроить |
Конфиденциальность |
код уходит в облако |
всё остаётся у тебя |
Стоимость |
подписка (10–20$/мес) |
бесплатно |
Мощность |
GPT-5, Claude 4, Gemini |
Qwen, DeepSeek, Mistral |
Оффлайн |
❌ |
✅ |
Как читать названия моделей
Пример:
qwen2.5-coder:7b-instruct-q4_K_S
qwen2.5 — семейство моделей (Alibaba).
coder — обучена на коде.
7b — размер (7 миллиардов параметров).
instruct — дообучена под инструкции.
q4_K_S — квантовка (сжатие до ~4 bit, влезает даже на слабый ноут).
Какие модели выбрать под ноутбук
16 GB RAM, без дискретки → Gemma 3:4B, Mistral 7B (q4).
16–32 GB RAM, GPU 6–8 GB → Qwen2.5-coder:7B, DeepSeek R1:8B.
32–64 GB RAM, GPU ≥12 GB → Qwen2.5 14B, Mistral Medium.
MacBook Pro M3/M4 → можно запускать до 70B моделей.
Главное — брать quant-версии (Q4/Q5), они оптимизированы для домашних машин.
Установка Ollama
Самый простой способ запустить LLM локально:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5-coder:7b-instruct-q4_K_S
ollama run qwen2.5-coder:7b-instruct-q4_K_S
После этого модель доступна на http://localhost:11434 через API.
Подключение к IntelliJ IDEA через Continue
Теперь сделаем из модели «копилота». Плагин Continue поддерживает JetBrains IDE и Ollama.
Установи плагин Continue в IntelliJ IDEA.
Настрой плагин: укажи локальную модель из Ollama.
-
Теперь можно:
получать inline-подсказки;
объяснять выделенный код;
рефакторить классы;
генерировать тесты.
Пример: рефакторинг с Continue
Исходный код (с ошибкой):
public int factorial(int n) {
if (n == 0) return 0;
else return n * factorial(n - 1);
}
Запрос:
Исправь ошибку в функции factorial
Результат:
public int factorial(int n) {
if (n == 0 || n == 1) return 1;
else return n * factorial(n - 1);
}
Всё, ошибка исправлена.
Клятва вайб-кодера
Я клянусь не бояться нейросетей, дружить с ними и писать код легко. Да пребудет со мной вайб, а мой ноутбук станет умнее! ?
Итоги
Локальные LLM можно запустить на обычном ноутбуке.
Ollama + Continue = твой личный локальный Copilot.
Никаких подписок и утечек кода.
Вайб-кодинг = минимум стресса, максимум кайфа от работы.
Расписывать длинные простыни тут не буду - ссылка на реп с подробностями ниже: GitHub — vibe-coding
Комментарии (4)
okhsunrog
10.09.2025 20:52что же там такое можно нарефакторить с моделью на 7 миллиардом параметров...
itt1b
10.09.2025 20:52Эти модели, тем более квантированные, ничего осмысленного накодить не помогут. Минимум 72b и контекстом от 32k. Только вот таким моделям нужно 128+ RAM и могучую 4090/5090 для выгрузки части слоёв и контекста.
Axelaredz
10.09.2025 20:52Что ж возможно какая то магия, но вполне могут :)
Довольно многое зависит от самой модели и начальной системной роли, а также описании задачи и конечно же человека с опытом работы с кодом.
emulio
Подобным образом не стоит ничего устанавливать, если только это не какая-нибудь тестовая временная виртуалка. Если у человека это войдёт в привычку, рано или поздно, он запорет себе всю систему, т.к. такой способ подразумевает установку хрен пойми чего, реально кота в мешке. Даже для Ollama не стоит делать исключение.
Вот вариант куда безопаснее и надежнее.
в результате мы не запарываем себе всю систему, а запускаем сервис в изолированной Докер-песочнице.
Docker разумеется должен быть установлен, но у кого его сейчас нет, это стандарт. Podman тоже подойдёт на худой конец.
ЗЫ: На DockerHub страничке Ollama приведены ещё команды и советы. В идеале стоит через Docker Compose запускать, чтобы не набирать каждый раз команду.