? Привет, Хабр!

Сегодня хочу поделиться своим опытом работы с локальными LLM (Large Language Models). Это что-то вроде GitHub Copilot, только без подписки, оффлайн и с контролем над своими данными.

Зачем вообще связываться с локальными LLM?

У многих часто одни и те же страхи будь это локальная или облачная модель:

  • «Это слишком сложно».

  • «Оно съест всю оперативку».

  • «А вдруг мой код утечёт в облако».

  • «Да оно будет писать чушь».

На деле, уже сегодня можно запустить модель в 7B параметров на обычном MacBook или ноутбуке с 16 GB RAM.

И получить вполне рабочего помощника для кода, тестов и рефакторинга.

Облачные vs локальные модели

☁️ Облачные (Copilot, ChatGPT)

? Локальные (Ollama, LM Studio)

Простота

работает сразу

надо один раз настроить

Конфиденциальность

код уходит в облако

всё остаётся у тебя

Стоимость

подписка (10–20$/мес)

бесплатно

Мощность

GPT-5, Claude 4, Gemini

Qwen, DeepSeek, Mistral

Оффлайн

Как читать названия моделей

Пример:

qwen2.5-coder:7b-instruct-q4_K_S
  • qwen2.5 — семейство моделей (Alibaba).

  • coder — обучена на коде.

  • 7b — размер (7 миллиардов параметров).

  • instruct — дообучена под инструкции.

  • q4_K_S — квантовка (сжатие до ~4 bit, влезает даже на слабый ноут).

Какие модели выбрать под ноутбук

  • 16 GB RAM, без дискретки → Gemma 3:4B, Mistral 7B (q4).

  • 16–32 GB RAM, GPU 6–8 GB → Qwen2.5-coder:7B, DeepSeek R1:8B.

  • 32–64 GB RAM, GPU ≥12 GB → Qwen2.5 14B, Mistral Medium.

  • MacBook Pro M3/M4 → можно запускать до 70B моделей.

Главное — брать quant-версии (Q4/Q5), они оптимизированы для домашних машин.

Установка Ollama

Самый простой способ запустить LLM локально:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5-coder:7b-instruct-q4_K_S
ollama run qwen2.5-coder:7b-instruct-q4_K_S

После этого модель доступна на http://localhost:11434 через API.

Подключение к IntelliJ IDEA через Continue

Теперь сделаем из модели «копилота». Плагин Continue поддерживает JetBrains IDE и Ollama.

  1. Установи плагин Continue в IntelliJ IDEA.

  2. Настрой плагин: укажи локальную модель из Ollama.

  3. Теперь можно:

    • получать inline-подсказки;

    • объяснять выделенный код;

    • рефакторить классы;

    • генерировать тесты.

Пример: рефакторинг с Continue

Исходный код (с ошибкой):

public int factorial(int n) {
    if (n == 0) return 0;
    else return n * factorial(n - 1);
}

Запрос:

Исправь ошибку в функции factorial

Результат:

public int factorial(int n) {
    if (n == 0 || n == 1) return 1;
    else return n * factorial(n - 1);
}

Всё, ошибка исправлена.

Клятва вайб-кодера

Я клянусь не бояться нейросетей, дружить с ними и писать код легко. Да пребудет со мной вайб, а мой ноутбук станет умнее! ?

Итоги

  • Локальные LLM можно запустить на обычном ноутбуке.

  • Ollama + Continue = твой личный локальный Copilot.

  • Никаких подписок и утечек кода.

  • Вайб-кодинг = минимум стресса, максимум кайфа от работы.

Расписывать длинные простыни тут не буду - ссылка на реп с подробностями ниже:  GitHub — vibe-coding

Комментарии (4)


  1. emulio
    10.09.2025 20:52

    curl -fsSL https://ollama.com/install.sh | sh

    Подобным образом не стоит ничего устанавливать, если только это не какая-нибудь тестовая временная виртуалка. Если у человека это войдёт в привычку, рано или поздно, он запорет себе всю систему, т.к. такой способ подразумевает установку хрен пойми чего, реально кота в мешке. Даже для Ollama не стоит делать исключение.

    Вот вариант куда безопаснее и надежнее.

    $ docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
    
    # Либо так, если хотим с GPU ускорением
    $ docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
    
    # А теперь установим и запустим LLM-ку в контейнере
    $ docker exec -it ollama bash
    $ ollama pull qwen2.5-coder:7b-instruct-q4_K_S
    $ ollama run qwen2.5-coder:7b-instruct-q4_K_S  # эта команда, кстати, не обазательна, Ollama сама запустит модель по API-хе
    

    в результате мы не запарываем себе всю систему, а запускаем сервис в изолированной Докер-песочнице.
    Docker разумеется должен быть установлен, но у кого его сейчас нет, это стандарт. Podman тоже подойдёт на худой конец.

    ЗЫ: На DockerHub страничке Ollama приведены ещё команды и советы. В идеале стоит через Docker Compose запускать, чтобы не набирать каждый раз команду.


  1. okhsunrog
    10.09.2025 20:52

    что же там такое можно нарефакторить с моделью на 7 миллиардом параметров...


  1. itt1b
    10.09.2025 20:52

    Эти модели, тем более квантированные, ничего осмысленного накодить не помогут. Минимум 72b и контекстом от 32k. Только вот таким моделям нужно 128+ RAM и могучую 4090/5090 для выгрузки части слоёв и контекста.


    1. Axelaredz
      10.09.2025 20:52

      Что ж возможно какая то магия, но вполне могут :)

      Довольно многое зависит от самой модели и начальной системной роли, а также описании задачи и конечно же человека с опытом работы с кодом.