Autumn vibes. Как я с кодингом с помощью LLM знакомился / forpes.ru

Главная
Autumn vibes. Как я с кодингом с помощью LLM знакомился

Autumn vibes. Как я с кодингом с помощью LLM знакомился +6

10.09.2025 20:10

KvendyZ 4 1600 Источник

? Привет, Хабр!

Сегодня хочу поделиться своим опытом работы с локальными LLM (Large Language Models). Это что-то вроде GitHub Copilot, только без подписки, оффлайн и с контролем над своими данными.

Зачем вообще связываться с локальными LLM?

У многих часто одни и те же страхи будь это локальная или облачная модель:

«Это слишком сложно».
«Оно съест всю оперативку».
«А вдруг мой код утечёт в облако».
«Да оно будет писать чушь».

На деле, уже сегодня можно запустить модель в 7B параметров на обычном MacBook или ноутбуке с 16 GB RAM.

И получить вполне рабочего помощника для кода, тестов и рефакторинга.

Облачные vs локальные модели

	☁️ Облачные (Copilot, ChatGPT)	? Локальные (Ollama, LM Studio)
Простота	работает сразу	надо один раз настроить
Конфиденциальность	код уходит в облако	всё остаётся у тебя
Стоимость	подписка (10–20$/мес)	бесплатно
Мощность	GPT-5, Claude 4, Gemini	Qwen, DeepSeek, Mistral
Оффлайн	❌	✅

Как читать названия моделей

Пример:

qwen2.5-coder:7b-instruct-q4_K_S

qwen2.5 — семейство моделей (Alibaba).
coder — обучена на коде.
7b — размер (7 миллиардов параметров).
instruct — дообучена под инструкции.
q4_K_S — квантовка (сжатие до ~4 bit, влезает даже на слабый ноут).

Какие модели выбрать под ноутбук

16 GB RAM, без дискретки → Gemma 3:4B, Mistral 7B (q4).
16–32 GB RAM, GPU 6–8 GB → Qwen2.5-coder:7B, DeepSeek R1:8B.
32–64 GB RAM, GPU ≥12 GB → Qwen2.5 14B, Mistral Medium.
MacBook Pro M3/M4 → можно запускать до 70B моделей.

Главное — брать quant-версии (Q4/Q5), они оптимизированы для домашних машин.

Установка Ollama

Самый простой способ запустить LLM локально:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5-coder:7b-instruct-q4_K_S
ollama run qwen2.5-coder:7b-instruct-q4_K_S

После этого модель доступна на http://localhost:11434 через API.

Подключение к IntelliJ IDEA через Continue

Теперь сделаем из модели «копилота». Плагин Continue поддерживает JetBrains IDE и Ollama.

Установи плагин Continue в IntelliJ IDEA.
Настрой плагин: укажи локальную модель из Ollama.
Теперь можно:
- получать inline-подсказки;
- объяснять выделенный код;
- рефакторить классы;
- генерировать тесты.

Пример: рефакторинг с Continue

Исходный код (с ошибкой):

public int factorial(int n) {
    if (n == 0) return 0;
    else return n * factorial(n - 1);
}

Запрос:

Исправь ошибку в функции factorial

Результат:

public int factorial(int n) {
    if (n == 0 || n == 1) return 1;
    else return n * factorial(n - 1);
}

Всё, ошибка исправлена.

Клятва вайб-кодера

Я клянусь не бояться нейросетей, дружить с ними и писать код легко. Да пребудет со мной вайб, а мой ноутбук станет умнее! ?

Итоги

Локальные LLM можно запустить на обычном ноутбуке.
Ollama + Continue = твой личный локальный Copilot.
Никаких подписок и утечек кода.
Вайб-кодинг = минимум стресса, максимум кайфа от работы.

Расписывать длинные простыни тут не буду - ссылка на реп с подробностями ниже: GitHub — vibe-coding

Комментарии (4)

emulio
10.09.2025 20:52
#28822558
curl -fsSL https://ollama.com/install.sh | sh

Подобным образом не стоит ничего устанавливать, если только это не какая-нибудь тестовая временная виртуалка. Если у человека это войдёт в привычку, рано или поздно, он запорет себе всю систему, т.к. такой способ подразумевает установку хрен пойми чего, реально кота в мешке. Даже для Ollama не стоит делать исключение.

Вот вариант куда безопаснее и надежнее.
```
$ docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Либо так, если хотим с GPU ускорением
$ docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# А теперь установим и запустим LLM-ку в контейнере
$ docker exec -it ollama bash
$ ollama pull qwen2.5-coder:7b-instruct-q4_K_S
$ ollama run qwen2.5-coder:7b-instruct-q4_K_S  # эта команда, кстати, не обазательна, Ollama сама запустит модель по API-хе
```
в результате мы не запарываем себе всю систему, а запускаем сервис в изолированной Докер-песочнице.
Docker разумеется должен быть установлен, но у кого его сейчас нет, это стандарт. Podman тоже подойдёт на худой конец.

ЗЫ: На DockerHub страничке Ollama приведены ещё команды и советы. В идеале стоит через Docker Compose запускать, чтобы не набирать каждый раз команду.

okhsunrog
10.09.2025 20:52
#28822864
что же там такое можно нарефакторить с моделью на 7 миллиардом параметров...

itt1b
10.09.2025 20:52
#28823346
Эти модели, тем более квантированные, ничего осмысленного накодить не помогут. Минимум 72b и контекстом от 32k. Только вот таким моделям нужно 128+ RAM и могучую 4090/5090 для выгрузки части слоёв и контекста.
1. Axelaredz
  10.09.2025 20:52
  #28827000
  Что ж возможно какая то магия, но вполне могут :)
  
  Довольно многое зависит от самой модели и начальной системной роли, а также описании задачи и конечно же человека с опытом работы с кодом.