В этой статье мы не только установим локальный (и бесплатный) аналог ChatGPT, но и сделаем обзор самых важных открытых LLM, разберёмся в продвинутых настройках программы LM Studio, подключим чатбота к Visual Studio Code и научим его помогать нам в программировании. А ещё мы посмотрим, как можно тонко настраивать поведение модели с помощью системных промптов.

LLM (Large Language Model) — это генеративная нейросеть, обученная на огромных объёмах текстов. Она способна понимать запросы, вести диалог и генерировать связный текст по заданному контексту. В просторечии — «чатбот» (хотя это слово существовало задолго до появления нейросетей).

Зачем?

Ведь есть же ChatGPT, Claude, DeepSeek, Gemini...

На самом деле причин хостить чатбота у себя на компьютере — масса. Вот лишь некоторые:

  • Приватность. Ни один байт данных не уходит на чужие серверы. Это особенно важно, если мы работаем с чувствительной или закрытой информацией: финансы, медицина, корпоративные проекты. Например, недавно несколько инженеров Samsung случайно загрузили конфиденциальный исходный код в ChatGPT — то есть на сервер частной компании OpenAI!
    Прочли бы они эту статью — они бы просто поставили LM Studio и избежали выговора начальника (или увольнения).

  • Отсутствие цензуры и ограничений. Почти все облачные LLM имеют строгие фильтры и модерацию. Есть темы, на которые они просто откажутся с вами говорить — будь то технические детали, политика, безопасность или даже философия. Да, иногда ограничения можно обойти хитрой «промпт‑инженерией», но полной свободы в облаке нет — это риски для бизнеса, который всегда предпочтёт перестраховаться.

  • Поддержка разных моделей. В облаке можно пообщаться только с теми моделями, которые предоставляет сервис. Локально же можем запустить любую открытую LLM, подходящую под конкретную задачу: Mistral для скорости, LLaMA3 для качества ответов, DeepSeek‑Coder или CodeGemma — как ассистент для кодинга.

  • Интеграция в проекты — свою модель мы можем интегрировать в телеграм‑бот, свой ИИ‑стартап или кодингового асистента в IDE. Даже если в проде наш проект будет работать на облачной LLM — тестировать лучше локально.

  • Обучение и настройка. В облаке нельзя дообучить проприетарные модели вроде GPT-4o или Claude — даже за деньги. Максимум — настройка с помощью системного промпта или "инструкционного" стиля общения. Локально же мы можем делать fine-tuning, подключать RAG, настраивать стиль и поведение модели, полностью контролируя процесс.

  • Бесплатность. Любой облачный сервис либо требует подписки, либо ограничивает по количеству токенов в сутки или в месяц. С локальной LLM мы ограничены только ресурсами нашего компьютера. И зачем платить подписку за Cursor, когда можно настроить локального кодингового ассистента в Visual Studio Code бесплатно?

А минусы будут?

Конечно, будут. Запустить ту же модель, что работает в облаке, не всегда получится:

  • У нас может не хватить аппаратных ресурсов на полную версию модели и придётся использовать облегчённую (например, у облачной версии DeepSeek — 685 миллиардов параметров, тогда как моя RTX 4070 Ti Super подтормаживает уже на модели в 32 миллиарда). И вообще без минимум 16 GB RAM это дело заранее безнадёжное.

  • Некоторые модели кроме причины выше ещё и попросту недоступны публично — такие как ChatGPT-4o, Claude 3 и Gemini 1.5.

  • Из‑за двух пунктов выше приходится запускать облегчённые версии моделей. Они быстрее и легче, но:

    • менее точны

    • могут давать более «плоские» ответы

    • не всегда справляются с комплексными задачами так же хорошо, как GPT-4o или Claude

Конечно, если у нас есть кластер из серверных GPU, то можно запустить тот самый нашумевший DeepSeek‑685B* без компромиссов — но большинству пользователей придётся довольствоваться более лёгкими моделями.

*цифра перед b, например, 658b — обозначает сколько миллиардов (billons) параметров в данной версии модели. Чем больше — тем модель качественнее рассуждает, но тем и требовательнее к железу. Золотой серединой для обычного потребительского железа c GPU можно считать 16–22b.

Какое железо нужно для LLM?

Хотя запуск локальных моделей возможен даже на ноутбуке, комфорт работы сильно зависит от конфигурации.

Минимальный порог для запуска:

  • ОЗУ: от 16 GB, желательно 32 GB

  • GPU: любой с 6–8 GB VRAM, например RTX 3060 / 4060

  • Apple M1/M2/M3 (16–24 GB RAM)

  • Что сможем запускать: модели до 7B параметров (Q4/K_M)

Хорошо подойдут:

  • MacBook Pro M1/M2/M3 с 16+ GB RAM

  • ПК с RTX 3060 / 4060 / RX 7600

Оптимальный уровень (без подтормаживаний):

  • ОЗУ: 32–64 GB

  • GPU: RTX 4070 / 4070 Ti / 4070 Ti Super / RX 7900 XT

  • Что сможем комфортно запускать: Модели до 13B–22B параметров (включая DeepSeek‑Coder-6.7B и LLaMA 13B)

    Такая сборка позволяет:

  • Работать в IDE и запускать модель параллельно

  • Использовать ассистента в режиме «почти real‑time»

Энтузиаст или разработка под нагрузкой:

  • ОЗУ: от 64 GB

  • GPU: RTX 4090 (24 GB VRAM) или A6000 / H100

  • Модели: до 33B–70B, в том числе Mixtral, DeepSeek‑Coder‑33B

На таких машинах можно:

  • Проводить бенчмарки, RAG и тонкую настройку

  • Использовать модели уровня ChatGPT-3.5 по качеству и скорости

tl;dr

  • ≤ 9 b — ноутбуки с RTX 4060 / MacBook М1 16 GB, real-time

  • 9 – 22 b — RTX 4070/7900 XT, <1 с токен

  • 22 – 70 b — RTX 4090 24 GB или A6000, «рабочая» скорость

  • 70 b + MoE — одна RTX 4090 вытянет (активных 20 B), но лучше 2×GPU

  • > 200b — только многокарта или кластер (H100, A100)

Модель

Параметры

GPU

Оценочная скорость

DeepSeek 685B

685 миллиардов

Кластеры с 8× H100 (80 GB)

~ real‑time

DeepSeek‑Coder 33B

33 миллиарда

RTX Pro 6000

~ real‑time

DeepSeek‑Coder 33B

33 миллиарда

RTX 4070 Ti Super

крайне медленно

DeepSeek‑Coder 6.7B

6.7 миллиардов

RTX 4070 Ti Super

почти мгновенно

LM Studio

LM Studio — это одно из самых удобных десктопных приложений для запуска локальных LLM.

Более опытные пользователи, возможно, предпочтут Ollama — он гибче и лучше подходит для автоматизации, но не имеет графического интерфейса «из коробки» (хотя и можно подключить отдельно). Для большинства задач работы с языковыми моделями LM Studio более чем достаточно — тем более, что обе программы под капотом используют один и тот же движок — llama.cpp.

На момент написания статьи LM Studio умеет:

  • Предоставлять ChatGPT‑подобный интерфейс для диалога с моделью. Диалоги можно дублировать, произвольно удалять и редактировать сообщения — в общем, куда большая свобода, чем в ChatGPT.

  • Discovery service для моделей с превью — можно находить языковые модели прямо в окне LM Studio и даже производить фильтрацию моделей, подходящих для нашего железа. Скачивать модели с HuggingFace так же можно.

  • Скачивать и переключать языковые модели в один клик.

  • Настраивать системный промпт. Это позволяет задать «персональность» модели: стиль общения, роль, тон и поведение.

  • Работать как локальный сервер с OpenAI‑совместимым API. Можно подключать модель к Telegram‑боту, использовать в сторонних приложениях или использовать модель как движок для AI‑ассистента в IDE.

  • Менять параметры генерации — top_p, top_k и прочие. Об этом подробнее ниже.

  • MCP сервер.

  • RAG — позволяет загружать PDF-документы и вести диалог на основе их содержания. Объёмные документы будут проиндексированы как классический RAG, документы поменьше будут загружены целиком в контекст.

Первый запуск

LM Studio доступна на Mac, Windows (вкл. Arm) и Linux, а установка не требует каких‑либо манипуляций. Просто переходим сюда, выбираем свою платформу и ставим.

После установки мы видим стартовое окно:

По умолчанию интерфейс установлен в режиме User, но мы с вами взрослые, поэтому сразу переключаемся на Developer:

Далее нажимаем на Select a model to load и LM Studio заботливо нам предложит gemma-3 в подходящей для нашего железа сборке:

Ждём, пока скачиваются 6–8 ГБ LLM модели...

Модели можно скармливать текстовые файлы и, если она поддерживает - изображения
Модели можно скармливать текстовые файлы и, если она поддерживает — изображения

Скачиваем, чатимся, PROFIT!
Можно заканчивать тутор? Как бы не так.

Модели

LM Studio позволят нам скачивать модели двумя способами — через собственный маркетплейс (кнопка лупы фиолетового цвета) или через внешние сайты, вроде HuggingFace.

Во встроенном маркетплейс удобным образом промаркированы модели с reasoning, распознаванием изобраений и те, которые были адаптированы для использования в составе тулзов.
А теперь мы отвлечёмся от собственно LM Studio и разберёмся с основными открытыми LLM. Существуют базовые модели: LLaMA, Mistral, Gemma, Qwen, DeepSeek и их fine‑tuned версии со специализацией на более «игривое» общение, кодинг, снятие цензуры, специфических сценарий общений.

Квантование (Q)

В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей.
Все модели, доступные для скачивания через LM Studio, уже идут в квантованном виде — это позволяет запускать их на обычном потребительском железе, без серверных GPU.
Квантование — это компромисс между точностью и производительностью: модель занимает меньше памяти, работает быстрее, но может немного терять в качестве.
Если хочется разобраться в технических тонкостях — у меня есть отдельная статья про квантование.

А пока достаточно запомнить:

чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 - сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 - слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M.

Базовые LLM модели

LLaMA (Meta*)
Свежая линейка LLaMA 4 вышла весной 2025 года и уже включает версии LLaMA 4 Scout (8B) и Maverick (40B). Это самые мощные open‑weight LLM от Meta на текущий момент, с качеством вывода, приближающимся к GPT‑4. Даже Scout‑8B уверенно работает в задачах reasoning, а Maverick‑40B превосходит ChatGPT‑3.5.
LLaMA‑модели самые популярные для fine‑tuning и кастомных сборок. Однако лицензия Meta ограничивает коммерческое применение, особенно в продуктах, конкурирующих с сервисами самой Meta (например, чат‑боты и ассистенты).

Gemma (Google)
Облегчённая open‑source версия от Google, основанная на разработках Gemini. Работает довольно неплохо даже на слабом железе и легко поддаётся fine‑tuning'у. Распространяется под лицензией Apache 2.0 — одной из самых свободных. Но Google оставляет за собой право прервать использование при подозрении в нарушении своих правил. К сборкам-деривативам это ограничение тоже применяется.

Qwen (Alibaba)
Актуальная линейка Qwen 3 показывает отличные результаты в бенчмарках, особенно в задачах программирования, математики и мультиязычного reasoning. Доступны как мощные MoE-модели (например, 235B), так и компактные версии от 0.5B — включая сборки для ARM и систем без GPU. Модели распространяются под открытой лицензией Apache 2.0, однако некоторые весовые категории (особенно крупных MoE-моделей) могут иметь ограничения при использовании в Китае и в облачных продуктах, что стоит учитывать при коммерческом применении.

DeepSeek (DeepSeek AI)
Тот самый DeepSeek, который наделал шуму в начале 2025 года. На сегодняшний день доступны как универсальные языковые модели (от 1.3B до 236B параметров в MoE-архитектуре), так и специализированные модели DeepSeek-Coder V2/V3 для программирования.
Особенно для нас интересна DeepSeek-Coder V2–33B, которая показывает качество, сравнимое с GPT‑4 в задачах по коду (по данным HumanEval++ и других бенчмарков).

Ниже — краткая таблица с основными характеристиками этих моделей:

Модель

Разработчик

Сильные стороны

Минусы

LLaMA 4 Scout / Maverick (8b / 40b)

LLaMA 4 Behemoth (анонсирована, 400b)

Meta

Высокое качество, мощная база для дообучения, богатая экосистема

Лицензия ограничивает коммерческое использование

Gemma 3 (1b / 4b / 12 B / 27 B)

Google

multimodal (текст + изображение), long-context 128k, 140+ языков, Apache 2.0 GPL

Лицензия имеет ограничения, базовая 1b версия без vision

Mistral Small 3.1 / Devstral‑24B

Mistral AI

Контекст до 128k, мощная reasoning-способность

Требует много VRAM

Mixtral 8×22B‑Instruct

Mistral AI

MoE, высокая производительность, 128 k контекст

Высокие требования к железу

Qwen 3 (0.6–32b, 235b MoE)

Alibaba

Хороша в коде и математике, мультиязычность, long-context 128k, Apache 2.0 GPL

фильтры на "критический" контент всё ещё присутствуют, ресурсоёмкость

DeepSeek Coder V2/V3 (активные ~21–37b)

DeepSeek AI

MoE, эксперт по кодированию и анализу кода

Очень требователен к ресурсам и настройкам

StarCoder 2 (7b / 15b)

Hugging Face / BigCode

Оптимизирован для кода, long-context >100 k, отлично для Dev-сценариев

Не предназначен для общего диалога

Phi‑3 Mini / Small / Med

Microsoft

Компактны, CPU-френдли, до 128k контекста

Ограничены в сложном reasoning

DBRX (132b, активные 36b)

Databricks / MosaicML

MoE, хорош для кода/математики, long-context (>100k)

Требует много VRAM, пока небольшое комьюнити

Command-R+ (35b)

Cohere

Оптимизирована для RAG, структурирует JSON-вывод, контекст 200k, Apache 2.0

для 35b нужно >= 24 GB VRAM, менее гибка как чат-ассистент

Моя субъективная подборка моделей

для общения:

  • LLaMA 3 8B Instruct

  • Nous-Hermes-2-LLaMA3-8B-GGUF

  • openchat-4

  • Gemma 2-9B-Instruct (легковес для слабых систем)

для кодинга:

  • StarCoder2–15B

  • Mixtral-8×7B‑Instruct‑v0.1

  • deepseek-coder-6.7B-Instruct

Для ролевого общения / отсутствия цензуры:

  • MythoMax‑L2

  • dolphin-2.7-mixtral-8×7b

RAG / API:

  • Command-R+

  • DBRX

Настройки LM Studio

Теперь когда мы скачали интересующие нас модели, мы можем менеджить их (видеть и удалять) через меню My Models (красная папка):

задача для самоконтроля: убедитесь, что уже понимаете, что означают цифры возле b и Q
задача для самоконтроля: убедитесь, что уже понимаете, что означают цифры возле b и Q

LM Studio даёт нам доступ к целому ряду параметров, которые напрямую влияют на поведение и стиль ответов модели. Если хочется, чтобы ассистент был серьёзным или наоборот шутливым или имел какие‑то блоки нужны нам для проекта — это можно сделать за пару кликов.

Нажимаем на кнопку Show Settings (иконка мензурки)
Нажимаем на кнопку Show Settings (иконка мензурки)

System Context (Системный промпт)

Это вводная инструкция, которая определяет «персональность» модели. Пример: «Ты — технический ассистент. Отвечай кратко и строго по делу, без лишней воды и дисклеймеров.» System Context действует как базовая прошивка поведения — всё, что скажет модель, будет проходить через эту призму.

Инструктаж отшучиваться от любых прямых ответов в системном промпте
Инструктаж отшучиваться от любых прямых ответов в системном промпте

Параметры модели

Temperature — отвечает за «творческость» модели. При низком значении (0.2–0.5) ответы будут точными, лаконичными и почти шаблонными — хорошо подойдёт для техподдержки или кратких инструкций. При высоком значении (0.8–1.2) модель начинает «фантазировать» — чаще выбирает менее вероятные слова, создавая более живые, нестандартные и креативные тексты.

Top‑k и Top‑p (Nucleus Sampling) — оба параметра управляют тем, сколько вариантов продолжения текста модель рассматривает при каждом токене.

  • Top‑k ограничивает выбор: если k = 40, модель выбирает из 40 самых вероятных слов.

  • Top‑p определяет «вероятностный порог»: если p = 0.9, то берутся слова, суммарно набравшие 90% вероятности. Снижая эти значения, мы делаем ответы предсказуемее, увеличивая — даём больше простора креативности.

Repeat Penalty — помогает бороться с зацикливанием модели или повторением фраз. Значение 1.1–1.2 считается хорошим стартом: это не мешает модели нормально завершать предложения, но не даёт ей застревать в одних и тех же оборотах. Если модель пишет «да‑да‑да» или «вот пример, пример, пример» — стоит увеличить эту настройку.

Max Tokens — прямо ограничивает длину ответа. Полезно, если нужно короткое пояснение, а не простыня текста. Если модель «разгоняется» и пишет больше, чем надо — выставляем лимит, например, 200 или 512 токенов.

Structured Output — это когда модель отвечает не просто текстом, а строго по формату:

  • JSON

  • YAML

  • Markdown‑таблица

  • Код с оформлением

В LM Studio можно явно попросить модель: соблюдать формат (например, JSON) отвечать по шаблону (например: {"вопрос": "…", "ответ": "…"}) Работает это с помощью продуманного промпта или инструкции в System Context. Это особенно полезно, если ответы пойдут в Telegram‑бота, в API, в базу или IDE. Пример такого промпта:

Ты — финансовый аналитик. Отвечай строго в формате JSON: {"рекомендация": "string", "причина": "string"}

Поскольку эта функция целиком полагается на интеллект модели, некоторые модели лучше справляются с форматом JSON, чем другие.

Локальный API-сервер

Помимо GUI‑интерфейса, LM Studio может работать как локальный сервер полностью совместимый со стандартом OpenAI API. Это значит, что любое приложение работающее с LLM через HTTP‑запросы может использовать локальную модель через LM Studio.

Вот типичные сценарии:

  • Подключение к Telegram‑боту

  • Интеграция в собственное веб‑приложение или CLI

  • Работа в IDE через плагины (например, Continue для VS Code)

Даже если в проде в финале мы планируем использовать платную модель, вроде ChatGPT или Claude, для этапа разработки удобнее (и бесплатнее) подключаться к локальным LLM.

Для этого надо перейти во вкладку Developer (зелёная консоль) и включить сервер. Адрес сервера по умолчанию:

http://localhost:1234/v1

На этом скрине я поменял адрес сервера для inter-ops со своим WSL - вам, скорее всего, это не придётся делать
На этом скрине я поменял адрес сервера для inter‑ops со своим WSL — вам, скорее всего, это не придётся делать

Кодинговый ассистент

Ну а теперь перейдём к ещё одному практическому использованию API‑сервера — подключению кодингового ассистента. Это не полноценный гайд по вайб‑кодингу, поэтому мы лишь кратко рассмотрим, как подключить LM Studio к Continue — плагину‑оболочке для интеграции LLM в Visual Studio Code.

  1. Установливаем плагин Continue из Marketplace.

  2. В LM Studio включаем режим разработчика (Developer Mode) и запускаем API‑сервер. В консоле должно отобразится сообщение о запуске сервера.

  3. В настройках Continue ищем Models → + New Assistant. В открывшемся config.yaml добавляем настройки модели:

Пример настроек. Название модели должно соответствовать точному ID в LM Studio.

name: Local Assistant version: 1.0.0 schema: v1 models: - name: Qwen LM Studio provider: openai model: qwen/qwen2.5-coder-14b apiBase: http://localhost:1234/v1 apiKey: "" roles: - chat - edit - apply context: - provider: code - provider: docs - provider: diff - provider: terminal - provider: problems - provider: folder - provider: codebase

Теперь наш кодовый ассистент работает локально — и бесплатно.

А если вы один из тех инженеров Samsung, которые ранее отправили конфиденциальный код на внешний сервер — теперь ваш начальник будет вами доволен!

В следующих туторах рассмотрим Ollama и более обширную настройку ИИ ассистентов для кодинга.

Комментарии (44)


  1. Incognito4pda
    27.06.2025 17:18

    Автор, а ты не пробовал поиском пройтись, прежде чем публиковать однотипный шлак?


    1. GiantLynx Автор
      27.06.2025 17:18

      Каюсь, многоуважаемый, за несколько дней до того, как дописал статью - появилась одна реально по содержанию похожая!

      Но это если сравнивать чисто по заголовку.

      У автора фокус на Макбуке - у меня платформенно-обобщенный.

      У автора обзор LM Studio с фокусом на Gemma - у меня кроме LM Studio обзор разных открытых LLM - в помощь читателю, что выбрать.

      У автора больше про использование интерфейса - у меня про настройку параметров.

      У меня блок про настройку кодингового ассистента.

      Но нет, надо удалять, потому что не исполнена ачивка "первонах"


      1. Incognito4pda
        27.06.2025 17:18

        Ага, то есть ты даже не понял что надо в поиске крутануть вниз и найти ещё штук 20 по настройке LM Studio, а просто выцепил для сравнения первую попавшуюся из списка? В интересное время живём. ))


        1. GiantLynx Автор
          27.06.2025 17:18

          Начать стоит с того, что мы с вами на брудершафт не пили.
          Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше.
          Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.


      1. Hopenolis
        27.06.2025 17:18

        Подожди, ты что хочешь сказать что это не прошлогодняя консерва? У тебя в списке моделей нет ни одной актуальной, ни ламы4 ни геммы3 ни квина3.


        1. GiantLynx Автор
          27.06.2025 17:18

          Это про ретро и классику! Переделал обзор LLM на самые актуальные.


      1. kekusprod
        27.06.2025 17:18

        А ещё у автора нейромесиво с дублями. Думаю, с этого стоило начинать аргументацию. У вас статья всяко лучше


  1. anonymous
    27.06.2025 17:18


    1. CBET_TbMbI
      27.06.2025 17:18

      Эта статья получше прошлых. Даёт более полную и структурированую информацию. Да и стиль текста лучше. Видно, что человек рассказывает, а не пишет статью для галочки.

      Единственное, чего не хватает, это сравнения с другими способами, например Олламой или что там ещё есть. Хотя, возможно, это тема для отдельной статьи.


  1. MAXH0
    27.06.2025 17:18

    Вопрос который меня интересует: Цена компьютера на котором всё это вертится в достойной конфигурации?


    1. GiantLynx Автор
      27.06.2025 17:18

      Добавил блок про железо в статью.
      Я собирал компьютер полгода назад, ещё до выхода RTX 50xx.
      Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.


    1. K0styan
      27.06.2025 17:18

      Я собрал машину именно с целью крутить LLM-ы локально за 93 тыщи в прошлом сентябре. Примерно килобакс, выходит.

      В основе Ryzen 5600 + 32G RAM + 4060 Ti 16G - не самый сбалансированный вариант в целом, но позволяет модели с 8-13 млрд. параметров и квантованием Q4 запускать из видеопамяти, с производительностью, не вызывающей раздражения.


    1. SkyDelete
      27.06.2025 17:18

      Буквально на днях собрал такой конфиг: Ryzen 5 9600X + 32 Gb + RTX 5070 Ti, вышло ~165 ₽ (без ssd/hdd).

      При желание сэкономить можно взять RTX 5060 Ti 16Gb (-40 ₽), 16Gb VRAM в любом случае минимум, печально что больше 16 Gb, только RTX 5090, за невменяемые 300 ₽.

      Генерация выдает примерно 60-70 токенов в секунду, нормально работает с контекстом около 10k (deepseek-r1-0528-qwen3-8b, gemma-3-12b), но пока особо не было времени экспериментировать.


      1. SkyDelete
        27.06.2025 17:18

        *DeepSeek-R1-Distill-Qwen-14B


      1. korolevdd
        27.06.2025 17:18

        Что мешало взять 3090Ti с 24Гб памяти, за еще меньшую сумму?


  1. SabMakc
    27.06.2025 17:18

    Приватность. Ни один байт данных не уходит на чужие серверы.

    Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.

    Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).

    Но локальные модели еще слишком слабы в кодинге.


    1. K0styan
      27.06.2025 17:18

      На приватность можно только надеяться.

      Зачем надеяться, когда можно просто проверить трафик, генерируемый конкретно этим приложением и его процессами? Для локальной работы он должен быть вообще нулевым. Если использовать встроенный сервер, то да, понадобится снифер, но опять же, всё в ваших руках. Даже файрволл при желании.


      1. SabMakc
        27.06.2025 17:18

        Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
        Или после какого-нибудь невинного запроса текущими метриками.

        В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.


        1. GiantLynx Автор
          27.06.2025 17:18

          Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.


          1. SabMakc
            27.06.2025 17:18

            Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.


            1. GiantLynx Автор
              27.06.2025 17:18

              Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.

              Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки.
              Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.


              1. Shannon
                27.06.2025 17:18

                Мне тоже хотелось бы, чтобы софт был опенсорсным

                Не всё сводится к LM Studio, есть хорошие опенсорсные клиенты + сервер:

                Открытые клиенты, которые требуют самостоятельного бэкэнда:

                Закрытая альтернатива LM Studio, по их мнению во всём лучше чем LM Studio:

                LM Studio хорошо работает как быстрый старт, но если нужно, найти альтернативу можно, основные это Jan и Cherry Studio. Мне лично нравится text-generation-webui из-за различных гибкостей, которых нет в упрощенных клиентах.


    1. Iipoctoy
      27.06.2025 17:18

      Здравствуйте. Можете посоветовать ллм для ролеплея на русском? 12гб видеокапять т.е 8в 12в модели можно запускать.


      1. SabMakc
        27.06.2025 17:18

        Нет, ничего не подскажу - не интересовался подобным.

        Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).

        P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )


    1. Shado_vi
      27.06.2025 17:18

      как слабы?
      а например codestral так плох?


      1. SabMakc
        27.06.2025 17:18

        Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
        И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.

        Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.

        Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.


        1. Shado_vi
          27.06.2025 17:18

          все вышеперечисленное встречается в результатах ChatGPT, Claude, Google Gemini.
          можно за счёт квантификации сэкономить на памяти и запускать даже на 16 гб vram.


          1. SabMakc
            27.06.2025 17:18

            Да, это общая проблема всех LLM. Все-таки LLM - это про предсказание текста, понимания там нет. Путаются, бредят, и даже ленятся.

            Но, стоит признать, работают они крайне убедительно!

            P.S. Понижать квантизацию - сомнительный вариант, модели быстро деградируют. Но да, считается, что низкий квант лучше, чем меньшая по параметрам модель при том же весе.


          1. GiantLynx Автор
            27.06.2025 17:18

            Храню как память свои генерации из 2022 года. Это, правда, не LLM, а диффузионка, но напоминание, что темпы развития нейросетей могут огорошить. Через максиму 3-4 года, а то и раньше у каждого, кто сможет себе позволить станцию за 2000-3000 долларов будет свой домашний ChatGPT-4o


    1. icemanic
      27.06.2025 17:18

      То есть qwen3, допустим, можно разместить на Вирт машине без графики?


      1. SabMakc
        27.06.2025 17:18

        Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
        Поэтому видеокарты и в почете - у них быстрая память.

        А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).

        Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).


  1. Akriosss47
    27.06.2025 17:18

    Какую модель посоветуете для CTF решения,этичный хакинг.В любой облачной модели не работает приходится искать jailbreak.


    1. Hopenolis
      27.06.2025 17:18

      Ну так и используй топовые модели с jailbreak. Почему тебе кажется что крошечные локальные модели смогут выполнить такую работу?


      1. Akriosss47
        27.06.2025 17:18

        Сложно найти рабочие особенно с chatgpt


    1. GiantLynx Автор
      27.06.2025 17:18

      Я не занимаюсь этичным хакингом, но можно попробовать Dolphin-2.7 Mixtral-8x7B и OpenHermes-2.5 Mistral-7B. У них минимум фильтров


  1. Zeus42
    27.06.2025 17:18

    Довольно приятная статья. Я попал уже на последнюю итерацию, когда добавили много чего (судя по комментариям), но итог получился хороший.

    Все описано подробно, не грузяще и главное понятно. Для тех кто пишет про одинаковость - напишите лучше, тогда это будет лучшим аргументом в вашу пользу.

    Буду ждать статью про Ollama :)


  1. ProfDonda
    27.06.2025 17:18

    Apropo, а Mac Mini (M4 Pro, 12C CPU, 16C GPU, 24GB) что потянет из перчисленного?


    1. NeraDail
      27.06.2025 17:18

      смотрите на видеопамять именно она в цене сейчас. то есть то же что и nvidia с таким же объемом памяти, только чуть помедленнее


  1. Baigildin
    27.06.2025 17:18

    А с помощью каких параметров настраивается/отключается цензура?


    1. NeraDail
      27.06.2025 17:18

      RAG или системный промпт. советую не мучиться и сразу скачть с hugging face модельс отлючнным цензором