Вы когда‑нибудь задумывались, как это — иметь мощь языковой модели прямо на вашем компьютере? Экспериментировать с LLM (большими языковыми моделями) локально — словно открыть тайную дверь в мир ИИ... Вам открыт широкий горизонт для исследований, творчества и практического применения.

Но как запустить нейросеть на компьютере, если вы не Google? Хорошая новость: в 2025 году это стало проще и доступнее, чем когда‑либо! Вам не нужен суперкомпьютер (хотя мощная видеокарта значительно ускорит процесс). Современные эффективные модели и специализированное ПО делают локальный запуск нейросети реальностью для многих пользователей.

Давайте разберёмся, что для этого нужно. Мы рассмотрим 7 наиболее оптимальных для локального запуска моделей — Llama, Qwen, DeepSeek, Phi, Gemma, Mistral, Granite, — а также 4 быстрые и удобные программы: Ollama, LM Studio, Jan и GPT4All.

Что такое локальная LLM? Нейросеть можно запустить локально?..

«Локальная LLM» — звучит как глобальная загадка, но на самом деле всё гораздо проще. Это крупная языковая модель, которая функционирует именно на вашем устройстве. То есть «безоблачно», всё происходит внутри вашей машины. Чем не лаборатория будущего?

«Идея интересна, но делает ли это моё устройство реальным кандидатом для экспериментов?» — спросите вы. Ответ: по большей части да! Современные устройства, будь то настольный ПК или мощный ноутбук, сегодня способны справляться с запуском большинства популярных моделей. Однако есть нюансы, о которых стоит знать, прежде чем бросаться в пучину локального ИИ.

Отмечу, что, хотя локальные LLM дают невероятную свободу, их потолок возможностей пока ниже, чем у ведущих облачных моделей (таких, как Claude Sonnet 4, ChatGPT o3 или Gemini 2.5 Pro). Когда нужен абсолютный максимум интеллекта или работа с огромными контекстами, удобно использовать агрегаторы типа BotHub, где можно запустить любые топовые нейросети.

Итак, давайте разберём подробнее... Что потребуется вашему компьютеру, чтобы стать верным союзником в освоении LLM?

Требования к оборудованию

Хорошо, начнём с главного (и, возможно, самого наболевшего): железо. Вы, возможно, удивитесь, но вашей машине необязательно быть топовым «монстром», хотя есть важные моменты для достижения достойной скорости и производительности.

  • GPU: ускоритель вашего прогресса

    Первое и главное правило в мире ИИ: GPU — ваше всё. Графический процессор ускоряет обработку данных, а значит, ваша LLM сможет работать не просто быстро, а мегабыстро. Если у вас есть локальная видеокарта, то именно она станет пропуском в высокопроизводительный локальный ИИ.

    Здесь ключевым фактором становится объём видеопамяти (vRAM). Чем он больше, тем крупнее модели можно запускать. Дело в том, что vRAM позволяет держать наготове все нейропараметры модели, и при этом данные загружаются мгновенно — гораздо быстрее, чем через традиционную оперативную память.

    Как в старой шутке, без мощного GPU можно работать, но доберётесь вы до цели уже к следующему утру :‑) Да, запуск многих ИИ-моделей через обычные процессор и оперативную память будет происходить буквально в десятки раз медленнее, нежели в случае видеокарты.

  • Оперативная память (RAM)

    Если LLM — это марафон, то RAM — это ваш запас воды. Чем модель сложнее, тем более «жадной» она становится к вашему аппарату. Не менее 16 ГБ ОЗУ — вот минимальный порог для старта. Для моделей среднего уровня это будет оптимальный старт.

Программное обеспечение

О’кей, железо готово. Что дальше? Помимо оборудования, вам понадобится подходящее программное обеспечение, чтобы эффективно запускать и управлять LLM локально. Обычно такие программы делятся на три категории:

  • Серверы

    Эти инструменты запускают модели и управляют ими в фоне. Они загружают данные, обрабатывают запросы и генерируют ответы. Подходящие примеры:

    • Ollama;

    • Lalamafile.

  • Пользовательские интерфейсы

    Вы не фанат терминала? Ничего страшного, здесь вас спасут визуальные решения. По сути, это красивые программы, куда просто вводишь текст, нажимаешь «Генерировать» — вуаля! — готовый результат. Примеры:

    • OpenWebUI;

    • LobeChat.

  • Полные решения (full‑stack)

    А вот для тех, кто ценит универсальность: full‑stack‑решения объединяют мощь серверов с дружелюбностью интерфейсов. Подходит, если в приоритете минимум головной боли. Вот список маститых бойцов этого фронта:

    • GPT4All;

    • Jan.

Как видите, запуск локальной LLM — не такая уж утопия. Главное — позаботиться о своём железе, правильно выбрать ПО и понять, что вам нужно от модели.

Открытые LLM: добро пожаловать в мир возможностей!

Итак, вы готовы? Вам понадобятся сами LLM, чтобы начать своё исследование или просто попробовать, на что способна современная генерация текста. Эти модели, как маленькие (или не очень) волшебники, берут ваши запросы и превращают их в осмысленный текст.

Но где найти это чудо современной инженерии? Ответ прост: Hugging Face. Если вы никогда о нём не слышали, то это прям‑таки «Амазон» для ИИ, только вместо товаров там — модели. Подготовьтесь выбрать из огромного разнообразия: от популярных решений до маленьких открытий для исследователей и фанатов DIY‑подхода. Почти все они — бесплатны. Ну как тут устоять?

Что ж, давайте перейдём к списку самых популярных моделей для локального запуска и узнаем, на что они способны.

Какие LLM можно запускать локально?

Представьте себе бурно развивающуюся экосистему, где ежедневно появляется что‑то новое. Это мир локальных LLM. В нём уже сложно угнаться за всеми, но мы попробуем выделить самое интересное и универсальное.

Универсальные семейства моделей

Эти модели — настоящие «мастера на все руки». Они популярны среди фанатов опенсорса и разработчиков, потому что показывают отличные результаты как на тестах, так и в реальной работе.

  • Llama✶ (Meta AI✶)

    Семейство Llama✶ — звезда локального ИИ. Помните выражение «великолепие в простоте»? Здесь оно как раз очень подходит. Llama 3✶, а также его многочисленные версии, впечатляют своей точностью в логических рассуждениях и генерации текста. Последняя версия, Llama 4✶, уже тоже выпущена (в апреле 2025-го), но её размеры пока превышают возможности локального оборудования — она настолько мощная, что для запуска понадобится ферма из видеокарт.

  • Qwen (Alibaba Cloud)

    Китай знает, как делать вещи! Семейство Qwen предлагает адаптации для всего: от генерации милого текста до сложного кода. Их младший герой, Qwen 2.5, демонстрирует абсолютные чудеса производительности при миниатюрных размерах. А версия Qwen 3 идёт ещё дальше — это опытный «воин» в мире многозадачности, умеющий вызвать внешние инструменты.

  • DeepSeek (Hangzhou DeepSeek AI Basic Technology Research)

    Вот он — «скрытый драгоценный камень». DeepSeek, начиная с версии R1, — признанный лидер в задачах логики. И креативный текст создаст, и за код возьмётся.

  • Phi (Microsoft)

    Если оборудование еле заметно произносит: «Мне тяжело…» — Phi станет отличным соратником. Эффективные, функциональные и поразительно компактные, эти модели радуют своим рациональным подходом.

  • Gemma (Google)

    Семейство Gemma буквально кричит: «Оптимизация — наше всё!» Их лёгкие модели даже на древнем ноутбуке покажут приличные результаты. За это спасибо версии Gemma 3, которая является олицетворением компактности и мощности (вариации на 1B, 4B, 12B или 27B параметров). Выбирайте и начинайте.

  • Mistral (Mistral AI)

    Французы, как всегда, со вкусом! Mistral предоставляет модели с открытым доступом, которые великолепно справляются с логикой и написанием кода. От 7B до новых гибридов Mixtral (на архитектуре misture of experts) — все они показывают выдающиеся результаты.

  • Granite (IBM)

    Добро пожаловать в эру IBM. Granite, особенно серия 3.3, — это ещё одно мощное семейство из мира опенсорса. С параметрами 2B и 8B, оно отлично подходит как для новичков, так и опытных разработчиков.

Всё это настолько вдохновляет, что просто не терпится начать тестировать — или хотя бы оценить, какая модель впишется в ваш случай.

Модели с расширенными возможностями

Локальные LLM давно уже перестали быть просто генераторами текста на все случаи жизни. Современные опенсорс‑решения позволяют выйти за пределы банальных сценариев, предлагая специализированные возможности для максимально точных задач. Давайте вместе заглянем под капот этих моделей.

Итак, помимо генерации текстов общего назначения, многие опенсорс‑модели демонстрируют выдающиеся способности в специализированных областях...

1. Модели для рассуждений (логика и дедукция)

Как насчёт того, чтобы ваша LLM превратилась в своего рода Шерлока Холмса логических задач? Такие модели, как DeepSeek‑R1, делают именно это. Они оптимизированы для сложных вычислений и вывода умозаключений.

Не отстают и другие:

  • Варианты Llama✶ и Mistral, адаптированные для логики, предлагают универсальность и надёжность.

  • Модели Phi от Microsoft, например, Phi 4 reasoning (даже её уменьшенная версия Phi 4 mini reasoning), справляются с анализом и при этом работают на устройствах с ограниченными ресурсами.

2. Mixture‑of‑experts (или просто MoE)

Эти модели функционируют, словно заглянув в клуб экспертной помощи ИИ: они активируют части своей сети исключительно под конкретные запросы, что позволяет значительно повысить эффективность.

Пример? Конечно, Qwen 3 — прекрасный представитель MoE. Любителям IBM понравится и Granite 3.1 MoE, который удачно сочетает компактность и интеллектуальное распределение задач.

3. Модели с функцией вызова внешних инструментов

А теперь вспомним, что LLM не ограничивается только текстами, но и умеет взаимодействовать с инструментами, например использовать API, выполнять системные команды или собирать данные. Такие модели особенно востребованы для построения агентных систем ИИ (да‑да, автономных помощников).

В данном случае попробуйте работать с Qwen 3, Granite 3.3, Mistral small 3.1 или Phi 4 mini.

4. Vision‑модели (больше, чем текст)

Разве мы могли забыть о ещё одном критически важном направлении? Мультимодальные модели способны анализировать изображения наряду с текстом. Попробуйте в деле:

  • Granite 3.2 Vision;

  • Llama 3.2 Vision✶;

  • Или BakLLaVA, которая базируется на Mistral 7B.

Специализированные модели для конкретных задач

Когда задачи становятся более узкоспециализированными, универсальные решения уступают место мастерам своего дела — а именно LLM, заточенным под конкретные области. Вот примеры:

1. Ассистенты для написания кода. Вы программист, который мечтает об ИИ‑помощнике за плечом? Тогда эти решения для вас:

  • DeepCoder: открытое семейство моделей (1,5B и 14B параметров), заточенное под высокопроизводительную генерацию кода.

  • OpenCoder: минималистичен, но функционален, поддерживает генерацию кода, а также общение на английском и китайском языках.

  • Qwen 2.5 Coder: семейство Qwen здесь тоже на высоте — специально настроено для задач программирования.

2. Математика и исследования:

  • Starling LM 11B alpha: эта модель на основе Mistral была создана, чтобы блистать в исследованиях и выполнении инструкций.

  • Mathstral: тоже произошла от Mistral. Специализация очевидна — продвинутые расчёты и высшая математика.

  • Qwen2 Math: ещё один математический гигант, оттачивающий функции до совершенства.

3. Творческое письмо:

  • Mistral 7B OpenOrca: тонко настроенная версия базовой модели Mistral 7B от Mistral AI, специально улучшенная за счёт обучения на тщательно отобранной выборке датасета OpenOrca. И конечно, стоит обратить внимание на дистилированные DeepSeek R1.

Выбор подходящей модели с открытым исходным кодом зависит от конкретных задач, которые вы планируете решать, и доступного оборудования. Экспериментируя с разными моделями, вы сможете найти оптимальное решение для своей локальной LLM‑системы.

Как запускать LLM локально?

Мы разобрались, что для локального запуска LLM первым шагом будет выбор модели, которая лучше всего подходит под ваши запросы. После этого нужно решить, каким образом вы будете её запускать, — часто это делается с помощью программ вроде Ollama. Однако Ollama — не единственный вариант. Существует множество других мощных и удобных инструментов для локального управления LLM, каждый из которых имеет свои особенности.

Давайте рассмотрим наиболее популярные решения.

Ollama (+ OpenWebUI)

Слышали про Ollama? Это не просто инструмент, а почти как старый добрый друг любителей командной строки. Если вы хоть раз задействовали терминал для чего‑либо более сложного, чем копирование файлов, то идеология Ollama вам точно приглянётся.

Ollama — лёгкая в использовании командная строка для управления локальными LLM. В нём практически всё продумано: от простоты загрузки моделей до запуска их работы. Отличный выбор для энтузиастов домашнего хостинга, которые хотят разместить Ollama в качестве ИИ‑бэкенда для различных приложений.

Однако у системы есть одна особенность, которую стоит учитывать: большинство её функций заточено именно под командный интерфейс. Для облегчения взаимодействия вы можете объединить Ollama с OpenWebUI. OpenWebUI добавляет удобный и понятный графический интерфейс, делая взаимодействие с моделью ещё более комфортным.

Преимущества:

  • Простота и удобство: запуск модели практически в два клика (ладно, хорошо, в пару команд).

  • Совместимость с открытыми моделями: обширный каталог поддерживаемых LLM.

  • Работоспособность на большинстве конфигураций: желательно железо помощнее, но и более скромное оборудование не оставят в стороне.

Недостатки:

  • Основан главным образом на работе через командную строку (если подразумевается вариант без графического интерфейса OpenWebUI), что может оказаться неудобным для некоторых пользователей.

LM Studio

LM Studio создана, чтобы сделать запуск и настройку локальных LLM максимально удобными, а заодно предоставить все инструменты для экспериментов и тонкой подгонки моделей под ваши задачи. Если вы исследователь или разработчик с амбициями взять управление в свои руки, это ваш инструмент.

Этот инструмент особенно ценен для индивидуальной адаптации и настройки LLM, что делает его любимым решением среди исследователей и разработчиков, которым важно глубокое управление своими ИИ‑решениями.

Преимущества:

  • Настройка моделей. Платформе подвластно многое — от базовых настроек до глубокого файнтюнинга.

  • Функции сравнения производительности различных моделей и конфигураций для выбора оптимального подхода.

  • Совместимость с большинством аппаратных средств и основными операционными системами.

Недостатки:

  • Крутая кривая обучения в сравнении с другими инструментами: интерфейс требует усердия и времени, чтобы освоиться.

  • Настройка и эксперименты могут потребовать значительных вычислительных ресурсов.

Jan

Jan создан для тех, кто стремится начать с комфорта и безопасности, предпочитая лёгкость запусков.

Jan уникален благодаря своей гибкости в конфигурации серверов. Хотите использовать локальный сервер; а может, хочется интеграции с Ollama или LM Studio? Jan с лёгкостью это умеет. Модель можно подогнать под разные сценарии, что делает её прекрасным выбором для вас, если вы ищете баланс между универсальностью и дружественным интерфейсом.

Преимущества:

  • Гибкость настройки серверов, включая интеграцию с Ollama и LM Studio.

  • Удобство для новичков: не нужно погружаться в дебри, чтобы начать работать локально.

Недостатки:

  • Однако у Jan есть один заметный нюанс… хотя он совместим с большинством оборудования, поддержка графических процессоров AMD всё ещё в стадии разработки.

GPT4All

GPT4All был разработан с учётом удобства использования и предлагает интерфейс на основе чата, что упрощает взаимодействие с LLM. В нём уже встроена функция LocalDocs, позволяющая «общаться» с вашими документами.

Преимущества:

  • Интуитивно понятный интерфейс чата.

  • Совместимость с большинством оборудования и основными операционками.

  • Опенсорс‑решение с активным участием сообщества.

  • Доступна корпоративная версия.

Недостатки:

  • Не всё, увы, совершенно. По сравнению с иными решениями, может уступать в богатстве функционала, особенно в возможностях адаптации и файнтюнинга модели.

Сравнительные таблицы

Линейки моделей, подходящих для локальной работы:

Сервисы запуска нейросетей:


Теперь вы знаете, как запустить нейросеть через компьютер, какие инструменты применить и модели выбрать. Локальный запуск LLM — это увлекательный процесс, дающий глубокое понимание работы современных языковых моделей и невероятную свободу действий. Осталось применить эти знания на практике. Какая LLM первой поселится на вашем компьютере? Делитесь вашими планами и первыми результатами!

Удачи в ваших ИИ‑приключениях!


Meta — деятельность организации запрещена на территории Российской Федерации.
Llama — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Комментарии (18)


  1. IIIIIIIIII1234
    28.07.2025 14:47

    Какую модельку посоветуете для обобщения информации из видео? Есть ли опенсорсные варианты? На примере как сервис NoteGPT

    Если рассматривать ваш сервис - есть ли API для решения подобной задачи?


    1. pol_pot
      28.07.2025 14:47

      Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.

      Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.


    1. muraview
      28.07.2025 14:47

      бесплатный Subtitle Edit позволяет вытащить субтитрами текст из видео через Vosk/Kaldi или разные варианты Whisper (есть и с CUDA), может сконвертировать их в текст, и при необходимости сделать автоперевод через локальный сервер LM Studio. Полученный текст (или сами субтитры сразу) можно скормить моделям того же LM Studio.


  1. kaibruneji
    28.07.2025 14:47

    Щас бы ответы чатгпт копипастить в хабр, а нам это читать. Зачем посредник в виде "автора"?


    1. dmitrifriend Автор
      28.07.2025 14:47

      При написании этой статьи были применено несколько источников, а также три нейросети. Но затем результат редактировался вручную. Основной текст не был сгенерирован через нейросеть (хотя не вижу в этом ничего плохого — важна достоверность информации, а не способ её получения). Ну а двухуровневые списки тоже отформатированы лично мною, для удобства считывания, — но на сегодняшний день многим кажется, что это признак сгенерированности текста) Возникает парадокс, что более оптимальная структура пересекается с кажущейся сгенерированностью.


  1. mckokos
    28.07.2025 14:47

    Нашёл крутой локальный кодер аналог курсора Void Editor. К сожалению моя 3060-12гб тянет тяжело. Плюс не все модели подходят доя void пока что. Но я ещё не сдался) ollama ещё попробую заменить на vLLN.


  1. eresik
    28.07.2025 14:47

    В Anaconda Navigator запускаем Anaconda AI Navigator.
    Там для загрузки доступно 59 моделей. Каждая ещё и с разными вариантами квантизации.

    Для "просто побаловаться" более чем достаточно, и проще некуда, если у вас уже стоит Анаконда.
    Можно чатом воспользоваться, можно как локальный сервер запускать.


    1. VBDUnit
      28.07.2025 14:47

      LM Studio кстати тоже умеет поднимать сервер, даже несколько моделей параллельно можно грузить.


  1. DANic
    28.07.2025 14:47

    Вот бы статью как эффективно использовать нейроннку запущенную локально. Вот у вас есть 4090 или 5090 сделай это и это и вот у тебя есть AI ассистент который в фоне поверяет каждый коммит или выполненные команду и в удобном интерфейсе собрал для тебя все ошибки и варианты для их решения, уже составил доку, юнит тесты, релиз нотесы и готов менять статус задач по твоей команде... эх мечты, мечты


  1. VBDUnit
    28.07.2025 14:47

    Ради интереса грузил Qwen3 на 480b параметров с квантизацией Q3. Поручил писать алгоритм изменения яркости в духе

    void DoBrightness(Bitmap batman, float multipler)

    Попросил всё люто‑бешено оптимизировать с unsafe и LUT таблицами, и чтобы большие битмапы через Parallel. Пахало 12 часов, справилось, честно говоря, на троечку. Видимо квантизация помешала. Модельки на 32b и 72b справились примерно так же, зато ответ выдавали через 10–30 сек.

    Выводов не будет, просто делюсь опытом.


  1. starfair
    28.07.2025 14:47

    Кстати, кто пробовал локальные LLM для кодинга, по субъективному мнению, какой ЯП более менее на них сносный результат дает?


    1. max851
      28.07.2025 14:47

      Тестил с Python i Golang. Пишет не плохо. Реальная проблема - нужно постоянно поправлять и указывать на недостатки. Итого в сумме по времени часто больше чем написать самому. Личное мнение - прикольная штука для переключения вида деятельности писать/ревью


      1. starfair
        28.07.2025 14:47

        Спасибо, я примерно о таком и слышал. Видимо кодовая база наиболее мощная использовалась.
        Что до поправок и контроля, то и на больших моделях, надо очень за ними следить. Вообще прихожу к выводу, что LLM мне нужен или как хороший стартовый пинок, для организации проекта (писал тут как раз свой SQL Wizard на js и ИИ очень не плохо справился в начале), либо для очень локальных коррекций готового кода. Все остальное зачастую просто трата времени, нервов и денег выходит. Ещё в чем ИИ очень хорош - в анализе и составлении документации или комментировании кода. Тут прям мегаэкономия всего перечисленного выше!


  1. EvilFox
    28.07.2025 14:47

    Вместо ollama используйте llama.cpp+llama-swap.
    Я предлагаю забыть про ollama, это кривое и глючное паразитное ответвление от llama.cpp.

    Ollama заметно отстаёт в поддержке от llama.cpp:

    1. Легко можете столкнуться с тем что одна и та же модель (уже не очень новая) у вас отлично работает на llama.cpp, но выдаёт мусор на ollama.

    2. У вас не будет вулкан бэкэнда, не будет RPC и многого другого.

    3. Были случаи с заметно более низкой производительностью (например у gemma3).

    4. Поддержка новых моделей отстаёт.

    5. Базовый webui c поддержкой картинок и аудио уже есть в llama.cpp (llama-server).

    6. У llama.cpp совместимое с openai api и вы можете пользоваться любыми сторонним webui или какими-то иными инструментами под него, просто переопределив baseurl.

    Изначально ollama была обвязкой над llama.cpp, где реализовали своё апи со сваппером и вендорлокнули на собственное хранилище моделей и затруднили пользование моделями с HF.
    Потом они стали тащить какие-то мутные PR и делать сами тяп-ляп правки в свой форк llama.cpp, по итогу они сильно разошлись с апстримом и теперь как могут латают своё чудовище.


  1. Licemery
    28.07.2025 14:47

    >LLama*

    Сервильные клоуны уже не знают, как сильнее лизнуть цензорам, что даже названия моделей начали писать со звездочками. Как бабки в старину, поминая чёрта, говорили "чур меня, чур".


  1. maertor
    28.07.2025 14:47

    Это штука не убьет ресурс ссд раньше времени?


    1. dmitrifriend Автор
      28.07.2025 14:47

      Программы вроде Ollama обычно не вызывают существенной нагрузки на ресурс SSD. Ведь модели «складируются» на диск единожды (или, во всяком случае, редко, с учётом переустановок и обновлений), а ресурс твердотельного диска расходуется только при записи, а не чтении. Больше всего будут затронуты видеокарта и оперативная память, для которых обмен данными также не является трудоёмким. Единственное, на что стоит обратить внимание, — это размещение файла подкачки на SSD-диске: вероятно, стоит отказаться от этой идеи, взамен увеличив объём оперативной памяти.


  1. allsan
    28.07.2025 14:47

    Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок). И как происходит этот процесс впринципе. Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?