
Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением «Недостаточно памяти». Казалось, что домашний ИИ — удел владельцев космических станций с жидким азотом.
Но прошло совсем немного времени, и ситуация изменилась до неузнаваемости. Теперь достаточно обычной RTX 3060 и получаса свободного вечера, чтобы завести себе персонального ассистента, который работает на даче без интернета и умеет шутить (или хотя бы пытается).
Я расскажу обо всём по порядку — без воды и фанатизма. Что вообще запускать, на чём запускать, какие подводные камни ждут и почему «самая новая модель» дома — далеко не всегда лучший выбор.
Поехали!
Готовьте отвёртку и VRAM – мы начинаем!
Зачем вообще держать ИИ дома (и зачем – нет)
Давайте сразу проговорим неприятное. Локальная нейросеть почти всегда слабее, медленнее и тупее, чем то, что вы получаете в платной онлайн‑подписке. На вашем десктопе крутится модель уровня «компактная и старательная», а не «всеведущая и моментальная». Сложные задачи — серьёзный анализ кода, юридический ресёрч, многоступенчатое математическое рассуждение — она будет вытягивать с натяжкой, ошибаться, галлюцинировать API, которых не существует, и выдавать тексты в стиле «школьное сочинение, переведённое через переводчик». Это нормально. Так и должно быть: ваш домашний компьютер — не дата‑центр на тысячу H100.
Тогда зачем вообще это всё?
Во‑первых, эксперименты. Если вы хотите потрогать руками, как устроен инференс, поиграться с квантованиями, попробовать свой fine‑tune — без локальной установки вы далеко не уедете. Во‑вторых, офлайн‑сценарии: дача без интернета, командировка в самолёте, рабочий ноутбук с жёсткими политиками безопасности. В‑третьих, обучение: один час с llama.cpp научит больше, чем десяток статей про «как работает LLM». В‑четвёртых, узкие задачи: транскрипция диктофонных записей через Whisper, локальный RAG по своим заметкам, простой чат‑бот для проекта.
То есть локальная модель — это инструмент для конкретных задач, а не универсальная замена ChatGPT. И вот тут начинается интересное.

Комфортная работа с ИИ начинается тогда, когда вы перестаете ждать ответа и начинаете думать над задачей. Если ваша видеокарта не выдаёт 80+ токенов в секунду, это не повод мириться с медлительностью. BotHub предоставляет доступ к моделям, которые «строчат как пулемет» без нагрузки на ваше личное железо. Просто откройте вкладку и работайте с GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7 и другими топовыми нейросетями, пока локальный сервер обрабатывает промпт.

Для доступа не требуется VPN, можно использовать российскую карту.
По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Видеокарта vs процессор: разница в десятки раз
Главное правило, которое стоит усвоить ещё до первой установки: CPU и GPU — это совсем разные миры скорости.
Вы можете запустить любую современную модель чисто на процессоре. На небольших 3B–7B‑моделях CPU‑only вполне справляется — будет работать, будет даже отвечать. Но скорость на CPU — это, в лучшем случае, «фастридер», по меткому сравнению одного из блогов: «RTX 4090 пишет текст „как пулемёт“ (80+ токенов в секунду), а Mac — „как скорочтец“ (10–20 токен/с)». Обычный же десктопный процессор без GPU‑помощи — это уже даже не «фастридер», а скорее «ленивец, читающий по слогам». На современном CPU 7B‑модель выдаёт примерно 5–10 токенов в секунду. На приличной видеокарте та же модель — 50–80 токен/с, а маленькие модели и все 100+. То есть разница реально в десятки раз.
Почему так? Дело в архитектуре: GPU умеет выполнять тысячи параллельных операций над матрицами, а это ровно то, чем занимается нейросеть на каждом токене. CPU тоже умеет, но в десятки раз медленнее. Поэтому если вы планируете чем‑то всерьёз пользоваться, а не «потыкать раз в неделю» — нужна видеокарта.
Какая видеокарта нужна: VRAM решает всё
Когда‑то для игр гнались за частотами и числом ядер. Для ИИ метрика одна — сколько VRAM в карте. Если задать один и тот же вопрос Claude, GPT и Gemini — «Какое железо нужно для локальных моделей?», — все три ответят хором: GPU VRAM решает всё. В отличие от игр, где главное — это скорость чипа, в ИИ объём видеопамяти определяет даже не скорость, а сам факт того, запустится модель или нет.
И тут есть жёсткое правило: если модель влезла в VRAM — летает. Не влезла — часть весов уезжает в системную RAM, и скорость падает в 50–100 раз. Замечу: «50–100x падения» — это не опечатка. Если ваша модель не влезла в видеопамять и часть весов уехала в RAM, вы получите тот самый «фастридер уровня ленивца». Поэтому VRAM — это «либо есть, либо нет», полутонов мало.
Дальше — практический разрез по популярным моделям видеокарт:
Видеокарта |
Что реально запустится |
Комментарий |
RTX 3060 (12 GB) |
7B–14B в Q4, Gemma 4 E4B |
Бюджетный король: 12 ГБ VRAM (больше, чем у RTX 3070 или 3080 на 10 ГБ) за небольшие деньги |
RTX 4060 / 4060 Ti (16 GB) |
13B уверенно, 26B MoE на пределе |
16-гиговая версия 4060 Ti – отличный middle-ground |
RTX 5060 (8 GB) |
7B-модели, мелкие MoE |
Свежее, шустрое, но 8 ГБ сильно ограничивают |
RTX 4070 / 4070 Ti (12/16 GB) |
26B MoE, Qwen3.6 35B-A3B (с трюками) |
На 4070 Ti 16 GB Gemma 4 26B MoE в Q4_K_M даёт ~30 токен/с |
RTX 3090 (24 GB) |
30B–34B спокойно, 70B с сильным сжатием |
Вечный “король цены за гигабайт VRAM”: б/у за 700–800 $, при том же объёме памяти, что и у RTX 4090, и почти той же скорости инференса |
RTX 4090 (24 GB) |
То же, что 3090, но быстрее |
Вкуснее по скорости, но в 2,5 раза дороже |
Откровение для геймеров. RTX 3090 — старушка 2020 года выпуска — до сих пор в топе для домашнего ИИ просто потому, что у неё 24 ГБ VRAM. Новенькая RTX 4060 Ti с 8 гигами в инференсе LLM ей проиграет. Здесь не та игра, где «40 > 30 = лучше».
Apple Silicon — отдельный лагерь со своими правилами. У Mac unified memory: оперативка и видеопамять — это одна и та же физическая память. Apple‑чипы делят память между CPU и GPU, и на M4 Max с 128 ГБ unified memory видеоядру доступен весь этот объём, без отдельного лимита VRAM. Это позволяет крутить модели, которые на «обычном» ПК потребовали бы серверного железа. Но цена — скорость: грубо говоря, RTX 4090 строчит токены как пулемёт (80+ токен/с), а Mac — как опытный скорочтец (10–20 токен/с).
И ещё про железо в целом
RAM — берите минимум 32 ГБ. Запас под модель должен быть примерно двукратным: для 4-гигового Q4-файла нужно около 8 ГБ свободной RAM, чтобы всё работало плавно. Это правило, не пожелание.
Диск — только NVMe SSD. Модели весят от 4 до 40+ ГБ, а грузить 22-гиговый чекпойнт с обычного HDD — занятие для обладателей бесконечного терпения.
CPU — менее критичен для самой генерации, но важен для обработки промпта и работы в многопользовательском режиме. Восемь ядер — норм, шестнадцать — комфортно.
БП — 750 W для одной карты, 850–1000 W для топовой, 1200+ для двух. Локальный ИИ — это сустейнд‑нагрузка, а не всплеск, как в играх.
Память — главное «не забудьте»
Модель занимает память всё время, пока она загружена. Не «во время генерации», не «когда вы пишете промпт» — а всё время. Загрузили gemma4:26b — отдали 14 ГБ видеопамяти, и они никуда не денутся, пока вы не выгрузите модель явно. То есть планируйте свой день так: если вы запускаете ИИ — закрывайте всё лишнее. И я говорю серьёзно, как диспетчер, который считает каждую открытую вкладку Chrome.
Что это значит на практике:
Игры — нет. Видеопамять занята.
Фильм в 4K через DaVinci Resolve — не одновременно с моделью.
Stable Diffusion на той же карте — забудьте.
Десять вкладок Chrome с YouTube — а вот тут уже считаем. Каждая «жирная» страница — это сотни мегабайт RAM, и если у вас 32 гига и модель просит 22, остаётся 10 на ВСЁ остальное. Включая саму Windows.
Отсюда правило: берите железо с запасом. Лучше иметь свободные 8 ГБ поверх модели, чем потом гадать, почему системой невозможно пользоваться. Альтернатива — использовать более ужатые квантования (Q4 вместо Q8 экономит вдвое‑втрое VRAM при умеренной потере качества), но об этом ниже.
И ещё одна тонкость: больший контекст — больше памяти. Контекст в 32k токенов весит куда больше, чем в 4k, потому что под KV‑кэш нужно физическое место. Так что когда видите соблазнительную надпись «context window 256K», не спешите радоваться: на домашнем железе вы в жизни столько не используете. Один из обозревателей прямо пишет, что Gemma 4 заявляет 256K контекста, но на потребительском железе реально стоит рассчитывать на ~20K токенов — после этого вывод резко проседает из‑за давления на память. Двадцать тысяч — и всё, дальше упор в память.
Форматы моделей: GGUF, MLX и прочая алхимия
Прежде чем мы перейдём к моделям, нужно разобраться с одним важным понятием — квантование и формат хранения весов.
Изначально модель из лаборатории — это огромная папка PyTorch‑файлов, где каждый параметр занимает 16 или 32 бита. Для 7B‑модели это 14–28 ГБ только весов. Для 30B (30 миллиардов параметров) — 60+ ГБ. На домашнем ПК такое не запускают: на запуск нужен сервер с A100/H100.
И тут на сцену выходит GGUF — формат, разработанный Георгием Гергановым (тот самый llama.cpp). Если объяснять простыми словами, исходные модели — это «огромные книги на языке, которого ваш компьютер не понимает». Идея GGUF простая: ужать каждый параметр до 4, 5, 6 или 8 бит — и одновременно так упаковать веса, чтобы они могли работать и в RAM, и в VRAM, и даже наполовину там, наполовину тут. Это, кстати, ключевое отличие GGUF от других форматов: он спроектирован не только под видеопамять. Если у вас слабая карта — часть слоёв уехала в обычную оперативку и модель всё равно крутится, пусть медленнее.
Когда вы видите названия типа Q4_K_M, Q5_K_S, Q8_0 — это уровни квантования:
Квант |
Что это |
Качество |
Размер |
Q2_K |
Самое жёсткое сжатие |
Заметная потеря |
~25% от FP16 |
Q4_K_M |
“Народный” вариант |
Почти не отличается |
~33% от FP16 |
Q5_K_M |
Чуть лучше Q4 |
Очень хорошее |
~40% от FP16 |
Q6_K |
Для требовательных |
Отличное |
~50% от FP16 |
Q8_0 |
Почти без потерь |
Идеальное |
~55% от FP16 |
? Правило большого пальца. Начинайте с Q4_K_M — это золотая середина для большинства домашних задач. Q4 — это, по сути, «лайт‑версия» модели: запускается быстро, работает почти на любом компьютере, а потери качества по сравнению с FP16 для большинства задач едва заметны. Если есть свободная VRAM — поднимайтесь до Q5 или Q6. Q8 — это уже для перфекционистов.
Помимо GGUF, есть и другие форматы: MLX для Apple Silicon (нативно использует Metal), GPTQ и AWQ (квантования для GPU‑ориентированных рантаймов), ONNX (универсальный для WebGPU и не только). Но для домашнего пользователя в 95% случаев имеет значение именно GGUF — потому что он работает везде и без головной боли.
Программы-оболочки: где и как всё это запускать
Теоретически вы можете собрать llama.cpp из исходников, написать конфиги, разобраться с CUDA — и запустить модель из терминала. Практически — этого делать не нужно. У нас 2026-й, и есть отличные оболочки для людей, которые не хотят коротать вечер, разбираясь, почему cmake ругается на отсутствие nvcc.
Разберу четыре самые популярные.
LM Studio — лучший GUI для большинства

Если бы я выбирал одну программу для подруги, которая впервые садится за локальный ИИ, — я бы выбрал LM Studio. Это, наверное, самый отполированный графический интерфейс среди всех инструментов для локальных LLM, и он действительно делает запуск моделей доступным для людей без технического бэкграунда.
Что внутри: красивый интерфейс, встроенный браузер моделей с Hugging Face, ползунки для всех параметров, чат прямо в приложении и — что важно — встроенный API‑сервер, совместимый с OpenAI. Поставил, открыл вкладку «Discover», ввёл «gemma 4», скачал, нажал «Load» — и через минуту уже общаешься.
Установка — заходите на lmstudio.ai, скачиваете установщик (есть для Windows, macOS на M‑чипах, Linux). Запускаете. Всё.

Что особенно приятно, LM Studio показывает, влезет ли выбранная модель в ваше железо. Зелёная галочка — запустится. Жёлтая — частично, через offload на CPU. Красная — забудьте. Это спасает от часовых скачиваний с последующим разочарованием.
Из практики: если вы используете ноутбук с iGPU или скромной дискреткой — LM Studio автоматически подберёт квантование под вашу память. Можно даже не думать. Хотите больше контроля — есть вкладка «Developer» с кучей параметров от флэш‑внимания до KV‑квантизации.

Ollama — командная строка для людей

Ollama — это, по сути, docker run для нейросетей. Однострочные команды, поддержка более 200 моделей. Ставите, открываете терминал, пишете:
ollama run gemma4:26b
И через пару минут (зависит от скорости интернета — модель в Q4 весит ~14 ГБ) у вас в терминале запущенный чат с Gemma 4.
Установка:
macOS:
brew install ollamaили скачать с ollama.comWindows: установщик с того же сайта
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Ollama сам поднимает локальный API на порту 11434, совместимый с OpenAI. Это значит, что любой клиент, умеющий ходить в OpenAI API, можно перенаправить на Ollama сменой base_url.
from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama" # любая строка, всё равно игнорируется ) response = client.chat.completions.create( model="gemma4:26b", messages=[{"role": "user", "content": "Объясни ... в трёх предложениях."}] ) print(response.choices[0].message.content)
Если в LM Studio вы «играете» интерфейсом, то в Ollama — пишете команды. Зато скрипты автоматизации делать на ней одно удовольствие.
Jan — ChatGPT-альтернатива в одном клике

Jan — это «ChatGPT, но локально». Под капотом — универсальный движок Cortex, который работает практически на любом железе, и встроенная библиотека популярных моделей: Llama⚹, Gemma, Mistral, Qwen и другие. Сам же интерфейс такой же чистый, как у ChatGPT. Скачать — jan.ai, есть.exe для Windows,.dmg для Mac (Intel и Apple Silicon),.AppImage и.deb для Linux.
Особенно удобно для новичков: Jan сам подберёт модель оптимального размера под ваш компьютер. Кроме того, можно подключить OpenRouter или Groq как «облачный фолбэк» — когда нужна более мощная модель, а локальная не справляется.
Chat with RTX (ChatRTX) — для владельцев Nvidia RTX
Отдельная история — ChatRTX от Nvidia. Это узкоспециализированное приложение только под Windows и только под RTX 30/40/50-серию (и новее) с минимум 8 ГБ VRAM. По сути, это бесплатное демо‑приложение от Nvidia, которое позволяет «персонализировать» чат‑бота своим контентом — а под капотом работает локальная видеокарта с TensorRT‑LLM и RAG.
Что оно умеет, чего не умеют другие? Локальный RAG прямо из коробки. Вы натравливаете программу на папку с вашими.pdf,.txt и.docx‑файлами, она строит индекс — и потом отвечает на вопросы строго по этим документам. Можно даже скармливать YouTube‑ссылки, и ChatRTX утянет транскрипты и проиндексирует их.
Минусы: только дистрибутив весит около 35 ГБ, а после установки нужно держать ~100 ГБ свободного места. Под капотом — Mistral или Llama 2⚹, оптимизированные через TensorRT‑LLM. Это даёт прирост скорости на RTX‑картах за счёт тензорных ядер, но в обмен на гибкость: своих моделей туда не подкинуть, а сами модели в наборе ChatRTX уже не самые новые.
Вердикт: отличный инструмент для конкретной задачи — поиск по своим документам с ответом на естественном языке. Для общего чата, кода и мультимодала — лучше будет LM Studio.
? Маленькая параллель: ChatRTX похож на «офисный пакет от производителя железа». Помните, как в нулевые к каждой материнке шёл диск с фирменным антивирусом? Так вот, ChatRTX — это Nvidia, заботливо положившая в коробку свой ИИ.
Msty — ещё один удобный способ быстро и удобно скачать и запустить локальные ИИ‑модели в формате GGUF. Читайте об этом по ссылке:
Топ моделей 2026 года: что реально стоит запускать дома
Окей, инструменты разобрали – теперь к самому интересному. Я отобрал десять моделей, которые, на мой взгляд, наиболее интересны для домашнего использования в 2026 году. Подбор основан на трёх критериях: запускается на потребительском железе, имеет понятную нишу и поддерживается основными оболочками. Поехали.
1. Gemma 4 — звезда сезона

Если бы у меня спросили: «Какую одну модель скачать на новый ноутбук?» — я бы не задумываясь сказал: Gemma 4. Релиз 2 апреля 2026 года под Apache 2.0, четыре варианта — E2B, E4B, 26B MoE и 31B Dense. По бенчмаркам 31B‑версия пробила топ-3 Arena AI Leaderboard и побеждала модели в 20 раз большего размера — для опенсорса это серьёзная заявка.
Самое сладкое — 26B MoE. Это mixture‑of‑experts: всего 26 миллиардов параметров, но активны только 4 миллиарда на токен. На практике это значит: качество рассуждения близко к полной 31B‑модели, при этом всё помещается в 14 ГБ VRAM при Q4-квантовании. То есть скорость как у 4B‑модели, ум — как у 30B. На RTX 4070 Ti с 16 ГБ крутится в Q4 со скоростью около 30 токен/с. На M4 Pro MacBook — около 50 токен/с.
Бенчмарки впечатляющие: 31B‑версия выдаёт 89,2% на AIME 2026 (математика), 80,0% на LiveCodeBench v6 (кодинг), 84,3% на GPQA Diamond (наука). Для сравнения — у Gemma 3 на тех же тестах было 20,8%, 29,% и 42,4%. То есть каждая метрика выросла примерно в три раза за одно поколение.
Вариант |
Активные параметры |
VRAM (Q4) |
Gemma 4 E2B |
2,3 млрд |
~1,5 ГБ |
Gemma 4 E4B |
4,5 млрд |
~3 ГБ |
Gemma 4 26B MoE |
3,8 млрд (из 26) |
~14 ГБ |
Gemma 4 31B Dense |
31 млрд |
~18 ГБ |
Запуск через Ollama (универсальный для Windows/Mac/Linux):
ollama run gemma4:e2b ollama run gemma4:e4b ollama run gemma4:26b ollama run gemma4:31b
Все четыре модели мультимодальные — понимают изображения и видео. К тому же E2B и E4B могут нативно распознавать аудио.
⚠️ Подводные камни на апрель 2026-го. В Ollama сломан tool calling для Gemma 4 — на сложных агентских задачах (Codex CLI, opencode) лучше использовать llama.cpp. Парсер tool‑call падает, а в стриминге tool‑вызовы вообще теряются. На Apple Silicon — отдельный баг с Flash Attention: на M‑серии не стоит выставлять
OLLAMA_FLASH_ATTENTION=1, иначе на промптах длиннее ~500 токенов 31B‑модель просто зависает.
Для агентского кодинга есть приятная новость: на бенчмарке tau2-bench в плане качества вызова инструментов Gemma 4 31B даёт 86,4% — это уже жизнеспособный уровень. Раньше у Gemma 3 было 6,6%, и tool calling у неё был, мягко говоря, мёртв.
Ссылки: официальная страница; Gemma 4 26B‑A4B на Hugging Face.
2. Qwen3.6 35B‑A3B — народная любовь для разработчиков

Если Gemma — это «универсальный солдат», то Qwen3.6 35B‑A3B — это прицельная винтовка для одной аудитории: разработчиков. Модель вышла в апреле 2026-го, MoE‑архитектура, 35 млрд параметров, из которых активны всего 3,5B на токен.
Самый выразительный кейс — статья на «Хабре» про запуск этой модели на RTX 4070 12 GB + 32 ГБ RAM через LM Studio. Это, в общем‑то, обычное домашнее железо геймера. И вот эта связка реально превращается в ИИ‑ассистента для кода.
Фишка — параметр --cmoe (или ngl + ncmoe в LM Studio). Логика контринтуитивная: сначала отдаём все слои на GPU, потом возвращаем тяжёлые MoE‑веса в RAM. На GPU остаются только лёгкие тензоры внимания. В итоге 6,2 ГБ VRAM вместо 12 ГБ, а скорость генерации — 42 токена в секунду. Это вполне рабочий темп.
Параметр |
Значение |
Зачем |
|
40 (макс.) |
Все слои пытаемся отдать GPU |
|
40 |
MoE-веса возвращаем в RAM |
Flash attention |
Включён |
Экономия памяти под контекст |
Контекст |
65 536 |
Баланс качество/память |
Batch size |
8192 |
Быстрая обработка контекста |
Бенчмарки заметные: SWE‑bench Verified 73,4%, Terminal‑Bench 2.0 51,5%, GPQA Diamond 86%. По кодингу обгоняет dense‑модели большего размера. И главное — отлично работает с русским языком, что для нашей аудитории крайне важно.
# Через Ollama ollama run qwen3.6:35b-a3b # Или скачать GGUF от unsloth и запустить через LM Studio # Файл: qwen3.6-35b-a3b-Q4_K_M.gguf, ~22 ГБ
Запуск как кодинг-ассистента в opencode через LM Studio API:
{ "$schema": "https://opencode.ai/config.json", "provider": { "lmstudio": { "npm": "@ai-sdk/openai-compatible", "name": "LM Studio (local)", "options": { "baseURL": "http://172.18.0.1:1234/v1" }, "models": { "qwen/qwen3.6-35b-a3b": { "name": "Qwen3.6 35B a3b (local)" } } } } }
А дальше – магия: модель сама запускает explore-агента, делает 173 вызова инструментов и перечитывает кодовую базу. Это уже не “помощник”, а почти джун.
3. Qwen 3.5 9B – лёгкая и хитрая

Если 35B — это «для разработчиков с RTX 4070», то Qwen 3.5 9B — это «для всех остальных, у кого хотя бы 8 ГБ VRAM». И это, пожалуй, самая внезапно хорошая модель в обзоре.
Главная фишка — архитектура Gated DeltaNet (GDN). В отличие от стандартных трансформеров, у которых KV‑кеш растёт линейно с длиной контекста, у GDN память почти фиксированная. То есть модель работает с длинным контекстом, не съедая всё больше и больше VRAM по мере удлинения сессии. Поддерживает до 262K токенов нативно — для модели на 9 миллиардов это, мягко говоря, неожиданно.
Размер на диске — около 6,6 ГБ. В Q4_K_M нужно 5,1–5,7 ГБ VRAM. На 8-гиговой карте контекст можно поднимать до 60 000 токенов без проблем — вот это уже реально полезно для длинных документов и долгих сессий.
И что меня лично подкупило в этой модели — она мультимодальна из коробки. Qwen 3.5 9B нативно работает с текстом, изображениями и даже видео из одних и тех же весов — никаких отдельных vision‑компонентов скачивать или настраивать не нужно.
Из практики использования: модель быстро читает PDF и суммирует 160-страничный документ. Особенно впечатляет анализ картинок — даже на снимке без чёткой композиции (например, просто шерсть кота на одеяле) она аккуратно описывает сцену.
Парочка лайфхаков: thinking mode по умолчанию включён. Если вам не нужно «думать вслух» — выключите. Также увеличьте контекстное окно (по умолчанию runner ставит маленькое) и поставьте presence_penalty около 1.5 — это спасает от «многословия». В системный промпт — «Be concise, skip the preamble».
ollama run qwen3.5:9b # Или через LM Studio – там просто слайдеры
4. gpt-oss-20b – близкое к ChatGPT, но дома

Август 2025-го стал странным месяцем: OpenAI, та самая, которая много лет говорила «open» только в названии, выпустила open‑weight‑модели. И это были gpt‑oss-20b и gpt‑oss-120b. 120B — для серверов. 20B — вот тут уже домашний сценарий.
Архитектура: 21 миллиард параметров, MoE с 3,6B активными на токен — то есть скорость инференса как у небольшой 3–4B‑модели. Нативно поддерживает контекст до 128K токенов.
Память: GPT‑OSS 20B комфортно работает на high‑end потребительском железе — рекомендуется минимум 32 ГБ RAM, и желательна карта с 12+ ГБ VRAM. На 8-гиговой 3070 модель работает, но контекст приходится резать (мы уже обсуждали почему).

Стиль ответов — узнаваемо «опенаишный». Это ближе всего к тому самому «локальному ChatGPT» — ответы знакомы по тону, и базовые задачи модель не валит.
Где блистает: структурированные объяснения, разбор плотных текстов, кодовые задачи с цепочкой рассуждения. Если у вас под рукой документ с тяжёлым жаргоном (медицинский, юридический, технический) — gpt‑oss-20b неплохо его пожуёт.
Где проседает: длинные сессии и большой контекст. На 8 ГБ VRAM окно контекста быстро упирается в потолок — токены заканчиваются раньше, чем хочется. Если у вас 16+ ГБ VRAM, проблема снимается и модель раскрывается.
Под Apache 2.0, что для open‑weight от OpenAI — само по себе событие года. Запускается через Ollama, LM Studio, vLLM, всё стандартно:
ollama run gpt-oss:20b
5. Mistral Small / Mistral 7B — европейский середняк

Mistral — это, наверное, самый «спокойный» бренд в локальном ИИ. Они не делают ставку на революцию каждый месяц, а методично выкатывают надёжные модели с упором на европейские языки и корпоративные задачи.
Для дома интересны два варианта:
Mistral 7B — ветеран, маленький, проверенный временем. Идеален как дефолт, когда нужна модель, которая просто работает.
Mistral Small (22B) — серединка. Минимум 16 ГБ RAM, рекомендуемая VRAM ~12 ГБ, размер квантованного варианта около 13 ГБ. Лучше с инструкциями, лучше с длинным контекстом.
Mistral Large 3 был выпущен в декабре 2025-го — это уже 675B MoE, для дома не подходит совсем, нужен серверный кластер. Но идеи и настройки доходят и до маленьких моделей.
Сильные стороны Mistral: серьёзная поддержка европейских языков (французский, немецкий, испанский, итальянский), стабильный вызов функций и плавающее окно внимания для длинного контекста. Зрелая экосистема, мало сюрпризов — то, что ценят в продакшене.
ollama pull mistral:7b ollama ru n mistral:7b
6. Phi-4 — для слабого железа

Phi-4 — это исследовательская линейка от Microsoft. Идея — сделать маленькую модель, которая ведёт себя как большая. Microsoft взяли курс на исследовательский подход к данным и обучению и сумели выжать из 3,8B и 14B параметров вполне солидные результаты.
Размеры: 3,8B и 14B параметров. Память: 14B‑вариант требует около 12 ГБ RAM минимум, рекомендуется GPU с 8 ГБ VRAM, размер квантованного файла — около 8 ГБ. То есть запустится даже на скромной RTX 3060 8 ГБ. 3,8B — на чём угодно, хоть на ноутбуке без дискретной карты.
Сильные стороны — структурированные задачи: извлечение данных, классификация, JSON‑генерация, простые скрипты. Где Phi-4 проседает — это творческие задачи, длинные тексты с настроением, многоступенчатые рассуждения. То есть если ваша работа — «Возьми этот PDF и вытащи мне все имейл‑адреса в формате CSV», Phi-4 справится отлично. Если «Напиши эссе о русской поэзии Серебряного века» — лучше что‑то другое.
ollama pull phi4:3.8b ollama run phi4:14b
7. DeepSeek R1 и V3.2 – режим думающего инженера

DeepSeek — это китайский стартап, который внезапно стал серьёзной силой в опенсорсе. DeepSeek V3.2 — модель с режимом рассуждения, которая думает вслух перед каждым ответом. Сильна в продвинутых рассуждениях, математике и анализе кода. Требования по памяти зависят от варианта — от 16 ГБ RAM для маленьких до 64+ ГБ для полноценных конфигураций.
Полная V3.2 — это серверная история. Но есть дистиллированные варианты на 7B, которые комфортно запускаются дома. Обычно их делают в формате deepseek‑v3.2-exp:7b или deepseek‑r1-distill:7b — поищите в каталоге Ollama или на Hugging Face.
Где DeepSeek хорош:
Математика и пошаговые рассуждения — модель буквально расписывает каждый шаг
Анализ кода — особенно когда нужно понять чужую логику
Логические задачки — сравнение, перебор вариантов, проверка гипотез
Где будет тормозить — обычные «болтательные» задачи. Пока модель медитирует, простой ответ можно было бы получить от Qwen 3.5 в три раза быстрее.
8. Whisper — единственный звуковой король

Если все предыдущие — это про текст, то Whisper — про звук. Это транскрибация: вы даёте аудиофайл, он возвращает текст.
Whisper — открытая модель от OpenAI (одна из немногих, кстати, и да, выпущена сильно раньше gpt‑oss). Под капотом — обычный трансформер, обученный на 680 000 часов мультиязычного аудио. Но запускают её обычно не через PyTorch, а через whisper.cpp — порт на C/C++ от Георгия Герганова (того же автора llama.cpp и формата GGUF/GGML).
Размеры моделей: tiny (~75 MB), base (~140 MB), small (~480 MB), medium (~1,5 ГБ), large‑v3 (~3 ГБ). И есть прекрасный distill‑large‑v3, который, по бенчмаркам Hugging Face, на Mac M1 работает в пять раз быстрее full large‑v3, теряя при этом меньше 1% точности (WER) на длинном аудио.
С скоростью на современном железе вообще песня: тридцатиминутное совещание whisper.cpp на маленькой английской модели транскрибирует на MacBook Air за 100–120 секунд. Полчаса аудио — за две минуты. На GPU (CUDA) — ещё в разы быстрее, до 30-кратного ускорения по сравнению с CPU. Однако если модель крупная (large‑v3 — наиболее точно разбирает слова, по крайней мере когда говорят по очереди) и язык неанглийский, то это время стоит умножать раз в семь: на RTX 3060 12 ГБ 30-минутный файл будет расшифровываться минут 15, в зависимости от плотности речи, и при этом модель заполнит почти всю видеопамять.
Что использовать на практике:
WhisperDesktop — Windows‑приложение с GUI, использует DirectCompute, работает на любых видеокартах с DirectX 11. Скачали.exe, выбрали модель, выбрали файл — готово.
whisper.cpp напрямую — для тех, кто не боится терминала:
# Скачать модель bash ./models/download-ggml-model.sh medium # Транскрибировать ./build/bin/whisper-cli -m models/ggml-medium.bin -f audio.wav
MacWhisper или Vocoding — приложения для Mac с красивым интерфейсом поверх whisper.cpp.
Whisper Large v3 — пожалуй, единственная модель в этой подборке, которая реально полностью заменяет облачные сервисы для своей задачи.
9. Llama 4 8B⚹ — народный стандарт
Линейка Meta«шной⚹ Llama⚹ продолжает быть „эталонным дрожжевым тестом“ открытых моделей. Llama 4 8B⚹ — это „золотой стандарт“ для базовых задач. Хватит RTX 3060 с 6 ГБ VRAM, размер квантованного файла около 4,5 ГБ. Запустится на чём угодно от RTX 3060 и выше.»
Сильные стороны: огромная экосистема файнтюнов. Если вы хотите специализированную модель, почти наверняка кто‑то на Hugging Face уже обучил такую на базе Llama⚹. Это, пожалуй, главное преимущество перед более экзотическими моделями.
Слабые стороны: на бенчмарках начинает уступать Gemma 4 и Qwen3.5 при сравнимом размере. То есть как дефолт — да, как «лучшее предложение» — уже нет.
ollama run llama4:8b # ⚹ Llama – проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.
И есть ещё одна тонкость, которую стоит знать: Meta⚹ в начале 2026 года начала разворачиваться к закрытым моделям (Muse Spark и так далее). Что произойдёт с дальнейшей открытостью Llama⚹ — открытый вопрос. Поэтому пока — берите что есть и не делайте ставку на бесконечное развитие линейки.
10. Nvidia Nemotron Cascade 2 — для владельцев RTX

Если у вас Nvidia‑RTX‑карта и вам нужна скорость — обратите внимание на Nemotron Cascade 2. Это ответ Nvidia на вопрос «Как нам выжать максимум из CUDA при инференсе?». 30 млрд параметров, оптимизация под TensorRT и заявленные ~54 токен/с на связке RTX 4060 Ti + 3060.
По сути, Nemotron Cascade 2 — это новый флагман инференс‑оптимизированных моделей Nvidia, заменивший прошлогодний Nemotron 3. По заявлениям, на потребительских GPU модель работает в 15 раз быстрее темпа человеческой речи, а качество сопоставимо с GPT-4o mini.
Требования: 16+ ГБ VRAM, желательно RTX 30/40-серии или новее. Запускается через Ollama, LM Studio, vLLM, llama.cpp и нативно через Nvidia NIM.
ollama run nemotron-cascade-2:30b
Реальный пример: тест трёх моделей на одной задаче
Чтобы не быть голословным, приведу один из обзоров, на которые я наткнулся.
RTX 3070 8 GB, LM Studio, три модели: Gemma 4 E4B, gpt-oss-20b и Qwen 3.5 9B. Три задачи: разбор скриншотов и картинок, структурные объяснения и Q&A с длинным контекстом (например, конспекты курсов).
Что выяснилось:
gpt‑oss-20b — лучший в структурных объяснениях. Если вам нужно разобрать плотный технический текст и получить понятную выжимку — берите его. Минус: на 8 ГБ VRAM упирается в ограничения контекста.
Qwen 3.5 9B — победитель по соотношению «качество/железо». Хорошо держит длинный контекст благодаря GDN, мультимодален, читает PDF, описывает картинки.
Gemma 4 E4B — отличный мультимодал, но есть странность: он склеивает «мысли» и собственно ответ в один поток. Потому может как бы начать с фразы «User has provided an image», обращаясь к вам в третьем лице. Чуть холодноватый. Но картинки разбирает методично.
Сводный вердикт обозревателя: Qwen — для длинного контекста, фактологии и общего использования; gpt‑oss — когда нужно аккуратное структурное рассуждение и хватает железа; Gemma — когда вы кидаете в неё медиа и нужен подробный визуальный разбор.

⚹ Meta — деятельность организации запрещена на территории Российской Федерации.
⚹ Llama — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.
Комментарии (25)

KSupalo
28.04.2026 08:14Вот такая бы табличка была бы полезна

Совокупные затраты на покупку, развертывание и владение 
StriganovSergey
28.04.2026 08:14Так же полезно помнить о
1 - старых б/у майнинговых картах, которые сейчас стоят дешево, но могут многое.
2 - о потреблении карт в режиме ожидания.
Почему-то трудно найти такую инфу, обычно пишут максимальное потребление карт.
Сколько уйдет ватт на простую поддержку сервера во включенном состоянии, ожидая запросы, из этого не посчитать.

NemoVors
28.04.2026 08:14А что есть для генерации картинок/моделек локальное? Сколько искал, только запутался.

xan19
28.04.2026 08:14"Если вы запускаете ИИ — закрывайте всё лишнее ", в некоторых случаях все не так страшно, как вы тут малюете. Если мы хотим освободить дискретную видеокарту от лишней работы, то значит эту работу нужно на кого-то переложить и поможет нам в этом встроенная графика (если она у вас конечно есть). У меня к примеру конфиг такой i5-13600k, 64Gb, 5060Ti 16Gb, 1Tb SSD. Берем и перетыкаем мониторы в материнскую плату (у меня HDMI и DP), это самый простой способ, но если мониторов больше, чем разъемов, можно попробовать перекинуть "обязанности" через "Параметры экрана". Я в основном пользуюсь ComfyUI для генерации картинок и видео. На дискретной видеокарте выполняется основное задание, а встройка занимается рабочим столом. Штук 20 вкладок в Хроме, Ютуб, Фотошоп, куча мелких программ, можно поиграть в Хартстоун, ничего не глючит и не тормозит. Все это добро занимает в ОП где-то 50-55Гб. Причем, после того, как разрабы ComfyUI запилили новую фишку Dynamic VRAM, можно отключить своп-файл (у меня раньше был 50Gb). ComfyUI не ругается, да и ресурс SSD экономится. Естественно такой способ работает только при наличии встройки и достаточного объема ОП.

nikulin_krd
28.04.2026 08:14E2B и E4B — мультимодальные, понимают изображения и звук. Старшие 26B и 31B — только текст. Хотите смотреть картинки локально — берите E4B.
Неправда! Они все мультимодальные, только младшие dense-модели еще и умеют на вход принимать звук, помимо текста и картинок

crazyrock
28.04.2026 08:14Тема AMD AI 395 Max не раскрыта, а он вполне себе конкурент всему перечисленному железу

nikulin_krd
28.04.2026 08:14При всем желании он не конкурент даже консьюмерским видеокартам. Можно посмотреть тут тесты https://www.youtube.com/watch?v=Yc9Kz-BafDU&t=1243s

bazuchan
28.04.2026 08:14Вполне себе конкурент. 1/4 перфоманса 4090 при возможности загрузить в разы большую модель.

Juzujka
28.04.2026 08:14На чём основана ваша мысль? На теоретических заключениях или пробовали или встерчали обзоры?
Сам думаю об этом. Пока склоняюсь к тому, чтобы подождать выхода Tiiny AI. Но это тоже ещё проверить надо.
Mini-PC вроде Minisforum с теми AMD AI вроде MINISFORUM X1-Pro-470 выглядят привлекательнее из-за размеров. Производительность около 80 TOPS. Но ОЗУ, насколько я понимаю, не больше 64 ГБ получится сделать. Пишут где-то, что поддерживает до 128 ГБ, но что поставить в два SO-DIMM , чтобы получить больше 64 ГБ?
А тут уже и 32B не очень хорошо запустистся. Если использовать для инженерных дел и программирования, то это уже ограничение.
А дальше - выбор в сторону ПК с большой материнской платой, видеоадаптерами и т.п.
Альтернатива пока только тот Tiiny AI, с которым непонятны перспективы. И м.б. альтернативы появятся.
Или нам самим их делать.

Yuri_BY
28.04.2026 08:14Ministral-3-14B-2512-Q4_K_M в режиме CPU only i3-8100T/32GB. Мучительно долго, но качественно.

MasterMentor
28.04.2026 08:14Неплохой обзор, ставлю плюсы. Но ИМХО все уже обвидосились. Какому %-ту юзеров вообще для чего-то дельного генерить картинки/видео надо? 0,0000…? А вот обзоров локальных неросетей для чего-то полезного, вроде кодинга - со сравнением на живом материале - кот наплакал.

Derrvish
28.04.2026 08:14Для серьезных вещей и кодинга рекомендую qwen 3.6-27b. Универсальная, мультимодальная, агентно ориентированная. Если есть возможность, можно под lm-studio скачать модернизированную версию этой модели - qwen 3.6-27b-neo-code-di-imatrix-max.
По сравнению с обычной версией намного меньше ошибок в рассуждениях, логике и коде.

ToniDoni
28.04.2026 08:14Qwen 3.5 9B и ниже как то плох в тулколинге, говорит что вызывает тул вместо того чтобы вызывать тул, или ломается эскейпинг, Gemma 4B тоже.

KREC_fuse
28.04.2026 08:14Интересно, для более менее вменяемого написания кода в домашних условиях, достаточно qwen 70b на 48гигах vram.

nikulin_krd
28.04.2026 08:14Достаточно даже MoE Qwen 3.6. Она прекрасно работает и с тулингом и с кодом

StriganovSergey
28.04.2026 08:14Кстати, и не всем задачам нужны высокие скорости инференса.
Иногда важнее качество, ради которого подождем.
Вот только что запустил задачу написания вспомогательного скрипта на
Qwen3-Coder-480B-A35B-Instruct-Q8_0
отработало: 3 028 tokens 42min 20s 1.19 t/s
использовало всего лишь 19gb на DDR4 и три карты p102-100 по 10gb каждая
запуск в llama.cpp с опцией --fit on
Если кому интересно, скрипт превращает локальные папки с исходниками - в проекты в гитлабе.
С привязкой проектов к группам проектов, а пользователей к проектам, со сверкой версий кода - локального и удаленного ( если окажется, что проект уже был создан в гитлабе ранее), с автомержем, и прочими особенностями.
А если что-то пойдет не так, ошибки продправим более быстрой Qwen3.6-27B.
Вообще-то, ее и можно было изначально попросить написать это.
Идея в перекрестной сверке реализаций между сильной и слабой моделями.
Ищу какая из них в чем сильнее, в каких аспектах.

rodial
28.04.2026 08:14Начинайте с Q4_K_M
Если есть возможность то лучше начинайте с
UD-Q4_K_XL, разница в размере минимальная но по качеству лучше
Anton_qqq
Я правильно понимаю, что компания может купить себе сервак тысяч за 500-800 и команда разработчиков из 10-15 человек получит довольно мощный инструмент, не тратясь на подписки?
Ок, не такой мощный как топовые модели, но всё же значительно ускоряющий разработку и ощутимо дешевле в перспективе 1-2 лет?
P.S. спасибо за статью.
Anton_qqq
Погуглил сам себе, скорее речь может идти о бюджете ближе к 1,5-2.0 миллионам.
past
Я бы для небольшой компании брал парочку nvidia gb10, можно тысяч в 800 уложиться
nikulin_krd
Абсолютно бесполезное занятие. Энергоэффективное, но крайне сомнительное по соотношению производительность/цена. Лучше на 800к взять какую нибудь-серверную мать с процом и 4-5 Intel Arc Pro B70