Локальные LLM на слабом железе — что ставить, как запустить, чего ждать / forpes.ru

Главная
Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать +4

25.04.2026 06:11

Neyroskuf 6 3700 Источник

Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация - сжатие весов с 32-битной точности до 4-битной. Модель стала в 3-4 раза легче при минимальной потере качества. 7B параметров теперь занимают 4-5 ГБ вместо 14.

Параллельно с этим появилась Ollama - инструмент, который убирает всё лишнее между пользователем и моделью. Устанавливается одной командой, сама находит GPU если она есть (NVIDIA, AMD, Apple Metal), при отсутствии - работает на CPU. Модели качаются как докер-образы, запускаются одной строкой. Да, и никакой ручной настройки окружений.

Установка Ollama и моделей

# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows / macOS - установщик на ollama.com/download

После установки - запускаем нужную модель (пример для представленных ниже тестов). При первом запуске она скачается автоматически:

ollama run smollm2:1.7b 	# Тир 1 - 1.8 ГБ
ollama run phi4-mini 	   # Тир 2 - 2.5 ГБ
ollama run qwen3:8b     	# Тир 3 - 5.2 ГБ

Если хочется скачать заранее без запуска:

ollama pull phi4-mini
ollama list             	# посмотреть что установлено

Три тира под три уровня железа

Мы отобрали модели по двум условным критериям - хоть какая-то работоспособность и польза при ограниченном железе. Никаких экзотических форков - только то, что стабильно работает через Ollama. И то, что вы сможете затестить прямо сейчас.

Тир 1 - 2-4 ГБ RAM, GPU не нужна

Офисный ПК или очень древний ноут. Скорость - 15-20 токенов в секунду. Рассуждать на несколько шагов не умеют, но с однозначными задачами справляются.

Модель	Диск	Контекст	RU	Что умеет
smollm2:1.7b	1.8 ГБ	8K	-	Перефразировать текст, классифицировать, ответить на прямой вопрос
qwen3:1.7b	1.4 ГБ	40K	+	Суммаризация на RU, простые рассуждения, большой контекст
qwen3:0.6b	523 МБ	40K	+	Короткий ответ, быстрая классификация, совсем слабое железо
tinyllama	638 МБ	2K	-	Автодополнение, короткий чат, edge-устройства
qwen2.5-coder:1.5b	986 МБ	32K	~	Написать функцию, исправить синтаксис, объяснить код
moondream	1.7 ГБ	2K	-	Описать изображение, найти объект на фото, ответить по картинке
dolphin-phi	1.6 ГБ	2K	~	Ответить без отказов на чувствительные темы, ролевые игры, тест безопасности
reader-lm:1.5b	~1 ГБ	32K	+	HTML страница → Markdown, очистка разметки, парсинг

Тир 2 - 6-8 ГБ RAM

Средний ноутбук. Скорость - 8-12 токенов/с. Стараются держать чуть более длинный контекст, решают многошаговые задачи, часть умеет думать вслух.

Модель	Диск	Контекст	RU	Что умеет
phi4-mini	2.5 ГБ	128K	+	Решить задачу пошагово, написать и объяснить код, работать с длинным документом
phi3.5	2.2 ГБ	128K	+	Написать письмо / резюме, ответить по документу, SQL из описания
llama3.2	2.0 ГБ	128K	~	Следовать многошаговым инструкциям, переписать текст, tool use
gemma3:4b-it-qat	1.5 ГБ	128K	+	Описать изображение на RU, ответить по скриншоту, суммаризация
qwen3:4b	2.5 ГБ	256K	+	Анализ длинного документа, рассуждение с /think, перевод и редактура
deepseek-r1:1.5b	~1 ГБ	128K	+	Логические задачи с цепочкой рассуждений, математика, проверка ошибок
orca-mini:3b	~2 ГБ	4K	-	Вопрос-ответ, суммаризация, простое объяснение понятий

Тир 3 - 8-16 ГБ RAM

Скорость - 4-8 токенов/с на CPU. Ощутимо умнее - структурируют, держат нить, замечают противоречия.

Модель	Диск	Контекст	RU	Что умеет
qwen3:8b	5.2 ГБ	40K	+	Написать статью / план / обзор, сложный код, дебаг с объяснением
qwen2.5-coder:7b	4.7 ГБ	32K	+	Целый модуль с нуля, рефакторинг, юнит-тесты, код-ревью
mistral-small (22B)	13 ГБ	32K	+	Анализ, юридический текст, мультиступенчатые инструкции
gemma3:12b-it-qat	~7 ГБ	128K	+	Анализ изображений, длинный документ + вопросы по нему

RU: + хорошая поддержка, ~ базовая, - только EN

И небольшой краш-тест. В качестве эксперимента

Скажем так, таблицы с характеристиками читаются хорошо, но не показывают главного - как модель ведёт себя на практике. Мы взяли три задачи разного уровня сложности и прогнали каждую через все три тира. Технически - условия для всех одинаковые. Ollama v0.20.4, Windows, чистый CPU без видеокарты. Задач - максимально простые. Объяснить техническое понятие, решить арифметику по шагам, написать базовую Python-функцию.

Задачи были выбраны нами не случайно. Объяснение понятия - это проверка связности речи и русского языка. Математика - следование алгоритму, способность не потерять шаги. Код - структурированный вывод с соблюдением синтаксиса и примерами.

Итак, начем.

Задача 1 - математика: яблоки, треть, два друга

smollm2 (English only):

Pete has 12 apples. He ate a third of them, then split the rest equally between 2 friends. How many apples did each friend get? Show your work.

phi4-mini:

У Пети 12 яблок. Он съел треть, а остаток разделил поровну между двумя друзьями. Сколько яблок получил каждый друг? Покажи решение по шагам.

smollm2 считала шаг первый верно: треть от 12 - это 4, осталось 8. Но затем разделила 8 на 3 человек вместо 2 - включила в раздел самого Петю: «Pete and his two friends, making a total of 3 people». Получила 2.67, округлила до 2."

phi4-mini: три подписанных шага ("Шаг 1", "Шаг 2", "Шаг 3"), каждый с формулой. Финал: "Итак, каждый друг получил по 4 яблока." Верно.

Задача 2 - объяснить что такое RAM в двух предложениях

qwen3:8b (с режимом размышлений):

Объясни в двух предложениях что такое оперативная память (RAM) и зачем она нужна.

Задача 3 - Python-функция проверки палиндрома

smollm2 (English only):

Write a Python function that checks if a string is a palindrome. Add a docstring and 2 examples.

phi4-mini, qwen3:8b:

Напиши Python функцию которая проверяет является ли строка палиндромом. Добавь docstring и два примера использования.

smollm2 выдала рабочую функцию логически, Но PowerShell перемешал порядок вывода - docstring появился раньше подписи функции.

phi4-mini: чистая функция с подробным docstring на русском (отдельные блоки Вход/Выход), двухуказательный алгоритм. Два примера в конце. Умничка.

И ответила корректно, к каждому шагу добавила контекст - объяснила логику, а не только формулу.

Да, конечно, для формирования полноценного понимания - неплохо было бы провести гораздо больше тестов. Да и модели выбирались не из топа актуальных релизов - цель была проще. Запустить, пощупать, оценить саму возможность. Но давайте будем реалистами. 4-5 токенов в секунду - это реальная скорость qwen3:8b на CPU. Средний ответ - минута-две ожидания. smollm2 быстрее, но даже на тривиальной математике ошиблась. Собственно, это не облако - здесь ждать придётся. И ждать, скорее всего, чего-то специфического и узконаправленного.

Но под нишевое использование и в качестве материала для ознакомительных тестов - эти модели определенно найдут своего пользователя.

Комментарии (6)

danilovmy
25.04.2026 07:03
#29882888
привет @Neyroskuf. Спасибо за обзор, но он очень не полный. Выглядит, что была задача запустить, но не сделать это работоспособным. У меня ноут win 10, 16Ram + 512vram (старая mobile AMD) и в реальной жизни локальная работа с llm выглядит не так радужно, как в статье.

Во первых нет обзора запускателей. Что есть ollama написано. А что есть ollama.cpp, которая раза в 4 быстрее, что есть vLLM и nano‑vLLM, они якобы быстрее, но не совсем. Я не говорю уже про обвязки с графическим интерфейсом.

Проблема быстрого инференса в том, а он далеко не так быстр, как написано в статье, что чаще всего запускалку llm надо собрать (cmake/build/install). В windows это сделать не так просто хотя бы потому, что cmake или install нет, и надо выкручиваться. Слава богу есть методы, да и сами lllm помогают. Задачка со звездочкой поставить CrispASR (быстрее whisper.cpp в 16 раз) с поддержкой ffmpeg и ogg-opus. Задачка с двумя звездочками - скомпиллировать с поддержкой vulkan.

Второй вопрос - модели. Все что указано - это детский сад и влажные фантазии. Да, реально достичь скорости 22-35 токенов. Но недостаточно просто запустить, надо тестировать:
- как меняется время ответа от контекстного окна одной и той же модели.
- если удалось vulkan запустить, как меняется время ответа количества выгруженных в GPU слоев.
- как меняется качество ответа если запустить эту же модель с другим квантом.
- как меняется работа, если запустить все то же самое с другим запускателем и т.п.
- Если обвязка на python то смена библиотеки и/или интерпретатора может фатально убыстрить работу.
Контекстное окно в 32000 токенов терпимо. Но мало. Вызовы сжатия контекста тормозят работу и влияют на качество ответа.

Квантизированные модели надо тестировать отдельно под машину. на MacOs q16 работает быстрее q8, q5, q4, q3, q1. Квантизированные модели надо тестировать на качество смысла конечного результата. Я тут как то писал, Bonsai-8B-1q прекрасна, 33 токена, до 64000 контекст. “Но moget ответит примерно this”. Меня это устраивает, потому как я понимаю, и согласен это пережить в обмен на быстроту работы.

В общем, локальный запуск - это не так, что поставил ollama ~~(не надо ее ставить)~~, скачал модель из таблицы в статье и полетели, точнее поползли. Сейчас, апрель 2026 - это, буквально, ежедневные эксперименты.

p.s. Я не упомянул быстрое кеширование (TurboQuant), сжатие запросов (rtk), разбиение задач на несколько шагов и последовательный запуск в микро моделях (для голоса - определение языка через ECAPA, запуск не общей “parakett -l auto”, а, например, GigaAM-v3-RNNT: скорость та же, ошибок меньше).

p.p.s. После моих неоднократных проклятий в сторону разработчиков редактора комментариев на HABR меня, походу, принудительно перевели на markdown-редактор. Я даже переключиться обратно не могу.
1. joomlageek
  25.04.2026 07:03
  #29883098
  Не считаю что уместно упоминать вообще TurboQuant или хотя бы не сказав что технология крайне сырая. Форки llama.cpp от энтузиастов и прочие продукты использующие алгоритм TurboQuant нестабильно работают. В известных продуктах типа llama.cpp или ollama этой технологии нигде нет.
  1. danilovmy
    25.04.2026 07:03
    #29883204
    Все, с чем мы все работаем - сырая технология. Тот же whisper.cpp у меня не запускалась сборка, пока ручками не поправил 39 строку common-whisper.cpp, а ошибка в файле в оригинальном репозитории, не форк.
    
    Мы же обсуждаем "Локальные LLM на слабом железе — что ставить, как запустить, чего ждать" и как сделать, что бы ждать было не надо, а результат был удобоваримым. 8 токенов в секунду с TTFT в 2-3 минуты это смертельно. С llama-cpp-turboquant ускорение TTFT с 45 сек на моей машине до 10 секунд - это не блажь установить и попробовать нестабильную технологию, это необходимость.
    То что технологию TQ еще не внедрили в llama.cpp говорит только о вязкости разработки в большом open-source проекте с солидным community.

entze
25.04.2026 07:03
#29882914
Какой смысл а обзоре откровенно старых моделей? Почему Ollama когда есть минимум LM Studio с кучей настроек и оптимизаций?

С поддержкой русского.. ну русский не очень поддерживают модели M-размера (250M например). Современные маленькие B уже в целом хорошо.

На iPhone 15 Pro Gemma E2B в Thinking работает очень достойно и шустро.
1. joomlageek
  25.04.2026 07:03
  #29883020
  Солидарен, модели Qwen 3.6 27b и 35B на LMstudio с отключенным размышлением очень шустро работают даже на CPU.

Annsky
25.04.2026 07:03
#29882920
Модели сильно устаревшие, обновите список под актуальные.