Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация - сжатие весов с 32-битной точности до 4-битной. Модель стала в 3-4 раза легче при минимальной потере качества. 7B параметров теперь занимают 4-5 ГБ вместо 14.

Параллельно с этим появилась Ollama - инструмент, который убирает всё лишнее между пользователем и моделью. Устанавливается одной командой, сама находит GPU если она есть (NVIDIA, AMD, Apple Metal), при отсутствии - работает на CPU. Модели качаются как докер-образы, запускаются одной строкой. Да, и никакой ручной настройки окружений.

Установка Ollama и моделей

# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows / macOS - установщик на ollama.com/download

После установки - запускаем нужную модель (пример для представленных ниже тестов). При первом запуске она скачается автоматически:

ollama run smollm2:1.7b 	# Тир 1 - 1.8 ГБ
ollama run phi4-mini 	   # Тир 2 - 2.5 ГБ
ollama run qwen3:8b     	# Тир 3 - 5.2 ГБ

Если хочется скачать заранее без запуска:

ollama pull phi4-mini
ollama list             	# посмотреть что установлено

Три тира под три уровня железа

Мы отобрали модели по двум условным критериям - хоть какая-то работоспособность и польза при ограниченном железе. Никаких экзотических форков - только то, что стабильно работает через Ollama. И то, что вы сможете затестить прямо сейчас.

Тир 1 - 2-4 ГБ RAM, GPU не нужна

Офисный ПК или очень древний ноут. Скорость - 15-20 токенов в секунду. Рассуждать на несколько шагов не умеют, но с однозначными задачами справляются.

Модель

Диск

Контекст

RU

Что умеет

smollm2:1.7b

1.8 ГБ

8K

-

Перефразировать текст, классифицировать, ответить на прямой вопрос

qwen3:1.7b

1.4 ГБ

40K

+

Суммаризация на RU, простые рассуждения, большой контекст

qwen3:0.6b

523 МБ

40K

+

Короткий ответ, быстрая классификация, совсем слабое железо

tinyllama

638 МБ

2K

-

Автодополнение, короткий чат, edge-устройства

qwen2.5-coder:1.5b

986 МБ

32K

~

Написать функцию, исправить синтаксис, объяснить код

moondream

1.7 ГБ

2K

-

Описать изображение, найти объект на фото, ответить по картинке

dolphin-phi

1.6 ГБ

2K

~

Ответить без отказов на чувствительные темы, ролевые игры, тест безопасности

reader-lm:1.5b

~1 ГБ

32K

+

HTML страница → Markdown, очистка разметки, парсинг

Тир 2 - 6-8 ГБ RAM

Средний ноутбук. Скорость - 8-12 токенов/с. Стараются держать чуть более длинный контекст, решают многошаговые задачи, часть умеет думать вслух.

Модель

Диск

Контекст

RU

Что умеет

phi4-mini

2.5 ГБ

128K

+

Решить задачу пошагово, написать и объяснить код, работать с длинным документом

phi3.5

2.2 ГБ

128K

+

Написать письмо / резюме, ответить по документу, SQL из описания

llama3.2

2.0 ГБ

128K

~

Следовать многошаговым инструкциям, переписать текст, tool use

gemma3:4b-it-qat

1.5 ГБ

128K

+

Описать изображение на RU, ответить по скриншоту, суммаризация

qwen3:4b

2.5 ГБ

256K

+

Анализ длинного документа, рассуждение с /think, перевод и редактура

deepseek-r1:1.5b

~1 ГБ

128K

+

Логические задачи с цепочкой рассуждений, математика, проверка ошибок

orca-mini:3b

~2 ГБ

4K

-

Вопрос-ответ, суммаризация, простое объяснение понятий

Тир 3 - 8-16 ГБ RAM

Скорость - 4-8 токенов/с на CPU. Ощутимо умнее - структурируют, держат нить, замечают противоречия.

Модель

Диск

Контекст

RU

Что умеет

qwen3:8b

5.2 ГБ

40K

+

Написать статью / план / обзор, сложный код, дебаг с объяснением

qwen2.5-coder:7b

4.7 ГБ

32K

+

Целый модуль с нуля, рефакторинг, юнит-тесты, код-ревью

mistral-small (22B)

13 ГБ

32K

+

Анализ, юридический текст, мультиступенчатые инструкции

gemma3:12b-it-qat

~7 ГБ

128K

+

Анализ изображений, длинный документ + вопросы по нему

RU: + хорошая поддержка, ~ базовая, - только EN

И небольшой краш-тест. В качестве эксперимента 

Скажем так, таблицы с характеристиками читаются хорошо, но не показывают главного - как модель ведёт себя на практике. Мы взяли три задачи разного уровня сложности и прогнали каждую через все три тира. Технически - условия для всех одинаковые. Ollama v0.20.4, Windows, чистый CPU без видеокарты. Задач - максимально простые. Объяснить техническое понятие, решить арифметику по шагам, написать базовую Python-функцию.

Задачи были выбраны нами не случайно. Объяснение понятия - это проверка связности речи и русского языка. Математика - следование алгоритму, способность не потерять шаги. Код - структурированный вывод с соблюдением синтаксиса и примерами. 

Итак, начем.

Задача 1 - математика: яблоки, треть, два друга

smollm2 (English only):

Pete has 12 apples. He ate a third of them, then split the rest equally between 2 friends. How many apples did each friend get? Show your work.

phi4-mini:

У Пети 12 яблок. Он съел треть, а остаток разделил поровну между двумя друзьями. Сколько яблок получил каждый друг? Покажи решение по шагам.

smollm2 считала шаг первый верно: треть от 12 - это 4, осталось 8. Но затем разделила 8 на 3 человек вместо 2 - включила в раздел самого Петю: «Pete and his two friends, making a total of 3 people». Получила 2.67, округлила до 2."
smollm2 считала шаг первый верно: треть от 12 - это 4, осталось 8. Но затем разделила 8 на 3 человек вместо 2 - включила в раздел самого Петю: «Pete and his two friends, making a total of 3 people». Получила 2.67, округлила до 2."
phi4-mini: три подписанных шага ("Шаг 1", "Шаг 2", "Шаг 3"), каждый с формулой. Финал: "Итак, каждый друг получил по 4 яблока." Верно.
phi4-mini: три подписанных шага ("Шаг 1", "Шаг 2", "Шаг 3"), каждый с формулой. Финал: "Итак, каждый друг получил по 4 яблока." Верно.

Задача 2 - объяснить что такое RAM в двух предложениях

qwen3:8b (с режимом размышлений):

Объясни в двух предложениях что такое оперативная память (RAM) и зачем она нужна.

Задача 3 - Python-функция проверки палиндрома

smollm2 (English only):

Write a Python function that checks if a string is a palindrome. Add a docstring and 2 examples.

phi4-mini, qwen3:8b:

Напиши Python функцию которая проверяет является ли строка палиндромом. Добавь docstring и два примера использования.

smollm2 выдала рабочую функцию логически, Но PowerShell перемешал порядок вывода - docstring появился раньше подписи функции.
smollm2 выдала рабочую функцию логически, Но PowerShell перемешал порядок вывода - docstring появился раньше подписи функции.
phi4-mini: чистая функция с подробным docstring на русском (отдельные блоки Вход/Выход), двухуказательный алгоритм. Два примера в конце. Умничка.
phi4-mini: чистая функция с подробным docstring на русском (отдельные блоки Вход/Выход), двухуказательный алгоритм. Два примера в конце. Умничка.
qwen3:8b - начала думуть
qwen3:8b - начала думуть
Еще думает
Еще думает
И ответила корректно, к каждому шагу добавила контекст - объяснила логику, а не только формулу.
И ответила корректно, к каждому шагу добавила контекст - объяснила логику, а не только формулу.

Да, конечно, для формирования полноценного понимания - неплохо было бы провести гораздо больше тестов. Да и модели выбирались не из топа актуальных релизов - цель была проще. Запустить, пощупать, оценить саму возможность. Но давайте будем реалистами. 4-5 токенов в секунду - это реальная скорость qwen3:8b на CPU. Средний ответ - минута-две ожидания. smollm2 быстрее, но даже на тривиальной математике ошиблась. Собственно, это не облако - здесь ждать придётся. И ждать, скорее всего, чего-то специфического и узконаправленного. 

Но под нишевое использование и в качестве материала для ознакомительных тестов - эти модели определенно найдут своего пользователя.

Комментарии (6)


  1. danilovmy
    25.04.2026 07:03

    привет @Neyroskuf. Спасибо за обзор, но он очень не полный. Выглядит, что была задача запустить, но не сделать это работоспособным. У меня ноут win 10, 16Ram + 512vram (старая mobile AMD) и в реальной жизни локальная работа с llm выглядит не так радужно, как в статье.

    Во первых нет обзора запускателей. Что есть ollama написано. А что есть ollama.cpp, которая раза в 4 быстрее, что есть vLLM и nano‑vLLM, они якобы быстрее, но не совсем. Я не говорю уже про обвязки с графическим интерфейсом.

    Проблема быстрого инференса в том, а он далеко не так быстр, как написано в статье, что чаще всего запускалку llm надо собрать (cmake/build/install). В windows это сделать не так просто хотя бы потому, что cmake или install нет, и надо выкручиваться. Слава богу есть методы, да и сами lllm помогают. Задачка со звездочкой поставить CrispASR (быстрее whisper.cpp в 16 раз) с поддержкой ffmpeg и ogg-opus. Задачка с двумя звездочками - скомпиллировать с поддержкой vulkan.

    Второй вопрос - модели. Все что указано - это детский сад и влажные фантазии. Да, реально достичь скорости 22-35 токенов. Но недостаточно просто запустить, надо тестировать:

    • как меняется время ответа от контекстного окна одной и той же модели.

    • если удалось vulkan запустить, как меняется время ответа количества выгруженных в GPU слоев.

    • как меняется качество ответа если запустить эту же модель с другим квантом.

    • как меняется работа, если запустить все то же самое с другим запускателем и т.п.

    • Если обвязка на python то смена библиотеки и/или интерпретатора может фатально убыстрить работу.

    Контекстное окно в 32000 токенов терпимо. Но мало. Вызовы сжатия контекста тормозят работу и влияют на качество ответа.

    Квантизированные модели надо тестировать отдельно под машину. на MacOs q16 работает быстрее q8, q5, q4, q3, q1. Квантизированные модели надо тестировать на качество смысла конечного результата. Я тут как то писал, Bonsai-8B-1q прекрасна, 33 токена, до 64000 контекст. “Но moget ответит примерно this”. Меня это устраивает, потому как я понимаю, и согласен это пережить в обмен на быстроту работы.

    В общем, локальный запуск - это не так, что поставил ollama (не надо ее ставить), скачал модель из таблицы в статье и полетели, точнее поползли. Сейчас, апрель 2026 - это, буквально, ежедневные эксперименты.

    p.s. Я не упомянул быстрое кеширование (TurboQuant), сжатие запросов (rtk), разбиение задач на несколько шагов и последовательный запуск в микро моделях (для голоса - определение языка через ECAPA, запуск не общей “parakett -l auto”, а, например, GigaAM-v3-RNNT: скорость та же, ошибок меньше).

    p.p.s. После моих неоднократных проклятий в сторону разработчиков редактора комментариев на HABR меня, походу, принудительно перевели на markdown-редактор. Я даже переключиться обратно не могу.


    1. joomlageek
      25.04.2026 07:03

      Не считаю что уместно упоминать вообще TurboQuant или хотя бы не сказав что технология крайне сырая. Форки llama.cpp от энтузиастов и прочие продукты использующие алгоритм TurboQuant нестабильно работают. В известных продуктах типа llama.cpp или ollama этой технологии нигде нет.


      1. danilovmy
        25.04.2026 07:03

        Все, с чем мы все работаем - сырая технология. Тот же whisper.cpp у меня не запускалась сборка, пока ручками не поправил 39 строку common-whisper.cpp, а ошибка в файле в оригинальном репозитории, не форк.

        Мы же обсуждаем "Локальные LLM на слабом железе — что ставить, как запустить, чего ждать" и как сделать, что бы ждать было не надо, а результат был удобоваримым. 8 токенов в секунду с TTFT в 2-3 минуты это смертельно. С llama-cpp-turboquant ускорение TTFT с 45 сек на моей машине до 10 секунд - это не блажь установить и попробовать нестабильную технологию, это необходимость.
        То что технологию TQ еще не внедрили в llama.cpp говорит только о вязкости разработки в большом open-source проекте с солидным community.


  1. entze
    25.04.2026 07:03

    Какой смысл а обзоре откровенно старых моделей? Почему Ollama когда есть минимум LM Studio с кучей настроек и оптимизаций?

    С поддержкой русского.. ну русский не очень поддерживают модели M-размера (250M например). Современные маленькие B уже в целом хорошо.

    На iPhone 15 Pro Gemma E2B в Thinking работает очень достойно и шустро.


    1. joomlageek
      25.04.2026 07:03

      Солидарен, модели Qwen 3.6 27b и 35B на LMstudio с отключенным размышлением очень шустро работают даже на CPU.


  1. Annsky
    25.04.2026 07:03

    Модели сильно устаревшие, обновите список под актуальные.