Введение

Всем привет! Продолжаю тему предыдущей статьи. В ней сравнивалось железо для локального инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться, остановился я именно на последнем.

Железо есть, зарядим теперь на нем пару-тройку локальных моделей под управлением проверенного AI-агента.

Claude Сode по подписке с оригинальными LLM - это, конечно, замечательно. Но это стоит денег, да и свой код в чужие дата-центры не всегда правильно отправлять. Плюс за всякое неосторожное движение можно попасть в бан, рискуя потерять все свои наработки.

Одно из решений: Claude Code во free mode с локальными моделями. Anthropic позволяет заменить свои модели на любые с совместимым API. И если раньше это выглядело как эксперимент (локальная модель — что с неё возьмёшь?), то сейчас, с моделями Qwen3.6 результат в целом рабочий.

В этой статье я расскажу, как всё это настроить на GMKtec EV0-X2 — от загрузки моделей до первого запроса к Claude Code.


Постановка задачи и конфигурация

Допустим, вы хотите использовать ИИ-ассистента для помощи в программировании, но по ряду причин не хотите пользоваться облачным API. Например:

  • платный API Claude Sonnet/Opus это дорого, лимиты выгорают быстро;

  • анализируете код, которым не хочется делиться;

  • или вам просто интересно (тоже повод).

Я выбрал связку: llama.cpp server + две GGUF-модели Qwen3.6-MTP + Claude Code в режиме free mode. Всё это работает на Strix Halo (Ryzen AI Max+ 395) с 128 ГБ оперативной памяти. ИИ-ассистент можно взять и другой (Opencode, Kilocode CLI и т.п.). Но мне пока больше всего нравится Claude Code. Качество harness у этого агента из коробки субъективно показалось мне выше, чем у опенсорсных альтернатив.

Железо

Напомним, что такое это самое Strix Halo. Это не конкретный компьютер, а архитектура AMD для высокопроизводительных ноутбуков и мини-ПК. Процессор Ryzen AI Max+ 395 - десктопный чиплет в форм-факторе мобильного решения.

Характеристики GMKtec EV0-X2:

Параметр

Значение

Процессор

AMD Ryzen AI Max+ 395, 16 ядер / 32 потока, TSMC 4nm, до 5.1 ГГц, 16 МБ L2, 64 МБ L3 (X3D)

Графика

AMD Radeon 8060S, RDNA 3.5, 40 вычислительных блоков

Оперативная память

LPDDR5X, 128 ГБ, 8-канальная, 8 ГГц, 217 ГБ/с

SSD

PCIe 4.0, 2 ТБ

Сеть

Wi-Fi 7, Bluetooth 5.4, 2.5 Гбит/с Ethernet

Питание

Стабильная работа при 120 Вт, пик до 140 Вт

Нейронный ускоритель

XDNA 2, до 126 TOPS

Для инференса LLM ключевой ограничитель - пропускная способность памяти. У Strix Halo 8-канальная LPDDR5X с 217 ГБ/с - это заметно больше, чем у типичных ноутбуков. А 128 ГБ можно делить между CPU и GPU. Если выделить на GPU 96 Гб (это делается через BIOS, не тратьте время на предустановенную утилиту AMD Software: Adrenalin Edition) то можно загрузить целиком в видеопамять модели размером до ~120B параметров в Q4_K_M.

К тому же это полноценная Windows 11 с обычным софтом. Ставишь на стол и работаешь. Продвинутые пользователи предпочитают накатывать на железку Linux, но инференс вполне прилично работает и из под Винды.

Софт для инференса

Собственно, вариантов под Виндой не много. Я смотрел на три основных:

Ollama - быстро и минималистично, много туториалов по работе, вот официальный сайт. Но мне не зашло. С консолью разбираться было в лом. Тем паче, что есть бесплатный LM Studio с великолепным графическим интерфейсом.

LM Studio помимо всего прочего обладает удобным GUI для скачивания и запуска моделей (повторяюсь, но он и вправду хорош). Очень удобно выбирать и скачивать GGUF-файлы прямо в графической оболочке, точно понимая - какая из компрессий сколько занимает места на диске. Рядом с перечнем моделей в соседнем окошечке - краткое описание модели и ссылка на сайт разработчика.

Рис. 1. Внешний вид окна поиска моделей в LM Studio (я фанат темных тем, но если вам нравится светлая, можете оставить её, она идет по умолчанию).
Рис. 1. Внешний вид окна поиска моделей в LM Studio (я фанат темных тем, но если вам нравится светлая, можете оставить её, она идет по умолчанию).

Также сразу видно, какие из моделей наиболее популярны, насколько они свежие, насколько нравятся пользователям (по количеству лайков). Локальные модели и их доработанные разными умельцами версии выходят довольно часто, есть из чего повыбирать. Поэтому такой интерфейс лично мной оказался весьма востребован.

LM Studio в developer mode позволяет делать множество настроек для оптимизации инференса. Это опции загрузки, типа количества токенов в контексте (для моего железа почти всегда в максимум), распределение загрузки слоев между памятью CPU и GPU (всё в GPU), различные параметры типа flash attention (всегда ON) и пр. Также можно выбирать температуру, top k, top p и прочие навороты. Здесь не будем углубляться. Наша задача запуститься, чтобы работало, остальное подкрутите по мере необходимости.

LM Studio вполне себе рабочий вариант для совместной работы с Claude Code. Он может даже выступать в качестве роутера. То есть можно загрузить сразу обе упомянутые выше модели в память одновременно, Claude code будет обращаться к нужной, а вы будете видеть результат этого обращения прямо в интерфейсе.

Рис. 2. Окно разработчика с перечнем загруженных моделей и логами.
Рис. 2. Окно разработчика с перечнем загруженных моделей и логами.

llama.cpp server — то, на чём я остановился. Пришлось таки разбираться с консолью, но оно того стоило. Помимо поддержки режима роутера и MTP технологии (собственно, аналогично с LM Studio) есть несколько приятных бонусов:

  • Скорость генерации при запуске той одной и той же модели напрямую из под llama.cpp примерно на 20...25% выше, чем при запуске из под LM Studio.

  • Поддержка режима размышления(недоступно в LM Studio из-за неполной реализации API Антропика);

  • Поддержка загрузки изображений (недоступно в LM Studio по той же причине).

Выбор моделей

В Claude Code используется система Tier-моделей: Opus (самая умная), Sonnet (сбалансированная), Haiku (быстрая и дешёвая). И тут есть возможность сопоставить каждому Tier свою локальную модель — тогда Claude Code будет автоматически выбирать нужную для задачи.

Сегодня (начало июня 2026-ого на дворе) я остановился на такой связке:

Tier Claude Code

Локальная модель

Для чего

Opus

Qwen3.6-27b-MTP

Сложные задачи: multi-file рефакторинг, архитектура, баг-фиксы

Sonnet

Qwen3.6-35B-A3B-MTP

Стандартные задачи: генерация кода, тесты, рефакторинг

Haiku

Qwen3.6-35B-A3B-MTP

Используется в основном для файлового поиска, чтобы не забивать контекст основной модели.

35B-A3B имеет Adaptive Sparsity — это модель, оптимизированная для скорости. Она быстрая (до 60 t/s при пустом контексте) и довольно умная, именно ей лучше всего подходит роль рабочей лошадки. А 27B — более «глубокая», но и при этом значительно более медленная (не более 20 t/s при пустом контексте) модель для случаев, когда нужен максимально точный ответ.

В качестве быстрой модели я также выбираю 35B-A3B из-за скорости. Если бы в семействе qwen3.6 были варианты на 4B или 2B параметров, можно было бы попробовать их, но таковых пока что нет. А qwen3.5-4B работает примерно с той же скоростью, как и qwen3.6-35B-A3B при этом значительно уступая по интеллекту (если верить бенчмаркам самой Qwen). Поэтому решено было не забивать память лишней моделью, а обойтись двумя.

MTP (Multi-Token Prediction) - расширение к обычной autoregressive генерации. В обычном режиме модель генерирует по одному токену за шаг. С MTP модель предсказывает сразу несколько следующих токенов. Это ускоряет генерацию в 1.5-2 раза. В начале мая в llama.cpp добавили поддержку MTP. А в середине мая ревизия llama.cpp с поддержкой MTP появилась и в LM Studio. Для того, чтобы получить максимальную скорость генерации лучше сразу ориентироваться на модели с поддержкой этой технологии. Можно более подробно почитать о ней здесь.

Квантизация моделей

Обе модели скачаны через LM Studio из репозитория unsloth на HuggingFace:

  • Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf

  • Qwen3.6-27B-UD-Q6_K_XL.gguf

Почему именно Q6_K_XL? Тут простая математика:

Квантование

Размер 35B

Размер 27B

Суммарно

Качество

Q4_K_M

~20 ГБ

~16 ГБ

~38.5 ГБ

Ощутимая потеря качества

Q6_K_XL

~30 ГБ

~24 ГБ

~74 ГБ

Качество ≈ FP16

FP16

~70 ГБ

~54 ГБ

~132 ГБ

Не влезает в VRAM

Q6_K_XL — «золотая середина». Качество близко к FP16, а суммарно обе модели, занимая ~74 ГБ, влезают в 128 ГБ с запасом под KV-cache. Q4_K_M — быстрее, но на 27B уже заметна потеря качества в сложных задачах. FP16 — было бы совсем хорошо, но слишком жирно.

Настройка моделей будет дальше по тексту.

Скачивание и настройка llama.cpp server

Свежий релиз llama.cpp можно найти здесь. Если у вас Winows - лучше ставить "Windows x64 (Vulkan)", он работает стабильнее HIP. Если другая ОС - соответствующую сборку под свою ОС. И распаковываете в любую директорию. Например C:\Users\[user_name]\llama.cpp.

Presets-файл

llama.cpp позволяет определить несколько моделей в одном INI-файле. Каждая модель — отдельная секция с абсолютными путями:

[qwen3.6-27b-mtp]
model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\Qwen3.6-27B-UD-Q6_K_XL.gguf
mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\mmproj-F32.gguf
n-gpu-layers = 99
n-gpu-layers-draft = 99
parallel = 1
ctx-size = 200000
cache-type-k = q8_0
cache-type-v = q8_0
flash-attn = on
load-on-startup = true

[qwen3.6-35b-a3b-mtp]
model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf
mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\mmproj-F32.gguf
n-gpu-layers = 99
n-gpu-layers-draft = 99
parallel = 1
ctx-size = 200000
cache-type-k = q8_0
cache-type-v = q8_0
flash-attn = on
load-on-startup = true

Ключевые параметры:

  • model = C:\Users\[user_name]\.lmstudio\models\unsloth\...- директория, где лежат модели. Если скачивали из под LM Studio и от провайдера unsloth, то лежать должны именно там. Не забудьте поменять [user_name] на актуальное.

  • mmproj - мультимодальный проектор, нужен для того, чтобы модели понимали изображения. Лежит рядом с модлью.

  • n-gpu-layers = 99 - все слои на GPU (99 = «все доступные»). На Strix Halo GPU с 128 ГБ ОЗУ достаточно места для размещения всех моделей целиком.

  • n-gpu-layers-draft = 99 - draft-модель тоже на GPU. Критично для MTP: без этого будет простой на шине передачи.

  • parallel = 1 - один parallel stream на модель. Предотвращает конкуренцию за память между двумя моделями.

  • ctx-size = 200000 - контекст 200K токенов. Больше делать смысла нет, Claude Code будет работать только с такой длиной контекста.

  • cache-type-k = q8_0cache-type-v = q8_0 - KV-cache в q8_0 квантизации. FP16, который стоит по умолчанию, съел бы лишние ~10 ГБ.

  • flash-attn = on - flash attention для скорости.

  • load-on-startup = true - модель не выгружается из памяти после запроса. Первый запуск дольше (минут пять), но последующие запросы - мгновенно.

Команда запуска

llama-server.exe ^
    --models-preset presets_claude.ini ^
    --host 127.0.0.1 --port 1234 ^
    -ngl 99 ^
    --spec-type draft-mtp --spec-draft-n-max 3 ^
    --timeout 36000

Здесь всё предельно просто. -ngl 99 — глобальный оффлоад всех слоёв на GPU. --spec-type draft-mtp --spec-draft-n-max 3 — MTP speculation: модель предсказывает до трёх токенов за один шаг. --timeout 36000 — 10 часов бездействия, модели не выгружаются. --host 127.0.0.1 --port 1234 — такой же адрес и порт, как и у LM Studio. Сделал специально, чтобы при необходимости можно было запустить Claude Code совместно с LM Studio (на всякий случай).

Обёртка в батник

Всё это можно поместить в llama_for_claude.bat — он автоматически генерирует presets-файл при каждом запуске и стартует сервер. Не требует Python, виртуальных окружений или Docker. В файл добавлены настройки самих моделей (температура и пр. в соответствии рекомендациями Qwen).

run_llama_for_claude.bat
@echo off
setlocal enabledelayedexpansion

:: Переход в папку с llama.cpp
cd /d "C:\Users\[user_name]\llama.cpp" || ( echo Ошибка: папка не найдена & pause & exit /b 1 )

echo ============================================================
echo Starting llama-server for Claude Code
echo Port: 1234
echo Models will stay in memory
echo Request logs (generation speed) will appear below
echo ============================================================
echo.

:: Создаём временный файл пресетов с абсолютными путями к моделям
set PRESETS_FILE=presets_claude.ini
(
echo [qwen3.6-27b-mtp]
echo model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\Qwen3.6-27B-UD-Q6_K_XL.gguf
echo mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\mmproj-F32.gguf
echo n-gpu-layers = 99
echo n-gpu-layers-draft = 99
echo parallel = 1
echo ctx-size = 200000
echo cache-type-k = q8_0
echo cache-type-v = q8_0
echo flash-attn = on
echo temp = 0.6
echo top-p = 0.95
echo top-k = 20
echo presence-penalty = 1.1
echo min-p = 0
echo load-on-startup = true
echo.
echo [qwen3.6-35b-a3b-mtp]
echo model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf
echo mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\mmproj-F32.gguf
echo n-gpu-layers = 99
echo n-gpu-layers-draft = 99
echo parallel = 1
echo ctx-size = 200000
echo cache-type-k = q8_0
echo cache-type-v = q8_0
echo flash-attn = on
echo temp = 0.6
echo top-p = 0.95
echo top-k = 20
echo presence-penalty = 1.1
echo min-p = 0
echo load-on-startup = true
) > "%PRESETS_FILE%"

echo [INFO] Preset file created: %PRESETS_FILE%
echo.

:: Запуск сервера с MTP, постоянным удержанием моделей и подробными логами
llama-server.exe ^
    --models-preset "%PRESETS_FILE%" ^
    --host 127.0.0.1 --port 1234 ^
    -ngl 99 ^
    --spec-type draft-mtp --spec-draft-n-max 2 ^
	--timeout 36000

:: Если сервер завершился с ошибкой – показать сообщение
echo.
echo Сервер остановлен. Нажмите любую клавишу для выхода...
pause > nul

Запускаем bat файл, ждем с минуту загрузки обоих моделей, и всё — сервер работает. Проверить можно так: curl http://127.0.0.1:1234/v1/models — должен вернуть список всех трёх моделей.

Рис. 3. Запущенный в окне терминала llama.cpp server выводит служебные сообщения при работе Caude Code.
Рис. 3. Запущенный в окне терминала llama.cpp server выводит служебные сообщения при работе Caude Code.

Установка Claude Code

Установка под Windows и все остальные ОС описана в официальной документации Антропика.

Настройка Claude Code

Дальше вC:\Users\[user_name]\.claude\settings.json прописываем сопоставление Tier → модель, указываем адрес сервера и ещё ряд интересных параметров:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://127.0.0.1:1234",
    "ANTHROPIC_AUTH_TOKEN": "sk-any-key",
    "ANTHROPIC_API_KEY": "sk-any-key",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.6-27b-mtp",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.6-35b-a3b-mtp",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.6-35b-a3b-mtp",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "CLAUDE_CODE_AUTO_COMPACT_WINDOW": "262144",
    "CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "95",
    "CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "0",
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_MAX_OUTPUT_TOKENS": "32768",
    "CLAUDE_STREAM_IDLE_TIMEOUT_MS": "36000000",
    "CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"
  }
}

Вот что они означают:

Переменная

Значение

Зачем

ANTHROPIC_BASE_URL

http://127.0.0.1:1234

Указывает на наш llama-server. С такой настройкой можно будет запускать claude code как с llama.cpp, так и с LM Studio.

ANTHROPIC_AUTH_TOKEN

sk-any-key

Любое непустое значение, если не поставить, Claude Code будет требовать аутентификации.

ANTHROPIC_API_KEY

sk-any-key

Любое непустое значение

ANTHROPIC_DEFAULT_OPUS_MODEL

qwen3.6-27b-mtp

Сложные задачи → умная модель

ANTHROPIC_DEFAULT_SONNET_MODEL

qwen3.6-35b-a3b-mtp

Стандартные задачи → основная модель

ANTHROPIC_DEFAULT_HAIKU_MODEL

qwen3.6-35b-a3b-mtp

Тривиальные → быстрая модель (в нашем случае та же основная)

CLAUDE_CODE_MAX_OUTPUT_TOKENS

32768

Максимум токенов в ответе модели.

CLAUDE_CODE_AUTO_COMPACT_WINDOW

262144

262K контекста - пробовал увеличить контекст до поддерживаемого моделями, но это не сработало.

CLAUDE_AUTOCOMPACT_PCT_OVERRIDE

95

Компрессия только когда контекст заполнен на 95%. Вроде бы оно тоже не особо работает (

CLAUDE_STREAM_IDLE_TIMEOUT_MS

36000000

10 часов ожидания генерации (на всякий случай).

CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING

0

Включить мышление, в llama.cpp оно работает!

CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC

1

Полный оффлайн, без сетевых запросов

CLAUDE_CODE_ENABLE_TELEMETRY

0

Без телеметрии

CLAUDE_CODE_ATTRIBUTION_HEADER

0

Без колонтитулов с указанием ИИ. Если не указать - Claude Code будет жутко тормозить.

Запуск Claude Code

Сначала запускаете llama.cpp server с помощью bat файла, приведенного выше.

Потом открываете терминал в любой своей рабочей директории и вбиваете claude. В терминале запустится ваш полностью локальный Claude Code с моделями Qwen на борту.

Рис. 4. Локальный Claude Code.
Рис. 4. Локальный Claude Code.

Бенчмарки

Тестировал на GMKtec EV0-X2 (Ryzen AI Max+ 395, 128 ГБ RAM). llama.cpp server, GPU offload, MTP speculation включён.

Скорость загрузки промпта и генерации (токенов/сек):

Модель

Квантование

Input, t/s

Output, t/s

Qwen3.6-35B-A3B-MTP

Q6_K_XL

~750-300

~55-35

Qwen3.6-27B-MTP

Q6_K_XL

~175-100

~15-10

Приведен диапазон значений. Максимальные значения наблюдаются сразу после запуска Clude Code (сразу после начала диалога, контекст что-то около 16...20 килотокенов). Далее по мере заполнения контекста значения будут проседать. Для получения максимальной точности лучше не переваливать за 100...120 тыс. токенов, чтобы экономить контекст используйте субагентов (они запускаются со своим контекстным окном).

Заключение

Вот собственно и всё. Запускаете, работаете в Claude Code с локальными моделями, жжёте токены как не в себя и в ус не дуете. Модели, конечно, поглупее по сравнению с оригинальными Антропиковскими, но зато абсолютно бесплатно!

Комментарии (40)


  1. jetnet
    10.06.2026 05:24

    Почему Claude Code, a не, например, Pi? А самый главный минус Strix Halo - нет возможности кластеризации, в отличии от Spark’ов.


    1. Walker2000 Автор
      10.06.2026 05:24

      Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.


      1. pesh1983
        10.06.2026 05:24

        А можете раскрыть тему? Чем, например, Клауд код лучше того же опенкод? Пользуюсь последним, вполне себе, поэтому хотелось бы отзыв от того, кто обоими пользовался.


        1. Alecandr761
          10.06.2026 05:24

          https://youtu.be/U4cgJUbnwP0?si=4KFhqHHItxDwOMXy

          Тут товарищ хорошо раскрыл особенности 3х популярных приложений


    1. Genius_Russian_Coders
      10.06.2026 05:24

      Интересный подход. Strix Halo с unified memory — отличная платформа для локальных AI-агентов. Как Qwen3.6 справляется с рефакторингом больших файлов? На 32B-моделях контекст часто проседает после ~1500 строк, интересно, как тут.


      1. pesh1983
        10.06.2026 05:24

        deleted


    1. InfintiyWorm
      10.06.2026 05:24

      это не правда

      minisforum на своем ms-s1max - показывали кластер из 2 - для запуска моделей 245b, и 4х для 671b (на официальном yooutube)

      а еще посоветую посмотреть на youtube Donato Capitella он как раз показывает что можно сделать в кластере + болшую производительнрость для кластера через rocm и сетевые карты 10гбит/с

      https://minisforum.ru/products/minisforum-ms-s1-max


      1. jetnet
        10.06.2026 05:24

        Да, сорян, забыл про танцы с бубнами (RDMA): https://www.youtube.com/watch?v=32cjdHVoSRo


        1. InfintiyWorm
          10.06.2026 05:24

          ничего что в видео, автор ссылается на Donato Capitella про которого я упоминал.

          у него уже решена проблема медленности, и есть тесты на rocm, который релизнули в апреле

          там по видео видно, что основная проблема, это найти сетевые карты с поддержкой RDMA, обновить ядро федоры минимум до 6.18 (именно в ней обновили rocm) и тогда все завелось и начало работать.

          медленно, да, но это пока только для энтузиастов.

          при этом spark dgx имеет преимущество 1-2т/с перед 395 ai max, при стомости примерно на 1т больше.

          в тоже время у 395 ai max - можно подключить внешнюю видеокарту и получить еще большую скорость работы в малых моделях. minisforum ms-s1 max на борту имеет pci 16(4x0) и usb4v2. есть модели со встроенным oculink 4x0

          лучше всего у apple с локальными моделями, мало того что есть версии на 256гб рам (стоят правда) так еще и память быстрее + шина больше + оптимизация под маки


  1. Smolensk
    10.06.2026 05:24

    Спасибо за ваши статьи!

    Кажется, остаётся не реализованным главный потенциал платформы: много памяти одним куском. Для использования данной пары моделей достаточно и пары бытовых GPU (причём, они там и существенно лучше справились бы). В этом смысле, интуитивно хочется видеть задействованный под капотом какой-нибудь GPT-OSS-120B, который недоступен на традиционных бытовых GPU.


    1. Walker2000 Автор
      10.06.2026 05:24

      Раньше я использовал в основном gpt-oss-120b, потом qwen3-coder-next (80 млрд параметров), с появлением qwen3.6 перешел на модели этой линейки. Качество ответов у них выше, контекстное окно больше. Из имеющихся сейчас моделей 3.6 показалось оптимальным выбором.


      1. ponikrf
        10.06.2026 05:24

        Подтверждаю. qwen3.6 - первая модель которая реально выполняет работу в качестве агента более ли менее полноценно.

        Но минимально надо брать 6 битную. На 4 бита качество слишком сильно падает.

        После qwen3.6 - удалил все qwen-coder. Даже gemma4 которая на выходе впечатляла - теперь пылится.


  1. Walker2000 Автор
    10.06.2026 05:24

    Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.


  1. iwram
    10.06.2026 05:24

    Зачем такие сложности? Просто запускаем ванильный ollama server, правим systemd добавляя env Environment=“OLLAMA_HOST=0.0.0.0:11434”, ставим редактор zed - выбираем из списка ollama прописываем ip своего сервера и окно контекста и все.


    1. sN00b
      10.06.2026 05:24

      Все дело в производительности. Если не хотите заморачиваться, хотяб через LM Stuio это делайте. Данное решение производительнее


  1. netricks
    10.06.2026 05:24

    И всё-таки для моделей qwen надо бы юзать qwen-code. Тем более, что qwen-code - это произведение искусства


    1. jetnet
      10.06.2026 05:24

      qwen-coder достаточно старый и плохо работает даже по инструкции

      ЧебурБЕНЧ
      Чебурашка
      Чебурашка


      1. holgw
        10.06.2026 05:24

        Речь о разных вещах. Комментатор выше пишет про qwen-code – это агент CLI (он может работать с любыми моделями, но скорее всего лучше оптимизирован под модели Qwen). А вы пишете про линейку моделей Qwen Coder (при чем для примера приводите старую модель в линейке).


        1. jetnet
          10.06.2026 05:24

          А, ну может быть, тогда я перепутал, сорян.


    1. Walker2000 Автор
      10.06.2026 05:24

      Да, это стоит попробовать, спасибо за наводку. Ранее смотрел в сторону qwen code. Но на тот момент это была еще сырая система, только только скопированная с гугловской cli. Возможно, ситуация изменилась.


  1. melodictsk
    10.06.2026 05:24

    Если к этому мини пк докинуть любую видеокарту, из недорогих в идеале 3070м 16гб (500 гб/с память) через м2 псие 4х4, то скорость увеличиться вдвое. Потребление всего 110 вт в прыжке, очень холодные.


    1. Walker2000 Автор
      10.06.2026 05:24

      Лучше 3090 с 24 Гб. Тогда можно будет qwen3.6-27b побыстрее инференсить. Наверное, с 50 t./s. Но модель сжатую до q4 придется юзать при этом.


  1. DamirMur
    10.06.2026 05:24

    KevinJK51/Qwen3.6-12B-IQ-Ultra-Heretic-Uncensored-Thinking-V2-Hightop-GGUF гуглАИ считает она лучше чем Qwen3.6-35B-A3B-MTP


    1. rodial
      10.06.2026 05:24

      Лучше в чём?

      Она будет быстрее - да, она будет без цензуры, но на этом всё. Код писать эта модель будет хуже чем оригинальная.


      1. DamirMur
        10.06.2026 05:24

        3B меньше чем 12B, так что кто будет код хуже писать, ИИ считает что 3B


        1. sN00b
          10.06.2026 05:24

          Она будет хуже unsloth/Qwen3.6-27B-MTP-GGUF. И то и то - Dance модели. Могу сравнить на Strix Halo вашу модель с Qwen3.6-35B-A3B-MTP - это MoE модель но параметров в ней в 3 раза больше чем в вашей. И если уж использовать Heretic на Strix Halo, то DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF. Эта даже 1С ку берет. Но выдает 5 токенов в секунду.


  1. Liugger
    10.06.2026 05:24

    На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.

    Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.

    Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b


    1. Walker2000 Автор
      10.06.2026 05:24

      Выгрузка и загрузка моделей сильно замедляет сессию. Не прижилось как то.


      1. rodial
        10.06.2026 05:24

        Тем более на 96gb vram проще несколько моделей сразу загрузить

        Не уверен что на windows версии есть такие параметры, но на linux я добавляю в llama.cpp сервер ещё –no-mmap --fit off


  1. dilmah949
    10.06.2026 05:24

    12 месяцев по 10 тыс. =120000 тыс. против … хотелось бы увидеть тут цену и видюху для перехода на локальную разработку на квен 3.6 и ответ стоит оно того или нет?


    1. Mintavrus
      10.06.2026 05:24

      2х RTX3090 ~120 тыс руб на Авито. Модель Qwen3.6-27b-q8_k_xl-mtp работает на скорости 1200 токен/сек префил и 45-50 токен/сек генерация. То есть более чем в 7 раз выше чтение промпта и в 3 раза выше генерация, чем в обсуждаемом в статье решении. На мой взгляд стоит того и отрабатывает свои деньги.


  1. gevals
    10.06.2026 05:24

    Интересно, в итоге какова цена вопроса? Оборудование, сам компьютер, потребление электричества


    1. Walker2000 Автор
      10.06.2026 05:24

      Мини ПК на strix halo со 128 ГБ на Озон сейчас от 250 тыс. Подорожало, до нового года было в районе 180. Потребление в зависимости от режима. От 60 до 120 Вт. Нормально работает в среднем (80…90 Вт). Разгонять до 120 смысла особого нет, скорость генерации практически не растет.


  1. Mintavrus
    10.06.2026 05:24

    Странный и не логичный выбор настроек. Если у Вас много памяти, то почему не использовать модель с квантованием Q8_K_XL, которая лучше чем Q6? Опять же, при большом объеме памяти, зачем вы квантуете кэш на q8, вместо того чтобы использовать bf16? Это же снижает качество генерации, особенно ощутимо на больших контекстах, и не даёт никакой прибавки в скорости. По моему опыту, лучше использовать Open Code, он работает отлично и не имеет никаких проблем с контекстом 260k.


    1. Walker2000 Автор
      10.06.2026 05:24

      Хорошее замечание. Я поджал модели для того, чтобы влезали в память сразу три. Но потом остановился на двух. Поэтому можно параметры поднять слегка. На сколько по вашим ощущениям увеличивается качество генерации с KV кэшем в bf16 по сравнению с Q8? Я читал, что разницы не заметно.


      1. Mintavrus
        10.06.2026 05:24

        На счёт кэширования кэша, тут сложно судить объективно, так так я не проводил тестирование в связи с отсутствием у меня бенчмарка данной метрики, но судя по статьям с исследованиями, которые я читал на реддите, разница имеется. Но в любом случае, при наличии свободной памяти квантование кэша выглядит не логичным.


        1. Walker2000 Автор
          10.06.2026 05:24

          Пришлите ссылочку, если не затруднит.


    1. sN00b
      10.06.2026 05:24

      Q8 в полтора раза медленнее Q6. Опыт показал что 5-6 квант на этой машине работает оптимально.


  1. sN00b
    10.06.2026 05:24

    Автор, огромное Вам спасибо! Раньше мучался с Dance-моделями на скорости записи в 5 токенов в секунду. Но попробовал вашу модельку, правда в связке с openclaude, а не claude code. Cкорость выросла в 3 раза благодаря MTP. Теперь у меня такой сетап: OpenCode для MoE модельки, он хорошо ужимает контекст и справляется с легкими задачами. OpenClaude для работы с Dance моделью и большим контекстом без компрессии.


    1. Walker2000 Автор
      10.06.2026 05:24

      Не за что. Рад, что статья принесла пользу )