Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке / forpes.ru

Главная
Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке +18

10.06.2026 05:00

Walker2000 40 12000 Источник

Введение

Всем привет! Продолжаю тему предыдущей статьи. В ней сравнивалось железо для локального инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться, остановился я именно на последнем.

Железо есть, зарядим теперь на нем пару-тройку локальных моделей под управлением проверенного AI-агента.

Claude Сode по подписке с оригинальными LLM - это, конечно, замечательно. Но это стоит денег, да и свой код в чужие дата-центры не всегда правильно отправлять. Плюс за всякое неосторожное движение можно попасть в бан, рискуя потерять все свои наработки.

Одно из решений: Claude Code во free mode с локальными моделями. Anthropic позволяет заменить свои модели на любые с совместимым API. И если раньше это выглядело как эксперимент (локальная модель — что с неё возьмёшь?), то сейчас, с моделями Qwen3.6 результат в целом рабочий.

В этой статье я расскажу, как всё это настроить на GMKtec EV0-X2 — от загрузки моделей до первого запроса к Claude Code.

Постановка задачи и конфигурация

Допустим, вы хотите использовать ИИ-ассистента для помощи в программировании, но по ряду причин не хотите пользоваться облачным API. Например:

платный API Claude Sonnet/Opus это дорого, лимиты выгорают быстро;
анализируете код, которым не хочется делиться;
или вам просто интересно (тоже повод).

Я выбрал связку: llama.cpp server + две GGUF-модели Qwen3.6-MTP + Claude Code в режиме free mode. Всё это работает на Strix Halo (Ryzen AI Max+ 395) с 128 ГБ оперативной памяти. ИИ-ассистент можно взять и другой (Opencode, Kilocode CLI и т.п.). Но мне пока больше всего нравится Claude Code. Качество harness у этого агента из коробки субъективно показалось мне выше, чем у опенсорсных альтернатив.

Железо

Напомним, что такое это самое Strix Halo. Это не конкретный компьютер, а архитектура AMD для высокопроизводительных ноутбуков и мини-ПК. Процессор Ryzen AI Max+ 395 - десктопный чиплет в форм-факторе мобильного решения.

Характеристики GMKtec EV0-X2:

Параметр	Значение
Процессор	AMD Ryzen AI Max+ 395, 16 ядер / 32 потока, TSMC 4nm, до 5.1 ГГц, 16 МБ L2, 64 МБ L3 (X3D)
Графика	AMD Radeon 8060S, RDNA 3.5, 40 вычислительных блоков
Оперативная память	LPDDR5X, 128 ГБ, 8-канальная, 8 ГГц, 217 ГБ/с
SSD	PCIe 4.0, 2 ТБ
Сеть	Wi-Fi 7, Bluetooth 5.4, 2.5 Гбит/с Ethernet
Питание	Стабильная работа при 120 Вт, пик до 140 Вт
Нейронный ускоритель	XDNA 2, до 126 TOPS

Для инференса LLM ключевой ограничитель - пропускная способность памяти. У Strix Halo 8-канальная LPDDR5X с 217 ГБ/с - это заметно больше, чем у типичных ноутбуков. А 128 ГБ можно делить между CPU и GPU. Если выделить на GPU 96 Гб (это делается через BIOS, не тратьте время на предустановенную утилиту AMD Software: Adrenalin Edition) то можно загрузить целиком в видеопамять модели размером до ~120B параметров в Q4_K_M.

К тому же это полноценная Windows 11 с обычным софтом. Ставишь на стол и работаешь. Продвинутые пользователи предпочитают накатывать на железку Linux, но инференс вполне прилично работает и из под Винды.

Софт для инференса

Собственно, вариантов под Виндой не много. Я смотрел на три основных:

Ollama - быстро и минималистично, много туториалов по работе, вот официальный сайт. Но мне не зашло. С консолью разбираться было в лом. Тем паче, что есть бесплатный LM Studio с великолепным графическим интерфейсом.

LM Studio помимо всего прочего обладает удобным GUI для скачивания и запуска моделей (повторяюсь, но он и вправду хорош). Очень удобно выбирать и скачивать GGUF-файлы прямо в графической оболочке, точно понимая - какая из компрессий сколько занимает места на диске. Рядом с перечнем моделей в соседнем окошечке - краткое описание модели и ссылка на сайт разработчика.

Рис. 1. Внешний вид окна поиска моделей в LM Studio (я фанат темных тем, но если вам нравится светлая, можете оставить её, она идет по умолчанию).

Также сразу видно, какие из моделей наиболее популярны, насколько они свежие, насколько нравятся пользователям (по количеству лайков). Локальные модели и их доработанные разными умельцами версии выходят довольно часто, есть из чего повыбирать. Поэтому такой интерфейс лично мной оказался весьма востребован.

LM Studio в developer mode позволяет делать множество настроек для оптимизации инференса. Это опции загрузки, типа количества токенов в контексте (для моего железа почти всегда в максимум), распределение загрузки слоев между памятью CPU и GPU (всё в GPU), различные параметры типа flash attention (всегда ON) и пр. Также можно выбирать температуру, top k, top p и прочие навороты. Здесь не будем углубляться. Наша задача запуститься, чтобы работало, остальное подкрутите по мере необходимости.

LM Studio вполне себе рабочий вариант для совместной работы с Claude Code. Он может даже выступать в качестве роутера. То есть можно загрузить сразу обе упомянутые выше модели в память одновременно, Claude code будет обращаться к нужной, а вы будете видеть результат этого обращения прямо в интерфейсе.

Рис. 2. Окно разработчика с перечнем загруженных моделей и логами.

llama.cpp server — то, на чём я остановился. Пришлось таки разбираться с консолью, но оно того стоило. Помимо поддержки режима роутера и MTP технологии (собственно, аналогично с LM Studio) есть несколько приятных бонусов:

Скорость генерации при запуске той одной и той же модели напрямую из под llama.cpp примерно на 20...25% выше, чем при запуске из под LM Studio.
Поддержка режима размышления(недоступно в LM Studio из-за неполной реализации API Антропика);
Поддержка загрузки изображений (недоступно в LM Studio по той же причине).

Выбор моделей

В Claude Code используется система Tier-моделей: Opus (самая умная), Sonnet (сбалансированная), Haiku (быстрая и дешёвая). И тут есть возможность сопоставить каждому Tier свою локальную модель — тогда Claude Code будет автоматически выбирать нужную для задачи.

Сегодня (начало июня 2026-ого на дворе) я остановился на такой связке:

Tier Claude Code	Локальная модель	Для чего
Opus	Qwen3.6-27b-MTP	Сложные задачи: multi-file рефакторинг, архитектура, баг-фиксы
Sonnet	Qwen3.6-35B-A3B-MTP	Стандартные задачи: генерация кода, тесты, рефакторинг
Haiku	Qwen3.6-35B-A3B-MTP	Используется в основном для файлового поиска, чтобы не забивать контекст основной модели.

35B-A3B имеет Adaptive Sparsity — это модель, оптимизированная для скорости. Она быстрая (до 60 t/s при пустом контексте) и довольно умная, именно ей лучше всего подходит роль рабочей лошадки. А 27B — более «глубокая», но и при этом значительно более медленная (не более 20 t/s при пустом контексте) модель для случаев, когда нужен максимально точный ответ.

В качестве быстрой модели я также выбираю 35B-A3B из-за скорости. Если бы в семействе qwen3.6 были варианты на 4B или 2B параметров, можно было бы попробовать их, но таковых пока что нет. А qwen3.5-4B работает примерно с той же скоростью, как и qwen3.6-35B-A3B при этом значительно уступая по интеллекту (если верить бенчмаркам самой Qwen). Поэтому решено было не забивать память лишней моделью, а обойтись двумя.

MTP (Multi-Token Prediction) - расширение к обычной autoregressive генерации. В обычном режиме модель генерирует по одному токену за шаг. С MTP модель предсказывает сразу несколько следующих токенов. Это ускоряет генерацию в 1.5-2 раза. В начале мая в llama.cpp добавили поддержку MTP. А в середине мая ревизия llama.cpp с поддержкой MTP появилась и в LM Studio. Для того, чтобы получить максимальную скорость генерации лучше сразу ориентироваться на модели с поддержкой этой технологии. Можно более подробно почитать о ней здесь.

Квантизация моделей

Обе модели скачаны через LM Studio из репозитория unsloth на HuggingFace:

Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf
Qwen3.6-27B-UD-Q6_K_XL.gguf

Почему именно Q6_K_XL? Тут простая математика:

Квантование	Размер 35B	Размер 27B	Суммарно	Качество
Q4_K_M	~20 ГБ	~16 ГБ	~38.5 ГБ	Ощутимая потеря качества
Q6_K_XL	~30 ГБ	~24 ГБ	~74 ГБ	Качество ≈ FP16
FP16	~70 ГБ	~54 ГБ	~132 ГБ	Не влезает в VRAM

Q6_K_XL — «золотая середина». Качество близко к FP16, а суммарно обе модели, занимая ~74 ГБ, влезают в 128 ГБ с запасом под KV-cache. Q4_K_M — быстрее, но на 27B уже заметна потеря качества в сложных задачах. FP16 — было бы совсем хорошо, но слишком жирно.

Настройка моделей будет дальше по тексту.

Скачивание и настройка llama.cpp server

Свежий релиз llama.cpp можно найти здесь. Если у вас Winows - лучше ставить "Windows x64 (Vulkan)", он работает стабильнее HIP. Если другая ОС - соответствующую сборку под свою ОС. И распаковываете в любую директорию. Например C:\Users\[user_name]\llama.cpp.

Presets-файл

llama.cpp позволяет определить несколько моделей в одном INI-файле. Каждая модель — отдельная секция с абсолютными путями:

[qwen3.6-27b-mtp]
model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\Qwen3.6-27B-UD-Q6_K_XL.gguf
mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\mmproj-F32.gguf
n-gpu-layers = 99
n-gpu-layers-draft = 99
parallel = 1
ctx-size = 200000
cache-type-k = q8_0
cache-type-v = q8_0
flash-attn = on
load-on-startup = true

[qwen3.6-35b-a3b-mtp]
model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf
mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\mmproj-F32.gguf
n-gpu-layers = 99
n-gpu-layers-draft = 99
parallel = 1
ctx-size = 200000
cache-type-k = q8_0
cache-type-v = q8_0
flash-attn = on
load-on-startup = true

Ключевые параметры:

model = C:\Users\[user_name]\.lmstudio\models\unsloth\...- директория, где лежат модели. Если скачивали из под LM Studio и от провайдера unsloth, то лежать должны именно там. Не забудьте поменять [user_name] на актуальное.
mmproj - мультимодальный проектор, нужен для того, чтобы модели понимали изображения. Лежит рядом с модлью.
n-gpu-layers = 99 - все слои на GPU (99 = «все доступные»). На Strix Halo GPU с 128 ГБ ОЗУ достаточно места для размещения всех моделей целиком.
n-gpu-layers-draft = 99 - draft-модель тоже на GPU. Критично для MTP: без этого будет простой на шине передачи.
parallel = 1 - один parallel stream на модель. Предотвращает конкуренцию за память между двумя моделями.
ctx-size = 200000 - контекст 200K токенов. Больше делать смысла нет, Claude Code будет работать только с такой длиной контекста.
cache-type-k = q8_0, cache-type-v = q8_0 - KV-cache в q8_0 квантизации. FP16, который стоит по умолчанию, съел бы лишние ~10 ГБ.
flash-attn = on - flash attention для скорости.
load-on-startup = true - модель не выгружается из памяти после запроса. Первый запуск дольше (минут пять), но последующие запросы - мгновенно.

Команда запуска

llama-server.exe ^
    --models-preset presets_claude.ini ^
    --host 127.0.0.1 --port 1234 ^
    -ngl 99 ^
    --spec-type draft-mtp --spec-draft-n-max 3 ^
    --timeout 36000

Здесь всё предельно просто. -ngl 99 — глобальный оффлоад всех слоёв на GPU. --spec-type draft-mtp --spec-draft-n-max 3 — MTP speculation: модель предсказывает до трёх токенов за один шаг. --timeout 36000 — 10 часов бездействия, модели не выгружаются. --host 127.0.0.1 --port 1234 — такой же адрес и порт, как и у LM Studio. Сделал специально, чтобы при необходимости можно было запустить Claude Code совместно с LM Studio (на всякий случай).

Обёртка в батник

Всё это можно поместить в llama_for_claude.bat — он автоматически генерирует presets-файл при каждом запуске и стартует сервер. Не требует Python, виртуальных окружений или Docker. В файл добавлены настройки самих моделей (температура и пр. в соответствии рекомендациями Qwen).

run_llama_for_claude.bat

@echo off
setlocal enabledelayedexpansion

:: Переход в папку с llama.cpp
cd /d "C:\Users\[user_name]\llama.cpp" || ( echo Ошибка: папка не найдена & pause & exit /b 1 )

echo ============================================================
echo Starting llama-server for Claude Code
echo Port: 1234
echo Models will stay in memory
echo Request logs (generation speed) will appear below
echo ============================================================
echo.

:: Создаём временный файл пресетов с абсолютными путями к моделям
set PRESETS_FILE=presets_claude.ini
(
echo [qwen3.6-27b-mtp]
echo model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\Qwen3.6-27B-UD-Q6_K_XL.gguf
echo mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-27B-MTP-GGUF\mmproj-F32.gguf
echo n-gpu-layers = 99
echo n-gpu-layers-draft = 99
echo parallel = 1
echo ctx-size = 200000
echo cache-type-k = q8_0
echo cache-type-v = q8_0
echo flash-attn = on
echo temp = 0.6
echo top-p = 0.95
echo top-k = 20
echo presence-penalty = 1.1
echo min-p = 0
echo load-on-startup = true
echo.
echo [qwen3.6-35b-a3b-mtp]
echo model = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf
echo mmproj = C:\Users\[user_name]\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-MTP-GGUF\mmproj-F32.gguf
echo n-gpu-layers = 99
echo n-gpu-layers-draft = 99
echo parallel = 1
echo ctx-size = 200000
echo cache-type-k = q8_0
echo cache-type-v = q8_0
echo flash-attn = on
echo temp = 0.6
echo top-p = 0.95
echo top-k = 20
echo presence-penalty = 1.1
echo min-p = 0
echo load-on-startup = true
) > "%PRESETS_FILE%"

echo [INFO] Preset file created: %PRESETS_FILE%
echo.

:: Запуск сервера с MTP, постоянным удержанием моделей и подробными логами
llama-server.exe ^
    --models-preset "%PRESETS_FILE%" ^
    --host 127.0.0.1 --port 1234 ^
    -ngl 99 ^
    --spec-type draft-mtp --spec-draft-n-max 2 ^
	--timeout 36000

:: Если сервер завершился с ошибкой – показать сообщение
echo.
echo Сервер остановлен. Нажмите любую клавишу для выхода...
pause > nul

Запускаем bat файл, ждем с минуту загрузки обоих моделей, и всё — сервер работает. Проверить можно так: curl http://127.0.0.1:1234/v1/models — должен вернуть список всех трёх моделей.

Рис. 3. Запущенный в окне терминала llama.cpp server выводит служебные сообщения при работе Caude Code.

Установка Claude Code

Установка под Windows и все остальные ОС описана в официальной документации Антропика.

Настройка Claude Code

Дальше вC:\Users\[user_name]\.claude\settings.json прописываем сопоставление Tier → модель, указываем адрес сервера и ещё ряд интересных параметров:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://127.0.0.1:1234",
    "ANTHROPIC_AUTH_TOKEN": "sk-any-key",
    "ANTHROPIC_API_KEY": "sk-any-key",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.6-27b-mtp",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.6-35b-a3b-mtp",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.6-35b-a3b-mtp",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "CLAUDE_CODE_AUTO_COMPACT_WINDOW": "262144",
    "CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "95",
    "CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "0",
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_MAX_OUTPUT_TOKENS": "32768",
    "CLAUDE_STREAM_IDLE_TIMEOUT_MS": "36000000",
    "CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"
  }
}

Вот что они означают:

Переменная	Значение	Зачем
`ANTHROPIC_BASE_URL`	`http://127.0.0.1:1234`	Указывает на наш llama-server. С такой настройкой можно будет запускать claude code как с llama.cpp, так и с LM Studio.
`ANTHROPIC_AUTH_TOKEN`	`sk-any-key`	Любое непустое значение, если не поставить, Claude Code будет требовать аутентификации.
`ANTHROPIC_API_KEY`	`sk-any-key`	Любое непустое значение
`ANTHROPIC_DEFAULT_OPUS_MODEL`	`qwen3.6-27b-mtp`	Сложные задачи → умная модель
`ANTHROPIC_DEFAULT_SONNET_MODEL`	`qwen3.6-35b-a3b-mtp`	Стандартные задачи → основная модель
`ANTHROPIC_DEFAULT_HAIKU_MODEL`	`qwen3.6-35b-a3b-mtp`	Тривиальные → быстрая модель (в нашем случае та же основная)
`CLAUDE_CODE_MAX_OUTPUT_TOKENS`	`32768`	Максимум токенов в ответе модели.
`CLAUDE_CODE_AUTO_COMPACT_WINDOW`	`262144`	262K контекста - пробовал увеличить контекст до поддерживаемого моделями, но это не сработало.
`CLAUDE_AUTOCOMPACT_PCT_OVERRIDE`	`95`	Компрессия только когда контекст заполнен на 95%. Вроде бы оно тоже не особо работает (
`CLAUDE_STREAM_IDLE_TIMEOUT_MS`	`36000000`	10 часов ожидания генерации (на всякий случай).
`CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING`	`0`	Включить мышление, в llama.cpp оно работает!
`CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC`	`1`	Полный оффлайн, без сетевых запросов
`CLAUDE_CODE_ENABLE_TELEMETRY`	`0`	Без телеметрии
`CLAUDE_CODE_ATTRIBUTION_HEADER`	`0`	Без колонтитулов с указанием ИИ. Если не указать - Claude Code будет жутко тормозить.

Запуск Claude Code

Сначала запускаете llama.cpp server с помощью bat файла, приведенного выше.

Потом открываете терминал в любой своей рабочей директории и вбиваете claude. В терминале запустится ваш полностью локальный Claude Code с моделями Qwen на борту.

Бенчмарки

Тестировал на GMKtec EV0-X2 (Ryzen AI Max+ 395, 128 ГБ RAM). llama.cpp server, GPU offload, MTP speculation включён.

Скорость загрузки промпта и генерации (токенов/сек):

Модель	Квантование	Input, t/s	Output, t/s
Qwen3.6-35B-A3B-MTP	Q6_K_XL	~750-300	~55-35
Qwen3.6-27B-MTP	Q6_K_XL	~175-100	~15-10

Приведен диапазон значений. Максимальные значения наблюдаются сразу после запуска Clude Code (сразу после начала диалога, контекст что-то около 16...20 килотокенов). Далее по мере заполнения контекста значения будут проседать. Для получения максимальной точности лучше не переваливать за 100...120 тыс. токенов, чтобы экономить контекст используйте субагентов (они запускаются со своим контекстным окном).

Заключение

Вот собственно и всё. Запускаете, работаете в Claude Code с локальными моделями, жжёте токены как не в себя и в ус не дуете. Модели, конечно, поглупее по сравнению с оригинальными Антропиковскими, но зато абсолютно бесплатно!

Комментарии (40)

jetnet
10.06.2026 05:24
#30091282
Почему Claude Code, a не, например, Pi? А самый главный минус Strix Halo - нет возможности кластеризации, в отличии от Spark’ов.
1. Walker2000 Автор
  10.06.2026 05:24
  #30091486
  Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.
  1. pesh1983
    10.06.2026 05:24
    #30099474
    А можете раскрыть тему? Чем, например, Клауд код лучше того же опенкод? Пользуюсь последним, вполне себе, поэтому хотелось бы отзыв от того, кто обоими пользовался.
    
    Alecandr761
    10.06.2026 05:24
    #30102466
    https://youtu.be/U4cgJUbnwP0?si=4KFhqHHItxDwOMXy
    
    Тут товарищ хорошо раскрыл особенности 3х популярных приложений
1. Genius_Russian_Coders
  10.06.2026 05:24
  #30091744
  Интересный подход. Strix Halo с unified memory — отличная платформа для локальных AI-агентов. Как Qwen3.6 справляется с рефакторингом больших файлов? На 32B-моделях контекст часто проседает после ~1500 строк, интересно, как тут.
  1. pesh1983
    10.06.2026 05:24
    #30099470
    deleted
1. InfintiyWorm
  10.06.2026 05:24
  #30093049
  это не правда
  
  minisforum на своем ms-s1max - показывали кластер из 2 - для запуска моделей 245b, и 4х для 671b (на официальном yooutube)
  
  а еще посоветую посмотреть на youtube Donato Capitella он как раз показывает что можно сделать в кластере + болшую производительнрость для кластера через rocm и сетевые карты 10гбит/с
  
  https://minisforum.ru/products/minisforum-ms-s1-max
  1. jetnet
    10.06.2026 05:24
    #30096163
    Да, сорян, забыл про танцы с бубнами (RDMA): https://www.youtube.com/watch?v=32cjdHVoSRo
    
    InfintiyWorm
    10.06.2026 05:24
    #30097661
    ничего что в видео, автор ссылается на Donato Capitella про которого я упоминал.
    
    у него уже решена проблема медленности, и есть тесты на rocm, который релизнули в апреле
    
    там по видео видно, что основная проблема, это найти сетевые карты с поддержкой RDMA, обновить ядро федоры минимум до 6.18 (именно в ней обновили rocm) и тогда все завелось и начало работать.
    
    медленно, да, но это пока только для энтузиастов.
    
    при этом spark dgx имеет преимущество 1-2т/с перед 395 ai max, при стомости примерно на 1т больше.
    
    в тоже время у 395 ai max - можно подключить внешнюю видеокарту и получить еще большую скорость работы в малых моделях. minisforum ms-s1 max на борту имеет pci 16(4x0) и usb4v2. есть модели со встроенным oculink 4x0
    
    лучше всего у apple с локальными моделями, мало того что есть версии на 256гб рам (стоят правда) так еще и память быстрее + шина больше + оптимизация под маки

Smolensk
10.06.2026 05:24
#30091306
Спасибо за ваши статьи!

Кажется, остаётся не реализованным главный потенциал платформы: много памяти одним куском. Для использования данной пары моделей достаточно и пары бытовых GPU (причём, они там и существенно лучше справились бы). В этом смысле, интуитивно хочется видеть задействованный под капотом какой-нибудь GPT-OSS-120B, который недоступен на традиционных бытовых GPU.
1. Walker2000 Автор
  10.06.2026 05:24
  #30091338
  Раньше я использовал в основном gpt-oss-120b, потом qwen3-coder-next (80 млрд параметров), с появлением qwen3.6 перешел на модели этой линейки. Качество ответов у них выше, контекстное окно больше. Из имеющихся сейчас моделей 3.6 показалось оптимальным выбором.
  1. ponikrf
    10.06.2026 05:24
    #30095795
    Подтверждаю. qwen3.6 - первая модель которая реально выполняет работу в качестве агента более ли менее полноценно.
    
    Но минимально надо брать 6 битную. На 4 бита качество слишком сильно падает.
    
    После qwen3.6 - удалил все qwen-coder. Даже gemma4 которая на выходе впечатляла - теперь пылится.

Walker2000 Автор
10.06.2026 05:24
#30091316
Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

iwram
10.06.2026 05:24
#30091494
Зачем такие сложности? Просто запускаем ванильный ollama server, правим systemd добавляя env Environment=“OLLAMA_HOST=0.0.0.0:11434”, ставим редактор zed - выбираем из списка ollama прописываем ip своего сервера и окно контекста и все.
1. sN00b
  10.06.2026 05:24
  #30098748
  Все дело в производительности. Если не хотите заморачиваться, хотяб через LM Stuio это делайте. Данное решение производительнее

netricks
10.06.2026 05:24
#30091616
И всё-таки для моделей qwen надо бы юзать qwen-code. Тем более, что qwen-code - это произведение искусства
1. jetnet
  10.06.2026 05:24
  #30092702
  qwen-coder достаточно старый и плохо работает даже по инструкции
  
  ЧебурБЕНЧ
  Чебурашка
  1. holgw
    10.06.2026 05:24
    #30092854
    Речь о разных вещах. Комментатор выше пишет про qwen-code – это агент CLI (он может работать с любыми моделями, но скорее всего лучше оптимизирован под модели Qwen). А вы пишете про линейку моделей Qwen Coder (при чем для примера приводите старую модель в линейке).
    
    jetnet
    10.06.2026 05:24
    #30093169
    А, ну может быть, тогда я перепутал, сорян.
1. Walker2000 Автор
  10.06.2026 05:24
  #30093065
  Да, это стоит попробовать, спасибо за наводку. Ранее смотрел в сторону qwen code. Но на тот момент это была еще сырая система, только только скопированная с гугловской cli. Возможно, ситуация изменилась.

melodictsk
10.06.2026 05:24
#30093069
Если к этому мини пк докинуть любую видеокарту, из недорогих в идеале 3070м 16гб (500 гб/с память) через м2 псие 4х4, то скорость увеличиться вдвое. Потребление всего 110 вт в прыжке, очень холодные.
1. Walker2000 Автор
  10.06.2026 05:24
  #30094257
  Лучше 3090 с 24 Гб. Тогда можно будет qwen3.6-27b побыстрее инференсить. Наверное, с 50 t./s. Но модель сжатую до q4 придется юзать при этом.

DamirMur
10.06.2026 05:24
#30094531
KevinJK51/Qwen3.6-12B-IQ-Ultra-Heretic-Uncensored-Thinking-V2-Hightop-GGUF гуглАИ считает она лучше чем Qwen3.6-35B-A3B-MTP
1. rodial
  10.06.2026 05:24
  #30095079
  Лучше в чём?
  
  Она будет быстрее - да, она будет без цензуры, но на этом всё. Код писать эта модель будет хуже чем оригинальная.
  1. DamirMur
    10.06.2026 05:24
    #30095871
    3B меньше чем 12B, так что кто будет код хуже писать, ИИ считает что 3B
    
    sN00b
    10.06.2026 05:24
    #30098318
    Она будет хуже unsloth/Qwen3.6-27B-MTP-GGUF. И то и то - Dance модели. Могу сравнить на Strix Halo вашу модель с Qwen3.6-35B-A3B-MTP - это MoE модель но параметров в ней в 3 раза больше чем в вашей. И если уж использовать Heretic на Strix Halo, то DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF. Эта даже 1С ку берет. Но выдает 5 токенов в секунду.

Liugger
10.06.2026 05:24
#30094715
На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.

Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.

Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b
1. Walker2000 Автор
  10.06.2026 05:24
  #30094857
  Выгрузка и загрузка моделей сильно замедляет сессию. Не прижилось как то.
  1. rodial
    10.06.2026 05:24
    #30095009
    Тем более на 96gb vram проще несколько моделей сразу загрузить
    
    Не уверен что на windows версии есть такие параметры, но на linux я добавляю в llama.cpp сервер ещё –no-mmap --fit off

dilmah949
10.06.2026 05:24
#30095689
12 месяцев по 10 тыс. =120000 тыс. против … хотелось бы увидеть тут цену и видюху для перехода на локальную разработку на квен 3.6 и ответ стоит оно того или нет?
1. Mintavrus
  10.06.2026 05:24
  #30096173
  2х RTX3090 ~120 тыс руб на Авито. Модель Qwen3.6-27b-q8_k_xl-mtp работает на скорости 1200 токен/сек префил и 45-50 токен/сек генерация. То есть более чем в 7 раз выше чтение промпта и в 3 раза выше генерация, чем в обсуждаемом в статье решении. На мой взгляд стоит того и отрабатывает свои деньги.

gevals
10.06.2026 05:24
#30096157
Интересно, в итоге какова цена вопроса? Оборудование, сам компьютер, потребление электричества
1. Walker2000 Автор
  10.06.2026 05:24
  #30096225
  Мини ПК на strix halo со 128 ГБ на Озон сейчас от 250 тыс. Подорожало, до нового года было в районе 180. Потребление в зависимости от режима. От 60 до 120 Вт. Нормально работает в среднем (80…90 Вт). Разгонять до 120 смысла особого нет, скорость генерации практически не растет.

Mintavrus
10.06.2026 05:24
#30096159
Странный и не логичный выбор настроек. Если у Вас много памяти, то почему не использовать модель с квантованием Q8_K_XL, которая лучше чем Q6? Опять же, при большом объеме памяти, зачем вы квантуете кэш на q8, вместо того чтобы использовать bf16? Это же снижает качество генерации, особенно ощутимо на больших контекстах, и не даёт никакой прибавки в скорости. По моему опыту, лучше использовать Open Code, он работает отлично и не имеет никаких проблем с контекстом 260k.
1. Walker2000 Автор
  10.06.2026 05:24
  #30096193
  Хорошее замечание. Я поджал модели для того, чтобы влезали в память сразу три. Но потом остановился на двух. Поэтому можно параметры поднять слегка. На сколько по вашим ощущениям увеличивается качество генерации с KV кэшем в bf16 по сравнению с Q8? Я читал, что разницы не заметно.
  1. Mintavrus
    10.06.2026 05:24
    #30096285
    На счёт кэширования кэша, тут сложно судить объективно, так так я не проводил тестирование в связи с отсутствием у меня бенчмарка данной метрики, но судя по статьям с исследованиями, которые я читал на реддите, разница имеется. Но в любом случае, при наличии свободной памяти квантование кэша выглядит не логичным.
    
    Walker2000 Автор
    10.06.2026 05:24
    #30101778
    Пришлите ссылочку, если не затруднит.
1. sN00b
  10.06.2026 05:24
  #30098728
  Q8 в полтора раза медленнее Q6. Опыт показал что 5-6 квант на этой машине работает оптимально.

sN00b
10.06.2026 05:24
#30099184
Автор, огромное Вам спасибо! Раньше мучался с Dance-моделями на скорости записи в 5 токенов в секунду. Но попробовал вашу модельку, правда в связке с openclaude, а не claude code. Cкорость выросла в 3 раза благодаря MTP. Теперь у меня такой сетап: OpenCode для MoE модельки, он хорошо ужимает контекст и справляется с легкими задачами. OpenClaude для работы с Dance моделью и большим контекстом без компрессии.
1. Walker2000 Автор
  10.06.2026 05:24
  #30099456
  Не за что. Рад, что статья принесла пользу )

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке +18

Введение

Постановка задачи и конфигурация

Железо

Софт для инференса

Выбор моделей

Квантизация моделей

Скачивание и настройка llama.cpp server

Presets-файл

Команда запуска

Обёртка в батник

Установка Claude Code

Настройка Claude Code

Запуск Claude Code

Бенчмарки

Заключение

Комментарии (40)

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор

Walker2000 Автор