Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 - у всех этих чипов есть нейронный процессор, который при запуске Ollama простаивает.
И вот Lemonade Server появился именно для этого сегмента.
Что за Lemonade
Для начала - это не корпоративный продукт AMD. Они финансируют разработку и предоставляют инженеров, но это не официальный продукт с корпоративным релизным циклом.
Lemonade - это управляющий слой поверх нескольких специализированных движков. Каждый движок обслуживает свою задачу.
Для текстовых моделей - llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка llama.cpp для AMD GPU. Для NPU - FastFlowLM (FLM) на чипах с архитектурой XDNA - это Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix). Для распознавания речи - whisper.cpp. Для синтеза речи - Kokoro. Для генерации изображений - sd-cpp.
Всё это управляется фоновым процессом lemond на порту 13305.
При старте Lemonade определяет доступное железо и выбирает движок. На APU с Ryzen AI - FastFlowLM. На GPU с ROCm - специальная llamacpp-rocm сборка. На NVIDIA или без GPU - Vulkan или CPU-режим. Ручная настройка не требуется.
Ollama использует один бэкенд - llama.cpp. TTS, STT и генерация изображений в нём не реализованы. Это разные инструменты, не встроенные в сервер.
Пять API-стандартов одновременно
Lemonade поднимает пять API-протоколов. Три основных - OpenAI, Ollama и Anthropic. Плюс llama.cpp-специализированные эндпоинты и собственный Lemonade API для управления сервером.
Клиент, написанный под OpenAI API, подключается к Lemonade заменой одной строки:
base_url = "http://localhost:13305/api/v1" api_key = "lemonade" # параметр обязателен, но не проверяется
Из официально задокументированных интеграций - Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft. Порт у Lemonade - 13305, а не 11434 от Ollama. Клиенты, захардкоженные на 11434, потребуют перенастройки.
Lemonade vs Ollama
Параметр |
Lemonade Server |
Ollama |
|---|---|---|
Лицензия |
Apache 2.0 |
MIT |
Движок (текст) |
llama.cpp + FLM |
llama.cpp |
GPU NVIDIA |
Vulkan |
CUDA |
GPU AMD |
ROCm (отдельная сборка) |
ROCm (не все GPU) |
AMD NPU (XDNA) |
FLM нативно |
не поддерживается |
TTS |
Kokoro встроено |
нет |
STT |
whisper.cpp встроено |
нет |
Генерация изображений |
sd-cpp встроено |
нет |
API OpenAI |
да |
да |
API Ollama |
да |
да |
API Anthropic |
да |
да |
GUI |
Десктопное приложение + браузерный UI (Windows, macOS beta) |
Системный трей (macOS, Windows) |
Встраиваемый режим |
portable build lemond |
нет |
NPU-движок FLM бесплатен только для некоммерческого использования. Сам Lemonade Server - Apache 2.0 без ограничений. Коммерческое применение FLM требует отдельной лицензии.
Быстрый старт
На Windows - MSI-инсталлятор.

После установки запускается Lemonade App - десктопное приложение с менеджером моделей и встроенным LLM-чатом.

Через CLI - скачать и запустить модель:
lemonade pull Llama-3.2-1B-Instruct-Hybrid lemonade run Llama-3.2-1B-Instruct-Hybrid # загружает модель и открывает вебаппу в браузере

Проверяем, поднялся ли сервер:
lemonade status

Для Linux - пакеты тут (snap, RPM, Debian, Docker).
Llama-3.2-1B-Instruct-GGUF - одна из наименее требовательных моделей в каталоге. Запускается в CPU-режиме без GPU. Модели с суффиксом Hybrid - только для XDNA NPU, на обычных машинах в каталоге не появляются.
Нужен ли вам Lemonade
NVIDIA + Ollama работает - переходить незачем. Ollama использует CUDA нативно. Lemonade на NVIDIA работает через Vulkan, что медленнее.
AMD-десктоп или ноутбук с Ryzen AI - Lemonade под это, собственно, и собран. ROCm-сборка llama.cpp, нативная поддержка XDNA NPU через FLM.
В версии 10.3 десктопное приложение перешло с Electron на Tauri - размер уменьшился в 10 раз. MLX-поддержка для Mac в разработке. macOS beta уже завершена. Полной поддержки NVIDIA через CUDA пока нет.
Lemonade имеет смысл, если нужен AMD NPU, встроенный голос или генерация изображений. Если ваш стек в них не попадает - остаёмся с Ollama.
Комментарии (7)

Wittorio
04.05.2026 21:36Благодарю за статью - актуально вместе с (или вместо) LM Studio, чтобы не простаивал NPU на моем Strix Halo

Hamlet_dat
04.05.2026 21:36Если под Linux на Strix Halo не нужны будут танцы с бубном, то это весьма своевременный для меня продукт.

maxcat
04.05.2026 21:36Foundry Local https://learn.microsoft.com/ru-ru/azure/foundry-local/what-is-foundry-local
Ещё эта штука умеет NPU
iBljad
Я запускал локальные модели на видеокарте с оценкой 600 TOPS — было грустно: долго и не очень качественно. Страшно представить, как можно распорядиться более чем в 10 раз меньшим количеством топсов...
YDR
И модели, и задачи, и 600 TOPS - бывают разные. Бывают задачи, которые требуют модель, которая нормально запустится на 60. Повезло, если так.
Помимо TOPS очень важно ещё и количество и скорость памяти.
melodictsk
Там где заканчиваются псп райзен аи, только начинается псп у видеокарт. Кстати, не помешал бы бенчмарк этих нпу и сравнение по скорости на ватт в сравнении с гпу. Если экономично, то можно переложить мелкие фоновые нейронки на него или одного из агентов.