Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 - у всех этих чипов есть нейронный процессор, который при запуске Ollama простаивает.

И вот Lemonade Server появился именно для этого сегмента.

Что за Lemonade

Для начала - это не корпоративный продукт AMD. Они финансируют разработку и предоставляют инженеров, но это не официальный продукт с корпоративным релизным циклом.

Lemonade - это управляющий слой поверх нескольких специализированных движков. Каждый движок обслуживает свою задачу.

Для текстовых моделей - llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка llama.cpp для AMD GPU. Для NPU - FastFlowLM (FLM) на чипах с архитектурой XDNA - это Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix). Для распознавания речи - whisper.cpp. Для синтеза речи - Kokoro. Для генерации изображений - sd-cpp.

Всё это управляется фоновым процессом lemond на порту 13305.

При старте Lemonade определяет доступное железо и выбирает движок. На APU с Ryzen AI - FastFlowLM. На GPU с ROCm - специальная llamacpp-rocm сборка. На NVIDIA или без GPU - Vulkan или CPU-режим. Ручная настройка не требуется.

Ollama использует один бэкенд - llama.cpp. TTS, STT и генерация изображений в нём не реализованы. Это разные инструменты, не встроенные в сервер.

Пять API-стандартов одновременно

Lemonade поднимает пять API-протоколов. Три основных - OpenAI, Ollama и Anthropic. Плюс llama.cpp-специализированные эндпоинты и собственный Lemonade API для управления сервером.

Клиент, написанный под OpenAI API, подключается к Lemonade заменой одной строки:

base_url = "http://localhost:13305/api/v1"
api_key = "lemonade"  # параметр обязателен, но не проверяется

Из официально задокументированных интеграций - Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft. Порт у Lemonade - 13305, а не 11434 от Ollama. Клиенты, захардкоженные на 11434, потребуют перенастройки.

Lemonade vs Ollama

Параметр

Lemonade Server

Ollama

Лицензия

Apache 2.0

MIT

Движок (текст)

llama.cpp + FLM

llama.cpp

GPU NVIDIA

Vulkan

CUDA

GPU AMD

ROCm (отдельная сборка)

ROCm (не все GPU)

AMD NPU (XDNA)

FLM нативно

не поддерживается

TTS

Kokoro встроено

нет

STT

whisper.cpp встроено

нет

Генерация изображений

sd-cpp встроено

нет

API OpenAI

да

да

API Ollama

да

да

API Anthropic

да

да

GUI

Десктопное приложение + браузерный UI (Windows, macOS beta)

Системный трей (macOS, Windows)

Встраиваемый режим

portable build lemond

нет

NPU-движок FLM бесплатен только для некоммерческого использования. Сам Lemonade Server - Apache 2.0 без ограничений. Коммерческое применение FLM требует отдельной лицензии.

Быстрый старт

На Windows - MSI-инсталлятор.

После установки запускается Lemonade App - десктопное приложение с менеджером моделей и встроенным LLM-чатом.

Через CLI - скачать и запустить модель:

lemonade pull Llama-3.2-1B-Instruct-Hybrid
lemonade run Llama-3.2-1B-Instruct-Hybrid  # загружает модель и открывает вебаппу в браузере

Проверяем, поднялся ли сервер:

lemonade status

Для Linux - пакеты тут (snap, RPM, Debian, Docker).

Llama-3.2-1B-Instruct-GGUF - одна из наименее требовательных моделей в каталоге. Запускается в CPU-режиме без GPU. Модели с суффиксом Hybrid - только для XDNA NPU, на обычных машинах в каталоге не появляются.

Нужен ли вам Lemonade

NVIDIA + Ollama работает - переходить незачем. Ollama использует CUDA нативно. Lemonade на NVIDIA работает через Vulkan, что медленнее.

AMD-десктоп или ноутбук с Ryzen AI - Lemonade под это, собственно, и собран. ROCm-сборка llama.cpp, нативная поддержка XDNA NPU через FLM.

В версии 10.3 десктопное приложение перешло с Electron на Tauri - размер уменьшился в 10 раз. MLX-поддержка для Mac в разработке. macOS beta уже завершена. Полной поддержки NVIDIA через CUDA пока нет.

Lemonade имеет смысл, если нужен AMD NPU, встроенный голос или генерация изображений. Если ваш стек в них не попадает - остаёмся с Ollama.

Комментарии (7)


  1. iBljad
    04.05.2026 21:36

    NPU на 50 TOPS

    Я запускал локальные модели на видеокарте с оценкой 600 TOPS — было грустно: долго и не очень качественно. Страшно представить, как можно распорядиться более чем в 10 раз меньшим количеством топсов...


    1. YDR
      04.05.2026 21:36

      И модели, и задачи, и 600 TOPS - бывают разные. Бывают задачи, которые требуют модель, которая нормально запустится на 60. Повезло, если так.

      Помимо TOPS очень важно ещё и количество и скорость памяти.


      1. melodictsk
        04.05.2026 21:36

        Там где заканчиваются псп райзен аи, только начинается псп у видеокарт. Кстати, не помешал бы бенчмарк этих нпу и сравнение по скорости на ватт в сравнении с гпу. Если экономично, то можно переложить мелкие фоновые нейронки на него или одного из агентов.


  1. Wittorio
    04.05.2026 21:36

    Благодарю за статью - актуально вместе с (или вместо) LM Studio, чтобы не простаивал NPU на моем Strix Halo


    1. Hamlet_dat
      04.05.2026 21:36

      Если под Linux на Strix Halo не нужны будут танцы с бубном, то это весьма своевременный для меня продукт.


  1. nbaranov
    04.05.2026 21:36

    Как удачно меня нашла эта статья, пока я сижу жду свой minisforum n5 pro


  1. maxcat
    04.05.2026 21:36

    Foundry Local https://learn.microsoft.com/ru-ru/azure/foundry-local/what-is-foundry-local

    Ещё эта штука умеет NPU