Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama? / forpes.ru

Главная
Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama? +5

04.05.2026 14:37

Neyroskuf 7 14000 Источник

Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 - у всех этих чипов есть нейронный процессор, который при запуске Ollama простаивает.

И вот Lemonade Server появился именно для этого сегмента.

Что за Lemonade

Для начала - это не корпоративный продукт AMD. Они финансируют разработку и предоставляют инженеров, но это не официальный продукт с корпоративным релизным циклом.

Lemonade - это управляющий слой поверх нескольких специализированных движков. Каждый движок обслуживает свою задачу.

Для текстовых моделей - llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка llama.cpp для AMD GPU. Для NPU - FastFlowLM (FLM) на чипах с архитектурой XDNA - это Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix). Для распознавания речи - whisper.cpp. Для синтеза речи - Kokoro. Для генерации изображений - sd-cpp.

Всё это управляется фоновым процессом lemond на порту 13305.

При старте Lemonade определяет доступное железо и выбирает движок. На APU с Ryzen AI - FastFlowLM. На GPU с ROCm - специальная llamacpp-rocm сборка. На NVIDIA или без GPU - Vulkan или CPU-режим. Ручная настройка не требуется.

Ollama использует один бэкенд - llama.cpp. TTS, STT и генерация изображений в нём не реализованы. Это разные инструменты, не встроенные в сервер.

Пять API-стандартов одновременно

Lemonade поднимает пять API-протоколов. Три основных - OpenAI, Ollama и Anthropic. Плюс llama.cpp-специализированные эндпоинты и собственный Lemonade API для управления сервером.

Клиент, написанный под OpenAI API, подключается к Lemonade заменой одной строки:

base_url = "http://localhost:13305/api/v1"
api_key = "lemonade"  # параметр обязателен, но не проверяется

Из официально задокументированных интеграций - Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft. Порт у Lemonade - 13305, а не 11434 от Ollama. Клиенты, захардкоженные на 11434, потребуют перенастройки.

Lemonade vs Ollama

Параметр	Lemonade Server	Ollama
Лицензия	Apache 2.0	MIT
Движок (текст)	llama.cpp + FLM	llama.cpp
GPU NVIDIA	Vulkan	CUDA
GPU AMD	ROCm (отдельная сборка)	ROCm (не все GPU)
AMD NPU (XDNA)	FLM нативно	не поддерживается
TTS	Kokoro встроено	нет
STT	whisper.cpp встроено	нет
Генерация изображений	sd-cpp встроено	нет
API OpenAI	да	да
API Ollama	да	да
API Anthropic	да	да
GUI	Десктопное приложение + браузерный UI (Windows, macOS beta)	Системный трей (macOS, Windows)
Встраиваемый режим	portable build lemond	нет

NPU-движок FLM бесплатен только для некоммерческого использования. Сам Lemonade Server - Apache 2.0 без ограничений. Коммерческое применение FLM требует отдельной лицензии.

Быстрый старт

На Windows - MSI-инсталлятор.

После установки запускается Lemonade App - десктопное приложение с менеджером моделей и встроенным LLM-чатом.

Через CLI - скачать и запустить модель:

lemonade pull Llama-3.2-1B-Instruct-Hybrid
lemonade run Llama-3.2-1B-Instruct-Hybrid  # загружает модель и открывает вебаппу в браузере

Проверяем, поднялся ли сервер:

lemonade status

Для Linux - пакеты тут (snap, RPM, Debian, Docker).

Llama-3.2-1B-Instruct-GGUF - одна из наименее требовательных моделей в каталоге. Запускается в CPU-режиме без GPU. Модели с суффиксом Hybrid - только для XDNA NPU, на обычных машинах в каталоге не появляются.

Нужен ли вам Lemonade

NVIDIA + Ollama работает - переходить незачем. Ollama использует CUDA нативно. Lemonade на NVIDIA работает через Vulkan, что медленнее.

AMD-десктоп или ноутбук с Ryzen AI - Lemonade под это, собственно, и собран. ROCm-сборка llama.cpp, нативная поддержка XDNA NPU через FLM.

В версии 10.3 десктопное приложение перешло с Electron на Tauri - размер уменьшился в 10 раз. MLX-поддержка для Mac в разработке. macOS beta уже завершена. Полной поддержки NVIDIA через CUDA пока нет.

Lemonade имеет смысл, если нужен AMD NPU, встроенный голос или генерация изображений. Если ваш стек в них не попадает - остаёмся с Ollama.

Комментарии (7)

iBljad
04.05.2026 21:36
#29926912
NPU на 50 TOPS

Я запускал локальные модели на видеокарте с оценкой 600 TOPS — было грустно: долго и не очень качественно. Страшно представить, как можно распорядиться более чем в 10 раз меньшим количеством топсов...
1. YDR
  04.05.2026 21:36
  #29927248
  И модели, и задачи, и 600 TOPS - бывают разные. Бывают задачи, которые требуют модель, которая нормально запустится на 60. Повезло, если так.
  
  Помимо TOPS очень важно ещё и количество и скорость памяти.
  1. melodictsk
    04.05.2026 21:36
    #29927688
    Там где заканчиваются псп райзен аи, только начинается псп у видеокарт. Кстати, не помешал бы бенчмарк этих нпу и сравнение по скорости на ватт в сравнении с гпу. Если экономично, то можно переложить мелкие фоновые нейронки на него или одного из агентов.

Wittorio
04.05.2026 21:36
#29927726
Благодарю за статью - актуально вместе с (или вместо) LM Studio, чтобы не простаивал NPU на моем Strix Halo
1. Hamlet_dat
  04.05.2026 21:36
  #29932784
  Если под Linux на Strix Halo не нужны будут танцы с бубном, то это весьма своевременный для меня продукт.