Публикации с тегом vllm / forpes.ru

Публикации с тегом vllm

Я устал писать одноразовые скрипты для бенчмарков LLM и собрал харнесс, который сам считает Pareto-front +8

Облачная LLM на 16 ГБ VRAM — часть 3: ChatGPT-интерфейс для ваших LangGraph-агентов +23

Как оптимизировать LLM-инференс в 2026 году +18

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user +10

Ubuntu 26.04 на клоне DGX Spark (Asus GX10) +9

Anthropic, Fable 5, Claude Code и большой отбор игрушек -5

GPU-автоскейлинг на Kubernetes с KEDA: создание внешнего скейлера +3

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают +32

Qwen3.5 на двух V100, reverse SSH вместо Cloudflare в Telegram Mini App: собираю AI-репетитора английского +1

Визуальный поиск: Новый подход к обнаружению объектов

Машинное обучение

Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Как развернуть Mistral 7B на GPU-сервере через vLLM

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан +19

«
1
2
3
»

Страница 1 из 3