Как мы за неделю подружили DeepSeek-R1 с отечественными процессорами ARM64, NVIDIA A100 в 100% отечественном сервере / forpes.ru

Главная
Как мы за неделю подружили DeepSeek-R1 с отечественными процессорами ARM64, NVIDIA A100 в 100% отечественном сервере

Как мы за неделю подружили DeepSeek-R1 с отечественными процессорами ARM64, NVIDIA A100 в 100% отечественном сервере +8

22.06.2026 12:53

AV_EFLOPS 25 7800 Источник

Всем привет!

Меня зовут Алфёров Валентин, я директор по развитию компании Е-Флопс. В этой статье хочу поделиться с вами опытом нашего инженера-тестировщика, который рассказал мне эту историю, продемонстрировал результат и даже уговорил записать видео об этом))). Всё, что написано дальше, рассказ Сергея Шишкина от первого лица.

Дисклеймер: мы не пытаемся сказать, что сделали нечто революционное. LLM на GPU‑ускорителях запускали многие. Но запустить её на реальном сервере с отечественными ARM‑процессорами, с двумя NVIDIA Tesla A100, в изолированном контуре - и чтобы она ещё работала без падений - это оказалось нетривиальным квестом.

Делимся результатом и рецептом.

1. Зачем нам вообще локальная LLM?

Коротко про LLM и «ИИ»

Большие языковые модели (LLM) - это не магия, а очень большие нейросети, обученные предсказывать следующий токен (кусочек текста). Их называют «ИИ», потому что они умеют обобщать, писать код, отвечать на вопросы и даже шутить. Но под капотом - матричные умножения, attention и гигабайты весов.

Почему локально, а не ChatGPT?

Мы разрабатываем и тестируем железо и софт, пишем тонны документации. Использовать облачные LLM у нас нет возможности исходя из внутренних регламентов безопасности использования данных: данные уходят вовне, а у нас есть жесткие требования к информационной безопасности. Поэтому мы решили поднять собственную LLM внутри закрытого контура, на собственных серверах.

Кроме того, мы хотели проверить:

Как отечественные процессоры с архитектурой ARM64 (96 ядер на вычислительный модуль) справляются с инференсом LLM;
Можно ли эффективно использовать два ускорителя NVIDIA A100 без NVLink; что сломается, а что заработает;
Сколько типовой пользователь потратит времени на развертывания аналогичной системы.

Спойлер: многое сломалось, но мы победили.

2. Почему выбрали DeepSeek-R1-Distill-Llama-70B?

Вариантов много: Llama 3, Qwen, Mistral, российские модели… Мы выбрали DeepSeek- R1-70B в квантизации Q4_K_M по нескольким причинам:

Открытая модель - можно качать и использовать без ограничений;
Достаточно мощная для начала (тестовая генерации документации, помощь в отладке, ревю кода). Мы взяли такую модель, чтобы контекстное окно в 128000 токенов гарантированно поместилось в VRAM двух нейроускорителей;
Скромная ресурсоёмкость - 70B параметров в 4-битном виде с окном в 128000 токенов весят примерно по 42 ГБ на каждый ускоритель A100. Это оставляет запас для будущих экспериментов, так как у каждого по 80 ГБ VRAM;
Популярность и отзывы - модель показала себя неплохо на бенчмарках и в реальном использовании.

Позже мы хотим экспериментировать с Qwen3 72B или даже 200B+ с RAG (Retrieval- Augmented Generation), но для первого блина решили не брать самый тяжёлый ком).

3. На каком железе всё это работает?

Сервер «М1» в сборе:

Шасси: М1РШ (19″, 6U, 4×CRPS 3000 Вт).
Вычислительный модуль:
- Модель: MB2_б.
- Процессоры: 2 × ARM64, Cortex-A75, 48 ядер на сокет, всего 96 ядер.
- Оперативная память: 384 ГБ DDR4-3200 ECC (12×32 ГБ).
- Графические ускорители: 2 × NVIDIA Tesla A100 80GB PCIe (без NVLink).
- Накопители: 256 ГБ NVMe М.2 для системы.
- Сеть: 1GbE.

Почему именно так?

MB2_б - модель вычислительного модуля, спроектированная для задач ИИ, которая позволяет размещать 2 полноразмерных GPU-ускорителя (двойная ширина (два слота PCIe x16)).
NVIDIA Tesla A100 - золотой стандарт для LLM: 80 ГБ HBM2e, Tensor Cores, поддержка FP16/BF16/INT8.
384 ГБ ОЗУ - для будущих больших контекстов и нескольких параллельных запросов.

Важный нюанс с NUMA: наша платформа привязывает GPU к разным NUMA-узлам:

GPU0 → потоки 0-47,
GPU1 → потоки 48-95.

Это положительно сказалось на производительности (и мы к этому ещё вернёмся).

4. Как ставили: сборка, драйверы, танцы с бубном

Процесс был задокументирован в 16-страничном отчёте. Приведу сокращённый, но честный путь.

4.1. ОС и ядро

Мы используем Debian 13 (trixie) с ядром 6.12.28-baikal-arm64.

cat /etc/os-release
# PRETTY_NAME="Debian GNU/Linux 13 (trixie)"
uname -r
# 6.12.28-baikal-arm64

4.2. Драйверы NVIDIA и CUDA

nvidia-smi --version
# NVIDIA-SMI 550.163.01, CUDA 12.4

Под ARM64 драйверы работают, но есть свои особенности (например, сборка из репозитория NVIDIA, а не из Debian).

4.3. Сборка llama.cpp с CUDA — танцы...

Стандартная команда да cmake -DGGML_CUDA=ON работает, но есть подводные камни:

Обязательно отключите shared libraries: -DBUILD_SHARED_LIBS=OFF, иначе получаете undefined reference to ggml_cuda_op_* при линковке.
Явно укажите архитектуру CUDA: -DCMAKE_CUDA_ARCHITECTURES="80" (для A100).
Проверяем, что CUDA подхватилась:

ldd ./build/bin/llama-server | grep cuda
# libcudart.so.12, libcuda.so.1 
# — есть!

4.4. Запуск сервера с правильным NUMA и распараллеливанием

Это ключевой момент. Из-за привязки GPU к разным NUMA-узлам нужно:

Использовать --numa distribute - разрезать запросы между узлами.
Разделить тензоры между GPU: --tensor-split 0.5,0.5 (поровну).
Указать количество потоков физического CPU = половине доступных ядер (48, а не 96), чтобы не создавать лишнего контекста.

5. Что получилось: скорость, метрики, скриншоты

5.1. Загрузка GPU

nvidia-smi

Каждая A100 использует ~40-42 ГБ памяти (из 80). Остальное - про запас и кэш.

5.2. Тестовый запрос

curl -s http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1-70b", "messages": [{"role": "user", "content": "2+2="}], "max_tokens": 10, "stream": false }'

Ответ приходит за ~0.5 секунды на простом вопросе.

5.3. Скорость генерации (токенов/с)

Мы замерили на задаче средней сложности (написание короткого фрагмента документации):

Prefill (обработка входа) — около 600 токен/с.
Generation (декодинг) — 20–23 токен/с.

Это быстрее, чем чтение человеком. Для двух параллельных пользователей скорость падает до ~19-21 токен/с на каждого - всё ещё комфортно.

5.4. Почему разнесли модель на два ускорителя?

Модель 70B в Q4_K_M весит 42 ГБ. Один ускоритель A100 80 ГБ мог бы обрабатывать ее целиком, но:

Тогда пропадает возможность параллельной обработки разных запросов на разных GPU.
Поскольку каждый GPU-ускоритель работает со на отдельном CPU, мы теряем NUMA-оптимизацию. Tensor parallelism (разрезание матриц) даёт небольшой выигрыш в скорости на больших батчах.
Нам хотелось проверить работу сразу двух GPU-ускорителей.

Поэтому --tensor-split 0.5,0.5 - осознанное решение.

5.5. Ограничения и подводные камни

Веб-интерфейс llama.cpp выдаёт TypeError: Cannot read properties of undefined - это баг, лечится обновлением llama.cpp.
Бред, вместо осмысленного ответа победили правильной конфигурацией запуска с рабочим параметром чата.

5.6. Как это выглядит на экране монитора

Вот так выглядит интерфейс общения с LLM

6. Фотографии железа (как оно выглядит вживую)

Вот так выглядит наш сервер «М1» в серверной стойке с задней части. Рука на вычислительном модуле, на котором крутится LLM

Вот я вынимаю вычислительный модуль из серверного шасси

Вот он, вычислительный модуль МВ2б — Вот он, вычислительный модуль МВ2_б

Вот я снял переднюю часть верхней крышки вычислительного модуля

Вот я снял обе части верхней крышки вычислительного модуля. На верхнем ярусе расположены два GPU-ускорителя, установленные в райзеры

Вот нижний ярус вычислительного модуля. Центральная перегородка, которая разделяет потоки воздуха на GPU-ускорители и системную плату, снята

7. Описание вычислительного модуля МВ2б

Вычислительный модуль MB2_б двойной ширины (специализированная модель для ИИ нагрузок) установлен в шасси М1РШ сервера «М1» в исполнении для инфраструктуры стоек 19” (есть еще исполнение для стоек стандарта OCP 12В и 48В) и занимает в 6U шасси 2 слота.

Описание МВ2_б:

На лицевой панели: слот расширения OCP, 8 накопителей SSD NVMe с горячей заменой форм-фактора М.2, два порта SFP28 (25 GbE), разъем USB-C, предназначенный для подключения KVM адаптера, кнопки Power, Reset, ID, вентиляционная решётка, скрывающая GPU-ускоритель.
Внутри: на нижнем ярусе - системная плата MBS01 («Ключевская») с двумя процессорами отечественного чипмейкера на борту, 12 слотами оперативной памяти DDR4 и двумя SSD дисками M.2 для размещения ОС или гипервизора.
Внутри на верхнем ярусе: сами GPU Nvidia A100, установленные в райзеры PCIe 4.0 x16 Благодаря огромным пассивным радиаторам, занимают почти всё внутреннее пространство верхнего яруса.

8. Провокационный вопрос: на каких процессорах работает LLM?

Мы задали модели вопрос:

«На каких процессорах ты работаешь?» Модель честно ответила (перефразирую):

«Я выполняюсь на двух GPU NVIDIA A100, а CPU управляют вводом-выводом, планированием и prepost-обработкой. Мои матричные вычисления идут на Tensor Cores A100, CPU почти не участвуют в генерации.»

То есть центральные процессоры выступают в роли дирижёров оркестра из GPU. Это нормально для задачи LLM, поэтому можно было бы использовать менее производительные процессоры, или даже один.

9. Технологический суверенитет: при чём тут ИИ?

Нам задали уточняющий вопрос:

«Как решение на базе российского центрального процессора и open‑source LLM может обеспечить технологический суверенитет?»

Отвечаем: мы продемонстрировали суверенное программно-аппаратное решение, основанное на суверенной аппаратной платформе, построенной на отечественных процессорах, что гарантирует отсутствие закладок, «килл-переключателя» и т.д., а используемое ПО - модель DeepSeek-R1 относится к категории открытого ПО, веса можно проверить и даже дообучить на своих данных. Нет привязки к вендорам из недружественных стран.
Данное решение обеспечивает информационную безопасность компании, которая использует ИИ в своей деятельности - всё работает в изолированном контуре. Данные не уходят за пределы организации.

И да, мы не говорим, что уже полностью независимы от NVIDIA. Но мы делаем первый шаг: учимся запускать LLM на российском CPU + любых доступных GPU. В планах использование российских ускорителей, тем более что ранее мы уже успешно протестировали совместимость нашей серверной платформы с ускорителями компании «ХайТек» и сейчас проводим тестирование ускорителей еще одной российской компании.

10. А что дальше? Планы на Qwen3 и RAG

Текущая установка - тестовый прототип. В ближайших планах:

Развернуть Qwen3-72B (или даже 110B) - более мощную open‑модель.
Добавить RAG - прикрутить векторную базу данных (например, Qdrant или Chroma), чтобы модель отвечала на вопросы по нашей внутренней документации (технические описания, схемы, протоколы испытаний).
Увеличить контекст до 256k токенов - чтобы можно было загрузить целиком большой кусок кода или документ.
Перевести сервер в полностью изолированный контур (без доступа к внешней сети), закешировав все зависимости.

11. Отечественные LLM: что есть и что с ними не так?

Мы тоже смотрели в сторону российских моделей:

GigaChat (Сбер) - закрытая модель, для локальной установки требует коммерческой лицензии и специализированного железа.
YandexGPT - облачная модель, локальной версии нет.
Открытые разработки отдельных команд - часто отстают по качеству от DeepSeek- R1 или Llama-3-70B на бенчмарках.

Тем не менее, мы не против использовать отечественные open‑source модели, когда они достигнут сопоставимого уровня. Наше решение не привязано к конкретной модели - благодаря llama.cpp мы можем подставить любую модель в формате GGUF, хоть российскую, хоть китайскую, хоть американскую.

12. Наши компетенции: мы не только тестируем, но и внедряем

Развёртыванием данного решения занимался Сергей Шишкин, наш ведущий инженер отдела тестирования. Но у нас есть несколько команд, которые:

Разрабатывают серверы с нуля: начиная с разработки плат, корпусов, встроенного и прикладного ПО, и заканчивая постановкой на серийное производство и обеспечением поддержки наших продуктов. Это наше первое основное направление деятельности.
Разрабатывают, собирают и тестируют кластеры из десятков узлов, суперкомпьютеры в сотни узлов, в том числе, ориентированные на использование ИИ. В целом создают решения, ориентированные на ИИ, облачные нагрузки, большие данные, контейнеры и виртуализацию. Это наше второе направление, которое постепенно расширяется в сторону наращивания компетенций в развертывании и настройке кластерной сети (RoCE, InfiniBand) для многоузловых (часто распределенных) комплексов, настройке работы специфических приложений заказчика в среде контейнеризации, портировании (как совместно с производителем ПО, так и самостоятельно) прикладного ПО на архитектуру ARM64, в том числе AI-фреймворков, как в данном проекте.

13. Заключение: почему мы написали эту статью?

Мы не пытаемся удивить мир чем-то сверхновым. Мы просто показываем реальный рабочий прототип, где LLM с открытым кодом работает на отечественных процессорах с архитектурой ARM64 и двух NVIDIA Tesla A100. Мы задокументировали все грабли, и готовы помочь Вам, чтобы Вы не наступали на них, если решите повторить.

Спасибо, что прочитали и проявили интерес к нашей работе!

Мы будем рассказывать о новых интересных решениях по мере прохождения ими стадии прототипирования.

Видеоверсия этого кейса с Сергеем Шишкиным - скоро на наших каналах RUTUBE и VK Видео. Ссылки будут добавлены здесь и в описании.

Удачи в ваших AI-проектах!

Комментарии (25)

JDJ
22.06.2026 13:12
#30139858
Всё, что написано дальше, рассказ Сергея Шишкина от первого лица.

Пришлось гуглить как это называется на самом деле :) "проверка показаний на месте" это называется.
Вот я трогаю стойку, вот достаю модуль. Вот откручиваю болт, вот снимаю с модуля корпус.

Mike_666
22.06.2026 13:12
#30139898
Файнтюн Llama-3-70B в 2026 году?
Статья год ждала своего часа?
1. AV_EFLOPS Автор
  22.06.2026 13:12
  #30140428
  Нет, статья свежая, указанная модель полностью соответствовала нашим задачам тестирования. Всегда есть модели больше, но в большинстве случаев достаточно более скромных вариантов.
  1. Politura
    22.06.2026 13:12
    #30141806
    Это древние модели, сейчас есть гораздо меньше размером и при этом лучше. Обычно наличие древних моделей в тексте показывает, что текст полностью сгенерирован и опубликован даже без прочтения после генерации. Ибо ии имеет cutoff по знаниям где-то год и всегда сует устаревшую херню в текст.
    
    kernel128
    22.06.2026 13:12
    #30144016
    Предложите свои модели для этой задачи. Те самые, которые меньше и лучше. И сразу опишите, по каким параметрам эти модели лучше
    
    jetnet
    22.06.2026 13:12
    #30144654
    гемма-4 и квин-3.6. Лучше по всем параметрам. Не путать с параметрами модели )
    
    kernel128
    22.06.2026 13:12
    #30147132
    Спасибо. Теперь дождёмся официальных комментариев от представителя компании - соответствуют ли эти модели ТЗ на те работы, которые привели к результатам, которые решили использовать в статье
    
    AV_EFLOPS Автор
    22.06.2026 13:12
    #30144422
    Присоединяюсь к kernel128, подскажите модели, и нет, текст не сгенерирован ИИ, а написан вручную по итогам проведенной работы, а результаты работы были продемонстрированы на партнерском мероприятии меньше месяца назад.
    
    Politura
    22.06.2026 13:12
    #30146022
    Что подсказывать? Вы как-будто из анабиоза полуторагодовалого вышли. Сравните сами, DeepSeek-R1-Distill-Llama-70B который вы использовали и более чем в два раза меньшая модель Qwen3.6-27B которая вышла пару месяцев назад.
    
    Там по ссылкам у обеих есть бенчмарки, многие отличаются, ибо те бенчмарки которые использовались для вашей древноты, уже не используются и их заменили другие, но есть и совпадающие, везде мелкая модель выигрывает.
    Кроме того, для нее есть MTP, который ускорит генерацию еще раза в два. Кроме того, она понимает картинки, может легко находить объекты, распознавать с них текст, даже рукопистный.
    
    Qwen3.6 модели также довольно хороши в кодинге и вызове тулзов. Но помимо них есть еще упомянутые выше Gemma4 модели, например gemma-4-31B-it, тоже более чем в два раза меньше, тоже есть распознавание картинок и текстов, но мне они кажется в целом умнее, чем Qwen3.6, хотя кодить у них получается похуже. Для текстов, обсуждения чего-нибудь они мне нравятся сильнее. Для них тоже есть аналог MTP ускоряющий в два раза. А еще у них есть QAT версии, это когда 4-х битные версии дотренировали так, что они не уступают неквантованным версиям. Еще, есть любопытный бенчмарк food truck bench, где модели управляют виртуальным бизнесом по продаже еды из микроавтобуса: https://foodtruckbench.com/#leaderboard на нем Gemma4-31b заняла очень высокий результат. DeepSeek-R1 там нет, но есть его улучшенная версия DeepSeek-3.2, который, увы, слил все деньги. Что уж говорить о вашем дистиляте, он наверняка оказался-бы в глубочайшем минусе.
    
    Контекстное окно, что у Qwen3.6, что у Gemma-4 - 256k токенов -в два раза выше. И при этом, сам kv cache у обеих сильно компактнее, чем у DeepSeek-R1-Distill-Llama-70B.
    
    Это только то, что на поверхности. На самом деле современных классных моделей больше. И как вас угораздило вляпаться в древние модели, нет никакого вменяемого объяснения.
    
    Развернуть Qwen3-72B (или даже 110B)
    
    Qwen3-72B и 110B не существует - опять признак генерации.
    
    Может вы, конечно, и не генерировали вообще ничего, просто спросили у условного дипсика, какие локальные модели использовать, а он вам и подложил свинью. В таком случае, мой вам совет: никогда не спрашивайте у моделей ничего по поводу локальных LLM. Все LLM имеют устаревшие на год-полтора знания, а локальные модели очень бурно развиваются и то, что было год назад уже не актуально.

Olegun
22.06.2026 13:12
#30141218
Ошибку в названии статьи стоит исправить.
1. AV_EFLOPS Автор
  22.06.2026 13:12
  #30144424
  Спасибо, исправили. Очепяткии, фингерпринт проблемс(

EvilMan
22.06.2026 13:12
#30141272
- Отвечаем: мы продемонстрировали суверенное программно-аппартаное решение, основанное на суверенной аппаратной платформе, построенной на отечественных процессорах, что гарантирует отсутствие закладок, «килл- переключателя» и т.д., а используемое ПО - модель DeepSeek-R1 относится к категории открытого ПО, веса можно проверить и даже дообучить на своих данных. Нет привязки к вендорам из недружественных стран.
- Данное решение обеспечивает информационную безопасность компании, которая использует ИИ в своей деятельности - всё работает в изолированном контуре. Данные не уходят за пределы организации.
Слишком много раз повторяется слово "суверенное". Но как говорится: "Сколько раз не повторяй слово сахар, во рту слаще не станет".

Ai_Paradox
22.06.2026 13:12
#30141736
Автору респект за труд. И сочувствую ему видно в день "Великих" критиков, выложили статью. Не почитать, а ошибки проверить.

jetnet
22.06.2026 13:12
#30143152
Да… Принтер на линуксе в 90х было проще настроить )

killeralex
22.06.2026 13:12
#30144232
Не знаю, что хочу больше к себе домой. Руку Сергея Шишкина или Модульный сервер «М1». Вступление директора по развитию очень понравилось
1. AV_EFLOPS Автор
  22.06.2026 13:12
  #30144438
  Я понимаю, что здесь принято все стебать, но за себя могу сказать, что вступление написано для того, чтобы не было ощущения присвоенных побед мне под моим аккаунтом)

palyaros02
22.06.2026 13:12
#30145850
У вас в заголовке ложь - вы Deepseek R1 не запускали и даже не пробовали. Я попался на ваш кликбейт, было очень интересно, как это вы Deepseek умудрились всего в две A100 запихать, а оказывается никак. Вы запустили Llama 70b, дообученную не относящимися к Deepseek людьми на его ответах. Для Deepseek R1 ваша конфигурация недостаточна.

Второй момент: вы опустили всю обвязку. Каким образом вам удалось получить от модели ответ, что она на двух видеокартах выполняется в стандартном чате llama.cpp, что вы демонстрируете? Если вы подключили какой-то агентский инструментарий - поделитесь же. Гораздо интереснее и ценнее опыт воспитания неагентской llama из прошлого года под современные задачи.

Если нетрудно - приведите итоговый конфиг или строку запуска модели. Одним этим вы повысите ценность статьи с нулевой до минимально полезной. Сейчас же вы вообще не привели никаких железоспецифичных трудностей, из вашей статьи следует, что запуск llama.cpp на отечественном оборудовании не отличается от стандартной процедуры, зато наделали кучу фоток вашего железа, не относящихся к статье.

Отдельно пункт 11 - очень обидно. Есть RuAdapt квена, есть та же llama3, дообученная Тинькофф, есть вихри которые ЛУЧШЕ оригиналов на русском языке, есть ДЕСЯТКИ кастомок на HF, но вы пишете, что отечественных аналогов просто нет. Вы бы сами погугли, посмотрели бенчмарки, чем слепо верить ии, что вам статью нагенерил.

Вы пишете в заключении, что “рассмотрели все грабли”, но ни одной грабли в статье не упомянуто, только кратко упомянули про сборку из репозитория nvidia, но не привели конкретики, как это сделать.
1. kernel128
  22.06.2026 13:12
  #30147124
  https://huggingface.co/deepseek-ai/collections
  
  deepseek-ai/DeepSeek-R1-Distill-Llama-70B
  Конечно же, deepseek-ai/DeepSeek-R1-Distill-Llama-70B легко найти среди моделей deepseek на странице с моделями deepseek. Так что, первый же Ваш довод разбивается без напряжения. Дальше много текста, времени разбирать нет.
  1. tensorprogrammer
    22.06.2026 13:12
    #30148116
    В любом случае эта модель устаревшая и смысл данного финта непонятен.
  1. palyaros02
    22.06.2026 13:12
    #30150086
    А вот стоило бы напрячься и изучить сами репозитории и исторический контекст, а не выдачу поиска. То, что дипсик выложил их себе не значит, что он эти дистиляты и делал, но это в сущности и не важно.
    
    Мой первый довод - статья вводит в заблуждение, DeepSeek R1 тут никто не запускал. Вы его подтвердили, а не “разбили”.
    
    А ваше последнее предложение - чистое хамство. То есть прочитать один абзац (причем как-то выборочно, с середины), погуглить, сделать скриншот и написать “опровержение” вы время нашли, а по существу ответить - уже нет? Зачем тогда вы вообще свое драгоценное время решили потратить на этот ответ? Вы ж даже не автор статьи и к вам никто не обращался.

tensorprogrammer
22.06.2026 13:12
#30148026
Gigachat — открытая модель. Вы бы хоть погугли, прежде чем писать такое :)

tensorprogrammer
22.06.2026 13:12
#30148108
Ещё подскажите пожалуйста, как вы считали 100% отечественности сервера. Давно ли в России начали производить серверные центральные и графические процессоры подобного класса?
1. tensorprogrammer
  22.06.2026 13:12
  #30148144
  В ту же калитку:
  
  мы продемонстрировали суверенное программно-аппаратное решение, основанное на суверенной аппаратной платформе, построенной на отечественных процессорах, что гарантирует отсутствие закладок
  
  Подскажите каким определением "суверенности" вы пользовались, когда называли Nvidia A100 и llama.cpp "суверенными"

tensorprogrammer
22.06.2026 13:12
#30148130
NVIDIA Tesla A100 - золотой стандарт для LLM

Золотой стандарт дай бог 2023 года. Вы попробуйте на ней запустить действительно современные модели: GLM-5.2, Kimi-K2.6 или Deepseek-V4. Либо хотя бы Deepseek-R1, но не дистированную версию :)

FemboyEnjoyer
22.06.2026 13:12
#30148564
>deepseek r1

хуже ничего найти не смогли?

Как мы за неделю подружили DeepSeek-R1 с отечественными процессорами ARM64, NVIDIA A100 в 100% отечественном сервере +8

1. Зачем нам вообще локальная LLM?

2. Почему выбрали DeepSeek-R1-Distill-Llama-70B?

Сервер «М1» в сборе:

4. Как ставили: сборка, драйверы, танцы с бубном

5. Что получилось: скорость, метрики, скриншоты

6. Фотографии железа (как оно выглядит вживую)

7. Описание вычислительного модуля МВ2б

8. Провокационный вопрос: на каких процессорах работает LLM?

9. Технологический суверенитет: при чём тут ИИ?

10. А что дальше? Планы на Qwen3 и RAG

11. Отечественные LLM: что есть и что с ними не так?

12. Наши компетенции: мы не только тестируем, но и внедряем

13. Заключение: почему мы написали эту статью?

Комментарии (25)

AV_EFLOPS Автор

AV_EFLOPS Автор

AV_EFLOPS Автор

AV_EFLOPS Автор