Индустрия AI окончательно перешла от «умных чат-ботов» к автономным инженерным системам. Прошедшие недели подсветили три главных вектора: агенты становятся самостоятельными инженерами, железо мимикрирует под запросы LLM, а большие деньги уходят в системную интеграцию.

SambaNova о гибридной AI-архитектуре для агентного инференса

На GTC 2026 keynote NVIDIA показал график System Throughput (Y) vs Speed (X) — SambaNova соглашается, что будущее AI-железа сводится к этой зоне, как при запуске их SN50 RDU пятого поколения.

SambaNova vs NVIDIA: восьмикратное преимущество в пропускной способности на высоких скоростях (500–700 т/с), необходимых для работы агентов. Источник.
SambaNova vs NVIDIA: восьмикратное преимущество в пропускной способности на высоких скоростях (500–700 т/с), необходимых для работы агентов. Источник.

Агенты хотят скорости в token-efficient режиме для concurrent-запросов, попадая в Goldilocks Zone. Prefill (вычислительно тяжелый этап: параллельно обрабатывают промт и строят KV-cache, от него зависит TTFT) отдают на GPU вроде Rubin CPX. Decode (ограниченный памятью: генерируют токены по одному, читая model weights и KV-cache) берет RDU с упором на memory bandwidth.

Очередная крутая статья от SambaNova — да, это в том числе маркетинг под их чипы, но под ним есть весомое основание: схема «Prefill + Decode» уже показала эффективность, что позволяет рационально разделить вычислительные блоки по фазам, а позиция разработчиков собственного железа заслуживает внимания.

SambaNova RDU на Dataflow Architecture с многоуровневой памятью — SRAM ускоряет слияние операций при генерации токенов, HBM хранит веса модели и KV-cache, DDR кэширует длинные промты агентов. Это тянет модели с триллионом параметров на одном SambaRack при 20 кВт (против 1+ МВт и 2 000+ чипов Groq). 

Системы легко перестраиваются под разные нагрузки, ставятся в любой ЦОД. Провайдеры инференса уже интегрируют SambaStack в свои платформы, а Middle-разработчики тестируют SN40L прямо в SambaCloud с моделью MiniMax. 

Дефицит памяти добралcя до Mac mini

Бюджетный Mac mini за $600 официально ушел в историю. Из-за кризиса полупроводников и роста цен на компоненты Apple сняла с производства базовую модель на 256 ГБ. Теперь линейка начинается с 512 ГБ за $800.

Обзор Mac mini M4 (2024). Маленький компьютер с огромными возможностями -  Блог i-Ray
Mac mini на M4. Источник.

Причин две: низкая рентабельность младшей версии и ажиотажный спрос со стороны разработчиков, которые массово скупают «миники» под локальный инференс AI-моделей. 

В результате цены в ритейле подскочили: в Европе база стоит от 950 €, а в России остатки старых версий торгуются в районе 70–75 000 рублей. Звание самого доступного устройства Apple теперь переходит к MacBook Neo. 

Собственный сервер Selectel

В основе — самые современные процессоры Intel® Xeon® 6, до 8 ТБ DDR5 и специально разработанная материнская плата. Арендуйте сервер у нас или закажите в свой дата-центр.

Узнать подробности →

Самое главное с NVIDIA GTC 2026

Это одно из важных событий года в индустрии. Помимо гибридного железа SambaNova с их фокусом, Дженсен Хуанг подвел итоги 20 лет CUDA — софт сделал GPU general purpose вычислителями, а DGX эволюционировали в Token Factory: ЦОДы превращаются в фабрики токенов, где вход — электричество, выход — интеллектуальные действия агентов (с $1 трлн инвестиций к 2027).

Переход от SaaS к AaaS.
Переход от SaaS к AaaS.

Анонсы: модульная Vera Rubin под инференс (Groq LPU для скорости токенов), NemoClaw — стек для enterprise-агентов с корпоративной безопасностью, и переход SaaS → AaaS, где бизнес платит за результат агента, а не подписку.

Более подробно (если лень смотреть трехчасовой keynote) с комментариями директора AI-вертикали Selectel — в обзоре

Tavily: специализированный поиск для AI-агентов

Для тех, кто собирает research-агентов, появилось готовое решение, заменяющее самописный парсинг. Tavily — это Search API, который объединяет поиск в реальном времени, очистку контента и краулинг в одном вызове. 

Если вы используете агентов для сбора информации, это прямая замена MCP от Perplexity: сервис дает 1 000 бесплатных запросов в месяц, чего хватит на четыре–пять глубоких исследований (один запрос типа advanced равен трем обычным).

Технические детали

  • Архитектура. Сервис построен на связке Jina Reader и LlamaIndex. На выходе получается очищенный от мусора JSON, готовый для LLM и валидации через Pydantic.

  • Инструменты. Эндпоинт /research генерирует отчеты с источниками, /extract парсит пачку URL за раз, а /crawl индексирует сайты.

  • Эффективность. Интеграция занимает пару строк кода. В тестах на RAG-задачах точность извлечения данных достигает 92%, что заметно выше показателей стандартных поисковых API.

Сервис экономит токены и время на разработку собственных обходчиков блокировок, предоставляя нативную поддержку для LangChain и LlamaIndex.

NVIDIA N1/N1X: «зеленый» ответ на AMD AI Max

NVIDIA явно не дают покоя лавры Apple Silicon и будущих AMD AI Max. Утечка материнской платы подтверждает разработку платформы N1/N1X для мини-ПК и 14-дюймовых ноутбуков. Это первый потребительский CPU компании со времен Tegra X1 (2015), созданный в партнерстве с MediaTek.

Первое фото материнской платы NVIDIA N1/N1X. Источник.
Первое фото материнской платы NVIDIA N1/N1X. Источник.

Внутри — 20-ядерный ARM-процессор и графика уровня RTX 5070 (6 144 ядра CUDA) на архитектуре Blackwell. Но главная деталь здесь — 128 ГБ единой памяти (Unified Memory) со скоростью 8 533 MT/с. Это быстрее, чем у грядущих AMD Strix Halo, и уровень Apple M5. Технически перед нами попытка упаковать «суперчип» GB10 из серверных систем DGX Spark в корпус лэптопа за примерно $1 400.

Если вы тоже следите за темой Physical AI и линейкой Jetson, то возникает вопрос: как NVIDIA будет их разводить? Похоже, N1 станет массовой платформой для AI-ноутбуков и мощного «железа на стероидах», где нужна полноценная CUDA под Windows-on-ARM. 

Пока Qualcomm буксует с драйверами, NVIDIA просто заполняет пустую нишу идеальной станцией для локального запуска тяжелых моделей. Ждем анонсы на Computex и первые девайсы от Dell и Lenovo к 2026 году. 

Intel и SambaNova: зачем агентам разные чипы

В продолжение темы агентского тулинга — интересная новость от Intel и SambaNova. Они представили гетерогенную платформу для инференса, которая подтверждает важный тезис: оркестрацию и логику агентов вовсе не обязательно «вешать» на GPU.

Как это работает: партнеры предложили разделять инференс на этапы и распределять их по разному «кремнию». Пока мощные AI-ускорители (GPU) занимаются тяжелой работой — поглощают длинные промты и строят KV-кэши, за генерацию токенов отвечает специализированный чип SambaNova SN50 RDU.

Но самое интересное в этой связке — роль Intel Xeon 6. Процессор берет на себя всю «агентскую» нагрузку: компиляцию и выполнение кода, валидацию ответов, координацию рабочих нагрузок и общую оркестрацию. По сути, Intel нашел применение своим мощным CPU в эпоху засилья графических чипов, превратив их в идеальный «мозг» для управления агентами.

Это логичный подход: GPU хорош в вычислениях, но для сложной логики и выполнения кода классическая архитектура процессоров все еще эффективнее.

MLOps 101: база процессов от NVIDIA

Если вы искали гайд по тому, как устроена «кухня» развертывания моделей, то это он. Видео полностью оправдывает приставку «101» в названии: в нем удалось собрать все базовые концепции MLOps — от выбора платформы до выстраивания пайплайнов.

Доклад не претендует на звание энциклопедии, но как отправная точка для формирования структуры знаний — отличный вариант. Если в процессе встретятся незнакомые термины (а их в MLOps всегда хватает), их легко догуглить по ходу дела. Хороший старт, чтобы перестать путаться в процессах и инструментах оркестрации.

От теории MLOps к практике: K8s и динамические GPU

В продолжение темы процессов — прикладной анонс для тех, кто администрирует инфраструктуру под модели. Напомню, что в версии Kubernetes 1,36 механизм DRA (Dynamic Resource Allocation) уже должен выйти в стабильный релиз. Видимо, специально под это событие ребята из CNCF выпустили свежий полуворкшоп-полутуториал по теме «DRA-matically Simple».

DRA — это долгожданная фича, которая позволяет K8s управлять ускорителями (GPU) так же гибко, как памятью или CPU. Раньше видеокарты были жестко привязаны к нодам, а теперь ресурсы можно выделять по запросу (On-Demand). 

Для MLOps-пайплайнов это киллер-фича, позволяющая не «сжигать» бюджет на простаивающее железо. Я такие разборы очень люблю и вам советую посмотреть, чтобы подготовить инфраструктуру к обновлению.

ElevenLabs уходит в локальный инференс

ElevenLabs, долгое время бывшие исключительно облачным сервисом, наконец анонсировали возможность локального развертывания своих моделей. 

Платформа открыла ранний доступ к двум вариантам деплоя:

  • On-Premise — для стандартных серверных мощностей с GPU;

  • On-Device — облегченная версия для edge-устройств, ARM-чипов и систем с NPU (привет, AI-ноутбуки).

Инференс и обработка аудио теперь могут полностью происходить внутри закрытого контура клиента на более чем 30 языках — это важно для энтерпрайза. Приятно, что лицензионная валидация и телеметрия заявлены как опциональные — это позволит разворачивать модели даже в полностью изолированных (air-gapped) средах.

Также обещают возможность дообучения под специфические диалекты и контролируемый график обновлений. По срокам: запуск намечен на первую половину 2026 года, пока открыта запись в лист ожидания. Тарификация будет гибридной: фиксированная лицензия плюс оплата за использование.

Как KIMI K2,6 за ночь обогнала LM Studio на Mac

В блоге разработчиков выложили отчет, который кажется байкой ради хайпа, но это реальный лог того, как модель работала сама по себе.

Ситуация такая: модель сама, без человека, решила запустить Qwen 3,5-0,8B у себя на Mac. Дефолтный инференс ее не устроил, поэтому она села писать свой рантайм. 

Причем выбрала не Python или C++, а Zig. В итоге — 12 часов работы, 14 итераций кода, более 4 000 вызовов инструментов, и все заработало.

Результат впечатляет: скорость генерации выросла с 15 до 193 токенов в секунду. Это в 12 раз быстрее базы и на 20% быстрее LM Studio, которую сообщество годами оптимизировало под локальный запуск.

Прогресс Kimi K2.6 за 12 часов. Источник.
Прогресс Kimi K2.6 за 12 часов. Источник.

Для нас это важный маркер. Одно дело — выбивать SOTA в бенчмарках SWE-bench или математике (хотя там у K2,6 все очень прилично), и совсем другое — когда агент за ночь берет системный язык и переписывает чужой софт так, что обходит популярный продукт. Мы переходим от этапа простых скриптов к глубокой системной оптимизации силами нейросетей.

Веса уже на Hugging Face, а API доступно у Moonshot.

SpaceX «покупает» Cursor

SpaceX планирует приобрести сервис Cursor, что выглядит как масштабный стратегический ход в рамках подготовки к выходу на биржу. 

Бизнес-империя Илона Маска заключила соглашение с разработчиком Anysphere. По сути, это опцион, который дает право выкупить стартап за $60 млрд до конца года либо выплатить $10 млрд за партнерство без поглощения. Такой формат позволяет не обременять баланс SpaceX крупной покупкой непосредственно перед IPO.

Сделка ложится в логику объединения космических активов SpaceX и AI-ресурсов xAI в единую структуру. Для рынка готовится предложение конгломерата с оценкой около $2 трлн, где ракетные технологии дополнены мощной AI-экосистемой. Приобретение Cursor закрывает дефицит собственных решений xAI в области кодинг-агентов, где сейчас доминируют Anthropic и OpenAI.

Интеграция лидирующего кодинг-сервиса с вычислительными мощностями суперкомпьютера Colossus и моделями Grok должна усилить позиции Маска в самом востребованном сегменте AI. Если связка окажется эффективной, это создаст серьезную конкуренцию текущим лидерам рынка и может подтолкнуть их к пересмотру лимитов в своих продуктах.

OpenAI создала отдельную компанию для внедрения AI-агентов в бизнес

Пока разработчики моделей бьются за бенчмарки, на рынке системной интеграции начинается передел. OpenAI совместно с SoftBank и консалтинговыми гигантами основали The Deployment Company — структуру с оценкой в $10 млрд, которая займется массовым внедрением AI-агентов в корпорации.

От чат-ботов к физическому присутствию. Источник.
От чат-ботов к физическому присутствию. Источник.

Проект уже привлек более $4 млрд инвестиций — и это не просто очередной раунд, а создание сервисной машины для «приземления» технологий в энтерпрайз. 

Синхронный запуск аналогичного предприятия от Anthropic подтверждает тренд: гонка вооружений переместилась из лабораторий в плоскость реального внедрения. Теперь вопрос не в том, чья модель умнее, а в том, кто быстрее выстроит процессы и научит агентов работать внутри сложившихся бизнес-структур.

Как вы считаете, какая часть агентского стека сейчас наиболее проблемная: техническая сложность внедрения в реальный бизнес или вопрос доверия к нейросетям? Готовы ли вы, как в случае с Kimi, позволить агенту автономно переписывать системный код вашего продукта ради роста производительности? Жду ваших мнений в комментариях.

Комментарии (1)


  1. AlexGfr
    06.05.2026 13:41

    Вы уверены, что знаете значение слова "мимикрирует"?