При интеграции больших языковых моделей в продукт главная проблема формулируется просто: юнит-экономика функции часто не сходится при масштабировании. На стадии MVP затраты на обработку запросов кажутся незначительными. Но как только нагрузка вырастает до тысяч активных пользователей в сутки, стоимость токенов начинает напрямую угрожать маржинальности всего бизнеса.

В июне этот экономический тупик стал главным драйвером изменений в индустрии. Компании перестали гнаться за брендами вроде OpenAI и начали массово переходить на китайские модели, а это уже холодный расчет.

Но, согласитесь, экономия на API — это лишь верхушка айсберга. Нужно смотреть на весь ИИ-стек сверху вниз. В этом дайджесте мы разберем три главных инфраструктурных сдвига июня.

  • Экономический. Как крупный бизнес меняет вендоров и заставляет разработчиков отрабатывать каждый сожженный токен.

  • Технический. Как облачные провайдеры софтом латают дефицит видеопамяти (VRAM), чтобы on-premise серверы не падали в OOM.

  • Юридический. Как новые законопроекты заставляют архитекторов на ходу перекраивать пайплайны обучения моделей.

Давайте посмотрим на первый громкий прецедент, который доказал: когда на кону стоит выживание продукта, лояльность к популярным брендам исчезает.

Навигация по событиям:

Компании переходят на китайские ИИ-модели ради экономии

Если вы хоть раз смотрели на биллинг после тестов тяжелых моделей рассуждения и пытались свести экономику продукта, то наверняка понимаете Брайана Армстронга, генерального директора Coinbase. С выходом GPT-5.5-Thinking и Opus 4.8 стоимость обработки токенов стала ощутимой инфраструктурной проблемой. И сегодня мы разберем на цифрах и архитектуре, как решают эту задачу те, кто не хочет переплачивать за чужие кластеры. 

Начнем с базы. Почему Coinbase, а вслед за ней Snowflake и стартап Lindy, сделали прагматичный шаг и перевели продакшен на китайские аналоги — GLM 5.2, Kimi 2.7 и Deepseek v4? 

Использование токенов Coinbase в последние месяцы выросло. Источник.
Использование токенов Coinbase в последние месяцы выросло. Источник.

Дело в том, что использование токенов в Coinbase в последние месяцы выросло: на рынок вышли «тяжелые» агентские моделей, которые быстро сжигают ресурсы. 

Внутренний аудит показал, что 91% сотрудников компании в принципе не расходовали свои месячные лимиты полностью, используя топовые западные API для базовой рутины вроде код-ревью или написания черновиков. 

Азиатский open source без проблем закрывает эти потребности без просадки в качестве. А дальше сработал психологический эффект: как только инженеры поняли, что новые модели работают не хуже старых, они начали внедрять их везде, где только можно. В итоге общее потребление токенов в Coinbase поползло вверх.

Из интересного: Брайан Армстронг объявил, что сейчас они генерируют токенов больше, чем когда-либо в своей истории, но платят за этот объем ровно в два раза меньше. При этом менеджмент не стал вводить жесткие лимиты для инженеров. Для американских ИИ-лабораторий, которым сейчас нужно оправдывать инвестиции перед IPO, такой массовый исход энтерпрайза становится стресс-тестом их бизнес-моделей.

Если спуститься на уровень инфраструктуры, простая замена эндпоинтов сопровождается переработкой логики бэкенда. В Coinbase реализовали динамический роутинг: балансировщик перед каждой отправкой запроса программно анализирует параметры. Он алгоритмически определяет, какая модель справится с задачей, где токен обойдется дешевле и лежит ли нужный ответ в кэше. Только оптимизация кэширования контекста подняла процент попадания (хит-рейт) с 5% до 60%. 

Вместо квот и бесконечных алертов о превышении бюджетов инженеры получили полную свободу в выборе моделей, но с одним условием: чем больше ты тратишь, тем более высокого бизнес-эффекта от тебя ждут. 

Чтобы этот подход не превратился в бездумное выжигание бюджетов, упор сделали на «инженерную гигиену» работы с контекстом. Разработчиков учат изолировать область видимости файлов, отключать неиспользуемые плагины и принудительно сбрасывать сессии при переключении на новые задачи. 

Правда отдавать чувствительные данные на сторонние API готовы далеко не все, поэтому альтернативные модели все чаще затаскивают в собственный закрытый контур. Но как только архитектура делает шаг в сторону локального развертывания, математика биллинга сменяется суровой физикой железа, где инженеры остаются один на один с нехваткой VRAM и непредсказуемыми OOM-ошибками. И здесь как раз вовремя подоспели облачные провайдеры со своими решениями.

Каталог готовых ИИ-моделей

Сервис для запуска и управления LLM в облаке Selectel. Выберите модель, конфигурацию и получите готовый эндпоинт для работы с ней.

Подробнее →

Китайские open weight-модели приблизились к американским SOTA-решениям

Рыночный сдвиг, который мы видим на примере Coinbase, технически полностью обоснован. Zhipu AI выкатили свою новую модель GLM-5.2 — и это отличный повод поговорить про открытые веса. 

Бенчмарки топовых ИИ-моделей. Источник.
Бенчмарки топовых ИИ-моделей. Источник.

На тесте кодинга SWE-bench Pro она набрала 62,1 балла, оставив позади закрытую GPT-5.5 с ее 58,6 и почти догнав дорогущую Claude Opus 4.8. 

Например, бывший вице-президент команде супер-интеллекта в Meta, Мэтт Веллозо отметил, что это первая открытая модель, которая нормально генерирует код на каждый день — она просто пишет рабочий софт, а не выдает тонны лишнего текста и не зацикливается на объяснениях. Плюс ко всему, у нее огромное контекстное окно на миллион токенов, а API от китайцев стоит примерно в десять раз дешевле старших тарифов Anthropic. Для небольших команд разработчиков это реальный шанс сильно уменьшить счета за ИИ.

Такая производительность при стоимости инференса почти в шесть раз ниже западных аналогов достигается за счет глубокой оптимизации работы с контекстом. Для обработки окна в миллион токенов разработчики отказались от стандартного механизма внимания в пользу DeepSeek Sparse Attention (DSA).

DSA — это алгоритм, который вычисляет внимание только для 2 048 наиболее важных токенов на каждом слое, а показатели экономии FLOPs при работе с многомиллионными контекстами могут достигать 2,9х и более.

Чтобы компенсировать затраты ресурсов на саму индексацию, инженеры внедрили технологию IndexShare: слои группируются по четыре, индексатор запускается только на первом, а остальные три используют готовый результат. Это убирает 75% лишних вычислений и ускоряет фазу prefill в 1,82 раза. 

А проблема медленной генерации длинных ответов решена через спекулятивное декодирование (Multi-Token Prediction), когда вспомогательная драфт-модель генерирует сразу пять токенов, а основная проверяет их за один проход, выдавая до 5,47 токенов за такт.

Серьезным изменениям подвергся и сам процесс обучения. Разработчики отказались от популярного алгоритма GRPO, который выдает одинаковую оценку всем токенам в выборке, так как на длинных агентных задачах этот метод размывал полезный сигнал. Вместо этого они использовали алгоритм PPO с отдельным «критиком», оценивающим каждый шаг точечно, что сократило требуемое вычислительное время обучения с 16 часов до 2. 

Во время обучения система также блокировала попытки модели сжульничать и скачать готовые решения через CURL, выдавая ей фиктивные данные. В финале знания более десяти узкоспециализированных моделей объединили в одну за 48 часов с помощью метода On-Policy Distillation.

Но радоваться рано, ведь красивые графики тестов и реальный продакшен в крупной компании — это разные вещи. Но зато модель идет под свободной лицензией MIT, то есть ее можно забрать к себе на сервера и ничего не платить вендору. 

Microsoft представила Foundry Local на Azure Local с умным планировщиком vLLM

При развертывании на видеокартах можно столкнуться с проблемой под названием Out of Memory (OOM). Суть в том, что когда вы пытаетесь запустить большую open weight-модель в собственном контуре для реальных задач, все может сломаться на этапе масштабирования. 

Одно дело запустить легкую модель на одном пользователе, и совсем другое — когда к серверу одновременно подключаются десятки человек, а контекст запросов начинает раздуваться до сотен тысяч токенов. До недавнего времени инженеры вручную шаманили с тонкими настройками инференса-движков, буквально подбирая баланс памяти, чтобы сервер не проедал ресурсы ЦОДа впустую.

Платформа нативно поддерживает классический ONNX Runtime (как показано на базовой схеме архитектуры от Microsoft), но главным июньским обновлением стало появление альтернативного vLLM runtime и автоматического планировщика.

Архитектура Foundry Local: сквозной пайплайн от скачивания открытых весов из каталога до распределения инференса по локальным чипам через единый шлюз. Источник.
Архитектура Foundry Local: сквозной пайплайн от скачивания открытых весов из каталога до распределения инференса по локальным чипам через единый шлюз. Источник.

Microsoft решила избавить нас от этой рутины и выкатила масштабное обновление платформы Foundry Local для Azure Local. Они добавили полноценный vLLM runtime в качестве стандартного движка инференса и завезли мультинодовое распределение вычислений внутри Kubernetes-кластера.

Для DevOps-инженеров это означает появление «из коробки» технологии PagedAttention (эффективное управление KV-кэшем без утечек VRAM) и непрерывного батчинга, который собирает входящие запросы от разных пользователей на лету и утилизирует GPU на максимум. Платформа нативно оптимизирована под enterprise-чипы вроде NVIDIA RTX Pro 6000.

Но самая полезная фича релиза — это встроенный автоматический планировщик памяти (vLLM Planner). Он работает просто: перед запуском сервера моделей Planner сам инспектирует доступные GPU-ресурсы узла, анализирует «аппетиты» конкретной нейросети и автоматически генерирует конфигурацию. Вам больше не нужно методом тыка подбирать параметры вроде утилизации памяти или резать длину контекста, чтобы подстраховаться от падений — автоматика сама считает идеальный конфиг под имеющееся железо.

В документации инженеры Microsoft наглядно разложили, в каких сценариях on-premise инфраструктуры теперь стоит выбирать конкретный движок. Если ONNX-GenAI работает как на CPU, так и на GPU, обеспечивая минимальную задержку для одного пользователя, то vLLM runtime создан под GPU-кластеры и высокую пропускную способность при многопользовательской нагрузке. 

Кроме того, базовая фича vLLM — это поддержка FP8 KV-кэш, который удваивает вместимость токенов на совместимых видеокартах. В то время как для ONNX-GenAI сжатие в FP8 доступно только на этапе предварительной оптимизации модели через утилиту Microsoft Olive, а динамически управлять таким кэшем рантайм не умеет.

NVIDIA и Microsoft анонсировали суперчип RTX Spark для тяжелых агентов на ПК

Идея крутить модели у себя в контуре силами софтверных оптимизаций vLLM — это только половина дела. В июне NVIDIA и Microsoft решили пойти еще дальше и перенести тяжелые вычисления на локальные машины пользователей. Для этого компании анонсировали суперчип RTX Spark, который выдает внушительный 1 петафлопс вычислительной мощности в формате FP4. 

Главная цель этого железа — дать возможность ноутбукам следующего поколения локально запускать модели на 120B+ параметров с контекстным окном до 1 млн токенов. То есть то, что еще вчера требовало отдельной серверной стойки с GPU, теперь должно работать прямо у вас на коленях. 

Слайд презентации суперчипа NVIDIA RTX Spark с его ключевыми техническими характеристиками.
NVIDIA RTX Spark с его ключевыми техническими характеристиками. Источник.

Под капотом здесь находится монолитный 3-нанометровый корпус от TSMC, где инженеры объединили 20-ядерный ARM-процессор Grace (10 производительных ядер Cortex-X925 и 10 энергоэффективных Cortex-A725) и графический кластер Blackwell на 6144 CUDA-ядра. 

Но главная инженерная фича, которая позволяет все запустить на ноутбуке, — это полный отказ от разделения на системную оперативку и видеопамять. Чип получил 128 ГБ унифицированной памяти LPDDR5X, распаянной вплотную к кристаллу. CPU и GPU общаются с этим пулом через сверхбыструю шину NVLink-C2C с пропускной способностью до 600 ГБ/с. Данные больше не копируются туда-сюда через материнскую плату: графический чип может динамически забрать под KV-кэш и веса модели хоть 100 ГБ из общего объема, не упираясь в бутылочное горлышко стандартной шины PCIe. 

Для разработчиков этот анонс ценен еще и тем, что NVIDIA нативно перенесла на ARM всю экосистему CUDA. Любые пайплайны на PyTorch, llama.cpp, Flash Attention или TensorRT, которые вы привыкли крутить на серверных картах, будут работать на RTX Spark из коробки без перекомпиляции бинарников. Прагматизм очевиден: Microsoft пытается разгрузить свои облака Azure от множества мелких запросов к локальным ИИ-агентам, а NVIDIA создает новый премиальный рынок железа.

Итоги MLSys 2026: индустрия уперлась в физические ограничения и дефицит энергии

Недавно прошли итоги профильной конференции MLSys, где инженеры и сисадмины обсуждают не абстрактную математику нейросетей, а проблемы их запуска на железе. Если на прошлых таких встречах все соревновались в алгоритмах, то в этот раз риторика резко изменилась. 

Главный вывод экспертов звучит отрезвляюще: прогресс больших моделей уперся в физические ограничения инфраструктуры. Им просто не хватает пропускной способности памяти, эффективного охлаждения серверных стоек и доступных мегаватт электроэнергии в сетях вокруг ЦОДов. Из-за этого количество докладов, посвященных именно оптимизации инференса, выросло в два раза.

Важным событием конференции стал совместный доклад инженеров NVIDIA и Together AI, которые презентовали технологию BLASST. Метод решает фундаментальную проблему: как перестать впустую гонять терафлопсы энергии на вычисление матрицы внимания во время работы с длинным контекстом. BLASST не требует дообучения моделей и работает без дополнительных оберток и костылей. 

Алгоритм динамически оценивает математические параметры и просто отбрасывает те блоки токенов, которые не влияют на контекст. Этот трюк позволяет безболезненно выкинуть до 40% лишних вычислений, снизив нагрузку на чипы и ускорив обработку длинных текстов в полтора раза без потери в качестве. Технологию уже начали спешно интегрировать в TensorRT-LLM.

Другой важный тренд — концепция AI for Systems, когда сам ИИ стал частью оптимизационного контура. На сессиях показали рабочие агентские системы (например, AccelOpt), которые сами автоматически оптимизируют ядра графических ускорителей и подбирают параметры распределенного обучения быстрее человека. 

OpenAI объединилась с Broadcom для создания собственного ИИ-чипа

OpenAI совместно с Broadcom официально представили Jalapeño — свой первый специализированный процессор, спроектированный исключительно под инференс больших языковых моделей. Самое интересное здесь — скорость разработки: от первых набросков архитектуры до отправки чертежей на фабрику (tape-out) прошло всего девять месяцев. Добиться такой скорости проектирования помог сам искусственный интеллект: инженеры OpenAI использовали собственные нейросети для автоматической оптимизации структуры кремния и трассировки путей памяти, сократив стандартный инженерный цикл в разы.

Глава OpenAI Сэм Альтман и СЕО Broadcom Хок Тан демонстрируют кремниевую пластину с первыми процессорами Jalapeño. Источник.
Глава OpenAI Сэм Альтман и СЕО Broadcom Хок Тан демонстрируют кремниевую пластину с первыми процессорами Jalapeño. Источник.

С технической точки зрения Jalapeño затачивали под реальные паттерны поведения LLM в продакшене, а не под абстрактные вычисления, как обычные видеокарты. Чип спроектирован вокруг архитектуры трансформеров, минимизации задержек при перемещении данных из памяти и жесткой экономии энергии. 

Первые лабораторные тесты инженерных сэмплов показали снижение стоимости инференса примерно на 50% по сравнению с текущими флагманскими GPU от NVIDIA. Для OpenAI это чисто экономический шаг, ведь постоянное обслуживание миллионов пользовательских запросов — самая прожорливая статья их расходов. Первые прототипы начнут разворачивать в дата-центрах в конце 2026 года.

Релиз новой мультимодальной LLM MiniMax M3

В июне китайская лаборатория MiniMax выкатила свою новую флагманскую модель M3, которая еще сильнее усложняет жизнь западным закрытым API. Это мультимодальное open weight-решение с контекстным окном в один миллион токенов, которое умеет нативно работать с кодом, текстом, картинками и видео. На тесте программирования SWE-bench Pro модель с ходу набрала 59,0 баллов, обойдя проприетарную GPT-5.5. 

Похоже, Мэтт Веллозо прав: открытые модели на каждый день становятся стандартом, и закрытым системам будет все тяжелее объяснять пользователям, за что те переплачивают.

Результаты тестирования MiniMax M3 на кодинге, веб-браузинге, работе с инструментами и OSWorld-verified в сравнении с моделями от OpenAI и Anthropic. Источник.
Результаты тестирования MiniMax M3 на кодинге, веб-браузинге, работе с инструментами и OSWorld-verified в сравнении с моделями от OpenAI и Anthropic. Источник.

Высоких результатов при относительно скромных затратах на инференс разработчики добились благодаря кастомной архитектуре MiniMax Sparse Attention (MSA). Она позволяет модели обрабатывать длинные кодовые базы и часы видео в пять раз быстрее предыдущих версий, тратя при этом меньше ресурсов. 

В качестве демонстрации автономности на тестах OSWorld-Verified модель набрала 70,06 баллов — ее заставили самостоятельно провести научный эксперимент, и ИИ за 12 часов без участия человека написал код, сделал 18 коммитов в репозиторий и построил 23 графика.

Российский законопроект об ИИ радикально переписали после критики

Наконец-то показали обновленный вариант многострадального законопроекта об искусственном интеллекте, и, надо признать, индустрия может вздохнуть с облегчением. 

Документ сократился с 21 статьи до 13, а название сменилось с серьезного «Об основах госрегулирования...» на вполне дружелюбное «О поддержке развития технологий ИИ». Главная хорошая новость для рядовых разработчиков: государство решило не регулировать вообще всех, кто хоть раз запускал скрипт с ИИ. Весь фокус контроля теперь сузился исключительно до создателей больших фундаментальных моделей, у которых под капотом находится от 1 млрд параметров. Если ваша моделька меньше — к вам вопросов нет.

Из текста вычеркнули технически нереализуемые пункты, которые волновали рынок в марте. Больше нет обязанности маркировать каждый сгенерированный нейросетью чих — теперь это просто опция, а соцсети обязали лишь дать пользователям удобную кнопку для этого. 

Сильно упростили и ситуацию с авторскими правами на обучение. Больше никто не запрещает использовать зарубежные датасеты: если вы получили данные легально и правообладатель не заблокировал технически доступ к ним, то скармливать их модели можно официально и без бюрократии. Заодно из проекта убрали отдельный блок поддержки дата-центров и загадочное понятие «доверенных» моделей для КИИ и госсистем.

Вместо этого закон вводит два четких статуса для тяжеловесов рынка: модель может быть «суверенной» или «национальной». Обе категории обязаны хранить данные и обрабатывать все запросы строго на серверах внутри России и соответствовать местным законам. 

Разница в уровне импортозамещения: суверенная модель должна создаваться отечественным юрлицом с нуля на всех этапах жизненного цикла. А вот в национальных моделях официально разрешили использовать зарубежные компоненты и — что самое важное — готовый open source вроде того же GLM или Kimi. 

Названы триумфаторы премии AI Breakthrough Awards 2026

Завершился июнь объявлением итогов девятой ежегодной международной премии AI Breakthrough Awards 2026, которая в этот раз отлично подсветила все, о чем мы говорили выше. В индустрии сейчас побеждают не те, кто строит самые абстрактные закрытые чат-боты, а компании, создающие удобную и предсказуемую инфраструктуру для работы с данными. 

Главную статуэтку в номинации «Лучшая ИИ-компания года» забрала Snowflake, которая активно перестраивает свои облачные хранилища под безопасную работу с open weight-моделями. Это как раз тот самый тренд на прагматизм и защиту данных от внешних шлюзов, о котором мы спорили в самом начале статьи.

Другим показательным победителем стала Anyscale, которую признали лучшей ИИ-платформой года. Для инженеров это имя ассоциируется с опенсорс фреймворком Ray — инструментом для распределенного обучения и масштабирования инференса больших моделей на GPU-кластерах. 

А в самой хайповой номинации — Agentic AI — победу присудили SoundHound AI, которые смогли доказать, что их голосовые и текстовые агенты способны часами решать реальные задачи бизнеса в продакшене без зацикливаний.

А как инфраструктурные сдвиги этого месяца коснулись ваших проектов? Делитесь своим опытом, факапами и лайфхаками в комментариях.

Комментарии (7)


  1. NeoCode2
    30.06.2026 12:33

    Как вы считаете - в ситуации "в принципе было бы неплохо иметь локальный ИИ на домашнем компе, но пока нет особой необходимости", наверное имеет смысл подождать когда уже специализированные чипы станут мейнстримом?


    1. morginalium8
      30.06.2026 12:33

      специализированные чипы будут очень дорогие. да и лично я считаю сомнительным решением засунуть печку на пару Кв себе домой.

      что касается локального ии - индустрия движется в сторону уменьшения размера моделей. знаний на параметр становится все больше, и скоро 8В модельки смогут выполнять простые+/средние задачи, имея хороший харнесс и достаточно компьюта. так что выбирать модель по размеру параметров и брать максимум видеопамяти уже неактуально.


    1. Revertis
      30.06.2026 12:33

      16GB VRAM хватит всем.


  1. Dhwtj
    30.06.2026 12:33

    Государство всё равно будет закрывать доступ к иностранным LLM провайдерам


    1. Revertis
      30.06.2026 12:33

      Чтобы ограничить в развитии своё население?


      1. Dhwtj
        30.06.2026 12:33

        Вам виднее зачем закрывают доступ к иностранным ресурсам и VPN


  1. d3d14
    30.06.2026 12:33

    В июне этот экономический тупик стал главным драйвером изменений в индустрии. Компании перестали гнаться за брендами вроде OpenAI и начали массово переходить на китайские модели,

    Есть мнение, что в июне стали переходить на китайские модели по другой причине. Но для ИИ-хейтеров она неведома.


    1. Dhwtj
      30.06.2026 12:33

      Но для ИИ-хейтеров она неведома.

      Поведай нам, не хейтер