Привет, Хабр! Меня зовут Олег, я работаю в менеджменте AI-продуктов и на днях посетил AIJ Deep Dive — специальный очный трек главной конференции по искусственному интеллекту в России AI Journey. Этот трек рассчитан на всех, кто пишет будущее ИИ: разработчиков, исследователей и дата-сайентистов. Здесь были десятки тематических сессий по разным направлениям, возможность задать вопросы разработчикам решений на R&D-выставке, узнать последние AI-тренды рынка, инсайты и «внутрянку» новинок Сбера и даже увидеть их робота.

Много говорили о том, как меняется роль разработчиков в эпоху ИИ-агентов. Мы внутри индустрии уже чувствуем это: модели чаще берут на себя рутину, смещают зоны ответственности команд и заставляют переосмысливать процессы. К примеру, HR-агент оценит резюме по релевантности искомой вакансии, а AI-помощник сервисного инженера выдаст суммаризацию из документации, чем очень поможет работнику.

Анонсы продуктов, впечатления, кейсы и самые интересные фичи с площадки — под катом. 

Атмосфера, нетворкинг и выставка

В программе AIJ Deep Dive — десятки сессий, от фундаментальных исследований в области ИИ до прикладных кейсов и бизнес-применений. Разработчики выкатывали свежие релизы, эксперты спорили о будущих архитектурах, а коридоры стали единым бесконечным нетворкинг-хабом.

Меня зацепил стенд GigaEvo. Команда показала, как LLM и эволюционные алгоритмы подбирают оптимальное решение задачи — при условии, что есть метрика, по которой можно измерить результат. Дальше ограничения исчезают и можно решать что угодно, от промышленной аналитики до задачки «А и Б сидели на трубе». Система способна сама предложить алгоритм, который эффективнее разбирает финансовую отчётность и вытаскивает нужные показатели.

На выставке можно было подойти к создателям продуктов, задать неудобные вопросы и сразу протестировать инструменты — для разработчиков, маркетологов, аналитиков и даже креаторов
На выставке можно было подойти к создателям продуктов, задать неудобные вопросы и сразу протестировать инструменты — для разработчиков, маркетологов, аналитиков и даже креаторов

На другом стенде пообщался на тему удаления предвзятости в NLP c Selective Debiasing. Представим, что мы выбираем кандидата на работу — при отборе важны опыт и навыки, но модель может начать полагаться на нерелевантные признаки вроде пола или возраста. В итоге для одной группы точность 90 %, для другой — 30 %. Бизнес теряет специалистов, интересные кандидаты могут остаться без работы, а ещё всплывают юридические риски.

Классические методы удаления предвзятости учат модель игнорировать такие признаки, но часто падает общее качество — происходит перебалансировка данных. Команда предложила выборочный подход: выявлять решения, где модель особенно опирается на лишние признаки, и применять удаление предвзятости только к ним. Остальное остаётся нетронутым — и метрики сохраняются. Метод применим в разных областях, в том числе в медицине и промышленности.

У стенда GigaAgent задержался подольше. Это open source агент-оркестратор, который позволяет работать с большим количеством субагентов и инструментов, включая MCP-серверы и интеграции с российскими сервисами и платформами. Главная его киллер-фича, на мой взгляд, — сочетание множества функций и исполнения небольших кусочков Python-кода в изолированной REPL-среде для решения задачи пользователя: к примеру, анализ данных в CSV, работа с тяжёлыми Excel-таблицами на десятки тысяч строк.

Для корпоративных сценариев есть встроенная база знаний, а ещё — субагент, который генерирует простые лендинги (HTML-страницы), если нужен быстрый одностраничный сайт. А ещё субагенты для генерации подкастов, презентаций и даже мемов (разработчики, вы прекрасны). В итоге инструмент действительно универсальный и полезен в самых разных задачах: на демо GigaAgent нашел датасет с недвижимостью Москвы, скачал файл, проанализировал тысячи объявлений о продаже квартир, прямо в интерфейсе GigaAgent собрал предиктивную ML-модель и там же посчитал рыночную цену описанной мною квартиры по моим вводным (адрес, метраж, этаж) — без ручного парсинга данных и лишних хлопот.

Рядом показывали GigaCode — инструмент, который анализирует код, чинит ошибки, дописывает документацию и даже определяет, писал его человек или ИИ. 

Для физических лиц сервис работает бесплатно и без ограничений, что, честно, выглядит очень конкурентно
Для физических лиц сервис работает бесплатно и без ограничений, что, честно, выглядит очень конкурентно

Архитектура — ансамбль моделей: open source, кастомные, специализированные. Задачу можно разложить на подзадачи, и каждая уходит модели, которая справится лучше. Команда постоянно обновляет стек, добавляя новые модели, если те выигрывают по метрикам. 

Ребята предложили протестировать инструмент — и я согласился. С помощью GigaCode мы за несколько кликов написали «Змейку»
Ребята предложили протестировать инструмент — и я согласился. С помощью GigaCode мы за несколько кликов написали «Змейку»

На выставке встретился и нашумевший уже во всех новостных лентах человекоподобный робот с ИИ на базе ГигаЧата — Грин. И если вспомнить, что ещё пять лет назад рынок ассоциировался с роликами Boston Dynamics и неуклюжими прототипами, контраст впечатляет. Сегодня это уже осмысленный продуктовый класс с понятными сценариями и UX, который всё ближе к тому, что раньше видели только в фильмах вроде «Я, робот». Грин умеет разговаривать и понимать голосовые команды благодаря функции голосового общения ГигаЧат, а также выполнять некоторые задачи, обращаться с предметами. Также робота снабдили набором «чувств» — десяток сенсоров берут на себя обработку визуальной обстановки, а инерциальные и силовые датчики следят за тем, чтобы он держал равновесие и выполнял движения с правильной точностью.

На выставке было и много других интересных стендов: процесс создания музыки с нейросетью SymFormer, изображений и видео с Kandinsky, 3D-моделей с Kandinsky 3D, возможность общаться с ГигаЧат голосом, как в разговоре с человеком — кстати, эта фича уже доступна всем пользователям нейросети. Такие демо полезны и для рабочих сценариев, и для общего понимания того, как быстро развиваются инструменты генеративного ИИ и какие возможности они открывают для продуктов.

10 фич AIJ Deep Dive, или Что изменит AI-разработку в 2026 году

Специальный трек длился два дня: первый день на AIJ Deep Dive был про бизнес-кейсы, второй, 21 ноября, — про науку. Охватить все доклады в рамках одной статьи невозможно, но я выбрал 10 самых интересных, ведь и сама AI Journey в этом году проводится в десятый раз.

Фича № 1: Мультиагентная RPA: автоматизация, которая сама разбирается в процессе

20 ноября Кирилл Меньшов (Сбер) и Алексей Евтушенко (СберСервис) рассказали о Giga Agentic RPA — гибриде роботизированных сценариев и мультиагентных систем. Это платформа, где процессы выполняют не фиксированные «макросы», а автономные агенты на базе GigaChat, способные анализировать вводные, корректировать стратегию и взаимодействовать друг с другом. Главная мысль состоит в том, что не нужно переписывать всю IT-архитектуру, чтобы перейти к автономии. Giga Agentic RPA интегрируется в существующие контуры и постепенно вытесняет ручные и полуручные операции. Мультиагентные системы лучше справляются со «сложными» процессами — теми, что никогда не доходили до RPA из-за вариативности. 

Узкоспециализированные агенты дают предсказуемость, а не «магический» чат-бот с галлюцинациями. Появилась инфраструктура для проектирования, тестирования и мониторинга агентов
Узкоспециализированные агенты дают предсказуемость, а не «магический» чат-бот с галлюцинациями. Появилась инфраструктура для проектирования, тестирования и мониторинга агентов

Фича № 2: Агентный режим в GigaCode 3.0 ускоряет работу разработчиков более чем в 2 раза 

В тот же день Рафаел Тонаканян на сессии «AI: от промптов к продуктам, презентация DevTools» рассказал, как ускорять разработку за счет автоматизации, и показал, как GigaCode 3.0 стал полноценным соисполнителем. Ошибки в ранних версиях научили команду работать над прозрачностью: можно видеть источник данных, промпт и шаги генерации, что повышает доверие разработчиков. Интеграции с AI Factory, облаком и IDE позволяют выбирать модель под задачу, а не наугад.

В релизе 3.0 заметен интересный сдвиг — инструменты начали работать не только с кодом, но и с контекстом вокруг него. Появился агентный режим — система способна анализировать контекст, предлагать решения, писать и править код, проводить рефакторинг, искать информацию в документации и интернете. Появилась библиотека промптов и веб-поиск: повторяющиеся задачи вроде unit-тестов, миграций или описания API можно решать быстро, в нужном стиле и без ручной правки.

По результатам команды, один и тот же код без AI пишется 70 минут, с агентным режимом GigaCode — 30
По результатам команды, один и тот же код без AI пишется 70 минут, с агентным режимом GigaCode — 30

И, конечно, человеческий контроль никто не отменял — ИИ ускоряет процесс, но финальные решения остаются за инженером.

Фича № 3: Kandinsky-5 научился рисовать и снимать видео по-русски

Kandinsky-5 — один из самых масштабных анонсов AI Journey. Новая линейка моделей генерации изображений и видео понимает русский язык, культурный контекст и бытовые реалии. На их фоне большинство зарубежных моделей заметно «теряются» при работе с русской семантикой. 

Kandinsky-5 — один из самых масштабных анонсов AIJ Deep Dive
Kandinsky-5 — один из самых масштабных анонсов AIJ Deep Dive

В основе релиза были две ключевые модели: Image Lite с 6 млрд параметров генерирует и редактирует картинки, Video Lite имеет всего 2 млрд параметров, но при этом в ряде метрик обгоняет более крупные open source аналоги и работает на массовых видеокартах.

Датасет — 520 млн изображений и 27,5 млн видео с фокусом на российский контент. Фактически модели понимают «культурный код»
Датасет — 520 млн изображений и 27,5 млн видео с фокусом на российский контент. Фактически модели понимают «культурный код»

Под капотом — диффузионные трансформеры и автокодировщики K.VAE 2D/3D, которые ускоряют инференс и обучение. 

Модели уже живут в продуктах: «Домклик» тестирует интерьер и примерку мебели, «Самокат» генерирует анимации товаров. В обоих кейсах зафиксировали рост вовлечённости и конверсии. 

Фича № 4: Mixture of Experts в GigaChat 3.0 — самый масштабный анонс линейки моделей

На AIJ Deep Dive технический директор GigaChat Фёдор Минькин рассказал о крупнейшем анонсе линейки моделей GigaChat 3.0. Сейчас GigaChat 2.0 возглавляет рейтинг русскоязычных моделей, созданных в России, но команда уже готовит масштабный апгрейд.

На AI Journey Сбер открыл доступ к весам своих флагманских разработок:

  • GigaChat Lightning — компактная модель с 1,8 млрд активных параметров, которую можно запускать локально, например на ноутбуках. Поддерживает контекст до 256 тысяч токенов и по метрикам вплотную подходит к лидерам среди открытых моделей своего класса.

  • GigaChat Ultra-Preview — самая крупная модель, обученная на русском языке, с 36 млрд активных параметров и контекстом до 131 тысячи токенов. Модель еще дообучается, но уже показывает результаты выше, чем у зарубежных аналогов по ряду метрик. Модель выпускается под открытой лицензией, а значит, ее можно дообучать локально, например в закрытых корпоративных средах.

Обе модели обучены с нуля без инициализации чужими весами. А ключевая их фича — архитектура Mixture of Experts (MoE). Вместо использования всех весов на каждом слое модель выбирает подмножество экспертов и весов (как на иллюстрации ниже), что позволяет делать очень большие, но при этом экономные и быстрые модели. Ускоряется и обучение: при равных затратах качество выше, чем у конкурентов.

Наглядная демонстрация архитектуры MoE
Наглядная демонстрация архитектуры MoE

При этом токенизатору GigaChat требуется на 37 % меньше токенов, чтобы ответить и прочитать ваши запросы, чем Qwen и DeepSeek. Стоит понимать, что модели, созданные для русского языка в России, для русскоязычной аудитории сильно эффективнее.

Обе модели имеют MIT-лицензию, так что их можно использовать и в коммерческих проектах 
Обе модели имеют MIT-лицензию, так что их можно использовать и в коммерческих проектах 

Также был открыт доступ к модели GigaAM (Acoustic Module) — претрейниренная на огромном массиве речевых данных, её применяют для распознавания и синтеза речи на русском. Модель удерживает первое место по качеству распознавания речи среди открытых моделей на русском, побеждает даже некоторые коммерческие движки распознавания речи. GigaAM уже используется в GigaChat Audio для работы с видео, аудио и звонками.

Этот анонс действительно можно назвать самым масштабным в истории страны — в open source проект также вошли модели Kandinsky 5.0 (Video Pro, Video Lite и Image Lite) и автоэнкодеры K-VAE 1.0.

Фича № 5: Будущее за универсальными агентами, способными разбить задачу по инструментам и решить её, совершив множество шагов в диалоге с пользователем

Особенно впечатлился докладом Константина Крестникова «GigaAgent = REPL + ReAct» — эксперт рассказал о трендах AI-агентов и переходе к универсальным решениям. Сейчас агенты делятся на два типа: узкоспециализированные, например для презентаций или исследований, и универсальные, способные решать сразу несколько задач — обрабатывать файлы, искать информацию и выполнять цепочки действий. Константин предполагает, что такие агенты в будущем станут единым интерфейсом пользователя для взаимодействия с миром.

Несмотря на то, что специализированные агенты точнее в своей задаче, пользователи предпочитают универсальных: один агент заменяет десяток спецагентов и хранит память о прошлых взаимодействиях. Константин упомянул недавнее исследование, в котором оказалось, что 92 % компаний Fortune 500 так или иначе покупают какие-то продукты OpenAI. Пользователи копируют файлы на личные компьютеры, просят ИИ просматривать письма. И так информация может утекать за пределы контура компании. 

Такой подход решает проблему утечки данных, с которой сталкиваются российские компании при использовании внешних сервисов вроде DeepSeek
Такой подход решает проблему утечки данных, с которой сталкиваются российские компании при использовании внешних сервисов вроде DeepSeek

С учётом этого тренда Сбер создал GigaAgent (open source, MIT), который можно развернуть в своём корпоративном контуре. Агент ведёт диалоги, может автономно совершать по 30–50 шагов, чтобы решить задачу пользователя, работает с файлами и включает субагентов, от генерации презентаций до мемов. Сейчас его можно скачать в Git-версии и развернуть в своём контуре. С чатовым агентом пользователь может вести диалоги, отправлять задачи и большие файлы. 

В своём докладе Константин показал несколько примеров того, как агент может работать с большими табличными файлами клиента, извлекать из них информацию, обрабатывать ее с помощью MCP-серверов и передавать результаты обработки в популярную CRM-систему.

Константин продемонстрировал работу агента на примере расчёта стоимости налога для самой дорогой машины из списка в приложенном файле
Константин продемонстрировал работу агента на примере расчёта стоимости налога для самой дорогой машины из списка в приложенном файле

Фича № 6: Action Models — когда ИИ видит, понимает и действует

Владислав Куренков из института AIRI рассказал об Action Models: подходах и принципах построения. Сегодня активно развиваются end-to-end Vision-Language-Action (VLA) модели — мультимодальные базовые модели, объединяющие восприятие, язык и действия для управления роботами и другими системами.

Модель получает изображение или видео окружения и текстовую инструкцию, а затем предсказывает действия, которые нужно выполнить. Например, робот может отбить удар, чтобы не упасть
Модель получает изображение или видео окружения и текстовую инструкцию, а затем предсказывает действия, которые нужно выполнить. Например, робот может отбить удар, чтобы не упасть

Обучение таких моделей требует огромных данных: если пару лет назад хватало тысяч часов, сейчас передовые модели тренируются на 200–300 тысячах часов записей поведения роботов. 

Количество VLA-моделей растёт: за прошлый год появилось около 90 новых. При этом open source модели нередко нестабильны к небольшим изменениям. Для объективной оценки была создана Robo-арена, где модели тестируются на реальных роботах в лабораториях. Появились и более доступные альтернативы — симуляторы или недорогие роботы на базе LiRobots, что сильно снижает порог входа для исследований.

Фича № 7: Проблема с синтаксисом решаема

Дмитрий Бабаев рассказал, как обучают LLM для работы с кодом в GigaCode. Продукты Сбера и СберТеха для разработчиков — GigaCode, GitVerse и GigaIDE — теперь работают не просто как IDE, а как полноценные AI-помощники, а команда Дмитрия также создаёт агентов для софт-инжиниринга.

Около месяца назад выпустили Inline-модель, которая подсказывает код прямо во время его написания. Это как привычная подсказка IDE, только на базе LLM и с поддержкой AI, работает быстрее и точнее. В ближайшее время появится режим NextEdit Prediction, позволяющий перескакивать к местам редактирования без лишних шагов.

Модель построена по архитектуре MoE: 30 млрд параметров, на инференсе активны 3 млрд, что делает её быстрой в использовании. Она обучена с нуля на 5 трлн токенов и показывает отличные результаты в бенчмарках.

Особое внимание команда уделила синтаксису — ИИ-инструменты часто забывают закрыть кавычку или скобку, поэтому команда сделала дополнительное улучшение, чтобы решить эту проблему
Особое внимание команда уделила синтаксису — ИИ-инструменты часто забывают закрыть кавычку или скобку, поэтому команда сделала дополнительное улучшение, чтобы решить эту проблему

Чаще всего бенчмарки для LLM делают только для Python. У Дмитрия была гипотеза, что в других языках всё может быть не очень хорошо, особенно в плане Reasoning’а. Эта гипотеза подтвердилась, и поэтому команда решила сделать модель, которая бы видела Reasoning на разных языках.

Фича № 8: Видеогенерация превращается в «Матрицу» для игр и роботов

Ещё один доклад, который реально меня впечатлил, — рассказ Александра Анохина о том, как видеогенерационные модели превращаются в полноценные симуляторы мира. 

В 2025 году World Models стали массовыми: качество графики, физики и скорость генерации выросли, а длина видео теперь практически не ограничена 
В 2025 году World Models стали массовыми: качество графики, физики и скорость генерации выросли, а длина видео теперь практически не ограничена 

Управление стало интерактивным: текстовые промпты заменяются действиями пользователя — клавиатурой и мышью. Да, иногда появляются артефакты, но в целом такой подход реально ускоряет прототипирование и тестирование.

Сейчас есть два основных подхода:

  • Action Control — модель реагирует на команды: движение, прыжки, взаимодействие с объектами. Это удобно для игровых симуляций и управления роботами, но модель пока не создаёт полностью новые локации, она интерполирует увиденное.

  • Camera Control — управление камерой напрямую с трансляцией привычных действий игрока. Позволяет быстро адаптировать симуляцию под разные сценарии, хотя при резких движениях возможны артефакты и ограничение FPS.

Игроку неудобно вручную управлять камерой, поэтому поверх этого подхода делают «прослойку» — обучают на небольшом датасете модель, которая транслирует привычные действия игрока (нажатие клавиш) в движение камеры
Игроку неудобно вручную управлять камерой, поэтому поверх этого подхода делают «прослойку» — обучают на небольшом датасете модель, которая транслирует привычные действия игрока (нажатие клавиш) в движение камеры

Самое интересное — применение в робототехнике. Робот помещается в динамически создаваемую видеосреду, которая реагирует на его действия. Дальше формируется цикл обучения: VLM-агент генерирует действия, видеомодель визуализирует их, внешняя VLM-система оценивает результат и ставит следующую задачу.

По сути, это замкнутый цикл, где ИИ обучает ИИ в искусственно созданной среде. «Матрица», в общем-то. Но для продукта это огромный шаг: мы получаем рабочую генеративную платформу для тестирования автономных агентов, создания контента и прототипирования без дорогих физических симуляций.

Фича № 9: MERA учится тестировать не только текст

Выступление Алёны Феногеновой напомнило, что гонка ИИ — это не только архитектуры и параметры, но и прозрачная оценка. За последний год MERA выросла из текстового набора тестов в полноценную экосистему: появились ветки MERA CODE, SWE MERA, MERA Industrial и MERA Multi, где лидеры соревнуются в генерации кода, отраслевой экспертизе и работе с мультимедийными данными. На лидербордах уже более 200 моделей, а приватных сабмитов — свыше 4000.

Особое внимание — MERA Multi, она тестирует мультимодальные модели, которые умеют принимать на вход не только текст, но и изображения, аудио и видео. Пока русскоязычных тестов для аудио и видео немного, поэтому команда приглашает сообщество и индустрию к коллаборации.

C:\Users\20800383\Desktop\photo_5265168892156383249_y.jpg
Главная идея выступления: MERA — не закрытый стандарт, а платформа, развиваемая сообществом. Без прозрачных бенчмарков прогресс трудно оценивать, и MERA постепенно становится таким ориентиром для русскоязычных и мультимодальных моделей

Для оценки создана таксономия навыков: логика, структурирование, интерпретация, восприятие изображений, код и т. д. Разработчикам наряду с тестами также доступна модель-судья, которая позволяет оценивать выход моделей, даже если они не соблюдали инструкцию и формат вывода. MERA защищает мультимодальные данные с помощью водяных знаков и лицензирования.

Фича № 10: Нейроинтерфейсы как новый пользовательский ввод

На одной из самых концептуальных сессий Михаил Лебедев (МГУ) предложил смотреть на ИИ не как на самостоятельную систему, а как на технологический мост между мозгом и внешним миром. Сегодня мы взаимодействуем с ИИ через клавиатуру, голос или API, а будущее обещает прямой интерфейс — через электрическую активность нейронов.

Доклад начал с исторического контекста — от первых экспериментов Эдварда Эверса до Neuralink. 

Главный акцент был на смене парадигмы: мысль, движение и эмоции задаются распределёнными сетями, которые предстоит научиться декодировать
Главный акцент был на смене парадигмы: мысль, движение и эмоции задаются распределёнными сетями, которые предстоит научиться декодировать

Отсюда рождаются три технологических направления:

  • чтение — распознавание намерений, ощущений, команд по электрической активности мозга;

  • запись — адресная стимуляция, корректирующая состояние или запускающая действие;

  • посредничество — интеграция с ИИ, который переводит нейросигналы в понятные интерфейсы и обратно.

Основной вызов не со стороны алгоритмов, а со стороны биологии — импланты должны быть безопасными, стабильными и долговечными. Проблемы биосовместимости, отторжения и деградации электродов пока ограничивают масштаб внедрения. Здесь ИИ помогает реконструировать сигналы щадящими методами, фильтровать шум и предсказывать намерения, а в перспективе — генерировать стимулы, способные восстанавливать утраченные функции.

Самая смелая идея сессии — соединение человека или животного с большой языковой моделью 
Самая смелая идея сессии — соединение человека или животного с большой языковой моделью 

Нейроинтерфейс может стать дополнительным когнитивным слоем: облегчить коммуникацию, дать доступ к знаниям, помочь людям с нарушениями речи или моторики.

Вместе с перспективами растёт и зона ответственности: приватность мыслей, безопасность нейроданных, этика стимулирующих протоколов, нормативное регулирование. Технологически мы приближаемся к тому, чтобы «подключить мозг к Сети», и общество должно успевать к этому готовиться. 

Итоги AIJ Deep Dive: куда движется разработка ИИ

AIJ Deep Dive ясно показал: развитие ИИ уже перестало быть линейным — оно ускоряется, причём по всем направлениям сразу. Универсальные агенты, мультимодальные модели, генерация кода и видео, новые архитектуры вроде MoE, нейроинтерфейсы — это инструменты будущего, которые пишут уже сейчас.

Трек AIJ Deep Dive собрал специалистов, которые не просто наблюдают за эволюцией технологий, а формируют её. Многие решения, ещё год назад выглядевшие экспериментами, становятся базовыми слоями будущей ИИ-инфраструктуры. Инструменты вроде GigaCode, GigaAgent и Kandinsky-5 превращают рутину в полуавтономные процессы, а новые подходы в виде генерации действий и видеосимуляций открывают горизонты для робототехники и игр. 

Меняется сам процесс разработки: ИИ-инструменты дают больше скорости, качества и автономии, высвобождая время разработчиков для создания систем, способных учиться, взаимодействовать и принимать решения на новом уровне.

А где вы видите наибольший потенциал генеративных моделей и какие подходы к интеграции универсальных агентов и мультимодальных моделей вы считаете наиболее перспективными для рабочих проектов?

Привет, Хабр! Меня зовут Олег, я работаю в менеджменте AI-продуктов и на днях посетил AIJ Deep Dive — специальный очный трек главной конференции по искусственному интеллекту в России AI Journey. Этот трек рассчитан на всех, кто пишет будущее ИИ: разработчиков, исследователей и дата-сайентистов. Здесь были десятки тематических сессий по разным направлениям, возможность задать вопросы разработчикам решений на R&D-выставке, узнать последние AI-тренды рынка, инсайты и «внутрянку» новинок Сбера и даже увидеть их робота.

Много говорили о том, как меняется роль разработчиков в эпоху ИИ-агентов. Мы внутри индустрии уже чувствуем это: модели чаще берут на себя рутину, смещают зоны ответственности команд и заставляют переосмысливать процессы. К примеру, HR-агент оценит резюме по релевантности искомой вакансии, а AI-помощник сервисного инженера выдаст суммаризацию из документации, чем очень поможет работнику.

Анонсы продуктов, впечатления, кейсы и самые интересные фичи с площадки — под катом. 

Атмосфера, нетворкинг и выставка

В программе AIJ Deep Dive — десятки сессий, от фундаментальных исследований в области ИИ до прикладных кейсов и бизнес-применений. Разработчики выкатывали свежие релизы, эксперты спорили о будущих архитектурах, а коридоры стали единым бесконечным нетворкинг-хабом.

Меня зацепил стенд GigaEvo. Команда показала, как LLM и эволюционные алгоритмы подбирают оптимальное решение задачи — при условии, что есть метрика, по которой можно измерить результат. Дальше ограничения исчезают и можно решать что угодно, от промышленной аналитики до задачки «А и Б сидели на трубе». Система способна сама предложить алгоритм, который эффективнее разбирает финансовую отчётность и вытаскивает нужные показатели.

На выставке можно было подойти к создателям продуктов, задать неудобные вопросы и сразу протестировать инструменты — для разработчиков, маркетологов, аналитиков и даже креаторов
На выставке можно было подойти к создателям продуктов, задать неудобные вопросы и сразу протестировать инструменты — для разработчиков, маркетологов, аналитиков и даже креаторов

На другом стенде пообщался на тему удаления предвзятости в NLP c Selective Debiasing. Представим, что мы выбираем кандидата на работу — при отборе важны опыт и навыки, но модель может начать полагаться на нерелевантные признаки вроде пола или возраста. В итоге для одной группы точность 90 %, для другой — 30 %. Бизнес теряет специалистов, интересные кандидаты могут остаться без работы, а ещё всплывают юридические риски.

Классические методы удаления предвзятости учат модель игнорировать такие признаки, но часто падает общее качество — происходит перебалансировка данных. Команда предложила выборочный подход: выявлять решения, где модель особенно опирается на лишние признаки, и применять удаление предвзятости только к ним. Остальное остаётся нетронутым — и метрики сохраняются. Метод применим в разных областях, в том числе в медицине и промышленности.

У стенда GigaAgent задержался подольше. Это open source агент-оркестратор, который позволяет работать с большим количеством субагентов и инструментов, включая MCP-серверы и интеграции с российскими сервисами и платформами. Главная его киллер-фича, на мой взгляд, — сочетание множества функций и исполнения небольших кусочков Python-кода в изолированной REPL-среде для решения задачи пользователя: к примеру, анализ данных в CSV, работа с тяжёлыми Excel-таблицами на десятки тысяч строк.

Для корпоративных сценариев есть встроенная база знаний, а ещё — субагент, который генерирует простые лендинги (HTML-страницы), если нужен быстрый одностраничный сайт. А ещё субагенты для генерации подкастов, презентаций и даже мемов (разработчики, вы прекрасны). В итоге инструмент действительно универсальный и полезен в самых разных задачах: на демо GigaAgent нашел датасет с недвижимостью Москвы, скачал файл, проанализировал тысячи объявлений о продаже квартир, прямо в интерфейсе GigaAgent собрал предиктивную ML-модель и там же посчитал рыночную цену описанной мною квартиры по моим вводным (адрес, метраж, этаж) — без ручного парсинга данных и лишних хлопот.

Рядом показывали GigaCode — инструмент, который анализирует код, чинит ошибки, дописывает документацию и даже определяет, писал его человек или ИИ. 

Для физических лиц сервис работает бесплатно и без ограничений, что, честно, выглядит очень конкурентно
Для физических лиц сервис работает бесплатно и без ограничений, что, честно, выглядит очень конкурентно

Архитектура — ансамбль моделей: open source, кастомные, специализированные. Задачу можно разложить на подзадачи, и каждая уходит модели, которая справится лучше. Команда постоянно обновляет стек, добавляя новые модели, если те выигрывают по метрикам. 

Ребята предложили протестировать инструмент — и я согласился. С помощью GigaCode мы за несколько кликов написали «Змейку»
Ребята предложили протестировать инструмент — и я согласился. С помощью GigaCode мы за несколько кликов написали «Змейку»

На выставке встретился и нашумевший уже во всех новостных лентах человекоподобный робот с ИИ на базе ГигаЧата — Грин. И если вспомнить, что ещё пять лет назад рынок ассоциировался с роликами Boston Dynamics и неуклюжими прототипами, контраст впечатляет. Сегодня это уже осмысленный продуктовый класс с понятными сценариями и UX, который всё ближе к тому, что раньше видели только в фильмах вроде «Я, робот». Грин умеет разговаривать и понимать голосовые команды благодаря функции голосового общения ГигаЧат, а также выполнять некоторые задачи, обращаться с предметами. Также робота снабдили набором «чувств» — десяток сенсоров берут на себя обработку визуальной обстановки, а инерциальные и силовые датчики следят за тем, чтобы он держал равновесие и выполнял движения с правильной точностью.

На выставке было и много других интересных стендов: процесс создания музыки с нейросетью SymFormer, изображений и видео с Kandinsky, 3D-моделей с Kandinsky 3D, возможность общаться с ГигаЧат голосом, как в разговоре с человеком — кстати, эта фича уже доступна всем пользователям нейросети. Такие демо полезны и для рабочих сценариев, и для общего понимания того, как быстро развиваются инструменты генеративного ИИ и какие возможности они открывают для продуктов.

10 фич AIJ Deep Dive, или Что изменит AI-разработку в 2026 году

Специальный трек длился два дня: первый день на AIJ Deep Dive был про бизнес-кейсы, второй, 21 ноября, — про науку. Охватить все доклады в рамках одной статьи невозможно, но я выбрал 10 самых интересных, ведь и сама AI Journey в этом году проводится в десятый раз.

Фича № 1: Мультиагентная RPA: автоматизация, которая сама разбирается в процессе

20 ноября Кирилл Меньшов (Сбер) и Алексей Евтушенко (СберСервис) рассказали о Giga Agentic RPA — гибриде роботизированных сценариев и мультиагентных систем. Это платформа, где процессы выполняют не фиксированные «макросы», а автономные агенты на базе GigaChat, способные анализировать вводные, корректировать стратегию и взаимодействовать друг с другом. Главная мысль состоит в том, что не нужно переписывать всю IT-архитектуру, чтобы перейти к автономии. Giga Agentic RPA интегрируется в существующие контуры и постепенно вытесняет ручные и полуручные операции. Мультиагентные системы лучше справляются со «сложными» процессами — теми, что никогда не доходили до RPA из-за вариативности. 

Узкоспециализированные агенты дают предсказуемость, а не «магический» чат-бот с галлюцинациями. Появилась инфраструктура для проектирования, тестирования и мониторинга агентов
Узкоспециализированные агенты дают предсказуемость, а не «магический» чат-бот с галлюцинациями. Появилась инфраструктура для проектирования, тестирования и мониторинга агентов

Фича № 2: Агентный режим в GigaCode 3.0 ускоряет работу разработчиков более чем в 2 раза 

В тот же день Рафаел Тонаканян на сессии «AI: от промптов к продуктам, презентация DevTools» рассказал, как ускорять разработку за счет автоматизации, и показал, как GigaCode 3.0 стал полноценным соисполнителем. Ошибки в ранних версиях научили команду работать над прозрачностью: можно видеть источник данных, промпт и шаги генерации, что повышает доверие разработчиков. Интеграции с AI Factory, облаком и IDE позволяют выбирать модель под задачу, а не наугад.

В релизе 3.0 заметен интересный сдвиг — инструменты начали работать не только с кодом, но и с контекстом вокруг него. Появился агентный режим — система способна анализировать контекст, предлагать решения, писать и править код, проводить рефакторинг, искать информацию в документации и интернете. Появилась библиотека промптов и веб-поиск: повторяющиеся задачи вроде unit-тестов, миграций или описания API можно решать быстро, в нужном стиле и без ручной правки.

По результатам команды, один и тот же код без AI пишется 70 минут, с агентным режимом GigaCode — 30
По результатам команды, один и тот же код без AI пишется 70 минут, с агентным режимом GigaCode — 30

И, конечно, человеческий контроль никто не отменял — ИИ ускоряет процесс, но финальные решения остаются за инженером.

Фича № 3: Kandinsky-5 научился рисовать и снимать видео по-русски

Kandinsky-5 — один из самых масштабных анонсов AI Journey. Новая линейка моделей генерации изображений и видео понимает русский язык, культурный контекст и бытовые реалии. На их фоне большинство зарубежных моделей заметно «теряются» при работе с русской семантикой. 

Kandinsky-5 — один из самых масштабных анонсов AIJ Deep Dive
Kandinsky-5 — один из самых масштабных анонсов AIJ Deep Dive

В основе релиза были две ключевые модели: Image Lite с 6 млрд параметров генерирует и редактирует картинки, Video Lite имеет всего 2 млрд параметров, но при этом в ряде метрик обгоняет более крупные open source аналоги и работает на массовых видеокартах.

Датасет — 520 млн изображений и 27,5 млн видео с фокусом на российский контент. Фактически модели понимают «культурный код»
Датасет — 520 млн изображений и 27,5 млн видео с фокусом на российский контент. Фактически модели понимают «культурный код»

Под капотом — диффузионные трансформеры и автокодировщики K.VAE 2D/3D, которые ускоряют инференс и обучение. 

Модели уже живут в продуктах: «Домклик» тестирует интерьер и примерку мебели, «Самокат» генерирует анимации товаров. В обоих кейсах зафиксировали рост вовлечённости и конверсии. 

Фича № 4: Mixture of Experts в GigaChat 3.0 — самый масштабный анонс линейки моделей

На AIJ Deep Dive технический директор GigaChat Фёдор Минькин рассказал о крупнейшем анонсе линейки моделей GigaChat 3.0. Сейчас GigaChat 2.0 возглавляет рейтинг русскоязычных моделей, созданных в России, но команда уже готовит масштабный апгрейд.

На AI Journey Сбер открыл доступ к весам своих флагманских разработок:

  • GigaChat Lightning — компактная модель с 1,8 млрд активных параметров, которую можно запускать локально, например на ноутбуках. Поддерживает контекст до 256 тысяч токенов и по метрикам вплотную подходит к лидерам среди открытых моделей своего класса.

  • GigaChat Ultra-Preview — самая крупная модель, обученная на русском языке, с 36 млрд активных параметров и контекстом до 131 тысячи токенов. Модель еще дообучается, но уже показывает результаты выше, чем у зарубежных аналогов по ряду метрик. Модель выпускается под открытой лицензией, а значит, ее можно дообучать локально, например в закрытых корпоративных средах.

Обе модели обучены с нуля без инициализации чужими весами. А ключевая их фича — архитектура Mixture of Experts (MoE). Вместо использования всех весов на каждом слое модель выбирает подмножество экспертов и весов (как на иллюстрации ниже), что позволяет делать очень большие, но при этом экономные и быстрые модели. Ускоряется и обучение: при равных затратах качество выше, чем у конкурентов.

Наглядная демонстрация архитектуры MoE
Наглядная демонстрация архитектуры MoE

При этом токенизатору GigaChat требуется на 37 % меньше токенов, чтобы ответить и прочитать ваши запросы, чем Qwen и DeepSeek. Стоит понимать, что модели, созданные для русского языка в России, для русскоязычной аудитории сильно эффективнее.

Обе модели имеют MIT-лицензию, так что их можно использовать и в коммерческих проектах 
Обе модели имеют MIT-лицензию, так что их можно использовать и в коммерческих проектах 

Также был открыт доступ к модели GigaAM (Acoustic Module) — претрейниренная на огромном массиве речевых данных, её применяют для распознавания и синтеза речи на русском. Модель удерживает первое место по качеству распознавания речи среди открытых моделей на русском, побеждает даже некоторые коммерческие движки распознавания речи. GigaAM уже используется в GigaChat Audio для работы с видео, аудио и звонками.

Этот анонс действительно можно назвать самым масштабным в истории страны — в open source проект также вошли модели Kandinsky 5.0 (Video Pro, Video Lite и Image Lite) и автоэнкодеры K-VAE 1.0.

Фича № 5: Будущее за универсальными агентами, способными разбить задачу по инструментам и решить её, совершив множество шагов в диалоге с пользователем

Особенно впечатлился докладом Константина Крестникова «GigaAgent = REPL + ReAct» — эксперт рассказал о трендах AI-агентов и переходе к универсальным решениям. Сейчас агенты делятся на два типа: узкоспециализированные, например для презентаций или исследований, и универсальные, способные решать сразу несколько задач — обрабатывать файлы, искать информацию и выполнять цепочки действий. Константин предполагает, что такие агенты в будущем станут единым интерфейсом пользователя для взаимодействия с миром.

Несмотря на то, что специализированные агенты точнее в своей задаче, пользователи предпочитают универсальных: один агент заменяет десяток спецагентов и хранит память о прошлых взаимодействиях. Константин упомянул недавнее исследование, в котором оказалось, что 92 % компаний Fortune 500 так или иначе покупают какие-то продукты OpenAI. Пользователи копируют файлы на личные компьютеры, просят ИИ просматривать письма. И так информация может утекать за пределы контура компании. 

Такой подход решает проблему утечки данных, с которой сталкиваются российские компании при использовании внешних сервисов вроде DeepSeek
Такой подход решает проблему утечки данных, с которой сталкиваются российские компании при использовании внешних сервисов вроде DeepSeek

С учётом этого тренда Сбер создал GigaAgent (open source, MIT), который можно развернуть в своём корпоративном контуре. Агент ведёт диалоги, может автономно совершать по 30–50 шагов, чтобы решить задачу пользователя, работает с файлами и включает субагентов, от генерации презентаций до мемов. Сейчас его можно скачать в Git-версии и развернуть в своём контуре. С чатовым агентом пользователь может вести диалоги, отправлять задачи и большие файлы. 

В своём докладе Константин показал несколько примеров того, как агент может работать с большими табличными файлами клиента, извлекать из них информацию, обрабатывать ее с помощью MCP-серверов и передавать результаты обработки в популярную CRM-систему.

Константин продемонстрировал работу агента на примере расчёта стоимости налога для самой дорогой машины из списка в приложенном файле
Константин продемонстрировал работу агента на примере расчёта стоимости налога для самой дорогой машины из списка в приложенном файле

Фича № 6: Action Models — когда ИИ видит, понимает и действует

Владислав Куренков из института AIRI рассказал об Action Models: подходах и принципах построения. Сегодня активно развиваются end-to-end Vision-Language-Action (VLA) модели — мультимодальные базовые модели, объединяющие восприятие, язык и действия для управления роботами и другими системами.

Модель получает изображение или видео окружения и текстовую инструкцию, а затем предсказывает действия, которые нужно выполнить. Например, робот может отбить удар, чтобы не упасть
Модель получает изображение или видео окружения и текстовую инструкцию, а затем предсказывает действия, которые нужно выполнить. Например, робот может отбить удар, чтобы не упасть

Обучение таких моделей требует огромных данных: если пару лет назад хватало тысяч часов, сейчас передовые модели тренируются на 200–300 тысячах часов записей поведения роботов. 

Количество VLA-моделей растёт: за прошлый год появилось около 90 новых. При этом open source модели нередко нестабильны к небольшим изменениям. Для объективной оценки была создана Robo-арена, где модели тестируются на реальных роботах в лабораториях. Появились и более доступные альтернативы — симуляторы или недорогие роботы на базе LiRobots, что сильно снижает порог входа для исследований.

Фича № 7: Проблема с синтаксисом решаема

Дмитрий Бабаев рассказал, как обучают LLM для работы с кодом в GigaCode. Продукты Сбера и СберТеха для разработчиков — GigaCode, GitVerse и GigaIDE — теперь работают не просто как IDE, а как полноценные AI-помощники, а команда Дмитрия также создаёт агентов для софт-инжиниринга.

Около месяца назад выпустили Inline-модель, которая подсказывает код прямо во время его написания. Это как привычная подсказка IDE, только на базе LLM и с поддержкой AI, работает быстрее и точнее. В ближайшее время появится режим NextEdit Prediction, позволяющий перескакивать к местам редактирования без лишних шагов.

Модель построена по архитектуре MoE: 30 млрд параметров, на инференсе активны 3 млрд, что делает её быстрой в использовании. Она обучена с нуля на 5 трлн токенов и показывает отличные результаты в бенчмарках.

Особое внимание команда уделила синтаксису — ИИ-инструменты часто забывают закрыть кавычку или скобку, поэтому команда сделала дополнительное улучшение, чтобы решить эту проблему
Особое внимание команда уделила синтаксису — ИИ-инструменты часто забывают закрыть кавычку или скобку, поэтому команда сделала дополнительное улучшение, чтобы решить эту проблему

Чаще всего бенчмарки для LLM делают только для Python. У Дмитрия была гипотеза, что в других языках всё может быть не очень хорошо, особенно в плане Reasoning’а. Эта гипотеза подтвердилась, и поэтому команда решила сделать модель, которая бы видела Reasoning на разных языках.

Фича № 8: Видеогенерация превращается в «Матрицу» для игр и роботов

Ещё один доклад, который реально меня впечатлил, — рассказ Александра Анохина о том, как видеогенерационные модели превращаются в полноценные симуляторы мира. 

В 2025 году World Models стали массовыми: качество графики, физики и скорость генерации выросли, а длина видео теперь практически не ограничена 
В 2025 году World Models стали массовыми: качество графики, физики и скорость генерации выросли, а длина видео теперь практически не ограничена 

Управление стало интерактивным: текстовые промпты заменяются действиями пользователя — клавиатурой и мышью. Да, иногда появляются артефакты, но в целом такой подход реально ускоряет прототипирование и тестирование.

Сейчас есть два основных подхода:

  • Action Control — модель реагирует на команды: движение, прыжки, взаимодействие с объектами. Это удобно для игровых симуляций и управления роботами, но модель пока не создаёт полностью новые локации, она интерполирует увиденное.

  • Camera Control — управление камерой напрямую с трансляцией привычных действий игрока. Позволяет быстро адаптировать симуляцию под разные сценарии, хотя при резких движениях возможны артефакты и ограничение FPS.

Игроку неудобно вручную управлять камерой, поэтому поверх этого подхода делают «прослойку» — обучают на небольшом датасете модель, которая транслирует привычные действия игрока (нажатие клавиш) в движение камеры
Игроку неудобно вручную управлять камерой, поэтому поверх этого подхода делают «прослойку» — обучают на небольшом датасете модель, которая транслирует привычные действия игрока (нажатие клавиш) в движение камеры

Самое интересное — применение в робототехнике. Робот помещается в динамически создаваемую видеосреду, которая реагирует на его действия. Дальше формируется цикл обучения: VLM-агент генерирует действия, видеомодель визуализирует их, внешняя VLM-система оценивает результат и ставит следующую задачу.

По сути, это замкнутый цикл, где ИИ обучает ИИ в искусственно созданной среде. «Матрица», в общем-то. Но для продукта это огромный шаг: мы получаем рабочую генеративную платформу для тестирования автономных агентов, создания контента и прототипирования без дорогих физических симуляций.

Фича № 9: MERA учится тестировать не только текст

Выступление Алёны Феногеновой напомнило, что гонка ИИ — это не только архитектуры и параметры, но и прозрачная оценка. За последний год MERA выросла из текстового набора тестов в полноценную экосистему: появились ветки MERA CODE, SWE MERA, MERA Industrial и MERA Multi, где лидеры соревнуются в генерации кода, отраслевой экспертизе и работе с мультимедийными данными. На лидербордах уже более 200 моделей, а приватных сабмитов — свыше 4000.

Особое внимание — MERA Multi, она тестирует мультимодальные модели, которые умеют принимать на вход не только текст, но и изображения, аудио и видео. Пока русскоязычных тестов для аудио и видео немного, поэтому команда приглашает сообщество и индустрию к коллаборации.

C:\Users\20800383\Desktop\photo_5265168892156383249_y.jpg
Главная идея выступления: MERA — не закрытый стандарт, а платформа, развиваемая сообществом. Без прозрачных бенчмарков прогресс трудно оценивать, и MERA постепенно становится таким ориентиром для русскоязычных и мультимодальных моделей

Для оценки создана таксономия навыков: логика, структурирование, интерпретация, восприятие изображений, код и т. д. Разработчикам наряду с тестами также доступна модель-судья, которая позволяет оценивать выход моделей, даже если они не соблюдали инструкцию и формат вывода. MERA защищает мультимодальные данные с помощью водяных знаков и лицензирования.

Фича № 10: Нейроинтерфейсы как новый пользовательский ввод

На одной из самых концептуальных сессий Михаил Лебедев (МГУ) предложил смотреть на ИИ не как на самостоятельную систему, а как на технологический мост между мозгом и внешним миром. Сегодня мы взаимодействуем с ИИ через клавиатуру, голос или API, а будущее обещает прямой интерфейс — через электрическую активность нейронов.

Доклад начал с исторического контекста — от первых экспериментов Эдварда Эверса до Neuralink. 

Главный акцент был на смене парадигмы: мысль, движение и эмоции задаются распределёнными сетями, которые предстоит научиться декодировать
Главный акцент был на смене парадигмы: мысль, движение и эмоции задаются распределёнными сетями, которые предстоит научиться декодировать

Отсюда рождаются три технологических направления:

  • чтение — распознавание намерений, ощущений, команд по электрической активности мозга;

  • запись — адресная стимуляция, корректирующая состояние или запускающая действие;

  • посредничество — интеграция с ИИ, который переводит нейросигналы в понятные интерфейсы и обратно.

Основной вызов не со стороны алгоритмов, а со стороны биологии — импланты должны быть безопасными, стабильными и долговечными. Проблемы биосовместимости, отторжения и деградации электродов пока ограничивают масштаб внедрения. Здесь ИИ помогает реконструировать сигналы щадящими методами, фильтровать шум и предсказывать намерения, а в перспективе — генерировать стимулы, способные восстанавливать утраченные функции.

Самая смелая идея сессии — соединение человека или животного с большой языковой моделью 
Самая смелая идея сессии — соединение человека или животного с большой языковой моделью 

Нейроинтерфейс может стать дополнительным когнитивным слоем: облегчить коммуникацию, дать доступ к знаниям, помочь людям с нарушениями речи или моторики.

Вместе с перспективами растёт и зона ответственности: приватность мыслей, безопасность нейроданных, этика стимулирующих протоколов, нормативное регулирование. Технологически мы приближаемся к тому, чтобы «подключить мозг к Сети», и общество должно успевать к этому готовиться. 

Итоги AIJ Deep Dive: куда движется разработка ИИ

AIJ Deep Dive ясно показал: развитие ИИ уже перестало быть линейным — оно ускоряется, причём по всем направлениям сразу. Универсальные агенты, мультимодальные модели, генерация кода и видео, новые архитектуры вроде MoE, нейроинтерфейсы — это инструменты будущего, которые пишут уже сейчас.

Трек AIJ Deep Dive собрал специалистов, которые не просто наблюдают за эволюцией технологий, а формируют её. Многие решения, ещё год назад выглядевшие экспериментами, становятся базовыми слоями будущей ИИ-инфраструктуры. Инструменты вроде GigaCode, GigaAgent и Kandinsky-5 превращают рутину в полуавтономные процессы, а новые подходы в виде генерации действий и видеосимуляций открывают горизонты для робототехники и игр. 

Меняется сам процесс разработки: ИИ-инструменты дают больше скорости, качества и автономии, высвобождая время разработчиков для создания систем, способных учиться, взаимодействовать и принимать решения на новом уровне.

А где вы видите наибольший потенциал генеративных моделей и какие подходы к интеграции универсальных агентов и мультимодальных моделей вы считаете наиболее перспективными для рабочих проектов?

Комментарии (1)


  1. Bardakan
    27.11.2025 12:24

    я захожу на сайт мероприятия из этой статьи. Все доклады уже прошли и есть видеозапись.
    Почему когда я хочу узнать краткое содержание доклада, вылазит окно гигачата и мне нужно еще ждать, пока он соизволит что-то там вывести на экран? Я конечно понимаю, что цель мероприятия - прорекламировать вашу нейросеть, но не до такой же степени, чтобы пихать ее туда, где она вообще не нужна