Привет, Хабр! Меня зовут Олег, я работаю в менеджменте AI-продуктов и на днях посетил AIJ Deep Dive — специальный очный трек главной конференции по искусственному интеллекту в России AI Journey. Этот трек рассчитан на всех, кто пишет будущее ИИ: разработчиков, исследователей и дата-сайентистов. Здесь были десятки тематических сессий по разным направлениям, возможность задать вопросы разработчикам решений на R&D-выставке, узнать последние AI-тренды рынка, инсайты и «внутрянку» новинок Сбера и даже увидеть их робота.
Много говорили о том, как меняется роль разработчиков в эпоху ИИ-агентов. Мы внутри индустрии уже чувствуем это: модели чаще берут на себя рутину, смещают зоны ответственности команд и заставляют переосмысливать процессы. К примеру, HR-агент оценит резюме по релевантности искомой вакансии, а AI-помощник сервисного инженера выдаст суммаризацию из документации, чем очень поможет работнику.
Анонсы продуктов, впечатления, кейсы и самые интересные фичи с площадки — под катом.
Атмосфера, нетворкинг и выставка
В программе AIJ Deep Dive — десятки сессий, от фундаментальных исследований в области ИИ до прикладных кейсов и бизнес-применений. Разработчики выкатывали свежие релизы, эксперты спорили о будущих архитектурах, а коридоры стали единым бесконечным нетворкинг-хабом.
Меня зацепил стенд GigaEvo. Команда показала, как LLM и эволюционные алгоритмы подбирают оптимальное решение задачи — при условии, что есть метрика, по которой можно измерить результат. Дальше ограничения исчезают и можно решать что угодно, от промышленной аналитики до задачки «А и Б сидели на трубе». Система способна сама предложить алгоритм, который эффективнее разбирает финансовую отчётность и вытаскивает нужные показатели.

На другом стенде пообщался на тему удаления предвзятости в NLP c Selective Debiasing. Представим, что мы выбираем кандидата на работу — при отборе важны опыт и навыки, но модель может начать полагаться на нерелевантные признаки вроде пола или возраста. В итоге для одной группы точность 90 %, для другой — 30 %. Бизнес теряет специалистов, интересные кандидаты могут остаться без работы, а ещё всплывают юридические риски.
Классические методы удаления предвзятости учат модель игнорировать такие признаки, но часто падает общее качество — происходит перебалансировка данных. Команда предложила выборочный подход: выявлять решения, где модель особенно опирается на лишние признаки, и применять удаление предвзятости только к ним. Остальное остаётся нетронутым — и метрики сохраняются. Метод применим в разных областях, в том числе в медицине и промышленности.
У стенда GigaAgent задержался подольше. Это open source агент-оркестратор, который позволяет работать с большим количеством субагентов и инструментов, включая MCP-серверы и интеграции с российскими сервисами и платформами. Главная его киллер-фича, на мой взгляд, — сочетание множества функций и исполнения небольших кусочков Python-кода в изолированной REPL-среде для решения задачи пользователя: к примеру, анализ данных в CSV, работа с тяжёлыми Excel-таблицами на десятки тысяч строк.
Для корпоративных сценариев есть встроенная база знаний, а ещё — субагент, который генерирует простые лендинги (HTML-страницы), если нужен быстрый одностраничный сайт. А ещё субагенты для генерации подкастов, презентаций и даже мемов (разработчики, вы прекрасны). В итоге инструмент действительно универсальный и полезен в самых разных задачах: на демо GigaAgent нашел датасет с недвижимостью Москвы, скачал файл, проанализировал тысячи объявлений о продаже квартир, прямо в интерфейсе GigaAgent собрал предиктивную ML-модель и там же посчитал рыночную цену описанной мною квартиры по моим вводным (адрес, метраж, этаж) — без ручного парсинга данных и лишних хлопот.
Рядом показывали GigaCode — инструмент, который анализирует код, чинит ошибки, дописывает документацию и даже определяет, писал его человек или ИИ.

Архитектура — ансамбль моделей: open source, кастомные, специализированные. Задачу можно разложить на подзадачи, и каждая уходит модели, которая справится лучше. Команда постоянно обновляет стек, добавляя новые модели, если те выигрывают по метрикам.

На выставке встретился и нашумевший уже во всех новостных лентах человекоподобный робот с ИИ на базе ГигаЧата — Грин. И если вспомнить, что ещё пять лет назад рынок ассоциировался с роликами Boston Dynamics и неуклюжими прототипами, контраст впечатляет. Сегодня это уже осмысленный продуктовый класс с понятными сценариями и UX, который всё ближе к тому, что раньше видели только в фильмах вроде «Я, робот». Грин умеет разговаривать и понимать голосовые команды благодаря функции голосового общения ГигаЧат, а также выполнять некоторые задачи, обращаться с предметами. Также робота снабдили набором «чувств» — десяток сенсоров берут на себя обработку визуальной обстановки, а инерциальные и силовые датчики следят за тем, чтобы он держал равновесие и выполнял движения с правильной точностью.
На выставке было и много других интересных стендов: процесс создания музыки с нейросетью SymFormer, изображений и видео с Kandinsky, 3D-моделей с Kandinsky 3D, возможность общаться с ГигаЧат голосом, как в разговоре с человеком — кстати, эта фича уже доступна всем пользователям нейросети. Такие демо полезны и для рабочих сценариев, и для общего понимания того, как быстро развиваются инструменты генеративного ИИ и какие возможности они открывают для продуктов.
10 фич AIJ Deep Dive, или Что изменит AI-разработку в 2026 году
Специальный трек длился два дня: первый день на AIJ Deep Dive был про бизнес-кейсы, второй, 21 ноября, — про науку. Охватить все доклады в рамках одной статьи невозможно, но я выбрал 10 самых интересных, ведь и сама AI Journey в этом году проводится в десятый раз.
Фича № 1: Мультиагентная RPA: автоматизация, которая сама разбирается в процессе
20 ноября Кирилл Меньшов (Сбер) и Алексей Евтушенко (СберСервис) рассказали о Giga Agentic RPA — гибриде роботизированных сценариев и мультиагентных систем. Это платформа, где процессы выполняют не фиксированные «макросы», а автономные агенты на базе GigaChat, способные анализировать вводные, корректировать стратегию и взаимодействовать друг с другом. Главная мысль состоит в том, что не нужно переписывать всю IT-архитектуру, чтобы перейти к автономии. Giga Agentic RPA интегрируется в существующие контуры и постепенно вытесняет ручные и полуручные операции. Мультиагентные системы лучше справляются со «сложными» процессами — теми, что никогда не доходили до RPA из-за вариативности.

Фича № 2: Агентный режим в GigaCode 3.0 ускоряет работу разработчиков более чем в 2 раза
В тот же день Рафаел Тонаканян на сессии «AI: от промптов к продуктам, презентация DevTools» рассказал, как ускорять разработку за счет автоматизации, и показал, как GigaCode 3.0 стал полноценным соисполнителем. Ошибки в ранних версиях научили команду работать над прозрачностью: можно видеть источник данных, промпт и шаги генерации, что повышает доверие разработчиков. Интеграции с AI Factory, облаком и IDE позволяют выбирать модель под задачу, а не наугад.
В релизе 3.0 заметен интересный сдвиг — инструменты начали работать не только с кодом, но и с контекстом вокруг него. Появился агентный режим — система способна анализировать контекст, предлагать решения, писать и править код, проводить рефакторинг, искать информацию в документации и интернете. Появилась библиотека промптов и веб-поиск: повторяющиеся задачи вроде unit-тестов, миграций или описания API можно решать быстро, в нужном стиле и без ручной правки.

И, конечно, человеческий контроль никто не отменял — ИИ ускоряет процесс, но финальные решения остаются за инженером.
Фича № 3: Kandinsky-5 научился рисовать и снимать видео по-русски
Kandinsky-5 — один из самых масштабных анонсов AI Journey. Новая линейка моделей генерации изображений и видео понимает русский язык, культурный контекст и бытовые реалии. На их фоне большинство зарубежных моделей заметно «теряются» при работе с русской семантикой.

В основе релиза были две ключевые модели: Image Lite с 6 млрд параметров генерирует и редактирует картинки, Video Lite имеет всего 2 млрд параметров, но при этом в ряде метрик обгоняет более крупные open source аналоги и работает на массовых видеокартах.

Под капотом — диффузионные трансформеры и автокодировщики K.VAE 2D/3D, которые ускоряют инференс и обучение.
Модели уже живут в продуктах: «Домклик» тестирует интерьер и примерку мебели, «Самокат» генерирует анимации товаров. В обоих кейсах зафиксировали рост вовлечённости и конверсии.
Фича № 4: Mixture of Experts в GigaChat 3.0 — самый масштабный анонс линейки моделей
На AIJ Deep Dive технический директор GigaChat Фёдор Минькин рассказал о крупнейшем анонсе линейки моделей GigaChat 3.0. Сейчас GigaChat 2.0 возглавляет рейтинг русскоязычных моделей, созданных в России, но команда уже готовит масштабный апгрейд.
На AI Journey Сбер открыл доступ к весам своих флагманских разработок:
GigaChat Lightning — компактная модель с 1,8 млрд активных параметров, которую можно запускать локально, например на ноутбуках. Поддерживает контекст до 256 тысяч токенов и по метрикам вплотную подходит к лидерам среди открытых моделей своего класса.
GigaChat Ultra-Preview — самая крупная модель, обученная на русском языке, с 36 млрд активных параметров и контекстом до 131 тысячи токенов. Модель еще дообучается, но уже показывает результаты выше, чем у зарубежных аналогов по ряду метрик. Модель выпускается под открытой лицензией, а значит, ее можно дообучать локально, например в закрытых корпоративных средах.
Обе модели обучены с нуля без инициализации чужими весами. А ключевая их фича — архитектура Mixture of Experts (MoE). Вместо использования всех весов на каждом слое модель выбирает подмножество экспертов и весов (как на иллюстрации ниже), что позволяет делать очень большие, но при этом экономные и быстрые модели. Ускоряется и обучение: при равных затратах качество выше, чем у конкурентов.

При этом токенизатору GigaChat требуется на 37 % меньше токенов, чтобы ответить и прочитать ваши запросы, чем Qwen и DeepSeek. Стоит понимать, что модели, созданные для русского языка в России, для русскоязычной аудитории сильно эффективнее.

Также был открыт доступ к модели GigaAM (Acoustic Module) — претрейниренная на огромном массиве речевых данных, её применяют для распознавания и синтеза речи на русском. Модель удерживает первое место по качеству распознавания речи среди открытых моделей на русском, побеждает даже некоторые коммерческие движки распознавания речи. GigaAM уже используется в GigaChat Audio для работы с видео, аудио и звонками.
Этот анонс действительно можно назвать самым масштабным в истории страны — в open source проект также вошли модели Kandinsky 5.0 (Video Pro, Video Lite и Image Lite) и автоэнкодеры K-VAE 1.0.
Фича № 5: Будущее за универсальными агентами, способными разбить задачу по инструментам и решить её, совершив множество шагов в диалоге с пользователем
Особенно впечатлился докладом Константина Крестникова «GigaAgent = REPL + ReAct» — эксперт рассказал о трендах AI-агентов и переходе к универсальным решениям. Сейчас агенты делятся на два типа: узкоспециализированные, например для презентаций или исследований, и универсальные, способные решать сразу несколько задач — обрабатывать файлы, искать информацию и выполнять цепочки действий. Константин предполагает, что такие агенты в будущем станут единым интерфейсом пользователя для взаимодействия с миром.
Несмотря на то, что специализированные агенты точнее в своей задаче, пользователи предпочитают универсальных: один агент заменяет десяток спецагентов и хранит память о прошлых взаимодействиях. Константин упомянул недавнее исследование, в котором оказалось, что 92 % компаний Fortune 500 так или иначе покупают какие-то продукты OpenAI. Пользователи копируют файлы на личные компьютеры, просят ИИ просматривать письма. И так информация может утекать за пределы контура компании.

С учётом этого тренда Сбер создал GigaAgent (open source, MIT), который можно развернуть в своём корпоративном контуре. Агент ведёт диалоги, может автономно совершать по 30–50 шагов, чтобы решить задачу пользователя, работает с файлами и включает субагентов, от генерации презентаций до мемов. Сейчас его можно скачать в Git-версии и развернуть в своём контуре. С чатовым агентом пользователь может вести диалоги, отправлять задачи и большие файлы.
В своём докладе Константин показал несколько примеров того, как агент может работать с большими табличными файлами клиента, извлекать из них информацию, обрабатывать ее с помощью MCP-серверов и передавать результаты обработки в популярную CRM-систему.

Фича № 6: Action Models — когда ИИ видит, понимает и действует
Владислав Куренков из института AIRI рассказал об Action Models: подходах и принципах построения. Сегодня активно развиваются end-to-end Vision-Language-Action (VLA) модели — мультимодальные базовые модели, объединяющие восприятие, язык и действия для управления роботами и другими системами.

Обучение таких моделей требует огромных данных: если пару лет назад хватало тысяч часов, сейчас передовые модели тренируются на 200–300 тысячах часов записей поведения роботов.
Количество VLA-моделей растёт: за прошлый год появилось около 90 новых. При этом open source модели нередко нестабильны к небольшим изменениям. Для объективной оценки была создана Robo-арена, где модели тестируются на реальных роботах в лабораториях. Появились и более доступные альтернативы — симуляторы или недорогие роботы на базе LiRobots, что сильно снижает порог входа для исследований.
Фича № 7: Проблема с синтаксисом решаема
Дмитрий Бабаев рассказал, как обучают LLM для работы с кодом в GigaCode. Продукты Сбера и СберТеха для разработчиков — GigaCode, GitVerse и GigaIDE — теперь работают не просто как IDE, а как полноценные AI-помощники, а команда Дмитрия также создаёт агентов для софт-инжиниринга.
Около месяца назад выпустили Inline-модель, которая подсказывает код прямо во время его написания. Это как привычная подсказка IDE, только на базе LLM и с поддержкой AI, работает быстрее и точнее. В ближайшее время появится режим NextEdit Prediction, позволяющий перескакивать к местам редактирования без лишних шагов.
Модель построена по архитектуре MoE: 30 млрд параметров, на инференсе активны 3 млрд, что делает её быстрой в использовании. Она обучена с нуля на 5 трлн токенов и показывает отличные результаты в бенчмарках.

Чаще всего бенчмарки для LLM делают только для Python. У Дмитрия была гипотеза, что в других языках всё может быть не очень хорошо, особенно в плане Reasoning’а. Эта гипотеза подтвердилась, и поэтому команда решила сделать модель, которая бы видела Reasoning на разных языках.
Фича № 8: Видеогенерация превращается в «Матрицу» для игр и роботов
Ещё один доклад, который реально меня впечатлил, — рассказ Александра Анохина о том, как видеогенерационные модели превращаются в полноценные симуляторы мира.

Управление стало интерактивным: текстовые промпты заменяются действиями пользователя — клавиатурой и мышью. Да, иногда появляются артефакты, но в целом такой подход реально ускоряет прототипирование и тестирование.
Сейчас есть два основных подхода:
Action Control — модель реагирует на команды: движение, прыжки, взаимодействие с объектами. Это удобно для игровых симуляций и управления роботами, но модель пока не создаёт полностью новые локации, она интерполирует увиденное.
Camera Control — управление камерой напрямую с трансляцией привычных действий игрока. Позволяет быстро адаптировать симуляцию под разные сценарии, хотя при резких движениях возможны артефакты и ограничение FPS.

Самое интересное — применение в робототехнике. Робот помещается в динамически создаваемую видеосреду, которая реагирует на его действия. Дальше формируется цикл обучения: VLM-агент генерирует действия, видеомодель визуализирует их, внешняя VLM-система оценивает результат и ставит следующую задачу.
По сути, это замкнутый цикл, где ИИ обучает ИИ в искусственно созданной среде. «Матрица», в общем-то. Но для продукта это огромный шаг: мы получаем рабочую генеративную платформу для тестирования автономных агентов, создания контента и прототипирования без дорогих физических симуляций.
Фича № 9: MERA учится тестировать не только текст
Выступление Алёны Феногеновой напомнило, что гонка ИИ — это не только архитектуры и параметры, но и прозрачная оценка. За последний год MERA выросла из текстового набора тестов в полноценную экосистему: появились ветки MERA CODE, SWE MERA, MERA Industrial и MERA Multi, где лидеры соревнуются в генерации кода, отраслевой экспертизе и работе с мультимедийными данными. На лидербордах уже более 200 моделей, а приватных сабмитов — свыше 4000.
Особое внимание — MERA Multi, она тестирует мультимодальные модели, которые умеют принимать на вход не только текст, но и изображения, аудио и видео. Пока русскоязычных тестов для аудио и видео немного, поэтому команда приглашает сообщество и индустрию к коллаборации.

Для оценки создана таксономия навыков: логика, структурирование, интерпретация, восприятие изображений, код и т. д. Разработчикам наряду с тестами также доступна модель-судья, которая позволяет оценивать выход моделей, даже если они не соблюдали инструкцию и формат вывода. MERA защищает мультимодальные данные с помощью водяных знаков и лицензирования.
Фича № 10: Нейроинтерфейсы как новый пользовательский ввод
На одной из самых концептуальных сессий Михаил Лебедев (МГУ) предложил смотреть на ИИ не как на самостоятельную систему, а как на технологический мост между мозгом и внешним миром. Сегодня мы взаимодействуем с ИИ через клавиатуру, голос или API, а будущее обещает прямой интерфейс — через электрическую активность нейронов.
Доклад начал с исторического контекста — от первых экспериментов Эдварда Эверса до Neuralink.

Отсюда рождаются три технологических направления:
чтение — распознавание намерений, ощущений, команд по электрической активности мозга;
запись — адресная стимуляция, корректирующая состояние или запускающая действие;
посредничество — интеграция с ИИ, который переводит нейросигналы в понятные интерфейсы и обратно.
Основной вызов не со стороны алгоритмов, а со стороны биологии — импланты должны быть безопасными, стабильными и долговечными. Проблемы биосовместимости, отторжения и деградации электродов пока ограничивают масштаб внедрения. Здесь ИИ помогает реконструировать сигналы щадящими методами, фильтровать шум и предсказывать намерения, а в перспективе — генерировать стимулы, способные восстанавливать утраченные функции.
Нейроинтерфейс может стать дополнительным когнитивным слоем: облегчить коммуникацию, дать доступ к знаниям, помочь людям с нарушениями речи или моторики.
Вместе с перспективами растёт и зона ответственности: приватность мыслей, безопасность нейроданных, этика стимулирующих протоколов, нормативное регулирование. Технологически мы приближаемся к тому, чтобы «подключить мозг к Сети», и общество должно успевать к этому готовиться.
Итоги AIJ Deep Dive: куда движется разработка ИИ
AIJ Deep Dive ясно показал: развитие ИИ уже перестало быть линейным — оно ускоряется, причём по всем направлениям сразу. Универсальные агенты, мультимодальные модели, генерация кода и видео, новые архитектуры вроде MoE, нейроинтерфейсы — это инструменты будущего, которые пишут уже сейчас.
Трек AIJ Deep Dive собрал специалистов, которые не просто наблюдают за эволюцией технологий, а формируют её. Многие решения, ещё год назад выглядевшие экспериментами, становятся базовыми слоями будущей ИИ-инфраструктуры. Инструменты вроде GigaCode, GigaAgent и Kandinsky-5 превращают рутину в полуавтономные процессы, а новые подходы в виде генерации действий и видеосимуляций открывают горизонты для робототехники и игр.
Меняется сам процесс разработки: ИИ-инструменты дают больше скорости, качества и автономии, высвобождая время разработчиков для создания систем, способных учиться, взаимодействовать и принимать решения на новом уровне.
А где вы видите наибольший потенциал генеративных моделей и какие подходы к интеграции универсальных агентов и мультимодальных моделей вы считаете наиболее перспективными для рабочих проектов?
Привет, Хабр! Меня зовут Олег, я работаю в менеджменте AI-продуктов и на днях посетил AIJ Deep Dive — специальный очный трек главной конференции по искусственному интеллекту в России AI Journey. Этот трек рассчитан на всех, кто пишет будущее ИИ: разработчиков, исследователей и дата-сайентистов. Здесь были десятки тематических сессий по разным направлениям, возможность задать вопросы разработчикам решений на R&D-выставке, узнать последние AI-тренды рынка, инсайты и «внутрянку» новинок Сбера и даже увидеть их робота.
Много говорили о том, как меняется роль разработчиков в эпоху ИИ-агентов. Мы внутри индустрии уже чувствуем это: модели чаще берут на себя рутину, смещают зоны ответственности команд и заставляют переосмысливать процессы. К примеру, HR-агент оценит резюме по релевантности искомой вакансии, а AI-помощник сервисного инженера выдаст суммаризацию из документации, чем очень поможет работнику.
Анонсы продуктов, впечатления, кейсы и самые интересные фичи с площадки — под катом.
Атмосфера, нетворкинг и выставка
В программе AIJ Deep Dive — десятки сессий, от фундаментальных исследований в области ИИ до прикладных кейсов и бизнес-применений. Разработчики выкатывали свежие релизы, эксперты спорили о будущих архитектурах, а коридоры стали единым бесконечным нетворкинг-хабом.
Меня зацепил стенд GigaEvo. Команда показала, как LLM и эволюционные алгоритмы подбирают оптимальное решение задачи — при условии, что есть метрика, по которой можно измерить результат. Дальше ограничения исчезают и можно решать что угодно, от промышленной аналитики до задачки «А и Б сидели на трубе». Система способна сама предложить алгоритм, который эффективнее разбирает финансовую отчётность и вытаскивает нужные показатели.

На другом стенде пообщался на тему удаления предвзятости в NLP c Selective Debiasing. Представим, что мы выбираем кандидата на работу — при отборе важны опыт и навыки, но модель может начать полагаться на нерелевантные признаки вроде пола или возраста. В итоге для одной группы точность 90 %, для другой — 30 %. Бизнес теряет специалистов, интересные кандидаты могут остаться без работы, а ещё всплывают юридические риски.
Классические методы удаления предвзятости учат модель игнорировать такие признаки, но часто падает общее качество — происходит перебалансировка данных. Команда предложила выборочный подход: выявлять решения, где модель особенно опирается на лишние признаки, и применять удаление предвзятости только к ним. Остальное остаётся нетронутым — и метрики сохраняются. Метод применим в разных областях, в том числе в медицине и промышленности.
У стенда GigaAgent задержался подольше. Это open source агент-оркестратор, который позволяет работать с большим количеством субагентов и инструментов, включая MCP-серверы и интеграции с российскими сервисами и платформами. Главная его киллер-фича, на мой взгляд, — сочетание множества функций и исполнения небольших кусочков Python-кода в изолированной REPL-среде для решения задачи пользователя: к примеру, анализ данных в CSV, работа с тяжёлыми Excel-таблицами на десятки тысяч строк.
Для корпоративных сценариев есть встроенная база знаний, а ещё — субагент, который генерирует простые лендинги (HTML-страницы), если нужен быстрый одностраничный сайт. А ещё субагенты для генерации подкастов, презентаций и даже мемов (разработчики, вы прекрасны). В итоге инструмент действительно универсальный и полезен в самых разных задачах: на демо GigaAgent нашел датасет с недвижимостью Москвы, скачал файл, проанализировал тысячи объявлений о продаже квартир, прямо в интерфейсе GigaAgent собрал предиктивную ML-модель и там же посчитал рыночную цену описанной мною квартиры по моим вводным (адрес, метраж, этаж) — без ручного парсинга данных и лишних хлопот.
Рядом показывали GigaCode — инструмент, который анализирует код, чинит ошибки, дописывает документацию и даже определяет, писал его человек или ИИ.

Архитектура — ансамбль моделей: open source, кастомные, специализированные. Задачу можно разложить на подзадачи, и каждая уходит модели, которая справится лучше. Команда постоянно обновляет стек, добавляя новые модели, если те выигрывают по метрикам.

На выставке встретился и нашумевший уже во всех новостных лентах человекоподобный робот с ИИ на базе ГигаЧата — Грин. И если вспомнить, что ещё пять лет назад рынок ассоциировался с роликами Boston Dynamics и неуклюжими прототипами, контраст впечатляет. Сегодня это уже осмысленный продуктовый класс с понятными сценариями и UX, который всё ближе к тому, что раньше видели только в фильмах вроде «Я, робот». Грин умеет разговаривать и понимать голосовые команды благодаря функции голосового общения ГигаЧат, а также выполнять некоторые задачи, обращаться с предметами. Также робота снабдили набором «чувств» — десяток сенсоров берут на себя обработку визуальной обстановки, а инерциальные и силовые датчики следят за тем, чтобы он держал равновесие и выполнял движения с правильной точностью.
На выставке было и много других интересных стендов: процесс создания музыки с нейросетью SymFormer, изображений и видео с Kandinsky, 3D-моделей с Kandinsky 3D, возможность общаться с ГигаЧат голосом, как в разговоре с человеком — кстати, эта фича уже доступна всем пользователям нейросети. Такие демо полезны и для рабочих сценариев, и для общего понимания того, как быстро развиваются инструменты генеративного ИИ и какие возможности они открывают для продуктов.
10 фич AIJ Deep Dive, или Что изменит AI-разработку в 2026 году
Специальный трек длился два дня: первый день на AIJ Deep Dive был про бизнес-кейсы, второй, 21 ноября, — про науку. Охватить все доклады в рамках одной статьи невозможно, но я выбрал 10 самых интересных, ведь и сама AI Journey в этом году проводится в десятый раз.
Фича № 1: Мультиагентная RPA: автоматизация, которая сама разбирается в процессе
20 ноября Кирилл Меньшов (Сбер) и Алексей Евтушенко (СберСервис) рассказали о Giga Agentic RPA — гибриде роботизированных сценариев и мультиагентных систем. Это платформа, где процессы выполняют не фиксированные «макросы», а автономные агенты на базе GigaChat, способные анализировать вводные, корректировать стратегию и взаимодействовать друг с другом. Главная мысль состоит в том, что не нужно переписывать всю IT-архитектуру, чтобы перейти к автономии. Giga Agentic RPA интегрируется в существующие контуры и постепенно вытесняет ручные и полуручные операции. Мультиагентные системы лучше справляются со «сложными» процессами — теми, что никогда не доходили до RPA из-за вариативности.

Фича № 2: Агентный режим в GigaCode 3.0 ускоряет работу разработчиков более чем в 2 раза
В тот же день Рафаел Тонаканян на сессии «AI: от промптов к продуктам, презентация DevTools» рассказал, как ускорять разработку за счет автоматизации, и показал, как GigaCode 3.0 стал полноценным соисполнителем. Ошибки в ранних версиях научили команду работать над прозрачностью: можно видеть источник данных, промпт и шаги генерации, что повышает доверие разработчиков. Интеграции с AI Factory, облаком и IDE позволяют выбирать модель под задачу, а не наугад.
В релизе 3.0 заметен интересный сдвиг — инструменты начали работать не только с кодом, но и с контекстом вокруг него. Появился агентный режим — система способна анализировать контекст, предлагать решения, писать и править код, проводить рефакторинг, искать информацию в документации и интернете. Появилась библиотека промптов и веб-поиск: повторяющиеся задачи вроде unit-тестов, миграций или описания API можно решать быстро, в нужном стиле и без ручной правки.

И, конечно, человеческий контроль никто не отменял — ИИ ускоряет процесс, но финальные решения остаются за инженером.
Фича № 3: Kandinsky-5 научился рисовать и снимать видео по-русски
Kandinsky-5 — один из самых масштабных анонсов AI Journey. Новая линейка моделей генерации изображений и видео понимает русский язык, культурный контекст и бытовые реалии. На их фоне большинство зарубежных моделей заметно «теряются» при работе с русской семантикой.

В основе релиза были две ключевые модели: Image Lite с 6 млрд параметров генерирует и редактирует картинки, Video Lite имеет всего 2 млрд параметров, но при этом в ряде метрик обгоняет более крупные open source аналоги и работает на массовых видеокартах.

Под капотом — диффузионные трансформеры и автокодировщики K.VAE 2D/3D, которые ускоряют инференс и обучение.
Модели уже живут в продуктах: «Домклик» тестирует интерьер и примерку мебели, «Самокат» генерирует анимации товаров. В обоих кейсах зафиксировали рост вовлечённости и конверсии.
Фича № 4: Mixture of Experts в GigaChat 3.0 — самый масштабный анонс линейки моделей
На AIJ Deep Dive технический директор GigaChat Фёдор Минькин рассказал о крупнейшем анонсе линейки моделей GigaChat 3.0. Сейчас GigaChat 2.0 возглавляет рейтинг русскоязычных моделей, созданных в России, но команда уже готовит масштабный апгрейд.
На AI Journey Сбер открыл доступ к весам своих флагманских разработок:
GigaChat Lightning — компактная модель с 1,8 млрд активных параметров, которую можно запускать локально, например на ноутбуках. Поддерживает контекст до 256 тысяч токенов и по метрикам вплотную подходит к лидерам среди открытых моделей своего класса.
GigaChat Ultra-Preview — самая крупная модель, обученная на русском языке, с 36 млрд активных параметров и контекстом до 131 тысячи токенов. Модель еще дообучается, но уже показывает результаты выше, чем у зарубежных аналогов по ряду метрик. Модель выпускается под открытой лицензией, а значит, ее можно дообучать локально, например в закрытых корпоративных средах.
Обе модели обучены с нуля без инициализации чужими весами. А ключевая их фича — архитектура Mixture of Experts (MoE). Вместо использования всех весов на каждом слое модель выбирает подмножество экспертов и весов (как на иллюстрации ниже), что позволяет делать очень большие, но при этом экономные и быстрые модели. Ускоряется и обучение: при равных затратах качество выше, чем у конкурентов.

При этом токенизатору GigaChat требуется на 37 % меньше токенов, чтобы ответить и прочитать ваши запросы, чем Qwen и DeepSeek. Стоит понимать, что модели, созданные для русского языка в России, для русскоязычной аудитории сильно эффективнее.

Также был открыт доступ к модели GigaAM (Acoustic Module) — претрейниренная на огромном массиве речевых данных, её применяют для распознавания и синтеза речи на русском. Модель удерживает первое место по качеству распознавания речи среди открытых моделей на русском, побеждает даже некоторые коммерческие движки распознавания речи. GigaAM уже используется в GigaChat Audio для работы с видео, аудио и звонками.
Этот анонс действительно можно назвать самым масштабным в истории страны — в open source проект также вошли модели Kandinsky 5.0 (Video Pro, Video Lite и Image Lite) и автоэнкодеры K-VAE 1.0.
Фича № 5: Будущее за универсальными агентами, способными разбить задачу по инструментам и решить её, совершив множество шагов в диалоге с пользователем
Особенно впечатлился докладом Константина Крестникова «GigaAgent = REPL + ReAct» — эксперт рассказал о трендах AI-агентов и переходе к универсальным решениям. Сейчас агенты делятся на два типа: узкоспециализированные, например для презентаций или исследований, и универсальные, способные решать сразу несколько задач — обрабатывать файлы, искать информацию и выполнять цепочки действий. Константин предполагает, что такие агенты в будущем станут единым интерфейсом пользователя для взаимодействия с миром.
Несмотря на то, что специализированные агенты точнее в своей задаче, пользователи предпочитают универсальных: один агент заменяет десяток спецагентов и хранит память о прошлых взаимодействиях. Константин упомянул недавнее исследование, в котором оказалось, что 92 % компаний Fortune 500 так или иначе покупают какие-то продукты OpenAI. Пользователи копируют файлы на личные компьютеры, просят ИИ просматривать письма. И так информация может утекать за пределы контура компании.

С учётом этого тренда Сбер создал GigaAgent (open source, MIT), который можно развернуть в своём корпоративном контуре. Агент ведёт диалоги, может автономно совершать по 30–50 шагов, чтобы решить задачу пользователя, работает с файлами и включает субагентов, от генерации презентаций до мемов. Сейчас его можно скачать в Git-версии и развернуть в своём контуре. С чатовым агентом пользователь может вести диалоги, отправлять задачи и большие файлы.
В своём докладе Константин показал несколько примеров того, как агент может работать с большими табличными файлами клиента, извлекать из них информацию, обрабатывать ее с помощью MCP-серверов и передавать результаты обработки в популярную CRM-систему.

Фича № 6: Action Models — когда ИИ видит, понимает и действует
Владислав Куренков из института AIRI рассказал об Action Models: подходах и принципах построения. Сегодня активно развиваются end-to-end Vision-Language-Action (VLA) модели — мультимодальные базовые модели, объединяющие восприятие, язык и действия для управления роботами и другими системами.

Обучение таких моделей требует огромных данных: если пару лет назад хватало тысяч часов, сейчас передовые модели тренируются на 200–300 тысячах часов записей поведения роботов.
Количество VLA-моделей растёт: за прошлый год появилось около 90 новых. При этом open source модели нередко нестабильны к небольшим изменениям. Для объективной оценки была создана Robo-арена, где модели тестируются на реальных роботах в лабораториях. Появились и более доступные альтернативы — симуляторы или недорогие роботы на базе LiRobots, что сильно снижает порог входа для исследований.
Фича № 7: Проблема с синтаксисом решаема
Дмитрий Бабаев рассказал, как обучают LLM для работы с кодом в GigaCode. Продукты Сбера и СберТеха для разработчиков — GigaCode, GitVerse и GigaIDE — теперь работают не просто как IDE, а как полноценные AI-помощники, а команда Дмитрия также создаёт агентов для софт-инжиниринга.
Около месяца назад выпустили Inline-модель, которая подсказывает код прямо во время его написания. Это как привычная подсказка IDE, только на базе LLM и с поддержкой AI, работает быстрее и точнее. В ближайшее время появится режим NextEdit Prediction, позволяющий перескакивать к местам редактирования без лишних шагов.
Модель построена по архитектуре MoE: 30 млрд параметров, на инференсе активны 3 млрд, что делает её быстрой в использовании. Она обучена с нуля на 5 трлн токенов и показывает отличные результаты в бенчмарках.

Чаще всего бенчмарки для LLM делают только для Python. У Дмитрия была гипотеза, что в других языках всё может быть не очень хорошо, особенно в плане Reasoning’а. Эта гипотеза подтвердилась, и поэтому команда решила сделать модель, которая бы видела Reasoning на разных языках.
Фича № 8: Видеогенерация превращается в «Матрицу» для игр и роботов
Ещё один доклад, который реально меня впечатлил, — рассказ Александра Анохина о том, как видеогенерационные модели превращаются в полноценные симуляторы мира.

Управление стало интерактивным: текстовые промпты заменяются действиями пользователя — клавиатурой и мышью. Да, иногда появляются артефакты, но в целом такой подход реально ускоряет прототипирование и тестирование.
Сейчас есть два основных подхода:
Action Control — модель реагирует на команды: движение, прыжки, взаимодействие с объектами. Это удобно для игровых симуляций и управления роботами, но модель пока не создаёт полностью новые локации, она интерполирует увиденное.
Camera Control — управление камерой напрямую с трансляцией привычных действий игрока. Позволяет быстро адаптировать симуляцию под разные сценарии, хотя при резких движениях возможны артефакты и ограничение FPS.

Самое интересное — применение в робототехнике. Робот помещается в динамически создаваемую видеосреду, которая реагирует на его действия. Дальше формируется цикл обучения: VLM-агент генерирует действия, видеомодель визуализирует их, внешняя VLM-система оценивает результат и ставит следующую задачу.
По сути, это замкнутый цикл, где ИИ обучает ИИ в искусственно созданной среде. «Матрица», в общем-то. Но для продукта это огромный шаг: мы получаем рабочую генеративную платформу для тестирования автономных агентов, создания контента и прототипирования без дорогих физических симуляций.
Фича № 9: MERA учится тестировать не только текст
Выступление Алёны Феногеновой напомнило, что гонка ИИ — это не только архитектуры и параметры, но и прозрачная оценка. За последний год MERA выросла из текстового набора тестов в полноценную экосистему: появились ветки MERA CODE, SWE MERA, MERA Industrial и MERA Multi, где лидеры соревнуются в генерации кода, отраслевой экспертизе и работе с мультимедийными данными. На лидербордах уже более 200 моделей, а приватных сабмитов — свыше 4000.
Особое внимание — MERA Multi, она тестирует мультимодальные модели, которые умеют принимать на вход не только текст, но и изображения, аудио и видео. Пока русскоязычных тестов для аудио и видео немного, поэтому команда приглашает сообщество и индустрию к коллаборации.

Для оценки создана таксономия навыков: логика, структурирование, интерпретация, восприятие изображений, код и т. д. Разработчикам наряду с тестами также доступна модель-судья, которая позволяет оценивать выход моделей, даже если они не соблюдали инструкцию и формат вывода. MERA защищает мультимодальные данные с помощью водяных знаков и лицензирования.
Фича № 10: Нейроинтерфейсы как новый пользовательский ввод
На одной из самых концептуальных сессий Михаил Лебедев (МГУ) предложил смотреть на ИИ не как на самостоятельную систему, а как на технологический мост между мозгом и внешним миром. Сегодня мы взаимодействуем с ИИ через клавиатуру, голос или API, а будущее обещает прямой интерфейс — через электрическую активность нейронов.
Доклад начал с исторического контекста — от первых экспериментов Эдварда Эверса до Neuralink.

Отсюда рождаются три технологических направления:
чтение — распознавание намерений, ощущений, команд по электрической активности мозга;
запись — адресная стимуляция, корректирующая состояние или запускающая действие;
посредничество — интеграция с ИИ, который переводит нейросигналы в понятные интерфейсы и обратно.
Основной вызов не со стороны алгоритмов, а со стороны биологии — импланты должны быть безопасными, стабильными и долговечными. Проблемы биосовместимости, отторжения и деградации электродов пока ограничивают масштаб внедрения. Здесь ИИ помогает реконструировать сигналы щадящими методами, фильтровать шум и предсказывать намерения, а в перспективе — генерировать стимулы, способные восстанавливать утраченные функции.
Нейроинтерфейс может стать дополнительным когнитивным слоем: облегчить коммуникацию, дать доступ к знаниям, помочь людям с нарушениями речи или моторики.
Вместе с перспективами растёт и зона ответственности: приватность мыслей, безопасность нейроданных, этика стимулирующих протоколов, нормативное регулирование. Технологически мы приближаемся к тому, чтобы «подключить мозг к Сети», и общество должно успевать к этому готовиться.
Итоги AIJ Deep Dive: куда движется разработка ИИ
AIJ Deep Dive ясно показал: развитие ИИ уже перестало быть линейным — оно ускоряется, причём по всем направлениям сразу. Универсальные агенты, мультимодальные модели, генерация кода и видео, новые архитектуры вроде MoE, нейроинтерфейсы — это инструменты будущего, которые пишут уже сейчас.
Трек AIJ Deep Dive собрал специалистов, которые не просто наблюдают за эволюцией технологий, а формируют её. Многие решения, ещё год назад выглядевшие экспериментами, становятся базовыми слоями будущей ИИ-инфраструктуры. Инструменты вроде GigaCode, GigaAgent и Kandinsky-5 превращают рутину в полуавтономные процессы, а новые подходы в виде генерации действий и видеосимуляций открывают горизонты для робототехники и игр.
Меняется сам процесс разработки: ИИ-инструменты дают больше скорости, качества и автономии, высвобождая время разработчиков для создания систем, способных учиться, взаимодействовать и принимать решения на новом уровне.
А где вы видите наибольший потенциал генеративных моделей и какие подходы к интеграции универсальных агентов и мультимодальных моделей вы считаете наиболее перспективными для рабочих проектов?
Bardakan
я захожу на сайт мероприятия из этой статьи. Все доклады уже прошли и есть видеозапись.
Почему когда я хочу узнать краткое содержание доклада, вылазит окно гигачата и мне нужно еще ждать, пока он соизволит что-то там вывести на экран? Я конечно понимаю, что цель мероприятия - прорекламировать вашу нейросеть, но не до такой же степени, чтобы пихать ее туда, где она вообще не нужна