Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

В последние годы область искусственного интеллекта и машинного обучения развивается с бешеной скоростью. Но за хайпом и громкими заголовками часто теряются важные детали. Ведь основная работа не создать или обучить новую модель, а внедрить эти технологии в реальный бизнес, попутно решая проблемы на каждом этапе внедрения. Это и есть настоящая боль разработчика и бизнеса, которые необходимо закрывать. Поэтому мы не просто собираем программу из хороших докладов и воркшопов, а делаем целые треки связанных по смыслу материалов, чтобы комплексно раскрыть суть определенного подхода или проверенных практических кейсов. Строим программу AiConf Х 2025 как обучающую траекторию — стараемся дать зрителю «объёмную картинку».
Обсудим SOTA-подходы.
Посмотрим на перспективы развития этих подходов.
Разберём кейсы внедрения в продакшене, причём не только в интернет-бизнесах, но и в компаниях реального сектора.
Поймём, как собирать данные для обучения и контролировать их качество.
Заполируем каждую тему воркшопом.
Хотя мы и cоставляем программу так, чтобы материалы дополняли друг друга, всё-таки каждый доклад будет полезен и сам по себе. Но и все вместе они будут собираться в единую картину практических навыков.
Примеры кейсов на AiConf Х 2025
Мы очень ценим практические кейсы и собираем истории внедрения под каждую тему. Всей кейс проходят жёсткий фильтр. Их обязательно проверяют на предмет внедрения в продакшен. Нет никаких пет-проектов и студенческих исследований — только то, что доказало свою жизнеспособность. Это позволяет участникам конференции получить не только вдохновение, но и конкретные инструменты, которые можно применить в своей работе.
Сбор данных
Начну с секции, которая близка мне персонально. В прошлом я сам занимался разметкой данных, интерес к этой теме не угас, так что я хочу подсветить яркие материалы в этой сфере, которые буду на нашей конференции.
Доклад о том, как большие модели перехватывают всё более значительную часть человеческой работы в разметке прочитает Герман Ганус. Это будет также и теоретическая основа к мастер-классу «Человек и/или LLM в разметке данных: Практика гибридных решений 2025», где участников научат комбинировать работу нейросетей и человека.
Какие данные использовать для обучения LLM и как их правильно готовить расскажет Айнур Исрафилова. Это кейс из реальной практики по тренировке большой языковой модели GigaСhat. Рассматриваются методы отбора и балансировки pretrain-данных для GigaChat, включая инструктивную фильтрацию, синтетику на основе QA и тематическую кластеризацию. Отдельное внимание уделено обработке текстов, кода и LaTeX и как эти данные влияют на качество моделей в LLM.
Оптимизация железа
Процессоров и видеокарт для обучения моделей нужно всё больше, вся эта техника дорогая и под санкциями. И купить её быстро, даже за большие деньги — не получится. Поэтому мы искали кейсы по оптимизации использования той техники, которая уже есть. Разбирались как бизнесу справляться с дорогими и дефицитными GPU, как переезжать на более дешёвое оборудование, какие есть практики и технологии оптимизации.
Что есть интересного в этом треке:
Денис Кузнеделев из Яндекса расскажет про новый алгоритм квантизации моделей, который они разработали. Может, в точности этот алгоритм вам и не подойдёт, но знать современные идеи нужно.
Доклад про федеративное обучение. Если вдруг вам всё равно доступно большое количество низкопроизводительных устройств (условных «умных лампочек»), то можно попробовать перенести обучение на них.
История про то, какой Computer Vision можно устроить на современных камерах.
А это взгляд в будущее. Сейчас большинство из нас воспринимает железо на базе архитектуры RISC-V как экзотику, но на горизонте 5-10 лет это может измениться. Интересно разобраться, что в сообществе RISC-V уже предпринимают для поддержки машинного обучения.

Качество решений на основе LLM
Как объективно оценивать внедрённые LLM-системы, на что смотреть, чтобы понять что деньги потрачены не зря? Ведь не всегда понятно что инженеры понаделали на базе LLM, кому пишет и что отвечает какой-то чат-бот. Чтобы всё проверить нужны методики оценки качества. На AiConf 2025 будет круглый стол, посвящённые проблемам оценки качества сложных интеллектуальных систем. В конференции участвуют разработчики русскоязычного бенчмарка MERA, с ними можно будет обсудить сложности и свои решения.
Copilot-ассистенты для разработчиков
Проблема типовая — разработчики хотят программировать с использованием современных LLM-помощников, но бизнес не готов доверить чужим проприетарным облачным решениям свой код. Как выйти из ситуации? Из чего собрать собственную систему? Разберёмся как крупные компании строят собственных помощников на Open Source-компонентах, с какими вызовами сталкиваются и как их решают.
В этой секции будут три кейса.
Кейс Т-Банка, где из компонентов с открытым кодом создали ИИ-помощника.
Кейс X5, где создали text2SQL-помощника. Он строит аналитические запросы в базу данных по текстовому описанию, т.е. программирует на SQL.
Рассказ от SourceCraft про использование агентов в copilot-ассистентах.

Ещё больше воркшопов
В этом году мы особенно гордимся воркшопами. Каждый из них — это возможность не просто послушать, а «потрогать руками» инструменты, поработать с пайплайнами и задать вопросы авторам решений.
Анализ гео-данных
Как собирать, очищать и использовать обезличенные данные о перемещениях для принятия бизнес-решений. Где открыть новую торговую точку? В какой момент в точности начинаются сезонные изменения? Для ответов на такие вопросы сейчас принято покупать обезличенные гео-данные о перемещениях людей, но сходу с этими данными никто работать не умеет и ещё нужно подготовить и отработать.
Артём Каледин и Елизавета Печёнкина из МТС в своём мастер-классе «Кто хочет стать геосайентистом» покажут, как собирать геоданные в треки, искать закономерности и принимать на их основе решения.
Человеко-машинная разметка данных
Как комбинировать труд людей и LLM для быстрой и качественной разметки датасетов. Размечать данные для обучения моделей людьми дорого, долго, да ещё и надо уметь этих людей организовывать. Часть работы пора переложить на LLM, но практического опыта пока мало. Поэтому практические материалы по этой теме особенно ценны.
На воркшопе Олега Секачева из Яндекс.Крауд «Человек и/или LLM в разметке данных: Практика гибридных решений 2025» участники этот опыт получат и создадут несколько датасетов, комбинируя людей и LLM.
Безопасность LLM
Как защитить корпоративные данные при использовании LLM, какие есть реальные угрозы и как им противостоять. Например, можно ли быть уверенным, что чат-бот, который с помощью LLM отвечает на вопросы по вашей базе знаний, не разболтает лишнего? И не станет той «чёрной дырой» через которую утекут секретные сведения?
Ответы найдутся в докладе про безопасность LLM: о том, как научить модель что-то забывать и воркшопе, где участники смогут сами проработать защиту от угроз.
В этом году мы особенно гордимся воркшопами. Каждый из них — это возможность не просто послушать, а «потрогать руками» инструменты, поработать с пайплайнами и задать вопросы авторам решений.

Почему это важно сейчас
Сейчас технологии меняются быстрее, чем успевают обновляться учебники. Поэтому единственный способ оставаться в контексте — это общаться с коллегами, обсуждать реальные кейсы и учиться у лучших. AiConf Х — это не только про доклады, но и про эмоции, нетворкинг и совместное движение вперёд. Это место встречи инженеров, исследователей и бизнеса. Именно такие коллабы позволяют вместе двигать индустрию. И, конечно, узнавать о последних трендах, получить практический опыт и присоединяться к профессиональному сообществу, которое влияет на будущее Data Science в России и за её пределами.
Ждем вас в Москве 26 сентября 2025, приходите — будет полезно и, как всегда, по-настоящему интересно! Для тех, кто не может приехать организуем конференцию в онлайн-формате, подробности на сайте.