
Мы давно привыкли к лентам рекомендаций, которые будто сами знают, что нам показать. Но чаще всего они угадывают по косвенным признакам — кликам, лайкам, редким дизлайкам. Это пассивная петля: система что‑то показывает, мы как‑то реагируем, а дальше алгоритм сам додумывает причины. Отсюда искажения: не понятно, что именно понравилось, а что раздражает, и почему. И чем дальше, тем сильнее эффект фильтров — круг однотипного контента, который тяжело разорвать.

Авторы работы предлагают сменить парадигму. Вместо немого скролла — активные команды внутри самой ленты: Interactive Recommendation Feed (IRF). Пользователь пишет короткие фразы прямо по месту: дешевле, без цветочков, побольше карманов, не старше 2020, и т.д. Система тут же пересобирает выдачу. Важно, что это не отдельный чат, как в системах рекомендаций через диалог, а живое управление основной лентой.
Что именно нового
В сердце решения — RecBot, мультиагентная система на базе LLM. Два агента делят работу:
Парсер достаёт из свободного текста чёткую структуру предпочтений.
Планировщик оркестрирует инструменты и мгновенно перестраивает политику рекомендаций.
Ключевой акцент — на явном учёте позитивных и негативных намерений. На продакшене, отмечают авторы, около 57% команд — именно отрицательные. Это тот сигнал, которого так не хватает классическим моделям.

Как это работает под капотом
Парсер обучен раскладывать намерения на позитивные и негативные, а каждую группу делить на жёсткие правила (hard) и мягкие склонности (soft). Он ведёт память диалога: сохраняет релевантные требования, добавляет новые, снимает устаревшие при явных сигналах вроде больше не интересует. Это снижает вычислительные издержки и убирает смысловой дрейф при долгих сессиях.

Планировщик превращает структуру намерений в новый скоринг
Filter. Применяет жёсткие ограничения и отбрасывает неподходящее сразу.
Matcher. Мягкий скоринг: семантическая близость (эмбеддинги) плюс коллаборативная фильтрация, которая учитывает историю пользователя и контекст намерений.
Attenuator. Штрафует за близость к нежелательным признакам.
Aggregator. Складывает оценки и собирает топ‑K.
Инструменты вызываются по потребности: сначала сужаем пространство через Filter, затем параллельно считаем матчинги и штрафы, в конце агрегируем. Всё работает на лету.

Лучшие закрытые LLM нередко точнее, но дороги. Авторы пошли путём симуляционно‑усиленной дистилляции: построили симулятор пользователя с персоной и целевым предметом, разыгрывали интерактивные сессии с учительской версией RecBot и собирали сценарии взаимодействия. Затем обучили более лёгкого студента (Qwen‑модель) повторять логику учителя. В ряде сценариев студент даже обошёл учителя — редкий, но приятный эффект правильной симуляции и таргетированного тюнинга.
Что получилось в экспериментах
Оффлайн тесты проводились на Amazon Books, MovieLens и Taobao с тремя сценариями:
SR: одна точная команда.
MR: до пяти раундов уточнений.
MRID: многотуровый диалог со сдвигом интересов.
RecBot уверенно превосходит сильные бейзлайны. Примеры:
Amazon, SR: R@10 у RecBot‑GPT 0.2459 против 0.0598 у BGE.
MovieLens, SR: 0.4293 против 0.1370 у BGE.
Taobao, SR: 0.4918 против 0.2122 у InteRecAgent.
В многотуровых задачах преимущество растёт: на Taobao (MR) Pass Rate у RecBot‑GPT — 41.14% против 18.42% у InteRecAgent при меньшем среднем числе раундов.
Абляции показывают, что выигрывает именно комбинация компонентов: фильтрация по жёстким правилам плюс персонализированный матчер и явная модель отрицательных намерений.

Онлайн на реальной витрине e‑commerce три месяца A/B‑тестов дали ощутимый прирост:
NFF (частота негативной обратной связи): −0.71%.
CICD (разнообразие категорий кликов): +1.44%.
ATC: +1.28%; GMV: +1.40%.
Отдельно отмечу сегментацию: у пользователей с умеренным количеством негативов NFF снижается до −3.3%, а вот экстремально требовательная группа остаётся вызовом.

В живых сессиях система корректно исполняет команды в 88–89% случаев по оценке экспертов и LLM‑судьи, что удобно для масштабного мониторинга качества.
Кейс на витрине выглядит естественно: длинные юбки → светло‑голубые → около 200 → без флорала — и на четвёртом раунде попадание в точку.

Почему это важно
IRF закрывает коммуникационный тупик между человеком и алгоритмом: вместо угадываний — прямые инструкции на естественном языке и мгновенная реакция. Это расширяет разнообразие, уменьшает эффект информационного пузыря и, как показывают данные, помогает бизнесу. Вперёд — к онлайн‑обучению, более персональному рассуждению, проактивным подсказкам и понятным объяснениям решений.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.