Большинство открытых исследований по глубокому поиску работают по простому принципу: складывать всё найденное в одно большое окно контекста. С каждым шагом туда летят новые выдержки, ссылки, заметки. В итоге полезное тонет в шуме, ранние ошибки остаются навсегда, а место для размышления стремительно уменьшается. Авторы WebResearcher предлагают ровно обратный подход: периодически останавливать поток, выжимать главное в сжатый отчёт и начинать следующий раунд уже с чистым рабочим столом. Так агент сохраняет знание, но не тащит весь багаж вперёд.

Главная идея: исследование раундами

WebResearcher строится вокруг IterResearch — итеративной схемы в терминах MDP. Каждый раунд состоит из трёх частей:

  • Think: короткое обдумывание, план шага. Живёт только в текущем раунде.

  • Report: центральная память — аккуратная выжимка всего, что уже проверено и согласовано.

  • Action: вызов инструмента или финальный ответ.

Между раундами сохраняется только обновлённый Report и последний ответ инструмента. Вся эфемерная «грязь» отбрасывается. Так контекст не распухает, а рассуждение остаётся ясным и устойчивым даже на десятках шагов.

Иллюстрация итеративной парадигмы Deep-Research в сравнении с моноконтекстной: сверху моноконтекст накапливает всё в одном растущем контексте, вызывая перегрузку и шум; снизу IterResearch разбивает работу на раунды с заново собранным минимальным рабочим пространством — подумать, обновить отчёт, выбрать действие. Новое пространство формируется только из ключевых результатов прошлого шага (обновлённый отчёт и ответ инструментов), что предотвращает разрастание контекста и поддерживает устойчивое рассуждение.
Иллюстрация итеративной парадигмы Deep-Research в сравнении с моноконтекстной: сверху моноконтекст накапливает всё в одном растущем контексте, вызывая перегрузку и шум; снизу IterResearch разбивает работу на раунды с заново собранным минимальным рабочим пространством — подумать, обновить отчёт, выбрать действие. Новое пространство формируется только из ключевых результатов прошлого шага (обновлённый отчёт и ответ инструментов), что предотвращает разрастание контекста и поддерживает устойчивое рассуждение.

Откуда берутся сложные задачи: фабрика данных WebFrontier

Чтобы научить агента реально исследовать, нужны задачи, которые требуют не просто вспоминания факта, а построения ответа шаг за шагом. Для этого авторы создали WebFrontier — масштабируемый конвейер генерации и отбора задач.

  • Сначала из веба, статей и книг собираются плотные фрагменты, из их комбинаций рождаются стартовые вопросы и ответы.

  • Затем тот же агент с инструментами (поиск по вебу и Google Scholar, браузерная выжимка, Python) поэтапно усложняет задачи, добавляет расчёты и кросс-проверки.

  • Наконец, идёт строгий контроль качества: простые пары отбраковываются, сложные решаются сильным решателем, дубликаты удаляются, факты сверяются судьями. На выходе остаётся массив проверяемых, по-настоящему трудных задач — именно тех, на которых разница между базовой LLM и системой с инструментами ярко проявляется.

Обзор трёхэтапного процесса синтеза данных на базе многоагентной системы: 1) генерация исходных данных из отобранного корпуса; 2) итеративный цикл, где агенты с инструментами постепенно повышают сложность задач; 3) многоступенчатый контроль качества для калибровки сложности и проверки фактической корректности.
Обзор трёхэтапного процесса синтеза данных на базе многоагентной системы: 1) генерация исходных данных из отобранного корпуса; 2) итеративный цикл, где агенты с инструментами постепенно повышают сложность задач; 3) многоступенчатый контроль качества для калибровки сложности и проверки фактической корректности.

Как учат и как масштабируют на инференсе

Модель учат на корректных траекториях IterResearch: сохраняют только те, где итог совпал с эталоном, и обучают шаблону Think–Report–Action. Это помогает отделить рассуждение от шумных ответов инструментов. Далее подключают RL: разрезают траектории на раунды и получают гораздо больше обучающих примеров, чем в моно-контекстной схеме.

На этапе применения используется приём Research-Synthesis. Несколько независимых агентов параллельно исследуют задачу, каждый даёт финальный отчёт и ответ. Затем отдельный синтезирующий агент агрегирует именно отчёты, а не всю историю. За счёт этого в ограниченный контекст помещается больше разнообразных линий рассуждения, и итог становится устойчивее.

Иллюстрация фреймворка Reason-Synthesis
Иллюстрация фреймворка Reason-Synthesis

Что получилось на бенчмарках

Система построена на Qwen3-30B-A3B с набором инструментов: Search, Scholar, Visit и Python. На шести наборах задач WebResearcher показывает уровень лучших систем или превосходит их:

  • HLE: 36.7%, лучше DeepSeek-V3.1 (29.8%) и OpenAI Deep Research (26.6%).

  • BrowseComp-en: 51.7% — на уровне OpenAI Deep Research (51.5%).

  • BrowseComp-zh: 56.8% против 58.1% у o3 и 49.2% у DeepSeek-V3.1.

  • GAIA: 72.8% — выше Claude-4-Sonnet (68.3%), o3 (70.5%).

  • Xbench-DeepSearch: 71.0% — рядом с DeepSeek-V3.1 (71.2%).

  • FRAMES: 84.8% — выше DeepSeek-V3.1 (83.7%) и o3 (84.0%).

Абляции показывают, что основная прибавка идёт именно от итеративного инференса: моно-контекст деградирует по мере роста цепочек, а IterResearch стабильно выдерживает длинные маршруты. Профили инструментов подстраиваются под задачу: на HLE преобладает Scholar и короткие цепочки, на BrowseComp — длинная навигация с Search и Visit (в среднем более 60 шагов).

Как далеко можно параллелить

Авторы проверили, как растёт качество при увеличении числа параллельных исследователей n. До n=8 прибавка заметная, дальше — отдача снижается, а затраты растут линейно. Практический баланс — около восьми независимых траекторий.

Влияние параметра n на HLE
Влияние параметра n на HLE
Влияние параметра n на BrowseComp
Влияние параметра n на BrowseComp

Почему это важно

Главный вклад — смена парадигмы. Вместо бесконтрольного наращивания контекста агент регулярно консолидирует знания в компактный отчёт и заново строит рабочее пространство. Такое устройство лучше согласуется с тем, как человек ведёт длинное исследование: черновики, сводка, следующий заход. Плюс, фабрика данных WebFrontier уучит не запоминать, а строить ответ по шагам, что критично для задач с несколькими источниками, вычислениями и проверками. В итоге получаем более надёжное рассуждение, лучшее использование инструментов и устойчивость на очень длинных цепочках.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)


  1. Nurked
    21.09.2025 00:13

    Мне ТАК нравятся все эти статьи про ИИ ассистентов нового уровня. Просто кровь застывает в жилах, когда я вижу что процент непонятного бенчмарка подскакивает на целых два процента. А иногда даже на пять.

    В области ИИ столько инноваций такого низкого качества, что они все идут шумом к общему прогрессу. Можно спокойно выбирать инструмент и работать с ним по пол-года год, а потом просто перепроверять, что есть дешевле и радоваться дешевому варианту.


    1. Wesha
      21.09.2025 00:13

      Тот факт, что никто из создателей ентого супермегаИИ не задал «Всемогущему» вопроса «как мне стать Перзидентом Всея Планеты» как бы намекает...

      P.S. Впрочем, фантасты и тут подсуетились.