Казалось бы, несколько моделей в мультиагентной системе отвечают на один и тот же вопрос, даже немного спорят и поправляют друг друга, но в итоге приходят к компромиссу, который не всегда верен. Язык помогает им, но в тоже время является узким горлышком, ведь он последовательный, часто неоднозначный и далеко не всегда отражает внутренний ход рассуждений. Авторы новой работы предлагают нам смотреть выше уровня слов и дать агентам общий канал обмена теми самыми внутренними смыслами.

Каждый агент выбирает своё подмножество мыслей; часть из них общая, часть — приватная
Каждый агент выбирает своё подмножество мыслей; часть из них общая, часть — приватная

Почему слова мешают агентам

В мультиагентной системе на LLM каждому агенту присущи внутренние цели, гипотезы и промежуточные вычисления. Однако при сведении их к тексту могут теряться нюансы, возникать рассогласования, а общая картина может быть размытой. Основная идея исследования заключается в поощрении агентов делиться своими компактными внутренними состояниями или мыслями, которые включают как общую, так и приватную информацию.

Как это формализуют

Авторы формализуют понятие единого латентного пространства мыслей Z_t и неизвестного обратимого отображения f, которое порождает наблюдаемые внутренние состояния агентов H_t = f(Z_t). Структура того, какие мысли влияют на какие части состояния, определяются разрежением производных отображения f. Это позволяет отличать общие компоненты между любыми подмножествами агентов, а также их личные приватные мысли.

Ключевой момент - теоретические гарантии идентифицируемости отдельных мыслей. На языке непараметрической статистики, без меток или других подсказок, авторы доказывают, что возможно выделить общие мысли между любым агентом, которые не будут смешиваться с другими скрытыми факторами, а также восстановить приватные для каждого агента и глобальную структуру кто что с кем разделяет, с точностью до перестановки координат. Говоря проще, алгоритм находит не просто какие-то векторы, а так, что есть гарантия - именно общие кусочки будут действительно общими между теми, кому это нужно, и не будут замешаны с приватными.

Что такое ThoughtComm на практике

На основе этого получена практическая реализация извлечения мыслей из векторных внутренних состояний, и реализован фреймворк ThoughtComm, который циклично извлекает общий набор мыслей из конкатенированных состояний всех агентов с помощью автоэнкодера с разреженной регуляризацией по чувствительности, определяет какие измерения этих мыслей нужны каждому агенту и как они разделяются между агентами, и возвращает каждому агенту только полезные для него компоненты с разделением степеней общности, а затем внедряет их через префиксную адаптацию в эмбеддинги.

Схема ThoughtComm: извлекаем мысли, маршрутизируем, внедряем префиксом и идём в новый раунд
Схема ThoughtComm: извлекаем мысли, маршрутизируем, внедряем префиксом и идём в новый раунд

Авторы подчеркивают такие детали, как разрежение по якобиану побуждает модель делать связи между мыслями и состояниями понятными и минимальными - каждая мысль влияет только там, где это необходимо. Префиксная инъекция - это компактный, гибкий метод передачи мысли генератору, который не требует тяжелого дообучения LLM. Инъекция и автоэнкодер имеют накладные расходы, которые зависят от размерности эмбеддингов мысленной коммуникации, но не от общего числа параметров LLM, поэтому масштабирование к большим внешним моделям не увеличивает расходы.

Что показали эксперименты

В экспериментах авторы сначала проверяют на синтетике, действительно ли система разделяет общее и приватное, и показывают высокое соответствие с реальными компонентами при различных настройках размерности и превосходство по сравнению с вариантом без разрежения (основной метод).

Коэффициент детерминации R^2: метод с разрежением выделяет общее и приватное значительно лучше
Коэффициент детерминации R^2: метод с разрежением выделяет общее и приватное значительно лучше

Два других эксперимента используют математические бенчмарки MATH и GSM8K. Несколько агентов два раунда обсуждают задачу, а затем выдают окончательный ответ. Сравниваются бейзлайны, использующие только одиночный вывод, и экстремум, при котором мультиагентное взаимодействие реализовано с помощью дообучения LLM, что очень дорого. Авторы проверяют не только финальную точность, но и согласие, пришли ли агенты к одному и тому же ответу. На обоих бенчмарках их система превосходит по обоим параметрам - так, для Qwen 3-1.7B на MATH они достигают 93% точности, что на 17 пунктов выше сильного базового значения и более чем вдвое выше производительности одиночной модели.

В частности, они подчеркивают такие технические детали, как устойчивость к размеру префикса: при увеличении длины префикса с 1 до 16 выбором инъекции он меняется менее чем на 5%, и почти максимальная коммуникативная производительность достигается при одном.

Один префиксный вектор почти так же хорош, как длинный префикс
Один префиксный вектор почти так же хорош, как длинный префикс

Cистема устойчива к увеличению числа коммуникационных раундов, и исследователи отмечают, что в некоторых сценариях для других систем наблюдаются странные экстремальные случаи, когда согласованность увеличивается, но общая производительность падает - то есть они приводят агентов к единому мнению каким-то странным образом. Здесь такое поведение не наблюдается - на самом деле согласие связано с правильными ответами.

Больше раундов — выше устойчивость к шуму и лучше выравнивание у ThoughtComm
Больше раундов — выше устойчивость к шуму и лучше выравнивание у ThoughtComm

Также исследуется влияние пропускной способности коммуникации для инъекции мыслей и показывается, что расширение латентного пространства является полезным до определенного момента, после чего наблюдается снижение.

Для Llama‑3‑8B-Instruct качество растёт с латентной размерностью и стабилизируется после 1024
Для Llama‑3‑8B-Instruct качество растёт с латентной размерностью и стабилизируется после 1024
Для Qwen‑3‑1.7B тренд аналогичен, что говорит о переносимости идеи между архитектурами
Для Qwen‑3‑1.7B тренд аналогичен, что говорит о переносимости идеи между архитектурами

Где это пригодится и что дальше

В заключение, исследователи обсуждают, где может быть полезна мысленная коммуникация - там, где агенты должны делиться обобщениями и предпосылками, необходимыми для решения задач, планирования, вероятностной оценки, построения моделей мира и диагностики ошибок. Они подчеркивают, что этот фреймворк не зависит от интерпретируемого внутреннего состояния - могут использоваться, например, контекстно-зависимые эмбеддинги текстовых ответов или визуальные признаки. При этом необходимы небольшое внутреннее состояние или надежный суррогат, они должны быть доступны, и пусть метод и разделяет намерение и нюансы, он не предназначен для захвата всех скрытых факторов - только тех, которые важны для связи между агентами.

Итог

В целом, статья изящно меняет парадигму мультиагентных систем с использования только языковой коммуникации на обогащение ее языком мыслей, причем последние гарантированно различаются между общими и приватными компонентами благодаря разрежению по якобиану и отделяются посредством простого рецепта, сочетающего разреженный автоэнкодер и префиксную инъекцию. На практике это дает более высокую производительность, большее согласие при обмене сообщениями между агентами и системные накладные расходы, которые легко прогнозировать. Кажется, у мультиагентных систем появился более честный язык — язык мыслей.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (2)


  1. amirkhonov
    27.10.2025 13:00

    Как потом отлаживать их мысли?


    1. andre_dataist Автор
      27.10.2025 13:00

      Если коротко, то изучать метаданные размышлений, корректировать их и дообучать рассуждать правильно. Так, например, китайцы сделали DeepSeek: дообучили другую модель на "правильных" размышлениях.