В 2025 году на NeurIPS — главной мировой конференции по ИИ — прошло соревнование CURE‑Bench, организованное исследователями из Гарварда и Массачусетского Технологического Института. Целью соревнования являлась масштабная проверка способностей агентов и рассуждающих моделей в области терапевтических рекомендаций. CURE‑Bench пытается ответить на вопрос, возможно ли уже сегодня построить качественного медицинского ассистента?

Команда AIRI под названием VIM (Владимир Мануйлов (iMak AI Lab) и Илья Макаров (iMak AI Lab, AIRI)) заняла призовое место в треке Internal Model Reasoning. Подробнее о их решении — в данной статье.

Участникам предлагался набор сложных клинически релевантных вопросов: от составления планов лечения и оценки безопасности лекарств до поиска вариантов перепрофилирования препаратов для заболеваний, где выбор лечения ограничен. Вопросы были трех видов:

  1. Выбор правильного ответа;

  2. Развернутый ответ с последующим выбором правильного ответа;

  3. Полностью развернутый ответ.

Сложность состояла в том, что для вопросов, включающих несколько шагов, ответ засчитывался только в случае корректности всех шагов. Кроме того, участники должны были учитывать устойчивость размышлений модели к перефразированию вопросов и изменению порядка предложенных вариантов ответа. 

В треке Internal Model Reasoning запрещено использовать внешние инструменты, базы данных, API или системы векторного поиска. Одним из требований также является наличие «цепочки рассуждений» модели. Последовательность размышлений оценивается агентами: они извлекают фактические утверждения рассуждающей модели и оценивают их корректность. Агенты также оценивают качество решения в целом и проверяют его на предмет соответствия медицинским практикам. Наконец, лучшие команды также оцениваются панелью доменных экспертов, чтобы исключить «взламывание» метрик. При этом разрешено использовать и модели с закрытым исходным кодом (OpenAI, Google, Anthropic и др.), а также менять затравки (промпты).

В начале соревнования VIM изучили качество многих открытых рассуждающих моделей (GLM-4.5, Qwen3-30B‑Thinking, DeepSeek‑R1, gpt‑oss-120b, gpt‑oss-20b, etc). Лидером среди открытых моделей оказалась gpt‑oss-120b. На близком бенчмарке HealthBench эта модель показывала результаты, приближающиеся к лидеру — модели o3, также от OpenAI. 

Проведя анализ ответов, участники заметили интересное поведение модели. Нередко она отвечала None или ответ E, которого не было среди предложенных ответов (только A‑D). Этому способствовали промпты, явно указывающие выбирать «A, B, C, D, E или None„.“»

Последние релизы от OpenAI указывали на значительный рост качества моделей семейства gpt-5 на бенчмарке HealthBench. Исследователи из VIM протестировали с подробными системными промптами модели gpt-5-nano, gpt-5-mini, gpt-5. Кроме того, они увеличили бюджет токенов на размышления модели, что повысило качество ответов gpt-5. Наилучшее качество было получено с использованием модели gpt-5, и с ней команда вошла в топ-8 победителей. 

По словам призёров, они успели реализовать не все свои идеи. Исследователи из VIM убеждены, что качество решения можно повысить ещё сильнее. Тем не менее, используя возможности передовых моделей, уже сегодня можно создать полезного терапевтического ассистента, который верно отвечает на большинство сложных вопросов. 

Комментарии (0)