Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR: 

  • Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

  • У нас есть отобранная команда аннотаторов и автоматический фильтр качества;

  • Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;

  • Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

Зачем всё это было нужно?

Наша цель была амбициозной – понять, сможем ли мы с помощью экспертов с крауд-платформ воспроизвести рейтинг моделей, который органически формируется на сайте. Причём не заставляя их работать по строгой инструкции, а позволяя выбирать ответ, который им, как обычным пользователям, субъективно нравится больше.

Для чистоты эксперимента мы отобрали 17 актуальных моделей, которые появились на LLM Arena в 2025 году и уже имели достаточно оценок в основном лидерборде на llmarena.ru. За время работы с официальной Arena мы установили, что планка в 300+ голосов на модель обеспечивает относительно стабильные результаты. Поэтому именно такую выборку мы использовали и в крауд-эксперименте, что дало неплохую базу для сравнения.

Почему краудсорсинг, а не “LLM as a judge”?

"LLM as a judge" выглядит привлекательно: быстро, дешево и масштабируемо. Однако автоматическая оценка несет в себе предвзятости моделей, упускает тонкости человеческого восприятия и требует постоянной перекалибровки.

Краудсорсинг же медленнее и затратнее, но дает нам главное – объективный взгляд живых людей и понимание реальных потребностей пользователей.

Этап №1: Базовый отбор и оглушительный провал

Мы решили поручить разметчикам самостоятельно составлять и оценивать запросы, чтобы каждый формулировал их в своей области экспертизы, охватывая весь цикл — от создания до выбора лучшего ответа модели.

Для запуска выбрали крауд-платформу с фильтрами: только пользователи с ПК, с образованием и антифрод против слишком быстрых ответов.

Однако результат оказался провальным: вместо осмысленных задач мы получили поток примитивных запросов вроде «Привет», «2+2» или «Какая сегодня погода?», а рейтинги не имели ничего общего с пользовательскими.

Этап №2: Экзамен на адекватность

Для фильтрации халтурщиков и ботов, мы придумали входной экзамен для аннотаторов. Логика простая: если человек может внимательно прочитать запрос и осознанно выбрать лучший ответ из нескольких вариантов, значит, он подойдет и для создания качественных запросов, и для вдумчивой оценки результатов.

В экзамен вошли контрольные задания с заведомо правильными ответами:

Запрос: Расскажи про ворк энд Холидей визу в Австралию для россиян

  • Вариант А: К сожалению, на данный момент виза типа Working Holiday (Рабочая туристическая виза, подклассы 417 и 462) в Австралию недоступна для граждан России…

  • Вариант Б: Work and Holiday (Work and Holiday) виза в Австралию для россиян: Основные условия: 1. Возраст: 18-30 лет 2. Действует 12 месяцев 3. Можно работать до 6 месяцев у одного работодателя…

Экзамен позволил показать полезные запросы, отсекать бессмысленные и проверить критическое мышление, в итоге прошедшие порог в 80% шли дальше.

После первой волны мы вручную проверили запросы тех, кто прошел экзамен и увидели, что система на этом этапе работает неидеально: часть прошедших всё равно генерировала слабые или «синтетические» промпты. Поэтому мы усилили отбор и усложнили фильтрацию.

Этап №3: Проверяем через своего ИИ-судью

В качестве решения мы протестировали использование LLM для автоматической фильтрации простых и неинформативных промптов.

Самое сложное было не скатиться в формализм и не убить креативность, объясняя, почему «Привет, как дела?» плохой запрос для оценки модели.

В итоге мы сформулировали свои критерии для качественных и некачественных запросов.

Качественный запрос — это чёткая и конкретная формулировка задачи с ограничениями по длине, стилю или формату, достаточным контекстом или примерами. Он может требовать логики и анализа, касаться специализированных тем или определённых ролей и аудиторий, включать многоаспектные задания (редактирование, стилизацию, переформулировку) либо запрос на объяснение понятий и связей.

Некачественный запрос — напротив, отличается тривиальностью или слабой информативностью, бессмысленностью и «троллингом», отсутствием явной задачи, избыточным копипастом без инструкций или шаблонностью, характерной для автоматически сгенерированных промптов.

Для оценки эффективности нашего ИИ-фильтра мы провели исследование на выборке из 384 запросов от аннотаторов. Три эксперта (особую благодарность выражаем Александру Кукушкину за помощь в разметке) независимо классифицировали каждый запрос как «хороший» или «плохой», дополняя и уточняя критерии оценки в процессе работы.

Полученные данные выявили важную проблему субъективности оценок:

  • Согласованность с консенсусом: доля совпадений между решениями отдельных экспертов и результатом голосования по принципу большинства составила около 80%.

  • Межэкспертная согласованность: показатели совпадения между экспертами варьировались от 60% до 70%.

Это показало, что даже эксперты не всегда сходятся в оценке запроса, а автоматизировать этот процесс еще сложнее.

Строгий, но обоснованный фильтр

Анализ показал: строгий фильтр относит к «плохим» даже спорные запросы, но это совпадало с нашими задачами по минимизации сомнительных случаев в нашей системе отбора аннотаторов.

Мы предпочли потерять часть пограничных, но добросовестных кандидатов, чем допустить попадание мошеннических и некачественных запросов в основную выборку. Исходя из этих соображений, мы сохранили текущие настройки фильтра и перешли к следующему этапу работы.

Ниже представлены метрики по “модели-фильтру”.

precision

recall

f1-score

support

Некачественные запросы

0.27

0.88

0.42

51

Качественные запросы

0.97

0.64

0.77

333

accuracy

0.67

384

macro avg

0.62

0.76

0.60

384

weighted avg

0.88

0.67

0.73

384

Финальный флоу отбора

В итоге мы пришли к многоступенчатой системе отбора, которая наконец-то заработала:

  1. Экзамен: Проходной балл ≥ 80%.

  2. 20 тестовых промптов от аннотаторов: Наш ИИ-фильтр должен одобрить > 70% из них.

Кто прошёл оба этапа попадает в пул доверенных экспертов.

На этом этапе мы уже получили сильный результат: с отобранными аннотаторами по нашей системе экзаменации без дополнительных фильтров корреляция с продакшен-рейтинга достигала практически 90% по Пирсону.

На графике крест на каждой точке показывает неопределённость рейтинга конкретной модели в двух экспериментах.

  • X-координата точки: медиана рейтинга модели mm по всем раундам исходного эксперимента (прод.рейтинг): x=median(original[:, m])x=median(original[:, m]).

  • Y-координата точки: медиана рейтинга модели mm по всем раундам эксперимента сравнения (нашего исследования): y=median(experiment[:, m])y=median(experiment[:, m]).

  • Горизонтальная черта (по оси X): бутстреп-интервал рейтинга модели в исходном эксперименте (прод.рейтинге).

  • Вертикальная черта (по оси Y): бутстреп-интервал рейтинга модели в эксперименте сравнения (нашего исследования).

Но мы не остановились и пошли дальше — протестировали несколько дополнительных гипотез, чтобы исследование стало еще прозрачнее, а результаты валиднее. Они подтвердили отдельные эффекты, о которых мы расскажем ниже.

Мы дополнительно протестировали применение модель-фильтра к этим же данным. Корреляция при этом почти не изменилась (≈88%), что показало устойчивость методологии: на больших масштабах фильтр не вносит существенного искажения.

Поэтому мы используем модель-фильтр только на этапе отбора аннотаторов, а основная валидация строится на финальном флоу, о котором рассказали выше.

Дополнительное исследование: Фильтрация по длине ответов

В рамках дополнительных проверок мы исследовали традиционную гипотезу о том, что длина ответа может влиять на восприятие его качества: пользователи зачастую склонны считать более длинные тексты содержательнее.

Чтобы протестировать этот эффект, мы рассчитали среднюю длину ответов в парах A и B, нормализовали разницу и исключили случаи, где она превышала 0.5 (критический дисбаланс по объёму текста).

Результаты показали, что корреляция с продакшен-рейтингом осталась на столь же высоком уровне:

  • без фильтра: Пирсон 0.8945, Спирман 0.8578

  • с фильтром по длине: Пирсон 0.9019, Спирман 0.8627

Таким образом, фильтрация подтвердила наличие эффекта восприятия длины, но серьёзного изменения метрик не продемонстрировала. Это стало дополнительным подтверждением устойчивости нашей методологии: решающим фактором качества остаётся именно отбор аннотаторов.

Мы осознаём, что фильтр по длине несёт риск исключения релевантных длинных, но содержательных ответов. Поэтому в финальную методологию он не вошёл, а используется исключительно как дополнительный инструмент для исследований и проверки.

Результаты и интерпретация

Всего в эксперименте мы собрали 3942 битвы между моделями.

После применения разных фильтров мы получили:

  • 2422 — после модели-фильтра (оценка качества промпта);

  • 2874 — после фильтра по длине ответов;

  • 1852 — после применения обоих фильтров одновременно.

Анализ результатов показал устойчиво высокую корреляцию с продовым рейтингом при использовании различных фильтров для проверки от 86.2% до 90.2%. Это подтверждает, что мы смогли воспроизвести оценки продовой системы с очень высокой точностью, избежав при этом жесткой методологии «с критериями» и сохранив естественность формулировки запросов.

Выводы

Эксперименты показали, что, имея систему для отбора аннотаторов и применяя простую фильтрацию для их отбора, можно с высокой точностью воспроизвести оценку, которую дают тысячи реальных пользователей.

Это открывает новые возможности: новые модели можно «прогреть» через крауд всего за три дня после релиза и уже тогда получить предварительный рейтинг, который почти полностью совпадёт с итоговым на основном лидерборде. 

Для бизнеса это означает возможность значительно ускорить принятие решений и снизить риски при запуске новых LLM, позволяя оперативно отсеивать неудачные варианты и фокусировать ресурсы на наиболее перспективных решениях задолго до их полноценного внедрения и массового развертывания.

Делимся с сообществом!

Мы решили, что такие данные не должны лежать под замком, и сделали их открытыми. Вы можете скачать два датасета по 17 моделям и использовать их для своих исследований:

Примечание: данные были очищены от персональной информации, поэтому количество записей может немного отличаться.

Будем рады вашим экспериментам, форкам и упоминаниям! Спасибо за внимание!

Над проектом работала команда LLMArena:

Роман Куцев (@roman_kucev), Альбина Романова (@laavonamor), Владимир Гукасян (@mr_gukas), Максим Никитин (@max_nikitin9), Нина Пеньяфлор (@ninapenyaflor), Артур Казакевич (@arturkaz99), Никита Михайлов (@nk_mkhlv), Максим Кая (@Juste_un_homme), Даниил Ярмольчик (@S1FoN4iKs).

Также особую благодарность за помощь выражаем Александру Кукушкину @alexkuk!

Комментарии (0)