Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?
Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.
TL/DR:
Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
У нас есть отобранная команда аннотаторов и автоматический фильтр качества;
Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;
Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.
Зачем всё это было нужно?
Наша цель была амбициозной – понять, сможем ли мы с помощью экспертов с крауд-платформ воспроизвести рейтинг моделей, который органически формируется на сайте. Причём не заставляя их работать по строгой инструкции, а позволяя выбирать ответ, который им, как обычным пользователям, субъективно нравится больше.
Для чистоты эксперимента мы отобрали 17 актуальных моделей, которые появились на LLM Arena в 2025 году и уже имели достаточно оценок в основном лидерборде на llmarena.ru. За время работы с официальной Arena мы установили, что планка в 300+ голосов на модель обеспечивает относительно стабильные результаты. Поэтому именно такую выборку мы использовали и в крауд-эксперименте, что дало неплохую базу для сравнения.
Почему краудсорсинг, а не “LLM as a judge”?
"LLM as a judge" выглядит привлекательно: быстро, дешево и масштабируемо. Однако автоматическая оценка несет в себе предвзятости моделей, упускает тонкости человеческого восприятия и требует постоянной перекалибровки.
Краудсорсинг же медленнее и затратнее, но дает нам главное – объективный взгляд живых людей и понимание реальных потребностей пользователей.
Этап №1: Базовый отбор и оглушительный провал
Мы решили поручить разметчикам самостоятельно составлять и оценивать запросы, чтобы каждый формулировал их в своей области экспертизы, охватывая весь цикл — от создания до выбора лучшего ответа модели.
Для запуска выбрали крауд-платформу с фильтрами: только пользователи с ПК, с образованием и антифрод против слишком быстрых ответов.
Однако результат оказался провальным: вместо осмысленных задач мы получили поток примитивных запросов вроде «Привет», «2+2» или «Какая сегодня погода?», а рейтинги не имели ничего общего с пользовательскими.
Этап №2: Экзамен на адекватность
Для фильтрации халтурщиков и ботов, мы придумали входной экзамен для аннотаторов. Логика простая: если человек может внимательно прочитать запрос и осознанно выбрать лучший ответ из нескольких вариантов, значит, он подойдет и для создания качественных запросов, и для вдумчивой оценки результатов.
В экзамен вошли контрольные задания с заведомо правильными ответами:
Запрос: Расскажи про ворк энд Холидей визу в Австралию для россиян
Вариант А: К сожалению, на данный момент виза типа Working Holiday (Рабочая туристическая виза, подклассы 417 и 462) в Австралию недоступна для граждан России…
Вариант Б: Work and Holiday (Work and Holiday) виза в Австралию для россиян: Основные условия: 1. Возраст: 18-30 лет 2. Действует 12 месяцев 3. Можно работать до 6 месяцев у одного работодателя…
Экзамен позволил показать полезные запросы, отсекать бессмысленные и проверить критическое мышление, в итоге прошедшие порог в 80% шли дальше.
После первой волны мы вручную проверили запросы тех, кто прошел экзамен и увидели, что система на этом этапе работает неидеально: часть прошедших всё равно генерировала слабые или «синтетические» промпты. Поэтому мы усилили отбор и усложнили фильтрацию.
Этап №3: Проверяем через своего ИИ-судью
В качестве решения мы протестировали использование LLM для автоматической фильтрации простых и неинформативных промптов.
Самое сложное было не скатиться в формализм и не убить креативность, объясняя, почему «Привет, как дела?» плохой запрос для оценки модели.
В итоге мы сформулировали свои критерии для качественных и некачественных запросов.
Качественный запрос — это чёткая и конкретная формулировка задачи с ограничениями по длине, стилю или формату, достаточным контекстом или примерами. Он может требовать логики и анализа, касаться специализированных тем или определённых ролей и аудиторий, включать многоаспектные задания (редактирование, стилизацию, переформулировку) либо запрос на объяснение понятий и связей.
Некачественный запрос — напротив, отличается тривиальностью или слабой информативностью, бессмысленностью и «троллингом», отсутствием явной задачи, избыточным копипастом без инструкций или шаблонностью, характерной для автоматически сгенерированных промптов.
Для оценки эффективности нашего ИИ-фильтра мы провели исследование на выборке из 384 запросов от аннотаторов. Три эксперта (особую благодарность выражаем Александру Кукушкину за помощь в разметке) независимо классифицировали каждый запрос как «хороший» или «плохой», дополняя и уточняя критерии оценки в процессе работы.
Полученные данные выявили важную проблему субъективности оценок:
Согласованность с консенсусом: доля совпадений между решениями отдельных экспертов и результатом голосования по принципу большинства составила около 80%.
Межэкспертная согласованность: показатели совпадения между экспертами варьировались от 60% до 70%.
Это показало, что даже эксперты не всегда сходятся в оценке запроса, а автоматизировать этот процесс еще сложнее.
Строгий, но обоснованный фильтр
Анализ показал: строгий фильтр относит к «плохим» даже спорные запросы, но это совпадало с нашими задачами по минимизации сомнительных случаев в нашей системе отбора аннотаторов.
Мы предпочли потерять часть пограничных, но добросовестных кандидатов, чем допустить попадание мошеннических и некачественных запросов в основную выборку. Исходя из этих соображений, мы сохранили текущие настройки фильтра и перешли к следующему этапу работы.
Ниже представлены метрики по “модели-фильтру”.
precision |
recall |
f1-score |
support |
|
Некачественные запросы |
0.27 |
0.88 |
0.42 |
51 |
Качественные запросы |
0.97 |
0.64 |
0.77 |
333 |
accuracy |
0.67 |
384 |
||
macro avg |
0.62 |
0.76 |
0.60 |
384 |
weighted avg |
0.88 |
0.67 |
0.73 |
384 |
Финальный флоу отбора
В итоге мы пришли к многоступенчатой системе отбора, которая наконец-то заработала:
Экзамен: Проходной балл ≥ 80%.
20 тестовых промптов от аннотаторов: Наш ИИ-фильтр должен одобрить > 70% из них.
Кто прошёл оба этапа попадает в пул доверенных экспертов.
На этом этапе мы уже получили сильный результат: с отобранными аннотаторами по нашей системе экзаменации без дополнительных фильтров корреляция с продакшен-рейтинга достигала практически 90% по Пирсону.

На графике крест на каждой точке показывает неопределённость рейтинга конкретной модели в двух экспериментах.
X-координата точки: медиана рейтинга модели mm по всем раундам исходного эксперимента (прод.рейтинг): x=median(original[:, m])x=median(original[:, m]).
Y-координата точки: медиана рейтинга модели mm по всем раундам эксперимента сравнения (нашего исследования): y=median(experiment[:, m])y=median(experiment[:, m]).
Горизонтальная черта (по оси X): бутстреп-интервал рейтинга модели в исходном эксперименте (прод.рейтинге).
Вертикальная черта (по оси Y): бутстреп-интервал рейтинга модели в эксперименте сравнения (нашего исследования).
Но мы не остановились и пошли дальше — протестировали несколько дополнительных гипотез, чтобы исследование стало еще прозрачнее, а результаты валиднее. Они подтвердили отдельные эффекты, о которых мы расскажем ниже.
Мы дополнительно протестировали применение модель-фильтра к этим же данным. Корреляция при этом почти не изменилась (≈88%), что показало устойчивость методологии: на больших масштабах фильтр не вносит существенного искажения.

Поэтому мы используем модель-фильтр только на этапе отбора аннотаторов, а основная валидация строится на финальном флоу, о котором рассказали выше.
Дополнительное исследование: Фильтрация по длине ответов
В рамках дополнительных проверок мы исследовали традиционную гипотезу о том, что длина ответа может влиять на восприятие его качества: пользователи зачастую склонны считать более длинные тексты содержательнее.
Чтобы протестировать этот эффект, мы рассчитали среднюю длину ответов в парах A и B, нормализовали разницу и исключили случаи, где она превышала 0.5 (критический дисбаланс по объёму текста).

Результаты показали, что корреляция с продакшен-рейтингом осталась на столь же высоком уровне:
без фильтра: Пирсон 0.8945, Спирман 0.8578
с фильтром по длине: Пирсон 0.9019, Спирман 0.8627
Таким образом, фильтрация подтвердила наличие эффекта восприятия длины, но серьёзного изменения метрик не продемонстрировала. Это стало дополнительным подтверждением устойчивости нашей методологии: решающим фактором качества остаётся именно отбор аннотаторов.
Мы осознаём, что фильтр по длине несёт риск исключения релевантных длинных, но содержательных ответов. Поэтому в финальную методологию он не вошёл, а используется исключительно как дополнительный инструмент для исследований и проверки.
Результаты и интерпретация
Всего в эксперименте мы собрали 3942 битвы между моделями.
После применения разных фильтров мы получили:
2422 — после модели-фильтра (оценка качества промпта);
2874 — после фильтра по длине ответов;
1852 — после применения обоих фильтров одновременно.

Анализ результатов показал устойчиво высокую корреляцию с продовым рейтингом при использовании различных фильтров для проверки от 86.2% до 90.2%. Это подтверждает, что мы смогли воспроизвести оценки продовой системы с очень высокой точностью, избежав при этом жесткой методологии «с критериями» и сохранив естественность формулировки запросов.
Выводы
Эксперименты показали, что, имея систему для отбора аннотаторов и применяя простую фильтрацию для их отбора, можно с высокой точностью воспроизвести оценку, которую дают тысячи реальных пользователей.
Это открывает новые возможности: новые модели можно «прогреть» через крауд всего за три дня после релиза и уже тогда получить предварительный рейтинг, который почти полностью совпадёт с итоговым на основном лидерборде.
Для бизнеса это означает возможность значительно ускорить принятие решений и снизить риски при запуске новых LLM, позволяя оперативно отсеивать неудачные варианты и фокусировать ресурсы на наиболее перспективных решениях задолго до их полноценного внедрения и массового развертывания.
Делимся с сообществом!
Мы решили, что такие данные не должны лежать под замком, и сделали их открытыми. Вы можете скачать два датасета по 17 моделям и использовать их для своих исследований:
Примечание: данные были очищены от персональной информации, поэтому количество записей может немного отличаться.
Будем рады вашим экспериментам, форкам и упоминаниям! Спасибо за внимание!
Над проектом работала команда LLMArena:
Роман Куцев (@roman_kucev), Альбина Романова (@laavonamor), Владимир Гукасян (@mr_gukas), Максим Никитин (@max_nikitin9), Нина Пеньяфлор (@ninapenyaflor), Артур Казакевич (@arturkaz99), Никита Михайлов (@nk_mkhlv), Максим Кая (@Juste_un_homme), Даниил Ярмольчик (@S1FoN4iKs).
Также особую благодарность за помощь выражаем Александру Кукушкину @alexkuk!