Цели исследования и задачи
Мы занимаемся созданием HRTech-сервисов для оценки и развития компетенций специалистов. В наших сервисах применяются LLM и в качестве базового варианта мы использовали разные модели ChatGPT.
Основные задачи LLM включают:
Сортировку и оценку резюме
Оценку и формирование навыков кандидатов
Ведение диалогов с кандидатами
Оценку соответствия требованиям вакансий
Траектория развития наших продуктов предполагает перевод их опен-сорс либо на российские LLM, поэтому мы регулярно проводим оценку этих моделей с точки зрения их применимости к нашим задачам. В этой статье поделюсь полученным результатами сравнения некоторых моделей.
Методика тестирования
Тестирование проводилось на 20 вопросах, отражающих реальные HR-сценарии, например:
Формирование списка навыков с описанием для вакансии аналитика
Разработка комплексной рабочей ситуации для проведения кейс-интервью
Генерация вопросы для собеседования
Оценка резюме по заданному набору критериев и т.д.
Фиксировалось время ответа и оценивалось качество по критериям релевантности, полноты и корректности. Тесты выполнялись на сервере с видеокартами 1650 и 3050, а также на процессоре Ryzen 5 5600, что соответствует условиям промышленной эксплуатации.
Основные критерии выбора — качество ответов и быстродействие.
Качество оценивалось экспертно — эксперты независимо оценивали правильность ответа моделей по каждому вопросу, выставляли баллы, затем эти баллы усреднялись и суммировались. Возможный максимум по нашему внутреннему бенчмарку — 40 баллов (сейчас близкий к нему результат выдает ChatGPT)
Быстродействие оценивалось как среднее время ответа (в секундах).
Результаты сравнения
Всего в сравнении принимало участие свыше 40 моделей, самые лучшие результаты показали следующие:
Модель |
Время (с) |
Качество |
Qwen 2.5 7b q3 |
37.84 |
28 |
Llama 3.2 3b q8 |
24.44 |
30 |
Llama 3.2 3b q4 |
21.63 |
32 |
Qwen 2.5 3b q8 |
50.20 |
25 |
Qwen 2.5 3b q4 |
47.41 |
27 |
Gemma2 9b q8 |
63.54 |
22 |
Gemma2 9b q5 |
51.54 |
24 |
Qwen 2 0.5b |
11.75 |
18 |
Llama 3.2 1b q8 |
10.47 |
20 |
Яндекс |
12.75 |
14.3 |
Какие выводы мы сделали
ChatGPT пока остается лидером в универсальных задачах, но для нишевых решений оправданно применение альтернатив.
Для большинства прикладных HR‑задач вполне удовлетворительно работают open‑source модели среднего размера (например, Llama 3.2 3b q4/q8, Qwen 2.5 7b q3) — они демонстрируют оптимальный баланс качества и времени отклика.
Квантование эффективно снижает время отклика без значительной потери качества. Модели с более низким уровнем квантования (q3, q4) работают быстрее, сохраняя приемлемое качество.
Комментарии (6)
CloudlyNosound
13.08.2025 12:13Странно, что для HR важна производительность LLM по времени. Откуда возьмётся тот нескончаемый поток резюме, при котором это надо, ссылочкой не поделитесь?
KonstantinKosvintsev Автор
13.08.2025 12:13Есть немало вакансий с большим количеством откликов. Джуны (а сейчас уже и мидлы), маркетологи, менеджеры и т.д.
У всех джоб-платформ есть апи, по которому они в ATS системы отдают резюме, отобранные по критериям.
vvk214
13.08.2025 12:13Не хватает gemma3 (https://ollama.com/library/gemma3), она уже как 3 месяца назад вышла.
onets
Аффтар пеши исчо, тема
сисекиспользования llm в hr не раскрыта - статья короткая.KonstantinKosvintsev Автор
ок, сделаю отдельную обзорную статью. И наверное отдельно - как ИИ используют кандидаты, столько кейсов уже есть интересных...