Цели исследования и задачи

Мы занимаемся созданием HRTech-сервисов для оценки и развития компетенций специалистов. В наших сервисах применяются LLM и в качестве базового варианта мы использовали разные модели ChatGPT.

Основные задачи LLM включают:

  • Сортировку и оценку резюме

  • Оценку и формирование навыков кандидатов

  • Ведение диалогов с кандидатами

  • Оценку соответствия требованиям вакансий

Траектория развития наших продуктов предполагает перевод их опен-сорс либо на российские LLM, поэтому мы регулярно проводим оценку этих моделей с точки зрения их применимости к нашим задачам. В этой статье поделюсь полученным результатами сравнения некоторых моделей.

Методика тестирования

Тестирование проводилось на 20 вопросах, отражающих реальные HR-сценарии, например:

  • Формирование списка навыков с описанием для вакансии аналитика

  • Разработка комплексной рабочей ситуации для проведения кейс-интервью

  • Генерация вопросы для собеседования

  • Оценка резюме по заданному набору критериев и т.д.

Фиксировалось время ответа и оценивалось качество по критериям релевантности, полноты и корректности. Тесты выполнялись на сервере с видеокартами 1650 и 3050, а также на процессоре Ryzen 5 5600, что соответствует условиям промышленной эксплуатации.

Основные критерии выбора — качество ответов и быстродействие.

Качество оценивалось экспертно — эксперты независимо оценивали правильность ответа моделей по каждому вопросу, выставляли баллы, затем эти баллы усреднялись и суммировались. Возможный максимум по нашему внутреннему бенчмарку — 40 баллов (сейчас близкий к нему результат выдает ChatGPT)

Быстродействие оценивалось как среднее время ответа (в секундах).

Результаты сравнения

Всего в сравнении принимало участие свыше 40 моделей, самые лучшие результаты показали следующие:

Модель

Время (с)

Качество

Qwen 2.5 7b q3

37.84

28

Llama 3.2 3b q8

24.44

30

Llama 3.2 3b q4

21.63

32

Qwen 2.5 3b q8

50.20

25

Qwen 2.5 3b q4

47.41

27

Gemma2 9b q8

63.54

22

Gemma2 9b q5

51.54

24

Qwen 2 0.5b

11.75

18

Llama 3.2 1b q8

10.47

20

Яндекс

12.75

14.3

 

Какие выводы мы сделали

  • ChatGPT пока остается лидером в универсальных задачах, но для нишевых решений оправданно применение альтернатив.

Для большинства прикладных HR‑задач вполне удовлетворительно работают open‑source модели среднего размера (например, Llama 3.2 3b q4/q8, Qwen 2.5 7b q3) — они демонстрируют оптимальный баланс качества и времени отклика.

  • Квантование эффективно снижает время отклика без значительной потери качества. Модели с более низким уровнем квантования (q3, q4) работают быстрее, сохраняя приемлемое качество.

Комментарии (6)


  1. onets
    13.08.2025 12:13

    Аффтар пеши исчо, тема сисек использования llm в hr не раскрыта - статья короткая.


    1. KonstantinKosvintsev Автор
      13.08.2025 12:13

      ок, сделаю отдельную обзорную статью. И наверное отдельно - как ИИ используют кандидаты, столько кейсов уже есть интересных...


  1. CloudlyNosound
    13.08.2025 12:13

    Странно, что для HR важна производительность LLM по времени. Откуда возьмётся тот нескончаемый поток резюме, при котором это надо, ссылочкой не поделитесь?


    1. KonstantinKosvintsev Автор
      13.08.2025 12:13

      1. Есть немало вакансий с большим количеством откликов. Джуны (а сейчас уже и мидлы), маркетологи, менеджеры и т.д.

      2. У всех джоб-платформ есть апи, по которому они в ATS системы отдают резюме, отобранные по критериям.


  1. vvk214
    13.08.2025 12:13

    Не хватает gemma3 (https://ollama.com/library/gemma3), она уже как 3 месяца назад вышла.


    1. KonstantinKosvintsev Автор
      13.08.2025 12:13

      спасибо, учтем в следующих бенчмарках