Выбираем и оцениваем open-source LLM для саммаризации встреч / forpes.ru

Главная
Выбираем и оцениваем open-source LLM для саммаризации встреч

Выбираем и оцениваем open-source LLM для саммаризации встреч +7

05.05.2026 13:48

JDTapp 4 10000 Источник

Публичные бенчмарки LLM дают ориентиры по общему уровню моделей, но не отвечают на вопрос, как они ведут себя в конкретной задаче. А прикладные сценарии чувствительны к деталям: формату входных данных, структуре ответа, требованиям к точности. В этих условиях различия между моделями становятся более заметными.

Даже у близких по классу моделей небольшие различия в архитектуре и обучении дают заметный разброс в качестве ответов.
Качество моделей сильно зависит от типа задачи — одни лучше следуют инструкциям, другие лучше формулируют текст, третьи реже галлюцинируют.
Одна и та же модель может быть сильной в reasoning-задачах и значительно слабее в саммаризации или QA.

В этой статье расскажем, как оценивали открытые модели для создания саммари записей встреч и поделимся метриками, которые отражают полезность результата для бизнес-процессов заказчика.

Содержание

Что мы сделали

Наш заказчик, компания FollowUP, создаёт сервис для автоматического протоколирования и анализа рабочих встреч. Команде разработчиков Doubletapp нужно было разработать систему, которая позволяет сравнивать open-source LLM в рамках конкретной бизнес-задачи — генерации саммари.

Как это работает

Мы заменили универсальные бенчмарки на прикладную систему оценки, заточенную под корпоративные данные.

Оценка качества строится по двум направлениям:

Полнота саммари

Для каждой транскрипции автоматически формируется набор контрольных вопросов:

какие задачи обсуждались,
какие решения были приняты,
какие договорённости зафиксированы.

Далее проверяется, насколько саммари покрывает эти вопросы.
Так мы измеряем прикладную полезность текста — можно ли из него восстанавливать содержание встречи.

Достоверность

Из саммари выделяются ключевые утверждения и сопоставляются с исходной транскрипцией.

Это позволяет:

фиксировать галлюцинации,
проверять фактическую точность,
контролировать риск искажения договорённостей.

Изначально рассматривались готовые решения оценки (включая RAGAS), но они оказались недостаточно точными в генерации вопросов именно под контекст деловых коммуникаций.

Поэтому мы разработали собственную методику — она учитывает специфику разговорных данных, лучше отражает бизнес-смысл встречи и даёт стабильную сравнимость моделей.

Как это устроено технически

Под капотом — повторяемый процесс из четырёх шагов:

Берем набор транскрипций, собранных из различных открытых источников.
Прогоняем через них тестируемую модель и получаем саммари. В одной и той же системе сравниваем и локальные открытые модели (Qwen, Mistral, Llama, Gemma), и коммерческие API (GPT-5, GPT-4.1) — для нас это просто разные источники саммари.
По каждой транскрипции отдельно более сильная модель-судья (GPT-4.1 на момент работы) готовит набор контрольных вопросов и отдельно разбирает саммари на список утверждений.
Считаем по каждой модели две метрики — полноту и достоверность — и сводим в общую таблицу.

Ниже рассмотрим, как именно получить полноту и достоверность в нашей задаче.

Полнота (Recall)

Мы оцениваем полноту по конкретным разделам, которые важны в протоколе встречи. Проанализировав реальные запросы клиента к моделям, мы выделили четыре таких раздела:

задачи (что и кому поручено),
решения (что зафиксировано),
участники (кто был и в каких ролях),
отложенные вопросы (что вынесено за рамки встречи).

Под каждый раздел у нас свой шаблон промпта. По нему сильная LLM генерирует Yes/No-вопросы, в которых корректный ответ для качественного саммари — «Да».

Например:
Упоминается ли в саммари, что Андрей должен провести онбординг для Елены по использованию бота для рассылок?

Затем вторая LLM смотрит на саммари и отвечает по каждому вопросу: Yes / No / Partially. Recall считается как (Yes + 0.5 · Partially) / N. Частичный ответ важен — на практике саммари часто упоминает задачу, но теряет ответственного или срок, и это полезно отличать от полного пропуска.

Достоверность (Precision)

Здесь обратная процедура. LLM-судья разбивает саммари, полученное от проверяемой модели, на список отдельных утверждений, и каждое утверждение сверяется с исходной транскрипцией: 1 — подтверждается, 0 — не подтверждается. Precision = доля подтверждённых утверждений, то есть прямое измерение доли галлюцинаций.

Пример отказа из реального прогона.
Утверждение саммари: «Предложения и рекомендации: внедрение программного обеспечения для отслеживания финансовых потоков, изучение опыта других инвесторов в аналогичных проектах».
Вердикт: 0. «В расшифровке обсуждалось внедрение софта, но не упоминалось изучение опыта других инвесторов».

Что показал прогон на 432 встречах:

Модель	Параметров, B	Квантование, бит	Recall	Precision	F1
GPT-4.1	—	—	0.655	0.966	0.781
Qwen2.5-72B-Instruct GPTQ-Int4	72	4	0.479	0.947	0.637
Mistral-Small-3.1-24B-Instruct-2503	24	16	0.438	0.894	0.588
Mistral-Small-3.1-24B Q8 (GGUF)	24	8	0.429	0.921	0.585
Mistral-Small-3.1-24B Q4_K_M (GGUF)	24	4	0.424	0.917	0.580
GPT-4o	—	—	0.378	0.934	0.538
Qwen2.5-32B-Instruct GPTQ-Int8	32	8	0.373	0.899	0.527
Qwen2.5-32B-Instruct GPTQ-Int4	32	4	0.351	0.912	0.507
gemma-3-27b-it qat-q4_0 (GGUF)	27	4	0.338	0.845	0.483
Qwen2.5-7B-Instruct GPTQ-Int4	7	4	0.301	0.836	0.443
Llama-3.3-70B-Instruct Q4_K_M	70	4	0.245	0.874	0.383

Результаты проприетарных моделей (GPT-4.1, GPT-4o) приведены здесь для сравнения и калибровки шкалы — основная задача проекта была выбрать опенсорс-модель, которую можно развернуть у клиента в контуре.

Несколько наблюдений, которые без такой системы оценки увидеть было бы нечем:

Размер сам по себе ничего не гарантирует. Llama-3.3-70B на этой задаче проигрывает по recall даже Qwen-7B — то есть «выбрать модель пожирнее» не работает.
Квантование почти не съедает качество в семействе Mistral-Small-3.1: переход с FP16 на Q8 и далее на Q4 даёт разницу в третьем знаке. Практический вывод: 24B-модель в Q4_K_M помещается на одну консьюмерскую 4090 и при этом сохраняет precision 0.917.
Лучший открытый вариант — Qwen2.5-72B-Int4 — догоняет еще актуальную на момент исследования GPT-4o по precision (0.947 против 0.934) и заметно обгоняет по recall (0.479 против 0.378), укладываясь при этом в 2×A100 40GB.
Цифры подтверждают адекватность методики. Внутри одного семейства метрики снижаются плавно и предсказуемо при уменьшении размера и битности (Qwen 72B → 32B → 7B; Mistral Q8 → Q4). Это тот результат, который и должен получиться, если система оценки действительно измеряет качество, а не шум — то есть бенчмарку можно доверять и для сравнения моделей из разных семейств.

Результат

Вместо разового сравнения моделей бизнес получил систему, которая позволяет:

регулярно сравнивать open-source LLM между собой,
выбирать модель под конкретную задачу,
снижать риск внедрения модели с скрытыми проблемами качества,
встроить оценку качества прямо в процесс развития продукта.

В Doubletapp мы проектируем и внедряем системы оценки LLM под конкретные продуктовые сценарии заказчика.

Если вам важно понять, как модели работают именно в вашем кейсе и какие из них оптимальны с точки зрения качества и инфраструктуры, давайте обсудим подход и подберем решение.

Больше кейсов — по ссылке.

Комментарии (4)

AlexanderAnisimov
05.05.2026 14:41
#29930836
Это по состоянию на какую дату такой набор моделей? Без четвертой геммы странно все это выглядит - она по бенчмаркам прям сильно продвинулась.

Я для своей приложухи (генератор тайм-кодов для ютуб-подкастов, ссылка в профиле) тоже хотел сделать какую-нибудь тулзу для сравнения качества моделей (они у меня из оупенроутера). Но руки наверно никогда не дойдут. Джеменай-про даже для трехчасовых роликов работает, кажется, идеально. Гипотетическая экономия в пару долларов (допустим, заменить gemini на xiaomi) не сопоставима с затратами на ловлю блох. Для коротких (в пределах часа) и флэш неплохо справляется - он вообще копейки стоит.

Если бы я решал такую задачу, то наверно сделал бы так: разбил бы исходный транскрипт на "тематические разделы" (а-ля, тайм-коды), т.е. сделал бы оглавление/агенду и потом уже во вторую итерацию по каждому пункту агенды (временному интервалу) отдельно выделял бы "принятые решения", "открытые вопросы", "поручения" и т.п.

И в конце уже склеить в общий массив.

Мне кажется это бы снизило когнитивную нагрузку. По моему опыту могу сказать что качество результата сильно зависит от длительности транскрипта. Понятно что если в квен-7б скормить двухчасовой транскрипт на русском со сложной постановкой задачи, то он такого насаммаризирует что кровь из глаз потом не отмыть. А по частями ему наверняка было бы легче.

Интуитивно кажется что если четвертую гемму грамотно нафайнтюнить отдельно на каждую подзадачу (отдельно на агенду, отдельно на извлечение "принятых решений" из пунктов агенды и т.п.), то она наверняка сможет соревноваться с какой-нибудь пятой гопотой.
1. JDTapp Автор
  05.05.2026 14:41
  #29932328
  Это по состоянию на какую дату такой набор моделей?
  
  Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.
  
  Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.
  
  Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.
  
  Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.

janvarev
05.05.2026 14:41
#29930886
Было бы интересно увидеть свежие модели:

Gemma 4, Qwen 3.5 - интересно, как в сравнении с GPT-4.1

Судью можно оставить того же, но лучше тоже проапгрейдить.
1. JDTapp Автор
  05.05.2026 14:41
  #29934608
  Сейчас, к сожалению, сравнить не можем, но про судью, кстати, интересное замечание - приятный бонус подхода LLM-as-a-Judge состоит в том, что с выходом новых моделей можно получить прирост качества системы оценки по сути забесплатно, просто меняя модель.