Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера / forpes.ru

Главная
Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера +34

16.11.2025 06:31

aak204 32 8100 Источник

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Рис. 1. Наш «подопытный»: документ с рукописным текстом — ***Рис. 1.*** *Наш «подопытный»: документ с рукописным текстом*

А вот что удалось извлечь из него с помощью стандартного OCR-модуля Tika:

Рис. 2. Результат Apache Tika. Структура потеряна, рукописный текст не распознан. Классика. — **Рис. 2.** Результат Apache Tika. Структура потеряна, рукописный текст не распознан. Классика.

Именно для решения таких задач на сцену выш��и современные мультимодальные модели (VLM - Visual Language Models). Они не просто «читают» текст по буквам, а «смотрят» на изображение целиком, понимают его структуру и возвращают осмысленный результат, например, в готовом Markdown или HTML.

Мы решили провести практическое сравнение и взяли шесть популярных открытых моделей, чтобы стравить их с нашим «кошмарным» документом. А для полноты картины прогнали через них еще два кейса: идеальную печатную страницу и чисто рукописный текст. Поехали!

Как заставить LLM работать в режиме OCR: магия системного промпта

Прежде чем мы перейдем к результатам, важный практический нюанс. Универсальные мультимодальные LLM (такие как Gemma или Qwen) по умолчанию не заточены под OCR. Если просто попросить их «описать картинку», они могут начать фантазировать. Чтобы переключить их в строгий режим оцифровщика, нужен правильный системный промпт. Мы использовали вот такую инструкцию, которая заметно снижает галлюцинации и заставляет модель аккуратно работать со структурой.

Ты - специалист по оцифровке документов.

ЗАДАЧА: Верни весь текст документа.

ФОРМАТ ОТВЕТА:
Выведи весь распознанный текст в формате Markdown.

ВАЖНО:
- Документ может содержать рукописный текст.
- Документ на русском языке.
- Внимательно оформляй таблицы, чтобы они были в формате Markdown. Сохраняй исходную структуру таблиц.

Листинг 1. Системная инструкция для переключения универсальных LLM в «режим OCR».

Знакомьтесь с участниками

Мы разделили модели на две группы, чтобы сравнение было честным.

Специализированные OCR/VLM

Это модели, изначально созданные для задач распознавания и анализа документов.

LightOnOCR 1B - сверхлёгкий спринтер. Эта модель создана с упором на скорость и низкие требования к ресурсам. Идеальна для потоковой обработки, хорошо извлекает печатный текст и почти не галлюцинирует.
DeepSeek OCR (~3B) - структурный аналитик. Открытая модель с интересной идеей «оптического сжатия контекста». Её конёк - структурное распознавание, особенно таблицы и рукописные цифры.
PaddleOCR VL 0.9B - компактный универсал. Маленькая, но мощная модель (NaViT + ERNIE 4.5), которая поддерживает более 100 языков. Её суперсила — восстановление даже самых «ломаных» табличных структур. Может работать даже на CPU.

Универсальные мультимодальные LLM

Это большие языковые модели, которых научили «видеть». Они могут не только распознавать текст, но и рассуждать об изображении.

Gemma 27B Vision - тяжеловес от Google. Крупная модель с большим контекстом. Неплохо справляется с таблицами, но на длинных документах может «забываться» и галлюцинировать в конце вывода.
Qwen3 Omni - швейцарский нож. Модель из «omni modal» семейства от Alibaba, работающая с текстом, картинками, аудио и видео. Демонстрирует высокое качество OCR и формирует аккуратные, читаемые абзацы.
Qwen3 VL 30B A3B (MoE) - флагман. Старшая модель в линейке с огромным контекстом и сильными аналитическими способностями. По нашим наблюдениям, показывает самый ровный и сбалансированный результат по всем критериям.

Критерии оценки были просты: точность текста, сохранение структуры (особенно табл��ц), распознавание рукописи, скорость и стабильность (отсутствие галлюцинаций).

Битва за сложный документ: результаты основного теста

А теперь самое интересное. Как наши бойцы справились с главным тестовым изображением?

LightOnOCR 1B
Эта модель полностью оправдала свою репутацию спринтера: обработка прошла молниеносно. Общее качество распознавания печатного текста оказалось высоким, а галлюцинаций практически не было. Однако, когда дело дошло до сложной таблицы и рукописных полей, её магия иссякла. Структура таблицы была восстановлена слабо, а рукопись осталась нечитаемой.

DeepSeek OCR
DeepSeek также показал себя быстрым и уверенно справился с таблицей, что является его сильной стороной. Модель даже смогла распознать рукописные числа. Из минусов - частичная потеря оригинального оформления, а полноценный рукописный текст (слова, а не цифры) дался ей с трудом.

PaddleOCR VL 0.9B
На нашем примере PaddleOCR показала, пожалуй, лучшее общее качество среди специализированных моделей. Она уверенно вытащила даже мелкий курсив, а таблицу восстановила почти идеально, сохранив структуру. Рукописный текст был распознан частично. Единственный компромисс - средняя скорость работы.

Gemma 27B Vision
Переходим к тяжеловесам. Gemma хорошо сохранила табличную структуру и распознала рукописные цифры. Однако за это пришлось заплатить скоростью. Кроме того, на длинном выводе мы заметили её склонность к «хвостовым галлюцинациям» - модель начинает додумывать информацию в конце. Распознавание рукописных слов также было неполным.

Qwen3 Omni
Эта модель продемонстрировала высокое качество распознавания печатного текста, включая мелкий курсив, и неплохо справилась с таблицей и рукописными числами. Но, как и Gemma, она работает медленнее специализированных решений, а форматирование сохраняет не идеально.

Qwen3 VL 30B A3B
Флагманская модель Qwen показала самый сбалансированный и сильный результат. Она отлично справилась со всеми аспектами: печатный текст, мелкий курсив, сложная таблица. А в распознавании рукописного текста (и чисел, и слов) она превзошла всех остальных участников. Цена за такое качество - более низкая скорость по сравнению с лёгкими моделями и не всегда идеальное форматирование.

Промежуточный итог: для простых документов с упором на скорость лучше всего подходят LightOnOCR и PaddleOCR VL. Для сложных, комплексных задач, где важна каждая деталь, лидерство захватывает Qwen3 VL. Универсальные модели (Qwen, Gemma) также могут быть полезны для точечного извлечения полей и других интерактивных задач.

Дополнительные раунды: идеальная печать и суровая рукопись

Чтобы проверить модели в крайних условиях, мы взяли еще два изображения: чистую печатную страницу и полностью рукописный текст.

Тест 1. Идеальный печатный документ

Здесь почти все модели показали себя достойно, но с нюансами.

LightOnOCR и DeepSeek OCR сработали практически эталонно и очень быстро. LightOnOCR выдал чистый текст, DeepSeek - текст с удобными структурными метками.
Qwen3 (Omni и VL) также приблизились к эталону, сохранив абзацы и списки. Результат Qwen3 VL можно назвать идеальным, но он требует больше ресурсов.
Gemma 27B Vision выдала качественный результат, но была медленнее специализированных аналогов.
PaddleOCR VL в целом справилась хорошо, но допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские (например, «МОСКВА» → «MOCKBA»).

Вывод: для оцифровки качественных печатных документов можно смело брать любую быструю специализированную модель.

Рис. 11. Пример работы самой быстрой LightOnOCR — *Рис. 11. Пример работы самой быстрой* LightOnOCR

Тест 2. Суровый рукописный текст (HTR)

А вот здесь началось настоящее расслоение. Распознавание сплошного рукописного текста (Handwritten Text Recognition) - всё ещё сложнейшая задача.

Победители: Qwen3 VL и Qwen3 Omni показали лучший результат. Текст, который они выдали, был не идеален, встречались замены похожих букв, но общий смысл сохранялся, и абзацы были вполне читаемы. Это наиболее жизнеспособные варианты для работы с рукописью.
Середнячок: Gemma 27B Vision справилась средне. Текст можно было разобрать, но требовалась серьёзная постредактура из-за замен слов и неверных переносов.
Проигравшие: LightOnOCR, PaddleOCR VL и DeepSeek OCR с этой задачей не справились. Их результат представлял собой набор несвязных обрывков, искаженных слов и мешанины из кириллицы и латиницы. Для HTR эти модели не подходят.

Вывод: если вам нужно распознавать рукописные документы, на данный момент семейство Qwen3 VL - ваш лучший выбор среди открытых моделей.

Рис. 12. Пример работы LightOnOCR — *Рис. 12. Пример работы* LightOnOCR

Рис. 13. Пример работы Qwen3 VL — *Рис. 13. Пример работы* Qwen3 VL

Выводы и практические рекомендации

Итак, какой инструмент выбрать для вашей задачи?

Потоковая оцифровка простых печатных документов (счета, акты, письма).
Ваш выбор - LightOnOCR 1B (если нужна максимальная скорость) или PaddleOCR VL 0.9B (если важна стабильность распознавания таблиц и возможность запуска на CPU). Это дёшево, быстро и надёжно.
Работа со «сложными» формами (анкеты, отчёты с таблицами, мелким курсивом и рукописными вставками).
Здесь безоговорочный лидер - Qwen3 VL 30B A3B. Эта модель обеспечивает наилучший баланс качества по всем фронтам. Она медленнее, но результат того стоит.
Распознавание сплошного рукописного текста.
Только Qwen3 VL и, с оговорками, Qwen3 Omni. Остальные модели пока не готовы к таким вызовам.

Наш опыт в продакшене

В своих проектах в качестве основной модели мы используем именно семейство Qwen3 VL. Причина проста - универсальность. С хорошо составленным системным промптом эта модель уверенно справляется почти со всеми типами документов, которые нам встречаются: от простых актов до многоязычных таблиц с рукописными пометками. В качестве резервных опций держим PaddleOCR VL (для задач, где критичны только таблицы) и LightOnOCR (для сверхбыстрой обработки простых документов).

В заключение хочется сказать, что мир OCR стремительно меняется. Если раньше мы боролись за каждую букву, то теперь боремся за структуру, контекст и смысл. Лёгкие специализированные модели отлично закрывают 80% рутинных задач, а для самых сложных и критичных кейсов на помощь приходят большие мультимодальные LLM. Главные нерешённые вызовы - это идеальная реконструкция сложных таблиц и полноценное чтение беглого рукописного текста. Но, глядя на текущий прогресс, кажется, и этого ждать осталось не так долго.

Комментарии (32)

shadrap
16.11.2025 07:53
#29118346
Спасибо за обзор ! Насколько я понимаю , Квен может работать на цпу ? Можно ваши тайминги по железу на котором вы запускали модели ? Что есть низкая скорость а что высокая ?
1. aak204 Автор
  16.11.2025 07:53
  #29119466
  Сейчас вышла версия GGUF формата для квена, поэтому да, может. Мы запускали всё на ГПУ. У нас серверная машина, 3xA4000, 256 ОЗУ плюс Xeon. Высокая скорость у нас - это меньше секунды на изображение, квенчик сильно дольше, лайтоср из-за этого выигрывает, конечно.

gmtd
16.11.2025 07:53
#29118370
Где же главный игрок Mistral OCR?
1. pol_pot
  16.11.2025 07:53
  #29118758
  В каком месте он главный. Что бы он сел в лужу достаточно просто боком текст повернуть.
  1. gmtd
    16.11.2025 07:53
    #29118822
    Здесь в комментариях объясняется почему мистраль ocr лучше любой vision llm
    
    https://habr.com/ru/articles/893460/
    
    А здесь пример с метрическими книгами
    
    https://habr.com/ru/articles/895664/
    
    За полгода качество и там и там значительно улучшилось
1. aak204 Автор
  16.11.2025 07:53
  #29119452
  Хорошее уточнение ! Обязательно его рассмотрим в будущем)
  1. SimSonic
    16.11.2025 07:53
    #29120154
    Плюсую, было бы интересно и его увидеть )

Ilya_JOATMON
16.11.2025 07:53
#29118416
Я не понял, это просто потоковое распознавание с командной строки? В Файнридере можно было корректировать места где распознаватель лажал.
1. alan008
  16.11.2025 07:53
  #29118796
  Это распознавание через инференс моделями искусственного интеллекта ) А уж каким способом/фреймворком его вызывать - дело хозяйское (зависит от вашей ОС, железа, используемой модели (локальная или онлайн) и других параметров).
  
  https://habr.com/ru/articles/948934/
  1. aak204 Автор
    16.11.2025 07:53
    #29119488
    Верно, это был инференс, все модели были на vLLM развёрнуты)

alexhu
16.11.2025 07:53
#29118518
Вот мои скорости распознавания текста - текст местами не читаемый на затёртых местах, слабая контрастность и всё остальное мешающее OCR.

Одна страница печаталась за 20 минут в среднем на протяжении 10 часов едедневно и много дней подряд; документация на 45 листов занимала 3 - 3,5 дня. Два дня на напечатать текст, 5 часов на проверку работы, день на сделать чертежи в CAD и отформатировать таблицы; немного перевода в тексте и чертежах не считалось за труд.

Ну это были совершенно не читаемые документы, даже возглавлял небольшую команду по распознаванию этого архива. Модели тогда были не на слуху, а вот OCR перепробовал и в целом перепечатать было легче и быстрее, чем постоянно сравнивать где не распозналось, где неправильно распозналось, где заменило знаки и всё это бесконечно править, Это была техническая документация, ошибки были критично недопустимы.
1. Rive
  16.11.2025 07:53
  #29118540
  Если не секрет, использовался ли перекрёстный контроль команды для контроля ошибок ручного распознавания?
  1. alexhu
    16.11.2025 07:53
    #29118666
    Да, использовался.

sundmoon
16.11.2025 07:53
#29118588
А подскажите пожалуйста, лучшее на сегодня флоу для распознавания пары тысяч вот таких разворотов (фотографии русских метрических книг 18 века).

Или пока рано о таком задумываться?
1. gmtd
  16.11.2025 07:53
  #29118650
  Не рано. Лучшие коммерческие модели типа Gemini pro надо пробовать
  
  Потом, естественно, корректировать, но процентов 80-90 может распознать
  
  А если обучить, то вообще шикарно будет
1. aborouhin
  16.11.2025 07:53
  #29118704
  Яндекс тут пару лет назад рассказывал, как решал такую задачу. К сожалению, их инструменты для этого, как понимаю, не публичные, но если у Вас какой-то некоммерческий проект - может, постучитесь к ним, помогут.
1. 0mogol0
  16.11.2025 07:53
  #29118910
  ну вот тут недавно писали про OCR манускриптов. Правда в комментах авторы упоминали, что в гитхабе вроде лежит старая версия, но наверное можно написать им напрямую и уточнить.
1. aak204 Автор
  16.11.2025 07:53
  #29119474
  Я думаю, либо лучшие модели, которые сейчас есть, как, например, Квен 235Б или Gemini. Ну, либо какие-то коммерческие решения.

tmxx
16.11.2025 07:53
#29118780
так появился Гикабу

dibu28
16.11.2025 07:53
#29119420
Пробовал несколько открытых моделей пол года назад, но у всех у них были проблемы с распознаванием таблиц в сканах печатных документом. И самая большая проблема была с определением направления таблицы - то есть горизонтальная она или вертикальная. (Ну и да ещё с вертикальным текстом в колонках.) Как сейчас с этим обстаят дела? Какие модели сейчас лучше всего распознают документы с таблицами? Qwen3 Omni ?
1. aak204 Автор
  16.11.2025 07:53
  #29119486
  Я думаю, что qwen3 VL большой, например, 235Б, либо же, если касаться только таблиц, paddle VL умеет их отлично распознавать. Там есть настройки, чтобы он понимал ориентацию их, да и вообще довольно гибок в этом плане.

SlavikF
16.11.2025 07:53
#29119600
Qwen3 VL 30B A3B (MoE) - флагман.

Если флагман, то - Qwen3-VL-235B-A22B
1. aak204 Автор
  16.11.2025 07:53
  #29119608
  Это да, но мощности были ограничены на нашей серверной машине, и не все могут запустить 235 кВ локально. Тут рассмотрены модели, которые используются у нас.

RomanVelichkin
16.11.2025 07:53
#29120420
допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские

А вы указывали, какой язык собираетесь распознавать?
1. aak204 Автор
  16.11.2025 07:53
  #29120450
  Конечно)

RomanVelichkin
16.11.2025 07:53
#29120428
PaddleOCR вы можете дообучить и он будет отлично распознавать, а вот LLMки дообучать проблематично
1. aak204 Автор
  16.11.2025 07:53
  #29120454
  Тут данные из интернета, но в нашем проде важно было решение из коробки, так как данных даже для теста не так много, не говоря уж про дообучение.

melodictsk
16.11.2025 07:53
#29121126
Как референс наверное надо было использовать специальный коммерческий продукт по типу Abbyy fine reader. Печатный текст с таблицами лет как 20 распознает лучше современным ллмок. Что в последних версиях не знаю, не было нужды использовать. Но всякую скснированную бухгалтерскую первичку распознает с точностью 99%.
1. aak204 Автор
  16.11.2025 07:53
  #29121160
  Да, знаем об этом решении, но нам нужны были решения с открытым исходным кодом)

brizol
16.11.2025 07:53
#29121774
С печатной таблицей тоже можно справиться, просто не ллмкой. При помощи функций cv2 и numpy можно выявлять таблицу в документе, вырезать её и её ячейки, а потом просить расшифровывать конкретные ячейки и самим восстанавливать таблицу

Dr_Faksov
16.11.2025 07:53
#29121780
Я вас очень сильно огорчу. Модели:

LightOnOCR 1B
Gemma 27B Vision
Qwen3 Omni
Qwen3 VL 30B A3B - с задачей не справились. Все они пропустили букву "ф" в заголовке. Зачем она там нужна - не вашего ума дело. "Водяные знаки" бывают не только в бумаге. В документах такого уровня ошибок не бывает, спросите юристов. Такие документы воспринимаются буквально, побуквенно. Если написано "карава", значит речь идёт про караву, а не про корову, как вам могло показаться. У программы распознавания нет права на редактирование таких бумаг.

Тем кто спросит: "А что, если карава это всё-таки корова, таки ошиблись?" Отвечаю - появится новый документ, за подписью издателя или его руководителя в котором будет сказано что "в документе номер такой-то от такого-то числа слово "карава" читать как "корова"". Только так.

divinecat
16.11.2025 07:53
#29124018
Гугл картинки справляется почти со всем почти идеально

Но я не знаю ни как его на поток поставить ни как ваши штучки, я не из мира IT

Эх...

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера +34

Как заставить LLM работать в режиме OCR: магия системного промпта

Знакомьтесь с участниками

Специализированные OCR/VLM

Универсальные мультимодальные LLM

Битва за сложный документ: результаты основного теста

Дополнительные раунды: идеальная печать и суровая рукопись

Тест 1. Идеальный печатный документ

Тест 2. Суровый рукописный текст (HTR)

Выводы и практические рекомендации

Наш опыт в продакшене

Комментарии (32)

aak204 Автор

aak204 Автор

aak204 Автор

aak204 Автор

aak204 Автор

aak204 Автор

aak204 Автор

aak204 Автор

aak204 Автор