Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Рис. 1. Наш «подопытный»: документ, сочетающий печатный текст разного кегля, рукописные вставки и таблицу с объединенными ячейками.
Рис. 1. Наш «подопытный»: документ, сочетающий печатный текст разного кегля, рукописные вставки и таблицу с объединенными ячейками.

А вот что удалось извлечь из него с помощью стандартного OCR-модуля Tika:

Рис. 2. Результат Apache Tika. Структура потеряна, таблица превратилась в месиво, рукописный текст не распознан. Классика.
Рис. 2. Результат Apache Tika. Структура потеряна, таблица превратилась в месиво, рукописный текст не распознан. Классика.

Именно для решения таких задач на сцену вышли современные мультимодальные модели (VLM - Visual Language Models). Они не просто «читают» текст по буквам, а «смотрят» на изображение целиком, понимают его структуру и возвращают осмысленный результат, например, в готовом Markdown или HTML.

Мы решили провести практическое сравнение и взяли шесть популярных открытых моделей, чтобы стравить их с нашим «кошмарным» документом. А для полноты картины прогнали через них еще два кейса: идеальную печатную страницу и чисто рукописный текст. Поехали!

Как заставить LLM работать в режиме OCR: магия системного промпта

Прежде чем мы перейдем к результатам, важный практический нюанс. Универсальные мультимодальные LLM (такие как Gemma или Qwen) по умолчанию не заточены под OCR. Если просто попросить их «описать картинку», они могут начать фантазировать. Чтобы переключить их в строгий режим оцифровщика, нужен правильный системный промпт. Мы использовали вот такую инструкцию, которая заметно снижает галлюцинации и заставляет модель аккуратно работать со структурой.

Ты - специалист по оцифровке документов.

ЗАДАЧА: Верни весь текст документа.

ФОРМАТ ОТВЕТА:
Выведи весь распознанный текст в формате Markdown.

ВАЖНО:
- Документ может содержать рукописный текст.
- Документ на русском языке.
- Внимательно оформляй таблицы, чтобы они были в формате Markdown. Сохраняй исходную структуру таблиц.

Листинг 1. Системная инструкция для переключения универсальных LLM в «режим OCR».

Знакомьтесь с участниками

Мы разделили модели на две группы, чтобы сравнение было честным.

Специализированные OCR/VLM

Это модели, изначально созданные для задач распознавания и анализа документов.

  1. LightOnOCR 1B - сверхлёгкий спринтер. Эта модель создана с упором на скорость и низкие требования к ресурсам. Идеальна для потоковой обработки, хорошо извлекает печатный текст и почти не галлюцинирует.

  2. DeepSeek OCR (~3B) - структурный аналитик. Открытая модель с интересной идеей «оптического сжатия контекста». Её конёк - структурное распознавание, особенно таблицы и рукописные цифры.

  3. PaddleOCR VL 0.9B - компактный универсал. Маленькая, но мощная модель (NaViT + ERNIE 4.5), которая поддерживает более 100 языков. Её суперсила — восстановление даже самых «ломаных» табличных структур. Может работать даже на CPU.

Универсальные мультимодальные LLM

Это большие языковые модели, которых научили «видеть». Они могут не только распознавать текст, но и рассуждать об изображении.

  1. Gemma 27B Vision - тяжеловес от Google. Крупная модель с большим контекстом. Неплохо справляется с таблицами, но на длинных документах может «забываться» и галлюцинировать в конце вывода.

  2. Qwen3 Omni - швейцарский нож. Модель из «omni modal» семейства от Alibaba, работающая с текстом, картинками, аудио и видео. Демонстрирует высокое качество OCR и формирует аккуратные, читаемые абзацы.

  3. Qwen3 VL 30B A3B (MoE) - флагман. Старшая модель в линейке с огромным контекстом и сильными аналитическими способностями. По нашим наблюдениям, показывает самый ровный и сбалансированный результат по всем критериям.

Критерии оценки были просты: точность текста, сохранение структуры (особенно таблиц), распознавание рукописи, скорость и стабильность (отсутствие галлюцинаций).

Битва за сложный документ: результаты основного теста

Референс
Референс

А теперь самое интересное. Как наши бойцы справились с главным тестовым изображением?

LightOnOCR 1B
Эта модель полностью оправдала свою репутацию спринтера: обработка прошла молниеносно. Общее качество распознавания печатного текста оказалось высоким, а галлюцинаций практически не было. Однако, когда дело дошло до сложной таблицы и рукописных полей, её магия иссякла. Структура таблицы была восстановлена слабо, а рукопись осталась нечитаемой.

Рис. 3. Результат LightOnOCR 1B
Рис. 3. Результат LightOnOCR 1B

DeepSeek OCR
DeepSeek также показал себя быстрым и уверенно справился с таблицей, что является его сильной стороной. Модель даже смогла распознать рукописные числа. Из минусов - частичная потеря оригинального оформления, а полноценный рукописный текст (слова, а не цифры) дался ей с трудом.

Рис. 4. Результат DeepSeek OCR
Рис. 4. Результат DeepSeek OCR

PaddleOCR VL 0.9B
На нашем примере PaddleOCR показала, пожалуй, лучшее общее качество среди специализированных моделей. Она уверенно вытащила даже мелкий курсив, а таблицу восстановила почти идеально, сохранив структуру. Рукописный текст был распознан частично. Единственный компромисс - средняя скорость работы.

Рис. 5. Результат PaddleOCR VL 0.9B
Рис. 5. Результат PaddleOCR VL 0.9B

Gemma 27B Vision
Переходим к тяжеловесам. Gemma хорошо сохранила табличную структуру и распознала рукописные цифры. Однако за это пришлось заплатить скоростью. Кроме того, на длинном выводе мы заметили её склонность к «хвостовым галлюцинациям» - модель начинает додумывать информацию в конце. Распознавание рукописных слов также было неполным.

Рис. 6. Результат Gemma 27B Vision
Рис. 6. Результат Gemma 27B Vision

Qwen3 Omni
Эта модель продемонстрировала высокое качество распознавания печатного текста, включая мелкий курсив, и неплохо справилась с таблицей и рукописными числами. Но, как и Gemma, она работает медленнее специализированных решений, а форматирование сохраняет не идеально.

Рис. 7. Результат Qwen3 Omni
Рис. 7. Результат Qwen3 Omni

Qwen3 VL 30B A3B
Флагманская модель Qwen показала самый сбалансированный и сильный результат. Она отлично справилась со всеми аспектами: печатный текст, мелкий курсив, сложная таблица. А в распознавании рукописного текста (и чисел, и слов) она превзошла всех остальных участников. Цена за такое качество - более низкая скорость по сравнению с лёгкими моделями и не всегда идеальное форматирование.

Рис. 8. Результат Qwen3 VL 30B A3B
Рис. 8. Результат Qwen3 VL 30B A3B

Промежуточный итог: для простых документов с упором на скорость лучше всего подходят LightOnOCR и PaddleOCR VL. Для сложных, комплексных задач, где важна каждая деталь, лидерство захватывает Qwen3 VL. Универсальные модели (Qwen, Gemma) также могут быть полезны для точечного извлечения полей и других интерактивных задач.

Дополнительные раунды: идеальная печать и суровая рукопись

Чтобы проверить модели в крайних условиях, мы взяли еще два изображения: чистую печатную страницу и полностью рукописный текст.

Рис. 9. Тестовый печатный документ
Рис. 9. Тестовый печатный документ
Рис. 10. Тестовый рукописный текст
Рис. 10. Тестовый рукописный текст

Тест 1. Идеальный печатный документ

Здесь почти все модели показали себя достойно, но с нюансами.

  • LightOnOCR и DeepSeek OCR сработали практически эталонно и очень быстро. LightOnOCR выдал чистый текст, DeepSeek - текст с удобными структурными метками.

  • Qwen3 (Omni и VL) также приблизились к эталону, сохранив абзацы и списки. Результат Qwen3 VL можно назвать идеальным, но он требует больше ресурсов.

  • Gemma 27B Vision выдала качественный результат, но была медленнее специализированных аналогов.

  • PaddleOCR VL в целом справилась хорошо, но допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские (например, «МОСКВА» → «MOCKBA»).

Вывод: для оцифровки качественных печатных документов можно смело брать любую быструю специализированную модель.

Рис. 11. Пример работы самой быстрой LightOnOCR
Рис. 11. Пример работы самой быстрой LightOnOCR

Тест 2. Суровый рукописный текст (HTR)

А вот здесь началось настоящее расслоение. Распознавание сплошного рукописного текста (Handwritten Text Recognition) - всё ещё сложнейшая задача.

  • Победители: Qwen3 VL и Qwen3 Omni показали лучший результат. Текст, который они выдали, был не идеален, встречались замены похожих букв, но общий смысл сохранялся, и абзацы были вполне читаемы. Это наиболее жизнеспособные варианты для работы с рукописью.

  • Середнячок: Gemma 27B Vision справилась средне. Текст можно было разобрать, но требовалась серьёзная постредактура из-за замен слов и неверных переносов.

  • Проигравшие: LightOnOCR, PaddleOCR VL и DeepSeek OCR с этой задачей не справились. Их результат представлял собой набор несвязных обрывков, искаженных слов и мешанины из кириллицы и латиницы. Для HTR эти модели не подходят.

Вывод: если вам нужно распознавать рукописные документы, на данный момент семейство Qwen3 VL - ваш лучший выбор среди открытых моделей.

Рис. 12. Пример работы LightOnOCR
Рис. 12. Пример работы LightOnOCR
Рис. 13. Пример работы Qwen3 VL
Рис. 13. Пример работы Qwen3 VL

Выводы и практические рекомендации

Итак, какой инструмент выбрать для вашей задачи?

  1. Потоковая оцифровка простых печатных документов (счета, акты, письма).
    Ваш выбор - LightOnOCR 1B (если нужна максимальная скорость) или PaddleOCR VL 0.9B (если важна стабильность распознавания таблиц и возможность запуска на CPU). Это дёшево, быстро и надёжно.

  2. Работа со «сложными» формами (анкеты, отчёты с таблицами, мелким курсивом и рукописными вставками).
    Здесь безоговорочный лидер - Qwen3 VL 30B A3B. Эта модель обеспечивает наилучший баланс качества по всем фронтам. Она медленнее, но результат того стоит.

  3. Распознавание сплошного рукописного текста.
    Только Qwen3 VL и, с оговорками, Qwen3 Omni. Остальные модели пока не готовы к таким вызовам.

Наш опыт в продакшене

В своих проектах в качестве основной модели мы используем именно семейство Qwen3 VL. Причина проста - универсальность. С хорошо составленным системным промптом эта модель уверенно справляется почти со всеми типами документов, которые нам встречаются: от простых актов до многоязычных таблиц с рукописными пометками. В качестве резервных опций держим PaddleOCR VL (для задач, где критичны только таблицы) и LightOnOCR (для сверхбыстрой обработки простых документов).

В заключение хочется сказать, что мир OCR стремительно меняется. Если раньше мы боролись за каждую букву, то теперь боремся за структуру, контекст и смысл. Лёгкие специализированные модели отлично закрывают 80% рутинных задач, а для самых сложных и критичных кейсов на помощь приходят большие мультимодальные LLM. Главные нерешённые вызовы - это идеальная реконструкция сложных таблиц и полноценное чтение беглого рукописного текста. Но, глядя на текущий прогресс, кажется, и этого ждать осталось не так долго.

Комментарии (14)


  1. shadrap
    16.11.2025 07:53

    Спасибо за обзор ! Насколько я понимаю , Квен может работать на цпу ? Можно ваши тайминги по железу на котором вы запускали модели ? Что есть низкая скорость а что высокая ?


  1. gmtd
    16.11.2025 07:53

    Где же главный игрок Mistral OCR?


    1. pol_pot
      16.11.2025 07:53

      В каком месте он главный. Что бы он сел в лужу достаточно просто боком текст повернуть.


      1. gmtd
        16.11.2025 07:53

        Здесь в комментариях объясняется почему мистраль ocr лучше любой vision llm

        https://habr.com/ru/articles/893460/

        А здесь пример с метрическими книгами

        https://habr.com/ru/articles/895664/

        За полгода качество и там и там значительно улучшилось


  1. Ilya_JOATMON
    16.11.2025 07:53

    Я не понял, это просто потоковое распознавание с командной строки? В Файнридере можно было корректировать места где распознаватель лажал.


    1. alan008
      16.11.2025 07:53

      Это распознавание через инференс моделями искусственного интеллекта ) А уж каким способом/фреймворком его вызывать - дело хозяйское (зависит от вашей ОС, железа, используемой модели (локальная или онлайн) и других параметров).

      https://habr.com/ru/articles/948934/


  1. alexhu
    16.11.2025 07:53

    Вот мои скорости распознавания текста - текст местами не читаемый на затёртых местах, слабая контрастность и всё остальное мешающее OCR.

    Одна страница печаталась за 20 минут в среднем на протяжении 10 часов едедневно и много дней подряд; документация на 45 листов занимала 3 - 3,5 дня. Два дня на напечатать текст, 5 часов на проверку работы, день на сделать чертежи в CAD и отформатировать таблицы; немного перевода в тексте и чертежах не считалось за труд.

    Ну это были совершенно не читаемые документы, даже возглавлял небольшую команду по распознаванию этого архива. Модели тогда были не на слуху, а вот OCR перепробовал и в целом перепечатать было легче и быстрее, чем постоянно сравнивать где не распозналось, где неправильно распозналось, где заменило знаки и всё это бесконечно править, Это была техническая документация, ошибки были критично недопустимы.


    1. Rive
      16.11.2025 07:53

      Если не секрет, использовался ли перекрёстный контроль команды для контроля ошибок ручного распознавания?


      1. alexhu
        16.11.2025 07:53

        Да, использовался.


  1. sundmoon
    16.11.2025 07:53

    А подскажите пожалуйста, лучшее на сегодня флоу для распознавания пары тысяч вот таких разворотов (фотографии русских метрических книг 18 века).

    Или пока рано о таком задумываться?


    1. gmtd
      16.11.2025 07:53

      Не рано. Лучшие коммерческие модели типа Gemini pro надо пробовать

      Потом, естественно, корректировать, но процентов 80-90 может распознать

      А если обучить, то вообще шикарно будет


    1. aborouhin
      16.11.2025 07:53

      Яндекс тут пару лет назад рассказывал, как решал такую задачу. К сожалению, их инструменты для этого, как понимаю, не публичные, но если у Вас какой-то некоммерческий проект - может, постучитесь к ним, помогут.


    1. 0mogol0
      16.11.2025 07:53

      ну вот тут недавно писали про OCR манускриптов. Правда в комментах авторы упоминали, что в гитхабе вроде лежит старая версия, но наверное можно написать им напрямую и уточнить.


  1. tmxx
    16.11.2025 07:53

    так появился Гикабу