Приходилось ли вам выискивать изменения во вроде бы одинаковых документах вручную? А многостраничные договоры вычитывать доводилось? А если их бывает по 10 штук в неделю?

Да, так бывает, что для вашего контрагента режим правок — шутка. Либо у него может быть свой интерес в том, чтобы в документе появились изменения, о которых до определенного момента вы знать не будете.
В случае с документами одного формата проблем быть не должно, в приложении можно сравнить 2 версии и найти изменения. Но что делать с разноформатными экземплярами?
Вручную: трудно, долго, дорого, с ошибками
С договорами в компаниях работают специалисты разного профиля, не только юристы. Однако устают от «глазной» вычитки объемных документов они примерно одинаково. Засыпает бдительность — просыпается человеческий фактор, и расхождения в документах ускользают от специалиста. Цена ошибки для компании может быть разной: от некритичной неустойки до многолетнего дорогого разбирательства в арбитраже.
Помимо рисков, связанных с условиями договоров, есть другая проблема, которую замечать не всегда принято. На скучную, дотошную ручную работу по проверке документов уходят космические объемы человеко-часов. И если в небольших компаниях нет потребности делегировать сравнение версий договоров машине, то на крупных предприятиях, где количество новых договоров может доходить до 100 в месяц, такая автоматизация целесообразна.
AI-сервисы сделают всё за вас
Так совпало, что в системе Directum СЭД+ со встроенным ИИ есть возможности автоматического сравнения документов разных форматов. Функции эти основываются на механизмах искусственного интеллекта, которые встроены в систему. Обо всем по порядку.
Интеллектуальные сервисы работают с текстовой информацией. Они находят и заносят входящие документы в систему, маршрутизируют их, определяют ответственного и др. Одна из областей их работы — сравнение документов разных форматов.
Чтобы найти отличия в вордовской и PDF-версии, человек внимательно читает оба текста. Офисные приложения обычно «понимают язык» только своего формата.
Интеллектуальные инструменты Directum СЭД+ снимают это ограничение — они извлекают так называемый текстовый слой из обеих версий документа, делая его доступным для машинного прочтения и поиска расхождений.
Важно! AI-сервисы в Directum СЭД+ «дружат» с форматами PDF, DOCX, DOC, RTF, ODT, JPG, JPEG, PNG, BMP, TIF, TIFF, GIF.
Как это работает
На панели действий в карточке документа (или в контекстном меню) можно выбрать, с чем документ сравнивать — с его версией либо с другим документом. В открывшемся окне нужно задать параметры:


Система сообщит о старте сравнения и через короткое время выдаст ссылку на результат:

По умолчанию система будет хранить эти данные в течение трех рабочих дней. Результат сравнения представляет собой PDF-отчет, в котором найденные различия выделяются цветом. Желтым — текст изменений:

Зеленым — добавленный текст:

Красным — удаленный текст:

Если документы не отличаются между собой или, наоборот, абсолютно разные (по ошибке выбрали не тот документ), результат не сформируется.
Что под капотом
Механизмы интеллектуальной обработки документов Directum СЭД+ основаны на технологиях OCR (оптического распознавания символов), NLP (обработки естественного языка), Deep Learning (глубокого обучения для распознавания текста, анализа изображений и обработки неструктурированных данных).
Генеративный искусственный интеллект (LLM - большие языковые модели, RAG - генерация, дополненная поиском) используется в системе для:
создания бизнес-контента: тексты для писем, служебных записок, повесток совещания;
подготовки аннотаций к документам;
нормоконтроля документов на основе правил компании;
вопросно-ответного поиска по документам и базам данных;
выполнения функций ИИ-ассистента.
Подробнее - на странице архитектуры ИИ от Directum.
Как это помогает
Снижаются трудозатраты на сверку документов, нивелируются риски человеческих ошибок, а у сотрудников появляется еще один повод любить свою компанию.
Становится проще определить, что изменилось в тексте с последнего круга согласования — без ресурсоемких вычиток и проверок.
Узнайте обо всех фишках Directum СЭД+.
kkod
В Microsoft Word можно сравнить два документа с выделением различий.
aborouhin
Только часто возникает задачка сравнить не два вордовских документа, а, например, нашу версию в Ворде и подписанный скан, который нам вернули в виде PDF без текстового слоя. Если распознавать PDF и сравнивать исходник с результатом - вылезет куча артефактов OCR, которые Ворд тоже запишет в отличия. Bот тут LLM реально спасают. Вообще для этого отдельных инструментов не надо, если не нужен особо заковыристый формат вывода или встраивание в другой процесс - веб-морды любой LLMки достаточно. Если точность анализа критична - то с ручной проверкой после них, конечно.
AlexRay
Кажется, что если точность критична (а юридические документы почти всегда из этой категории), то лучше уж прогнать через OCR, перевести оба документа в plain text и так сравнить. Результаты нейронки общего назначения (или что вы подразумеваете под встроенным ИИ) слишком недетерминированы, а вот OCR наоборот сейчас стали очень хороши. Тем более что нейронка всё равно делает тот же OCR чтобы получить различия. Более того, в современных OCR под капотом и без того используются специализированные нейросети.
А вообще, статья - реклама без технических подробностей на техническом ресурсе. Ну хоть абзац бы написали про устройство этого вашего "встроенного ИИ". Ну вы же не на форум домохозяек текст пишете, ребята!
aborouhin
После OCR (хоть встроенного Word'овского, хоть Finereader), переводи в текст или не переводи, остаётся куча всяких отличий в количестве пробелов, знаках препинания, написании слитно/раздельно, опечатки какие-то и т.п. Замыливается глаз всё это просматривать и есть риск не увидеть за подобными артефактами значимые отличия. Нейронки в этом плане лучше могут отделить сутевые различия от формальных. Да, с риском ошибок. Так у юриста, который глазами смотрит, - тоже риск ошибок. А качество проверки документа - это всегда баланс затраты/риски. Наверное, оптимальный инструмент должен сочетать оба подхода - посимвольное сравнение выделяет все расхождения, а нейронка отдельно подсвечивает те из них, которые сочтёт существенными. Надо такое написать, что ли :)
А по поводу статьи - согласен с оценкой, безусловно.
E-Chayka Автор
Стыдно, каемся. Добавили 2 абзаца про техническую основу, а подробнее раскрыли тут.