Анализ макета документа

В компьютерном зрении или обработке естественного языка анализ макета документа — это процесс идентификации и категоризации областей интереса в отсканированном изображении текстового документа. Система чтения требует отделения текстовых зон от нетекстовых и расположения их в правильном порядке чтения. ^[1] Обнаружение и маркировка различных зон (или блоков) в виде основного текста , иллюстраций , математических символов и таблиц, встроенных в документ, называется анализом геометрического макета . ^[2]Но текстовые зоны играют разные логические роли внутри документа (заголовки, подписи, сноски и т. д.), и такого рода семантическая маркировка является предметом логического анализа макета .

Анализ макета документа представляет собой объединение геометрической и логической маркировки. Обычно это выполняется перед отправкой изображения документа в механизм OCR , но его также можно использовать для обнаружения дубликатов одного и того же документа в больших архивах или для индексации документов по их структуре или графическому содержанию.

Существует два основных подхода к анализу макета документа. Во- первых, существуют восходящие подходы, которые итеративно анализируют документ на основе необработанных данных пикселей. Эти подходы обычно сначала разбивают документ на связанные области черного и белого цветов, затем эти области группируются в слова, затем в текстовые строки и, наконец, в текстовые блоки. ^[3]^[4] Во- вторых, существуют нисходящие подходы, которые пытаются итеративно разрезать документ на столбцы и блоки на основе пробелов и геометрической информации. ^[4]

Подходы «снизу вверх» являются традиционными, и они имеют то преимущество, что не требуют предположений об общей структуре документа. С другой стороны, восходящие подходы требуют итеративной сегментации и кластеризации, что может занять много времени. ^[4] Подходы «сверху вниз» являются более новыми и имеют то преимущество, что они анализируют глобальную структуру документа напрямую, что устраняет необходимость итеративного группирования вместе, возможно, сотен или даже тысяч знаков/символов, которые появляются в документе. Они, как правило, работают быстрее, но для их надежной работы обычно требуется сделать ряд предположений о макете документа. ^[4]Есть две проблемы, общие для любого подхода к анализу макета документа: шум и перекос. Шум относится к шуму изображения, например шуму соли и перца или гауссову шуму . Перекос относится к тому факту, что изображение документа может быть повернуто таким образом, что текстовые строки не будут идеально горизонтальными. Как в алгоритмах анализа макета документа, так и в алгоритмах оптического распознавания символов принято допущение , что символы в изображении документа ориентированы так, что строки текста расположены горизонтально. Поэтому, если присутствует перекос, важно повернуть изображение документа, чтобы удалить его.

Из этого следует, что первыми шагами в любом коде анализа макета документа являются удаление шума изображения и получение оценки угла наклона документа.

В этом разделе мы рассмотрим этапы восходящего алгоритма анализа макета документа, разработанного в 1993 году О`Горманом. ^[3] Шаги в этом подходе следующие: