Анализ макета документа

В компьютерном зрении или обработки естественного языка , анализ макета документа является процесс идентификации и категоризации областей , представляющих интерес в отсканированном изображении текстового документа. Система чтения требует сегментации текстовых зон от нетекстовых и расположения в их правильном порядке чтения. ^[1] Обнаружение и маркировка различных зон (или блоков) в виде текста , иллюстраций , математических символов и таблиц, встроенных в документ, называется анализом геометрической компоновки . ^[2]Но текстовые зоны играют разные логические роли внутри документа (заголовки, подписи, сноски и т. Д.), И этот вид семантической маркировки является предметом анализа логического макета .

Анализ макета документа - это сочетание геометрической и логической маркировки. Обычно это выполняется перед отправкой изображения документа в механизм OCR , но его также можно использовать для обнаружения дубликатов одного и того же документа в больших архивах или для индексации документов по их структуре или графическому содержанию.

Формат документа формально определен в международном стандарте ISO 8613-1: 1989 .

Обзор методов

Существует два основных подхода к анализу макета документа. Во-первых, существуют восходящие подходы, которые итеративно анализируют документ на основе необработанных данных пикселей. Эти подходы обычно сначала разбирают документ на связанные области черного и белого, затем эти области группируются в слова, затем в текстовые строки и, наконец, в текстовые блоки. ^[3]^[4] Во-вторых, существуют нисходящие подходы, которые пытаются итеративно разрезать документ на столбцы и блоки на основе пробелов и геометрической информации. ^[4]

Подходы снизу вверх являются традиционными, и их преимущество состоит в том, что они не требуют допущений относительно общей структуры документа. С другой стороны, восходящие подходы требуют итеративной сегментации и кластеризации, что может занять много времени. ^[4] Нисходящие подходы новее и имеют то преимущество, что они анализируют глобальную структуру документа напрямую, что устраняет необходимость итеративно кластеризовать вместе, возможно, сотни или даже тысячи символов / символов, которые появляются в документе. Они, как правило, быстрее, но для того, чтобы они работали надежно, они обычно требуют принятия ряда предположений относительно макета документа. ^[4] Есть две проблемы, общие для любого подхода к анализу макета документа: шум и перекос. Под шумом понимается шум изображения, такой как шум соли и перца или гауссовский шум . Под перекосом понимается тот факт, что изображение документа может быть повернуто таким образом, чтобы строки текста не были идеально горизонтальными. Как в алгоритмах анализа макета документа, так и в алгоритмах оптического распознавания символов распространено предположение, что символы в изображении документа ориентированы таким образом, чтобы строки текста были горизонтальными. Следовательно, если присутствует перекос, важно повернуть изображение документа, чтобы удалить его.

Отсюда следует, что первые шаги в любом коде анализа макета документа - это удалить шум изображения и дать оценку угла перекоса документа.

Пример подхода снизу вверх

В этом разделе мы рассмотрим этапы алгоритма восходящего анализа макета документа, разработанного О`Горманом в 1993 году. ^[3] Шаги в этом подходе следующие:

Предварительно обработайте изображение, чтобы удалить гауссовский шум и шум соли и перца. Обратите внимание, что некоторые фильтры удаления шума могут рассматривать запятые и точки как шум, поэтому следует соблюдать осторожность.
Преобразуйте изображение в двоичное изображение , то есть преобразуйте значение каждого пикселя в полностью белый или полностью черный.
Разделите изображение на связанные компоненты черных пикселей. Это символы изображения. Для каждого символа вычислите ограничивающую рамку и центроид.
Для каждого символа определите его k ближайших соседей, где k - целое число, большее или равное четырем. О`Горман в своей статье предлагает k = 5 как хороший компромисс между надежностью и скоростью. Причина использования по крайней мере k = 4 заключается в том, что для символа в документе два или три ближайших символа - это те, которые находятся рядом с ним в той же текстовой строке. Четвертый ближайший символ обычно находится в строке справа выше или ниже, и важно включить эти символы в вычисление ближайшего соседа для следующих целей.
Каждая пара ближайших соседей связана вектором, указывающим от центроида одного символа к центроиду другого символа. Если эти векторы строятся для каждой пары ближайших соседних символов, то один получает то , что называется docstrum для документа (смотрите рисунок ниже). Можно также использовать угол Θ от горизонтали и расстояние D между двумя ближайшими соседними символами и создать гистограмму угла ближайшего соседа и расстояния до ближайшего соседа.
С помощью гистограммы угла ближайшего соседа можно вычислить перекос документа. Если перекос достаточно низкий, переходите к следующему шагу. Если это не так, поверните изображение, чтобы убрать перекос, и вернитесь к шагу 3.
Гистограмма расстояния до ближайшего соседа имеет несколько пиков, и эти пики обычно представляют собой межсимвольный интервал, интервал между словами и межстрочный интервал. Вычислите эти значения по гистограмме и отложите их в сторону.
Для каждого символа посмотрите на его ближайших соседей и отметьте любой из них, который находится на расстоянии, которое находится в пределах некоторого допуска расстояния между символами или расстояния между словами. Для каждого отмеченного символа ближайшего соседа нарисуйте отрезок линии, соединяющий их центроиды.
Символы, соединенные со своими соседями линейными сегментами, образуют текстовые строки . Используя все центроиды в текстовой строке, можно вычислить фактический линейный сегмент, представляющий текстовую строку с линейной регрессией. Это важно, потому что маловероятно, что все центроиды символов в текстовой строке на самом деле коллинеарны.
Для каждой пары текстовых строк можно вычислить минимальное расстояние между соответствующими линейными сегментами. Если это расстояние находится в пределах некоторого допуска межстрочного интервала, рассчитанного на шаге 7, то две текстовые строки группируются в один и тот же текстовый блок .
Наконец, можно рассчитать ограничивающую рамку для каждого текстового блока, и анализ макета документа завершен.

Программное обеспечение для анализа макета

OCRopus - Бесплатная система анализа макета документа и OCR, реализованная на C ++ и Python, а также для FreeBSD, Linux и Mac OS X. Это программное обеспечение поддерживает архитектуру плагинов, которая позволяет пользователю выбирать из множества различных анализов макета документа и Алгоритмы OCR.
OCRFeeder - пакет OCR для Linux, написанный на python, который также поддерживает анализ макета документа. Это программное обеспечение активно разрабатывается, оно является бесплатным и имеет открытый исходный код.

Смотрите также

Внешние ссылки

Высокоэффективный анализ макета документа, Томас М. Бройел, PARC, Пало-Альто, Калифорния, США , 2003 г.
Методы анализа геометрической компоновки для понимания изображения документа: обзор, ITC-irst Technical Report TR # 9703-09 , 1998.

дальнейшее чтение

О'Горман, Л. (1993). «Спектр документов для анализа разметки страниц». IEEE Transactions по анализу шаблонов и машинному анализу . 15 (11): 1162–1173. DOI : 10.1109 / 34.244677 .
Саймон, А .; Pret, J.-C .; Джонсон, AP (1997). «Быстрый алгоритм анализа макета документа снизу вверх». IEEE Transactions по анализу шаблонов и машинному анализу . 19 (3): 273–277. DOI : 10.1109 / 34.584106 .
Сон-Ван Ли; Дэ-Сок Рю (2001). «Беспараметрический анализ компоновки геометрического документа». IEEE Transactions по анализу шаблонов и машинному анализу . 23 (11): 1240–1256. DOI : 10.1109 / 34.969115 .
Денгел, Андреас; Барт, Герхард (1989). «АНАСТАСИЛ: гибридная наукоемкая система для анализа верстки документов» . Ijcai'89: 1249–1254. Цитировать журнал требует |journal=( помощь )