В компьютерном зрении или обработки естественного языка , анализ макета документа является процесс идентификации и категоризации областей , представляющих интерес в отсканированном изображении текстового документа. Система чтения требует сегментации текстовых зон от нетекстовых и расположения в их правильном порядке чтения. [1] Обнаружение и маркировка различных зон (или блоков) в виде текста , иллюстраций , математических символов и таблиц, встроенных в документ, называется анализом геометрической компоновки . [2]Но текстовые зоны играют разные логические роли внутри документа (заголовки, подписи, сноски и т. Д.), И этот вид семантической маркировки является предметом анализа логического макета .
Анализ макета документа - это сочетание геометрической и логической маркировки. Обычно это выполняется перед отправкой изображения документа в механизм OCR , но его также можно использовать для обнаружения дубликатов одного и того же документа в больших архивах или для индексации документов по их структуре или графическому содержанию.
Формат документа формально определен в международном стандарте ISO 8613-1: 1989 .
Обзор методов
Существует два основных подхода к анализу макета документа. Во-первых, существуют восходящие подходы, которые итеративно анализируют документ на основе необработанных данных пикселей. Эти подходы обычно сначала разбирают документ на связанные области черного и белого, затем эти области группируются в слова, затем в текстовые строки и, наконец, в текстовые блоки. [3] [4] Во-вторых, существуют нисходящие подходы, которые пытаются итеративно разрезать документ на столбцы и блоки на основе пробелов и геометрической информации. [4]
Подходы снизу вверх являются традиционными, и их преимущество состоит в том, что они не требуют допущений относительно общей структуры документа. С другой стороны, восходящие подходы требуют итеративной сегментации и кластеризации, что может занять много времени. [4] Нисходящие подходы новее и имеют то преимущество, что они анализируют глобальную структуру документа напрямую, что устраняет необходимость итеративно кластеризовать вместе, возможно, сотни или даже тысячи символов / символов, которые появляются в документе. Они, как правило, быстрее, но для того, чтобы они работали надежно, они обычно требуют принятия ряда предположений относительно макета документа. [4] Есть две проблемы, общие для любого подхода к анализу макета документа: шум и перекос. Под шумом понимается шум изображения, такой как шум соли и перца или гауссовский шум . Под перекосом понимается тот факт, что изображение документа может быть повернуто таким образом, чтобы строки текста не были идеально горизонтальными. Как в алгоритмах анализа макета документа, так и в алгоритмах оптического распознавания символов распространено предположение, что символы в изображении документа ориентированы таким образом, чтобы строки текста были горизонтальными. Следовательно, если присутствует перекос, важно повернуть изображение документа, чтобы удалить его.
Отсюда следует, что первые шаги в любом коде анализа макета документа - это удалить шум изображения и дать оценку угла перекоса документа.
Пример подхода снизу вверх
В этом разделе мы рассмотрим этапы алгоритма восходящего анализа макета документа, разработанного О`Горманом в 1993 году. [3] Шаги в этом подходе следующие:
- Предварительно обработайте изображение, чтобы удалить гауссовский шум и шум соли и перца. Обратите внимание, что некоторые фильтры удаления шума могут рассматривать запятые и точки как шум, поэтому следует соблюдать осторожность.
- Преобразуйте изображение в двоичное изображение , то есть преобразуйте значение каждого пикселя в полностью белый или полностью черный.
- Разделите изображение на связанные компоненты черных пикселей. Это символы изображения. Для каждого символа вычислите ограничивающую рамку и центроид.
- Для каждого символа определите его k ближайших соседей, где k - целое число, большее или равное четырем. О`Горман в своей статье предлагает k = 5 как хороший компромисс между надежностью и скоростью. Причина использования по крайней мере k = 4 заключается в том, что для символа в документе два или три ближайших символа - это те, которые находятся рядом с ним в той же текстовой строке. Четвертый ближайший символ обычно находится в строке справа выше или ниже, и важно включить эти символы в вычисление ближайшего соседа для следующих целей.
- Каждая пара ближайших соседей связана вектором, указывающим от центроида одного символа к центроиду другого символа. Если эти векторы строятся для каждой пары ближайших соседних символов, то один получает то , что называется docstrum для документа (смотрите рисунок ниже). Можно также использовать угол Θ от горизонтали и расстояние D между двумя ближайшими соседними символами и создать гистограмму угла ближайшего соседа и расстояния до ближайшего соседа.
- С помощью гистограммы угла ближайшего соседа можно вычислить перекос документа. Если перекос достаточно низкий, переходите к следующему шагу. Если это не так, поверните изображение, чтобы убрать перекос, и вернитесь к шагу 3.
- Гистограмма расстояния до ближайшего соседа имеет несколько пиков, и эти пики обычно представляют собой межсимвольный интервал, интервал между словами и межстрочный интервал. Вычислите эти значения по гистограмме и отложите их в сторону.
- Для каждого символа посмотрите на его ближайших соседей и отметьте любой из них, который находится на расстоянии, которое находится в пределах некоторого допуска расстояния между символами или расстояния между словами. Для каждого отмеченного символа ближайшего соседа нарисуйте отрезок линии, соединяющий их центроиды.
- Символы, соединенные со своими соседями линейными сегментами, образуют текстовые строки . Используя все центроиды в текстовой строке, можно вычислить фактический линейный сегмент, представляющий текстовую строку с линейной регрессией. Это важно, потому что маловероятно, что все центроиды символов в текстовой строке на самом деле коллинеарны.
- Для каждой пары текстовых строк можно вычислить минимальное расстояние между соответствующими линейными сегментами. Если это расстояние находится в пределах некоторого допуска межстрочного интервала, рассчитанного на шаге 7, то две текстовые строки группируются в один и тот же текстовый блок .
- Наконец, можно рассчитать ограничивающую рамку для каждого текстового блока, и анализ макета документа завершен.
Программное обеспечение для анализа макета
- OCRopus - Бесплатная система анализа макета документа и OCR, реализованная на C ++ и Python, а также для FreeBSD, Linux и Mac OS X. Это программное обеспечение поддерживает архитектуру плагинов, которая позволяет пользователю выбирать из множества различных анализов макета документа и Алгоритмы OCR.
- OCRFeeder - пакет OCR для Linux, написанный на python, который также поддерживает анализ макета документа. Это программное обеспечение активно разрабатывается, оно является бесплатным и имеет открытый исходный код.
Смотрите также
Внешние ссылки
дальнейшее чтение
- О'Горман, Л. (1993). «Спектр документов для анализа разметки страниц». IEEE Transactions по анализу шаблонов и машинному анализу . 15 (11): 1162–1173. DOI : 10.1109 / 34.244677 .
- Саймон, А .; Pret, J.-C .; Джонсон, AP (1997). «Быстрый алгоритм анализа макета документа снизу вверх». IEEE Transactions по анализу шаблонов и машинному анализу . 19 (3): 273–277. DOI : 10.1109 / 34.584106 .
- Сон-Ван Ли; Дэ-Сок Рю (2001). «Беспараметрический анализ компоновки геометрического документа». IEEE Transactions по анализу шаблонов и машинному анализу . 23 (11): 1240–1256. DOI : 10.1109 / 34.969115 .
- Денгел, Андреас; Барт, Герхард (1989). «АНАСТАСИЛ: гибридная наукоемкая система для анализа верстки документов» . Ijcai'89: 1249–1254. Цитировать журнал требует
|journal=
( помощь )
Рекомендации
- ^ Бэрд, KS (июль 1992 г.). «Анатомия универсального читателя». Труды IEEE . 80 (7): 1059–1065. CiteSeerX 10.1.1.40.8060 . DOI : 10.1109 / 5.156469 .
- ^ Cattoni, R .; Coianiz, T .; Messelodi, S .; Модена, К.М. «Методы анализа геометрического макета для понимания изображения документа: обзор». Цитировать журнал требует
|journal=
( помощь ) - ^ а б О'Горман, Л. (1993). «Спектр документов для анализа разметки страниц». IEEE Transactions по анализу шаблонов и машинному анализу . 15 (11): 1162–1173. DOI : 10.1109 / 34.244677 .
- ^ а б в г Сон-Ван Ли; Дэ-Сок Рю (2001). «Беспараметрический анализ компоновки геометрического документа». IEEE Transactions по анализу шаблонов и машинному анализу . 23 (11): 1240–1256. CiteSeerX 10.1.1.574.7875 . DOI : 10.1109 / 34.969115 .