hOCR - это открытый стандарт представления данных для форматированного текста, полученного с помощью оптического распознавания символов (OCR). Определение кодирует текст, стиль, информацию о макете, показатели достоверности распознавания и другую информацию с использованием расширяемого языка разметки (XML) в форме языка гипертекстовой разметки (HTML) или XHTML . [1]
Программное обеспечение
Следующее программное обеспечение OCR может выводить результат распознавания в виде файла hOCR:
Пример
Следующий пример представляет собой отрывок из файла hOCR:
... < p class = 'ocr_par' lang = 'deu' title = "bbox930" > < span class = 'ocr_line' title = "bbox 348 797 1482 838; baseline -0.009 -6" > < span class = 'ocrx_word ' title = ' bbox 348 805 402 832; x_wconf 93 ' > Die span > < span class = ' ocrx_word ' title = ' bbox 421 804 697 832; x_wconf 90 ' > Darlehenssumme span > < span class = ' ocrx_word ' title = ' bbox 717 803 755 831; x_wconf 96 ' > ist span > < span class = ' ocrx_word ' title = ' bbox 773 803 802 831; x_wconf 96 ' > в span > < span class = ' ocrx_word ' title = ' bbox 821 803 917 830; x_wconf 96 ' > ihrem span > < span class = ' ocrx_word ' title = ' bbox 935 799 1180 838; x_wconf 95 ' > ursprünglichen span > < span class = ' ocrx_word ' title = ' bbox 1199 797 1343 832; x_wconf 95 ' > Umfange span > < span class = ' ocrx_word ' title = ' bbox 1362 805 1399 823; x_wconf 95 ' > zu span > < span class = ' ocrx_word ' title = ' bbox 1417 x_wconf 96 ' > ver- span > span > ...
Распознанный текст сохраняется в обычных текстовых узлах HTML-файла. Распределение на отдельные строки и слова здесь задается окружающими тегами span . Кроме того, используются обычные объекты HTML, например тег p для абзаца. Дополнительная информация представлена в таких свойствах, как:
- различные элементы макета, такие как «ocr_par», «ocr_line», «ocrx_word»
- геометрическая информация для каждого элемента с ограничивающей рамкой "bbox"
- языковая информация "lang"
- некоторые значения достоверности "x_wconf"
Смотрите также
- ALTO (XML) - еще один формат представления данных OCR
Рекомендации
- ^ Breuel, Т. (2007-09-01). «Микроформат hOCR для рабочего процесса и результатов OCR». Девятая Международная конференция по анализу и распознаванию документов (ICDAR 2007) . 2 : 1063–1067. DOI : 10.1109 / ICDAR.2007.4377078 . ISBN 978-0-7695-2822-9.