Обработка форм - это процесс, с помощью которого можно фиксировать информацию, введенную в поля данных, и преобразовывать ее в электронный формат. Это можно сделать вручную или автоматически, но общий процесс состоит в том, что данные на бумажном носителе заполняются людьми, а затем «захватываются» из соответствующих полей и вводятся в базу данных или другой электронный формат.
Обзор
В самом широком смысле системы обработки форм могут варьироваться от обработки небольших форм заявок до крупномасштабных опросных форм с несколькими страницами. При обработке форм вручную возникает несколько распространенных проблем. Это требует огромных утомительных человеческих усилий, данные, введенные пользователем, могут привести к опечаткам, и этот длительный процесс требует многочасового труда. Если формы обрабатываются с использованием приложений, управляемых компьютерным программным обеспечением, эти общие проблемы могут быть решены и сведены к минимуму в значительной степени. Большинство методов обработки форм относятся к следующим областям.
Ручной ввод данных
Этот метод обработки данных предполагает, что операторы вводят данные, найденные в форме. Ручной процесс ввода данных имеет много недостатков в скорости, точности и стоимости. Исходя из средней скорости профессиональной машинистки от 50 до 80 слов в минуту [1], можно щедро оценить примерно двести страниц в час для форм с пятнадцатью полями, состоящими из одного слова (не считая времени на чтение и сортировку страниц). Напротив, современные коммерческие сканеры могут сканировать и оцифровывать до 200 страниц в минуту . [2] Вторым серьезным недостатком ручного ввода данных является вероятность опечаток . С учетом стоимости рабочей силы и рабочего пространства ручной ввод данных является очень неэффективным процессом.
Автоматизированная обработка форм
Этот метод позволяет автоматизировать обработку данных с помощью заранее определенных шаблонов и конфигураций. В этом случае шаблоном будет карта документа с подробным описанием расположения полей данных в форме или документе. По сравнению с процессом ручного ввода данных, системы автоматического ввода форм предпочтительнее, поскольку они помогают уменьшить проблемы, возникающие при ручной обработке данных.
Системы автоматического ввода форм используют различные типы методов распознавания, такие как оптическое распознавание символов (OCR) для машинной печати, оптическое считывание меток (OMR) для флажков / считывателей меток, распознавание штрих-кодов (BCR) для штрих-кодов и интеллектуальное распознавание символов (ICR). ) для ручной печати.
С помощью технологии автоматизированной системы обработки форм пользователи могут преобразовывать документы из отсканированных изображений в компьютерно-читаемый формат, такой как ANSI, XML, CSV, PDF, или вводить непосредственно в базу данных.
Обработка форм вышла за рамки простого сбора данных. Обработка форм не только включает процесс распознавания, но также помогает управлять полным жизненным циклом документов, который начинается от сканирования документа до извлечения данных и часто до доставки в серверную систему. В некоторых случаях это может также включать обработку или создание хорошо отформатированных результатов посредством вычислений и анализа. Автоматизированная система обработки форм может оказаться полезной, если есть необходимость обрабатывать сотни или тысячи изображений каждый день.
Первый шаг: оценка структуры формы
Первым шагом в понимании автоматизированной обработки форм является анализ типа формы, из которой требуется извлечение данных. Формы могут быть классифицированы как одна из двух категорий высокого уровня с точки зрения извлечения данных. Было предложено четыре категории [3], однако индустрия ввода документов решила эти две:
- Фиксированные формы. Этот тип формы определяется как форма, в которой данные для извлечения всегда находятся в одной и той же абсолютной позиции на странице. Это позволяет применять тип линзовой сетки к документу и каждому последующему вхождению этого документа для извлечения данных. Примером фиксированной формы является типичная форма заявки на кредит. [4]
- Полуструктурированная (или неструктурированная) форма. В этой форме расположение данных и полей, содержащих данные, варьируется от документа к документу. Этот тип документа, возможно, легче всего определить по тому факту, что это не фиксированная форма. В индустрии ввода документов полуструктурированная форма также называется неструктурированной формой. Примеры таких форм включают письма, контракты и счета-фактуры. Согласно исследованию AIIM, около 80% документов в организации подпадают под полуструктурированное определение. [5]
Хотя компоненты (описанные ниже), используемые для извлечения данных из любого типа формы, одинаковы, способ их применения значительно различается в зависимости от типа документа.
Составные части
Различные компоненты, включенные в обработку данных с использованием автоматической системы ввода форм, включают:
- OCR - оптическое распознавание символов
- OMR - Оптическое распознавание меток
- ICR - Интеллектуальное распознавание символов
- BCR - Распознавание штрих-кода
- MICR - Распознавание символов с помощью магнитных чернил
OCR распознает машинно-напечатанные прописные и строчные буквы, цифры, символы с диакритическими знаками, многие символы валют , цифры, арифметические символы, расширенные символы пунктуации и многое другое.
ICR распознает напечатанные вручную символы американского и европейского английского языка с использованием предварительно определенных наборов символов: прописные, строчные, смешанные буквы, цифры, валюта (включая $ (доллар), ¢ (цент) € (евро) £ (фунт), ¥ ( Иены)), арифметические символы и знаки препинания (включая точку, запятую, одинарные кавычки , двойные кавычки,! & ()? @ {} \ #% * + - /:; <=>)
MICR - это технология распознавания, облегчающая обработку шрифтов MICR чеков. Это сводит к минимуму вероятность ошибок при очистке чеков. Это также полезно для более простого и быстрого перевода средств. MICR обеспечивает безопасный и высокоскоростной метод сканирования и обработки информации.
Оптическое распознавание меток (OMR) определяет пузырьки, заполненные вручную, или флажки на печатных формах. Обычно OMR поддерживает распознавание одной и нескольких меток. Распознаваемые поля могут быть указаны в виде сеток (строки за столбцами) или одиночных пузырей.
Распознавание штрих-кодов позволяет считывать более 20 отраслевых одномерных и двухмерных штрих-кодов, включая Code39, CODABAR, Interleaved 2 of 5 , Code93 и другие. Он автоматически обнаруживает все штрих-коды на изображении или в указанной области изображения.
Процесс
Процесс обработки автоматизированных форм обычно включает следующие этапы:
- Пакет заполненных форм сканируется с помощью высокоскоростного сканера.
- Изображения очищаются с помощью алгоритмов обработки изображений документа для повышения точности
- Формы классифицируются на основе исходных шаблонных форм, а поля извлекаются с использованием соответствующих компонентов распознавания.
- Поля, отмеченные системой с низкой степенью достоверности, помещаются в очередь на проверку оператором.
- Проверенные данные сохраняются в базе данных или экспортируются в текстовый формат с возможностью поиска, такой как CSV, XML или PDF.
Предпосылки
Хотя автоматическая обработка форм имеет много преимуществ по сравнению с ручным вводом данных, она все же имеет некоторые ограничения. Для достижения максимальной точности необходимо соблюдать некоторые предварительные условия.
- Формат сканирования: включает формат отсканированного файла, разрешение и DPI, цветовой режим.
- Конфигурация: для этой автоматизации необходимо настроить макет отсканированного изображения.
- Признание: заранее определенные форматы вывода
- Результат / анализ: Любой конкретный формат результата представления данных значения захвата.
Одним из очень важных соображений является индексация, определение метаданных, которые будут использоваться для описания данных, содержащихся в документах. Этот атрибут, возможно, стимулирует решение для обработки форм больше, чем любой другой.
Внешние ссылки
Рекомендации
- ^ Терезия Р. Ostrach (1997), Typing Speed: Как быстро Average (PDF) , в архиве с оригинала (PDF) на 2012-05-02
- ^ «Kodak представляет коммерческий сканер i1860 со скоростью 200 страниц в минуту» . Engadget . Проверено 4 ноября 2011 .
- ^ Кузнецов, Сергей О .; Mandal, Deba P .; Кунду, малайский К .; Пал, Санкар Кумар (25.06.2011). Распознавание образов и машинный интеллект: 4-я международная конференция, PReMI 2011, Москва, Россия, 27 июня - 1 июля 2011 г., Труды . Springer. ISBN 9783642217869.
- ^ Васылев, Артур (10 июня 2008 г.). «ЗАХВАТ ПОЛУСТРУКТУРИРОВАННЫХ ФОРМ И ДОКУМЕНТОВ: ЗАДАЧИ И ДОСТУПНЫЕ ТЕХНОЛОГИИ» (PDF) . Архивировано из оригинального (PDF) 28 апреля 2017 года . Проверено 4 апреля 2017 года .
- ^ «Обработка форм - пользовательский опыт распознавания текста и рукописного ввода (OCR / ICR)» (PDF) . Проверено 4 апреля 2017 года .