Оптическое распознавание символов

Видео процесса сканирования и оптического распознавания символов (OCR) в реальном времени с помощью портативного сканера.

Оптическое распознавание символов или оптическое распознавание символов ( OCR ) - это электронное или механическое преобразование изображений печатного, рукописного или напечатанного текста в машинно-кодированный текст, будь то из отсканированного документа, фотографии документа, фотографии сцены (например, текст на вывесках и рекламных щитах на альбомной фотографии) или из текста субтитров, наложенного на изображение (например: из телетрансляции). ^[1]

Широко используется как форма ввода данных из печатных бумажных записей данных - будь то паспортные документы, счета-фактуры, банковские выписки , компьютеризированные квитанции, визитные карточки, почта, распечатки статических данных или любой подходящей документации - это распространенный метод оцифровки печатных документов. тексты, чтобы их можно было редактировать в электронном виде, искать, хранить более компактно, отображать в режиме онлайн и использовать в машинных процессах, таких как когнитивные вычисления , машинный перевод , (извлеченный) преобразование текста в речь , ключевые данные и интеллектуальный анализ текста . OCR - это область исследований в области распознавания образов , искусственного интеллекта и компьютерного зрения .

Ранние версии нужно было обучать изображениям каждого персонажа и работать над одним шрифтом за раз. В настоящее время распространены передовые системы, способные обеспечить высокую степень точности распознавания для большинства шрифтов, и с поддержкой различных входных форматов файлов цифровых изображений. ^[2] Некоторые системы способны воспроизводить форматированный вывод, который близко соответствует исходной странице, включая изображения, столбцы и другие нетекстовые компоненты.

История [ править ]

Раннее оптическое распознавание символов можно отнести к технологиям, включающим телеграфию и создание устройств чтения для слепых. ^[3] В 1914 году Эмануэль Голдберг разработал машину, которая считывала символы и преобразовывала их в стандартный телеграфный код. ^[4] Одновременно Эдмунд Фурнье д'Альбе разработал Optophone , портативный сканер, который при перемещении по печатной странице выдавал тона, соответствующие определенным буквам или символам. ^[5]

В конце 1920-х и начале 1930-х годов Эмануэль Голдберг разработал то, что он назвал «статистической машиной» для поиска в архивах микрофильмов с использованием системы оптического распознавания кода. В 1931 году ему был выдан патент США № 1838389 на изобретение. Патент был приобретен IBM .

Слепые и слабовидящие пользователи [ править ]

В 1974 году Рэй Курцвейл основал компанию Kurzweil Computer Products, Inc. и продолжил разработку омни- шрифтового оптического распознавания текста, которое могло распознавать текст, напечатанный практически любым шрифтом (Курцвейлу часто приписывают изобретение омни-шрифтового оптического распознавания текста, но его использовали компании, включая CompuScan, в конце 1960-х и 1970-х ^[3]^[6] ). Курцвейл решил, что лучшим применением этой технологии было бы создание читающей машины для слепых, которая позволила бы слепым людям читать им текст вслух с помощью компьютера. Это устройство потребовало изобретения двух технологий - планшетного ПЗС- сканера.и синтезатор текста в речь. 13 января 1976 года успешный готовый продукт был представлен во время широко освещаемой пресс-конференции, которую возглавили Курцвейл и руководители Национальной федерации слепых . ^{[ необходима цитата ]} В 1978 году компания Kurzweil Computer Products начала продавать коммерческую версию компьютерной программы оптического распознавания символов. LexisNexis был одним из первых клиентов и купил программу для загрузки юридических и новостных документов в свои зарождающиеся онлайн-базы данных. Два года спустя Курцвейл продал свою компанию Xerox , которая была заинтересована в дальнейшей коммерциализации преобразования текста с бумаги в компьютер. В конце концов Xerox выделила его как Scansoft., которая объединилась с Nuance Communications .

В 2000-х годах OCR стало доступно онлайн как услуга (WebOCR), в среде облачных вычислений и в мобильных приложениях, таких как перевод в реальном времени знаков на иностранном языке на смартфоне . С появлением смартфонов и смарт- очков OCR можно использовать в приложениях для мобильных устройств, подключенных к Интернету, которые извлекают текст, снятый с помощью камеры устройства. Эти устройства, которые не имеют встроенных в операционную систему функций OCR, обычно используют API OCR для извлечения текста из файла изображения, захваченного и предоставленного устройством. ^[7]^[8] OCR API возвращает извлеченный текст вместе с информацией о местоположении обнаруженного текста в исходном изображении обратно в приложение устройства для дальнейшей обработки (например, преобразования текста в речь) или отображения.

Для большинства распространенных систем письма доступны различные коммерческие системы OCR и системы оптического распознавания текста с открытым исходным кодом , включая латинские, кириллические, арабские, иврит, индийские, бенгальские (Bangla), деванагари, тамильские, китайские, японские и корейские символы.

Приложения [ править ]

Механизмы OCR были разработаны во многие виды приложений OCR для конкретных областей, таких как OCR квитанций, OCR счетов, OCR проверки, OCR юридических документов счетов.

Их можно использовать для:

Ввод данных для деловых документов, например чек , паспорт, счет, выписка из банка и квитанция
Автоматическое распознавание номерных знаков
В аэропортах для распознавания паспортов и получения информации
Автоматическое извлечение ключевой информации из страховых документов ^{[ необходима ссылка ]}
Распознавание дорожных знаков ^[9]
Извлечение информации с визитной карточки в список контактов ^[10]
Более быстрое создание текстовых версий печатных документов, например сканирование книг для Project Gutenberg
Сделайте электронные изображения распечатанных документов доступными для поиска, например Google Книги.
Преобразование рукописного ввода в реальном времени для управления компьютером ( перьевые вычисления )
Победа над системами защиты от ботов CAPTCHA , хотя они специально разработаны для предотвращения распознавания текста. ^[11]^[12]^[13] Целью также может быть проверка устойчивости систем защиты от ботов CAPTCHA.
Вспомогательные технологии для слепых и слабовидящих пользователей
Написание инструкций для транспортных средств путем идентификации изображений САПР в базе данных, которые соответствуют конструкции транспортного средства, поскольку она изменяется в реальном времени.
Обеспечение возможности поиска в отсканированных документах путем их преобразования в файлы PDF с возможностью поиска

Типы [ править ]

Оптическое распознавание символов (OCR) - предназначено для машинописного текста, по одному глифу или символу за раз.
Оптическое распознавание слов - предназначено для машинописного текста, по одному слову за раз (для языков, в которых используется пробел в качестве разделителя слов ). (Обычно просто называется «OCR».)
Интеллектуальное распознавание символов (ICR) - также нацелено на рукописный печатный текст или курсивный текст по одному глифу или символу за раз, обычно с использованием машинного обучения .
Интеллектуальное распознавание слов (IWR) - также нацелено на рукописный печатный или курсивный текст, по одному слову за раз. Это особенно полезно для языков, в которых глифы не разделяются курсивом.

OCR - это обычно автономный процесс, который анализирует статический документ. Существуют облачные сервисы, которые предоставляют онлайн-сервис OCR API. Анализ движения почерка можно использовать в качестве входных данных для распознавания рукописного ввода . ^[14] Вместо того, чтобы просто использовать формы глифов и слов, этот метод позволяет улавливать движения, такие как порядок, в котором нарисованы сегменты , направление и характер опускания и подъема пера. Эта дополнительная информация может повысить точность сквозного процесса. Эта технология также известна как «распознавание символов в режиме онлайн», «динамическое распознавание символов», «распознавание символов в реальном времени» и «интеллектуальное распознавание символов».

Методы [ править ]

Предварительная обработка [ править ]

Программное обеспечение OCR часто «предварительно обрабатывает» изображения, чтобы повысить шансы на успешное распознавание. Методы включают: ^[15]

De- skew - Если документ не был выровнен должным образом при сканировании, возможно, потребуется наклонить его на несколько градусов по часовой стрелке или против часовой стрелки, чтобы сделать строки текста идеально горизонтальными или вертикальными.
Despeckle - удалить положительные и отрицательные пятна, сглаживание краев
Бинаризация - преобразование изображения из цветного или шкалы серого в черно-белое (так называемое « двоичное изображение », потому что существует два цвета). Задача бинаризации выполняется как простой способ отделения текста (или любого другого желаемого компонента изображения) от фона. ^[16] Сама задача бинаризации необходима, поскольку большинство коммерческих алгоритмов распознавания работают только с двоичными изображениями, поскольку это оказывается проще сделать. ^[17]Кроме того, эффективность этапа бинаризации в значительной степени влияет на качество этапа распознавания символов, и при выборе бинаризации, используемой для данного типа входного изображения, принимаются осторожные решения; поскольку качество метода бинаризации, используемого для получения двоичного результата, зависит от типа входного изображения (отсканированный документ, текстовое изображение сцены, исторический ухудшенный документ и т. д.). ^[18]^[19]
Удаление строки - очищает не-глифовые поля и линии.
Анализ макета или «зонирование» - определяет столбцы, абзацы, заголовки и т. Д. Как отдельные блоки. Особенно важно в многоколоночных макетах и таблицах .
Обнаружение строк и слов - устанавливает базовую линию для форм слов и символов, при необходимости разделяет слова.
Распознавание сценария. В многоязычных документах сценарий может изменяться на уровне слов, и, следовательно, идентификация сценария необходима, прежде чем можно будет вызвать правильное распознавание текста для обработки конкретного сценария. ^[20]
Изоляция символов или «сегментация» - для посимвольного OCR несколько символов, связанных из-за артефактов изображения, должны быть разделены; отдельные символы, которые разбиты на несколько частей из-за артефактов, должны быть соединены.
Нормализовать соотношение сторон и масштаб ^[21]

Сегментация шрифтов с фиксированным шагом выполняется относительно просто путем выравнивания изображения по равномерной сетке на основе того места, где вертикальные линии сетки реже всего пересекают черные области. Для пропорциональных шрифтов необходимы более сложные методы, потому что пробелы между буквами иногда могут быть больше, чем между словами, а вертикальные линии могут пересекать более одного символа. ^[22]

Распознавание текста [ править ]

Существует два основных типа основного алгоритма OCR, который может создавать ранжированный список символов-кандидатов. ^[23]

Сопоставление матриц включает в себя сравнение изображения с сохраненным глифом на попиксельной основе; это также известно как «сопоставление с образцом», « распознавание образов » или « корреляция изображений ». Это зависит от того, чтобы входной глиф был правильно изолирован от остальной части изображения, а также от того, что сохраненный глиф имеет аналогичный шрифт и тот же масштаб. Этот метод лучше всего работает с машинописным текстом и не работает при обнаружении новых шрифтов. Это метод оптического распознавания текста на основе первых физических фотоэлементов, реализованный довольно напрямую.

При извлечении признаков глифы разбиваются на «объекты», такие как линии, замкнутые контуры, направление линий и пересечения линий. Функции извлечения уменьшают размерность представления и делают процесс распознавания эффективным с точки зрения вычислений. Эти функции сравниваются с абстрактным векторным представлением символа, которое может быть сведено к одному или нескольким прототипам глифов. К этому типу оптического распознавания текста применимы общие методы обнаружения признаков в компьютерном зрении , которые обычно встречаются в «интеллектуальном» распознавании рукописного ввода и в большинстве современных программ оптического распознавания символов. ^[24] Классификаторы ближайших соседей, такие как алгоритм k-ближайших соседей.используются для сравнения функций изображения с сохраненными функциями глифов и выбора ближайшего соответствия. ^[25]

Такие программы, как Cuneiform и Tesseract, используют двухпроходный подход к распознаванию символов. Второй проход известен как «адаптивное распознавание» и использует формы букв, распознанные с высокой степенью достоверности на первом проходе, чтобы лучше распознать оставшиеся буквы на втором проходе. Это полезно для необычных шрифтов или некачественного сканирования, когда шрифт искажен (например, размыт или блеклый). ^[22]

Современное программное обеспечение OCR, такое как, например, OCRopus или Tesseract, использует нейронные сети, которые были обучены распознавать целые строки текста, а не фокусироваться на отдельных символах.

Новый метод, известный как итеративное распознавание текста, автоматически разбивает документ на разделы в зависимости от макета страницы. OCR выполняется для отдельных разделов с использованием пороговых значений уровня достоверности переменных символов для максимальной точности распознавания на уровне страницы. ^[26]

Результат OCR может быть сохранен в стандартизированном формате ALTO , специальной схеме XML, поддерживаемой Библиотекой Конгресса США . Другие распространенные форматы включают hOCR и PAGE XML.

Список программ оптического распознавания символов см. В разделе Сравнение программ оптического распознавания символов .

Постобработка [ править ]

Точность распознавания текста может быть увеличена, если вывод ограничен лексиконом - списком слов, которые могут встречаться в документе. ^[15] Это могут быть, например, все слова английского языка или более техническая лексика для определенной области. Этот метод может быть проблематичным, если документ содержит слова, которых нет в лексиконе, например, имена собственные . Tesseract использует свой словарь, чтобы влиять на шаг сегментации символов для повышения точности. ^[22]

Выходной поток может быть простым текстовым потоком или файлом символов, но более сложные системы оптического распознавания текста могут сохранять исходный макет страницы и создавать, например, аннотированный PDF-файл, который включает как исходное изображение страницы, так и текстовое представление с возможностью поиска. .

«Анализ ближайшего соседа» может использовать частоты совпадения для исправления ошибок, отмечая, что определенные слова часто встречаются вместе. ^[27] Например, «Вашингтон, округ Колумбия» обычно гораздо чаще встречается в английском, чем «Вашингтонский DOC».

Знание грамматики сканируемого языка также может помочь определить, является ли слово, например, глаголом или существительным, что обеспечивает большую точность.

Расстояние Левенштейна алгоритм был также использован в OCR пост-обработки для дальнейших результатов Оптимизировать из API OCR. ^[28]

Оптимизация для конкретных приложений [ править ]

В последние годы ^{[ когда? ]} основные поставщики технологий OCR начали настраивать системы OCR, чтобы более эффективно обрабатывать определенные типы входных данных. Помимо лексики, связанной с конкретным приложением, более высокая производительность может быть достигнута за счет учета бизнес-правил, стандартных выражений, ^{[ требуется пояснение ]} или обширной информации, содержащейся в цветных изображениях. Эта стратегия называется «Ориентированное на приложение OCR» или «Настраиваемое OCR» и применяется к OCR номерных знаков , счетов-фактур , снимков экрана , идентификационных карт , водительских прав и автомобилестроения .

The New York Times адаптировала технологию OCR в свой собственный инструмент Document Helper , который позволяет их интерактивной команде новостей ускорить обработку документов, которые необходимо просмотреть. Они отмечают, что это позволяет им обрабатывать до 5400 страниц в час, чтобы подготовить репортеров к просмотру содержания. ^[29]

Обходные пути [ править ]

Существует несколько методов решения проблемы распознавания символов с помощью других средств, помимо улучшенных алгоритмов OCR.

Принудительный ввод лучше [ править ]

Специальные шрифты, такие как шрифты OCR-A , OCR-B или MICR , с точно указанными размерами, интервалом и характерной формой символов, обеспечивают более высокую степень точности при транскрипции при обработке банковских чеков. Однако по иронии судьбы несколько известных механизмов распознавания текста были разработаны для захвата текста в популярных шрифтах, таких как Arial или Times New Roman, и не могут захватывать текст в этих специализированных шрифтах, которые сильно отличаются от широко используемых шрифтов. Поскольку Google Tesseract можно обучить распознавать новые шрифты, он может распознавать шрифты OCR-A, OCR-B и MICR. ^[30]

«Поля гребней» - это заранее напечатанные поля, которые побуждают людей писать более разборчиво - по одному глифу на поле. ^[27] Они часто печатаются с «выпадающим цветом», который может быть легко удален системой OCR. ^[27]

В Palm OS использовался специальный набор глифов, известный как « Граффити », который похож на печатные английские символы, но упрощен или модифицирован для облегчения распознавания на аппаратном обеспечении платформы с ограниченными вычислительными возможностями. Пользователи должны научиться писать эти специальные символы.

Зональное распознавание текста ограничивает изображение определенной частью документа. Это часто называют «шаблоном OCR».

Краудсорсинг [ править ]

Краудсорсинг людей для распознавания символов может быстро обрабатывать изображения, такие как компьютерное оптическое распознавание символов, но с более высокой точностью распознавания изображений, чем это достигается с помощью компьютеров. Практические системы включают Amazon Mechanical Turk и reCAPTCHA . Национальная библиотека Финляндии разработала веб - интерфейс для пользователей , чтобы исправить тексты OCRed в стандартизированном формате ALTO. ^[31] Краудсорсинг также использовался не для непосредственного распознавания символов, а для приглашения разработчиков программного обеспечения к разработке алгоритмов обработки изображений, например, с помощью турниров по ранжированию . ^[32]

Точность [ править ]

Эта статья нуждается в обновлении . Обновите эту статью, чтобы отразить недавние события или новую доступную информацию. ( Март 2013 г. )

По заказу Министерства энергетики США (DOE) Институт исследований информатики (ISRI) имел миссию способствовать совершенствованию автоматизированных технологий для понимания машинно-печатных документов и провел самый авторитетный из Ежегодных испытаний точности распознавания текста с 1992 года. по 1996 г. ^[33]

Распознавание машинописного текста, написанного латинскими буквами , по-прежнему не является 100% точным даже при наличии четких изображений. Одно исследование, основанное на распознавании газетных страниц 19-го и начала 20-го веков, пришло к выводу, что посимвольная точность оптического распознавания текста для коммерческого программного обеспечения оптического распознавания текста варьировалась от 81% до 99%; ^[34] Полная точность может быть достигнута путем проверки человеком или аутентификации по словарю данных. Другие области, в том числе распознавание рукописного ввода , скорописного почерка и печатного текста в других шрифтах (особенно для символов восточноазиатских языков, у которых есть много штрихов для одного символа), все еще являются предметом активных исследований. База данных MNIST обычно используются для тестирования способности систем распознавать рукописные цифры.

Показатели точности можно измерить несколькими способами, и то, как они измеряются, может сильно повлиять на сообщаемый уровень точности. Например, если контекст слова (в основном словарный запас слов) не используется для исправления программным обеспечением, обнаруживающим несуществующие слова, коэффициент ошибок символа 1% (точность 99%) может привести к коэффициенту ошибок 5% (точность 95%). ) или хуже, если измерение основано на том, распознается ли каждое слово целиком без неправильных букв. ^[35] Использование достаточно большого набора данных так важно в решениях для распознавания рукописного ввода на основе нейронной сети. С другой стороны, создание естественных наборов данных настолько сложно и требует много времени. ^[36]

Примером трудностей, присущих оцифровке старого текста, является неспособность OCR различать символы « long s » и «f». ^[37]

Веб-системы OCR для распознавания напечатанного вручную текста на лету стали хорошо известными как коммерческие продукты в последние годы ^{[ когда? ]} (см. историю планшетного ПК ). Степень точности от 80% до 90% для аккуратных, чистых символов, напечатанных вручную, может быть достигнута с помощью программного обеспечения для перьевых вычислений , но этот уровень точности по-прежнему выражается в десятках ошибок на странице, что делает технологию полезной только в очень ограниченных приложениях. ^{[ необходима цитата ]}

Распознавание скорописного текста - активная область исследований, при этом показатели распознавания даже ниже, чем у текста, напечатанного вручную . Более высокая скорость распознавания общего скорописного шрифта, вероятно, будет невозможна без использования контекстной или грамматической информации. Например, распознать целые слова из словаря проще, чем пытаться разобрать отдельные символы из сценария. Чтение строки суммы чека (которая всегда представляет собой выписанное число) является примером, когда использование меньшего словаря может значительно повысить скорость распознавания. Сами по себе формы отдельных курсивных символов просто не содержат достаточно информации для точного (более 98%) распознавания всего рукописного курсива. ^{[цитата необходима ]}

Большинство программ позволяют пользователям устанавливать «уровень уверенности». Это означает, что если программное обеспечение не достигает желаемого уровня точности, пользователь может быть уведомлен для проверки вручную.

Ошибка, вызванная сканированием OCR, иногда называется «сканно» (по аналогии с термином «опечатка» ). ^[38]^[39]

Юникод [ править ]

Символы для поддержки OCR были добавлены в стандарт Unicode в июне 1993 года с выпуском версии 1.1.

Некоторые из этих символов отображаются из шрифтов, специфичных для MICR , OCR-A или OCR-B .

Оптическое распознавание символов ^[1]^[2]
Официальная таблица кодов Консорциума Unicode (PDF)

0

1

2

3

4

5

6

7

8

9

А

B

C

D

E

F

U + 244x

⑀

⑁

⑂

⑃

⑄

⑅

⑆

⑇

⑈

⑉

⑊

U + 245x

Примечания

1. ^ Начиная с версии Unicode 13.0

2. ^ Серые области обозначают неназначенные кодовые точки.

См. Также [ править ]

Эффект ИИ
Приложения искусственного интеллекта
Сравнение программ оптического распознавания символов
Компьютерная лингвистика
Цифровая библиотека
Электронная почта
Цифровая ручка
Институциональный репозиторий
Разборчивость
Список новых технологий
Решение для распознавания символов живыми чернилами
Распознавание символов магнитными чернилами
Музыка OCR
OCR на индийских языках
Оптическое распознавание меток
Схема искусственного интеллекта
Распознавание эскиза
Распознавание речи
Движок Tesseract OCR
Запись голоса

Ссылки [ править ]

^ OnDemand, HPE Haven. «Документ OCR» . Архивировано из оригинального 15 апреля 2016 года.
^ OnDemand, HPE Haven. "неопределенный" . Архивировано из оригинального 19 апреля 2016 года.
^ a b Шанц, Герберт Ф. (1982). История OCR, оптического распознавания символов . [Манчестерский центр, Вт]: Ассоциация пользователей технологий распознавания. ISBN 9780943072012.
^ Dhavale, Санита Vikrant (10 марта 2017). Расширенные методы обнаружения и фильтрации спама на основе изображений . Херши, Пенсильвания: IGI Global. п. 91. ISBN 9781683180142. Проверено 27 сентября 2019 года .
^ d'Albe, EEF (1 июля 1914 г.). "О пишущем оптофоне" . Труды Королевского общества A: математические, физические и инженерные науки . 90 (619): 373–375. Bibcode : 1914RSPSA..90..373D . DOI : 10,1098 / rspa.1914.0061 .
^ "История OCR". Журнал обработки данных . 12 : 46.1970.
^ «Извлечение текста из изображений с помощью OCR на Android» . 27 июня, 2015. Архивировано из оригинального 15 марта 2016 года.
^ "[Учебное пособие] OCR на Google Glass" . 23 октября, 2014. Архивировано из оригинала 5 марта 2016 года.
↑ Qing-An Zeng (28 октября 2015 г.). Беспроводная связь, сети и приложения: материалы WCNA 2014 . Springer. ISBN 978-81-322-2580-5.
^ "[javascript] Использование оптического распознавания текста и извлечения объектов для поиска компании в LinkedIn" . 22 июля, 2014. Архивировано из оригинала 17 апреля 2016 года.
^ «Как взломать капчи» . andrewt.net. 28 июня 2006 . Проверено 16 июня 2013 года .
^ "Нарушение визуальной CAPTCHA" . Cs.sfu.ca. 10 декабря 2002 . Проверено 16 июня 2013 года .
^ Резиг (23 января 2009). «Джон Ресиг - OCR и нейронные сети в JavaScript» . Ejohn.org . Проверено 16 июня 2013 года .
^ Tappert, CC; Suen, CY; Вакахара, Т. (1990). «Современное состояние распознавания рукописного ввода в Интернете» . IEEE Transactions по анализу шаблонов и машинному анализу . 12 (8): 787. DOI : 10,1109 / 34,57669 . S2CID 42920826 .
^ a b «Оптическое распознавание символов (OCR) - как это работает» . Nicomsoft.com . Проверено 16 июня 2013 года .
^ Сезгин, Мехмет; Санкур, Бюлент (2004). «Обзор методов пороговой обработки изображений и количественная оценка эффективности» (PDF) . Журнал электронного изображения . 13 (1): 146. Bibcode : 2004JEI .... 13..146S . DOI : 10.1117 / 1.1631315 . Архивировано из оригинального (PDF) 16 октября 2015 года . Проверено 2 мая 2015 года .
^ Гупта, Майя Р .; Джейкобсон, Натаниэль П .; Гарсия, Эрик К. (2007). «Бинаризация OCR и предварительная обработка изображений для поиска исторических документов» (PDF) . Распознавание образов . 40 (2): 389. DOI : 10.1016 / j.patcog.2006.04.043 . Архивировано из оригинального (PDF) 16 октября 2015 года . Проверено 2 мая 2015 года .
^ Трир, Oeivind Due; Джайн, Анил К. (1995). «Целенаправленная оценка методов бинаризации» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 17 (12): 1191–1201. DOI : 10.1109 / 34.476511 . Проверено 2 мая 2015 года .
^ Миляев, Сергей; Баринова, Ольга; Новикова, Татьяна; Коли, Пушмит; Лемпицкий, Виктор (2013). «Бинаризация изображений для полного понимания текста в естественных изображениях» (PDF) . Анализ и признание документов (ICDAR) 2013 . 12-я Международная конференция: 128–132. DOI : 10.1109 / ICDAR.2013.33 . ISBN 978-0-7695-4999-6. S2CID 8947361 . Проверено 2 мая 2015 года .
^ Пати, ПБ; Рамакришнан, А.Г. (29 мая 1987 г.). «Многоканальная идентификация на уровне слов». Письма с распознаванием образов . 29 (9): 1218–1229. DOI : 10.1016 / j.patrec.2008.01.027 .
^ "Базовое распознавание текста в OpenCV | Damiles" . Blog.damiles.com. 20 ноября 2008 . Проверено 16 июня 2013 года .
^ a b c Рэй Смит (2007). «Обзор движка Tesseract OCR» (PDF) . Архивировано из оригинального (PDF) 28 сентября 2010 года . Проверено 23 мая 2013 года .
^ «Введение в OCR» . Dataid.com . Проверено 16 июня 2013 года .
^ «Как работает программа оптического распознавания текста» . OCRWizard. Архивировано из оригинального 16 августа 2009 года . Проверено 16 июня 2013 года .
^ "Базовое распознавание образов и классификация с openCV | Damiles" . Blog.damiles.com. 14 ноября 2008 . Проверено 16 июня 2013 года .
^ http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=POS10,679&s1= & RS = 10 679 089
^ a b c "Как работает сканирование документов OCR?" . Объясни это. 30 января 2012 . Проверено 16 июня 2013 года .
^ «Как оптимизировать результаты OCR API при извлечении текста из изображения? - Сообщество разработчиков Haven OnDemand» . Архивировано из оригинального 22 марта 2016 года.
^ Фер, Тифф, Как мы ускорили просмотр 900 страниц документов Коэна менее чем за 10 минут , Times Insider, The New York Times , 26 марта 2019 г.
^ "Обучите свой Тессеракт" . Обучите свой Тессеракт . 20 сентября 2018 . Проверено 20 сентября 2018 года .
^ "В чем смысл интерактивного текстового редактора OCR? - Fenno-Ugrica" . 21 февраля 2014 года.
^ Riedl, C .; Zanibbi, R .; Херст, Массачусетс; Zhu, S .; Menietti, M .; Crusan, J .; Метельский, И .; Лахани, К. (20 февраля 2016 г.). «Обнаружение фигур и обозначений деталей в патентах: разработка алгоритмов обработки изображений на основе конкуренции». Международный журнал анализа и распознавания документов . 19 (2): 155. arXiv : 1410.6751 . DOI : 10.1007 / s10032-016-0260-8 . S2CID 11873638 .
^ «Код и данные для оценки точности распознавания текста, первоначально из UNLV / ISRI» . Архив кода Google.
^ Holley, Rose (апрель 2009). «Насколько хорошо это может быть? Анализ и повышение точности оптического распознавания текста в масштабных программах оцифровки исторических газет» . Журнал D-Lib . Проверено 5 января 2014 года .
^ Suen, CY; Plamondon, R .; Tappert, A .; Thomassen, A .; Уорд, младший; Ямамото, К. (29 мая 1987 г.). Будущие проблемы рукописного ввода и компьютерных приложений . 3 - й Международный симпозиум по почерка и компьютерных приложений, Монреаль, 29 мая 1987 года . Проверено 3 октября 2008 года .
^ Айда Мохсени, Реза Азми, Арвин Maleki, Камран Layeghi (2019). Сравнение синтезированных и естественных наборов данных в решениях для рукописного ввода на основе нейронных сетей . ITCT.CS1 maint: несколько имен: список авторов ( ссылка )
^ Сарантос Капидакис, Цезари Мазурек, Марчин Верла (2015). Исследования и передовые технологии для электронных библиотек . Springer. п. 257. ISBN. 9783319245928. Проверено 3 апреля 2018 года .CS1 maint: несколько имен: список авторов ( ссылка )
^ Аткинсон, Кристин Х. (2015). «Изобретая непатентную литературу для патентования фармацевтических препаратов». Патентный фармацевт . 4 (5): 371–375. DOI : 10.4155 / ppa.15.21 . PMID 26389649 .
^ http://www.hoopoes.com/jargon/entry/scanno.shtml Мертвая ссылка

Внешние ссылки [ править ]

Викискладе есть медиафайлы, связанные с оптическим распознаванием символов .

Unicode OCR - Hex Диапазон: 2440-245F Оптическое распознавание символов в Unicode
Аннотированная библиография ссылок на распознавание символов рукописного ввода и перьевые вычисления

[1] OnDemand, HPE Haven. «Документ OCR» . Архивировано из оригинального 15 апреля 2016 года.

[2] OnDemand, HPE Haven. "неопределенный" . Архивировано из оригинального 19 апреля 2016 года.

[Scantz82-3] Шанц, Герберт Ф. (1982). История OCR, оптического распознавания символов . [Манчестерский центр, Вт]: Ассоциация пользователей технологий распознавания. ISBN 9780943072012.

[4] Dhavale, Санита Vikrant (10 марта 2017). Расширенные методы обнаружения и фильтрации спама на основе изображений . Херши, Пенсильвания: IGI Global. п. 91. ISBN 9781683180142. Проверено 27 сентября 2019 года .

[5] 'Albe, EEF (1 июля 1914 г.). "О пишущем оптофоне" . Труды Королевского общества A: математические, физические и инженерные науки . 90 (619): 373–375. Bibcode : 1914RSPSA..90..373D . DOI : 10,1098 / rspa.1914.0061 .

[6] "История OCR". Журнал обработки данных . 12 : 46.1970.

[7] «Извлечение текста из изображений с помощью OCR на Android» . 27 июня, 2015. Архивировано из оригинального 15 марта 2016 года.

[8] "[Учебное пособие] OCR на Google Glass" . 23 октября, 2014. Архивировано из оригинала 5 марта 2016 года.

[Zeng2015-9] Qing-An Zeng (28 октября 2015 г.). Беспроводная связь, сети и приложения: материалы WCNA 2014 . Springer. ISBN 978-81-322-2580-5.

[10] "[javascript] Использование оптического распознавания текста и извлечения объектов для поиска компании в LinkedIn" . 22 июля, 2014. Архивировано из оригинала 17 апреля 2016 года.

[11] «Как взломать капчи» . andrewt.net. 28 июня 2006 . Проверено 16 июня 2013 года .

[12] "Нарушение визуальной CAPTCHA" . Cs.sfu.ca. 10 декабря 2002 . Проверено 16 июня 2013 года .

[13] Резиг (23 января 2009). «Джон Ресиг - OCR и нейронные сети в JavaScript» . Ejohn.org . Проверено 16 июня 2013 года .

[14] Tappert, CC; Suen, CY; Вакахара, Т. (1990). «Современное состояние распознавания рукописного ввода в Интернете» . IEEE Transactions по анализу шаблонов и машинному анализу . 12 (8): 787. DOI : 10,1109 / 34,57669 . S2CID 42920826 .

[nicomsoft-15] «Оптическое распознавание символов (OCR) - как это работает» . Nicomsoft.com . Проверено 16 июня 2013 года .

[Sezgin2004-16] Сезгин, Мехмет; Санкур, Бюлент (2004). «Обзор методов пороговой обработки изображений и количественная оценка эффективности» (PDF) . Журнал электронного изображения . 13 (1): 146. Bibcode : 2004JEI .... 13..146S . DOI : 10.1117 / 1.1631315 . Архивировано из оригинального (PDF) 16 октября 2015 года . Проверено 2 мая 2015 года .

[Gupta2007-17] Гупта, Майя Р .; Джейкобсон, Натаниэль П .; Гарсия, Эрик К. (2007). «Бинаризация OCR и предварительная обработка изображений для поиска исторических документов» (PDF) . Распознавание образов . 40 (2): 389. DOI : 10.1016 / j.patcog.2006.04.043 . Архивировано из оригинального (PDF) 16 октября 2015 года . Проверено 2 мая 2015 года .

[Trier1995-18] Трир, Oeivind Due; Джайн, Анил К. (1995). «Целенаправленная оценка методов бинаризации» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 17 (12): 1191–1201. DOI : 10.1109 / 34.476511 . Проверено 2 мая 2015 года .

[Milyaev2013-19] Миляев, Сергей; Баринова, Ольга; Новикова, Татьяна; Коли, Пушмит; Лемпицкий, Виктор (2013). «Бинаризация изображений для полного понимания текста в естественных изображениях» (PDF) . Анализ и признание документов (ICDAR) 2013 . 12-я Международная конференция: 128–132. DOI : 10.1109 / ICDAR.2013.33 . ISBN 978-0-7695-4999-6. S2CID 8947361 . Проверено 2 мая 2015 года .

[20] Пати, ПБ; Рамакришнан, А.Г. (29 мая 1987 г.). «Многоканальная идентификация на уровне слов». Письма с распознаванием образов . 29 (9): 1218–1229. DOI : 10.1016 / j.patrec.2008.01.027 .

[21] "Базовое распознавание текста в OpenCV | Damiles" . Blog.damiles.com. 20 ноября 2008 . Проверено 16 июня 2013 года .

[Tesseract_overview-22] Рэй Смит (2007). «Обзор движка Tesseract OCR» (PDF) . Архивировано из оригинального (PDF) 28 сентября 2010 года . Проверено 23 мая 2013 года .

[23] «Введение в OCR» . Dataid.com . Проверено 16 июня 2013 года .

[ocrwizard-24] «Как работает программа оптического распознавания текста» . OCRWizard. Архивировано из оригинального 16 августа 2009 года . Проверено 16 июня 2013 года .

[25] "Базовое распознавание образов и классификация с openCV | Damiles" . Blog.damiles.com. 14 ноября 2008 . Проверено 16 июня 2013 года .

[26] ttp://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=POS10,679&s1= & RS = 10 679 089

[explain-27] "Как работает сканирование документов OCR?" . Объясни это. 30 января 2012 . Проверено 16 июня 2013 года .

[28] «Как оптимизировать результаты OCR API при извлечении текста из изображения? - Сообщество разработчиков Haven OnDemand» . Архивировано из оригинального 22 марта 2016 года.

[29] Фер, Тифф, Как мы ускорили просмотр 900 страниц документов Коэна менее чем за 10 минут , Times Insider, The New York Times , 26 марта 2019 г.

[30] "Обучите свой Тессеракт" . Обучите свой Тессеракт . 20 сентября 2018 . Проверено 20 сентября 2018 года .

[31] "В чем смысл интерактивного текстового редактора OCR? - Fenno-Ugrica" . 21 февраля 2014 года.

[32] Riedl, C .; Zanibbi, R .; Херст, Массачусетс; Zhu, S .; Menietti, M .; Crusan, J .; Метельский, И .; Лахани, К. (20 февраля 2016 г.). «Обнаружение фигур и обозначений деталей в патентах: разработка алгоритмов обработки изображений на основе конкуренции». Международный журнал анализа и распознавания документов . 19 (2): 155. arXiv : 1410.6751 . DOI : 10.1007 / s10032-016-0260-8 . S2CID 11873638 .

[33] «Код и данные для оценки точности распознавания текста, первоначально из UNLV / ISRI» . Архив кода Google.

[34] Holley, Rose (апрель 2009). «Насколько хорошо это может быть? Анализ и повышение точности оптического распознавания текста в масштабных программах оцифровки исторических газет» . Журнал D-Lib . Проверено 5 января 2014 года .

[35] Suen, CY; Plamondon, R .; Tappert, A .; Thomassen, A .; Уорд, младший; Ямамото, К. (29 мая 1987 г.). Будущие проблемы рукописного ввода и компьютерных приложений . 3 - й Международный симпозиум по почерка и компьютерных приложений, Монреаль, 29 мая 1987 года . Проверено 3 октября 2008 года .

[36] Айда Мохсени, Реза Азми, Арвин Maleki, Камран Layeghi (2019). Сравнение синтезированных и естественных наборов данных в решениях для рукописного ввода на основе нейронных сетей . ITCT.CS1 maint: несколько имен: список авторов ( ссылка )

[37] Сарантос Капидакис, Цезари Мазурек, Марчин Верла (2015). Исследования и передовые технологии для электронных библиотек . Springer. п. 257. ISBN. 9783319245928. Проверено 3 апреля 2018 года .CS1 maint: несколько имен: список авторов ( ссылка )

[38] Аткинсон, Кристин Х. (2015). «Изобретая непатентную литературу для патентования фармацевтических препаратов». Патентный фармацевт . 4 (5): 371–375. DOI : 10.4155 / ppa.15.21 . PMID 26389649 .

[39] ttp://www.hoopoes.com/jargon/entry/scanno.shtml Мертвая ссылка

[1]

vтеПрограммное обеспечение для оптического распознавания символов
Бесплатно программное обеспечение	CuneiForm GOCR Окрад OCRFeeder OCRopus Тессеракт
Проприетарное программное обеспечение	ABBYY FineReader Asprise OCR Обработка изображений документов Microsoft Office OmniPage ReadSoft SmartScore TeleForm VueScan
Смотрите также	Сравнение программ оптического распознавания символов

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Обучение онтологии Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Интеллектуального ввода текста Программа проверки орфографии Подбор синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс