Оптическое распознавание символов

Оптическое распознавание символов или оптическое распознавание символов ( OCR ) - это электронное или механическое преобразование изображений печатного, рукописного или напечатанного текста в машинно-кодированный текст, будь то из отсканированного документа, фотографии документа, фотографии сцены (например, текст на вывесках и рекламных щитах на альбомной фотографии) или из текста субтитров, наложенного на изображение (например: из телетрансляции). ^[1]

">

Воспроизвести медиа

Видео процесса сканирования и оптического распознавания символов (OCR) в реальном времени с помощью портативного сканера.

Широко используется как форма ввода данных из печатных бумажных записей данных - будь то паспортные документы, счета-фактуры, банковские выписки , компьютеризированные квитанции, визитные карточки, почта, распечатки статических данных или любой подходящей документации - это распространенный метод оцифровки печатных документов. тексты, чтобы их можно было редактировать в электронном виде, искать, хранить более компактно, отображать в режиме онлайн и использовать в машинных процессах, таких как когнитивные вычисления , машинный перевод , (извлеченный) преобразование текста в речь , ключевые данные и интеллектуальный анализ текста . OCR - это область исследований в области распознавания образов , искусственного интеллекта и компьютерного зрения .

Ранние версии нужно было обучать с изображениями каждого символа и работать над одним шрифтом за раз. В настоящее время широко распространены передовые системы, способные обеспечить высокую степень точности распознавания для большинства шрифтов, и с поддержкой различных входных форматов файлов цифровых изображений. ^[2] Некоторые системы способны воспроизводить форматированный вывод, который близко соответствует исходной странице, включая изображения, столбцы и другие нетекстовые компоненты.

История

Раннее оптическое распознавание символов можно отнести к технологиям, включающим телеграфию и создание устройств чтения для слепых. ^[3] В 1914 году Эмануэль Голдберг разработал машину, которая считывала символы и преобразовывала их в стандартный телеграфный код. ^[4] Одновременно Эдмунд Фурнье д'Альбе разработал Optophone , портативный сканер, который при перемещении по печатной странице выдавал тона, соответствующие определенным буквам или символам. ^[5]

В конце 1920-х и начале 1930-х годов Эмануэль Голдберг разработал то, что он назвал «статистической машиной» для поиска в архивах микрофильмов с использованием системы оптического распознавания кода. В 1931 году ему был выдан патент США № 1838389 на изобретение. Патент был приобретен IBM .

Слепые и слабовидящие пользователи

В 1974 году Рэй Курцвейл основал компанию Kurzweil Computer Products, Inc. и продолжил разработку омни- шрифтового оптического распознавания текста, которое могло распознавать текст, напечатанный практически любым шрифтом (Курцвейлу часто приписывают изобретение омни-шрифтового оптического распознавания текста, но его использовали компании, включая CompuScan, в конце 1960-х и 1970-х годах ^[3]^[6] ). Курцвейл решил, что лучшим применением этой технологии будет создание читающей машины для слепых, которая позволит слепым людям читать им текст вслух с помощью компьютера. Это устройство потребовало изобретения двух технологий - планшетного сканера ПЗС и синтезатора речи. 13 января 1976 года успешный готовый продукт был представлен во время широко освещаемой пресс-конференции, которую возглавили Курцвейл и руководители Национальной федерации слепых . ^[^{необходима цитата}^] В 1978 году компания Kurzweil Computer Products начала продавать коммерческую версию компьютерной программы оптического распознавания символов. LexisNexis был одним из первых клиентов и купил программу для загрузки юридических и новостных документов в свои зарождающиеся онлайн-базы данных. Два года спустя Курцвейл продал свою компанию Xerox , которая была заинтересована в дальнейшей коммерциализации преобразования текста с бумаги в компьютер. В конце концов Xerox выделила его как Scansoft , которая объединилась с Nuance Communications .

В 2000-х годах OCR было доступно онлайн как услуга (WebOCR), в среде облачных вычислений и в мобильных приложениях, таких как перевод в реальном времени знаков на иностранном языке на смартфоне . С появлением смартфонов и смарт- очков OCR можно использовать в приложениях для мобильных устройств, подключенных к Интернету, которые извлекают текст, снятый с помощью камеры устройства. Эти устройства, которые не имеют встроенных в операционную систему функций OCR, обычно используют API OCR для извлечения текста из файла изображения, захваченного и предоставленного устройством. ^[7]^[8] OCR API возвращает извлеченный текст вместе с информацией о местоположении обнаруженного текста в исходном изображении обратно в приложение устройства для дальнейшей обработки (например, преобразования текста в речь) или отображения.

Для большинства распространенных систем письма доступны различные коммерческие системы OCR и системы оптического распознавания текста с открытым исходным кодом , включая латинские, кириллические, арабские, иврит, индийские, бенгальские (Bangla), деванагари, тамильские, китайские, японские и корейские символы.

Приложения

Механизмы OCR были разработаны во многие виды приложений OCR для конкретных областей, таких как OCR квитанций, OCR счетов, OCR проверки, OCR юридических документов счетов.

Их можно использовать для:

Ввод данных для деловых документов, например чек , паспорт, счет-фактура, выписка из банка и квитанция
Автоматическое распознавание номерных знаков
В аэропортах для распознавания паспортов и получения информации
Автоматическое извлечение ключевой информации из страховых документов ^{[ необходима ссылка ]}
Распознавание дорожных знаков ^[9]
Извлечение информации с визитной карточки в список контактов ^[10]
Более быстрое создание текстовых версий печатных документов, например сканирование книг для Project Gutenberg
Сделайте электронные изображения распечатанных документов доступными для поиска, например, в Google Книгах.
Преобразование рукописного текста в реальном времени для управления компьютером ( перьевые вычисления )
Противодействие системам защиты от ботов CAPTCHA , хотя они специально разработаны для предотвращения распознавания текста. ^[11]^[12]^[13] Целью также может быть проверка устойчивости антибот-систем CAPTCHA.
Вспомогательные технологии для слепых и слабовидящих пользователей
Написание инструкций для транспортных средств путем идентификации изображений САПР в базе данных, которые соответствуют конструкции транспортного средства, поскольку она изменяется в режиме реального времени.
Обеспечение возможности поиска в отсканированных документах путем их преобразования в файлы PDF с возможностью поиска

Типы

Оптическое распознавание символов (OCR) - предназначено для машинописного текста, по одному глифу или символу за раз.
Оптическое распознавание слов - предназначено для машинописного текста, по одному слову за раз (для языков, в которых в качестве разделителя слов используется пробел ). (Обычно просто называется «OCR».)
Интеллектуальное распознавание символов (ICR) - также нацелено на рукописный печатный текст или курсивный текст по одному глифу или символу за раз, обычно с использованием машинного обучения .
Интеллектуальное распознавание слов (IWR) - также нацелено на рукописный печатный или курсивный текст, по одному слову за раз. Это особенно полезно для языков, в которых глифы не разделяются курсивом.

OCR - это обычно автономный процесс, который анализирует статический документ. Существуют облачные сервисы, которые предоставляют онлайн-сервис OCR API. Анализ движения рукописного ввода можно использовать в качестве входных данных для распознавания рукописного ввода . ^[14] Вместо того, чтобы просто использовать формы глифов и слов, этот метод позволяет улавливать движения, такие как порядок, в котором нарисованы сегменты , направление и характер опускания и подъема пера. Эта дополнительная информация может сделать непрерывный процесс более точным. Эта технология также известна как «онлайн-распознавание символов», «динамическое распознавание символов», «распознавание символов в реальном времени» и «интеллектуальное распознавание символов».

Методы

Предварительная обработка

Программное обеспечение OCR часто «предварительно обрабатывает» изображения, чтобы повысить шансы на успешное распознавание. Методы включают: ^[15]

De- skew - Если документ не был выровнен должным образом при сканировании, его, возможно, придется наклонить на несколько градусов по часовой стрелке или против часовой стрелки, чтобы строки текста были идеально горизонтальными или вертикальными.
Despeckle - удалить положительные и отрицательные пятна, сглаживание краев
Бинаризация - преобразование изображения из цветного или в оттенках серого в черно-белое (так называемое « двоичное изображение », потому что существует два цвета). Задача бинаризации выполняется как простой способ отделения текста (или любого другого желаемого компонента изображения) от фона. ^[16] Сама задача бинаризации необходима, поскольку большинство коммерческих алгоритмов распознавания работают только с двоичными изображениями, поскольку это оказывается проще сделать. ^[17] Кроме того, эффективность этапа бинаризации в значительной степени влияет на качество этапа распознавания символов, и при выборе бинаризации, используемой для данного типа входного изображения, принимаются осторожные решения; поскольку качество метода бинаризации, используемого для получения двоичного результата, зависит от типа входного изображения (отсканированный документ, текстовое изображение сцены, исторический ухудшенный документ и т. д.). ^[18]^[19]
Удаление строки - удаляет не-глифовые поля и линии.
Анализ макета или «зонирование» - определяет столбцы, абзацы, заголовки и т. Д. Как отдельные блоки. Особенно важно в многоколоночных макетах и таблицах .
Обнаружение строк и слов - устанавливает базовую линию для форм слов и символов, при необходимости разделяет слова.
Распознавание сценария. В многоязычных документах сценарий может изменяться на уровне слов, и, следовательно, идентификация сценария необходима, прежде чем можно будет вызвать правильное распознавание текста для обработки конкретного сценария. ^[20]
Изоляция символов или «сегментация» - для посимвольного распознавания символов несколько символов, связанных из-за артефактов изображения, должны быть разделены; отдельные символы, которые разбиты на несколько частей из-за артефактов, должны быть соединены.
Нормализовать соотношение сторон и масштаб ^[21]

Сегментация шрифтов с фиксированным шагом выполняется относительно просто путем выравнивания изображения по равномерной сетке на основе того места, где вертикальные линии сетки реже всего пересекают черные области. Для пропорциональных шрифтов необходимы более сложные методы, поскольку пробелы между буквами иногда могут быть больше, чем между словами, а вертикальные линии могут пересекать более одного символа. ^[22]

Распознавание текста

Существует два основных типа основного алгоритма OCR, который может создавать ранжированный список символов-кандидатов. ^[23]

Сопоставление матриц включает в себя сравнение изображения с сохраненным глифом на попиксельной основе; это также известно как «сопоставление с образцом», « распознавание образов » или « корреляция изображений ». Это зависит от того, чтобы входной глиф был правильно изолирован от остальной части изображения, и чтобы сохраненный глиф был написан схожим шрифтом и в том же масштабе. Этот метод лучше всего работает с машинописным текстом и не работает при обнаружении новых шрифтов. Это метод оптического распознавания символов на основе первых физических фотоэлементов, реализованный довольно напрямую.
При извлечении признаков глифы разбиваются на «объекты», такие как линии, замкнутые контуры, направление линий и пересечения линий. Функции извлечения уменьшают размерность представления и делают процесс распознавания эффективным с точки зрения вычислений. Эти функции сравниваются с абстрактным векторным представлением символа, которое может быть сведено к одному или нескольким прототипам глифов. К этому типу оптического распознавания текста применимы общие методы обнаружения признаков в компьютерном зрении , которые обычно встречаются в «интеллектуальном» распознавании рукописного ввода и в большинстве современных программ оптического распознавания текста. ^[24] Классификаторы ближайших соседей, такие как алгоритм k-ближайших соседей , используются для сравнения характеристик изображения с сохраненными функциями глифов и выбора ближайшего совпадения. ^[25]

Такие программы, как Cuneiform и Tesseract, используют двухпроходный подход к распознаванию символов. Второй проход известен как «адаптивное распознавание» и использует формы букв, распознанные с высокой степенью достоверности на первом проходе, чтобы лучше распознать оставшиеся буквы на втором проходе. Это полезно для необычных шрифтов или некачественного сканирования, когда шрифт искажен (например, размыт или блеклый). ^[22]

Современное программное обеспечение OCR, такое как, например, OCRopus или Tesseract, использует нейронные сети, которые были обучены распознавать целые строки текста, а не сосредотачиваться на отдельных символах.

Новый метод, известный как итеративное распознавание текста, автоматически разбивает документ на разделы в зависимости от макета страницы. OCR выполняется для отдельных разделов с использованием пороговых значений уровня достоверности переменных символов, чтобы максимизировать точность распознавания текста на уровне страницы. ^[26]

Результат OCR может быть сохранен в стандартизированном формате ALTO , специальной схеме XML, поддерживаемой Библиотекой Конгресса США . Другие распространенные форматы включают hOCR и PAGE XML.

Список программ оптического распознавания символов см. В разделе Сравнение программ оптического распознавания символов .

Постобработка

Точность распознавания текста можно повысить, если вывод ограничен лексиконом - списком слов, которые могут встречаться в документе. ^[15] Это могут быть, например, все слова английского языка или более техническая лексика для определенной области. Этот метод может быть проблематичным, если документ содержит слова, которых нет в лексиконе, например, имена собственные . Tesseract использует свой словарь, чтобы влиять на шаг сегментации символов для повышения точности. ^[22]

Выходной поток может быть простым текстовым потоком или файлом символов, но более сложные системы оптического распознавания текста могут сохранять исходный макет страницы и создавать, например, аннотированный PDF-файл, который включает как исходное изображение страницы, так и текстовое представление с возможностью поиска. .

«Анализ ближайшего соседа» может использовать частоты совпадения для исправления ошибок, отмечая, что определенные слова часто встречаются вместе. ^[27] Например, «Вашингтон, округ Колумбия», как правило, гораздо чаще встречается в английском, чем «Вашингтонский DOC».

Знание грамматики сканируемого языка также может помочь определить, является ли слово, например, глаголом или существительным, обеспечивая большую точность.

Расстояние Левенштейна алгоритм был также использован в OCR пост-обработки для дальнейших результатов Оптимизировать из API OCR. ^[28]

Оптимизация для конкретных приложений

В последние годы ^{[ когда? ]} основные поставщики технологий OCR начали настраивать системы OCR, чтобы более эффективно обрабатывать определенные типы входных данных. Помимо лексики, связанной с конкретным приложением, более высокая производительность может быть достигнута за счет учета бизнес-правил, стандартного выражения, ^{[ требуется пояснение ]} или обширной информации, содержащейся в цветных изображениях. Эта стратегия называется «Ориентированное на приложение OCR» или «Настраиваемое OCR» и применяется к OCR номерных знаков , счетов-фактур , снимков экрана , удостоверений личности , водительских прав и автомобилестроения .

The New York Times адаптировала технологию OCR в свой собственный инструмент Document Helper , который позволяет их интерактивной команде новостей ускорить обработку документов, которые необходимо просмотреть. Они отмечают, что это позволяет им обрабатывать до 5400 страниц в час при подготовке репортеров к просмотру содержания. ^[29]

Обходные пути

Существует несколько методов решения проблемы распознавания символов с помощью других средств, помимо улучшенных алгоритмов OCR.

Принудительный ввод лучше

Специальные шрифты, такие как шрифты OCR-A , OCR-B или MICR , с точно указанными размерами, интервалами и характерными формами символов, обеспечивают более высокую степень точности при транскрипции при обработке банковских чеков. Однако по иронии судьбы несколько известных механизмов OCR были разработаны для захвата текста в популярных шрифтах, таких как Arial или Times New Roman, и не могут захватывать текст в этих специализированных шрифтах, которые сильно отличаются от широко используемых шрифтов. Поскольку Google Tesseract можно обучить распознавать новые шрифты, он может распознавать шрифты OCR-A, OCR-B и MICR. ^[30]

«Поля гребешков» - это заранее напечатанные поля, которые побуждают людей писать более разборчиво - по одному глифу на поле. ^[27] Они часто печатаются с «выпадающим цветом», который может быть легко удален системой OCR. ^[27]

В Palm OS использовался специальный набор глифов, известный как « Граффити », который похож на печатные английские символы, но упрощен или модифицирован для облегчения распознавания на аппаратном обеспечении платформы с ограниченными вычислительными возможностями. Пользователи должны научиться писать эти специальные символы.

Зональное распознавание текста ограничивает изображение определенной частью документа. Это часто называют «шаблоном OCR».

Краудсорсинг

Краудсорсинг людей для распознавания символов может быстро обрабатывать изображения, такие как компьютерное оптическое распознавание символов, но с более высокой точностью распознавания изображений, чем это достигается с помощью компьютеров. Практические системы включают Amazon Mechanical Turk и reCAPTCHA . Национальная библиотека Финляндии разработала веб - интерфейс для пользователей , чтобы исправить тексты OCRed в стандартизированном формате ALTO. ^[31] Краудсорсинг также использовался не для непосредственного распознавания символов, а для приглашения разработчиков программного обеспечения к разработке алгоритмов обработки изображений, например, с помощью турниров по ранжированию . ^[32]

Точность

По заказу Министерства энергетики США (DOE) Институт исследований информатики (ISRI) имел миссию способствовать совершенствованию автоматизированных технологий для понимания машинно-напечатанных документов, и он провел самый авторитетный из Ежегодных испытаний точности распознавания текста с 1992 года. по 1996 г. ^[33]

Распознавание машинописного текста, написанного латиницей, по- прежнему не является 100% точным даже при наличии четких изображений. Одно исследование, основанное на распознавании газетных страниц 19-го и начала 20-го веков, пришло к выводу, что посимвольная точность оптического распознавания символов для коммерческого программного обеспечения оптического распознавания текста варьировалась от 81% до 99%; ^[34] Полная точность может быть достигнута путем проверки человеком или аутентификации по словарю данных. Другие области, в том числе распознавание рукописного ввода , скорописного почерка и печатного текста в других шрифтах (особенно тех символов восточноазиатского языка, у которых есть много штрихов для одного символа), по-прежнему являются предметом активных исследований. База данных MNIST обычно используются для тестирования способности систем распознавать рукописные цифры.

Показатели точности можно измерить несколькими способами, и то, как они измеряются, может сильно повлиять на сообщаемый уровень точности. Например, если контекст слова (в основном словарный запас) не используется для исправления программным обеспечением, обнаруживающим несуществующие слова, коэффициент символьных ошибок в 1% (точность 99%) может привести к коэффициенту ошибок в 5% (точность 95%). ) или хуже, если измерение основано на том, было ли распознано каждое слово целиком без неправильных букв. ^[35] Использование достаточно большого набора данных так важно в решениях для распознавания рукописного ввода на основе нейронной сети. С другой стороны, создание естественных наборов данных очень сложно и требует много времени. ^[36]

Примером трудностей, присущих оцифровке старого текста, является неспособность OCR различать символы " long s " и "f". ^[37]

Веб-системы OCR для распознавания напечатанного вручную текста на лету стали хорошо известными как коммерческие продукты в последние годы ^{[ когда? ]} (см. историю планшетного ПК ). Степень точности от 80% до 90% для аккуратных, чистых символов, напечатанных вручную, может быть достигнута с помощью программного обеспечения для перьевых вычислений , но этот уровень точности по-прежнему выражается в десятках ошибок на странице, что делает технологию полезной только в очень ограниченных приложениях. ^{[ необходима цитата ]}

Распознавание скорописного текста - активная область исследований, при этом показатели распознавания даже ниже, чем у текста, напечатанного вручную . Более высокая скорость распознавания общего скорописного шрифта, вероятно, будет невозможна без использования контекстной или грамматической информации. Например, распознать целые слова из словаря проще, чем пытаться разобрать отдельные символы из сценария. Чтение строки суммы чека (которая всегда представляет собой выписанное число) является примером, когда использование меньшего словаря может значительно повысить скорость распознавания. Формы отдельных курсивных символов сами по себе просто не содержат достаточно информации для точного (более 98%) распознавания всего рукописного курсива. ^{[ необходима цитата ]}

Большинство программ позволяют пользователям устанавливать «уровень уверенности». Это означает, что если программное обеспечение не достигает желаемого уровня точности, пользователь может быть уведомлен для проверки вручную.

Ошибка, вызванная сканированием OCR, иногда называется «сканно» (по аналогии с термином «опечатка» ). ^[38]^[39]

Юникод

Символы для поддержки OCR были добавлены в стандарт Unicode в июне 1993 года с выпуском версии 1.1.

Некоторые из этих символов отображены из шрифтов, специфичных для MICR , OCR-A или OCR-B .

Оптическое распознавание символов ^[1]^[2]
Официальная таблица кодов Консорциума Unicode (PDF)

0

1

2

3

4

5

6

7

8

9

А

B

C

D

E

F

U + 244x

⑀

⑁

⑂

⑃

⑄

⑅

⑆

⑇

⑈

⑉

⑊

U + 245x

Заметки

1. ^ Начиная с версии Unicode 13.0

2. ^ Серые области указывают неназначенные кодовые точки.

Смотрите также

Эффект ИИ
Приложения искусственного интеллекта
Сравнение программ оптического распознавания символов
Компьютерная лингвистика
Электронная библиотека
Электронная почта
Цифровая ручка
Институциональный репозиторий
Разборчивость
Список новых технологий
Решение для распознавания символов живыми чернилами
Распознавание символов магнитными чернилами
Музыка OCR
OCR на индийских языках
Оптическое распознавание меток
Схема искусственного интеллекта
Распознавание эскиза
Распознавание речи
Двигатель Tesseract OCR
Запись голоса

Внешние ссылки

Unicode OCR - Hex Диапазон: 2440-245F Оптическое распознавание символов в Unicode
Аннотированная библиография ссылок на распознавание символов рукописного ввода и перьевые вычисления

[1] OnDemand, HPE Haven. «Документ OCR» . Архивировано из оригинального 15 апреля 2016 года.

[2] OnDemand, HPE Haven. «не определено» . Архивировано из оригинального 19 апреля 2016 года.

[Scantz82-3] а б Шанц, Герберт Ф. (1982). История OCR, оптического распознавания символов . [Манчестер-центр, Вт]: Ассоциация пользователей технологий распознавания. ISBN 9780943072012.

[4] Давале, Сунита Викрант (10 марта 2017 г.). Расширенные методы обнаружения и фильтрации спама на основе изображений . Херши, Пенсильвания: IGI Global. п. 91. ISBN 9781683180142. Проверено 27 сентября 2019 года .

[5] д'Альбе, ВЭФ (1 июля 1914 г.). «О пишущем оптофоне» . Труды Королевского общества A: математические, физические и инженерные науки . 90 (619): 373–375. Bibcode : 1914RSPSA..90..373D . DOI : 10,1098 / rspa.1914.0061 .

[6] «История OCR». Журнал обработки данных . 12 : 46.1970.

[7] «Извлечение текста из изображений с помощью OCR на Android» . 27 июня, 2015. Архивировано из оригинального 15 марта 2016 года.

[8] «[Учебное пособие] OCR в Google Glass» . 23 октября, 2014. Архивировано из оригинала 5 марта 2016 года.

[Zeng2015-9] Цин-Ань Цзэн (28 октября 2015 г.). Беспроводная связь, сети и приложения: материалы WCNA 2014 . Springer. ISBN 978-81-322-2580-5.

[10] «[javascript] Использование OCR и извлечения сущностей для поиска компании в LinkedIn» . 22 июля, 2014. Архивировано из оригинала 17 апреля 2016 года.

[11] «Как взламывать капчи» . andrewt.net. 28 июня 2006 . Проверено 16 июня 2013 года .

[12] «Нарушение визуальной CAPTCHA» . Cs.sfu.ca. 10 декабря 2002 . Проверено 16 июня 2013 года .

[13] Джон Ресиг (23 января 2009 г.). «Джон Ресиг - OCR и нейронные сети в JavaScript» . Ejohn.org . Проверено 16 июня 2013 года .

[14] Tappert, CC; Suen, CY; Вакахара, Т. (1990). «Современное состояние распознавания почерка в Интернете» . IEEE Transactions по анализу шаблонов и машинному анализу . 12 (8): 787. DOI : 10,1109 / 34,57669 . S2CID 42920826 .

[nicomsoft-15] а б «Оптическое распознавание символов (OCR) - как это работает» . Nicomsoft.com . Проверено 16 июня 2013 года .

[Sezgin2004-16] Сезгин, Мехмет; Санкур, Бюлент (2004). «Обзор методов определения порога изображений и количественная оценка эффективности» (PDF) . Журнал электронного изображения . 13 (1): 146. Bibcode : 2004JEI .... 13..146S . DOI : 10.1117 / 1.1631315 . Архивировано из оригинального (PDF) 16 октября 2015 года . Проверено 2 мая 2015 года .

[Gupta2007-17] Gupta, Maya R .; Джейкобсон, Натаниэль П .; Гарсия, Эрик К. (2007). «Бинаризация OCR и предварительная обработка изображений для поиска исторических документов» (PDF) . Распознавание образов . 40 (2): 389. DOI : 10.1016 / j.patcog.2006.04.043 . Архивировано из оригинального (PDF) 16 октября 2015 года . Проверено 2 мая 2015 года .

[Trier1995-18] Трир, Оейвинд-Дуэ; Джайн, Анил К. (1995). «Целенаправленная оценка методов бинаризации» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 17 (12): 1191–1201. DOI : 10.1109 / 34.476511 . Проверено 2 мая 2015 года .

[Milyaev2013-19] Миляев, Сергей; Баринова, Ольга; Новикова, Татьяна; Коли, Пушмит; Лемпицкий, Виктор (2013). «Бинаризация изображений для полного понимания текста в естественных изображениях» (PDF) . Анализ и признание документов (ICDAR) 2013 . 12-я Международная конференция: 128–132. DOI : 10.1109 / ICDAR.2013.33 . ISBN 978-0-7695-4999-6. S2CID 8947361 . Проверено 2 мая 2015 года .

[20] Пати ПБ; Рамакришнан, А.Г. (29 мая 1987 г.). «Многоканальная идентификация на уровне слов». Письма о распознавании образов . 29 (9): 1218–1229. DOI : 10.1016 / j.patrec.2008.01.027 .

[21] «Базовое распознавание текста в OpenCV | Damiles» . Blog.damiles.com. 20 ноября 2008 . Проверено 16 июня 2013 года .

[Tesseract_overview-22] а б в Рэй Смит (2007). «Обзор движка Tesseract OCR» (PDF) . Архивировано из оригинального (PDF) 28 сентября 2010 года . Проверено 23 мая 2013 года .

[23] «Введение в OCR» . Dataid.com . Проверено 16 июня 2013 года .

[ocrwizard-24] «Как работает программное обеспечение для оптического распознавания текста» . OCRWizard. Архивировано из оригинального 16 августа 2009 года . Проверено 16 июня 2013 года .

[25] «Базовое распознавание образов и классификация с openCV | Damiles» . Blog.damiles.com. 14 ноября 2008 . Проверено 16 июня 2013 года .

[26] ttp://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=POS10,679&s1= & RS = 10 679 089

[explain-27] а б в "Как работает сканирование документов с оптическим распознаванием символов?" . Объясни это. 30 января 2012 . Проверено 16 июня 2013 года .

[28] «Как оптимизировать результаты OCR API при извлечении текста из изображения? - Сообщество разработчиков Haven OnDemand» . Архивировано из оригинального 22 марта 2016 года.

[29] Фер, Тифф, Как мы ускорили просмотр 900 страниц документов Коэна менее чем за 10 минут , Times Insider, The New York Times , 26 марта 2019 г.

[30] «Обучите свой Тессеракт» . Обучите свой Тессеракт . 20 сентября 2018 . Проверено 20 сентября 2018 года .

[31] «В чем смысл онлайн-интерактивного текстового редактора OCR? - Fenno-Ugrica» . 21 февраля 2014 г.

[32] Riedl, C .; Zanibbi, R .; Херст, Массачусетс; Zhu, S .; Menietti, M .; Crusan, J .; Метельский, И .; Лахани, К. (20 февраля 2016 г.). «Обнаружение фигур и меток деталей в патентах: разработка алгоритмов обработки изображений на основе конкуренции». Международный журнал анализа и распознавания документов . 19 (2): 155. arXiv : 1410.6751 . DOI : 10.1007 / s10032-016-0260-8 . S2CID 11873638 .

[33] «Код и данные для оценки точности распознавания текста, первоначально из UNLV / ISRI» . Архив кода Google.

[34] Холли, Роуз (апрель 2009 г.). «Насколько хорошо это может быть? Анализ и повышение точности распознавания текста в программах оцифровки крупномасштабных исторических газет» . Журнал D-Lib . Проверено 5 января 2014 года .

[35] Suen, CY; Plamondon, R .; Tappert, A .; Thomassen, A .; Уорд, младший; Ямамото, К. (29 мая 1987 г.). Будущие проблемы рукописного ввода и компьютерных приложений . 3 - й Международный симпозиум по почерка и компьютерных приложений, Монреаль, 29 мая 1987 года . Проверено 3 октября 2008 года .

[36] Айда Мохсени, Реза Азми, Арвин Малеки, Камран Лаеги (2019). Сравнение синтезированных и естественных наборов данных в решениях для рукописного ввода на основе нейронных сетей . ITCT.CS1 maint: несколько имен: список авторов ( ссылка )

[37] Сарантос Капидакис, Цезари Мазурек, Марцин Верла (2015). Исследования и передовые технологии для электронных библиотек . Springer. п. 257. ISBN. 9783319245928. Проверено 3 апреля 2018 года .CS1 maint: несколько имен: список авторов ( ссылка )

[38] Аткинсон, Кристин Х. (2015). «Изобретая непатентную литературу для патентования фармацевтических препаратов». Патентный фармацевт . 4 (5): 371–375. DOI : 10.4155 / ppa.15.21 . PMID 26389649 .

[39] ttp://www.hoopoes.com/jargon/entry/scanno.shtml Мертвая ссылка

[1]