(Перенаправлено из программы OCR )
Перейти к навигации Перейти к поискуЭто сравнение программного обеспечения для оптического распознавания символов включает:
- Механизмы оптического распознавания символов, которые выполняют фактическую идентификацию символов
- Программное обеспечение для анализа макета, которое разделяет отсканированные документы на зоны, подходящие для OCR
- Графические интерфейсы к одному или нескольким механизмам распознавания текста
- Комплекты для разработки программного обеспечения , которые используются для добавления возможностей оптического распознавания текста в другое программное обеспечение (например, приложения для обработки форм, системы управления изображениями документов, системы электронного обнаружения , решения для управления записями)
Имя | Год основания | Последняя стабильная версия | Год выпуска | Лицензия | В сети | Окна | Mac OS X | Linux | BSD | Android | iOS | Язык программирования | SDK ? | Языки | Шрифты | Форматы вывода | Ноты | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Google Drive OCR или Google Cloud Vision | 2015 г. | Проприетарный | да | Браузер | Браузер | Браузер | Неизвестный | ? | ? | Неизвестный | да | 200+ | Все шрифты | текст | Сообщение в блоге Google [1] [2] | |||
Тессеракт | 1985 г. | 4.1.1 | 2019 г. | Apache | Нет | да | да | да | да | ? | ? | C ++, C | да | 100+ [3] | Любой печатный шрифт | Текст, ALTO , hOCR , [4] PDF, другие с другими пользовательскими интерфейсами [5] или API | Создано Hewlett-Packard ; в стадии дальнейшей разработки Google [6] | |
ABBYY FineReader | 1989 г. | 15 | 2019 г. | Проприетарный | да | да | да | да | да | ? | ? | C / C ++ | да | 192 [7] | Все шрифты | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 [8] | ABBYY также поставляет SDK для встраиваемых и мобильных устройств. Версии Professional, Corporate и Site License для Windows, Express Edition для Mac. [9] | |
Е-Акшараян | 2010 г. | да | Нет | да | Нет | ? | ? | 14 | RTF, TXT, BRL | |||||||||
SDK Asprise OCR | 1998 г. | 15 | 2015 г. | Проприетарный | да | да | да | да | да | ? | ? | Java, C #, VB.NET, C / C ++ / Delphi | да | 20+ [10] | ? | Обычный текст, PDF, XML с возможностью поиска [11] | Пакеты SDK Java, C #, VB.NET, C / C ++ / Delphi для распознавания текста и штрих-кода в Windows, Linux, Mac OS X и Unix. [12] | |
Программное обеспечение AnyDoc | 1989 г. | ? | ? | Проприетарный | Нет | да | Нет | Нет | Нет | ? | ? | VBScript | ? | ? | ? | Работает со структурированными, полуструктурированными и неструктурированными документами. | ||
ConPDS OCR Engine [13] | 2014 г. | 2020.12 | 2020 г. | Проприетарный | Нет | да | Нет | да | Нет | да | да | C / C ++ | Нет, Plug-n-Play | ? | Поддерживаемые шрифты BIC ( стандарт I SO 6346 ) и ILU ( стандарт EN 13044-1 ) | JSON | ConPDS поставляет специально обученный механизм распознавания текста для судоходной и транспортной отрасли. Поддерживаются следующие языки программирования: C / C ++, C #, VB.NET, Java и другие по запросу. | |
CuneiForm | 1996 г. | 1.1 | 2011-04-19 | Вариант BSD | Нет | да | да | да | да | ? | ? | C / C ++ | да | 28 год | Любой печатный шрифт | HTML, hOCR, нативный, RTF, TeX , TXT [14] | Система корпоративного класса, сохраняет форматирование текста и распознает сложные таблицы любой структуры | |
SDK Dynamsoft OCR | 2003 г. | 8,2 | 2012 г. | Проприетарный | да | да | Нет | Нет | Нет | ? | ? | C / C ++ | да | 40+ [15] | ? | PDF, TXT | ||
OmniPage | 1970-е | 19,2 | 2015 г. | Проприетарный | да | да | да | да | Нет | ? | ? | C / C ++, C # [16] | да | 125 [17] | Машинные и ручные шрифты | DOC / DOCX XLS / XLSX PPTX RTF PDF PDF / A PDF с возможностью поиска HTML Текст XML ePUB MP3 | Продукт Nuance Communications | |
Microsoft Office OneNote 2007 | 2011 г. | ? | 2007 г. | Проприетарный | Нет | да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | |||
ГОКР | 2000 г. | 0,52 [18] | 2018-10-15 | GPL | Да [19] | да | да | да | да | ? | ? | C | ? | 20+ | ? | |||
Окрад | ? | 0,26 [20] | 2017-03-31 | GPL | да | Нет | да | да | да | ? | ? | C ++ | да | Латинский алфавит | ? | Командная строка | ||
SmartScore | 1991 г. | 10.5.8 | 2015-07 | Проприетарный | Нет | да | да | Нет | Нет | ? | ? | ? | ? | ? | ? | Для нот | ||
Обработка изображений документов Microsoft Office | ? | Office 2007 | 2007 г. | Проприетарный | Нет | да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | Использует OmniPage [ необходима ссылка ] | ||
Puma.NET | ? | ? | 2009-10-29 | BSD | Нет | да | Нет | Нет | Нет | ? | ? | C # | да | 28 год | Любой печатный шрифт | .NET OCR SDK на основе механизма распознавания CuneiForm от Cognitive Technologies. Обертывает Puma COM-сервер и предоставляет упрощенный API для приложений .NET. | ||
ReadSoft | ? | ? | ? | Проприетарный | Нет | да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | Сканируйте, регистрируйте и классифицируйте бизнес-документы, такие как счета, формы и заказы на поставку, интегрированные с бизнес-процессами. | ||
Scantron | ? | ? | ? | Проприетарный | Нет | да | Нет | Нет | Нет | ? | ? | ? | ? | ? | ? | Для работы с локализованными интерфейсами требуется соответствующая языковая поддержка. | ||
OCRFeeder | 2009-03 | 0.8.1 | 2014-12-22 | GPL | Нет | Нет | Нет | да | Нет | ? | ? | Python | ? | ? | ? | Имеет полный пользовательский интерфейс и инструмент командной строки для автоматических операций. Имеет собственный алгоритм сегментации, но использует общесистемные механизмы распознавания текста, такие как Tesseract или Ocrad. | ||
OCRopus | 2007 г. | 1.3.3 | 2017-12-16 | Apache | Нет | Нет | да | да | да | ? | ? | Python | ? | Все языки с использованием латинского алфавита (другие языки могут быть обучены) | Обычный латинский алфавит и фрактур (другие скрипты можно обучить) | TXT, hOCR, [21] PDF [22] | Подключаемый фреймворк в активной разработке, используется для Google Книг. | |
Имя | Год основания | Последняя стабильная версия | Год выпуска | Лицензия | В сети | Окна | Mac OS X | Linux | BSD | Android | iOS | Язык программирования | SDK? | Языки | Шрифты | Форматы вывода | Ноты |
Оценка [ править ]
Анализ точности и надежности пакетов OCR Google Docs OCR, Tesseract, ABBYY FineReader и Transym с использованием набора данных, включающего 1227 изображений из 15 различных категорий, показал, что Google Docs OCR и ABBYY работают лучше, чем другие. [23]
Ссылки [ править ]
- ^ Дмитрий Гензель; Ашок Попат (6 мая 2015 г.). «Бумага в цифровую форму на 200+ языках» .
- ^ Ashok Popat (4 сентября 2015). «IEEE SPS: оптическое распознавание символов для большинства языков мира» .
- ^ На основе количества файлов языковой подготовки для версии 3.04. Доступно на странице загрузки .
- ^ Использование объяснено в Readme и FAQ по Tesseract
- ^ Например, ODF с OCRFeeder
- ^ «GitHub - tesseract-ocr / tesseract: Tesseract Open Source OCR Engine (основной репозиторий)» . Проверено 5 ноября 2018 .
- ^ «ABBYY FineReader 14: Технические характеристики» . Finereader.abbyy.com . Проверено 23 февраля 2017 .
- ^ «ABBYY FineReader 11: Технические характеристики» . Finereader.abbyy.com . Проверено 12 сентября 2013 .
- ^ «Лучшее программное обеспечение для оптического распознавания текста» . Ocrworld.com. 30 марта 2010 г. Архивировано из оригинала на 2017-02-23 . Проверено 12 сентября 2013 .
- ^ «Возможности Asprise OCR SDK» . asprise.com . Проверено 21 июня 2014 .
- ^ «Возможности библиотеки Asprise Java OCR» . asprise.com . Проверено 21 июня 2014 .
- ^ «Asprise Java, C # / VB.NET OCR API» . asprise.com. 2015-11-19 . Проверено 19 ноября 2015 .
- ^ "Домашняя страница ConPDS" .
- ^ Страница руководства Debian для Cuneiform для Linux версии 1.1.0
- ^ "Загрузка языковых пакетов OCR SDK" . Dynamsoft.com . Проверено 12 сентября 2013 .
- ^ «OmniPage CSDK - OCR Document Capture Toolkit | Document Imaging & OCR» . Нюанс. Архивировано из оригинала на 2010-08-24 . Проверено 12 сентября 2013 .
- ^ «Преобразование стандартного документа OmniPage» . Нюанс. Архивировано из оригинала на 2014-03-13 . Проверено 25 февраля 2014 .
- ^ "Домашняя страница GOCR" . wasd.urz.uni-magdeburg.de . Проверено 17 октября 2018 .
- ^ "ГОКР" . Jocr.sourceforge.net . Проверено 12 сентября 2013 .
- ^ Диас, Антонио (2015-04-16). «Выпущен GNU Ocrad 0.26» (Список рассылки). инфо-гну.
- ^ OCRopus включает инструмент ocropus-hocr, который производит hOCR из результатов распознавания.
- ^ В сочетании с инструментами hocr
- ^ Ассефи, Мехди (2016-12-01). «OCR как услуга: экспериментальная оценка Google Docs OCR, Tesseract, ABBYY FineReader и Transym» . ResearchGate . Проверено 31 января 2019 .