Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

OCRFeeder - это пакет оптического распознавания символов для GNOME , который также поддерживает практически любой движок OCR командной строки, такой как CuneiForm , GOCR , Ocrad и Tesseract . Он преобразует бумажные документы в файлы цифровых документов и может сделать их доступными для пользователей с ослабленным зрением.

OCRFeeder - бесплатное программное обеспечение с открытым исходным кодом, на которое распространяются условия Стандартной общественной лицензии GNU (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.

История [ править ]

Хоаким Роша представляет OCRFeeder на саммите по настольным компьютерам на Гран-Канарии в июле 2009 г.

OCRFeeder был начат как магистерская диссертация по информатике Хоакимом Роча [3], который позже был нанят Igalia , SL и продолжил там развитие. [4] [5]

Первая версия была опубликована в марте 2009 года. [6] Проект OCRFeeder изначально был опубликован и размещен на Google Code , временно использовал Gitorious [7] и теперь использует инфраструктуру GNOME. [8] С 5 апреля 2010 года программный пакет включен в официальные репозитории Debian. [9]

Версия 0.7 от 30 июля 2010 г. содержит функции предварительной обработки изображений, версия 0.7.1 (8 ноября 2010 г.) включена для доступа к сканеру из OCRFeeder.

Особенности [ править ]

OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с Руководством по человеческому интерфейсу GNOME . Он выполняет анализ макета документа и передает макет в поддерживаемые форматы вывода. Он ищет области содержимого, выделяет их и угадывает тип содержимого (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм распознавания текста из командной строки в качестве серверной части и поддерживает автоматическое обнаружение и автоконфигурацию для всех популярных бесплатных движков. Внутренние компоненты OCR могут быть настроены автоматически, при этом необходимая командная строка вводится в диалоге графического интерфейса пользователя или настраивается напрямую через файл XML . Возможна постобработка отсканированного изображения, включая устранение перекоса. [10]Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом формате вывода. Сессии можно сохранять и загружать. В комплект также входит проверка орфографии . [11] OCRFeeder имеет встроенные процедуры для постобработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию напечатанных строк текста даже с удалением переносов.

Хотя OCRFeeder - это инструмент с графическим интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов . [12] В этом режиме OCRFeeder использует механизм распознавания текста по умолчанию, который пользователь может установить в настройках приложения. [13] [14]

Программа написана на Python и использует библиотеку GTK + (с использованием PyGTK ). [12] Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов, но использует внешние программы, такие как «механизм распознавания текста», установленный в системе. Он может автоматически обнаруживать и настраивать CuneiForm , GOCR , Ocrad и Tesseract в качестве внутренних механизмов OCR. [15] Доступ к сканерам осуществляется через SANE . Для постобработки отсканированных изображений интегрирован инструмент командной строки «Unpaper», [12]среди прочего. Файлы PDF обрабатываются с помощью Ghostscript в серверной части.

Ввод и вывод [ править ]

OCRFeeder может импортировать данные из PDF или графических файлов . Начиная с версии 0.7.1a он поддерживает захват изображений прямо со сканера . [11]

Результаты могут быть сохранены в форматах файлов HTML , OpenDocument , обычного текста [16] или PDF [17] . Также планируется вывод файла hOCR . [3] Первоначальное форматирование может быть выполнено прямо в программе.

Ссылки [ править ]

  1. ^ "FTP-архив GNOME, файл новостей OCRFeeder 0.8.3" . Проверено 12 апреля 2020 .
  2. ^ "Репозиторий исходного кода GNOME GIT, файл LINGUAS" . Проверено 9 февраля 2011 .
  3. ^ a b "OCRFeeder - GNOME Live!" . Проверено 9 февраля 2011 .
  4. ^ «Продукты» . Игалия . Проверено 24 ноября 2012 .
  5. ^ Rocha, Жоаким (2013-01-14). «Ветры перемен» . Проверено 4 сентября 2013 .
  6. ^ OCRFeeder, Google Code
  7. ^ wiki.gnome.org Различия между ревизиями 2 и 3
  8. ^ wiki.gnome.org - Различия между ревизиями 5 и 6
  9. ^ Журнал изменений Debian ocrfeeder (0.6.6 + dfsg1-1)
  10. ^ "Репозиторий исходного кода GNOME GIT, файл NEWS" . Проверено 3 февраля 2011 .
  11. ^ a b Роча, Жоаким (09.11.2010). «Выпущен OCRFeeder версии 0.7.1a» . Проверено 9 февраля 2011 .
  12. ^ a b c "Репозиторий исходного кода GNOME GIT, файл README" . Проверено 9 февраля 2011 .
  13. ^ Μάνος (22.03.2011). «OCRFeeder 0.7.4: ηφιοποιήστε τα έγγραφα σας» . OSArena . Проверено 8 июня 2011 .
  14. ^ Hejda, Вацлав (2011-05-26). "OCRFeeder - Užitečný rozpoznávač textu, který však neumí česky" . LinuxEXPRES.cz . QCM sro . Проверено 8 июня 2011 .
  15. ^ "Репозиторий исходного кода GNOME GIT, файл configuration.py" . Проверено 3 февраля 2011 .
  16. ^ OCRFeeder версии 0.7.4 Новые возможности
  17. ^ Версия 0.7.6

Внешние ссылки [ править ]

  • Официальный веб-сайт