Разработчики) | Хоаким Роча ( Игалия ) |
---|---|
изначальный выпуск | Март 2009 г . |
Стабильный выпуск | 0.8.3 / 8 марта 2020 г . [1] |
Репозиторий | |
Написано в | Python , PyGTK |
Операционная система | Linux , Unix-подобный |
Доступно в | Интерфейс: чешский , датский , немецкий , английский , испанский , французский , галисийский , итальянский , норвежский (букмол) , португальский , румынский , словенский , шведский , китайский [2] Распознавание: зависит от используемого механизма распознавания текста. |
Тип | Оптическое распознавание символов |
Лицензия | GPL ( бесплатное программное обеспечение ) |
Интернет сайт | wiki |
OCRFeeder - это пакет оптического распознавания символов для GNOME , который также поддерживает практически любой движок OCR командной строки, такой как CuneiForm , GOCR , Ocrad и Tesseract . Он преобразует бумажные документы в файлы цифровых документов и может сделать их доступными для пользователей с ослабленным зрением.
OCRFeeder - бесплатное программное обеспечение с открытым исходным кодом, на которое распространяются условия Стандартной общественной лицензии GNU (GPL) версии 3 или более поздней. Он доступен для Linux и других Unix-подобных операционных систем.
История [ править ]
OCRFeeder был начат как магистерская диссертация по информатике Хоакимом Роча [3], который позже был нанят Igalia , SL и продолжил там развитие. [4] [5]
Первая версия была опубликована в марте 2009 года. [6] Проект OCRFeeder изначально был опубликован и размещен на Google Code , временно использовал Gitorious [7] и теперь использует инфраструктуру GNOME. [8] С 5 апреля 2010 года программный пакет включен в официальные репозитории Debian. [9]
Версия 0.7 от 30 июля 2010 г. содержит функции предварительной обработки изображений, версия 0.7.1 (8 ноября 2010 г.) включена для доступа к сканеру из OCRFeeder.
Особенности [ править ]
OCRFeeder имеет простой графический пользовательский интерфейс, разработанный в соответствии с Руководством по человеческому интерфейсу GNOME . Он выполняет анализ макета документа и передает макет в поддерживаемые форматы вывода. Он ищет области содержимого, выделяет их и угадывает тип содержимого (текст или изображение) и обрабатывает текстовые области через серверную часть OCR. Он может использовать практически любой механизм распознавания текста из командной строки в качестве серверной части и поддерживает автоматическое обнаружение и автоконфигурацию для всех популярных бесплатных движков. Внутренние компоненты OCR могут быть настроены автоматически, при этом необходимая командная строка вводится в диалоге графического интерфейса пользователя или настраивается напрямую через файл XML . Возможна постобработка отсканированного изображения, включая устранение перекоса. [10]Все результаты распознавания можно просмотреть и отредактировать перед сохранением в желаемом формате вывода. Сессии можно сохранять и загружать. В комплект также входит проверка орфографии . [11] OCRFeeder имеет встроенные процедуры для постобработки необработанных результатов OCR, возвращаемых механизмом OCR. Он может удалить оставшуюся сегментацию напечатанных строк текста даже с удалением переносов.
Хотя OCRFeeder - это инструмент с графическим интерфейсом, он также может работать в режиме командной строки (как ocrfeeder-cli), что может быть полезным инструментом для автоматической пакетной обработки документов . [12] В этом режиме OCRFeeder использует механизм распознавания текста по умолчанию, который пользователь может установить в настройках приложения. [13] [14]
Программа написана на Python и использует библиотеку GTK + (с использованием PyGTK ). [12] Он действует как графический интерфейс для других существующих инструментов. Например, он не выполняет фактическое распознавание символов, но использует внешние программы, такие как «механизм распознавания текста», установленный в системе. Он может автоматически обнаруживать и настраивать CuneiForm , GOCR , Ocrad и Tesseract в качестве внутренних механизмов OCR. [15] Доступ к сканерам осуществляется через SANE . Для постобработки отсканированных изображений интегрирован инструмент командной строки «Unpaper», [12]среди прочего. Файлы PDF обрабатываются с помощью Ghostscript в серверной части.
Ввод и вывод [ править ]
OCRFeeder может импортировать данные из PDF или графических файлов . Начиная с версии 0.7.1a он поддерживает захват изображений прямо со сканера . [11]
Результаты могут быть сохранены в форматах файлов HTML , OpenDocument , обычного текста [16] или PDF [17] . Также планируется вывод файла hOCR . [3] Первоначальное форматирование может быть выполнено прямо в программе.
Ссылки [ править ]
- ^ "FTP-архив GNOME, файл новостей OCRFeeder 0.8.3" . Проверено 12 апреля 2020 .
- ^ "Репозиторий исходного кода GNOME GIT, файл LINGUAS" . Проверено 9 февраля 2011 .
- ^ a b "OCRFeeder - GNOME Live!" . Проверено 9 февраля 2011 .
- ^ «Продукты» . Игалия . Проверено 24 ноября 2012 .
- ^ Rocha, Жоаким (2013-01-14). «Ветры перемен» . Проверено 4 сентября 2013 .
- ^ OCRFeeder, Google Code
- ^ wiki.gnome.org Различия между ревизиями 2 и 3
- ^ wiki.gnome.org - Различия между ревизиями 5 и 6
- ^ Журнал изменений Debian ocrfeeder (0.6.6 + dfsg1-1)
- ^ "Репозиторий исходного кода GNOME GIT, файл NEWS" . Проверено 3 февраля 2011 .
- ^ a b Роча, Жоаким (09.11.2010). «Выпущен OCRFeeder версии 0.7.1a» . Проверено 9 февраля 2011 .
- ^ a b c "Репозиторий исходного кода GNOME GIT, файл README" . Проверено 9 февраля 2011 .
- ^ Μάνος (22.03.2011). «OCRFeeder 0.7.4: ηφιοποιήστε τα έγγραφα σας» . OSArena . Проверено 8 июня 2011 .
- ^ Hejda, Вацлав (2011-05-26). "OCRFeeder - Užitečný rozpoznávač textu, který však neumí česky" . LinuxEXPRES.cz . QCM sro . Проверено 8 июня 2011 .
- ^ "Репозиторий исходного кода GNOME GIT, файл configuration.py" . Проверено 3 февраля 2011 .
- ^ OCRFeeder версии 0.7.4 Новые возможности
- ^ Версия 0.7.6
Внешние ссылки [ править ]
Викискладе есть медиафайлы по теме OCRFeeder . |
- Официальный веб-сайт