Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

CuneiForm Cognitive OpenOCR - это свободно распространяемая система распознавания текста с открытым исходным кодом, разработанная российской компанией-разработчиком программного обеспечения Cognitive Technologies .

CuneiForm OCR был разработан Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с самыми популярными моделями сканеров, МФУ и программного обеспечения в России и в мире: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др.
В 2008 году Cognitive Technologies открыла исходные коды программы.

Особенности [ править ]

CuneiForm - это система, разработанная для преобразования электронных копий бумажных документов и файлов изображений в редактируемую форму без изменения структуры и исходных шрифтов документа в автоматическом или полуавтоматическом режиме. Система включает в себя два компонента для разовой и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, система поддерживает смесь русского и английского языков. Распознавание других смешанных языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году. [2] Обучить систему распознавать другие языки сложно, поскольку каждый язык связан с файлом данных, структура и метод разработки которого являются не разглашается разработчиками.

История [ править ]

1993 - Cognitive Technologies подписала OEM-контракт с Corel , по условиям которого библиотека Cognitive распознавания была встроена в популярный в издательской сфере пакет Corel Draw 3.0 (и более поздние версии).

1994 - Контракт с Hewlett-Packard на оборудование всех импортируемых в Россию сканеров с CuneiForm OCR. Это был первый контракт HP с российской компанией-разработчиком программного обеспечения.

1995 - Контракт с японской корпорацией Epson на поставку своих сканеров с CuneiForm OCR. [3] OEM-контракт был подписан с крупнейшим в мире производителем факсов, лазерных принтеров, сканеров и другого офисного оборудования - Brother Corporation. Согласно соглашению, новый роликовый сканер Brother IC-150 был оснащен программным обеспечением Cognitive для сканирования и распознавания по всему миру.

1996 г. - OEM-соглашение с одним из крупнейших мировых производителей мониторов, факсов, лазерных принтеров, МФУ и другой оргтехники - Samsung Information Systems America. Согласно соглашению, новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A во всем мире должно было быть оснащено системой оптического распознавания символов Cognitive Cuneiform LE.

  • OEM-соглашение с ведущим мировым производителем офисного оборудования Xerox на оснащение многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпуск CuneiForm '96 OCR с первыми в мире алгоритмами адаптивного распознавания.

Адаптивное распознавание - метод, основанный на сочетании двух типов алгоритмов распознавания печатных символов: многоцветного и омнифонного. Система генерирует внутренний шрифт для каждого входного документа на основе хорошо напечатанных символов, используя динамическую настройку (адаптацию) к конкретным входным символам. Таким образом, метод сочетает в себе универсальность и технологичность подхода омнифонта с высокой точностью распознавания шрифтов, что значительно повышает скорость распознавания.

1997 - Первое использование нейросетевых технологий в CuneiForm. Алгоритмы, использующие нейронные сети для распознавания символов, разработаны следующим образом: изображение символа, которое необходимо распознать (шаблон), уменьшается до определенного стандартного размера (нормализуется). Значения яркости нормализованного шаблона используются в качестве входных параметров для нейронной сети. Количество выходных параметров нейронной сети равно количеству распознанных символов. Результатом распознавания является символ, который соответствует максимальному значению выходного вектора нейронной сети.

  • Новое OEM-соглашение с Canon об оснащении импортируемых в Россию многофункциональных устройств системой CuneiForm;
  • Новый OEM-контракт с OKI Europe Limited на оснащение МФУ OKI FAX 4100 и OKI FAX 5200, импортируемых в Россию системой CuneiForm;
  • Первая OCR-система CuneiForm MMX Update для процессора Intel MMX;
  • Сканеры NeuHause поставляются с системой распознавания CuneiForm;
  • Выпуск первой в России системы сетевого сканирования CuneiForm 98 NEST.

1999 г.

  • Новый OEM-контракт с компанией Olivetti на поставку импортируемых в Россию многофункциональных устройств с системой CuneiForm;
  • Дистрибьюторское соглашение с ведущим европейским дистрибьютором программного обеспечения WSKA (Франция) о распространении OCR Cuneiform Direct в Европе;
  • Выпущена новая версия системы Cuneiform 2000, которая реализует метод «когнитивного анализа TM»: экспертная система интегрирована в ядро ​​распознавания, которое анализирует альтернативы оценкам на выходе каждого алгоритма обнаружения и выбирает лучший вариант.
  • Метод «Меридианная сегментация таблицы TM» разработан для повышения точности воссоздания исходной формы таблицы в выходном документе;
  • Представлен механизм воссоздания оригинальной формы документа - «То, что вы сканируете, то и получаете TM» . Технология была направлена ​​на сохранение исходной формы отсканированного документа с точки зрения размещения его компонентов. Это особенно важно для документов со сложной топологией: многоколоночный текст с заголовками, аннотациями, графическими иллюстрациями, таблицами и т. Д.

2001 - OEM-контракт с Canon на поставку сканеров и многофункциональных устройств с программным обеспечением Cognitive Technologies CuneiForm OCR для Восточной Европы.

Перспективы развития [ править ]

  • 12 декабря 2007 г. Выпущена бесплатная версия OCR CuneiForm и объявлено об открытии ее исходного кода.
  • 2 апреля 2008 г. по лицензии BSD публикуются исходные коды Cuneiform OCR , а осенью - исходные тексты интерфейсов системы.
  • Последняя версия OpenSource версии для Windows не обновлялась с 14.02.2009. Эта версия больше не доступна для загрузки. Вместо этого на странице загрузки доступна версия от 11.11.2008.
  • В 2009 году выпущены графические интерфейсы для открытой версии Cuneiform на основе библиотеки Qt 4 - Cuneiform-Qt, [4] YAGF . Начиная с версии 0.9.0 [5] открытая версия для Linux может использоваться как библиотека .

См. Также [ править ]

  • Puma.NET - это библиотека-оболочка для механизма распознавания Cognitive Technologies CuneiForm. Это упрощает включение функции распознавания текста в любое приложение .NET Framework 2.0 (или более поздней версии).

Ссылки [ править ]

  1. ^ Cognitive Technologies открыла код OCR Cuneiform
  2. ^ http://bazaar.launchpad.net/~anb-symmetrica/cuneiform-linux/cuneiform-multilang/revision/400
  3. ^ [1] PCworld
  4. ^ Cuneiform-Qt
  5. ^ Выпущена Cuneiform Linux 0.9.0

Внешние ссылки [ править ]

  • Когнитивный OpenOCR, версия 11, BSD