Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Подпись кантри-звезды Текса Уильямса.

Распознавание рукописного ввода ( HWR ), также известное как распознавание рукописного текста ( HTR ), - это способность компьютера получать и интерпретировать понятный рукописный ввод из таких источников, как бумажные документы, фотографии , сенсорные экраны и другие устройства. Изображение написанного текста может быть распознано "офлайн" с листа бумаги с помощью оптического сканирования ( оптического распознавания символов ) или интеллектуального распознавания слов.. В качестве альтернативы, движения кончика пера могут восприниматься «в режиме реального времени», например, с помощью поверхности экрана компьютера на основе пера, что, как правило, более простая задача, поскольку доступно больше подсказок. Система распознавания рукописного ввода обрабатывает форматирование, выполняет правильную сегментацию на символы и находит наиболее правдоподобные слова.

Автономное распознавание [ править ]

Распознавание рукописного ввода в автономном режиме включает автоматическое преобразование текста на изображении в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста. Данные, полученные с помощью этой формы, рассматриваются как статическое представление почерка. Распознавание рукописного ввода в автономном режиме сравнительно сложно, поскольку у разных людей разные стили почерка. И на сегодняшний день механизмы OCR в первую очередь ориентированы на машинно-напечатанный текст, а ICR - для «отпечатанного» вручную (написанного заглавными буквами) текста.

Традиционные техники [ править ]

Извлечение персонажа [ править ]

Автономное распознавание символов часто включает сканирование формы или документа. Это означает, что необходимо будет извлечь отдельные символы, содержащиеся в отсканированном изображении. Существуют инструменты, способные выполнить этот шаг. [1] Однако на этом этапе есть несколько общих недостатков. Чаще всего это когда связанные символы возвращаются в виде одного фрагмента изображения, содержащего оба символа. Это вызывает серьезную проблему на этапе распознавания. Тем не менее, доступно множество алгоритмов, снижающих риск подключения персонажей.

Распознавание символов [ править ]

После извлечения отдельных символов используется механизм распознавания, чтобы идентифицировать соответствующий компьютерный символ. В настоящее время доступно несколько различных методов распознавания.

Извлечение функций [ править ]

Извлечение признаков работает аналогично распознавателям нейронных сетей. Однако программисты должны вручную определять свойства, которые они считают важными. Этот подход дает распознавателю больше контроля над свойствами, используемыми при идентификации. Однако любая система, использующая этот подход, требует значительно больше времени на разработку, чем нейронная сеть, потому что свойства не изучаются автоматически.

Современные методы [ править ]

В то время как традиционные методы фокусируются на сегментировании отдельных символов для распознавания, современные методы фокусируются на распознавании всех символов в сегментированной строке текста. В частности, они сосредоточены на методах машинного обучения , которые могут изучать визуальные функции, избегая ранее использовавшейся ограничивающей разработки функций. Современные методы используют сверточные сети для извлечения визуальных элементов в нескольких перекрывающихся окнах изображения текстовой строки, которые рекуррентная нейронная сеть использует для получения вероятностей символов. [2]

Онлайн-признание [ править ]

Распознавание рукописного ввода онлайн включает автоматическое преобразование текста, написанного на специальном дигитайзере или КПК , где датчик улавливает движения кончика пера, а также переключение пера вверх / вниз. Этот вид данных известен как цифровые чернила и может рассматриваться как цифровое представление почерка. Полученный сигнал преобразуется в буквенные коды, которые можно использовать в компьютерах и приложениях для обработки текста.

Элементы онлайн-интерфейса распознавания рукописного ввода обычно включают в себя:

  • ручка или стилус, которыми пользователь может писать.
  • сенсорная поверхность, которая может быть интегрирована с выходным дисплеем или рядом с ним.
  • программное приложение, которое интерпретирует движения стилуса по поверхности письма, переводя полученные штрихи в цифровой текст.

Процесс распознавания рукописного ввода в Интернете можно разбить на несколько общих этапов:

  • предварительная обработка,
  • извлечение функций и
  • классификация

Цель предварительной обработки - отбросить из входных данных нерелевантную информацию, которая может негативно повлиять на распознавание. [3] Это касается скорости и точности. Предварительная обработка обычно состоит из бинаризации, нормализации, дискретизации, сглаживания и удаления шума. [4]Второй шаг - извлечение признаков. Из двумерного или многомерного векторного поля, полученного от алгоритмов предварительной обработки, извлекаются многомерные данные. Цель этого шага - выделить важную информацию для модели распознавания. Эти данные могут включать такую ​​информацию, как давление пера, скорость или изменение направления письма. Последний большой шаг - классификация. На этом этапе различные модели используются для сопоставления извлеченных объектов с разными классами и, таким образом, для идентификации символов или слов, которые представляют объекты.

Оборудование [ править ]

Коммерческие продукты, включающие распознавание рукописного ввода в качестве замены ввода с клавиатуры, были представлены в начале 1980-х годов. Примеры включают терминалы для рукописного ввода, такие как Pencept Penpad [5] и терминал для точек продаж Inforite. [6] С появлением большого потребительского рынка персональных компьютеров было представлено несколько коммерческих продуктов для замены клавиатуры и мыши на персональном компьютере с единой системой указателя / рукописного ввода, например, от Pencept, [7] CIC [8] ] и другие. Первым коммерчески доступным портативным компьютером планшетного типа был GRiDPad от GRiD Systems , выпущенный в сентябре 1989 года. Его операционная система была основана на MS-DOS..

В начале 1990 - х годов, производители оборудования , включая NCR , IBM и EO выпущенных планшетных компьютеров , работающих под управлением электронная ручка операционной системы , разработанной GO Corp. . PenPoint повсюду использовала распознавание рукописного ввода и жесты и предоставляла возможности стороннему программному обеспечению. Планшетный компьютер IBM был первым, кто использовал имя ThinkPad и распознавал почерк IBM. Эта система распознавания была позже перенесена на Microsoft Windows для Pen Computing и IBM Pen для OS / 2 . Ни один из них не имел коммерческого успеха.

Достижения в области электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, уместиться в меньший форм-фактор, чем планшетные компьютеры, а распознавание рукописного ввода часто используется в качестве метода ввода для карманных КПК . Первым КПК, обеспечивающим ввод данных в письменном виде, был Apple Newton , который предоставил публике преимущество упрощенного пользовательского интерфейса. Однако устройство не имело коммерческого успеха из-за ненадежности программного обеспечения, которое пыталось изучить шаблоны письма пользователя. К моменту выхода Newton OS2.0, в котором распознавание рукописного ввода было значительно улучшено, включая уникальные функции, которые до сих пор отсутствуют в современных системах распознавания, такие как немодальное исправление ошибок, первое впечатление было в значительной степени негативным. После прекращения поддержки Apple Newton эта функция была включена в Mac OS X 10.2 и позже как Inkwell .

Позже Palm выпустила успешную серию КПК на базе системы распознавания граффити . Граффити повысило удобство использования за счет определения набора «однотонных штрихов», или форм одного мазка, для каждого символа. Это сузило возможность ошибочного ввода, хотя запоминание рисунков штрихов действительно увеличило кривую обучения для пользователя. Было обнаружено, что распознавание рукописного ввода Graffiti нарушает патент, принадлежащий Xerox, и Palm заменила Graffiti лицензированной версией распознавания рукописного ввода CIC, которая, одновременно поддерживая формы unistroke, предшествовала патенту Xerox. Решение суда о нарушении было отменено при рассмотрении апелляции, а затем снова отменено при рассмотрении более поздней апелляции. Впоследствии участвующие стороны договорились об урегулировании этого и других патентов.

Tablet PC является ноутбуком с дигитайзером планшетом и стилусом, что позволяет пользователь Рукописного тексту на экране устройства. Операционная система распознает почерк и преобразует его в текст. Windows Vista и Windows 7 включают в себя функции персонализации, которые изучают шаблоны письма или словарный запас пользователя для английского, японского, китайского традиционного, упрощенного китайского и корейского языков. Эти функции включают «мастер персонализации», который запрашивает образцы почерка пользователя и использует их для переобучения системы для более точного распознавания. Эта система отличается от менее совершенной системы распознавания рукописного ввода, используемой в ее ОС Windows Mobile для КПК.

Хотя распознавание рукописного ввода - это форма ввода, к которой привыкла публика, она не получила широкого распространения ни на настольных компьютерах, ни на портативных компьютерах. По-прежнему считается общепризнанным, что ввод с клавиатуры быстрее и надежнее. По состоянию на 2006 год многие КПК предлагают рукописный ввод, иногда даже естественный рукописный ввод, но точность все еще остается проблемой, и некоторые люди все еще считают даже простую экранную клавиатуру более эффективной.

Программное обеспечение [ править ]

Раннее программное обеспечение могло понимать печатный почерк, где символы были разделены; однако курсивный почерк со связанными символами представлял парадокс Сейра , трудность, связанную с сегментацией символов. В 1962 году Шелия Губерман , тогда еще жившая в Москве, написала первую прикладную программу распознавания образов. [9] Коммерческие примеры поступили от таких компаний, как Communications Intelligence Corporation и IBM.

В начале 1990-х две компании - ParaGraph International и Lexicus - разработали системы, способные распознавать рукописный текст. ParaGraph был основан в России специалистом по информатике Степаном Пачиковым, а Lexicus был основан Ронджоном Нагом и Крисом Кортге, студентами Стэнфордского университета. Система ParaGraph CalliGrapher была развернута в системах Apple Newton, а система Lexicus Longhand стала коммерчески доступной для операционных систем PenPoint и Windows. Компания Lexicus была приобретена Motorola в 1993 году и продолжила разработку распознавания китайского почерка и интеллектуального текста.системы для Motorola. В 1997 году компания ParaGraph была приобретена SGI, а ее команда по распознаванию рукописного ввода сформировала подразделение P&I, позднее приобретенное у SGI компанией Vadem. Microsoft приобрела технологию распознавания рукописного ввода CalliGrapher и другие технологии цифровых чернил, разработанные компанией P&I у Vadem в 1999 году.

Wolfram Mathematica (8.0 или более поздняя версия) также предоставляет функцию распознавания рукописного ввода или текста TextRecognize.

Исследование [ править ]

Метод, использованный для использования контекстной информации в первой системе интерпретации рукописных адресов, разработанной Саргуром Шрихари и Джонатаном Халлом [10]

Распознавание почерка имеет активное сообщество ученых, изучающих его. Самыми крупными конференциями по распознаванию рукописного ввода являются Международная конференция по вопросам распознавания рукописного ввода (ICFHR), проводимая в четные годы, и Международная конференция по анализу и распознаванию документов (ICDAR), проводимая в нечетные годы. Обе эти конференции одобрены IEEE и IAPR . В 2021 году материалы ICDAR будут опубликованы LNCS , Springer.

Активные области исследований включают:

  • Онлайн признание
  • Автономное признание
  • Проверка подписи
  • Расшифровка почтового адреса
  • Обработка банковских чеков
  • Признание писателя

Результаты с 2009 г. [ править ]

С 2009 года рекуррентные нейронные сети и нейронные сети с прямой связью, разработанные исследовательской группой Юргена Шмидхубера в швейцарской лаборатории искусственного интеллекта IDSIA , выиграли несколько международных конкурсов почерка. [11] В частности, двунаправленная и многомерная долговременная краткосрочная память (LSTM) [12] [13] Alex Graves et al. выиграл три конкурса по распознаванию связного почерка на Международной конференции по анализу и распознаванию документов (ICDAR) в 2009 году, не имея каких-либо предварительных знаний о трех разных языках (французском, арабском, персидском ), которые необходимо выучить. Недавний GPU- методы глубокого обучения для сетей прямого распространения, разработанные Дэном Чиресаном и его коллегами из IDSIA, победили в конкурсе ICDAR 2011 по распознаванию китайского рукописного ввода в автономном режиме; их нейронные сети также были первые искусственные модели распознования для достижения производительности человека конкуренции [14] на знаменитой MNIST рукописной проблемы цифры [15] из Лекун и его коллеги из Нью - Йоркского университета .

См. Также [ править ]

  • Эффект ИИ
  • Приложения искусственного интеллекта
  • Электронная подпись
  • Анализ движения почерка
  • Интеллектуальное распознавание символов
  • Решение для распознавания символов Live Ink
  • Неокогнитрон
  • Оптическое распознавание символов
  • Ручные вычисления
  • Распознавание эскиза
  • Стилус (вычисления)
  • Планшетный ПК

Списки [ править ]

  • Схема искусственного интеллекта
  • Список новых технологий

Ссылки [ править ]

  1. ^ Java OCR, 5 июня 2010 . Дата обращения 5 июня 2010.
  2. ^ Puigcerver, Джоан. «Действительно ли многомерные повторяющиеся слои необходимы для распознавания рукописного текста?». Анализ и признание документов (ICDAR), 14-я Международная конференция IAPR 2017 г. Vol. 1. IEEE, 2017.
  3. ^ Хуанг, B .; Zhang, Y. и Kechadi, M .; Методы предварительной обработки для онлайн-распознавания почерка. Интеллектуальная категоризация текста и кластеризация , Springer Berlin Heidelberg, 2009, Vol. 164, «Исследования в области вычислительного интеллекта», стр. 25–45.
  4. ^ Holzinger, A .; Stocker, C .; Peischl, B. и Simonic, K.-M .; Об использовании энтропии для улучшения предварительной обработки рукописного ввода , Entropy 2012, 14, стр. 2324-2350.
  5. ^ Pencept Penpad (TM) 200 Литература о продукте , Pencept, Inc., 15 августа 1982
  6. ^ Inforite рук Character Recognition терминал , Кадровый Systems Limited, Англия, 15 августа 1982
  7. ^ Руководство пользователя для Penpad 320 , Pencept, Inc., 15 июня 1984 года
  8. ^ Handwriter (R) GrafText (TM) Система Модель GT-5000 , Communication Intelligence Corporation, 15 января 1985
  9. Губерман - изобретатель технологии распознавания рукописного ввода, используемой сегодня Microsoft в Windows CE. Источник: сообщение In-Q-Tel, 3 июня 2003 г.
  10. ^ SN Srihari и EJ Keubert, "Интеграция технологии интерпретации рукописных адресов в систему удаленного компьютерного считывания почтовой службы США" Proc. Int. Конф. Анализ и распознавание документов (ICDAR) 1997, IEEE-CS Press, стр. 892–896
  11. ^ 2012 Курцвейл AI Интервью архивации 31 августа 2018 в Wayback Machine с Юргеном Шмидхубером на восемь соревнованиях выиграли его командой Deep Learning 2009-2012
  12. Грейвс, Алекс; и Шмидхубер, Юрген; Распознавание рукописного ввода в автономном режиме с помощью многомерных рекуррентных нейронных сетей , Бенжио, Йошуа; Шурманс, Дейл; Лафферти, Джон; Уильямс, Крис К.И.; и Кулотта, Арон (ред.), Достижения в системах обработки нейронной информации 22 (NIPS'22), 7–10 декабря 2009 г., Ванкувер, Британская Колумбия, Фонд нейронных систем обработки информации (NIPS), 2009 г., стр. 545–552
  13. ^ А. Грейвс, М. Ливицки, С. Фернандес, Р. Бертолами, Х. Бунке, Дж. Шмидхубер . Новая система коннекционистов для улучшения неограниченного распознавания почерка. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, нет. 5, 2009.
  14. ^ DC Ciresan, U. Meier, J. Schmidhuber . Многоколоночные глубокие нейронные сети для классификации изображений. IEEE Conf. по компьютерному зрению и распознаванию образов CVPR 2012.
  15. ^ LeCun, Y. , Bottou, Л., Bengio, Y., & Haffner, P. (1998). Применение градиентного обучения для распознавания документов. Proc. IEEE, 86, стр. 2278-2324.

Внешние ссылки [ править ]

  • Аннотированная библиография ссылок на жесты и перьевые вычисления
  • Заметки по истории перьевых вычислений (YouTube)