Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Автоматическое индексирование - это компьютеризированный процесс сканирования больших объемов документов по контролируемому словарю , таксономии , тезаурусу или онтологии и использование этих контролируемых терминов для быстрого и эффективного индексирования больших электронных хранилищ документов . Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и то, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста.[1] Поскольку количество документов экспоненциально увеличивается с распространением Интернета , автоматическое индексирование станет важным для поддержания способности находить релевантную информацию в море нерелевантной информации . Системы естественного языка используются для обучения системы на основе семи различных методов, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации. [1]

В автоматизированном процессе могут возникать проблемы, которые в основном вызваны двумя факторами: 1) сложностью языка; и, 2) отсутствие интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии. [2] Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка. [2]Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютеризированная система пропустила, а не человеку, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для совпадений из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы. [1]

История [ править ]

Есть ученые, которые ссылаются на то, что тема автоматической индексации привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и инженерной литературе. [3] Это внимание к индексации началось с обработки текста в период с 1957 по 1959 год, проведенной HP Lunh в серии опубликованных статей. Лунь предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было установлено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с автоматической индексацией. [4]Это было подчеркнуто информационным взрывом, который был предсказан в 1960-х годах [5] и произошел благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях, и что мы будем использовать эти машины для выполнения поиска. Муерс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произведет революцию в индексировании. [4]Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации. [6] [7] Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, наложенный старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне. [5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели. [8]Автоматическое индексирование также частично обусловлено появлением области, называемой компьютерной лингвистикой , которая руководила исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков. [3] [9] Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственного интеллекта и самоорганизующихся систем, также называемых мыслящими машинами. [3]

См. Также [ править ]

  • Индексирование тем  - процесс, который автоматизирован за счет автоматического индексирования.
  • Тег (метаданные)
  • Веб-индексирование

Ссылки [ править ]

  1. ^ a b c Hlava, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени» . Бюллетень Американского общества информационных наук и технологий . 29 (1): 12–15. DOI : 10.1002 / bult.261 .
  2. ^ a b Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание . Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN. 9781598849769.
  3. ^ a b c Риаз, Мухаммад (1989). Продвинутые практики индексирования и абстрагирования . Дели: Атлантические издатели и дистрибьюторы. п. 263.
  4. ^ a b Историческая справка: последние тридцать лет поиска информации Salton, Gerard Journal Американского общества информационных наук (1986–1998); Сентябрь 1987 г .; 38, 5; ProQuest стр. 375
  5. ^ a b Торрес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста . Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN 9781848216686.
  6. ^ Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы . Берлин: Springer Science & Business Media. п. 350. ISBN 978-3-540-69857-9.CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Баш, Рева (1996). Секреты искателей сверхсети: размышления, откровения и с трудом добытые мудрости 35 ведущих интернет-исследователей мира . Медфорд, Нью-Джерси: Information Today, Inc., стр.  271 . ISBN 0910965226.
  8. ^ Jayaweera, YD; Джохар, Md Gapar Md; Перера С.Н. "Открытые журнальные системы" . Цитировать журнал требует |journal=( помощь )
  9. ^ Армстронг, Сьюзен (1994). Использование больших корпусов . Кембридж, Массачусетс: MIT Press. п. 291. ISBN. 0262510820.