Автоматическая индексация

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эту статью, возможно, придется переписать в соответствии со стандартами качества Википедии , поскольку она содержит только словарное определение термина и предположительное утверждение, что когда-нибудь в будущем эта концепция станет важной. Вы можете помочь . Страница обсуждения может содержать предложения. ( Сентябрь 2010 г. )

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: «Автоматическое индексирование» - новости · газеты · книги · ученый · JSTOR ( август 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья требует внимания эксперта в области вычислительной техники . Пожалуйста , добавьте причину в или разговоре параметр для этого шаблона , чтобы объяснить проблему с статьей. WikiProject Computing может помочь нанять эксперта. ( Декабрь 2017 г. )

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: «Автоматическое индексирование» - новости · газеты · книги · ученый · JSTOR ( декабрь 2017 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

( Узнайте, как и когда удалить этот шаблон сообщения )

Автоматическое индексирование - это компьютеризированный процесс сканирования больших объемов документов по контролируемому словарю , таксономии , тезаурусу или онтологии и использование этих контролируемых терминов для быстрого и эффективного индексирования больших электронных хранилищ документов . Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и то, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста.^[1] Поскольку количество документов экспоненциально увеличивается с распространением Интернета , автоматическое индексирование станет важным для поддержания способности находить релевантную информацию в море нерелевантной информации . Системы естественного языка используются для обучения системы на основе семи различных методов, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации.^[1]

В автоматизированном процессе могут возникать проблемы, которые в основном вызваны двумя факторами: 1) сложностью языка; и, 2) отсутствие интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии. ^[2] Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка. ^[2]Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютеризированная система пропустила, а не человеку, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для совпадений из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы. ^[1]

История [ править ]

Есть ученые, которые ссылаются на то, что тема автоматической индексации привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и инженерной литературе. ^[3] Это внимание к индексации началось с обработки текста в период с 1957 по 1959 год, проведенной HP Lunh в серии опубликованных статей. Лунь предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было установлено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с автоматической индексацией. ^[4]Это было подчеркнуто информационным взрывом, который был предсказан в 1960-х годах ^[5] и произошел благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях, и что мы будем использовать эти машины для выполнения поиска. Муерс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произведет революцию в индексировании. ^[4]Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации. ^[6]^[7] Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, наложенный старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне. ^[5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели. ^[8]Автоматическое индексирование также частично обусловлено появлением области, называемой компьютерной лингвистикой , которая руководила исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков. ^[3]^[9] Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственного интеллекта и самоорганизующихся систем, также называемых мыслящими машинами. ^[3]

См. Также [ править ]

Индексирование тем - процесс, который автоматизирован за счет автоматического индексирования.
Тег (метаданные)
Веб-индексирование

Ссылки [ править ]

^ a b c Hlava, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени» . Бюллетень Американского общества информационных наук и технологий . 29 (1): 12–15. DOI : 10.1002 / bult.261 .
^ a b Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание . Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN. 9781598849769.
^ a b c Риаз, Мухаммад (1989). Продвинутые практики индексирования и абстрагирования . Дели: Атлантические издатели и дистрибьюторы. п. 263.
^ a b Историческая справка: последние тридцать лет поиска информации Salton, Gerard Journal Американского общества информационных наук (1986–1998); Сентябрь 1987 г .; 38, 5; ProQuest стр. 375
^ a b Торрес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста . Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN 9781848216686.
^ Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы . Берлин: Springer Science & Business Media. п. 350. ISBN 978-3-540-69857-9.CS1 maint: несколько имен: список авторов ( ссылка )
^ Баш, Рева (1996). Секреты искателей сверхсети: размышления, откровения и с трудом добытые мудрости 35 ведущих интернет-исследователей мира . Медфорд, Нью-Джерси: Information Today, Inc., стр. 271 . ISBN 0910965226.
^ Jayaweera, YD; Джохар, Md Gapar Md; Перера С.Н. "Открытые журнальные системы" . Цитировать журнал требует |journal=( помощь )
^ Армстронг, Сьюзен (1994). Использование больших корпусов . Кембридж, Массачусетс: MIT Press. п. 291. ISBN. 0262510820.

Эта статья о компьютерах - незавершенная . Вы можете помочь Википедии, расширив ее .

[:3-1] Hlava, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени» . Бюллетень Американского общества информационных наук и технологий . 29 (1): 12–15. DOI : 10.1002 / bult.261 .

[:0-2] Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание . Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN. 9781598849769.

[:1-3] Риаз, Мухаммад (1989). Продвинутые практики индексирования и абстрагирования . Дели: Атлантические издатели и дистрибьюторы. п. 263.

[:5-4] Историческая справка: последние тридцать лет поиска информации Salton, Gerard Journal Американского общества информационных наук (1986–1998); Сентябрь 1987 г .; 38, 5; ProQuest стр. 375

[:2-5] Торрес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста . Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN 9781848216686.

[6] Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы . Берлин: Springer Science & Business Media. п. 350. ISBN 978-3-540-69857-9.CS1 maint: несколько имен: список авторов ( ссылка )

[7] Баш, Рева (1996). Секреты искателей сверхсети: размышления, откровения и с трудом добытые мудрости 35 ведущих интернет-исследователей мира . Медфорд, Нью-Джерси: Information Today, Inc., стр. 271 . ISBN 0910965226.

[8] Jayaweera, YD; Джохар, Md Gapar Md; Перера С.Н. "Открытые журнальные системы" . Цитировать журнал требует |journal=( помощь )

[9] Армстронг, Сьюзен (1994). Использование больших корпусов . Кембридж, Массачусетс: MIT Press. п. 291. ISBN. 0262510820.

[1]