Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Ключевое слово в контексте ( KWIC ) - наиболее распространенный формат для строк соответствия . Термин KWIC впервые был придуман Гансом Петером Луном . [1] Система была основана на концепции, называемой ключевым словом в заголовках, которая была впервые предложена для библиотек Манчестера в 1864 году Андреа Крестадоро . [2]

Индекс KWIC формируется путем сортировки и выравнивания слов в заголовке статьи, чтобы каждое слово (кроме стоп-слов ) в заголовках было доступно для поиска в алфавитном порядке в указателе. [3] Это был полезный метод индексации технических руководств до того, как компьютеризированный полнотекстовый поиск стал обычным явлением. [4]

Например, поисковый запрос, включающий все слова в примере определения («KWIC - это аббревиатура для ключевого слова в контексте, наиболее распространенный формат для строк соответствия») и слоган Википедии на английском языке («бесплатная энциклопедия»), поиск по странице Википедии может дать следующий индекс KWIC. Индекс KWIC обычно использует широкий макет, чтобы обеспечить отображение максимальной информации «в контексте» (не показано в следующем примере).

Индекс KWIC - это частный случай перестановочного индекса . [5] Этот термин относится к тому факту, что он индексирует все циклические перестановки заголовков. Книги, состоящие из множества коротких разделов с собственными описательными заголовками, в первую очередь сборники справочных страниц , часто заканчиваются переставленным разделом указателя , что позволяет читателю легко найти раздел по любому слову из его заголовка. Эта практика, также известная как « Ключевое слово вне контекста» ( KWOC ), больше не распространена.

  • Ключевое слово наряду с контекстом (KWAC)

  • Ключевое слово в контексте (KWIC)

  • Ключевое слово вне контекста (KWOC)

Ссылки в литературе [ править ]

Примечание. Первая ссылка не показывает индекс KWIC, если вы не платите за просмотр статьи. Во второй ссылке вообще не перечисляется статья.

  • Дэвид Л. Парнас использует индекс KWIC в качестве примера того, как выполнять модульное проектирование, в своей статье «Критерии, которые следует использовать при разложении систем на модули» , доступной в виде классической статьи ACM.
  • Кристофер Д. Маннинг и Хинрих Шютце описывают индекс KWIC и компьютерное согласование в разделе 1.4.5 своей книги « Основы статистической обработки естественного языка» . Кембридж, Массачусетс: MIT Press, 1999. ISBN  9780262133609 . Они цитируют статью HP Luhn 1960 года «Контекстный указатель ключевых слов для технической литературы (kwic index)».
  • Согласно Concordantia et Indices Missalium Romanorum преподобного Джерарда О'Коннора , «большинство согласований, созданных в последнее время с помощью компьютерного программного обеспечения, используют форматы KWIC (ключевое слово в контексте) и KWICn (ключевое слово в центре), в которых перечислены ключевое слово, обычно выделенное жирным шрифтом в согласованной позиции, в ограниченном объеме контекстного текста, т.е. три [или] четыре слова текста перед ключевым словом и такое же количество текста после него. Этот формат чрезвычайно полезен в этом ключевое слово легко идентифицируется вместе с его контекстом. ... Соответствие римского Миссала производится в форматах KWIC и KWICn и примечательно тем, что каждая словоформа указана в том виде, в каком она появляется в тексте, то есть не-лемматизированный ".

См. Также [ править ]

Ссылки [ править ]

  1. ^ Manning, CD, Schütze, H .: "Основы статистической обработки естественного языка", стр. 35. MIT Press, 1999.
  2. ^ "Продвинутые практики индексирования и абстрагирования" . Atlantic Publishers & Distri . Проверено 26 марта 2019 г. - через Google Книги.
  3. ^ "Архивная копия" . Архивировано из оригинала на 2016-06-06 . Проверено 17 июня 2016 .CS1 maint: archived copy as title (link)
  4. ^ "Информационное руководство" . Пятница, 8 мая 2020 г.
  5. ^ «3. Теория индексации KWIC» . Infohost.nmt.edu . Проверено 26 марта 2019 .