Ключевое слово в контексте ( KWIC ) - наиболее распространенный формат для строк соответствия . Термин KWIC впервые был придуман Гансом Петером Луном . [1] Система была основана на концепции, называемой ключевым словом в заголовках, которая была впервые предложена для библиотек Манчестера в 1864 году Андреа Крестадоро . [2]
Индекс KWIC формируется путем сортировки и выравнивания слов в заголовке статьи, чтобы каждое слово (кроме стоп-слов ) в заголовках было доступно для поиска в алфавитном порядке в указателе. [3] Это был полезный метод индексации технических руководств до того, как компьютеризированный полнотекстовый поиск стал обычным явлением. [4]
Например, поисковый запрос, включающий все слова в примере определения («KWIC - это аббревиатура для ключевого слова в контексте, наиболее распространенный формат для строк соответствия») и слоган Википедии на английском языке («бесплатная энциклопедия»), поиск по странице Википедии может дать следующий индекс KWIC. Индекс KWIC обычно использует широкий макет, чтобы обеспечить отображение максимальной информации «в контексте» (не показано в следующем примере).
KWIC - это | акроним для ключевого слова в контексте, ... | Страница 1 |
... Ключевое слово в контексте, наиболее | общий формат строк соответствия. | Страница 1 |
... наиболее распространенный формат для | линии соответствия . | Страница 1 |
... это аббревиатура от Key Word In | Контекст , самый распространенный формат ... | Страница 1 |
Википедия, Бесплатное | Энциклопедия | страница 0 |
... В контексте наиболее распространенных | формат для строк соответствия. | Страница 1 |
Википедия, | Бесплатная энциклопедия | страница 0 |
KWIC - это аббревиатура от | Ключевое слово в контексте, наиболее ... | Страница 1 |
KWIC - это аббревиатура от Key Word ... | Страница 1 | |
... общий формат согласования | линий . | Страница 1 |
... для ключевого слова в контексте | самый распространенный формат согласования ... | Страница 1 |
Википедия , Бесплатная энциклопедия | страница 0 | |
KWIC - это аббревиатура от Key | Word In Context, самый распространенный ... | Страница 1 |
Индекс KWIC - это частный случай перестановочного индекса . [5] Этот термин относится к тому факту, что он индексирует все циклические перестановки заголовков. Книги, состоящие из множества коротких разделов с собственными описательными заголовками, в первую очередь сборники справочных страниц , часто заканчиваются переставленным разделом указателя , что позволяет читателю легко найти раздел по любому слову из его заголовка. Эта практика, также известная как « Ключевое слово вне контекста» ( KWOC ), больше не распространена.
Ссылки в литературе [ править ]
Примечание. Первая ссылка не показывает индекс KWIC, если вы не платите за просмотр статьи. Во второй ссылке вообще не перечисляется статья.
- Дэвид Л. Парнас использует индекс KWIC в качестве примера того, как выполнять модульное проектирование, в своей статье «Критерии, которые следует использовать при разложении систем на модули» , доступной в виде классической статьи ACM.
- Кристофер Д. Маннинг и Хинрих Шютце описывают индекс KWIC и компьютерное согласование в разделе 1.4.5 своей книги « Основы статистической обработки естественного языка» . Кембридж, Массачусетс: MIT Press, 1999. ISBN 9780262133609 . Они цитируют статью HP Luhn 1960 года «Контекстный указатель ключевых слов для технической литературы (kwic index)».
- Согласно Concordantia et Indices Missalium Romanorum преподобного Джерарда О'Коннора , «большинство согласований, созданных в последнее время с помощью компьютерного программного обеспечения, используют форматы KWIC (ключевое слово в контексте) и KWICn (ключевое слово в центре), в которых перечислены ключевое слово, обычно выделенное жирным шрифтом в согласованной позиции, в ограниченном объеме контекстного текста, т.е. три [или] четыре слова текста перед ключевым словом и такое же количество текста после него. Этот формат чрезвычайно полезен в этом ключевое слово легко идентифицируется вместе с его контекстом. ... Соответствие римского Миссала производится в форматах KWIC и KWICn и примечательно тем, что каждая словоформа указана в том виде, в каком она появляется в тексте, то есть не-лемматизированный ".
См. Также [ править ]
- ptx , утилита командной строки Unix, создающая пермутированный индекс
- Конкордансер
- Concordance (издательство)
- Преобразование Барроуза – Уиллера
- Ханс Петер Лун
- Суффиксное дерево
Ссылки [ править ]
- ^ Manning, CD, Schütze, H .: "Основы статистической обработки естественного языка", стр. 35. MIT Press, 1999.
- ^ "Продвинутые практики индексирования и абстрагирования" . Atlantic Publishers & Distri . Проверено 26 марта 2019 г. - через Google Книги.
- ^ "Архивная копия" . Архивировано из оригинала на 2016-06-06 . Проверено 17 июня 2016 .CS1 maint: archived copy as title (link)
- ^ "Информационное руководство" . Пятница, 8 мая 2020 г.
- ^ «3. Теория индексации KWIC» . Infohost.nmt.edu . Проверено 26 марта 2019 .