Стоп-слова - это любое слово в стоп-листе (или в стоп-листе, или в отрицательном словаре), которые отфильтровываются (т. Е. Останавливаются) до или после обработки данных на естественном языке (текста). [1] Не существует единого универсального списка стоп-слов, используемых всеми инструментами обработки естественного языка , ни каких-либо согласованных правил для определения стоп-слов, и, действительно, не все инструменты даже используют такой список. Следовательно, любая группа слов может быть выбрана в качестве стоп-слов для данной цели. «Общая тенденция в системах [поиска информации] с течением времени была от стандартного использования довольно больших стоп-листов (200–300 терминов) до очень маленьких стоп-листов (7–12 терминов) до полного отсутствия стоп-листов» [2]
При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова. [3]
Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал эту концепцию при представлении своего процесса автоматического индексирования ключевых слов в контексте. [4] Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоп-лист» появляются в литературе вскоре после этого. [5]
Хотя обычно предполагается, что списки стоп-слов включают в себя только наиболее часто встречающиеся слова в языке, именно CJ Van Rijsbergen предложил первый стандартизированный список, который не был основан на информации о частоте слов. «Список фургонов» включал 250 английских слов. Программа определения корней слов Мартина Портера, разработанная в 1980-х годах, основывалась на списке Van, а список Портера теперь широко используется в качестве списка стоп-слов по умолчанию в различных программных приложениях.
В 1990 году Кристофер Фокс предложил первый общий стоп-лист, основанный на эмпирической информации о частоте слов, полученной из Brown Corpus:
В этой статье рассказывается об упражнении по созданию стоп-листа для общего текста на основе корпуса Брауна, состоящего из 1 014 000 слов, взятых из широкого спектра литературы на английском языке. Начнем со списка токенов, встречающихся более 300 раз в корпусе Brown. Из этого списка 278 слов выбрано 32 на том основании, что они слишком важны как потенциальные индексные термины. Затем к списку добавляются двадцать шесть слов, полагая, что они могут очень часто встречаться в определенных видах литературы. Наконец, в список добавляются 149 слов, потому что фильтр на основе конечного автомата, в котором этот список предназначен для использования, может фильтровать их почти бесплатно.Конечный продукт - это список из 421 стоп-слова, который должен быть максимально эффективным и действенным при фильтрации наиболее часто встречающихся и семантически нейтральных слов в общей литературе на английском языке.[6]
В терминологии SEO , стоп-слова - это наиболее распространенные слова, которых избегают многие поисковые системы в целях экономии места и времени при обработке больших данных во время сканирования или индексации . Это помогает поисковым системам экономить место в своих базах данных. [7]
Для некоторых поисковых систем , они являются одними из наиболее распространенных, короткие функциональные слова , такие как , является , на , который и на . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, которые их включают, особенно в таких именах, как « Кто », « Тот » или « Возьми это ». Другие поисковые системы удаляют из запроса некоторые из наиболее распространенных слов, включая лексические слова , такие как «хочу», для повышения производительности. [8]