В вычислении , стоп - слова есть слова , которые отфильтрованы до или после обработки естественного языка данных (текст). [1] Хотя «стоп-слова» обычно относятся к наиболее распространенным словам в языке, не существует единого универсального списка стоп-слов, используемых всеми инструментами обработки естественного языка , и, действительно, не все инструменты даже используют такой список. Некоторые инструменты специально избегают удаления этих стоп-слов для поддержки фразового поиска .
Любая группа слов может быть выбрана в качестве стоп-слов для данной цели. Для некоторых поисковых систем , они являются одними из наиболее распространенных, короткие функциональные слова , такие как , является , на , который и на . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, которые их включают, особенно в таких именах, как « Кто », « Тот » или « Возьми это ». Другие поисковые системы удаляют из запроса некоторые из наиболее распространенных слов, включая лексические слова , такие как «хочу», чтобы повысить производительность. [2]
Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал концепцию. [3] Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоп-лист» появляются в литературе вскоре после этого. [4]
При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова. [5]
В терминологии SEO стоп-слова - это наиболее распространенные слова, которые избегают большинство поисковых систем в целях экономии места и времени при обработке больших данных во время сканирования или индексации . Это помогает поисковым системам экономить место в своих базах данных. [6]
Смотрите также
Рекомендации
- ^ Раджараман, А .; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Майнинг массивных наборов данных . С. 1–17. DOI : 10.1017 / CBO9781139058452.002 . ISBN 9781139058452.
- ^ Stackoverflow : «Одна из наших основных оптимизаций производительности для запроса« связанных вопросов »- это удаление первых 10 000 наиболее распространенных слов английского языка (по данным поиска Google) перед отправкой запроса в полнотекстовый механизм SQL Server 2008. Это шокирует, как от большинства сообщений после удаления первых 10 тыс. слов из английского словаря мало что остается. Это помогает ограничить и сузить возвращаемые результаты, что значительно ускоряет выполнение запроса ".
- ^ Лун, HP (1959). «Контекстный указатель ключевых слов для технической литературы (индекс KWIC)». Американская документация . Йорктаун-Хайтс, штат Нью-Йорк: International Business Machines Corp. 11 (4): 288–295. DOI : 10.1002 / asi.5090110403 .
- ^ Флуд, Барбара Дж. (1999). «Историческая справка: начало стоп-листа в биологических рефератах». Журнал Американского общества информационных наук . 50 (12): 1066. DOI : 10.1002 / (SICI) 1097-4571 (1999) 50:12 <1066 :: AID-ASI5> 3.0.CO; 2-A .
- ^ Вайнберг, Белла Хасс (2004). «Предшественники научных структур индексации в области религии» (PDF) . Вторая конференция по истории и наследию систем научно-технической информации : 126–134 . Проверено 17 февраля +2016 .
- ^ «Стоп-слова и влияние на SEO - поисковую систему» . Нация поисковых систем . 2018-04-24 . Проверено 24 мая 2018 .
Внешние ссылки
- Список английских стоп-слов (массив PHP, CSV)
- Полнотекстовые стоп-слова в MySQL
- Английские стоп-слова (CSV)
- Стоп-слова Индонезия Запрос массива PHP
- Немецкие стоп-слова , немецкие стоп-слова и фразы , еще один список немецких стоп-слов
- Польские стоп-слова
- Сборник стоп-слов на 29 языках ( архив )
- Список стоп-слов на хинди