Стоп-слово

Стоп-слова - это любое слово в стоп-листе (или в стоп-листе, или в отрицательном словаре), которые отфильтровываются (т. Е. Останавливаются) до или после обработки данных на естественном языке (текста). ^[1] Не существует единого универсального списка стоп-слов, используемых всеми инструментами обработки естественного языка , ни каких-либо согласованных правил для определения стоп-слов, и, действительно, не все инструменты даже используют такой список. Следовательно, любая группа слов может быть выбрана в качестве стоп-слов для данной цели. «Общая тенденция в системах [поиска информации] с течением времени была от стандартного использования довольно больших стоп-листов (200–300 терминов) до очень маленьких стоп-листов (7–12 терминов) до полного отсутствия стоп-листов» ^[2]

История стоп-слов

При создании некоторых согласований использовалась предшествующая концепция . Например, первое согласование на иврите, Me'ir nativ, содержало одностраничный список неиндексированных слов с несущественными предлогами и союзами, которые похожи на современные стоп-слова. ^[3]

Ханс Петер Лун , один из пионеров в области поиска информации , придумал эту фразу и использовал эту концепцию при представлении своего процесса автоматического индексирования ключевых слов в контексте. ^[4] Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-лист» и «стоп-лист» появляются в литературе вскоре после этого. ^[5]

Хотя обычно предполагается, что списки стоп-слов включают в себя только наиболее часто встречающиеся слова в языке, именно CJ Van Rijsbergen предложил первый стандартизированный список, который не был основан на информации о частоте слов. «Список фургонов» включал 250 английских слов. Программа определения корней слов Мартина Портера, разработанная в 1980-х годах, основывалась на списке Van, а список Портера теперь широко используется в качестве списка стоп-слов по умолчанию в различных программных приложениях.

В 1990 году Кристофер Фокс предложил первый общий стоп-лист, основанный на эмпирической информации о частоте слов, полученной из Brown Corpus:

В этой статье рассказывается об упражнении по созданию стоп-листа для общего текста на основе корпуса Брауна, состоящего из 1 014 000 слов, взятых из широкого спектра литературы на английском языке. Начнем со списка токенов, встречающихся более 300 раз в корпусе Brown. Из этого списка 278 слов выбрано 32 на том основании, что они слишком важны как потенциальные индексные термины. Затем к списку добавляются двадцать шесть слов, полагая, что они могут очень часто встречаться в определенных видах литературы. Наконец, в список добавляются 149 слов, потому что фильтр на основе конечного автомата, в котором этот список предназначен для использования, может фильтровать их почти бесплатно.Конечный продукт - это список из 421 стоп-слова, который должен быть максимально эффективным и действенным при фильтрации наиболее часто встречающихся и семантически нейтральных слов в общей литературе на английском языке.^[6]

В терминологии SEO , стоп-слова - это наиболее распространенные слова, которых избегают многие поисковые системы в целях экономии места и времени при обработке больших данных во время сканирования или индексации . Это помогает поисковым системам экономить место в своих базах данных. ^[7]

Для некоторых поисковых систем , они являются одними из наиболее распространенных, короткие функциональные слова , такие как , является , на , который и на . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, которые их включают, особенно в таких именах, как « Кто », « Тот » или « Возьми это ». Другие поисковые системы удаляют из запроса некоторые из наиболее распространенных слов, включая лексические слова , такие как «хочу», для повышения производительности. ^[8]

Смотрите также

использованная литература

^ Раджараман, А .; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Майнинг массивных наборов данных . С. 1–17. DOI : 10.1017 / CBO9781139058452.002 . ISBN 9781139058452.
^ Кристофер Д. Маннинг, Prabhakar Raghavan, Hinrich Schütze (2008). Введение в поиск информации . Издательство Кембриджского университета. п. 27.CS1 maint: несколько имен: список авторов ( ссылка )
^ Вайнберг, Белла Хасс (2004). «Предшественники научных структур индексации в области религии» (PDF) . Вторая конференция по истории и наследию систем научно-технической информации : 126–134 . Проверено 17 февраля +2016 .
^ Лун, HP (1959). «Контекстный указатель ключевых слов для технической литературы (индекс KWIC)». Американская документация . Йорктаун-Хайтс, штат Нью-Йорк: International Business Machines Corp. 11 (4): 288–295. DOI : 10.1002 / asi.5090110403 .
Перейти ↑ Flood, Barbara J. (1999). «Историческая справка: начало стоп-листа в биологических рефератах». Журнал Американского общества информационных наук . 50 (12): 1066. DOI : 10.1002 / (SICI) 1097-4571 (1999) 50:12 <1066 :: AID-ASI5> 3.0.CO; 2-A .
^ Фокс, Кристофер (1989-09-01). «Стоп-лист для общего текста» . ACM SIGIR Forum . 24 (1-2): 19-21. DOI : 10.1145 / 378881.378888 . ISSN 0163-5840 .
^ «Стоп-слова и влияние на SEO - поисковую систему» . Нация поисковых систем . 2018-04-24 . Проверено 24 мая 2018 .
^ Stackoverflow : «Одна из наших основных оптимизаций производительности для запроса« связанных вопросов »- это удаление первых 10 000 наиболее распространенных слов английского языка (по данным поиска Google) перед отправкой запроса в полнотекстовый механизм SQL Server 2008. Это шокирует, как от большинства сообщений после удаления первых 10 тыс. слов из английского словаря мало что остается. Это помогает ограничить и сузить возвращаемые результаты, что значительно ускоряет выполнение запроса ".

внешние ссылки

Список английских стоп-слов (массив PHP, CSV)
Полнотекстовые стоп-слова в MySQL
Английские стоп-слова (CSV)
Стоп-слова Индонезия Запрос массива PHP
Немецкие стоп-слова , немецкие стоп-слова и фразы , еще один список немецких стоп-слов
Польские стоп-слова
Сборник стоп-слов на 29 языках ( архив )
Список стоп-слов на хинди

[1] Раджараман, А .; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Майнинг массивных наборов данных . С. 1–17. DOI : 10.1017 / CBO9781139058452.002 . ISBN 9781139058452.

[2] Кристофер Д. Маннинг, Prabhakar Raghavan, Hinrich Schütze (2008). Введение в поиск информации . Издательство Кембриджского университета. п. 27.CS1 maint: несколько имен: список авторов ( ссылка )

[3] Вайнберг, Белла Хасс (2004). «Предшественники научных структур индексации в области религии» (PDF) . Вторая конференция по истории и наследию систем научно-технической информации : 126–134 . Проверено 17 февраля +2016 .

[4] Лун, HP (1959). «Контекстный указатель ключевых слов для технической литературы (индекс KWIC)». Американская документация . Йорктаун-Хайтс, штат Нью-Йорк: International Business Machines Corp. 11 (4): 288–295. DOI : 10.1002 / asi.5090110403 .

[5] Перейти ↑ Flood, Barbara J. (1999). «Историческая справка: начало стоп-листа в биологических рефератах». Журнал Американского общества информационных наук . 50 (12): 1066. DOI : 10.1002 / (SICI) 1097-4571 (1999) 50:12 <1066 :: AID-ASI5> 3.0.CO; 2-A .

[6] Фокс, Кристофер (1989-09-01). «Стоп-лист для общего текста» . ACM SIGIR Forum . 24 (1-2): 19-21. DOI : 10.1145 / 378881.378888 . ISSN 0163-5840 .

[7] «Стоп-слова и влияние на SEO - поисковую систему» . Нация поисковых систем . 2018-04-24 . Проверено 24 мая 2018 .

[8] Stackoverflow : «Одна из наших основных оптимизаций производительности для запроса« связанных вопросов »- это удаление первых 10 000 наиболее распространенных слов английского языка (по данным поиска Google) перед отправкой запроса в полнотекстовый механизм SQL Server 2008. Это шокирует, как от большинства сообщений после удаления первых 10 тыс. слов из английского словаря мало что остается. Это помогает ограничить и сузить возвращаемые результаты, что значительно ускоряет выполнение запроса ".

[1]

vтеПоисковая оптимизация
Стандарты исключения	Стандарт исключения роботов Мета-элемент не следует
Маркетинговые темы	Он-лайн реклама Рекламная рассылка Медийная реклама Веб-аналитика
Поисковый маркетинг	Маркетинг в поисковых системах Оптимизация социальных сетей Управление идентификацией в Интернете Платное включение Оплата за клик Гугл бомба
Спам в поисковых системах	Спамдексинг Веб-скрапинг Сайт-скребок Ссылочная ферма Создание ссылок
Связывание	Обратная ссылка Создание ссылок Обмен ссылками Органическое связывание
Люди	Дэнни Салливан Мэтт Каттс Ванесса Фокс Барри Шварц
Другой	Геотаргетинг Система поиска людей Стоп-слова Контентная ферма