Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В обработке текста , а поиск близости выглядит для документов , где два или более отдельно соответствующие долгосрочных случаев находятся в пределах заданного расстояния , где расстояние является числом промежуточных слов или символов. В дополнение к близости некоторые реализации могут также накладывать ограничение на порядок слов, в котором порядок в искомом тексте должен быть идентичен порядку поискового запроса. Поиск по близости выходит за рамки простого сопоставления слов путем добавления ограничения близости и обычно рассматривается как форма расширенного поиска.

Например, при поиске можно найти «дом из красного кирпича» и сопоставить такие фразы, как «красный дом из кирпича» или «дом из красного кирпича». Ограничивая близость, эти фразы могут быть сопоставлены, избегая документов, в которых слова разбросаны или разбросаны по странице, или в несвязанных статьях в антологии.

Обоснование [ править ]

Основное лингвистическое предположение поиска по близости состоит в том, что близость слов в документе подразумевает связь между словами. Учитывая, что авторы документов пытаются сформулировать предложения, содержащие одну идею или группу связанных идей в пределах соседних предложений или организованных в абзацы, в структуре документа существует внутренняя, относительно высокая вероятность того, что слова, используемые вместе, связаны. С другой стороны, когда два слова находятся на противоположных концах книги, вероятность связи между словами относительно мала. Ограничивая результаты поиска включением только совпадений, где слова находятся в пределах указанной максимальной близости или расстояния, предполагается, что результаты поиска имеют более высокую релевантность, чем совпадения, в которых слова разбросаны.

Коммерческие поисковые системы в Интернете, как правило, выдают слишком много совпадений (так называемых отзыва) для среднего поискового запроса. Поиск по близости - это один из методов уменьшения количества совпадений страниц и повышения релевантности найденных страниц за счет использования близости слов для помощи в ранжировании. В качестве дополнительного преимущества поиск по близости помогает бороться с спамодексированием , избегая веб-страниц, которые содержат списки словарей или дробные списки из тысяч слов, которые в противном случае имели бы высокий рейтинг, если бы поисковая машина была сильно предвзята к частоте слов .

Логический синтаксис и операторы [ править ]

Обратите внимание, что поиск по близости может указывать на то, что только некоторые ключевые слова должны находиться в пределах указанного расстояния. Поиск по близости можно использовать с другим синтаксисом поиска и / или элементами управления, чтобы обеспечить более четкую формулировку поисковых запросов. Иногда операторы запроса, такие как NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE или FAR, используются для обозначения предела поиска по близости между заданными ключевыми словами: например, «кирпич NEAR house».

Использование в коммерческих поисковых системах [ править ]

Что касается неявного / автоматического поиска по сравнению с явным поиском по близости, по состоянию на ноябрь 2008 года большинство поисковых систем в Интернете реализовали только функцию неявного поиска по близости. То есть они автоматически ранжируют те результаты поиска выше, если ключевые слова пользователя имеют хорошую «общую оценку близости» в таких результатах. Если в поисковом запросе есть только два ключевых слова, это ничем не отличается от явного поиска по близости, который помещает оператор NEAR между двумя ключевыми словами. Однако, если присутствуют три или более трех ключевых слов, для пользователя часто важно указать, какие подмножества этих ключевых слов ожидают близости в результатах поиска. Это полезно, если пользователь хочет выполнить предшествующий уровень техники. поиск (например, поиск существующего подхода к выполнению конкретной задачи, поиск документа, раскрывающего систему, демонстрирующую процедурное поведение, совместно выполняемое несколькими компонентами, и связи между этими компонентами).

Системы веб-поиска, которые поддерживают поиск по близости с помощью явного оператора близости на своем языке запросов, включают Walhello , Exalead , Yandex , Yahoo! , Altavista и Bing :

  • При использовании поисковой системы Walhello близость можно определить по количеству символов между ключевыми словами. [1]
  • Поисковая система Exalead позволяет пользователю указать требуемую близость, как максимальное количество слов между ключевыми словами. Синтаксис: (keyword1 NEAR/n keyword2)где n - количество слов. [2]
  • Яндекс использует этот синтаксис keyword1 /n keyword2для поиска двух ключевых слов, разделенных не более чем словами, и поддерживает несколько других вариантов этого синтаксиса. [3]
  • Yahoo! и Altavista поддерживают недокументированного оператора NEAR. [4] [5] Синтаксис это keyword1 NEAR keyword2.
  • Поиск Google поддерживает ВОКРУГ (#). [6] [7]
  • Bing поддерживает NEAR. [8] Синтаксис: keyword1 near:n keyword2n = максимальное количество разделяющих слов.

Упорядоченный поиск в Google и Yahoo! поисковые системы можно использовать с использованием подстановочных знаков полного слова звездочки (*) : в Google это соответствует одному или нескольким словам [9], а в Yahoo! Искать это соответствует ровно одному слову. [10] (Это легко проверить, выполнив поиск по следующей фразе как в Google, так и в Yahoo !: «вызывает привыкание * библиоскопии».)

Эмулировать неупорядоченный поиск оператора NEAR можно с помощью комбинации упорядоченных поисков. Например, чтобы указать близкое совпадение слов «дом» и «собака», можно указать следующее поисковое выражение: «домашняя собака» ИЛИ «собачья будка» ИЛИ «дом * собака» ИЛИ «собака * дом» ИЛИ "дом * * собака" ИЛИ "собака * * дом".

См. Также [ править ]

Примечания [ править ]

  1. ^ "About Walhello" Архивировано 01 мая 2012 г. на Archive.today , посещено 23 декабря 2009 г.
  2. ^ "Синтаксис веб-поиска" , посещение 23 декабря 2009 г.
  3. ^ Справочная страница Яндекса на языке запросов (на русском)
  4. ^ "Успешный запрос близости Yahoo!" (22 февраля 2010 г.)
  5. ^ «Неудачный запрос близости Yahoo!» (22 февраля 2010 г.)
  6. ^ "GuidingTech: знакомство с малоизвестным ВСЕГДА оператором поиска Google"
  7. ^ "Google Offers Proximity Search" (8 февраля 2011 г.)
  8. ^ «Как использовать операторы расширенного поиска Bing»
  9. ^ "Дополнительная справка по поиску Google" посещена 23 декабря 2009 г.
  10. ^ "Обзор Yahoo! Search" от Search Engine Showdown, посещение 23 декабря 2009 г.