Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Расширение запроса ( QE ) - это процесс переформулирования данного запроса для повышения производительности поиска в операциях поиска информации , особенно в контексте понимания запроса . [1] В контексте поисковых систем расширение запроса включает оценку ввода пользователя (какие слова были введены в область поискового запроса, а иногда и другие типы данных ) и расширение поискового запроса для соответствия дополнительным документам. Расширение запроса включает такие методы, как:

Расширение запроса - это методология, изучаемая в области информатики , особенно в области обработки естественного языка и поиска информации .

Компромиссы между точностью и отзывчивостью [ править ]

Поисковые системы вызывают расширение запроса, чтобы повысить качество результатов поиска пользователей. Предполагается, что пользователи не всегда формулируют поисковые запросы, используя лучшие термины. Лучше всего в этом случае может быть то, что база данных не содержит введенных пользователем терминов.

За счет выделения введенного пользователем термина сопоставляется больше документов, так как альтернативные словоформы для введенного пользователем термина также сопоставляются, что увеличивает общий отзыв . Это происходит за счет снижения точности . Расширение поискового запроса для поиска синонимов введенного пользователем термина также увеличивает отзывчивость за счет точности. Это связано с природой уравнения того, как вычисляется точность, в том смысле, что больший отзыв неявно вызывает снижение точности, учитывая, что факторы отзыва являются частью знаменателя. Также предполагается, что более частый отзыв отрицательно влияет на общее качество результатов поиска, поскольку многие пользователи не хотят, чтобы прочесывалось больше результатов, независимо от точности.

Цель расширения запроса в этом отношении состоит в том, чтобы увеличить отзывчивость, точность может потенциально увеличиться (а не уменьшаться, как математически приравнивается), путем включения в набор результатов страниц, которые более релевантны (более высокого качества) или, по крайней мере, одинаково релевантны. Страницы, которые не были бы включены в набор результатов, которые потенциально могут быть более релевантными для желаемого пользователем запроса, включаются и без расширения запроса не будут иметь, независимо от релевантности. В то же время многие современные коммерческие поисковые системы используют частоту слов ( tf-idf ) для повышения рейтинга. [ необходима цитата ] Путем ранжирования вхождений введенных пользователем слов и синонимов и альтернативных морфологических форм документы с более высокой плотностью (высокая частота и непосредственная близость) имеют тенденцию перемещаться выше в результатах поиска, что приводит к более высокому качеству результатов поиска рядом с на вершине результатов, несмотря на большее количество отзывов.

Методы расширения запроса [ править ]

Автоматические методы расширения запроса были предложены в 1960 году Мароном и Кунсом. [2] Современные методы расширения запросов либо предполагают анализ коллекции документов (глобальный или локальный) [3], либо основаны на словарях или онтологиях. [4] Глобальный анализ коллекции документов применяется для поиска отношений между терминами. Локальный анализ относится к обратной связи по релевантности, представленной Роккио. [5] Роккио предложил вручную оценить некоторые из найденных документов и использовать эту информацию обратной связи для расширения запроса. Поскольку сбор оценок пользователей может быть сложной задачей, релевантными считаются только первые извлеченные документы. Это так называемая обратная связь псевдорелевантности (PRF).[6] Псевдорелевантная обратная связь в среднем эффективна, но может повредить результаты по некоторым запросам, [7] особенно трудным, поскольку самые популярные документы, вероятно, нерелевантны. Псевдорелевантные документы используются для поиска терминов-кандидатов на раскрытие, которые встречаются со многими терминами запроса. [8] Эта идея получила дальнейшее развитие в рамкахформализма языковой модели релевантностив позиционной релевантности [9] и моделях релевантности близости [10], которые учитывают расстояние до терминов запроса в псевдорелевантных документах. Еще одно направление в расширении запросов - это применение встраивания слов . [11]

См. Также [ править ]

  • Поиск документов
  • Поиск информации
  • Лингвистика
  • Морфология (лингвистика)
  • Обработка естественного языка
  • Поисковый движок
  • Индексирование поисковой системой
  • Стемминг

Программные библиотеки [ править ]

  • QueryTermAnalyzer с открытым исходным кодом, C #. Анализатор веса терминов запроса и синонимов на основе машинного обучения для расширения запроса.
  • LucQE - открытый код, Java. Предоставляет структуру вместе с несколькими реализациями, которые позволяют выполнять расширение запроса с использованием Apache Lucene .
  • Xapian - это поисковая библиотека с открытым исходным кодом, которая включает поддержку расширения запросов.
  • ReQue с открытым исходным кодом, Python. Настраиваемая программная среда и коллекция золотых стандартных наборов данных для обучения и оценки контролируемых методов расширения запросов [12] [13] .

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Vectomova, Ольга; Ван, Ин (2006). «Исследование влияния близости термина на расширение запроса». Журнал информатики . 32 (4): 324–333. CiteSeerX  10.1.1.552.5987 . DOI : 10.1177 / 0165551506065787 .
  2. ^ Марон, ME и Кунс, JL 1960. О релевантности, вероятностном индексировании и поиске информации. Журнал ACM 7, 3, 216–244.
  3. ^ К. Карпинето и Г. Романо. Обзор автоматического расширения запросов при поиске информации. ACM Computing Surveys, 44 (1): 1-50, январь 2012 г.
  4. ^ J. Bhogal, А. Макфарлейн, П. Смит. Обзор расширения запросов на основе онтологий. Инф. Процесс. Manage., 43 (4): 866-886, июль 2007 г.
  5. ^ Дж. Роккио. Актуальность обратной связи в поиске информации. В системе поиска SMART, стр. 313-323. 1971 г.
  6. ^ К. Бакли. Автоматическое расширение запроса с использованием SMART: TREC 3. В материалах третьей конференции по восстановлению текста (TREC-3). Специальная публикация NIST, стр. 69-80. Национальный институт стандартов и технологий, 1995 г.
  7. ^ Г. Амати, К. Карпинето и Г. Романо. Сложность запроса, надежность и выборочное применение расширения запроса. Достижения в области информационного поиска, стр. 127-137, 2004.
  8. ^ Дж. Сюй и У. Б. Крофт. Расширение запроса с использованием локального и глобального анализа документов. В материалах 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, страницы 4-11. ACM, 1996.
  9. Y. Lv и C. Zhai. Модель позиционной релевантности для обратной связи псевдорелевантности. В материалах 33-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 579-586. ACM, 2010.
  10. ^ Л. Ермакова, Дж. Моте, Э. Никитина. 2016. Модель близкой релевантности для расширения запроса. В материалах 31-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '16). ACM, Нью-Йорк, Нью-Йорк, США, 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
  11. ^ С. Кузи, А. Шток, О. Курланд. 2016. Расширение запроса с помощью вложения слов. В материалах 25-й конференции ACM International по управлению информацией и знаниями (CIKM '16). ACM, Нью-Йорк, Нью-Йорк, США, 1929-1932 гг. DOI: https://doi.org/10.1145/2983323.2983876
  12. ^ Махтаб Таманнаи, Хоссейн Фани, Фаттане Зарринкалам, Джамиль Самух, Самад Пайдар, Эбрахим Багери: ReQue: Настраиваемый рабочий процесс и сбор данных для уточнения запросов. CIKM 2020: 3165-3172
  13. ^ Хоссейн Фаня, Махтаб Tamannaee, Fattane Zarrinkalam, Джамиль Samouh Самед Paydar, Ebrahim Bagheri; Расширяемый набор методов уточнения запросов и создания наборов данных золотого стандарта. В достижениях в области информационного поиска: 43-я Европейская конференция по исследованиям в области IR (ECIR'21), 2021 г.

Источники [ править ]

  • Д. Эбберли, Д. Кирби, С. Реналс и Т. Робинсон, система поиска новостей THISL. В Proc. ESCA ETRW Workshop Доступ к информации в разговорной речи , (Кембридж), стр. 14–19, 1999. Раздел по расширению запроса - краткий математический обзор.
  • Р. Навильи, П. Веларди. Анализ стратегий расширения запросов на основе онтологий . Proc. семинара по адаптивному извлечению и интеллектуальному анализу текста (ATEM 2003) на 14-й Европейской конференции по машинному обучению (ECML 2003) , Цавтат-Дубровник, Хорватия, 22-26 сентября 2003 г., стр. 42–49 - Анализ расширения запросов методы, основанные на WordNet в качестве справочной онтологии.
  • Ю. Цю и Х. П. Фрей. Расширение запросов на основе концепций . In Proceedings of SIGIR-93, 16th ACM International Conference on Research and Development in Information Retrieval , Pittsburgh, SIGIR Forum, ACM Press, июнь 1993 - Академический документ о конкретном методе расширения запроса
  • Efthimis N. Efthimiadis. Расширение запроса . В: Марта Э. Уильямс (редактор), Annual Review of Information Systems and Technology (ARIST) , v31, pp 121–187, 1996 - Введение для менее технических зрителей.