Понимание запросов

Понимание запроса - это процесс определения намерения пользователя поисковой системы путем извлечения семантического значения из ключевых слов искателя. ^[1] Методы понимания запросов обычно применяются до того, как поисковая система получит и ранжирует результаты. Он связан с обработкой естественного языка, но специально ориентирован на понимание поисковых запросов. Запрос понимание лежит в основе таких технологий , как Amazon Alexa , ^[2] Яблоко «s Siri . ^[3] Google Assistant , ^[4] IBM 's Watson ,^[5] и Microsoft «s Кортана . ^[6]

Методы [ править ]

Токенизация [ править ]

Токенизация - это процесс разбиения текстовой строки на слова или другие значимые элементы, называемые токенами. Обычно токенизация происходит на уровне слов. Однако иногда бывает трудно определить, что подразумевается под словом. Часто токенизатор полагается на простые эвристики, такие как разбиение строки на знаки препинания и пробелы . Токенизация более сложна для языков без пробелов между словами, таких как китайский и японский . Токенизация текста на этих языках требует использования алгоритмов сегментации слов . ^[7]

Исправление орфографии [ править ]

Коррекция орфографии - это процесс автоматического обнаружения и исправления орфографических ошибок в поисковых запросах. Большинство алгоритмов исправления орфографии основаны на языковой модели , которая определяет априорную вероятность предполагаемого запроса, и модели ошибок (обычно модель зашумленного канала ), которая определяет вероятность конкретной орфографической ошибки при заданном запросе. ^[8]

Стемминг и лемматизация [ править ]

Многие, но не все, язык изменяют слова, чтобы отразить их роль в высказывании, в котором они появляются: такое слово, как * забота *, может появляться как помимо основной формы. как * заботы *, * заботы *, * заботы * и другие. Вариации между различными формами слова, вероятно, не будут иметь большого значения для относительно крупнозернистой модели значения, используемой в поисковой системе, и по этой причине задача объединения различных форм слова является потенциально полезным методом для увеличить отзыв поисковой системы. ^[9]

Языки мира различаются по сколько морфологическое изменением они демонстрируют, и для некоторых языков есть простые способы , чтобы уменьшить слово в запросе его лемма или корневой форму или его стебель . Для некоторых других языков эта операция включает нетривиальную обработку строк. Существительное в английском языке обычно встречается в четырех вариантах: * cat * * cat's * * cats * * cats '* или * child * * child´s * * children * * Children's *. На других языках больше вариаций. Например, в финском языке существует около 5000 форм существительного ^[10], и для многих языков словоизменительные формы не ограничиваются аффиксами, но изменяют суть самого слова.

Алгоритмы стемминга, также известные как стеммеры, обычно используют набор простых правил для удаления суффиксов, предназначенных для моделирования правил перегиба языка. ^[11]

Более продвинутые методы, методы лемматизации , группируют измененные формы слова с помощью более сложных наборов правил, основанных на части речи слова или его записи в лексической базе данных , преобразовывая изменяемое слово с помощью поиска или серии преобразований в его лемму. Долгое время считалось доказанным, что морфологическая нормализация в целом не способствует повышению эффективности поиска. ^[12]

Когда внимание области поиска информации переключилось на другие языки, помимо английского, было обнаружено, что для некоторых языков можно было найти очевидные выгоды. ^[13]

Распознавание сущностей [ править ]

Распознавание сущностей - это процесс поиска и классификации сущностей в текстовой строке. При распознавании именованных сущностей особое внимание уделяется именованным сущностям , например именам людей, местам и организациям. Кроме того, распознавание сущностей включает в себя определение концептов в запросах, которые могут быть представлены фразами из нескольких слов. Системы распознавания сущностей обычно используют лингвистические методы на основе грамматики или статистические модели машинного обучения . ^[14]

Переписывание запроса [ править ]

Переписывание запроса - это процесс автоматического переформулирования поискового запроса для более точного отражения его цели. Расширение запроса добавляет дополнительные термины запроса, такие как синонимы, чтобы получить больше документов и, таким образом, повысить уровень запоминания. Ослабление запроса удаляет термины запроса, чтобы снизить требования к документу, чтобы он соответствовал запросу, тем самым также увеличивая отзыв . Другие формы переписывания запросов, такие как автоматическое преобразование следующих друг за другом терминов запроса во фразы и ограничение условий запроса конкретными полями , направлены на повышение точности . Поисковая система Apache Lucene ^[15]использует перезапись запроса для преобразования сложных запросов в более примитивные запросы, такие как выражения с подстановочными знаками (например, quer *), в логический запрос соответствующих терминов из индекса (например, запросы OR). ^[16]

См. Также [ править ]

Блог Дэниела Тункеланга о понимании запросов
ACM SIGIR 2010 Отчет семинара по представлению и пониманию запросов
Материалы семинара ACM SIGIR 2011 по представлению и пониманию запросов
Семинар ACM WSDM 2016 по пониманию запросов для поиска на всех устройствах

Ссылки [ править ]

^ "Семинар Специальной группы по поиску информации (SIGIR) Ассоциации вычислительной техники (ACM) по представлению и пониманию запросов" (PDF) .
^ «Amazon AI - Искусственный интеллект» .
^ «iOS - Siri - Apple» .
^ «Как Google использует машинное обучение в своих алгоритмах поиска» .
^ «Когда Ватсон встретил Siri: сделка Apple с IBM может сделать Siri намного умнее» .
^ «История Кортаны, убийцы Siri от Microsoft» .
^ «Токенизация» .
^ «Как написать корректор орфографии» .
^ Лоу, Томас; Робертс, Дэвид; Курц, Петердейт = 1973. Дополнительная обработка текста для онлайн-поиска (система RADCOL). Том 1 . Документ DTIC.Леннон, Мартин; Пирс, Дэвид; Тарри, Брайан Д; Уиллетт, Питер (1981). «Оценка некоторых алгоритмов объединения для поиска информации». Ученый-информатор . МУДРЕЦ. 3 (4).
^ Карлссон, Фред (2008). Финский: важная грамматика . Рутледж.
^ Ловинс, Джули (1968). Разработка алгоритма стемминга . Группа обработки информации Массачусетского технологического института.
^ Харман, Донна (1991). «Насколько эффективны суффиксы?». Журнал Американского общества информационных наук . 42 (1): 7–15. DOI : 10.1002 / (SICI) 1097-4571 (199101) 42: 1 <7 :: AID-ASI2> 3.0.CO; 2-P .
^ Попович, Миркоч; Уиллетт, Питер (1981). «Эффективность ограничения доступа к словенским текстовым данным на естественном языке». Ученый-информатор . МУДРЕЦ. 3 (4).
^ «Обзор признания и классификации именных организаций» (PDF) .
^ "Apache Lucene" .
^ «Запрос в документации API Lucene 6.4.1» .

[1] "Семинар Специальной группы по поиску информации (SIGIR) Ассоциации вычислительной техники (ACM) по представлению и пониманию запросов" (PDF) .

[2] «Amazon AI - Искусственный интеллект» .

[3] «iOS - Siri - Apple» .

[4] «Как Google использует машинное обучение в своих алгоритмах поиска» .

[5] «Когда Ватсон встретил Siri: сделка Apple с IBM может сделать Siri намного умнее» .

[6] «История Кортаны, убийцы Siri от Microsoft» .

[7] «Токенизация» .

[8] «Как написать корректор орфографии» .

[9] Лоу, Томас; Робертс, Дэвид; Курц, Петердейт = 1973. Дополнительная обработка текста для онлайн-поиска (система RADCOL). Том 1 . Документ DTIC.Леннон, Мартин; Пирс, Дэвид; Тарри, Брайан Д; Уиллетт, Питер (1981). «Оценка некоторых алгоритмов объединения для поиска информации». Ученый-информатор . МУДРЕЦ. 3 (4).

[10] Карлссон, Фред (2008). Финский: важная грамматика . Рутледж.

[11] Ловинс, Джули (1968). Разработка алгоритма стемминга . Группа обработки информации Массачусетского технологического института.

[12] Харман, Донна (1991). «Насколько эффективны суффиксы?». Журнал Американского общества информационных наук . 42 (1): 7–15. DOI : 10.1002 / (SICI) 1097-4571 (199101) 42: 1 <7 :: AID-ASI2> 3.0.CO; 2-P .

[13] Попович, Миркоч; Уиллетт, Питер (1981). «Эффективность ограничения доступа к словенским текстовым данным на естественном языке». Ученый-информатор . МУДРЕЦ. 3 (4).

[14] «Обзор признания и классификации именных организаций» (PDF) .

[15] "Apache Lucene" .

[16] «Запрос в документации API Lucene 6.4.1» .

[1]