Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Федеративный поиск извлекает информацию из множества источников через поисковое приложение, построенное на базе одной или нескольких поисковых систем. [1] Пользователь выполняет единичный запрос, который распространяется среди поисковых систем , баз данных или других поисковых систем , участвующих в федерации. Затем объединенный поиск объединяет результаты, полученные от поисковых систем, для представления пользователю. Объединенный поиск можно использовать для интеграции разрозненных информационных ресурсов в рамках одной крупной организации («предприятия») или для всей сети.

Федеративный поиск, в отличие от распределенного поиска , требует централизованной координации доступных для поиска ресурсов. Это включает в себя как координацию запросов, передаваемых отдельным поисковым системам, так и объединение результатов поиска, возвращаемых каждой из них.

Цель [ править ]

Федеративный поиск возник для удовлетворения потребности в поиске нескольких разрозненных источников контента с помощью одного запроса. Это позволяет пользователю выполнять поиск в нескольких базах данных одновременно в режиме реального времени, упорядочивать результаты из различных баз данных в удобной форме и затем представлять результаты пользователю.

По сути, это подход к агрегированию информации или интеграции - он обеспечивает единый доступ ко многим информационным ресурсам и обычно возвращает данные в стандартной или частично гомогенизированной форме. Другие подходы включают построение хранилища данных предприятия , озеро данных , или концентратор данных . Федеративный поиск запрашивает много раз разными способами (каждый источник запрашивается отдельно), тогда как другие подходы импортируют и преобразуют данные много раз, обычно в пакетных процессах за ночь. Федеративный поиск обеспечивает просмотр всех источников в режиме реального времени (при условии, что все они находятся в сети и доступны).

В промышленных поисковых системах, таких как LinkedIn , федеративный поиск используется для персонализации вертикальных предпочтений для неоднозначных запросов. [2] Например, когда пользователь вводит запрос типа «машинное обучение» в LinkedIn, он или она может иметь в виду поиск людей с навыками машинного обучения, вакансий, требующих навыков машинного обучения, или контента по теме. В таких случаях федеративный поиск может использовать намерения пользователя (например, прием на работу, поиск работы или потребление контента) для персонализации вертикального порядка для каждого отдельного пользователя.

Процесс [ править ]

Как описано Peter Jacso (2004 [3] ), федеративный поиск состоит из (1) преобразования запроса и его широковещательной передачи группе разрозненных баз данных или других веб-ресурсов с соответствующим синтаксисом, (2) объединения результатов, полученных из баз данных, (3) представление их в кратком и унифицированном формате с минимальным дублированием, и (4) предоставление средств, выполняемых автоматически или пользователем портала, для сортировки объединенного набора результатов.

Федеративные поисковые порталы, коммерческие или открытые , как правило, ищут в общедоступных библиографических базах данных , в общедоступных каталогах веб-библиотек ( OPAC ), в поисковых системах, таких как Google, и / или в открытых, государственных или корпоративных коллекциях данных. Эти отдельные источники информации отправляют обратно в интерфейс портала список результатов поискового запроса. Пользователь может просмотреть этот список совпадений. Некоторые порталы просто очищают экранфактические результаты базы данных и не позволяют пользователю напрямую войти в приложение источника информации. Более сложные будут выводить дубликаты из списка результатов, объединяя и удаляя дубликаты. На многих порталах доступны дополнительные функции, но основная идея та же: повысить точность и релевантность отдельных поисковых запросов, а также сократить время, необходимое для поиска ресурсов.

Этот процесс дает объединенному поиску некоторые ключевые преимущества по сравнению с существующими поисковыми системами на основе поисковых роботов. Федеративный поиск не должен предъявлять никаких требований или обременять владельцев отдельных источников информации, кроме обработки увеличившегося трафика. Федеративный поиск по своей сути такой же актуальный, как и отдельные источники информации, поскольку поиск по ним осуществляется в режиме реального времени.

Реализация [ править ]

федеративная поисковая система
Объединение трех поисковых систем

Одним из приложений федеративного поиска является механизм метапоиска . Однако подход метапоиска не устраняет недостатки компонентных поисковых систем, такие как неполные индексы. Документы, которые не индексируются поисковыми системами, создают так называемую глубокую сеть или невидимую сеть. Google Scholar - один из примеров многих проектов, пытающихся решить эту проблему путем индексации электронных документов, игнорируемых поисковыми системами. И подход метапоиска, как и лежащая в его основе технология поисковых систем, работает только с источниками информации, хранящимися в электронной форме.

Одна из основных задач метапоиска - обеспечить совместимость поискового запроса с компонентами поисковых систем, которые объединяются и объединяются. Когда поисковый словарь или модель данных поисковой системы отличается от модели данных одной или нескольких внешних целевых систем, запрос должен быть переведен в каждую из внешних целевых систем. Это можно сделать с помощью простого перевода элементов данных или может потребоваться семантический перевод . Например, если одна поисковая система позволяет цитировать точные строки или n-граммы, а другая - нет, запрос должен быть переведен для совместимости с каждой поисковой системой. Чтобы перевести точный строковый запрос в кавычки, его можно разбить на набор перекрывающихся N-граммов. которые с наибольшей вероятностью дадут желаемые результаты поиска в каждой поисковой системе.

Еще одна проблема, с которой сталкивается при внедрении федеративных поисковых систем, - это масштабируемость. Трудно поддерживать производительность и скорость отклика федеративной поисковой системы, поскольку она объединяет все больше и больше источников информации. Одна из реализаций федеративного поиска , который приступил к решению этой проблемы является WorldWideScience , по приглашению Министерства энергетики США «ы Управления научно-технической информации . WorldWideScience [4] состоит из более чем 40 источников информации, некоторые из которых сами являются федеративными поисковыми порталами. Один из таких порталов - Science.gov [5]который сам объединяет более 30 источников информации, представляющих большую часть результатов НИОКР федерального правительства США. Science.gov возвращает результаты с наивысшим рейтингом в WorldWideScience, который затем объединяет и ранжирует эти результаты с результатами поиска, полученными из других источников информации, составляющих WorldWideScience. [5] Такой подход каскадного федеративного поиска позволяет выполнять поиск в большом количестве источников информации с помощью одного запроса.

Другое приложение Sesam, работающее как в Норвегии, так и в Швеции, было построено на платформе с открытым исходным кодом, специализирующейся на решениях для федеративного поиска. Sesat, [6] аббревиатура от Sesam Search Application Toolkit , представляет собой платформу, которая предоставляет большую часть инфраструктуры и функций, необходимых для обработки параллельного и конвейерного поиска и элегантного отображения их в пользовательском интерфейсе, позволяя инженерам сосредоточиться на конфигурации индекса / базы данных. тюнинг.

Чтобы персонализировать вертикальные заказы в федеративном поиске, поисковая система LinkedIn [2] использует профиль искателя и недавние действия, чтобы сделать вывод о его или ее намерениях, таких как прием на работу, поиск работы и потребление контента, а затем использует намерение наряду со многими другими сигналами, чтобы вертикальный порядок ранжирования, который лично актуален для конкретного искателя.

Проблемы [ править ]

Когда объединенный поиск выполняется в защищенных источниках данных, учетные данные пользователей должны быть переданы каждой базовой поисковой системе, чтобы обеспечить надлежащую безопасность. Если у пользователя разные учетные данные для входа в разные системы, должно быть средство сопоставления их идентификатора входа с доменом безопасности каждой поисковой системы. [7]

Другой проблемой является отображение навигаторов списка результатов в общую форму. Предположим, выполняется поиск на 3 сайтах недвижимости, каждый из которых предоставляет список названий городов с гиперссылками, по которым можно щелкнуть, чтобы увидеть совпадения только в каждом городе. В идеале эти аспекты должны быть объединены в один набор, но это создает дополнительные технические проблемы. [8] Система также должна понимать ссылки «следующая страница», если она позволяет пользователю пролистывать комбинированные результаты.

Некоторая проблема отображения на общую форму может быть решена, если объединенные ресурсы поддерживают связанные открытые данные через RDF . Онтологии (правила) могут быть добавлены для сопоставления результатов с общими формами с использованием этой технологии.

Еще одна проблема - сортировка и оценка результатов. Каждый веб-ресурс имеет собственное понятие оценки релевантности и может поддерживать некоторый порядок сортировки результатов. Релевантность сильно различается среди «федератов» в поиске, поэтому знать, как чередовать результаты, чтобы показывать наиболее релевантные, сложно или невозможно.

Еще одна проблема - надежный запрос. Федеративному поиску, возможно, придется ограничиться минимальным набором возможностей запросов, общих для всех федераций. Например, если Google поддерживает отрицание и цитируемые фразы, а science.gov - нет, то для федеративного поиска будет невозможно поддерживать отрицательные, цитируемые фразы.

Еще одна проблема - доступность и тайм-аут . По мере роста числа федератов (федеративных источников) вероятность одного или нескольких медленных или автономных федератов становится высокой. Федеративный поиск должен решить, когда рассматривать федерацию в автономном режиме или ждать медленного ответа. Время ответа будет продиктовано самым медленным из всех федератов.

Еще одна проблема - разработка и тестирование на предприятии (а не в общедоступном Интернете). Группы разработчиков, как правило, не должны использовать живые производственные системы, поскольку они выполняют обычную работу, а тем более интенсивное нагрузочное тестирование. Кроме того, некоторые ресурсы безопасны, и их нельзя произвольно запрашивать и раскрывать в процессе разработки из соображений конфиденциальности и безопасности. Следовательно, среды разработки, тестирования и тестирования производительности должны включать установку и настройку многих подсистем, чтобы обеспечить безопасное и надежное тестирование.

Еще одна проблема на предприятии - HA / DR ( высокая доступность и аварийное восстановление ). Чтобы вся федеративная система была HA / DR, каждая подсистема должна быть HA / DR.

Аналогичным образом, моделирование производительности и планирование мощности для объединенной системы требует моделирования, планирования, а иногда и расширения всех объединений.

По причинам, указанным выше, на предприятии предпочтительнее использовать концентратор данных или озеро данных или гибридный подход. Центры данных и озера упрощают разработку и доступ, но могут потребовать некоторой задержки перед тем, как данные станут доступны (без специальной логики синхронизации). В сети более типична федерация.

См. Также [ править ]

  • Поисковый агрегатор
  • Z39.50

Ссылки [ править ]

  1. ^ "Что такое федеративный поиск?" . Блог Ковео . Ковео . Проверено 29 июня 2020 года .
  2. ^ а б Арья, Дхрув; Ха-Тук, Вьетнам; Синха, Шакти (2015). «Персонализированный федеративный поиск в LinkedIn». Материалы 24-й Международной конференции ACM по управлению информацией и знаниями (CIKM) . С. 1699–1702. arXiv : 1602.04924 . DOI : 10.1145 / 2806416.2806615 . ISBN 9781450337946.
  3. ^ Мысли о федеративном поиске. Хасо, Петер, Information Today, октябрь 2004 г., Vol. 21, Выпуск 9
  4. ^ Всемирная наука
  5. ^ a b Science.gov
  6. ^ "Сесат" . Архивировано из оригинала на 2015-07-20 . Проверено 17 августа 2019 .
  7. ^ Сопоставление требований безопасности с поисковой системой предприятия
  8. ^ 20+ различий между поиском в Интернете и поиском предприятия - часть 1

Дальнейшее чтение [ править ]

  • Федеративный поиск 101. Линоски, Алексис, Валчик, Тайн, Библиотечный журнал, Net Connect, лето 2008, Vol. 133 . Этот контент был перемещен сюда , но вам понадобится учетная запись удаленного доступа через вашу локальную библиотеку, чтобы получить всю статью.
  • Кокс, Кристофер Н. Федеративный поиск: решение или неудача для онлайн-библиотечных служб. Бингемтон, Нью-Йорк: Haworth Information Press, 2007. Содержание
  • Учебник по федеративному поиску. Ледерман, S., AltSearchEngines, январь 2009 . Этот материал был размещен здесь , в блоге коммерческой поисковой компании.
  • Си, Луо; Шокухи, Милад (2011). «Федеративный поиск». Основы и тенденции в поиске информации . 5 : 1–102. DOI : 10.1561 / 1500000010 .