Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Корпоративный поиск - это практика создания контента из нескольких источников корпоративного типа, таких как базы данных и интрасети , доступным для поиска определенной аудитории. [1]

«Корпоративный поиск» используется для описания программного обеспечения для поиска информации на предприятии (хотя функция поиска и ее результаты могут быть общедоступными). [2] Корпоративный поиск можно сравнить с веб-поиском , который применяет технологию поиска к документам в открытой сети, и настольным поиском , который применяет технологию поиска к контенту на одном компьютере.

Поисковые системы предприятия индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие поисковые системы предприятия объединяют структурированные и неструктурированные данные в свои коллекции. [3] Корпоративные поисковые системы также используют средства управления доступом для обеспечения соблюдения политики безопасности для своих пользователей. [4]

Корпоративный поиск можно рассматривать как разновидность вертикального поиска на предприятии.

Компоненты поисковой системы предприятия [ править ]

В поисковой системе предприятия контент проходит различные фазы от исходного репозитория до результатов поиска:

Осведомленность о содержании [ править ]

Осведомленность о контенте (или «сбор контента») обычно является моделью выталкивания или вытягивания. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к своим API . Эта модель используется, когда важна индексация в реальном времени. В модели pull программное обеспечение собирает контент из источников с помощью соединителя, такого как поисковый робот или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами для поиска нового, обновленного или удаленного содержимого. [5]

Обработка и анализ контента [ править ]

Контент из разных источников может иметь много разных форматов или типов документов, таких как XML, HTML, форматы документов Office или простой текст. На этапе обработки содержимого входящие документы преобразуются в обычный текст с помощью фильтров документов. Также часто бывает необходимо нормализовать контент различными способами для улучшения запоминания или точности . Они могут включать выделение корней , лемматизацию , расширение синонимов , извлечение сущностей , часть тегов речи .

В рамках обработки и анализа токенизация применяется для разделения контента на токены, которые являются основной единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты для лучшего отзыва.

Индексирование [ править ]

Полученный текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте использования терминов .

Обработка запросов [ править ]

Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых вводимых пользователем терминов, а также из действий навигации, таких как фасетирование и разбиение на страницы.

Соответствие [ править ]

Затем обработанный запрос сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «совпадения»), ссылающиеся на исходные документы, которые совпадают. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.

Отличия от веб-поиска [ править ]

Помимо разницы в типах индексируемых материалов, поисковые системы предприятия также обычно включают в себя функции, не связанные с основными поисковыми системами в Интернете . К ним относятся:

  • Адаптеры для индексации контента из различных репозиториев, таких как базы данных и системы управления контентом .
  • Федеративный поиск , состоящий из
  1. преобразование запроса и его широковещательная передача группе разрозненных баз данных или внешних источников контента с соответствующим синтаксисом,
  2. объединение результатов, собранных из баз данных,
  3. представление их в сжатой и унифицированной форме с минимальным дублированием, и
  4. предоставление средств, выполняемых либо автоматически, либо пользователем портала, для сортировки объединенного набора результатов.
  • Корпоративные закладки , системы коллективных тегов для сбора знаний о структурированных и полуструктурированных корпоративных данных.
  • Извлечение сущностей, которое пытается найти и классифицировать элементы в тексте по предопределенным категориям, таким как имена людей, организаций, местоположения, выражения времени, количества, денежных значений, процентов и т. Д.
  • Фасетный поиск - метод доступа к набору информации, представленной с использованием фасетной классификации , позволяющий пользователям исследовать, фильтруя доступную информацию.
  • Контроль доступа, обычно в форме списка контроля доступа (ACL), часто требуется для ограничения доступа к документам на основе идентификаторов отдельных пользователей. Существует много типов механизмов управления доступом для различных источников контента, что делает эту задачу сложной для комплексного решения в поисковой среде предприятия (см. Ниже).
  • Текстовая кластеризация , которая группирует несколько сотен лучших результатов поиска по темам, которые вычисляются на лету из описаний результатов поиска, обычно заголовков, отрывков (сниппетов) и метаданных. Этот метод позволяет пользователям перемещаться по контенту по теме, а не по метаданным, которые используются при фасетировании. Кластеризация компенсирует проблему несовместимости метаданных в нескольких корпоративных репозиториях, что снижает полезность фасетирования.
  • Пользовательские интерфейсы , которые в веб-поиске намеренно сделаны простыми, чтобы не отвлекать пользователя от нажатия на рекламу, что приносит доход. Хотя бизнес-модель поисковой системы предприятия может включать показ рекламы, на практике этого не делается. Чтобы повысить продуктивность конечных пользователей, поставщики предприятий постоянно экспериментируют с богатой функциональностью пользовательского интерфейса, занимающей значительное пространство на экране, что было бы проблематично для веб-поиска.

Факторы релевантности [ править ]

Факторы, определяющие релевантность результатов поиска в контексте предприятия, совпадают с теми, которые применяются к веб-поиску, но отличаются от них. [1] В целом поисковые системы предприятия не могут воспользоваться преимуществами богатой структуры ссылок, которая присутствует в гипертекстовом веб- контенте, однако новое поколение поисковых систем предприятия, основанное на восходящей технологии Web 2.0 , обеспечивает как дополнительный подход и гиперссылки внутри предприятия. Такие алгоритмы, как PageRankиспользовать структуру гиперссылок для присвоения полномочий документам, а затем использовать эти полномочия как фактор релевантности, не зависящий от запроса. Напротив, предприятиям обычно приходится использовать другие независимые от запроса факторы, такие как новизна или популярность документа, наряду с зависимыми от запроса факторами, традиционно связанными с алгоритмами поиска информации . Кроме того, широкие функциональные возможности пользовательских интерфейсов поисковой системы предприятия, такие как кластеризация и фасетирование, уменьшают зависимость от ранжирования как средства направления внимания пользователя.

Контроль доступа: раннее связывание против позднего связывания [ править ]

Безопасность и ограниченный доступ к документам - важный аспект поисковой системы предприятия. Существует два основных подхода к применению ограниченного доступа: раннее связывание и позднее связывание. [6]

Поздняя привязка [ править ]

Права доступа анализируются и присваиваются документам на этапе запроса. Механизм запросов генерирует набор документов, и перед возвратом его пользователю этот набор фильтруется на основе прав доступа пользователя. Это дорогостоящий, но точный процесс (зависит от прав пользователя на момент запроса).

Раннее связывание [ править ]

Права доступа анализируются и присваиваются документам на этапе индексации. Это намного эффективнее, чем позднее связывание, но может быть неточным (пользователю могут быть предоставлены или отозваны разрешения в период между индексированием и запросом).

Параметры проверки релевантности поиска [ править ]

Релевантность поискового приложения можно определить с помощью следующих параметров проверки релевантности, например [7]

  • Фокус группы
  • Протокол оценки ссылок (на основе суждений о релевантности результатов согласованных запросов, выполняемых в отношении общих корпусов документов)
  • Эмпирическое тестирование
  • A / B тестирование
  • Анализ журналов на производственной бета-версии
  • Онлайн-рейтинги

См. Также [ править ]

  • Совместная поисковая система
  • Сравнение программ поисковой системы предприятия
  • Хранение данных с определением
  • Закладки предприятия
  • Доступ к корпоративной информации
  • Фасетный поиск
  • Извлечение информации
  • Управление знаниями
  • Список поставщиков поисковой системы предприятия
  • Список поисковых систем
  • Текстовый майнинг
  • Вертикальный поиск

Ссылки [ править ]

  1. ^ a b Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в поиске информации . 11 : 1–142. DOI : 10.1561 / 1500000053 .
  2. ^ "Что такое корпоративный поиск?" .
  3. ^ «Новое лицо корпоративного поиска: соединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинального (PDF) 28 октября 2015 года . Проверено 27 мая 2013 .
  4. ^ «Требования безопасности к корпоративному поиску: часть 1 - Разработка новых идей» .
  5. ^ «Общие сведения о сборе контента и индексировании» .
  6. ^ «Корпоративный поиск: контроль доступа к документам» . Архивировано из оригинала на 2014-12-08 . Проверено 1 декабря 2014 .
  7. ^ «Отладка проблем релевантности поискового приложения» . Архивировано из оригинала на 2013-06-05 . Проверено 27 мая 2013 .