Эта статья, возможно, содержит оригинальные исследования . ( Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Корпоративный поиск - это практика создания контента из нескольких источников корпоративного типа, таких как базы данных и интрасети , доступным для поиска определенной аудитории. [1]
«Корпоративный поиск» используется для описания программного обеспечения для поиска информации на предприятии (хотя функция поиска и ее результаты могут быть общедоступными). [2] Корпоративный поиск можно сравнить с веб-поиском , который применяет технологию поиска к документам в открытой сети, и настольным поиском , который применяет технологию поиска к контенту на одном компьютере.
Поисковые системы предприятия индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие поисковые системы предприятия объединяют структурированные и неструктурированные данные в свои коллекции. [3] Корпоративные поисковые системы также используют средства управления доступом для обеспечения соблюдения политики безопасности для своих пользователей. [4]
Корпоративный поиск можно рассматривать как разновидность вертикального поиска на предприятии.
Компоненты поисковой системы предприятия [ править ]
В поисковой системе предприятия контент проходит различные фазы от исходного репозитория до результатов поиска:
Осведомленность о содержании [ править ]
Осведомленность о контенте (или «сбор контента») обычно является моделью выталкивания или вытягивания. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к своим API . Эта модель используется, когда важна индексация в реальном времени. В модели pull программное обеспечение собирает контент из источников с помощью соединителя, такого как поисковый робот или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами для поиска нового, обновленного или удаленного содержимого. [5]
Обработка и анализ контента [ править ]
Контент из разных источников может иметь много разных форматов или типов документов, таких как XML, HTML, форматы документов Office или простой текст. На этапе обработки содержимого входящие документы преобразуются в обычный текст с помощью фильтров документов. Также часто бывает необходимо нормализовать контент различными способами для улучшения запоминания или точности . Они могут включать выделение корней , лемматизацию , расширение синонимов , извлечение сущностей , часть тегов речи .
В рамках обработки и анализа токенизация применяется для разделения контента на токены, которые являются основной единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты для лучшего отзыва.
Индексирование [ править ]
Полученный текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте использования терминов .
Обработка запросов [ править ]
Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых вводимых пользователем терминов, а также из действий навигации, таких как фасетирование и разбиение на страницы.
Соответствие [ править ]
Затем обработанный запрос сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «совпадения»), ссылающиеся на исходные документы, которые совпадают. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.
Отличия от веб-поиска [ править ]
В этом разделе не процитировать любые источники . Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
Помимо разницы в типах индексируемых материалов, поисковые системы предприятия также обычно включают в себя функции, не связанные с основными поисковыми системами в Интернете . К ним относятся:
- Адаптеры для индексации контента из различных репозиториев, таких как базы данных и системы управления контентом .
- Федеративный поиск , состоящий из
- преобразование запроса и его широковещательная передача группе разрозненных баз данных или внешних источников контента с соответствующим синтаксисом,
- объединение результатов, собранных из баз данных,
- представление их в сжатой и унифицированной форме с минимальным дублированием, и
- предоставление средств, выполняемых либо автоматически, либо пользователем портала, для сортировки объединенного набора результатов.
- Корпоративные закладки , системы коллективных тегов для сбора знаний о структурированных и полуструктурированных корпоративных данных.
- Извлечение сущностей, которое пытается найти и классифицировать элементы в тексте по предопределенным категориям, таким как имена людей, организаций, местоположения, выражения времени, количества, денежных значений, процентов и т. Д.
- Фасетный поиск - метод доступа к набору информации, представленной с использованием фасетной классификации , позволяющий пользователям исследовать, фильтруя доступную информацию.
- Контроль доступа, обычно в форме списка контроля доступа (ACL), часто требуется для ограничения доступа к документам на основе идентификаторов отдельных пользователей. Существует много типов механизмов управления доступом для различных источников контента, что делает эту задачу сложной для комплексного решения в поисковой среде предприятия (см. Ниже).
- Текстовая кластеризация , которая группирует несколько сотен лучших результатов поиска по темам, которые вычисляются на лету из описаний результатов поиска, обычно заголовков, отрывков (сниппетов) и метаданных. Этот метод позволяет пользователям перемещаться по контенту по теме, а не по метаданным, которые используются при фасетировании. Кластеризация компенсирует проблему несовместимости метаданных в нескольких корпоративных репозиториях, что снижает полезность фасетирования.
- Пользовательские интерфейсы , которые в веб-поиске намеренно сделаны простыми, чтобы не отвлекать пользователя от нажатия на рекламу, что приносит доход. Хотя бизнес-модель поисковой системы предприятия может включать показ рекламы, на практике этого не делается. Чтобы повысить продуктивность конечных пользователей, поставщики предприятий постоянно экспериментируют с богатой функциональностью пользовательского интерфейса, занимающей значительное пространство на экране, что было бы проблематично для веб-поиска.
Факторы релевантности [ править ]
В этом разделе не процитировать любые источники . Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
Факторы, определяющие релевантность результатов поиска в контексте предприятия, совпадают с теми, которые применяются к веб-поиску, но отличаются от них. [1] В целом поисковые системы предприятия не могут воспользоваться преимуществами богатой структуры ссылок, которая присутствует в гипертекстовом веб- контенте, однако новое поколение поисковых систем предприятия, основанное на восходящей технологии Web 2.0 , обеспечивает как дополнительный подход и гиперссылки внутри предприятия. Такие алгоритмы, как PageRankиспользовать структуру гиперссылок для присвоения полномочий документам, а затем использовать эти полномочия как фактор релевантности, не зависящий от запроса. Напротив, предприятиям обычно приходится использовать другие независимые от запроса факторы, такие как новизна или популярность документа, наряду с зависимыми от запроса факторами, традиционно связанными с алгоритмами поиска информации . Кроме того, широкие функциональные возможности пользовательских интерфейсов поисковой системы предприятия, такие как кластеризация и фасетирование, уменьшают зависимость от ранжирования как средства направления внимания пользователя.
Контроль доступа: раннее связывание против позднего связывания [ править ]
Безопасность и ограниченный доступ к документам - важный аспект поисковой системы предприятия. Существует два основных подхода к применению ограниченного доступа: раннее связывание и позднее связывание. [6]
Поздняя привязка [ править ]
Права доступа анализируются и присваиваются документам на этапе запроса. Механизм запросов генерирует набор документов, и перед возвратом его пользователю этот набор фильтруется на основе прав доступа пользователя. Это дорогостоящий, но точный процесс (зависит от прав пользователя на момент запроса).
Раннее связывание [ править ]
Права доступа анализируются и присваиваются документам на этапе индексации. Это намного эффективнее, чем позднее связывание, но может быть неточным (пользователю могут быть предоставлены или отозваны разрешения в период между индексированием и запросом).
Параметры проверки релевантности поиска [ править ]
Релевантность поискового приложения можно определить с помощью следующих параметров проверки релевантности, например [7]
- Фокус группы
- Протокол оценки ссылок (на основе суждений о релевантности результатов согласованных запросов, выполняемых в отношении общих корпусов документов)
- Эмпирическое тестирование
- A / B тестирование
- Анализ журналов на производственной бета-версии
- Онлайн-рейтинги
См. Также [ править ]
- Совместная поисковая система
- Сравнение программ поисковой системы предприятия
- Хранение данных с определением
- Закладки предприятия
- Доступ к корпоративной информации
- Фасетный поиск
- Извлечение информации
- Управление знаниями
- Список поставщиков поисковой системы предприятия
- Список поисковых систем
- Текстовый майнинг
- Вертикальный поиск
Ссылки [ править ]
- ^ a b Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в поиске информации . 11 : 1–142. DOI : 10.1561 / 1500000053 .
- ^ "Что такое корпоративный поиск?" .
- ^ «Новое лицо корпоративного поиска: соединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинального (PDF) 28 октября 2015 года . Проверено 27 мая 2013 .
- ^ «Требования безопасности к корпоративному поиску: часть 1 - Разработка новых идей» .
- ^ «Общие сведения о сборе контента и индексировании» .
- ^ «Корпоративный поиск: контроль доступа к документам» . Архивировано из оригинала на 2014-12-08 . Проверено 1 декабря 2014 .
- ^ «Отладка проблем релевантности поискового приложения» . Архивировано из оригинала на 2013-06-05 . Проверено 27 мая 2013 .