Корпоративный поиск

Эта статья, возможно, содержит оригинальные исследования . Пожалуйста, улучшите его , проверив сделанные утверждения и добавив встроенные цитаты . Заявления, содержащие только оригинальные исследования, следует удалить. ( Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Корпоративный поиск - это практика создания контента из нескольких источников корпоративного типа, таких как базы данных и интрасети , доступным для поиска определенной аудитории. ^[1]

«Корпоративный поиск» используется для описания программного обеспечения для поиска информации на предприятии (хотя функция поиска и ее результаты могут быть общедоступными). ^[2] Корпоративный поиск можно сравнить с веб-поиском , который применяет технологию поиска к документам в открытой сети, и настольным поиском , который применяет технологию поиска к контенту на одном компьютере.

Поисковые системы предприятия индексируют данные и документы из различных источников, таких как файловые системы , интрасети , системы управления документами , электронная почта и базы данных . Многие поисковые системы предприятия объединяют структурированные и неструктурированные данные в свои коллекции. ^[3] Корпоративные поисковые системы также используют средства управления доступом для обеспечения соблюдения политики безопасности для своих пользователей. ^[4]

Корпоративный поиск можно рассматривать как разновидность вертикального поиска на предприятии.

Компоненты поисковой системы предприятия [ править ]

В поисковой системе предприятия контент проходит различные фазы от исходного репозитория до результатов поиска:

Осведомленность о содержании [ править ]

Осведомленность о контенте (или «сбор контента») обычно является моделью выталкивания или вытягивания. В модели push исходная система интегрирована с поисковой системой таким образом, что она подключается к ней и подталкивает новый контент непосредственно к своим API . Эта модель используется, когда важна индексация в реальном времени. В модели pull программное обеспечение собирает контент из источников с помощью соединителя, такого как поисковый робот или соединитель базы данных . Соединитель обычно опрашивает источник с определенными интервалами для поиска нового, обновленного или удаленного содержимого. ^[5]

Обработка и анализ контента [ править ]

Контент из разных источников может иметь много разных форматов или типов документов, таких как XML, HTML, форматы документов Office или простой текст. На этапе обработки содержимого входящие документы преобразуются в обычный текст с помощью фильтров документов. Также часто бывает необходимо нормализовать контент различными способами для улучшения запоминания или точности . Они могут включать выделение корней , лемматизацию , расширение синонимов , извлечение сущностей , часть тегов речи .

В рамках обработки и анализа токенизация применяется для разделения контента на токены, которые являются основной единицей сопоставления. Также принято нормализовать токены к нижнему регистру, чтобы обеспечить поиск без учета регистра, а также нормализовать акценты для лучшего отзыва.

Индексирование [ править ]

Полученный текст сохраняется в индексе , который оптимизирован для быстрого поиска без сохранения полного текста документа. Индекс может содержать словарь всех уникальных слов в корпусе, а также информацию о ранжировании и частоте использования терминов .

Обработка запросов [ править ]

Используя веб-страницу, пользователь отправляет запрос в систему. Запрос состоит из любых вводимых пользователем терминов, а также из действий навигации, таких как фасетирование и разбиение на страницы.

Соответствие [ править ]

Затем обработанный запрос сравнивается с сохраненным индексом, и поисковая система возвращает результаты (или «совпадения»), ссылающиеся на исходные документы, которые совпадают. Некоторые системы могут представить документ в том виде, в котором он был проиндексирован.

Отличия от веб-поиска [ править ]

В этом разделе не процитировать любые источники . Пожалуйста, помогите улучшить этот раздел , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален . ( Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Помимо разницы в типах индексируемых материалов, поисковые системы предприятия также обычно включают в себя функции, не связанные с основными поисковыми системами в Интернете . К ним относятся:

Адаптеры для индексации контента из различных репозиториев, таких как базы данных и системы управления контентом .
Федеративный поиск , состоящий из

преобразование запроса и его широковещательная передача группе разрозненных баз данных или внешних источников контента с соответствующим синтаксисом,
объединение результатов, собранных из баз данных,
представление их в сжатой и унифицированной форме с минимальным дублированием, и
предоставление средств, выполняемых либо автоматически, либо пользователем портала, для сортировки объединенного набора результатов.

Корпоративные закладки , системы коллективных тегов для сбора знаний о структурированных и полуструктурированных корпоративных данных.
Извлечение сущностей, которое пытается найти и классифицировать элементы в тексте по предопределенным категориям, таким как имена людей, организаций, местоположения, выражения времени, количества, денежных значений, процентов и т. Д.
Фасетный поиск - метод доступа к набору информации, представленной с использованием фасетной классификации , позволяющий пользователям исследовать, фильтруя доступную информацию.
Контроль доступа, обычно в форме списка контроля доступа (ACL), часто требуется для ограничения доступа к документам на основе идентификаторов отдельных пользователей. Существует много типов механизмов управления доступом для различных источников контента, что делает эту задачу сложной для комплексного решения в поисковой среде предприятия (см. Ниже).
Текстовая кластеризация , которая группирует несколько сотен лучших результатов поиска по темам, которые вычисляются на лету из описаний результатов поиска, обычно заголовков, отрывков (сниппетов) и метаданных. Этот метод позволяет пользователям перемещаться по контенту по теме, а не по метаданным, которые используются при фасетировании. Кластеризация компенсирует проблему несовместимости метаданных в нескольких корпоративных репозиториях, что снижает полезность фасетирования.
Пользовательские интерфейсы , которые в веб-поиске намеренно сделаны простыми, чтобы не отвлекать пользователя от нажатия на рекламу, что приносит доход. Хотя бизнес-модель поисковой системы предприятия может включать показ рекламы, на практике этого не делается. Чтобы повысить продуктивность конечных пользователей, поставщики предприятий постоянно экспериментируют с богатой функциональностью пользовательского интерфейса, занимающей значительное пространство на экране, что было бы проблематично для веб-поиска.

Факторы релевантности [ править ]

В этом разделе не процитировать любые источники . Пожалуйста, помогите улучшить этот раздел , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален . ( Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Факторы, определяющие релевантность результатов поиска в контексте предприятия, совпадают с теми, которые применяются к веб-поиску, но отличаются от них. ^[1] В целом поисковые системы предприятия не могут воспользоваться преимуществами богатой структуры ссылок, которая присутствует в гипертекстовом веб- контенте, однако новое поколение поисковых систем предприятия, основанное на восходящей технологии Web 2.0 , обеспечивает как дополнительный подход и гиперссылки внутри предприятия. Такие алгоритмы, как PageRankиспользовать структуру гиперссылок для присвоения полномочий документам, а затем использовать эти полномочия как фактор релевантности, не зависящий от запроса. Напротив, предприятиям обычно приходится использовать другие независимые от запроса факторы, такие как новизна или популярность документа, наряду с зависимыми от запроса факторами, традиционно связанными с алгоритмами поиска информации . Кроме того, широкие функциональные возможности пользовательских интерфейсов поисковой системы предприятия, такие как кластеризация и фасетирование, уменьшают зависимость от ранжирования как средства направления внимания пользователя.

Контроль доступа: раннее связывание против позднего связывания [ править ]

Безопасность и ограниченный доступ к документам - важный аспект поисковой системы предприятия. Существует два основных подхода к применению ограниченного доступа: раннее связывание и позднее связывание. ^[6]

Поздняя привязка [ править ]

Права доступа анализируются и присваиваются документам на этапе запроса. Механизм запросов генерирует набор документов, и перед возвратом его пользователю этот набор фильтруется на основе прав доступа пользователя. Это дорогостоящий, но точный процесс (зависит от прав пользователя на момент запроса).

Раннее связывание [ править ]

Права доступа анализируются и присваиваются документам на этапе индексации. Это намного эффективнее, чем позднее связывание, но может быть неточным (пользователю могут быть предоставлены или отозваны разрешения в период между индексированием и запросом).

Параметры проверки релевантности поиска [ править ]

Релевантность поискового приложения можно определить с помощью следующих параметров проверки релевантности, например ^[7]

Фокус группы
Протокол оценки ссылок (на основе суждений о релевантности результатов согласованных запросов, выполняемых в отношении общих корпусов документов)
Эмпирическое тестирование
A / B тестирование
Анализ журналов на производственной бета-версии
Онлайн-рейтинги

См. Также [ править ]

Совместная поисковая система
Сравнение программ поисковой системы предприятия
Хранение данных с определением
Закладки предприятия
Доступ к корпоративной информации
Фасетный поиск
Извлечение информации
Управление знаниями
Список поставщиков поисковой системы предприятия
Список поисковых систем
Текстовый майнинг
Вертикальный поиск

Ссылки [ править ]

^ a b Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в поиске информации . 11 : 1–142. DOI : 10.1561 / 1500000053 .
^ "Что такое корпоративный поиск?" .
^ «Новое лицо корпоративного поиска: соединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинального (PDF) 28 октября 2015 года . Проверено 27 мая 2013 .
^ «Требования безопасности к корпоративному поиску: часть 1 - Разработка новых идей» .
^ «Общие сведения о сборе контента и индексировании» .
^ «Корпоративный поиск: контроль доступа к документам» . Архивировано из оригинала на 2014-12-08 . Проверено 1 декабря 2014 .
^ «Отладка проблем релевантности поискового приложения» . Архивировано из оригинала на 2013-06-05 . Проверено 27 мая 2013 .

[FnTIR-1] Крушвиц, Удо; Халл, Чарли (2017). «В поисках предприятия». Основы и тенденции в поиске информации . 11 : 1–142. DOI : 10.1561 / 1500000053 .

[2] "Что такое корпоративный поиск?" .

[3] «Новое лицо корпоративного поиска: соединение структурированной и неструктурированной информации» (PDF) . Архивировано из оригинального (PDF) 28 октября 2015 года . Проверено 27 мая 2013 .

[4] «Требования безопасности к корпоративному поиску: часть 1 - Разработка новых идей» .

[5] «Общие сведения о сборе контента и индексировании» .

[6] «Корпоративный поиск: контроль доступа к документам» . Архивировано из оригинала на 2014-12-08 . Проверено 1 декабря 2014 .

[7] «Отладка проблем релевантности поискового приложения» . Архивировано из оригинала на 2013-06-05 . Проверено 27 мая 2013 .

[1]