Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Концепция поиска (или концептуальный поиск ) представляет собой автоматизированный информационный поиск метод , который используется для поиска хранящейся в электронном виде неструктурированного текста (например, цифровые архивы , электронная почта, научная литература и т.д.) для получения информации, которая концептуально аналогична информации , представленной в поисковый запрос. Другими словами, идеи, выраженные в информации, полученной в ответ на поисковый запрос концепции , соответствуют идеям, содержащимся в тексте запроса.

Развитие [ править ]

Концептуальные методы поиска были разработаны из-за ограничений, накладываемых классическими технологиями поиска по логическим ключевым словам при работе с большими неструктурированными цифровыми коллекциями текста. Поиск по ключевым словам часто возвращает результаты, которые включают много нерелевантных элементов ( ложные срабатывания ) или исключают слишком много релевантных элементов (ложноотрицательные результаты) из-за эффектов синонимии и многозначности . Синонимия означает, что одно из двух или более слов на одном языке имеет одинаковое значение, а многозначность означает, что многие отдельные слова имеют более одного значения.

Многозначность - серьезное препятствие для всех компьютерных систем, которые пытаются иметь дело с человеческим языком. В английском языке наиболее часто используемые термины имеют несколько общих значений. Например, слово «огонь» может означать: горение; прекратить работу; запускать или возбуждать (как в fire up). Для 200 самых многозначных английских терминов типичный глагол имеет более двенадцати общих значений или смыслов. Типичное существительное из этого набора имеет более восьми общих значений. Для 2000 наиболее многозначных английских терминов типичный глагол имеет более восьми общих значений, а типичное существительное - более пяти. [1]

В дополнение к проблемам многозначности и синонимии, поиск по ключевым словам может исключать случайно неправильно написанные слова, а также вариации в основах (или корнях) слов (например, ударение или выделение). Поиск по ключевым словам также подвержен ошибкам, вызванным процессами сканирования с оптическим распознаванием символов (OCR), которые могут вносить случайные ошибки в текст документов (часто называемый зашумленным текстом ) во время процесса сканирования.

Концептуальный поиск может преодолеть эти проблемы, используя устранение неоднозначности смысла слов (WSD) [2] и другие методы, помогающие определить фактические значения слов и лежащие в их основе концепции, а не просто сопоставляя строки символов, такие как технологии поиска по ключевым словам. .

Подходы [ править ]

В целом исследования и технологии поиска информации можно разделить на две большие категории: семантические и статистические. Информационно-поисковые системы, которые попадают в семантическую категорию, будут пытаться реализовать некоторую степень синтаксического и семантического анализа текста на естественном языке, который может предоставить пользователь (см. Также вычислительную лингвистику ). Системы, попадающие в статистическую категорию, будут находить результаты на основе статистических показателей того, насколько близко они соответствуют запросу. Однако системы семантической категории также часто полагаются на статистические методы, которые помогают им находить и извлекать информацию. [3]

В попытках предоставить информационно-поисковым системам возможности семантической обработки в основном использовались три различных подхода:

Вспомогательные сооружения [ править ]

Для семантической обработки применялись различные методы, основанные на искусственном интеллекте (AI) и обработке естественного языка (NLP), и большинство из них полагалось на использование вспомогательных структур, таких как контролируемые словари и онтологии . Управляемые словари (словари и тезаурусы) и онтологии позволяют включать в запросы более широкие, более узкие и связанные термины. [4] Управляемые словари - это один из способов преодолеть некоторые из наиболее серьезных ограничений логических запросов по ключевым словам. С годами были созданы дополнительные вспомогательные структуры, представляющие общий интерес, такие как большие наборы синонимов WordNet . [5] Было показано, что концептуальный поиск, основанный на вспомогательных структурах, таких как WordNet, может быть эффективно реализован за счет повторного использования моделей поиска и структур данных классического поиска информации. [6] Более поздние подходы реализовали грамматики для расширения диапазона семантических конструкций. В последние годы также было реализовано создание моделей данных, которые представляют наборы концепций в определенной области ( онтологии предметной области ) и которые могут включать отношения между терминами.

Созданные вручную контролируемые словари способствуют эффективности и полноте операций поиска информации и анализа связанного текста, но они работают лучше всего, когда темы имеют узкое определение, а терминология стандартизирована. Управляемые словари требуют обширного человеческого участия и контроля, чтобы идти в ногу с быстрой эволюцией языка. Они также не подходят для растущих объемов неструктурированного текста, охватывающего неограниченное количество тем и содержащих тысячи уникальных терминов, поскольку необходимо постоянно вводить новые термины и темы. Управляемые словари также склонны фиксировать определенное мировоззрение в определенный момент времени, что затрудняет их изменение при изменении концепций в определенной тематической области. [7]

Статистика локальной совместной встречаемости [ править ]

Информационно-поисковые системы, использующие этот подход, подсчитывают количество раз, когда группы терминов появляются вместе (совместно) в скользящем окне терминов или предложений (например, ± 5 предложений или ± 50 слов) в документе. Он основан на идее, что слова, встречающиеся вместе в одном контексте, имеют схожие значения. Он является локальным в том смысле, что скользящее окно терминов и предложений, используемых для определения совместной встречаемости терминов, относительно невелико.

Этот подход прост, но он захватывает только небольшую часть семантической информации, содержащейся в коллекции текста. На самом базовом уровне многочисленные эксперименты показали, что примерно только информации, содержащейся в тексте, носит локальный характер. [8] Кроме того, чтобы быть наиболее эффективным, этот метод требует предварительных знаний о содержании текста, что может быть затруднено при работе с большими неструктурированными коллекциями документов. [7]

Методы трансформации [ править ]

Некоторые из наиболее эффективных подходов к семантической обработке основаны на использовании методов математического преобразования. Наиболее успешными оказались методы разложения матриц . Некоторые широко используемые методы разложения матриц включают следующее: [9]

  • Независимый компонентный анализ
  • Полудискретное разложение
  • Факторизация неотрицательной матрицы
  • Разложение по сингулярным числам

Методы матричной декомпозиции основаны на данных, что позволяет избежать многих недостатков, связанных со вспомогательными структурами. Они также глобальны по своей природе, что означает, что они способны к гораздо более надежному извлечению информации и представлению семантической информации, чем методы, основанные на локальной статистике совместной встречаемости. [7]

Независимый компонентный анализ - это метод, который создает разреженные представления в автоматическом режиме [10], а полудискретный и неотрицательный матричный подходы жертвуют точностью представления, чтобы уменьшить вычислительную сложность. [7]

Разложение по сингулярным значениям (SVD) впервые было применено к тексту в Bell Labs в конце 1980-х годов. Он был использован в качестве основы для метода, называемого латентным семантическим индексированием (LSI), из-за его способности находить семантическое значение, которое скрыто в коллекции текста. Сначала SVD медленно внедрялся из-за требований к ресурсам, необходимых для работы с большими наборами данных. Однако в последние годы использование LSI значительно расширилось, поскольку более ранние проблемы масштабируемости и производительности были преодолены [11] и даже открыты. [12] LSI используется в различных приложениях для поиска информации и обработки текста, хотя его основное применение было для поиска концепций и автоматической категоризации документов. [13]

Использует [ редактировать ]

  • eDiscovery - Технологии поиска на основе концепций все чаще используются для обнаружения электронных документов (EDD или eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе намного эффективнее традиционных методов линейного просмотра. Поиск на основе понятий становится все более надежным и эффективным методом поиска, который с большей вероятностью даст релевантные результаты, чем поиск по ключевым словам или логические запросы. [14]
  • Корпоративный поиск и управление корпоративным контентом (ECM) - Концептуальные поисковые технологии широко используются в корпоративном поиске. По мере роста объема информации внутри предприятия возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе стала важной. В 2004 году Gartner Group подсчитала, что профессионалы тратят 30 процентов своего времени на поиск, извлечение и управление информацией. [15] Исследовательская компания IDC обнаружила, что корпорация с 2000 сотрудниками может сэкономить до 30 миллионов долларов в год за счет сокращения времени, которое сотрудники тратят на поиск информации и дублирование существующих документов. [15]
  • Content-Based Image Retrieval (CBIR) - Контентные подходы используются для семантического поиска оцифрованных изображений и видео из больших визуальных массивов. Одной из первых систем поиска изображений на основе контента, решающих семантическую проблему, была поисковая машина ImageScape. В этой системе пользователь мог делать прямые запросы для множества визуальных объектов, таких как небо, деревья, вода и т. Д., Используя пространственно расположенные значки в индексе WWW, содержащем более десяти миллионов изображений и видео с использованием ключевых кадров. Система использовала теорию информации, чтобы определить лучшие характеристики для минимизации неопределенности в классификации. [16] В отношении CBIR часто упоминается семантический пробел. Семантический разрыв относится к разрыву между информацией, которая может быть извлечена из визуальных данных, и интерпретацией, которую те же данные имеют для пользователя в данной ситуации. [17] Семинар ACM SIGMM по поиску мультимедийной информации [18] посвящен исследованиям CBIR.
  • Мультимедиа и публикации - концептуальный поиск используется в мультимедийной и издательской отраслях, чтобы предоставить пользователям доступ к новостям, технической информации и экспертным знаниям, поступающим из различных неструктурированных источников. Контентные методы поиска мультимедийной информации (MIR) стали особенно важными, когда текстовые аннотации отсутствуют или неполны. [16]
  • Электронные библиотеки и архивы - изображения, видео, музыка и текстовые элементы в электронных библиотеках и цифровых архивах становятся доступными для больших групп пользователей (особенно в Интернете) благодаря использованию концептуальных методов поиска. Например, Executive Daily Brief (EDB), продукт для мониторинга деловой информации и оповещения, разработанный EBSCO Publishing, использует концептуальную технологию поиска, чтобы предоставить корпоративным конечным пользователям доступ к цифровой библиотеке, содержащей широкий спектр бизнес-контента. Аналогичным образом проект «Геном музыки» породил Pandora, которая использует концептуальный поиск для спонтанного создания индивидуальных музыкальных библиотек или виртуальных радиостанций.
  • Genomic Information Retrieval (GIR) - Genomic Information Retrieval (GIR) использует концептуальные методы поиска, применяемые к базам данных геномной литературы, чтобы преодолеть неоднозначность научной литературы.
  • Кадровые ресурсы и подбор персонала. Многие кадровые и кадровые организации приняли концептуальные технологии поиска для получения высокорелевантных результатов поиска по резюме, которые обеспечивают более точные и релевантные резюме кандидатов, чем результаты по ключевым словам со слабой взаимосвязью.

Эффективный поиск [ править ]

Эффективность концептуального поиска может зависеть от множества элементов, включая набор данных, в котором выполняется поиск, и поисковая машина, которая используется для обработки запросов и отображения результатов. Однако большинство концептуальных поисковых систем лучше всего подходят для определенных типов запросов:

  • Эффективные запросы состоят из достаточного количества текста, чтобы адекватно передать предполагаемые концепции. Эффективные запросы могут включать полные предложения, абзацы или даже целые документы. Запросы, состоящие всего из нескольких слов, вряд ли вернут наиболее релевантные результаты.
  • Эффективные запросы не включают в себя концепции, которые не являются объектом поиска. Включение в запрос слишком большого количества несвязанных понятий может отрицательно повлиять на релевантность элементов результатов. Например, поиск информации о лодках по реке Миссисипи с большей вероятностью даст релевантные результаты, чем поиск лодок по реке Миссисипи в дождливый день в середине лета 1967 года.
  • Эффективные запросы выражаются в полнотекстовом стиле на естественном языке, аналогичном стилю документов, в которых выполняется поиск. Например, использование запросов, состоящих из отрывков из вводного учебника по естествознанию, не будет столь же эффективным для поиска концепций, если поисковый набор данных состоит из продвинутых научных текстов уровня колледжа. Существенные запросы, которые лучше представляют общие концепции, стили и язык элементов, для которых выполняется запрос, обычно более эффективны.

Как и во всех стратегиях поиска, опытные поисковики обычно уточняют свои запросы с помощью нескольких поисков, начиная с начального начального запроса, чтобы получить концептуально релевантные результаты, которые затем можно использовать для составления и / или уточнения дополнительных запросов для получения все более релевантных результатов. В зависимости от поисковой системы использование концепций запроса, найденных в результирующих документах, может быть таким же простым, как выбор документа и выполнение аналогичной функции поиска . Изменение запроса путем добавления терминов и понятий для повышения релевантности результатов называется расширением запроса . [19] Использование онтологий, таких как WordNet, было изучено для расширения запросов концептуально связанными словами. [20]

Отзыв о релевантности [ править ]

Обратная связь по релевантности - это функция, которая помогает пользователям определить, соответствуют ли результаты, полученные по их запросам, их информационным потребностям. Другими словами, релевантность оценивается относительно потребности в информации, а не запроса. Документ актуален, если он отвечает заявленной потребности в информации, а не потому, что он просто содержит все слова в запросе. [21] Это способ вовлечь пользователей в процесс поиска, чтобы улучшить конечный набор результатов. [21] Пользователи могут уточнить свои запросы на основе своих первоначальных результатов, чтобы улучшить качество своих конечных результатов.

В общем, релевантность поиска концепций относится к степени сходства между концепциями, выраженными в запросе, и концепциями, содержащимися в результатах, возвращаемых по запросу. Чем больше концепции в результатах похожи на концепции, содержащиеся в запросе, тем более релевантными считаются результаты. Результаты обычно ранжируются и сортируются по релевантности, так что наиболее релевантные результаты находятся вверху списка результатов, а наименее релевантные результаты - внизу списка.

Было показано, что обратная связь по релевантности очень эффективна для повышения релевантности результатов. [21] Концептуальный поиск снижает риск пропуска важных элементов результата, поскольку будут возвращены все элементы, которые связаны с концепциями в запросе, независимо от того, содержат ли они те же слова, которые использовались в запросе. [15]

Рейтинг по- прежнему будет частью любой современной информационно-поисковой системы. Однако проблемы разнородных данных, масштаба и нетрадиционных типов дискурса, отраженные в тексте, наряду с тем фактом, что поисковые системы будут все больше и больше становиться интегрированными компонентами сложных процессов управления информацией, а не просто автономными системами, потребуют новых видов. ответов системы на запрос. Например, одна из проблем с ранжированными списками состоит в том, что они могут не выявить отношения, существующие между некоторыми элементами результатов. [22]

Рекомендации по оценке концептуальной поисковой системы [ править ]

  1. Элементы результатов должны соответствовать потребности в информации, выраженной концепциями, содержащимися в операторах запроса, даже если терминология, используемая в элементах результатов, отличается от терминологии, используемой в запросе.
  2. Элементы результатов следует отсортировать и ранжировать по релевантности.
  3. Соответствующие элементы результатов следует быстро находить и отображать. Даже сложные запросы должны довольно быстро возвращать релевантные результаты.
  4. Длина запроса не должна быть фиксированной , т. Е. Запрос может быть сколь угодно длинным. В качестве запроса можно отправить предложение, абзац или даже весь документ.
  5. Концептуальный запрос не должен требовать особого или сложного синтаксиса. Концепции, содержащиеся в запросе, могут быть четко и заметно выражены без использования каких-либо специальных правил.
  6. Комбинированные запросы с использованием концепций, ключевых слов и метаданных должны быть разрешены. [23]
  7. Соответствующие части элементов результатов следует использовать в качестве текста запроса, просто выбрав элемент и указав поисковой системе найти похожие элементы.
  8. Индексы, готовые к запросам, должны создаваться относительно быстро.
  9. Поисковая система должна быть способна выполнять федеративный поиск. Федеративный поиск позволяет использовать концептуальные запросы для одновременного поиска информации в нескольких источниках данных, которые затем объединяются, сортируются и отображаются в результатах.
  10. На концептуальный поиск не должны влиять орфографические ошибки, опечатки или ошибки сканирования OCR ни в тексте запроса, ни в тексте набора данных, в котором выполняется поиск.

Конференции и форумы [ править ]

Формализованная оценка поисковой системы продолжается уже много лет. Например, конференция Text REtrieval Conference (TREC) была начата в 1992 году для поддержки исследований в сообществе поиска информации, предоставляя инфраструктуру, необходимую для крупномасштабной оценки методологий поиска текста. Большинство современных коммерческих поисковых систем включают технологии, впервые разработанные в TREC. [24]

В 1997 году был запущен японский аналог TREC, получивший название «Сборник тестов Национального института информатики для ИК-систем» (NTCIR). NTCIR проводит серию оценочных семинаров для исследований в области поиска информации, ответов на вопросы, обобщения текстов и т. Д. Европейская серия семинаров, называемая Форумом межъязыковой оценки (CLEF), была начата в 2001 году для содействия исследованиям в области многоязычного доступа к информации. В 2002 году была учреждена Инициатива по оценке поиска XML (INEX) для оценки контентно-ориентированных систем поиска XML .

Точность и отзыв являются двумя традиционными показателями эффективности систем поиска информации. Точность - это та часть полученных документов результатов, которая имеет отношение к информационным потребностям пользователя. Отзыв определяется как доля релевантных документов во всей коллекции, которые возвращаются как документы результата. [21]

Хотя семинары и общедоступные наборы тестов, используемые для тестирования и оценки поисковых систем, предоставили существенное понимание того, как обрабатывается и извлекается информация, эта область лишь коснулась поверхности проблем, с которыми люди и организации сталкиваются при поиске, управлении и использовании информации. теперь, когда доступно так много информации. [22] Научные данные о том, как люди используют доступные им сегодня информационные инструменты, все еще неполны, потому что экспериментальные исследовательские методики не успевают за быстрыми темпами изменений. Многие проблемы, такие как контекстный поиск, управление личной информацией, интеграция информации и поддержка задач, все еще требуют решения. [22]

См. Также [ править ]

  • Приблизительное соответствие строк
  • Обработка сложных терминов
  • Концепция майнинга
  • Извлечение информации
  • Скрытый семантический анализ
  • Семантическая сеть
  • Семантический поиск
  • Семантическая сеть
  • Статистическая семантика
  • Текстовый майнинг

Ссылки [ править ]

  1. ^ Брэдфорд, RB, разрешение лексической многозначности, Content аналитик компании , ООО, патент США 7415462, 2008.
  2. ^ Р. Навильи, Устранение неоднозначности слов: обзор , ACM Computing Surveys, 41 (2), 2009.
  3. ^ Гринграсс, Э., Информационный поиск: обзор, 2000.
  4. ^ Дюбуа, К., Использование тезаурусов в поиске в Интернете, Журнал информационных наук, 8 (2), март 1984 г., стр. 63-66.
  5. ^ Миллер, Г., Специальный выпуск, WordNet: онлайновая лексическая база данных , Intl. Журнал лексикографии, 3 (4), 1990.
  6. ^ Fausto Giunchiglia, Владимир Харкевич и Илья Zaihrayeu. Concept Search Архивировано 10 февраля2014 г. на Wayback Machine , в материалах конференции European Semantic Web Conference, 2009.
  7. ^ a b c d Брэдфорд, РБ, Почему LSI? Скрытое семантическое индексирование и поиск информации, Белая книга, Content Analyst Company , LLC, 2008.
  8. ^ Ландауэр, Т., и Дюмэ, С., Решение проблемы Платона: Теория скрытого семантического анализа приобретения, индукции и представления знаний , Психологический обзор, 1997, 104 (2), стр. 211-240.
  9. ^ Скилликорн, Д., Понимание сложных наборов данных: интеллектуальный анализ данных с матричной декомпозицией , CRC Publishing, 2007.
  10. ^ Хонкела, Т., Хиваринен, А. и Вайринен, Дж. WordICA - Появление лингвистических представлений для слов с помощью независимого компонентного анализа. Инженерия естественного языка, 16 (3): 277-308, 2010
  11. ^ Ehůřek, Radim (2011). «Масштабируемость семантического анализа при обработке естественного языка» (PDF) . Проверено 27 января 2015 года . CS1 maint: обескураженный параметр ( ссылка )
  12. ^ Программное обеспечение с открытым исходным кодом Gensim
  13. ^ Dumais, S., Скрытый семантический анализ, ARIST Review of Information Science and Technology, vol. 38, Глава 4, 2004 г.
  14. ^ Мировой судья Джон М. Facciola в окружной суд США по округу штата Вашингтон, округ Колумбия Советправам инвалидности v. Вашингтон Metropolitan Transit Authority, 242 FRD 139 (DDC 2007), ссылаясьДжордж Л. Пол и Джейсон Р. Барон, «Информация Инфляция: может ли правовая система адаптироваться? " 13 Rich. JL & Tech. 10 (2007).
  15. ^ a b c Лапланш, Р., Дельгадо, Дж., Терк, М., Концепция технологии поиска выходит за рамки ключевых слов, Информационный прогноз, июль 2004 г.
  16. ^ a b Лью, М.С., Себе, Н., Джераба, К., Джайн, Р., Поиск мультимедийной информации на основе контента: современное состояние и проблемы , транзакции ACM по мультимедийным вычислениям, коммуникациям и приложениям, февраль 2006 г.
  17. ^ Датта Р., Джоши, Д., Ли Дж., Ван, Дж. З., Поиск изображений: идеи, влияния и тенденции нового века , ACM Computing Surveys, Vol. 40, No. 2, апрель 2008 г.
  18. ^ https://web.archive.org/web/20140307134534/http://www.liacs.nl/~mir/
  19. ^ Робертсон, С.Е. , Спарк Джонс, К. , Простые, проверенные подходы к поиску текста, Технический отчет, Компьютерная лаборатория Кембриджского университета, декабрь 1994 г.
  20. ^ Навильи, Р., Веларди, П. Анализ стратегий расширения запросов на основе онтологий, заархивированный 26 апреля2012 г. на Wayback Machine . Proc. семинара по адаптивному извлечению и интеллектуальному анализу текста (ATEM 2003) на 14-й Европейской конференции по машинному обучению (ECML 2003) , Цавтат-Дубровник, Хорватия, 22-26 сентября 2003 г., стр. 42–49
  21. ^ a b c d Мэннинг, CD, Рагхаван П., Шютце Х., Введение в поиск информации, Cambridge University Press, 2008.
  22. ^ a b c Каллан, Дж., Аллан, Дж., Кларк, CLA, Дюмэ, С., Эванс, Д., А., Сандерсон, М., Чжай, К., Встреча умов: исследование по поиску информации Повестка дня , ACM, SIGIR Forum, Vol. 41 No. 2, декабрь 2007 г.
  23. ^ Rehurek, R., Комбинированная система для поиска сходства векторов на основе инвертированного полнотекстового индекса, поисковая система ScaleText, заявка на патент США 15726803, 2017.
  24. Перейти ↑ Croft, B., Metzler, D., Strohman, T., Search Engines, Information Retrieval in Practice, Addison Wesley, 2009.

Внешние ссылки [ править ]

  • Конференция по поиску текста (TREC)
  • Сборник тестов Национального института информатики для ИК-систем (NTCIR)
  • Форум межъязыковой оценки (CLEF)
  • Инициатива по оценке поиска XML (INEX)