Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Информационный поиск ( IR ) - это процесс получения ресурсов информационной системы, которые имеют отношение к информационным потребностям, из совокупности этих ресурсов. Поиск может быть основан на полнотекстовом или другом индексировании на основе содержимого. Информационный поиск - это наука о поиске информации в документе, поиск самих документов, а также поиск метаданных , описывающих данные, а также баз данных текстов, изображений или звуков.

Системы автоматического поиска информации используются для уменьшения того, что называется информационной перегрузкой . IR-система - это программная система, которая обеспечивает доступ к книгам, журналам и другим документам; хранит и управляет этими документами. Поисковые системы в Интернете - это наиболее заметные приложения для IR .

Обзор [ править ]

Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы - это формальные утверждения информационных потребностей, например строки поиска в поисковых системах. При поиске информации запрос не может однозначно идентифицировать отдельный объект в коллекции. Вместо этого несколько объектов могут соответствовать запросу, возможно, с разной степенью релевантности .

Объект - это сущность, которая представлена ​​информацией в коллекции контента или базе данных . Пользовательские запросы сопоставляются с информацией из базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут совпадать или не совпадать с запросом, поэтому результаты обычно ранжируются. Такое ранжирование результатов является ключевым отличием поиска с извлечением информации от поиска по базе данных. [1]

В зависимости от приложения объектами данных могут быть, например, текстовые документы, изображения, [2] аудио, [3] интеллектуальные карты [4] или видео. Часто сами документы не хранятся или хранятся непосредственно в IR-системе, а вместо этого представлены в системе суррогатами документов или метаданными .

Большинство IR-систем вычисляют числовую оценку того, насколько хорошо каждый объект в базе данных соответствует запросу, и ранжируют объекты в соответствии с этим значением. Затем пользователю показываются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос. [5]

История [ править ]

есть ... машина под названием Univac ... в которой буквы и цифры закодированы как узор из магнитных пятен на длинной стальной ленте. Таким образом, можно записать текст документа, которому предшествует символ его предметного кода ... машина ... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.

-  Дж. Э. Холмстрем, 1948 г.

Идея использования компьютеров для поиска релевантной информации была популяризирована в статье Ванневара Буша « Как мы можем думать » в 1945 году. [6] Похоже, что Буш был вдохновлен патентами на «статистическую машину» - поданной Эмануэлем Голдбергом. в 1920-х и 30-х годах - искали документы, хранящиеся на пленке. [7] Первое описание компьютера, ищущего информацию, было описано Холмстремом в 1948 году, [8] подробно описывая раннее упоминание компьютера Univac . Автоматизированные системы поиска информации были представлены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года « Настольный набор».. В 1960-х годах Джерард Солтон в Корнелле создал первую крупную исследовательскую группу по поиску информации . К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми корпусами, такими как коллекция Крэнфилда (несколько тысяч документов). [6] Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.

В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило одним из спонсоров конференции по поиску текстов (TREC) как части текстовой программы TIPSTER. Целью этого было изучить сообщество поиска информации путем предоставления инфраструктуры, которая была необходима для оценки методологий поиска текста на очень большой коллекции текстов. Это послужило катализатором исследования методов, масштабируемых до огромных корпусов. Внедрение поисковых систем еще больше повысило потребность в очень крупномасштабных поисковых системах.

Типы моделей [ править ]

Категоризация IR-моделей (перевод с немецкого , первоисточник Доминик Куропка ).

Для эффективного поиска релевантных документов с помощью IR-стратегий документы обычно преобразуются в подходящее представление. Каждая стратегия поиска включает определенную модель для целей представления документа. Картинка справа иллюстрирует взаимосвязь некоторых общих моделей. На рисунке модели разделены на две категории: математическая основа и свойства модели.

Первое измерение: математическая основа [ править ]

  • Теоретико-множественные модели представляют документы в виде наборов слов или фраз. Сходства обычно выводятся из теоретико-множественных операций с этими множествами. Общие модели:
    • Стандартная логическая модель
    • Расширенная логическая модель
    • Нечеткое извлечение
  • Алгебраические модели представляют документы и запросы обычно в виде векторов, матриц или кортежей. Сходство вектора запроса и вектора документа представлено как скалярное значение.
    • Векторная модель пространства
    • Обобщенная модель векторного пространства
    • (Улучшено) Тематическая векторная модель пространства
    • Расширенная логическая модель
    • Скрытое семантическое индексирование или скрытый семантический анализ
  • Вероятностные модели рассматривают процесс поиска документа как вероятностный вывод. Сходства вычисляются как вероятности того, что документ актуален для данного запроса. В этих моделях часто используются вероятностные теоремы, подобные теореме Байеса .
    • Модель двоичной независимости
    • Вероятностная модель релевантности, на которой основана функция релевантности окапи (BM25)
    • Неуверенный вывод
    • Языковые модели
    • Модель дивергенции от случайности
    • Скрытое размещение Дирихле
  • Модели поиска на основе признаков рассматривают документы как векторы значений функций признаков (или просто признаки ) и ищут лучший способ объединить эти признаки в единую оценку релевантности, обычно путем обучения методам ранжирования . Функции функций - это произвольные функции документа и запроса, и как таковые могут легко включать практически любую другую модель поиска в качестве еще одной функции.

Второе измерение: свойства модели [ править ]

  • В моделях без взаимозависимостей терминов разные термины / слова рассматриваются как независимые. Этот факт обычно представлен в моделях векторных пространств предположением ортогональности термов-векторов или в вероятностных моделях предположением независимости термов переменных.
  • Модели с имманентными взаимозависимостями терминов позволяют представить взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно он прямо или косвенно выводится (например, путем уменьшения размеров ) из совместного использования этих терминов во всем наборе документов.
  • Модели с трансцендентными взаимозависимостями терминов позволяют представить взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)

Показатели производительности и правильности [ править ]

Оценка информационно-поисковой системы - это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. Как правило, измерение рассматривает набор документов, в которых выполняется поиск, и поисковый запрос. Традиционные метрики оценки, разработанные для логического поиска [ требуется пояснение ] или поиска топ-k, включают точность и отзыв . Все меры предполагают основополагающее понятие релевантности: известно, что каждый документ либо релевантен, либо не имеет отношения к определенному запросу. На практике запросы могут быть некорректными и иметь разные оттенки релевантности.

Хронология [ править ]

  • До 1900-х годов
    1801 : Жозеф Мари Жаккард изобретает жаккардовый ткацкий станок , первую машину, использующую перфокарты для управления последовательностью операций.
    1880-е годы : Герман Холлерит изобретает электромеханический табулятор данных, используя перфокарты в качестве машиночитаемого носителя.
    Карты Холлерита 1890 года , клавиши и табуляторы, используемые для обработки данных переписи населения США 1890 года .
  • 1920-1930-е гг.
    Эмануэль Голдберг подает патенты на свою «Статистическую машину» - поисковую машину, которая использовала фотоэлектрические элементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
  • 1940–1950 годы
    конец 1940-х : американские военные столкнулись с проблемами индексации и поиска документов военных исследований, захваченных у немцев.
    1945 : « Как мы можем думать» Ванневара Буша вышла в Atlantic Monthly .
    1947 : Ханс Петер Лун (инженер-исследователь в IBM с 1941 года) начал работу над механизированной системой поиска химических соединений на основе перфокарт.
    1950-е : Растущее беспокойство в США по поводу «научного разрыва» с СССР мотивировало, поощряло финансирование и обеспечивало фон для механизированных систем поиска литературы ( Аллен Кент и др. ) И изобретения индексации цитирования ( Юджин Гарфилд ).
    1950 : Термин «поиск информации» был введен Кальвином Мурсом . [9]
    1951 : Филип Бэгли провел самый ранний эксперимент по компьютеризированному поиску документов в магистерской диссертации Массачусетского технологического института . [10]
    1955 : Аллен Кент присоединился к Case Western Reserve University и в конечном итоге стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали статью в American Documentation, описывающую меры точности и отзыва, а также детализирующую предлагаемую «структуру» для оценки IR-системы, которая включала методы статистической выборки для определения количества неотысканных соответствующих документов. [11]
    1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, включила рассмотрение ИК-систем как решения выявленных проблем. См .: Материалы Международной конференции по научной информации, 1958 г. (Национальная академия наук, Вашингтон, округ Колумбия, 1959 г.)
    1959 : Ханс Петер Лун опубликовал «Автоматическое кодирование документов для поиска информации».
  • 1960-е годы :
    начало 1960-х : Джерард Солтон начал работать над IR в Гарварде, позже переехал в Корнелл.
    1960 : Мелвин Эрл Марон и Джон Лэри Кунс [12] опубликовали «О релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7 (3): 216–244, июль 1960 г.
    1962 год :
    • Сирил В. Клевердон опубликовал первые результаты исследований Крэнфилда, разработав модель для оценки системы IR. См .: Сирил В. Клевердон, «Отчет о тестировании и анализе исследования сравнительной эффективности систем индексации». Cranfield Collection of Aeronautics, Крэнфилд, Англия, 1962 год.
    • Кент опубликовал анализ и поиск информации .
    1963 год :
    • В докладе Вайнберга «Наука, правительство и информация» полностью сформулирована идея «кризиса научной информации». Отчет был назван в честь доктора Элвина Вайнберга .
    • Джозеф Беккер и Роберт М. Хейс опубликовали текст по поиску информации. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории . Нью-Йорк, Вили (1963).
    1964 :
    • Карен Спарк Джонс защитила диссертацию в Кембридже по синонимии и семантической классификации и продолжила работу в области компьютерной лингвистики применительно к IR.
    • Национальное бюро стандартов спонсировала симпозиум под названием «Методы статистической ассоциации для механизированной документации.» Несколько очень важных статей, в том числе первая опубликованная ссылка (как мы полагаем) Дж. Солтоном на систему SMART .
    середина 1960-х :
    • Национальная медицинская библиотека разработала систему анализа и поиска медицинской литературы MEDLARS , первую крупную машиночитаемую базу данных и систему пакетного поиска.
    • Проект Intrex в Массачусетском технологическом институте.
    1965 : JCR Licklider опубликовал « Библиотеки будущего» .
    1966 : Дон Свонсон принимал участие в исследованиях в Чикагском университете по требованиям к будущим каталогам.
    конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
    1968 :
    • Джерард Салтон опубликовал « Автоматическую организацию и поиск информации» .
    • В отчете RADC Tech Джона В. Сэммона младшего «Некоторые математические аспекты хранения и поиска информации ...» описана векторная модель.
    1969 : « Нелинейное отображение для анализа структуры данных » Сэммона (IEEE Transactions on Computers) было первым предложением по интерфейсу визуализации для IR-системы.
  • 1970-е годы
    начало 1970-х :
    • Первые онлайн-системы - NLM AIM-TWX, MEDLINE; Lockheed's Dialog; ОРБИТА SDC.
    • Теодор Нельсон, продвигающий концепцию гипертекста , опубликовал Computer Lib / Dream Machines .
    1971 : Николас Джардин и Корнелис Дж. Ван Рейсберген опубликовали «Использование иерархической кластеризации в поиске информации», в которой сформулировали «кластерную гипотезу». [13]
    1975 : Три очень влиятельных публикации Солтона полностью сформулировали его структуру векторной обработки и модель определения терминов :
    • Теория индексации (Общество промышленной и прикладной математики)
    • Теория важности терминов в автоматическом анализе текста ( JASIS v. 26)
    • Модель векторного пространства для автоматического индексирования ( CACM 18:11)
    1978 : Первая конференция ACM SIGIR .
    1979 : CJ van Rijsbergen опубликовал « Информационный поиск» (Баттервортс). Большой упор на вероятностные модели.
    1979 : Тамас Дошкоц внедрил пользовательский интерфейс CITE на естественном языке для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживает ввод запроса в произвольной форме, ранжированный вывод и обратную связь по релевантности. [14]
  • 1980-е
    1980 : Первая международная конференция ACM SIGIR, совместно с IR-группой Британского компьютерного общества в Кембридже.
    1982 : Николас Дж. Белкин , Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (Аномальное состояние знаний) для поиска информации. Это была важная концепция, хотя их инструмент автоматического анализа в конечном итоге разочаровал.
    1983 : Солтон (и Майкл Дж. МакГилл) опубликовали « Введение в современный информационный поиск» (McGraw-Hill), уделяя большое внимание векторным моделям.
    1985 : Дэвид Блер и Билл Марон публикуют: «Оценка эффективности поиска для системы поиска полнотекстовых документов»
    середина 1980-х : усилия по разработке версий коммерческих ИК-систем для конечных пользователей.
    1985–1993 : Основные статьи и экспериментальные системы для визуализации интерфейсов.
    Работы Дональда Б. Крауча , Роберта Р. Корфхаге , Мэтью Чалмерса, Ансельма Спёрри и других.
    1989 : Первые предложения по всемирной паутине Тима Бернерса-Ли из ЦЕРНа .
  • 1990-е
    1992 : Первая конференция TREC .
    1997 : Публикация « Хранение и поиск информации» Корфхаге [15] с упором на визуализацию и системы с несколькими опорными точками.
    1999 : Публикация книги Аддисона Уэсли « Современный информационный поиск » Рикардо Баеза-Йейтса и Бертье Рибейро-Нето , первой книги, которая пытается охватить все IR.
    конец 1990-х : реализация в поисковых системах многих функций, которые раньше можно было найти только в экспериментальных IR-системах. Поисковые системы становятся наиболее распространенным и, возможно, лучшим экземпляром IR-моделей.

Основные конференции [ править ]

  • SIGIR: Конференция по исследованиям и разработкам в области информационного поиска
  • ECIR: Европейская конференция по поиску информации
  • CIKM: Конференция по управлению информацией и знаниями
  • WWW: Международная конференция в Интернете
  • WSDM: конференция по веб-поиску и интеллектуальному анализу данных
  • ICTIR: Международная конференция по теории поиска информации

Награды в поле [ править ]

  • Премия Тони Кента Стрикса
  • Премия Джерарда Солтона
  • Премия Карен Сперк Джонс

См. Также [ править ]

  • Поиск состязательной информации  - стратегии поиска информации в наборах данных
  • Совместный поиск информации
  • Память компьютера  - устройство, используемое на компьютере для хранения данных.
  • Контролируемый словарный запас
  • Поиск информации на разных языках
  • Интеллектуальный анализ данных  - поиск закономерностей в больших наборах данных с помощью сложных вычислительных методов.
  • Европейская летняя школа по информационному поиску
  • Человеко-компьютерный поиск информации  (HCIR)
  • Извлечение информации  - автоматическое извлечение структурированной информации из неструктурированных или полуструктурированных машиночитаемых документов, таких как тексты на человеческом языке.
  • Средство поиска информации
  • Визуализация знаний
  • Поиск мультимедийной информации
  • Управление личной информацией
  • Актуальность (информационный поиск)
  • Отзыв о релевантности
  • Классификация роккио
  • Индексирование поисковой системой
  • Поиск социальной информации
  • Специальная группа по поиску информации
  • Индексирование тем
  • Поиск временной информации
  • tf – idf  - (частота термина - обратная частота документа) числовая статистика, предназначенная для отражения важности слова для документа в коллекции или текстовых корпусах
  • Получение XML
  • Веб-майнинг

Ссылки [ править ]

  1. ^ Янсен, Б.Дж. и Рие, С. (2010) Семнадцать теоретических конструкций поиска информации и извлечения информации. Архивировано 4 марта 2016 г. в Wayback Machine . Журнал Американского общества информационных наук и технологий. 61 (8), 1517-1534.
  2. ^ Goodrum, Abby A. (2000). «Поиск информации об изображении: обзор текущих исследований». Информирование науки . 3 (2).
  3. ^ Фут, Джонатан (1999). «Обзор поиска аудиоинформации». Мультимедийные системы . 7 : 2–10. CiteSeerX 10.1.1.39.6339 . DOI : 10.1007 / s005300050106 . S2CID 2000641 .  
  4. ^ Beel, Joran; Гипп, Бела; Стиллер, Ян-Олаф (2009). Поиск информации на ментальных картах - для чего он нужен? . Труды 5-й Международной конференции по совместным вычислениям: сети, приложения и совместная работа (CollaborateCom'09). Вашингтон, округ Колумбия: IEEE. Архивировано из оригинала на 2011-05-13 . Проверено 13 марта 2012 .
  5. ^ Фрейкс, Уильям Б .; Баеза-Йейтс, Рикардо (1992). Структуры и алгоритмы поиска данных . ISBN компании Prentice-Hall, Inc. 978-0-13-463837-9. Архивировано из оригинала на 2013-09-28.
  6. ^ а б Сингхал, Амит (2001). «Современный поиск информации: краткий обзор» (PDF) . Бюллетень Технического комитета компьютерного общества IEEE по инженерии данных . 24 (4): 35–43.
  7. ^ Марк Сандерсон и В. Брюс Крофт (2012). «История информационных поисковиков» . Труды IEEE . 100 : 1444–1451. DOI : 10,1109 / jproc.2012.2189916 .
  8. JE Holmstrom (1948). « " Раздел III. Открытие пленарного заседания» . Конференция по научной информации Королевского общества, 21 июня - 2 июля 1948 г .: Представлено отчетов и статей : 85.
  9. ^ Mooers, Calvin N .; Теория цифровой обработки нечисловой информации и ее значение для экономики машин (Технический бюллетень Zator № 48), цитируется в Fairthorne, RA (1958). «Автоматический поиск записанной информации» . Компьютерный журнал . 1 (1): 37. DOI : 10,1093 / comjnl / 1.1.36 .
  10. ^ Дойл, Лорен; Беккер, Джозеф (1975). Поиск и обработка информации . Мелвилл. стр. 410 с. ISBN 978-0-471-22151-7.
  11. ^ Перри, Джеймс У .; Кент, Аллен; Берри, Мэдлин М. (1955). «Машинный поиск литературы X. Машинный язык; факторы, лежащие в основе его проектирования и развития». Американская документация . 6 (4): 242–254. DOI : 10.1002 / asi.5090060411 .
  12. ^ Марон, Мелвин Э. (2008). «Историческая справка об истоках вероятностного индексирования» (PDF) . Обработка информации и управление . 44 (2): 971–972. DOI : 10.1016 / j.ipm.2007.02.012 .
  13. N. Jardine, CJ van Rijsbergen (декабрь 1971 г.). «Использование иерархической кластеризации в поиске информации». Хранение и поиск информации . 7 (5): 217–240. DOI : 10.1016 / 0020-0271 (71) 90051-9 .
  14. ^ Doszkocs, TE & Rapp, BA (1979). «Поиск в MEDLINE на английском языке: прототип пользовательского интерфейса с запросом на естественном языке, ранжированным выводом и обратной связью по релевантности», В: Proceedings of the ASIS Annual Meeting, 16: 131-139.
  15. ^ Корфхаге, Роберт Р. (1997). Хранение и поиск информации . Вайли. стр.  368 с . ISBN 978-0-471-14338-3.

Дальнейшее чтение [ править ]

  • Рикардо Баеза-Йейтс, Бертье Рибейро-Нето. Современный поиск информации: концепции и технологии поиска (второе издание) . Аддисон-Уэсли, Великобритания, 2011 г.
  • Стефан Бюттчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем . MIT Press, Кембридж, Массачусетс, 2010 г.
  • «Информационно-поисковая система» . Библиотечно-информационная сеть . 24 апреля 2015 г.
  • Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Введение в поиск информации . Издательство Кембриджского университета, 2008.

Внешние ссылки [ править ]

  • ACM SIGIR: Специальная группа по поиску информации
  • BCS IRSG: Британское компьютерное общество - Группа специалистов по поиску информации
  • Конференция по поиску текста (TREC)
  • Форум по оценке поиска информации (FIRE)
  • Информационный поиск (онлайн-книга) CJ van Rijsbergen
  • Информационный поиск вики
  • Средство поиска информации
  • Получение информации @ DUTH
  • Отчет TREC о методах оценки информационного поиска
  • Как eBay измеряет релевантность поиска
  • Инструмент оценки эффективности информационного поиска @ Athena Research Center