В экспериментах Cranfield были серией экспериментальных исследований в поиске информации , проводимых Кирилл В. Клевердон в колледже аэронавтики в Университете Cranfield в 1960 - х годах, чтобы оценить эффективность систем индексации . [1] [2] [3] Эксперименты были разбиты на два основных этапа, ни один из которых не был компьютеризирован. Вся коллекция рефератов, итоговые индексы и результаты были позже распространены в электронном формате и широко использовались на протяжении десятилетий.
В первой серии экспериментов было проведено сравнение нескольких существующих методов индексации для проверки их эффективности. Запросы были сгенерированы авторами статей в сборнике, а затем переведены в поисковые индексы экспертами этих систем. В этой серии один метод перешел от наименее эффективного к наиболее эффективному после внесения незначительных изменений в порядок записи данных на учетных карточках . Вывод, казалось, заключался в том, что лежащая в основе методология казалась менее важной, чем конкретные детали реализации. Это привело к серьезным спорам о методологии экспериментов.
Эта критика также привела ко второй серии экспериментов, теперь известной как Крэнфилд 2. Крэнфилд 2 попытался получить дополнительную информацию, изменив методологию; Крэнфилд 1 проверил способность экспертов находить конкретный ресурс в соответствии с системой индексирования, Крэнфилд 2 вместо этого изучал результаты, задавая вопросы на человеческом языке и проверяя, дает ли система индексирования соответствующий ответ, независимо от того, был ли это исходный целевой документ. Это тоже было предметом серьезных споров.
Эксперименты Крэнфилда оказали огромное влияние в области поиска информации, которая сама по себе представляла значительный интерес в эпоху после Второй мировой войны, когда количество научных исследований стремительно росло. Это была тема постоянных дебатов в течение многих лет и привела к нескольким компьютерным проектам для проверки ее результатов. Его влияние было значительным в течение сорока лет, прежде чем индексы естественного языка, подобные индексам современных поисковых систем, стали обычным явлением.
Задний план
На известную ныне статью Ванневара Буша « Как мы можем думать » в июле 1945 года часто указывают как на первое полное описание области, которая стала поиском информации . В статье описывается гипотетическая машина, известная как « мемекс », которая будет хранить все знания человечества в индексированной форме, что позволит любому извлекать их. [4]
В 1948 году Королевское общество провело Конференцию по научной информации, на которой впервые были официально рассмотрены некоторые из этих концепций. Это привело к небольшому количеству полевых экспериментов в Великобритании, США и Нидерландах. Вторая конференция по этой теме, Международная конференция по научной информации, была проведена в Вашингтоне, округ Колумбия, в 1958 году, когда компьютерное развитие достигло точки, когда стало возможным автоматическое извлечение индексов. Именно на этой встрече Сирил У. Клевердон «получил укус между зубами» и сумел организовать финансирование от Национального научного фонда США для создания того, что позже будет известно как Крэнфилд-1 [5].
Крэнфилд 1
В первой серии экспериментов напрямую сравнивались четыре системы индексации, которые представляли существенно разные концептуальные основы. Этими четырьмя системами были Универсальная десятичная классификация , иерархическая система, широко внедряемая в библиотеках, Алфавитный предметный каталог, который упорядочивал тематические заголовки в классических коллекциях библиотечных карточек , Схема фасетной классификации, которая позволяет сочетать предметы для создания новых предметов, и Мортимер Таубе «S Унитерм система координат , где индексации ссылки можно найти на любом количестве отдельных карточках. [5]
В первой серии экспериментов участников попросили создать указатели для коллекции документов, связанных с аэрокосмической отраслью. Каждый индекс был подготовлен экспертом в этой методологии. Затем авторов оригинальных документов попросили подготовить набор условий поиска, по которым этот документ должен быть возвращен. Затем экспертов по индексированию попросили сгенерировать запросы в свой индекс на основе условий поиска автора. Затем запросы использовались для проверки индекса, чтобы убедиться, что он вернул целевой документ. [5]
В этих тестах все системы, кроме фасеточной, дали примерно одинаковое количество «правильных» результатов, в то время как фасетная концепция отставала. Изучая эти результаты, фасетная система была повторно проиндексирована с использованием другого формата на картах, и тесты были повторно запущены. В этой серии тестов многогранная система стала явным победителем. Это наводило на мысль, что основная теория, лежащая в основе системы, была менее важна, чем специфика реализации. [5]
Результаты этих экспериментов, опубликованные в 1962 году, вызвали огромные споры как среди сторонников различных систем, так и среди исследователей, которые жаловались на эксперименты в целом. [6]
Крэнфилд 2
В первой серии экспериментов перед экспертами по использованию различных методов была поставлена задача как создать индекс, так и использовать его для выборочных запросов. Каждая система имела собственное представление о том, как должен быть структурирован запрос, который сегодня известен как язык запросов . Большая часть критики первых экспериментов была сосредоточена на том, действительно ли эксперименты тестировали системы или на способности пользователя переводить запрос на язык запросов. [5]
Это привело ко второй серии экспериментов, Cranfield 2, в которых рассматривался вопрос преобразования запроса в язык. Для этого вместо того, чтобы рассматривать генерацию запроса как черный ящик , каждый шаг был разбит на части. Результат этого подхода был революционным в то время; он предложил оставить условия поиска в их исходном формате, который сегодня известен как запрос на естественном языке . [5]
Еще одно важное изменение заключалось в том, как оценивались результаты. В исходных тестах успех происходил только в том случае, если индекс возвращал точный документ, который использовался для генерации поиска. Однако это не было типично для реального запроса; пользователь, ищущий информацию о шасси самолета, может быть доволен любой из многих статей сборника по этой теме, но Крэнфилд 1 сочтет такой результат неудачным, несмотря на возвращение соответствующих материалов. Во второй серии результаты оценивались третьими сторонами, которые давали качественный ответ о том, генерировал ли запрос соответствующий набор документов, в отличие от возврата указанного исходного документа. [6]
Продолжение дебатов
Результаты двух серий испытаний долгие годы оставались предметом серьезных споров. В частности, это привело к постоянным дебатам между Клевердоном и Джейсоном Фаррадейном , одним из основателей Института ученых-информатиков в 1958 году. Эти двое неизменно появлялись на встречах, где выступал другой, а затем, в период вопросов и ответов , объясните, почему все, что они делали, было неправильным. Дискуссия была охарактеризована как «... ожесточенная и неумолимая, иногда выходящая далеко за рамки вежливости». [6] К этому припеву присоединился Дон Р. Свонсон из США, который несколько лет спустя опубликовал критический анализ экспериментов Крэнфилда. [6]
Несмотря на эту критику, Крэнфилд 2 установил планку, по которой оценивались многие последующие эксперименты. В частности, методология Cranfield 2, начинающаяся с терминов естественного языка и оценка результатов по релевантности, а не точному совпадению, стала почти универсальной в последующих экспериментах, несмотря на многие возражения. [6]
Влияние
После завершения Cranfield 2 в 1967 году весь корпус был опубликован в машиночитаемой форме. [7] Сегодня это известно как Cranfield 1400 или любые другие вариации на эту тему. Название относится к количеству документов в сборнике, который состоит из 1398 рефератов. Коллекция также включает 225 запросов и оценки релевантности для всех пар запрос: документ, полученных в результате экспериментальных прогонов. [8] Основная база рефератов составляет около 1,6 МБ. [9]
Эксперименты проводились в эпоху , когда компьютеры были несколько килобайт из основной памяти и доступа к сети , чтобы , возможно , несколько мегабайт . Например, IBM System / 360 Model 50 среднего класса поставлялась с 64-512 КБ основной памяти [10] (с тенденцией к меньшему объему), а на обычном жестком диске хранилось чуть более 80 МБ. [11] По мере того, как в 1960-х и 1970-х годах возможности систем росли, коллекция документов Крэнфилда стала основным корпусом испытательных стендов, который неоднократно использовался в течение многих лет. [12]
Сегодня коллекция слишком мала, чтобы использовать ее для практических испытаний помимо пилотных экспериментов. Его место в основном заняла коллекция TREC, которая содержит 1,89 миллиона документов по более широкому кругу вопросов, или еще более недавняя коллекция GOV2, состоящая из 25 миллионов веб-страниц. [8]
Смотрите также
- ASLIB
- История информации
Рекомендации
Цитаты
- ^ Клевердон, CW (1960). "Исследовательский проект Аслиба Крэнфилда по сравнительной эффективности систем индексации". ASLIB Proceedings . Изумруд. 12 (12): 421–431. DOI : 10,1108 / eb049778 . ISSN 0001-253X .
- ^ Клевердон, Кирилл (1967). «Тесты Крэнфилда на устройствах с индексным языком». ASLIB Proceedings . Изумруд. 19 (6): 173–194. DOI : 10,1108 / eb050097 . ISSN 0001-253X .
- ^ Клевердон, CW; Кин, EM (1966). Факторы, определяющие эффективность систем индексации. Vol. 1: Дизайн, Том. 2: Результаты . Крэнфилд, Великобритания: Исследовательский проект Аслиба Крэнфилда.
- ^ Бакленд, Майкл К. (май 1992 г.). «Эмануэль Голдберг, Поиск электронных документов и Memex Ванневара Буша». Журнал Американского общества информационных наук . 43 (4): 284–94. DOI : 10.1002 / (SICI) 1097-4571 (199205) 43: 4 <284 :: AID-ASI3> 3.0.CO; 2-0 .
- ^ Б с д е е Robertson 2008 , с. 3.
- ^ a b c d e Робертсон 2008 , стр. 4.
- Перейти ↑ Robertson 2008 , p. 7.
- ^ a b Manning, Raghavan & Schütze 2008 .
- ^ КРЕНФИЛД .
- ^ Функциональные характеристики IBM System / 360 Model 50 (PDF) . IBM. 1967. A22-6898-1.
- ^ «Архивы IBM: дисковое хранилище IBM 1302» . IBM. 2003-01-23 . Проверено 20 июля 2011 .
- Перейти ↑ Robertson 2008 , pp. 5,7.
Библиография
- Ричмонд, Филлис А. (1963). «Обзор кранфилд-проекта». Американская документация . 14 (4): 307–311. DOI : 10.1002 / asi.5090140408 . ISSN 0096-946X .
- Робертсон, Стивен (2008). «К истории оценивания в IR». Журнал информатики . 34 (4): 439–456. DOI : 10.1177 / 0165551507086989 . S2CID 8032578 .
- «Крэнфилд 1400 корпус» .
- Мэннинг, Кристофер; Рагхаван, Прабхакар; Шютце, Хинрих (2008). «Стандартные тестовые коллекции» . Введение в поиск информации . Издательство Кембриджского университета.
Внешние ссылки
- Бумаги Крэнфилда в музее ACM SIGIR