Крэнфилд эксперименты

В экспериментах Cranfield были серией экспериментальных исследований в поиске информации , проводимых Кирилл В. Клевердон в колледже аэронавтики в Университете Cranfield в 1960 - х годах, чтобы оценить эффективность систем индексации . ^[1]^[2]^[3] Эксперименты были разбиты на два основных этапа, ни один из которых не был компьютеризирован. Вся коллекция рефератов, итоговые индексы и результаты были позже распространены в электронном формате и широко использовались на протяжении десятилетий.

В первой серии экспериментов было проведено сравнение нескольких существующих методов индексации для проверки их эффективности. Запросы были сгенерированы авторами статей в сборнике, а затем переведены в поисковые индексы экспертами этих систем. В этой серии один метод перешел от наименее эффективного к наиболее эффективному после внесения незначительных изменений в порядок записи данных на учетных карточках . Вывод, казалось, заключался в том, что лежащая в основе методология казалась менее важной, чем конкретные детали реализации. Это привело к серьезным спорам о методологии экспериментов.

Эта критика также привела ко второй серии экспериментов, теперь известной как Крэнфилд 2. Крэнфилд 2 попытался получить дополнительную информацию, изменив методологию; Крэнфилд 1 проверил способность экспертов находить конкретный ресурс в соответствии с системой индексирования, Крэнфилд 2 вместо этого изучал результаты, задавая вопросы на человеческом языке и проверяя, дает ли система индексирования соответствующий ответ, независимо от того, был ли это исходный целевой документ. Это тоже было предметом серьезных споров.

Эксперименты Крэнфилда оказали огромное влияние в области поиска информации, которая сама по себе представляла значительный интерес в эпоху после Второй мировой войны, когда количество научных исследований стремительно росло. Это была тема постоянных дебатов в течение многих лет и привела к нескольким компьютерным проектам для проверки ее результатов. Его влияние было значительным в течение сорока лет, прежде чем индексы естественного языка, подобные индексам современных поисковых систем, стали обычным явлением.

Задний план

На известную ныне статью Ванневара Буша « Как мы можем думать » в июле 1945 года часто указывают как на первое полное описание области, которая стала поиском информации . В статье описывается гипотетическая машина, известная как « мемекс », которая будет хранить все знания человечества в индексированной форме, что позволит любому извлекать их. ^[4]

В 1948 году Королевское общество провело Конференцию по научной информации, на которой впервые были официально рассмотрены некоторые из этих концепций. Это привело к небольшому количеству полевых экспериментов в Великобритании, США и Нидерландах. Вторая конференция по этой теме, Международная конференция по научной информации, была проведена в Вашингтоне, округ Колумбия, в 1958 году, когда компьютерное развитие достигло точки, когда стало возможным автоматическое извлечение индексов. Именно на этой встрече Сирил У. Клевердон «получил укус между зубами» и сумел организовать финансирование от Национального научного фонда США для создания того, что позже будет известно как Крэнфилд-1 ^[5].

Крэнфилд 1

В первой серии экспериментов напрямую сравнивались четыре системы индексации, которые представляли существенно разные концептуальные основы. Этими четырьмя системами были Универсальная десятичная классификация , иерархическая система, широко внедряемая в библиотеках, Алфавитный предметный каталог, который упорядочивал тематические заголовки в классических коллекциях библиотечных карточек , Схема фасетной классификации, которая позволяет сочетать предметы для создания новых предметов, и Мортимер Таубе «S Унитерм система координат , где индексации ссылки можно найти на любом количестве отдельных карточках. ^[5]

В первой серии экспериментов участников попросили создать указатели для коллекции документов, связанных с аэрокосмической отраслью. Каждый индекс был подготовлен экспертом в этой методологии. Затем авторов оригинальных документов попросили подготовить набор условий поиска, по которым этот документ должен быть возвращен. Затем экспертов по индексированию попросили сгенерировать запросы в свой индекс на основе условий поиска автора. Затем запросы использовались для проверки индекса, чтобы убедиться, что он вернул целевой документ. ^[5]

В этих тестах все системы, кроме фасеточной, дали примерно одинаковое количество «правильных» результатов, в то время как фасетная концепция отставала. Изучая эти результаты, фасетная система была повторно проиндексирована с использованием другого формата на картах, и тесты были повторно запущены. В этой серии тестов многогранная система стала явным победителем. Это наводило на мысль, что основная теория, лежащая в основе системы, была менее важна, чем специфика реализации. ^[5]

Результаты этих экспериментов, опубликованные в 1962 году, вызвали огромные споры как среди сторонников различных систем, так и среди исследователей, которые жаловались на эксперименты в целом. ^[6]

Крэнфилд 2

В первой серии экспериментов перед экспертами по использованию различных методов была поставлена задача как создать индекс, так и использовать его для выборочных запросов. Каждая система имела собственное представление о том, как должен быть структурирован запрос, который сегодня известен как язык запросов . Большая часть критики первых экспериментов была сосредоточена на том, действительно ли эксперименты тестировали системы или на способности пользователя переводить запрос на язык запросов. ^[5]

Это привело ко второй серии экспериментов, Cranfield 2, в которых рассматривался вопрос преобразования запроса в язык. Для этого вместо того, чтобы рассматривать генерацию запроса как черный ящик , каждый шаг был разбит на части. Результат этого подхода был революционным в то время; он предложил оставить условия поиска в их исходном формате, который сегодня известен как запрос на естественном языке . ^[5]

Еще одно важное изменение заключалось в том, как оценивались результаты. В исходных тестах успех происходил только в том случае, если индекс возвращал точный документ, который использовался для генерации поиска. Однако это не было типично для реального запроса; пользователь, ищущий информацию о шасси самолета, может быть доволен любой из многих статей сборника по этой теме, но Крэнфилд 1 сочтет такой результат неудачным, несмотря на возвращение соответствующих материалов. Во второй серии результаты оценивались третьими сторонами, которые давали качественный ответ о том, генерировал ли запрос соответствующий набор документов, в отличие от возврата указанного исходного документа. ^[6]

Продолжение дебатов

Результаты двух серий испытаний долгие годы оставались предметом серьезных споров. В частности, это привело к постоянным дебатам между Клевердоном и Джейсоном Фаррадейном , одним из основателей Института ученых-информатиков в 1958 году. Эти двое неизменно появлялись на встречах, где выступал другой, а затем, в период вопросов и ответов , объясните, почему все, что они делали, было неправильным. Дискуссия была охарактеризована как «... ожесточенная и неумолимая, иногда выходящая далеко за рамки вежливости». ^{[6] К} этому припеву присоединился Дон Р. Свонсон из США, который несколько лет спустя опубликовал критический анализ экспериментов Крэнфилда. ^[6]

Несмотря на эту критику, Крэнфилд 2 установил планку, по которой оценивались многие последующие эксперименты. В частности, методология Cranfield 2, начинающаяся с терминов естественного языка и оценка результатов по релевантности, а не точному совпадению, стала почти универсальной в последующих экспериментах, несмотря на многие возражения. ^[6]

Влияние

После завершения Cranfield 2 в 1967 году весь корпус был опубликован в машиночитаемой форме. ^[7] Сегодня это известно как Cranfield 1400 или любые другие вариации на эту тему. Название относится к количеству документов в сборнике, который состоит из 1398 рефератов. Коллекция также включает 225 запросов и оценки релевантности для всех пар запрос: документ, полученных в результате экспериментальных прогонов. ^[8] Основная база рефератов составляет около 1,6 МБ. ^[9]

Эксперименты проводились в эпоху , когда компьютеры были несколько килобайт из основной памяти и доступа к сети , чтобы , возможно , несколько мегабайт . Например, IBM System / 360 Model 50 среднего класса поставлялась с 64-512 КБ основной памяти ^[10] (с тенденцией к меньшему объему), а на обычном жестком диске хранилось чуть более 80 МБ. ^[11] По мере того, как в 1960-х и 1970-х годах возможности систем росли, коллекция документов Крэнфилда стала основным корпусом испытательных стендов, который неоднократно использовался в течение многих лет. ^[12]

Сегодня коллекция слишком мала, чтобы использовать ее для практических испытаний помимо пилотных экспериментов. Его место в основном заняла коллекция TREC, которая содержит 1,89 миллиона документов по более широкому кругу вопросов, или еще более недавняя коллекция GOV2, состоящая из 25 миллионов веб-страниц. ^[8]

Смотрите также

ASLIB
История информации

Внешние ссылки

Бумаги Крэнфилда в музее ACM SIGIR

[1] Клевердон, CW (1960). "Исследовательский проект Аслиба Крэнфилда по сравнительной эффективности систем индексации". ASLIB Proceedings . Изумруд. 12 (12): 421–431. DOI : 10,1108 / eb049778 . ISSN 0001-253X .

[2] Клевердон, Кирилл (1967). «Тесты Крэнфилда на устройствах с индексным языком». ASLIB Proceedings . Изумруд. 19 (6): 173–194. DOI : 10,1108 / eb050097 . ISSN 0001-253X .

[3] Клевердон, CW; Кин, EM (1966). Факторы, определяющие эффективность систем индексации. Vol. 1: Дизайн, Том. 2: Результаты . Крэнфилд, Великобритания: Исследовательский проект Аслиба Крэнфилда.

[4] Бакленд, Майкл К. (май 1992 г.). «Эмануэль Голдберг, Поиск электронных документов и Memex Ванневара Буша». Журнал Американского общества информационных наук . 43 (4): 284–94. DOI : 10.1002 / (SICI) 1097-4571 (199205) 43: 4 <284 :: AID-ASI3> 3.0.CO; 2-0 .

[FOOTNOTERobertson20083-5] Б с д е е Robertson 2008 , с. 3.

[FOOTNOTERobertson20084-6] Робертсон 2008 , стр. 4.

[FOOTNOTERobertson20087-7] Перейти ↑ Robertson 2008 , p. 7.

[FOOTNOTEManningRaghavanSchütze2008-8] Manning, Raghavan & Schütze 2008 .

[FOOTNOTECRANFIELD-9] КРЕНФИЛД .

[10] Функциональные характеристики IBM System / 360 Model 50 (PDF) . IBM. 1967. A22-6898-1.

[11] «Архивы IBM: дисковое хранилище IBM 1302» . IBM. 2003-01-23 . Проверено 20 июля 2011 .

[FOOTNOTERobertson20085,7-12] Перейти ↑ Robertson 2008 , pp. 5,7.

[1]