Юнитерм

Uniterm - это система предметного индексирования , введенная Мортимером Таубе в 1951 году. Название представляет собой сокращение от «unit» и «term», относящееся к использованию в нем отдельных слов в качестве основы индекса, «uniterms». Таубе называл общую концепцию «Координатной индексацией», но сегодня всю концепцию также называют Uniterm.

Uniterm предназначен для быстрого поиска по ключевым словам темы и последующего сопоставления этих ключевых слов по нескольким темам, чтобы найти документы, соответствующие всем условиям. Результатом поиска uniterm является набор регистрационных номеров, которые затем можно использовать для поиска соответствующих документов. Uniterm основана на существующих инвентарных номерах, так что технически пост-координатах системы. Это противоположно системе предкоординат, где в результате предмета документа ему присваивается конкретный номер, как в десятичной классификации Дьюи . Uniterm была одной из самых популярных систем посткоординированной индексации, хотя отчасти ее успех был достигнут благодаря тому, что компания Таубе выиграла контракты на индексирование огромных технических библиотек.

История [ править ]

История разработки Uniterm и других новых систем индексирования в конечном итоге восходит к периоду конца Второй мировой войны . Зная о передовых авиационных и ракетных технологиях, разработанных в Германии, США организовали операцию «Lusty», а Великобритания - аналогичную миссию Fedden Mission , чтобы собрать как можно больше этих материалов. Наряду с образцами самолетов и различного вооружения эти усилия вернули миллионы страниц технической документации. Желание облегчить доступ к этим огромным коллекциям привело к значительному расширению области поиска информации . ^[1]

В США аэронавигационная коллекция была сначала отправлена в ВВС США в Райт-Филд , но со временем она была объединена с аналогичными хранилищами американских исследований, чтобы сформировать постоянно растущую коллекцию технических документов. Коллекция стала настолько большой и разнообразной, что в 1951 году для управления ею была сформирована новая оперативная группа, Агентство технической информации вооруженных сил (ASTIA). В конечном итоге эта группа перешла под управление Комиссии по атомной энергии . ASTIA начала проводить эксперименты по индексации коллекции, и именно из этой работы возник Uniterm. ^[2]

Таубе представил концепцию Uniterm в статье 1951 года «Координатное индексирование научных областей», которая была частью симпозиума по механическим вспомогательным средствам химической документации. В следующем году в сотрудничестве с Джеральдом Софаром Таубе основал Documentation, Inc. Компания предлагала коммерческие услуги поиска и индексирования. Среди их самых больших усилий был контракт 1958 года с недавно созданным НАСА для индексации всей своей технической библиотеки, а затем создания ее копий на микрофильмах . ^[3]

В оригинальной статье Таубе указано, что существенным преимуществом концепции Uniterm является ее способность к автоматизации. По сути, поисковый процесс uniterm ищет пересечение нескольких терминов, или, как называл это Таубе, «координат». ^[a] С этой целью они в партнерстве с IBM разработали «Систему непрерывного множественного доступа», или COMAC. Пользователи должны были выбирать условия поиска на устройстве записи перфокарт, а затем вводить их в COMAC, также известный как IBM 9900. ^[4] COMAC извлекал эти карточки uniterm, а затем использовал оптические системы для поиска совпадающих элементов. Затем он вернул новую карту с этими номерами, которая затем была отправлена в IBM 305 RAMAC., первый компьютер с жестким диском , который вернул полную информацию о документах для этих номеров. ^[4]

Концепция [ править ]

В основе Uniterm лежит концепция создания отдельного карточного каталога, который ссылается на документы в коллекции по их инвентарным номерам . Номера доступа не имеют значения в индексе Uniterm, поэтому они могут использовать любую из общих систем, например, десятичную классификацию Дьюи или универсальную десятичную классификацию , или, во многих случаях, просто увеличивающийся серийный номер . ^[5]^[2]

По мере добавления новых работ в коллекцию библиотекарь будет делать обычную учетную карточку для основной картотеки, как и для любой другой работы. Кроме того, они выберут небольшое количество ключевых слов из заголовка или основной части работы, которые можно использовать для поиска, и они также будут записаны на карточке. Например, документ об обледенении воздуховодов в самолетах может быть подан в рубриках «воздух», «воздуховоды» и «обледенение», но, возможно, не «самолет», который можно найти в слишком многих документах. ^[6]

Затем библиотекарь ищет в каталоге Uniterm карточки с этими терминами. Если они не найдены, они создаются путем написания ключевого слова в верхней части карточки и последующего деления нижней части на десять вертикальных секций, обозначенных от 0 до 9. Последняя цифра регистрационного номера затем записывается на карточке в этом месте. столбец, например, если последняя цифра инвентарного номера 5, весь инвентарный номер будет записан в столбце 5. Если карточка для этого термина найдена в коллекции, новый инвентарный номер просто добавляется в правильный столбец существующая карта. ^[7]

Чтобы получить документ, пользователь выбирает потенциально полезные ключевые термины и извлекает эти карточки из индекса uniterm. Чтобы найти эту статью, пользователь может выбрать «индексацию» и «библиотеку» и извлечь эти карточки из каталога uniterm. Эти карточки будут иметь номера для многих различных документов, например, "библиотечная" карточка может содержать список книги из Александрийской библиотеки . Однако на обеих карточках появятся только те документы, которые относятся к «индексации библиотеки» . ^[8]

Затем пользователь сканирует карту, чтобы увидеть, отображается ли конкретный инвентарный номер на обеих картах; разделение карточек на 10 столбцов предназначено для упрощения процесса визуального сканирования. Номера, которые появляются на обеих карточках, скорее всего, имеют отношение к поиску, и их можно будет найти напрямую или в основном каталоге карточек, если используются частичные инвентарные номера. ^[8]

Карточки в главном каталоге также содержат единичные термины, используемые для внесения этой записи, образующие перекрестный индекс. Пользователь, который выбирает карты для «пропеллера» и «самолета», может обнаружить на картах много пересекающихся произведений. Возвращаясь к основному указателю, они могут взглянуть на единичные термины, записанные на основных учетных карточках, и обнаружить, что есть и другие часто встречающиеся термины, например, «аэродинамика». Они могут предложить дополнительные термины, которые можно использовать для сужения поиска. Затем они могут вернуться в каталог uniterm, чтобы применить эти новые условия, вернуть дополнительные документы или сфокусировать свой поиск. ^[9]

Преимущества и критика [ править ]

Uniterm был популярен в Соединенных Штатах для больших технических сборников, что привело к серьезным исследованиям системы. Особенно полезной была попытка Агентства национальной безопасности каталогизировать свою коллекцию из 70 000 работ. ^[10]

Они обнаружили, что одним из основных преимуществ системы Uniterm было то, что библиотекарям не нужно было разбираться в материалах, чтобы правильно их каталогизировать. Простой выбор терминов, которые появляются в заголовке или явно важны в тексте, часто приводит к полезной единичной записи. Это контрастировало с традиционными иерархическими подходами, при которых для выбора подходящего места в иерархии часто требовались некоторые или значительные знания в области, лежащей в основе. ^[10]

Это же усилие выявило ряд проблем и предложило решения. Во-первых, проблема связана с синонимами ; была ли бумага о «воздуховодах» такой же или отличной от «воздухозаборников»? Они предположили, что эту проблему можно решить, разделив работы на наборы примерно по 1000 статей и построив каталог по разделам. Первый набор из 1000 документов может дать 1000 единичных терминов, которые затем будут изучены, чтобы отсеять синонимы. Когда были найдены синонимы, они добавили к этим карточкам заголовки «см. Также». Затем будет добавлен второй набор с использованием этих синонимов. Они обнаружили, что добавление новых терминов начало сглаживаться примерно до 4 000 записей, а после 10 000 добавлялись только очень конкретные технические термины. ^[11]

Когда эта концепция была впервые представлена, возникла проблема, связанная с тем, что термины могут возвращать большое количество ложных срабатываний из-за того, что термины используются для описания совершенно разных концепций. В частности, считалось, что проблемой являются термины, которые могут означать разные вещи в зависимости от их порядка. Если бы кто-то искал «американский экспорт в Канаду», «Канада», «США» и «экспорт» также вернул бы большое количество документов о канадском экспорте в США, что, возможно, превысило бы набор результатов. ^[12]

Однако на практике было обнаружено, что это не является серьезной проблемой, и те несколько примеров, которые действительно возникли, были решены путем добавления «дельта-карт», см. Также записи, которые включали направление. В этом случае карта «США» будет иметь также запись для «USΔ», эта карта будет содержать только записи из США. Uniterms на странице USΔ предназначены только для экспорта из США. ^[12]

Заметки [ править ]

^ То же самое, что и «согласованные вещи», а не «физическое местоположение».

Ссылки [ править ]

Цитаты [ править ]

^ Lesk, Майкл . «Семь веков поиска информации» . Bellcore.
^ a b Шарма и Шарма 2007 , стр. 19.
^ Times 1965 .
^ а б Таубе 1962 .
^ Установить 1953 , стр. 1.
^ Установить 1953 , стр. 2.
↑ Установить 1953 , стр. 6, 7.
^ a b Установить 1953 г. , стр. 9.
^ Установить 1953 , стр. 11.
^ a b Сэнфорд и Терио 1956 , стр. 19.
^ Сэнфорд и Терио 1956 , стр. 20.
^ a b Сэнфорд и Терио 1956 , стр. 23.

Библиография [ править ]

«Смерть Мортимера Таубе; основание службы передачи данных». The Washington Post, Times Herald (1959–1973) . 1965. С. A24.
Руководство по установке системы индексирования координат Uniterm (PDF) (Технический отчет). АСТИЯ. Октябрь 1953 г.
Таубе, Мортимер (январь 1962 г.). «Эксперименты с IBM-9900 и обсуждение улучшенного COMAC, предложенного этими экспериментами» . Журнал химической документации . 2 (1): 22–26. DOI : 10.1021 / c160004a007 .
Шарма, СК; Шарма, АК (2007). Информационный процесс и поиск . Атлантические издатели. С. 14–20. ISBN 9788126906956.
Сэнфорд, Джон; Терио, Фредерик (январь 1956). «Проблемы применения индексации координат Uniterm» . Колледж и исследовательские библиотеки . 17 : 19–23. DOI : 10,5860 / crl_17_01_19 .

[4] То же самое, что и «согласованные вещи», а не «физическое местоположение».

[1] Lesk, Майкл . «Семь веков поиска информации» . Bellcore.

[FOOTNOTESharmaSharma200719-2] Шарма и Шарма 2007 , стр. 19.

[FOOTNOTETimes1965-3] Times 1965 .

[FOOTNOTETaube1962-5] а б Таубе 1962 .

[FOOTNOTEInstall19531-6] Установить 1953 , стр. 1.

[FOOTNOTEInstall19532-7] Установить 1953 , стр. 2.

[FOOTNOTEInstall19536,_7-8] Установить 1953 , стр. 6, 7.

[FOOTNOTEInstall19539-9] Установить 1953 г. , стр. 9.

[FOOTNOTEInstall195311-10] Установить 1953 , стр. 11.

[FOOTNOTESanfordTheriault195619-11] Сэнфорд и Терио 1956 , стр. 19.

[FOOTNOTESanfordTheriault195620-12] Сэнфорд и Терио 1956 , стр. 20.

[FOOTNOTESanfordTheriault195623-13] Сэнфорд и Терио 1956 , стр. 23.

[1]