Предметное индексирование

Предметизация является актом описания или классификации в документе по индексным терминам или других символами для того , чтобы указать , что документ о , чтобы суммировать его содержание или увеличить находимости . Другими словами, речь идет об идентификации и описании предмета документов. Указатели составляются отдельно на трех различных уровнях: термины в документе, таком как книга; объекты в коллекции, например, в библиотеке; и документы (например, книги и статьи) в определенной области знаний.

Индексирование тем используется при поиске информации, особенно для создания библиографических указателей для поиска документов по определенной теме. Примерами служб академического индексирования являются Zentralblatt MATH , Chemical Abstracts и PubMed . Термины индекса в основном назначались экспертами, но ключевые слова авторов также распространены.

Процесс индексации начинается с любого анализа тематики документа. Затем индексатор должен идентифицировать термины, которые надлежащим образом идентифицируют предмет, либо извлекая слова непосредственно из документа, либо назначая слова из контролируемого словаря . ^[1] Затем термины в указателе представлены в систематическом порядке.

Индексаторы должны решить, сколько терминов включить и насколько конкретными должны быть термины. Вместе это дает глубину индексации.

Предметный анализ [ править ]

Первым шагом в индексации является определение предмета документа. При ручном индексировании индексатор будет рассматривать предмет с точки зрения ответа на ряд вопросов, таких как «Имеет ли документ дело с конкретным продуктом, состоянием или явлением?». ^[2] Поскольку на анализ влияют знания и опыт индексатора, из этого следует, что два индексатора могут анализировать контент по-разному и поэтому предлагать разные термины индекса. Это повлияет на успех поиска.

Автоматический и ручной анализ темы [ править ]

Автоматическое индексирование следует за установленными процессами анализа частот встречаемости словосочетаний и сравнения результатов с другими документами для отнесения к тематическим категориям. Это не требует понимания индексируемого материала. Таким образом, это приводит к более единообразной индексации, но за счет интерпретации истинного значения. Компьютерная программа не понимает смысла утверждений и поэтому может не присвоить некоторые соответствующие термины или присвоить их неправильно. Индексаторы-люди сосредотачивают свое внимание на определенных частях документа, таких как заголовок, аннотация, резюме и выводы, поскольку глубокий анализ полного текста требует больших затрат и времени ^[3] Автоматическая система снимает ограничение по времени и позволяет анализировать весь документ, но также имеет возможность быть направленной к определенным частям документа.

Выбор срока [ править ]

Второй этап индексации включает перевод предметного анализа в набор индексных терминов . Это может включать извлечение из документа или присвоение из контролируемого словаря . Благодаря широко доступной возможности проводить полнотекстовый поиск , многие люди стали полагаться на свой собственный опыт в проведении информационного поиска, и полнотекстовый поиск стал очень популярным. Предметное индексирование и его эксперты, профессиональные индексаторы, каталогизаторы и библиотекари по- прежнему имеют решающее значение для организации и поиска информации. Эти эксперты понимают контролируемые словари и могут найти информацию, которую невозможно найтиполнотекстовый поиск . Стоимость экспертного анализа для создания предметного указателя нелегко сравнить со стоимостью оборудования, программного обеспечения и рабочей силы для производства сопоставимого набора полнотекстовых материалов с полной возможностью поиска. Благодаря новым веб-приложениям, которые позволяют каждому пользователю комментировать документы, социальные теги приобрели популярность, особенно в Интернете. ^[4]

Одно из приложений индексации, книжный указатель , остается относительно неизменным, несмотря на информационную революцию.

Извлечение / производное индексирование [ править ]

Индексирование с извлечением предполагает извлечение слов непосредственно из документа. Он использует естественный язык и хорошо подходит для автоматизированных методов, при которых вычисляется частота слов, а слова с частотой, превышающей заранее определенный порог, используются в качестве терминов индекса. Будет использован стоп-лист, содержащий общие слова (такие как «the», «и»), и такие стоп-слова будут исключены как термины индекса.

Индексирование с автоматическим извлечением может привести к потере смысла терминов из-за индексации отдельных слов, а не фраз. Хотя можно выделить часто встречающиеся фразы, это становится более трудным, если ключевые понятия непоследовательно сформулированы во фразах. Индексирование с автоматическим извлечением также имеет проблему, заключающуюся в том, что даже при использовании стоп-листа для удаления общих слов некоторые часто используемые слова могут оказаться бесполезными для разрешения различий между документами. Например, термин «глюкоза» может часто встречаться в любом документе, относящемся к диабету. Следовательно, использование этого термина, скорее всего, вернет большую часть или все документы в базе данных. Посткоординированное индексирование, при котором термины объединяются во время поиска, уменьшило бы этот эффект, но ответственность за связывание соответствующих терминов будет лежать на искателе, а не на специалисте в области информации.Кроме того, нечасто встречающиеся термины могут иметь большое значение, например, новое лекарство может упоминаться нечасто, но новизна предмета делает любую ссылку значительной. Одним из методов, позволяющих включать более редкие термины и исключать общие слова с помощью автоматизированных методов, может быть подход относительной частоты, когда частота слова в документе сравнивается с частотой в базе данных в целом. Следовательно, термин, который встречается в документе чаще, чем можно было бы ожидать на основе остальной части базы данных, затем можно было бы использовать в качестве индексного термина, а термины, которые встречаются одинаково часто повсюду, будут исключены. Другая проблема с автоматическим извлечением заключается в том, что он не распознает, когда обсуждается концепция, но не идентифицируется в тексте индексируемым ключевым словом.^[5]

Индексирование назначений [ править ]

Альтернативой является индексация присвоений, при которой термины индекса берутся из контролируемого словаря. Это дает преимущество контроля синонимов, поскольку предпочтительный термин индексируется, а синонимы или связанные термины направляют пользователя к предпочтительному термину. Это означает, что пользователь может находить статьи независимо от конкретного термина, использованного автором, и избавляет пользователя от необходимости знать и проверять все возможные синонимы. ^[6] Это также устраняет любую путаницу, вызванную омографами.путем включения квалификационного термина. Третье преимущество заключается в том, что он позволяет связывать родственные термины независимо от того, связаны ли они иерархией или ассоциацией, например, в индексной записи о пероральном лекарственном средстве другие пероральные лекарства могут быть указаны как связанные термины на том же уровне иерархии, но также могут быть связаны с более широкими терминами. такие термины, как лечение. Индексирование присвоения используется при ручном индексировании для улучшения согласованности между индексаторами, поскольку разные индексаторы будут иметь контролируемый набор терминов на выбор. Контролируемые словари не устраняют несоответствия полностью, поскольку два индексатора могут интерпретировать предмет по-разному. ^[2]

Индекс презентации [ править ]

Заключительный этап индексации - представление записей в систематическом порядке. Это может включать связывание записей. В предварительно скоординированном индексе индексатор определяет порядок, в котором термины связаны в записи, учитывая, как пользователь может сформулировать свой поиск. В пост-скоординированном указателе записи представлены по отдельности, и пользователь может связать записи посредством поиска, чаще всего выполняемого с помощью компьютерного программного обеспечения. Посткоординирование приводит к потере точности по сравнению с предкоординированием ^[7]

Глубина индексации [ править ]

Индексаторы должны принимать решения о том, какие записи должны быть включены и сколько записей должен включать индекс. Глубина индексации описывает тщательность процесса индексации со ссылкой на полноту и специфичность ^[8]

Исчерпание [ править ]

Исчерпывающий указатель - это тот, в котором перечислены все возможные термины индекса. Большая полнота дает более высокий уровень отзыва или большую вероятность того, что все релевантные статьи будут извлечены, однако это происходит за счет точности . Это означает, что пользователь может получить большее количество нерелевантных документов или документов, которые имеют мало общего с предметом. В ручной системе более высокий уровень исчерпываемости влечет за собой более высокие затраты, поскольку требуется больше человеко-часов. Дополнительное время, затрачиваемое на автоматизированную систему, было бы гораздо менее значительным. На другом конце шкалы, в выборочном указателе охвачены только самые важные аспекты. ^[9]В выборочном указателе количество напоминаний сокращается, так как если индексатор не включает достаточно терминов, очень релевантная статья может быть упущена из виду. Следовательно, индексаторы должны стремиться к сбалансированности и учитывать, какой документ можно использовать. Возможно, им также придется учитывать влияние времени и средств.

Специфика [ править ]

Специфика описывает, насколько близко термины индекса соответствуют темам, которые они представляют ^[10] Индекс считается специфичным, если индексатор использует параллельные дескрипторы к концепции документа и точно отражает концепции. ^[11] Конкретность имеет тенденцию увеличиваться с увеличением полноты, поскольку чем больше терминов вы включаете, тем уже будут эти термины.

Теория индексирования [ править ]

Hjørland (2011) ^[12] обнаружил, что теории индексации на самом глубоком уровне связаны с различными теориями познания:

Рационалистические теории индексации (такие как теория Ранганатана) предполагают, что предметы логически конструируются из фундаментального набора категорий. Тогда основным методом предметного анализа является «аналитико-синтетический», чтобы выделить набор основных категорий (= анализ), а затем сконструировать предмет любого данного документа путем объединения этих категорий в соответствии с некоторыми правилами (= синтез).
Эмпирические теории индексации основаны на выборе похожих документов на основе их свойств, в частности, путем применения методов численной статистики.
Историцистские и герменевтические теории индексации предполагают, что предмет данного документа относится к данному дискурсу или предметной области, поэтому индексация должна отражать потребность в конкретном дискурсе или предметной области. Согласно герменевтике - это документ, который всегда пишется и интерпретируется с определенного горизонта. То же самое и с системами организации знаний и со всеми пользователями, выполняющими поиск в таких системах. Любой вопрос, задаваемый такой системе, ставится с определенного горизонта. Все эти горизонты могут быть более или менее согласованными или противоречивыми. Индексировать документ - значит попытаться внести свой вклад в поиск «релевантных» документов, зная об этих различных горизонтах.
Прагматические и критические теории индексации (например, Hjørland, 1997) ^[13]согласуется с историцистской точкой зрения, согласно которой субъекты относятся к конкретным дискурсам, но подчеркивает, что анализ субъектов должен поддерживать заданные цели и ценности и учитывать последствия индексации тем или иным способом. Эти теории считают, что индексирование не может быть нейтральным и что пытаться индексировать нейтральным образом - неправильная цель. Индексирование - это действие (а индексирование на основе компьютера действует в соответствии с намерениями программистов). Действия служат человеческим целям. Библиотеки и информационные службы также служат человеческим целям, поэтому их индексация должна выполняться таким образом, чтобы максимально поддерживать эти цели. На первый взгляд это выглядит странно, потому что целью библиотек и информационных служб является идентификация любого документа или фрагмента информации.Тем не менее, любой конкретный способ индексации всегда поддерживает одни виды использования за счет других. Индексируемые документы предназначены для определенных целей в сообществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими разными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).Индексируемые документы предназначены для определенных целей в сообществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими разными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).Индексируемые документы предназначены для определенных целей в сообществе. По сути, индексация должна служить тем же целям. Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими разными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими разными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).Первичные и вторичные документы и информационные услуги являются частями одной и той же общей социальной системы. В такой системе могут быть задействованы различные теории, эпистемологии, мировоззрения и т. Д., И пользователям необходимо иметь возможность ориентироваться и перемещаться между этими разными взглядами. Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).Это требует отображения различных эпистемологий в данной области и классификации единого документа на такой карте. Прекрасные примеры таких разных парадигм и их последствий для систем индексации и классификации представлены в области искусства Ørom (2003).^[14] и в музыке Абрахамсена (2003). ^[15]

Суть индексации, как заявили Роули и Фэрроу ^[16], заключается в оценке вклада статьи в знания и соответствующей индексации. Или, используя слова Hjørland (1992, ^[17] 1997), чтобы проиндексировать его информативный потенциал.

«Чтобы добиться хорошей последовательной индексации, индексатор должен хорошо понимать структуру предмета и характер вклада, который документ вносит в развитие знаний». (Роули и Фэрроу, 2000, ^[16] стр. 99).

См. Также [ править ]

Викискладе есть медиафайлы, связанные с предметным индексированием .

Служба индексирования и реферирования
Классификация документов
Метаданные
Избыточная категоризация
Томас Ирландский , средневековый пионер предметного индексирования

Ссылки [ править ]

^ FW Lancaster (2003): «Индексирование и реферирование в теории и практике». Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр. 6
^ а б Г. Чоудхури (2004): «Введение в современный поиск информации». Третье издание. Лондон, Фацет. ISBN 1-85604-480-7 . стр.71
^ FW Lancaster (2003): «Индексирование и реферирование в теории и практике». Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр.24
Перейти ↑ Voss, Jakob (2007). «Теги, фольксономия и совместное возрождение ручного индексирования?». Материалы Международного симпозиума информатики . С. 234–254. arXiv : cs / 0701072 . Bibcode : 2007cs ........ 1072V .
^ Дж. Лэмб (2008): Индексы, созданные человеком или компьютером? Архивировано 4 июня 2014 г. в Wayback Machine [онлайн], Шеффилд, Общество индексаторов. По состоянию на 15 января 2009 г.
^ C. Tenopir (1999): "Человек или автоматизация, индексация важна". Библиотечный журнал 124 (18) страниц 34-38.
^ Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной координации и пост-координации». Журнал Американского общества информационных наук , 49 (14), 1254-1269.
^ DB Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и реферирование». 3-е изд. Энглвуд, библиотеки Unlimited, Inc. ISBN 1-56308-641-7 . стр.105
↑ BH Weinberg (1990): «Исчерпывающий перечень указателей: книги, журналы и полные электронные тексты; резюме семинара, представленного на ежегодной конференции ASI 1999 года». Ключевые слова , 7 (5), страницы 1+.
^ JD Anderson (1997): Рекомендации для индексов и связанных устройств поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.
^ DB Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и реферирование». 3-е изд. Энглвуд, библиотеки Unlimited, Inc. ISBN 1-56308-641-7 . стр.106
^ Hjørland Биргер (2011). Важность теорий познания: индексирование и поиск информации в качестве примера. Журнал Американского общества информационных наук и технологий , 62 (1,), 72-77.
^ Hjørland, В. (1997). Поиск информации и предметное представление. Теоретико-деятельностный подход к информатике. Вестпорт и Лондон: Greenwood Press.
^ Ørom, Андерс (2003). Организация знаний в области искусствоведения - история, переходный период и концептуальные изменения. Организация знаний. 30 (3/4), 128-143.
Перейти ↑ Abrahamsen, Knut T. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30 (3/4), 144-169.
^ a b Роули, Дж. Э. и Фэрроу, Дж. (2000). Организация знаний: введение в управление доступом к информации. 3-й. Олдерстот: издательская компания Gower
^ Hjørland, Биргер (1992). Понятие «субъект» в информатике. Журнал документации. 48 (2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

Дальнейшее чтение [ править ]

Фугман, Роберт (1993). Тематический анализ и индексация. Теоретические основы и практические советы . Франкфурт-на-Майне: Index Verlag.
Фроманн, Б. (1990). «Правила индексации: критика ментализма в теории поиска информации». Журнал документации . 46 (2): 81–101. DOI : 10,1108 / eb026855 .

[Lancaster2003a-1] FW Lancaster (2003): «Индексирование и реферирование в теории и практике». Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр. 6

[Chowdhury2004-2] а б Г. Чоудхури (2004): «Введение в современный поиск информации». Третье издание. Лондон, Фацет. ISBN 1-85604-480-7 . стр.71

[Lancaster2003b-3] FW Lancaster (2003): «Индексирование и реферирование в теории и практике». Третье издание. Лондон, Facet ISBN 1-85604-482-3 . стр.24

[Voss2007-4] Перейти ↑ Voss, Jakob (2007). «Теги, фольксономия и совместное возрождение ручного индексирования?». Материалы Международного симпозиума информатики . С. 234–254. arXiv : cs / 0701072 . Bibcode : 2007cs ........ 1072V .

[Lamb2008-5] Дж. Лэмб (2008): Индексы, созданные человеком или компьютером? Архивировано 4 июня 2014 г. в Wayback Machine [онлайн], Шеффилд, Общество индексаторов. По состоянию на 15 января 2009 г.

[Tenopir-6] C. Tenopir (1999): "Человек или автоматизация, индексация важна". Библиотечный журнал 124 (18) страниц 34-38.

[Bodoff1998-7] Д. Бодофф и А. Камбил, (1998): «Частичная координация. I. Лучшее из предварительной координации и пост-координации». Журнал Американского общества информационных наук , 49 (14), 1254-1269.

[Cleveland2001-8] DB Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и реферирование». 3-е изд. Энглвуд, библиотеки Unlimited, Inc. ISBN 1-56308-641-7 . стр.105

[Weinberg1999-9] BH Weinberg (1990): «Исчерпывающий перечень указателей: книги, журналы и полные электронные тексты; резюме семинара, представленного на ежегодной конференции ASI 1999 года». Ключевые слова , 7 (5), страницы 1+.

[Anderson1997-10] JD Anderson (1997): Рекомендации для индексов и связанных устройств поиска информации [онлайн]. Бетесда, Мэриленд, Niso Press. 10 декабря 2008 г.

[Cleveland2001b-11] DB Кливленд и А.Д. Кливленд (2001): «Введение в индексирование и реферирование». 3-е изд. Энглвуд, библиотеки Unlimited, Inc. ISBN 1-56308-641-7 . стр.106

[12] Hjørland Биргер (2011). Важность теорий познания: индексирование и поиск информации в качестве примера. Журнал Американского общества информационных наук и технологий , 62 (1,), 72-77.

[13] Hjørland, В. (1997). Поиск информации и предметное представление. Теоретико-деятельностный подход к информатике. Вестпорт и Лондон: Greenwood Press.

[14] Ørom, Андерс (2003). Организация знаний в области искусствоведения - история, переходный период и концептуальные изменения. Организация знаний. 30 (3/4), 128-143.

[15] Перейти ↑ Abrahamsen, Knut T. (2003). Индексация музыкальных жанров. Эпистемологическая перспектива. Организация знаний, 30 (3/4), 144-169.

[rowley2000-16] Роули, Дж. Э. и Фэрроу, Дж. (2000). Организация знаний: введение в управление доступом к информации. 3-й. Олдерстот: издательская компания Gower

[17] Hjørland, Биргер (1992). Понятие «субъект» в информатике. Журнал документации. 48 (2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

[1]