Классификация документов


Классификация документов или категоризация документов является проблемой в библиотечном деле , информатике и информатике . Задача состоит в том, чтобы отнести документ к одному или нескольким классам или категориям . Это можно сделать «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном была прерогативой библиотечного дела, тогда как алгоритмическая классификация документов в основном занималась информатикой и информатикой. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования по классификации документов.

Документами, подлежащими классификации, могут быть тексты, изображения, музыка и т. д. Каждый вид документов имеет свои особые проблемы классификации. Если не указано иное, подразумеваетсяклассификация текста .

Документы можно классифицировать по их тематике или по другим признакам (например, типу документа, автору, году издания и т. д.). В оставшейся части статьи рассматривается только предметная классификация. Существует две основные философии предметной классификации документов: подход, основанный на содержании, и подход, основанный на запросах.

Классификация на основе содержания — это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, к которому относится документ. Например, общепринятым правилом классификации в библиотеках является то, что не менее 20% содержания книги должно относиться к классу, к которому книга отнесена. [1] В автоматической классификации это может быть количество раз, когда данное слово появляется в документе.

Классификация, ориентированная на запросы (или индексация), — это классификация, при которой ожидаемый запрос пользователей влияет на классификацию документов. Классификатор задается вопросом: «По каким дескрипторам следует найти эту сущность?» и «подумайте обо всех возможных запросах и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230 [2] ).

Классификация, ориентированная на запрос, может быть классификацией, ориентированной на конкретную аудиторию или группу пользователей. Например, библиотека или база данных феминистских исследований могут классифицировать/индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию на основе политик : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно своего рода классификация или индексирование, основанное на исследованиях пользователей. Только если применяются эмпирические данные об использовании или пользователях, классификацию, ориентированную на запросы, следует рассматривать как подход, основанный на пользователях.