Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Классификация документов или категоризация документов - проблема библиотечного дела , информатики и информатики . Задача - отнести документ к одному или нескольким классам или категориям . Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном относится к области библиотечного дела, а алгоритмическая классификация документов - в области информатики и информатики. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования по классификации документов.

Классифицируемыми документами могут быть тексты, изображения, музыка и т. Д. Каждый вид документа имеет свои особые проблемы классификации. Если не указано иное, подразумевается классификация текста.

Документы можно классифицировать по тематике или другим атрибутам (например, по типу документа, автору, году печати и т. Д.). В остальной части статьи рассматривается только предметная классификация. Существует две основных философии предметной классификации документов: подход, основанный на содержании и подход, основанный на запросах.

Классификация "на основе содержания" и "на основе запроса" [ править ]

Классификация на основе содержимого - это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, к которому этот документ отнесен. Например, обычным правилом классификации в библиотеках является то, что не менее 20% содержимого книги должно относиться к тому классу, к которому книга отнесена. [1] При автоматической классификации это может быть количество раз, когда данное слово встречается в документе.

Классификация, ориентированная на запросы (или -индексирование) - это классификация, в которой ожидаемый запрос от пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «По каким дескрипторам следует искать эту сущность?» и «продумайте все возможные запросы и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230 [2] ).

Классификация, ориентированная на запросы, может быть классификацией, нацеленной на определенную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований может классифицировать / индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию, основанную на политике : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно разновидность классификации или индексации, основанной на исследованиях пользователей. Только в том случае, если применяются эмпирические данные об использовании или пользователях, следует рассматривать классификацию, ориентированную на запросы, как подход, основанный на пользователях.

Классификация против индексации [ править ]

Иногда проводится различие между отнесением документов к классам («классификация») и присвоением предметов документам (« предметное индексирование »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие не приносит результатов. «Эти терминологические различия, - пишет он, - совершенно бессмысленны и только вызывают путаницу» (Lancaster, 2003, стр. 21 [3] ). Мнение о том, что это различие чисто поверхностное, подтверждается также тем фактом, что классификация система может быть преобразована в тезаурус и наоборот (см. Aitchison, 1986, [4] 2004; [5] Broughton, 2008; [6] Riesthuis & Bliedung, 1991 [7]). Следовательно, пометка документа (например, путем присвоения документа из контролируемого словаря ) заключается в том, чтобы одновременно отнести этот документ к классу документов, проиндексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к тот же класс документов). Другими словами, присвоение метки документу - это то же самое, что присвоение его классу документов, проиндексированных под этой меткой.

Автоматическая классификация документов (ADC) [ править ]

Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов, когда некоторый внешний механизм (например, обратная связь с людьми) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), где классификация должна выполняться полностью без ссылки на внешнюю информацию, и пол-контролируемую классификации документа , [8] , где части документов , которые помечены внешним механизм. Доступно несколько программных продуктов с различными моделями лицензий. [9] [10] [11] [12] [13]

Методы [ править ]

К методам автоматической классификации документов относятся:

Приложения [ править ]

Методы классификации были применены к

  • фильтрация спама , процесс, который пытается отличить спам- сообщения электронной почты от законных писем.
  • маршрутизация электронной почты , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы [14]
  • идентификация языка , автоматическое определение языка текста
  • жанровая классификация, автоматически определяющая жанр текста [15]
  • оценка читабельности , автоматически определяющая степень читабельности текста, либо для поиска подходящих материалов для разных возрастных групп или типов читателей, либо как часть более крупной системы упрощения текста
  • анализ настроений , определение отношения докладчика или писателя к какой-либо теме или общей контекстной полярности документа.
  • классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здоровьем [16]
  • сортировка статей, отбор статей, которые имеют отношение к ручной подборке литературы, например, как это делается в качестве первого шага для создания вручную отобранных баз данных аннотаций в биологии [17]
  • обнаружение юмора , автоматически определяющее, следует ли серьезно относиться к данному короткому тексту, с вариантами использования в чат-ботах и ​​личных помощниках. [18]

См. Также [ править ]

  • Категоризация
  • Классификация (значения)
  • Обработка сложных терминов
  • Индексирование изображений на основе концепций
  • Поиск изображений на основе содержимого
  • Документ
  • Контролируемое обучение , бесконтрольное обучение
  • Поиск документов
  • Кластеризация документов
  • Поиск информации
  • Организация знаний
  • Система организации знаний
  • Классификация библиотеки
  • Машинное обучение
  • Идентификация на родном языке
  • Строковые показатели
  • Тема (документы)
  • Предметное индексирование
  • Текстовый майнинг , веб-майнинг , концептуальный майнинг

Дальнейшее чтение [ править ]

  • Фабрицио Себастьяни. Машинное обучение в автоматизированной классификации текста . ACM Computing Surveys, 34 (1): 1–47, 2002.
  • Стефан Бюттчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем . MIT Press, 2010.

Ссылки [ править ]

  1. ^ Библиотека Конгресса (2008). Руководство по тематическим рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист H 180: «Назначайте заголовки только тем темам, которые составляют не менее 20% работы».)
  2. ^ Зергель, Дагоберт (1985). Организация информации: принципы построения баз данных и поисковых систем . Орландо, Флорида: Academic Press.
  3. Перейти ↑ Lancaster, FW (2003). Индексирование и реферирование в теории и на практике. Библиотечная ассоциация, Лондон.
  4. ^ Aitchison, J. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источника терминов и структуры тезауруса». Журнал документации, Vol. 42 No. 3, pp. 160–181.
  5. ^ Aitchison, J. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, взятом из расписания Bliss Music». Бюллетень классификации блаженства, Vol. 46, стр. 20-26.
  6. Перейти ↑ Broughton, V. (2008). « Многогранная классификация как основа многогранной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блаженства (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.
  7. ^ Riesthuis, GJA, и Bliedung, Санкт(1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2. С. 109-117. Index Verlag, Франкфурт.
  8. ^ Росси, Р.Г., Лопес, А.Д. А., и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов . Обработка информации и управление, 52 (2): 217–257.
  9. ^ «Прототип интерактивной автоматической классификации документов» (PDF) . Архивировано из оригинального (PDF) на 2017-11-15 . Проверено 14 ноября 2017 .
  10. ^ Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.
  11. ^ Классификация документов - Арцил
  12. ^ ABBYY FineReader Engine 11 для Windows
  13. ^ Классификатор - Антидот
  14. ^ Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В Сергея Ниренбурге, Дугласе Аппельте, Фабио Чиравенья и Роберте Дейле, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 158-165, ACL.
  15. ^ Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления в доступе к информации, Лондон, Великобритания, стр. 54–63
  16. ^ X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здоровьем: метод кластеризации на основе встраивания слов для классификации Twitter», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. DOI : 10,1109 / SECON.2017.7925400
  17. ^ Krallinger, M; Leitner, F; Родригес-Пенагос, К; Валенсия, А (2008). «Обзор задачи извлечения аннотаций взаимодействия белок-белок в Bio Creative II» . Геномная биология . 9 Дополнение 2: S4. DOI : 10.1186 / ГБ-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .  
  18. ^ Annamoradnejad, I. (2020). Кольбер: Использование вложения предложений Берта для обнаружения юмора . Препринт arXiv arXiv: 2004.12765.

Внешние ссылки [ править ]

  • Введение в классификацию документов
  • Библиография по автоматизированной классификации текста
  • Библиография по классификации запросов
  • Страница анализа классификации текста
  • Учимся классифицировать текст - гл. 6 книги «Обработка естественного языка с помощью Python» (доступна в Интернете)
  • TechTC - репозиторий технион наборов данных категоризации текста
  • Наборы данных Дэвида Д. Льюиса
  • Набор данных BioCreative III ACT (задача классификации статей)