Классификация документов

Классификация документов или категоризация документов - проблема библиотечного дела , информатики и информатики . Задача - отнести документ к одному или нескольким классам или категориям . Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном относится к области библиотечного дела, а алгоритмическая классификация документов - в области информатики и информатики. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования по классификации документов.

Классифицируемыми документами могут быть тексты, изображения, музыка и т. Д. Каждый вид документа имеет свои особые проблемы классификации. Если не указано иное, подразумевается классификация текста.

Документы можно классифицировать по тематике или другим атрибутам (например, по типу документа, автору, году печати и т. Д.). В остальной части статьи рассматривается только предметная классификация. Существует две основных философии предметной классификации документов: подход, основанный на содержании и подход, основанный на запросах.

Классификация "на основе содержания" и "на основе запроса" [ править ]

Классификация на основе содержимого - это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, к которому этот документ отнесен. Например, обычным правилом классификации в библиотеках является то, что не менее 20% содержимого книги должно относиться к тому классу, к которому книга отнесена. ^[1] При автоматической классификации это может быть количество раз, когда данное слово встречается в документе.

Классификация, ориентированная на запросы (или -индексирование) - это классификация, в которой ожидаемый запрос от пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «По каким дескрипторам следует искать эту сущность?» и «продумайте все возможные запросы и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230 ^[2] ).

Классификация, ориентированная на запросы, может быть классификацией, нацеленной на определенную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований может классифицировать / индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию, основанную на политике : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно разновидность классификации или индексации, основанной на исследованиях пользователей. Только в том случае, если применяются эмпирические данные об использовании или пользователях, следует рассматривать классификацию, ориентированную на запросы, как подход, основанный на пользователях.

Классификация против индексации [ править ]

Иногда проводится различие между отнесением документов к классам («классификация») и присвоением предметов документам (« предметное индексирование »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие не приносит результатов. «Эти терминологические различия, - пишет он, - совершенно бессмысленны и только вызывают путаницу» (Lancaster, 2003, стр. 21 ^[3] ). Мнение о том, что это различие чисто поверхностное, подтверждается также тем фактом, что классификация система может быть преобразована в тезаурус и наоборот (см. Aitchison, 1986, ^[4] 2004; ^[5] Broughton, 2008; ^[6] Riesthuis & Bliedung, 1991 ^[7]). Следовательно, пометка документа (например, путем присвоения документа из контролируемого словаря ) заключается в том, чтобы одновременно отнести этот документ к классу документов, проиндексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к тот же класс документов). Другими словами, присвоение метки документу - это то же самое, что присвоение его классу документов, проиндексированных под этой меткой.

Автоматическая классификация документов (ADC) [ править ]

Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов, когда некоторый внешний механизм (например, обратная связь с людьми) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), где классификация должна выполняться полностью без ссылки на внешнюю информацию, и пол-контролируемую классификации документа , ^[8] , где части документов , которые помечены внешним механизм. Доступно несколько программных продуктов с различными моделями лицензий. ^[9]^[10]^[11]^[12]^[13]

Методы [ править ]

К методам автоматической классификации документов относятся:

Максимизация ожиданий (EM)
Наивный байесовский классификатор
tf – idf
Мгновенно обученные нейронные сети
Скрытое семантическое индексирование
Опорные векторные машины (SVM)
Искусственная нейронная сеть
Алгоритмы K-ближайшего соседа
Деревья решений, такие как ID3 или C4.5
Концептуальный майнинг
Грубый классификатор на основе множеств
Классификатор на основе мягкого набора
Множественное обучение
Подходы к обработке естественного языка

Приложения [ править ]

Методы классификации были применены к

фильтрация спама , процесс, который пытается отличить спам- сообщения электронной почты от законных писем.
маршрутизация электронной почты , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы ^[14]
идентификация языка , автоматическое определение языка текста
жанровая классификация, автоматически определяющая жанр текста ^[15]
оценка читабельности , автоматически определяющая степень читабельности текста, либо для поиска подходящих материалов для разных возрастных групп или типов читателей, либо как часть более крупной системы упрощения текста
анализ настроений , определение отношения докладчика или писателя к какой-либо теме или общей контекстной полярности документа.
классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здоровьем ^[16]
сортировка статей, отбор статей, которые имеют отношение к ручной подборке литературы, например, как это делается в качестве первого шага для создания вручную отобранных баз данных аннотаций в биологии ^[17]
обнаружение юмора , автоматически определяющее, следует ли серьезно относиться к данному короткому тексту, с вариантами использования в чат-ботах и личных помощниках. ^[18]

См. Также [ править ]

Категоризация
Классификация (значения)
Обработка сложных терминов
Индексирование изображений на основе концепций
Поиск изображений на основе содержимого
Документ
Контролируемое обучение , бесконтрольное обучение
Поиск документов
Кластеризация документов
Поиск информации
Организация знаний
Система организации знаний
Классификация библиотеки
Машинное обучение
Идентификация на родном языке
Строковые показатели
Тема (документы)
Предметное индексирование
Текстовый майнинг , веб-майнинг , концептуальный майнинг

Дальнейшее чтение [ править ]

Фабрицио Себастьяни. Машинное обучение в автоматизированной классификации текста . ACM Computing Surveys, 34 (1): 1–47, 2002.
Стефан Бюттчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем . MIT Press, 2010.

Ссылки [ править ]

^ Библиотека Конгресса (2008). Руководство по тематическим рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист H 180: «Назначайте заголовки только тем темам, которые составляют не менее 20% работы».)
^ Зергель, Дагоберт (1985). Организация информации: принципы построения баз данных и поисковых систем . Орландо, Флорида: Academic Press.
Перейти ↑ Lancaster, FW (2003). Индексирование и реферирование в теории и на практике. Библиотечная ассоциация, Лондон.
^ Aitchison, J. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источника терминов и структуры тезауруса». Журнал документации, Vol. 42 No. 3, pp. 160–181.
^ Aitchison, J. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, взятом из расписания Bliss Music». Бюллетень классификации блаженства, Vol. 46, стр. 20-26.
Перейти ↑ Broughton, V. (2008). « Многогранная классификация как основа многогранной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блаженства (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.
^ Riesthuis, GJA, и Bliedung, Санкт(1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2. С. 109-117. Index Verlag, Франкфурт.
^ Росси, Р.Г., Лопес, А.Д. А., и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов . Обработка информации и управление, 52 (2): 217–257.
^ «Прототип интерактивной автоматической классификации документов» (PDF) . Архивировано из оригинального (PDF) на 2017-11-15 . Проверено 14 ноября 2017 .
^ Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.
^ Классификация документов - Арцил
^ ABBYY FineReader Engine 11 для Windows
^ Классификатор - Антидот
^ Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В Сергея Ниренбурге, Дугласе Аппельте, Фабио Чиравенья и Роберте Дейле, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 158-165, ACL.
^ Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления в доступе к информации, Лондон, Великобритания, стр. 54–63
^ X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здоровьем: метод кластеризации на основе встраивания слов для классификации Twitter», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. DOI : 10,1109 / SECON.2017.7925400
^ Krallinger, M; Leitner, F; Родригес-Пенагос, К; Валенсия, А (2008). «Обзор задачи извлечения аннотаций взаимодействия белок-белок в Bio Creative II» . Геномная биология . 9 Дополнение 2: S4. DOI : 10.1186 / ГБ-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .
^ Annamoradnejad, I. (2020). Кольбер: Использование вложения предложений Берта для обнаружения юмора . Препринт arXiv arXiv: 2004.12765.

Внешние ссылки [ править ]

Введение в классификацию документов
Библиография по автоматизированной классификации текста
Библиография по классификации запросов
Страница анализа классификации текста
Учимся классифицировать текст - гл. 6 книги «Обработка естественного языка с помощью Python» (доступна в Интернете)
TechTC - репозиторий технион наборов данных категоризации текста
Наборы данных Дэвида Д. Льюиса
Набор данных BioCreative III ACT (задача классификации статей)

[1] Библиотека Конгресса (2008). Руководство по тематическим рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист H 180: «Назначайте заголовки только тем темам, которые составляют не менее 20% работы».)

[2] Зергель, Дагоберт (1985). Организация информации: принципы построения баз данных и поисковых систем . Орландо, Флорида: Academic Press.

[3] Перейти ↑ Lancaster, FW (2003). Индексирование и реферирование в теории и на практике. Библиотечная ассоциация, Лондон.

[4] Aitchison, J. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источника терминов и структуры тезауруса». Журнал документации, Vol. 42 No. 3, pp. 160–181.

[5] Aitchison, J. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, взятом из расписания Bliss Music». Бюллетень классификации блаженства, Vol. 46, стр. 20-26.

[6] Перейти ↑ Broughton, V. (2008). « Многогранная классификация как основа многогранной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блаженства (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.

[7] Riesthuis, GJA, и Bliedung, Санкт(1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2. С. 109-117. Index Verlag, Франкфурт.

[8] Росси, Р.Г., Лопес, А.Д. А., и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов . Обработка информации и управление, 52 (2): 217–257.

[9] «Прототип интерактивной автоматической классификации документов» (PDF) . Архивировано из оригинального (PDF) на 2017-11-15 . Проверено 14 ноября 2017 .

[10] Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.

[11] Классификация документов - Арцил

[12] ABBYY FineReader Engine 11 для Windows

[13] Классификатор - Антидот

[14] Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В Сергея Ниренбурге, Дугласе Аппельте, Фабио Чиравенья и Роберте Дейле, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 158-165, ACL.

[15] Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления в доступе к информации, Лондон, Великобритания, стр. 54–63

[16] X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здоровьем: метод кластеризации на основе встраивания слов для классификации Twitter», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. DOI : 10,1109 / SECON.2017.7925400

[:0-17] Krallinger, M; Leitner, F; Родригес-Пенагос, К; Валенсия, А (2008). «Обзор задачи извлечения аннотаций взаимодействия белок-белок в Bio Creative II» . Геномная биология . 9 Дополнение 2: S4. DOI : 10.1186 / ГБ-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .

[18] Annamoradnejad, I. (2020). Кольбер: Использование вложения предложений Берта для обнаружения юмора . Препринт arXiv arXiv: 2004.12765.

[1]