Классификация документов или категоризация документов - проблема библиотечного дела , информатики и информатики . Задача - отнести документ к одному или нескольким классам или категориям . Это может быть сделано «вручную» (или «интеллектуально») или алгоритмически . Интеллектуальная классификация документов в основном относится к области библиотечного дела, а алгоритмическая классификация документов - в области информатики и информатики. Однако проблемы частично совпадают, и поэтому проводятся междисциплинарные исследования по классификации документов.
Классифицируемыми документами могут быть тексты, изображения, музыка и т. Д. Каждый вид документа имеет свои особые проблемы классификации. Если не указано иное, подразумевается классификация текста.
Документы можно классифицировать по тематике или другим атрибутам (например, по типу документа, автору, году печати и т. Д.). В остальной части статьи рассматривается только предметная классификация. Существует две основных философии предметной классификации документов: подход, основанный на содержании и подход, основанный на запросах.
Классификация "на основе содержания" и "на основе запроса" [ править ]
Классификация на основе содержимого - это классификация, в которой вес, присвоенный конкретным темам в документе, определяет класс, к которому этот документ отнесен. Например, обычным правилом классификации в библиотеках является то, что не менее 20% содержимого книги должно относиться к тому классу, к которому книга отнесена. [1] При автоматической классификации это может быть количество раз, когда данное слово встречается в документе.
Классификация, ориентированная на запросы (или -индексирование) - это классификация, в которой ожидаемый запрос от пользователей влияет на то, как классифицируются документы. Классификатор спрашивает себя: «По каким дескрипторам следует искать эту сущность?» и «продумайте все возможные запросы и решите, для каких из них актуальна данная сущность» (Soergel, 1985, стр. 230 [2] ).
Классификация, ориентированная на запросы, может быть классификацией, нацеленной на определенную аудиторию или группу пользователей. Например, библиотека или база данных для феминистских исследований может классифицировать / индексировать документы иначе, чем историческая библиотека. Однако, вероятно, лучше понимать классификацию, ориентированную на запросы, как классификацию, основанную на политике : классификация выполняется в соответствии с некоторыми идеалами и отражает цель библиотеки или базы данных, выполняющей классификацию. Таким образом, это не обязательно разновидность классификации или индексации, основанной на исследованиях пользователей. Только в том случае, если применяются эмпирические данные об использовании или пользователях, следует рассматривать классификацию, ориентированную на запросы, как подход, основанный на пользователях.
Классификация против индексации [ править ]
Иногда проводится различие между отнесением документов к классам («классификация») и присвоением предметов документам (« предметное индексирование »), но, как утверждал Фредерик Уилфрид Ланкастер , это различие не приносит результатов. «Эти терминологические различия, - пишет он, - совершенно бессмысленны и только вызывают путаницу» (Lancaster, 2003, стр. 21 [3] ). Мнение о том, что это различие чисто поверхностное, подтверждается также тем фактом, что классификация система может быть преобразована в тезаурус и наоборот (см. Aitchison, 1986, [4] 2004; [5] Broughton, 2008; [6] Riesthuis & Bliedung, 1991 [7]). Следовательно, пометка документа (например, путем присвоения документа из контролируемого словаря ) заключается в том, чтобы одновременно отнести этот документ к классу документов, проиндексированных этим термином (все документы, проиндексированные или классифицированные как X, принадлежат к тот же класс документов). Другими словами, присвоение метки документу - это то же самое, что присвоение его классу документов, проиндексированных под этой меткой.
Автоматическая классификация документов (ADC) [ править ]
Задачи автоматической классификации документов можно разделить на три вида: контролируемая классификация документов, когда некоторый внешний механизм (например, обратная связь с людьми) предоставляет информацию о правильной классификации документов, неконтролируемая классификация документов (также известная как кластеризация документов ), где классификация должна выполняться полностью без ссылки на внешнюю информацию, и пол-контролируемую классификации документа , [8] , где части документов , которые помечены внешним механизм. Доступно несколько программных продуктов с различными моделями лицензий. [9] [10] [11] [12] [13]
Методы [ править ]
К методам автоматической классификации документов относятся:
- Максимизация ожиданий (EM)
- Наивный байесовский классификатор
- tf – idf
- Мгновенно обученные нейронные сети
- Скрытое семантическое индексирование
- Опорные векторные машины (SVM)
- Искусственная нейронная сеть
- Алгоритмы K-ближайшего соседа
- Деревья решений, такие как ID3 или C4.5
- Концептуальный майнинг
- Грубый классификатор на основе множеств
- Классификатор на основе мягкого набора
- Множественное обучение
- Подходы к обработке естественного языка
Приложения [ править ]
Методы классификации были применены к
- фильтрация спама , процесс, который пытается отличить спам- сообщения электронной почты от законных писем.
- маршрутизация электронной почты , отправка электронного письма, отправленного на общий адрес, на определенный адрес или почтовый ящик в зависимости от темы [14]
- идентификация языка , автоматическое определение языка текста
- жанровая классификация, автоматически определяющая жанр текста [15]
- оценка читабельности , автоматически определяющая степень читабельности текста, либо для поиска подходящих материалов для разных возрастных групп или типов читателей, либо как часть более крупной системы упрощения текста
- анализ настроений , определение отношения докладчика или писателя к какой-либо теме или общей контекстной полярности документа.
- классификация, связанная со здоровьем, с использованием социальных сетей в надзоре за общественным здоровьем [16]
- сортировка статей, отбор статей, которые имеют отношение к ручной подборке литературы, например, как это делается в качестве первого шага для создания вручную отобранных баз данных аннотаций в биологии [17]
- обнаружение юмора , автоматически определяющее, следует ли серьезно относиться к данному короткому тексту, с вариантами использования в чат-ботах и личных помощниках. [18]
См. Также [ править ]
- Категоризация
- Классификация (значения)
- Обработка сложных терминов
- Индексирование изображений на основе концепций
- Поиск изображений на основе содержимого
- Документ
- Контролируемое обучение , бесконтрольное обучение
- Поиск документов
- Кластеризация документов
- Поиск информации
- Организация знаний
- Система организации знаний
- Классификация библиотеки
- Машинное обучение
- Идентификация на родном языке
- Строковые показатели
- Тема (документы)
- Предметное индексирование
- Текстовый майнинг , веб-майнинг , концептуальный майнинг
Дальнейшее чтение [ править ]
- Фабрицио Себастьяни. Машинное обучение в автоматизированной классификации текста . ACM Computing Surveys, 34 (1): 1–47, 2002.
- Стефан Бюттчер, Чарльз Л.А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем . MIT Press, 2010.
Ссылки [ править ]
- ^ Библиотека Конгресса (2008). Руководство по тематическим рубрикам. Вашингтон, округ Колумбия: Библиотека Конгресса, Отдел политики и стандартов. (Лист H 180: «Назначайте заголовки только тем темам, которые составляют не менее 20% работы».)
- ^ Зергель, Дагоберт (1985). Организация информации: принципы построения баз данных и поисковых систем . Орландо, Флорида: Academic Press.
- Перейти ↑ Lancaster, FW (2003). Индексирование и реферирование в теории и на практике. Библиотечная ассоциация, Лондон.
- ^ Aitchison, J. (1986). «Классификация как источник тезауруса: Библиографическая классификация HE Bliss как источника терминов и структуры тезауруса». Журнал документации, Vol. 42 No. 3, pp. 160–181.
- ^ Aitchison, J. (2004). «Тезаурусы из BC2: проблемы и возможности, раскрытые в экспериментальном тезаурусе, взятом из расписания Bliss Music». Бюллетень классификации блаженства, Vol. 46, стр. 20-26.
- Перейти ↑ Broughton, V. (2008). « Многогранная классификация как основа многогранной терминологии: преобразование классифицированной структуры в формат тезауруса в Библиографической классификации Блаженства (2-е изд.).]» Axiomathes, Vol. 18 №2, стр. 193-210.
- ^ Riesthuis, GJA, и Bliedung, Санкт(1991). «Тезаурификация УДК». Инструменты для организации знаний и человеческого интерфейса, Vol. 2. С. 109-117. Index Verlag, Франкфурт.
- ^ Росси, Р.Г., Лопес, А.Д. А., и Резенде, С.О. (2016). Оптимизация и распространение меток в двудольных гетерогенных сетях для улучшения трансдуктивной классификации текстов . Обработка информации и управление, 52 (2): 217–257.
- ^ «Прототип интерактивной автоматической классификации документов» (PDF) . Архивировано из оригинального (PDF) на 2017-11-15 . Проверено 14 ноября 2017 .
- ^ Прототип интерактивной автоматической классификации документов. Архивировано 24 апреля 2015 г. в Wayback Machine.
- ^ Классификация документов - Арцил
- ^ ABBYY FineReader Engine 11 для Windows
- ^ Классификатор - Антидот
- ^ Стефан Буземанн, Свен Шмайер и Роман Г. Аренс (2000). Классификация сообщений в колл-центре . В Сергея Ниренбурге, Дугласе Аппельте, Фабио Чиравенья и Роберте Дейле, ред., Proc. 6-я конференция по прикладной обработке естественного языка. (ANLP'00), стр. 158-165, ACL.
- ^ Сантини, Марина; Россо, Марк (2008), Тестирование приложения с поддержкой жанра: предварительная оценка (PDF) , Симпозиум BCS IRSG: Будущие направления в доступе к информации, Лондон, Великобритания, стр. 54–63
- ^ X. Дай, М. Бикдаш и Б. Мейер, «От социальных сетей к надзору за общественным здоровьем: метод кластеризации на основе встраивания слов для классификации Twitter», SoutheastCon 2017, Шарлотта, Северная Каролина, 2017, стр. DOI : 10,1109 / SECON.2017.7925400
- ^ Krallinger, M; Leitner, F; Родригес-Пенагос, К; Валенсия, А (2008). «Обзор задачи извлечения аннотаций взаимодействия белок-белок в Bio Creative II» . Геномная биология . 9 Дополнение 2: S4. DOI : 10.1186 / ГБ-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .
- ^ Annamoradnejad, I. (2020). Кольбер: Использование вложения предложений Берта для обнаружения юмора . Препринт arXiv arXiv: 2004.12765.
Внешние ссылки [ править ]
- Введение в классификацию документов
- Библиография по автоматизированной классификации текста
- Библиография по классификации запросов
- Страница анализа классификации текста
- Учимся классифицировать текст - гл. 6 книги «Обработка естественного языка с помощью Python» (доступна в Интернете)
- TechTC - репозиторий технион наборов данных категоризации текста
- Наборы данных Дэвида Д. Льюиса
- Набор данных BioCreative III ACT (задача классификации статей)