Кластеризация документов (или кластеризация текста ) - это применение кластерного анализа к текстовым документам. Он имеет приложения в автоматическом организации документооборота, тема добычи и быстрого поиска информации или фильтрации.
Обзор
Кластеризация документов включает использование дескрипторов и извлечение дескрипторов. Дескрипторы - это наборы слов, которые описывают содержимое внутри кластера. Кластеризация документов обычно считается централизованным процессом. Примеры кластеризации документов включают кластеризацию веб-документов для пользователей поиска.
Применение кластеризации документов можно разделить на два типа: онлайн и офлайн. Онлайн-приложения обычно ограничены проблемами эффективности по сравнению с офлайн-приложениями. Кластеризация текста может использоваться для различных задач, таких как группировка похожих документов (новости, твиты и т. Д.) И анализ отзывов клиентов / сотрудников, обнаружение значимых неявных тем во всех документах.
В общем, есть два общих алгоритма. Первый - это иерархический алгоритм, который включает одиночную ссылку, полную связь, среднее значение по группе и метод Уорда. Путем агрегирования или разделения документы могут быть сгруппированы в иерархическую структуру, удобную для просмотра. Однако такой алгоритм обычно страдает проблемами эффективности. Другой алгоритм разработан с использованием алгоритма K-средних и его вариантов. Как правило, иерархические алгоритмы предоставляют более подробную информацию для детального анализа, в то время как алгоритмы, основанные на вариантах алгоритма K-средних , более эффективны и предоставляют достаточно информации для большинства целей. [1] : Глава 14
Эти алгоритмы можно далее классифицировать как алгоритмы жесткой или мягкой кластеризации. Жесткая кластеризация вычисляет жесткое назначение - каждый документ является членом ровно одного кластера. Назначение алгоритмов мягкой кластеризации мягкое - назначение документа - это распределение по всем кластерам. В мягком назначении документ имеет дробное членство в нескольких кластерах. [1] : 499 Методы уменьшения размерности можно рассматривать как подтип мягкой кластеризации; для документов они включают скрытое семантическое индексирование ( декомпозиция усеченного единственного числа на гистограммах терминов) [2] и тематические модели .
Другие алгоритмы включают кластеризацию на основе графов, кластеризацию с поддержкой онтологии и кластеризацию с учетом порядка.
Учитывая кластеризацию, может быть полезно автоматически получать понятные человеку метки для кластеров. Для этого существуют различные методы .
Кластеризация в поисковых системах
Система веб-поиска часто возвращает тысячи страниц в ответ на широкий запрос, что затрудняет просмотр пользователями или поиск соответствующей информации. Методы кластеризации можно использовать для автоматической группировки полученных документов в список значимых категорий.
Процедуры
На практике кластеризация документов часто включает следующие шаги:
1. Токенизация
Токенизация - это процесс разбора текстовых данных на более мелкие единицы (токены), такие как слова и фразы. Обычно используемые способы включают в себя токенизации сумка-о-модели слов и N-граммовую модель .
2. Стебли и лемматизация.
Различные токены могут нести аналогичную информацию (например, токенизация и токенизация). И мы можем избежать повторного вычисления аналогичной информации, приведя все токены к их базовой форме, используя различные словари определения корней и лемматизации.
3. Удаление стоп-слов и знаков препинания.
Некоторые токены менее важны, чем другие. Например, такие общие слова, как «the», могут быть не очень полезны для выявления основных характеристик текста. Поэтому обычно рекомендуется удалить стоп-слова и знаки препинания перед дальнейшим анализом.
4. Вычисление частот терминов или tf-idf
После предварительной обработки текстовых данных мы можем приступить к созданию функций. Для кластеризации документов одним из наиболее распространенных способов создания функций для документа является вычисление частотности терминов всех его токенов. Хотя эти частоты не идеальны, они обычно могут дать некоторые подсказки о теме документа. И иногда также полезно взвешивать частоты терминов по обратным частотам документа. См. Tf-idf для подробного обсуждения.
5. Кластеризация
Затем мы можем сгруппировать различные документы на основе созданных нами функций. См. Раздел алгоритмов в кластерном анализе для получения информации о различных типах методов кластеризации.
6. Оценка и визуализация
Наконец, модели кластеризации можно оценить с помощью различных показателей. И иногда полезно визуализировать результаты, нанося кластеры в низко (двумерное) пространство. Рассматривайте многомерное масштабирование как возможный подход.
Кластеризация против классификации
Алгоритмы кластеризации в вычислительном анализе текста группируют документы в набор текстов, которые называются подмножествами или кластерами, где цель алгоритма - создать внутренне согласованные кластеры, отличные друг от друга. [3] С другой стороны, классификация - это форма обучения с учителем, при которой характеристики документов используются для прогнозирования «типа» документов.
Смотрите также
Рекомендации
- ^ a b Мэннинг, Крис и Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press. Кембридж, Массачусетс: май 1999 г.
- ^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf
- ^ «Введение в поиск информации» . nlp.stanford.edu . п. 349 . Проверено 3 мая 2016 .
Библиография
- Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Плоская кластеризация во введении в поиск информации. Издательство Кембриджского университета. 2008 г.
- Николас О. Эндрюс и Эдвард А. Фокс, Последние разработки в области кластеризации документов, 16 октября 2007 г. [1]
- Клаудио Карпинето, Станислав Осинский, Джованни Романо, Давид Вайс. Обзор механизмов веб-кластеризации. ACM Computing Surveys, том 41, выпуск 3 (июль 2009 г.), статья № 17, ISSN 0360-0300
- Вуи Ли Чанг, Кай Мэн Тай и Чи Пенг Лим, Новая развивающаяся древовидная модель с локальным переобучением для кластеризации и визуализации документов, Письма о нейронной обработке, DOI: 10.1007 / s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3