Классификация данных (бизнес-аналитика)


Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В бизнес - аналитики , классификация данных имеет тесные связи с кластеризации данных , но где кластеризация данных описательный , классификации данных является предсказанием . [1] [2] По сути, классификация данных состоит из использования переменных с известными значениями для прогнозирования неизвестных или будущих значений других переменных. Его можно использовать, например, в прямом маркетинге , обнаружении страхового мошенничества или медицинской диагностике . [2]

Первым шагом в выполнении классификации данных является кластеризация набора данных, используемого для обучения категорий, для создания желаемого количества категорий. Затем для категорий используется алгоритм , называемый классификатором , и для каждой из них создается описательная модель. Эти модели затем можно использовать для категоризации новых элементов в созданной системе классификации. [1]

Эффективность

Согласно Гольфарелли и Рицци, это меры эффективности классификатора: [1]

  • Прогнозная точность : насколько хорошо он прогнозирует категории для новых наблюдений?
  • Скорость : какова вычислительная стоимость использования классификатора?
  • Устойчивость : насколько хорошо созданные модели работают при низком качестве данных ?
  • Масштабируемость : эффективно ли работает классификатор с большими объемами данных?
  • Интерпретируемость : понятны ли результаты пользователям?

Типичными примерами ввода для классификации данных могут быть такие переменные, как демографические данные, информация об образе жизни или экономическое поведение.

Вызовы

При работе с классификацией данных возникает несколько проблем. Одна, в частности, заключается в том, что всем, кто использует категории, например, клиентов или клиентов, необходимо выполнять моделирование в итеративном процессе. Это сделано для того, чтобы изменения в характеристиках групп клиентов не остались незамеченными, что сделает существующие категории устаревшими и устаревшими, и никто этого не заметит.

Это может иметь особое значение для страховых или банковских компаний, где обнаружение мошенничества чрезвычайно важно. Новые модели мошенничества могут остаться незамеченными, если не будут разработаны и внедрены методы отслеживания этих изменений и предупреждения об изменении, исчезновении или появлении новых категорий.

использованная литература

  1. ^ a b c Гольфарелли, М. и Рицци, С. (2009). Дизайн хранилища данных: современные принципы и методологии. Макгроу-Хилл Осберн. ISBN  0-07-161039-1
  2. ^ а б Кимбалл, Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Вайли. ISBN 0-471-25547-5