Эта статья требует дополнительных ссылок для проверки . ( апрель 2017 г. ) |
В бизнес - аналитики , классификация данных имеет тесные связи с кластеризации данных , но где кластеризация данных описательный , классификации данных является предсказанием . [1] [2] По сути, классификация данных состоит из использования переменных с известными значениями для прогнозирования неизвестных или будущих значений других переменных. Его можно использовать, например, в прямом маркетинге , обнаружении страхового мошенничества или медицинской диагностике . [2]
Первым шагом в выполнении классификации данных является кластеризация набора данных, используемого для обучения категорий, для создания желаемого количества категорий. Затем для категорий используется алгоритм , называемый классификатором , и для каждой из них создается описательная модель. Эти модели затем можно использовать для категоризации новых элементов в созданной системе классификации. [1]
Согласно Гольфарелли и Рицци, это меры эффективности классификатора: [1]
Типичными примерами ввода для классификации данных могут быть такие переменные, как демографические данные, информация об образе жизни или экономическое поведение.
При работе с классификацией данных возникает несколько проблем. Одна, в частности, заключается в том, что всем, кто использует категории, например, клиентов или клиентов, необходимо выполнять моделирование в итеративном процессе. Это сделано для того, чтобы изменения в характеристиках групп клиентов не остались незамеченными, что сделает существующие категории устаревшими и устаревшими, и никто этого не заметит.
Это может иметь особое значение для страховых или банковских компаний, где обнаружение мошенничества чрезвычайно важно. Новые модели мошенничества могут остаться незамеченными, если не будут разработаны и внедрены методы отслеживания этих изменений и предупреждения об изменении, исчезновении или появлении новых категорий.