Классификация данных (бизнес-аналитика)

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: бизнес-аналитика «Классификация данных» - новости · газеты · книги · ученый · JSTOR ( апрель 2017 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

В бизнес - аналитики , классификация данных имеет тесные связи с кластеризации данных , но где кластеризация данных описательный , классификации данных является предсказанием . ^[1]^[2] По сути, классификация данных состоит из использования переменных с известными значениями для прогнозирования неизвестных или будущих значений других переменных. Его можно использовать, например, в прямом маркетинге , обнаружении страхового мошенничества или медицинской диагностике . ^[2]

Первым шагом в выполнении классификации данных является кластеризация набора данных, используемого для обучения категорий, для создания желаемого количества категорий. Затем для категорий используется алгоритм , называемый классификатором , и для каждой из них создается описательная модель. Эти модели затем можно использовать для категоризации новых элементов в созданной системе классификации. ^[1]

Эффективность

Согласно Гольфарелли и Рицци, это меры эффективности классификатора: ^[1]

Прогнозная точность : насколько хорошо он прогнозирует категории для новых наблюдений?
Скорость : какова вычислительная стоимость использования классификатора?
Устойчивость : насколько хорошо созданные модели работают при низком качестве данных ?
Масштабируемость : эффективно ли работает классификатор с большими объемами данных?
Интерпретируемость : понятны ли результаты пользователям?

Типичными примерами ввода для классификации данных могут быть такие переменные, как демографические данные, информация об образе жизни или экономическое поведение.

Вызовы

При работе с классификацией данных возникает несколько проблем. Одна, в частности, заключается в том, что всем, кто использует категории, например, клиентов или клиентов, необходимо выполнять моделирование в итеративном процессе. Это сделано для того, чтобы изменения в характеристиках групп клиентов не остались незамеченными, что сделает существующие категории устаревшими и устаревшими, и никто этого не заметит.

Это может иметь особое значение для страховых или банковских компаний, где обнаружение мошенничества чрезвычайно важно. Новые модели мошенничества могут остаться незамеченными, если не будут разработаны и внедрены методы отслеживания этих изменений и предупреждения об изменении, исчезновении или появлении новых категорий.

использованная литература

^ ^a ^b ^c Гольфарелли, М. и Рицци, С. (2009). Дизайн хранилища данных: современные принципы и методологии. Макгроу-Хилл Осберн. ISBN 0-07-161039-1
^ ^а ^б Кимбалл, Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Вайли. ISBN 0-471-25547-5

[rizzi-1] Гольфарелли, М. и Рицци, С. (2009). Дизайн хранилища данных: современные принципы и методологии. Макгроу-Хилл Осберн. ISBN 0-07-161039-1

[kimball-2] а ^б Кимбалл, Р. и др. (2008). Набор инструментов для жизненного цикла хранилища данных. (2. Ред.) . Вайли. ISBN 0-471-25547-5

[1]