Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Стандарт кросс-индустрии процесс добычи данных , известный как CRISP-DM , [1] представляет собой открытый стандарт модель процесса , которая описывает общие подходы , используемые интеллектуального анализа данных экспертов. Это наиболее широко используемая аналитическая модель. [2]

В 2015 году IBM выпустила новую методологию под названием « Унифицированный метод аналитических решений для интеллектуального анализа данных / прогнозной аналитики» [3] [4] (также известный как ASUM-DM), который уточняет и расширяет CRISP-DM.

История [ править ]

CRISP-DM был задуман в 1996 году и стал проектом Европейского Союза в рамках инициативы финансирования ESPRIT в 1997 году. Проект возглавляли пять компаний: Integral Solutions Ltd (ISL) , Teradata , Daimler AG , NCR Corporation и страховая компания OHRA .

Этот основной консорциум привнес в проект различный опыт: ISL, позже приобретенный и объединенный с SPSS. Компьютерный гигант NCR Corporation произвел хранилище данных Teradata и собственное программное обеспечение для интеллектуального анализа данных. У Daimler-Benz была значительная команда по интеллектуальному анализу данных. OHRA только начинало изучать потенциальное использование интеллектуального анализа данных.

Первая версия методологии была представлена ​​на 4-м семинаре CRISP-DM SIG в Брюсселе в марте 1999 г. [5] и опубликована в качестве пошагового руководства по интеллектуальному анализу данных позже в том же году. [6]

Между 2006 и 2008 годами была сформирована CRISP-DM 2.0 SIG, и велись дискуссии об обновлении модели процесса CRISP-DM. [7] Текущее состояние этих усилий неизвестно. Однако исходный веб-сайт crisp-dm.org, цитируемый в обзорах [8] [9], и веб-сайт CRISP-DM 2.0 SIG [7] больше не работают.

Хотя многие специалисты по интеллектуальному анализу данных, не принадлежащие к IBM, используют CRISP-DM [10] [11] [12], IBM является основной корпорацией, которая в настоящее время использует модель процессов CRISP-DM. Он делает некоторые из старых документов CRISP-DM доступными для загрузки [6] и включил их в свой продукт SPSS Modeler .

Основываясь на текущих исследованиях, CRISP-DM является наиболее широко используемой формой модели интеллектуального анализа данных из-за ее различных преимуществ, которые решают существующие проблемы в отраслях интеллектуального анализа данных. Некоторые из недостатков этой модели заключаются в том, что она не выполняет действия по управлению проектами. Факт успеха CRISP-DM заключается в том, что он не зависит от отрасли, инструментов и приложений. [13]

Основные этапы [ править ]

Диаграмма процесса, показывающая взаимосвязь между различными фазами CRISP-DM

CRISP-DM разбивает процесс интеллектуального анализа данных на шесть основных этапов: [14]

  • Деловое понимание
  • Понимание данных
  • Подготовка данных
  • Моделирование
  • Оценка
  • Развертывание

Последовательность фаз не является строгой и перемещается между различными фазами, как это всегда требуется. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе этого процесса, могут вызвать новые, часто более конкретные бизнес-вопросы, и последующие процессы интеллектуального анализа данных выиграют от опыта предыдущих.

Опросы [ править ]

Опросы, проведенные на том же веб-сайте (KDNuggets) в 2002, 2004, 2007 и 2014 годах, показывают, что это была ведущая методология, которую использовали отраслевые майнеры данных, которые решили ответить на опрос. [10] [11] [12] [15] Единственным другим подходом к интеллектуальному анализу данных, названным в этих опросах, была SEMMA . Однако институт SAS четко заявляет, что SEMMA - это не методология интеллектуального анализа данных, а скорее «логическая организация функционального набора инструментов SAS Enterprise Miner». Обзор и критика моделей процессов интеллектуального анализа данных в 2009 году назвал CRISP-DM «фактическим стандартом для разработки проектов интеллектуального анализа данных и поиска знаний». [ необходима цитата ] Другие обзоры CRISP-DM и моделей процессов интеллектуального анализа данных включают обзор Кургана и Мусилека за 2006 г. [8] и сравнение CRISP-DM и SEMMA за 2008 г. Азеведо и Сантос. [9] Усилия по обновлению методологии начались в 2006 г., но по состоянию на 30 июня 2015 г. не привели к появлению новой версии, и «Специальная группа по интересам» (SIG), ответственная за веб-сайт, давно исчезла (см. Историю CRISP- DM ).

Ссылки [ править ]

  1. ^ Ширер К., Модель CRISP-DM: новый план интеллектуального анализа данных , J Data Warehousing (2000); 5: 13—22.
  2. ^ Что ИТ-специалистам необходимо знать о процессе интеллектуального анализа данных Опубликовано Forbes, 29 июля 2015 г., получено 24 июня 2018 г.
  3. ^ Вы видели ASUM-DM? , Джейсон Хаффар, 16 октября 2015 г., SPSS Predictive Analytics, IBM. Архивировано 8 марта 2016 г. на Wayback Machine.
  4. ^ Единый метод аналитических решений - реализации с принципами гибкой разработки, опубликованный IBM, 1 марта 2016 г., получено 5 октября 2018 г.
  5. Пит Чепмен (1999); Руководство пользователя CRISP-DM .
  6. ^ а б Пит Чепмен, Джулиан Клинтон, Рэнди Кербер, Томас Хабаза, Томас Рейнарц, Колин Ширер и Рюдигер Вирт (2000); CRISP-DM 1.0 Пошаговые инструкции по интеллектуальному анализу данных .
  7. ^ a b Колин Ширер (2006); Проведен первый семинар по CRISP-DM 2.0
  8. ^ a b Лукаш Курган и Петр Мусилек (2006); Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных . Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, Нью-Йорк, США doi: 10.1017 / S0269888906000737.
  9. ^ a b Азеведо, А. и Сантос, MF (2008); KDD, SEMMA и CRISP-DM: параллельный обзор . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
  10. ^ a b Григорий Пятецкий-Шапиро (2002); Опрос по методологии KDnuggets
  11. ^ a b Григорий Пятецкий-Шапиро (2004); Опрос по методологии KDnuggets
  12. ^ a b Григорий Пятецкий-Шапиро (2007); Опрос по методологии KDnuggets
  13. ^ Марискал, Г., Марбан, О., Фернандес, С. «Обзор моделей и методологий процесса интеллектуального анализа данных и обнаружения знаний». Обзор инженерии знаний. DOI : 10.1017 / S0269888910000032 .CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Харпер, Гэвин; Стивен Д. Пикетт (август 2006 г.). «Методы добычи данных HTS» . Открытие наркотиков сегодня . 11 (15–16): 694–699. DOI : 10.1016 / j.drudis.2006.06.006 . PMID 16846796 . 
  15. ^ Григорий Пятецкий-Шапиро (2014); Опрос по методологии KDnuggets