Межотраслевой стандартный процесс интеллектуального анализа данных

Стандарт кросс-индустрии процесс добычи данных , известный как CRISP-DM , ^[1] представляет собой открытый стандарт модель процесса , которая описывает общие подходы , используемые интеллектуального анализа данных экспертов. Это наиболее широко используемая аналитическая модель. ^[2]

В 2015 году IBM выпустила новую методологию под названием « Унифицированный метод аналитических решений для интеллектуального анализа данных / прогнозной аналитики» ^[3]^[4] (также известный как ASUM-DM), который уточняет и расширяет CRISP-DM.

История [ править ]

CRISP-DM был задуман в 1996 году и стал проектом Европейского Союза в рамках инициативы финансирования ESPRIT в 1997 году. Проект возглавляли пять компаний: Integral Solutions Ltd (ISL) , Teradata , Daimler AG , NCR Corporation и страховая компания OHRA .

Этот основной консорциум привнес в проект различный опыт: ISL, позже приобретенный и объединенный с SPSS. Компьютерный гигант NCR Corporation произвел хранилище данных Teradata и собственное программное обеспечение для интеллектуального анализа данных. У Daimler-Benz была значительная команда по интеллектуальному анализу данных. OHRA только начинало изучать потенциальное использование интеллектуального анализа данных.

Первая версия методологии была представлена на 4-м семинаре CRISP-DM SIG в Брюсселе в марте 1999 г. ^[5] и опубликована в качестве пошагового руководства по интеллектуальному анализу данных позже в том же году. ^[6]

Между 2006 и 2008 годами была сформирована CRISP-DM 2.0 SIG, и велись дискуссии об обновлении модели процесса CRISP-DM. ^[7] Текущее состояние этих усилий неизвестно. Однако исходный веб-сайт crisp-dm.org, цитируемый в обзорах ^[8]^[9], и веб-сайт CRISP-DM 2.0 SIG ^[7] больше не работают.

Хотя многие специалисты по интеллектуальному анализу данных, не принадлежащие к IBM, используют CRISP-DM ^[10]^[11]^[12], IBM является основной корпорацией, которая в настоящее время использует модель процессов CRISP-DM. Он делает некоторые из старых документов CRISP-DM доступными для загрузки ^[6] и включил их в свой продукт SPSS Modeler .

Основываясь на текущих исследованиях, CRISP-DM является наиболее широко используемой формой модели интеллектуального анализа данных из-за ее различных преимуществ, которые решают существующие проблемы в отраслях интеллектуального анализа данных. Некоторые из недостатков этой модели заключаются в том, что она не выполняет действия по управлению проектами. Факт успеха CRISP-DM заключается в том, что он не зависит от отрасли, инструментов и приложений. ^[13]

Основные этапы [ править ]

Диаграмма процесса, показывающая взаимосвязь между различными фазами CRISP-DM

CRISP-DM разбивает процесс интеллектуального анализа данных на шесть основных этапов: ^[14]

Деловое понимание
Понимание данных
Подготовка данных
Моделирование
Оценка
Развертывание

Последовательность фаз не является строгой и перемещается между различными фазами, как это всегда требуется. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе этого процесса, могут вызвать новые, часто более конкретные бизнес-вопросы, и последующие процессы интеллектуального анализа данных выиграют от опыта предыдущих.

Опросы [ править ]

Опросы, проведенные на том же веб-сайте (KDNuggets) в 2002, 2004, 2007 и 2014 годах, показывают, что это была ведущая методология, которую использовали отраслевые майнеры данных, которые решили ответить на опрос. ^[10]^[11]^[12]^[15] Единственным другим подходом к интеллектуальному анализу данных, названным в этих опросах, была SEMMA . Однако институт SAS четко заявляет, что SEMMA - это не методология интеллектуального анализа данных, а скорее «логическая организация функционального набора инструментов SAS Enterprise Miner». Обзор и критика моделей процессов интеллектуального анализа данных в 2009 году назвал CRISP-DM «фактическим стандартом для разработки проектов интеллектуального анализа данных и поиска знаний». ^{[ необходима цитата ]} Другие обзоры CRISP-DM и моделей процессов интеллектуального анализа данных включают обзор Кургана и Мусилека за 2006 г. ^[8] и сравнение CRISP-DM и SEMMA за 2008 г. Азеведо и Сантос. ^[9] Усилия по обновлению методологии начались в 2006 г., но по состоянию на 30 июня 2015 г. ^{[Обновить]}не привели к появлению новой версии, и «Специальная группа по интересам» (SIG), ответственная за веб-сайт, давно исчезла (см. Историю CRISP- DM ).

Ссылки [ править ]

^ Ширер К., Модель CRISP-DM: новый план интеллектуального анализа данных , J Data Warehousing (2000); 5: 13—22.
^ Что ИТ-специалистам необходимо знать о процессе интеллектуального анализа данных Опубликовано Forbes, 29 июля 2015 г., получено 24 июня 2018 г.
^ Вы видели ASUM-DM? , Джейсон Хаффар, 16 октября 2015 г., SPSS Predictive Analytics, IBM. Архивировано 8 марта 2016 г. на Wayback Machine.
^ Единый метод аналитических решений - реализации с принципами гибкой разработки, опубликованный IBM, 1 марта 2016 г., получено 5 октября 2018 г.
↑ Пит Чепмен (1999); Руководство пользователя CRISP-DM .
^ а б Пит Чепмен, Джулиан Клинтон, Рэнди Кербер, Томас Хабаза, Томас Рейнарц, Колин Ширер и Рюдигер Вирт (2000); CRISP-DM 1.0 Пошаговые инструкции по интеллектуальному анализу данных .
^ a b Колин Ширер (2006); Проведен первый семинар по CRISP-DM 2.0
^ a b Лукаш Курган и Петр Мусилек (2006); Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных . Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, Нью-Йорк, США doi: 10.1017 / S0269888906000737.
^ a b Азеведо, А. и Сантос, MF (2008); KDD, SEMMA и CRISP-DM: параллельный обзор . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
^ a b Григорий Пятецкий-Шапиро (2002); Опрос по методологии KDnuggets
^ a b Григорий Пятецкий-Шапиро (2004); Опрос по методологии KDnuggets
^ a b Григорий Пятецкий-Шапиро (2007); Опрос по методологии KDnuggets
^ Марискал, Г., Марбан, О., Фернандес, С. «Обзор моделей и методологий процесса интеллектуального анализа данных и обнаружения знаний». Обзор инженерии знаний. DOI : 10.1017 / S0269888910000032 .CS1 maint: несколько имен: список авторов ( ссылка )
^ Харпер, Гэвин; Стивен Д. Пикетт (август 2006 г.). «Методы добычи данных HTS» . Открытие наркотиков сегодня . 11 (15–16): 694–699. DOI : 10.1016 / j.drudis.2006.06.006 . PMID 16846796 .
^ Григорий Пятецкий-Шапиро (2014); Опрос по методологии KDnuggets

[Shearer00-1] Ширер К., Модель CRISP-DM: новый план интеллектуального анализа данных , J Data Warehousing (2000); 5: 13—22.

[2] Что ИТ-специалистам необходимо знать о процессе интеллектуального анализа данных Опубликовано Forbes, 29 июля 2015 г., получено 24 июня 2018 г.

[3] Вы видели ASUM-DM? , Джейсон Хаффар, 16 октября 2015 г., SPSS Predictive Analytics, IBM. Архивировано 8 марта 2016 г. на Wayback Machine.

[4] Единый метод аналитических решений - реализации с принципами гибкой разработки, опубликованный IBM, 1 марта 2016 г., получено 5 октября 2018 г.

[crispDMbrussels-5] Пит Чепмен (1999); Руководство пользователя CRISP-DM .

[crispDMguide-6] а б Пит Чепмен, Джулиан Клинтон, Рэнди Кербер, Томас Хабаза, Томас Рейнарц, Колин Ширер и Рюдигер Вирт (2000); CRISP-DM 1.0 Пошаговые инструкции по интеллектуальному анализу данных .

[Shearer-7] Колин Ширер (2006); Проведен первый семинар по CRISP-DM 2.0

[kurgan-8] Лукаш Курган и Петр Мусилек (2006); Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных . Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, Нью-Йорк, США doi: 10.1017 / S0269888906000737.

[AzevedoSantos-9] Азеведо, А. и Сантос, MF (2008); KDD, SEMMA и CRISP-DM: параллельный обзор . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.

[KDnug2002-10] Григорий Пятецкий-Шапиро (2002); Опрос по методологии KDnuggets

[KDnug2004-11] Григорий Пятецкий-Шапиро (2004); Опрос по методологии KDnuggets

[KDnug2007-12] Григорий Пятецкий-Шапиро (2007); Опрос по методологии KDnuggets

[13] Марискал, Г., Марбан, О., Фернандес, С. «Обзор моделей и методологий процесса интеллектуального анализа данных и обнаружения знаний». Обзор инженерии знаний. DOI : 10.1017 / S0269888910000032 .CS1 maint: несколько имен: список авторов ( ссылка )

[Harper06-14] Харпер, Гэвин; Стивен Д. Пикетт (август 2006 г.). «Методы добычи данных HTS» . Открытие наркотиков сегодня . 11 (15–16): 694–699. DOI : 10.1016 / j.drudis.2006.06.006 . PMID 16846796 .

[KDnug2014-15] Григорий Пятецкий-Шапиро (2014); Опрос по методологии KDnuggets

[1]