Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Интеллектуальный анализ данных - это процесс обнаружения закономерностей в больших наборах данных с использованием методов на пересечении машинного обучения , статистики и систем баз данных . [1] Интеллектуальный анализ данных - это междисциплинарное подразделение информатики и статистики с общей целью извлечения информации (с помощью интеллектуальных методов) из набора данных и преобразования информации в понятную структуру для дальнейшего использования. [1] [2] [3] [4] Интеллектуальный анализ данных - это этап анализа процесса «обнаружения знаний в базах данных» или KDD. [5]Помимо этапа необработанного анализа, он также включает аспекты базы данных и управления данными, предварительную обработку данных , рассмотрение модели и логического вывода , метрики интереса, соображения сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . [1]

Термин «интеллектуальный анализ данных» употребляется неправильно , поскольку целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( интеллектуальный анализ ) самих данных . [6] Это также модное слово [7], которое часто применяется к любой форме крупномасштабных данных или обработки информации ( сбор , извлечение , хранение , анализ и статистика), а также к любому приложению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-интеллект . КнигаИнтеллектуальный анализ данных: практические инструменты и методы машинного обучения с использованием Java [8] (который охватывает в основном материалы по машинному обучению) изначально должны были называться просто практическое машинное обучение , а термин интеллектуальный анализ данных был добавлен только по маркетинговым причинам. [9] Часто более уместны более общие термины ( крупномасштабный ) анализ и аналитика данных - или когда речь идет о реальных методах, искусственном интеллекте и машинном обучении .

Фактическая задача интеллектуального анализа данных - это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных шаблонов, таких как группы записей данных ( кластерный анализ ), необычных записей ( обнаружение аномалий ) и зависимостей ( интеллектуальный анализ ассоциативных правил , последовательный анализ паттернов ). Обычно это связано с использованием техник баз данных, таких как пространственные индексы . Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике.. Например, этап интеллектуального анализа данных может идентифицировать несколько групп в данных, которые затем могут использоваться для получения более точных результатов прогнозирования системой поддержки принятия решений . Ни сбор данных, ни подготовка данных, ни интерпретация результатов и представление отчетов не являются частью этапа интеллектуального анализа данных, но относятся к общему процессу KDD в качестве дополнительных этапов.

Разница между анализом данных и интеллектуальным анализом данных заключается в том, что анализ данных используется для проверки моделей и гипотез по набору данных, например, для анализа эффективности маркетинговой кампании, независимо от объема данных; Напротив, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления скрытых или скрытых закономерностей в большом объеме данных. [10]

Соответствующие термины данные DREDGING , рыболовный данные и данные Snooping относятся к использованию методов интеллектуального анализа данных для образцов частей большого набора демографических данных , которые являются (или может быть) слишком малы для надежных статистических выводов при решении вопроса о законности любого обнаружены закономерности. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.

Этимология [ править ]

В 1960-х годах статистики и экономисты использовали такие термины, как вылов данных или выемка данных, для обозначения того, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» также критически использовал экономист Майкл Ловелл в статье, опубликованной в « Обзоре экономических исследований» в 1983 году. [11] [12] Ловелл указывает, что эта практика «маскируется под различными псевдонимами, начиная с от «экспериментирования» (положительный) до «рыбалки» или «слежения» (отрицательного).

Термин интеллектуальный анализ данных появился в сообществе баз данных примерно в 1990 году, как правило, с положительной коннотацией. В течение короткого времени в 1980-х годах использовалась фраза «интеллектуальный анализ баз данных» ™, но поскольку она была зарегистрирована торговой маркой HNC, компании из Сан-Диего, для продвижения своей рабочей станции для интеллектуального анализа данных; [13] исследователи впоследствии обратились к интеллектуальному анализу данных . Другие термины , используемые включают археологию данных , Сбор информации , обнаружение информации , извлечение знаний и т.д. Григорий Piatetsky-Шапиро придуман термин «открытие знаний в базах данных» для первого семинара по той же теме (KDD-1989)и этот термин стал более популярным в сообществе искусственного интеллекта и машинного обучения . Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и в прессе. [14] В настоящее время термины « интеллектуальный анализ данных» и « обнаружение знаний» используются как синонимы.

В академическом сообществе основные форумы для исследований начались в 1995 году, когда в Монреале при спонсорской поддержке AAAI была открыта Первая международная конференция по интеллектуальному анализу данных и открытию знаний ( KDD-95 ) . Его сопредседателями были Усама Файяд и Рамасами Утурусами. Годом позже, в 1996 году, Усама Файяд в качестве главного редактора-основателя запустил журнал Kluwer под названием Data Mining and Knowledge Discovery . Позже он начал рассылку новостей SIGKDD SIGKDD Explorations. [15] Международная конференция KDD стала основной конференцией высочайшего качества в области интеллектуального анализа данных с уровнем приема исследовательских работ менее 18%. ЖурналData Mining и Knowledge Discovery - это основной исследовательский журнал в этой области.

Фон [ править ]

Извлечение шаблонов из данных вручную происходило веками. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко повысили возможности сбора, хранения и обработки данных. По мере роста размеров и сложности наборов данных прямой «практический» анализ данных все чаще дополняется косвенной автоматизированной обработкой данных, чему способствуют другие открытия в области информатики, особенно в области машинного обучения, такие как нейронные сети , кластерный анализ , генетические алгоритмы (1950-е годы),деревья решений и правила принятия решений (1960 - е), а также поддержка векторной машины (1990 - е годы). Интеллектуальный анализ данных - это процесс применения этих методов с целью выявления скрытых закономерностей. [16] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (которые обычно обеспечивают математическую основу) и управлением базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, позволяя применять такие методы к постоянно растущие наборы данных.

Процесс [ править ]

Процесс обнаружения знаний в базах данных (KDD) обычно определяется с помощью этапов:

  1. Выбор
  2. Предварительная обработка
  3. Трансформация
  4. Сбор данных
  5. Интерпретация / оценка. [5]

Тем не менее, он существует во многих вариациях на эту тему, таких как Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

  1. Деловое понимание
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. [17] Единственным другим стандартом интеллектуального анализа данных, названным в этих опросах, была SEMMA . Однако в 3–4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных [18], а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году [19].

Предварительная обработка [ править ]

Прежде чем можно будет использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, фактически присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти шаблоны, но при этом оставаться достаточно кратким, чтобы быть добытым в течение приемлемого периода времени. Обычным источником данных является витрина или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум, и наблюдения с отсутствующими данными .

Интеллектуальный анализ данных [ править ]

Интеллектуальный анализ данных включает шесть общих классов задач: [5]

  • Обнаружение аномалий ( обнаружение выбросов / изменений / отклонений) - выявление необычных записей данных, которые могут быть интересны, или ошибок данных, требующих дальнейшего изучения.
  • Изучение правил ассоциации (моделирование зависимостей) - поиск взаимосвязей между переменными. Например, супермаркет может собирать данные о покупательских привычках клиентов. Используя изучение правил ассоциации, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Иногда это называют анализом рыночной корзины.
  • Кластеризация - это задача обнаружения групп и структур в данных, которые так или иначе «похожи», без использования известных структур в данных.
  • Классификация - это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «законное» или как «спам».
  • Регрессия - пытается найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки отношений между данными или наборами данных.
  • Обобщение - обеспечение более компактного представления набора данных, включая визуализацию и создание отчетов.

Проверка результатов [ править ]

Пример данных , полученных данными дноуглубительных через боты управляется статистик Тайлер Виген, по- видимому , показывает тесную связь между лучшим словом выигрывая конкуренцию правописания пчела и количество людей в Соединенных Штатах убит ядовитыми пауками. Сходство тенденций - очевидное совпадение.

Интеллектуальный анализ данных может быть непреднамеренно использован неправильно, и тогда результаты могут оказаться значительными; но которые на самом деле не предсказывают будущего поведения, не могут быть воспроизведены на новой выборке данных и мало полезны. Часто это происходит из-за исследования слишком большого количества гипотез и невыполнения надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переоснащение , но одна и та же проблема может возникать на разных этапах процесса, и, таким образом, разделения на обучение / тест - если оно вообще применимо - может быть недостаточно, чтобы этого не произошло. [20]

Последним этапом обнаружения знаний из данных является проверка того, что шаблоны, создаваемые алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все закономерности, обнаруженные алгоритмами интеллектуального анализа данных, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переобучением . Чтобы преодолеть это, в оценке используется тестовый набор данных, на котором алгоритм интеллектуального анализа данных не был обучен. Выученные шаблоны применяются к этому набору тестов, и полученный результат сравнивается с желаемым. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» электронных писем, будет обучен на обучающем наборе.образцов электронных писем. После обучения выученные шаблоны будут применены к тестируемому набору сообщений электронной почты, на котором он не был обучен. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, например кривые ROC .

Если изученные шаблоны не соответствуют желаемым стандартам, впоследствии необходимо повторно оценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если усвоенные шаблоны действительно соответствуют желаемым стандартам, тогда последним шагом будет интерпретация усвоенных шаблонов и превращение их в знания.

Исследование [ править ]

Ведущей профессиональной организацией в этой области является Специальная группа по интересам (SIG) Ассоциации вычислительной техники (ACM) по обнаружению знаний и интеллектуальному анализу данных ( SIGKDD ). [21] [22] С 1989 года ACM SIG проводит ежегодную международную конференцию и публикует свои труды [23], а с 1999 года он издает два раза в год академический журнал под названием «SIGKDD Explorations». [24]

Конференции по информатике, посвященные интеллектуальному анализу данных, включают:

  • Конференция CIKM - Конференция ACM по управлению информацией и знаниями
  • Европейская конференция по машинному обучению и принципам и практике обнаружения знаний в базах данных
  • Конференция KDD - Конференция ACM SIGKDD по открытию знаний и интеллектуальному анализу данных

Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными / базам данных, таких как конференция ICDE, конференция SIGMOD и Международная конференция по очень большим базам данных.

Стандарты [ править ]

Были предприняты некоторые попытки определить стандарты для процесса интеллектуального анализа данных, например, Европейский межотраслевой стандартный процесс интеллектуального анализа данных 1999 г. (CRISP-DM 1.0) и стандарт интеллектуального анализа данных Java 2004 г. (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, так и не доработав окончательный вариант.

Для обмена извлеченными моделями - в частности, для использования в прогнозной аналитике - ключевым стандартом является язык разметки прогнозных моделей (PMML), который представляет собой язык на основе XML, разработанный Группой интеллектуального анализа данных (DMG) и поддерживаемый в качестве формата обмена многими приложения для интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования - особую задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG. [25]

Известные применения [ править ]

Интеллектуальный анализ данных используется везде, где сегодня доступны цифровые данные. Известные примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке и наблюдения.

Проблемы конфиденциальности и этики [ править ]

Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, он часто ассоциируется с интеллектуальным анализом информации, касающейся поведения людей (этического и прочего). [26]

Способы использования интеллектуального анализа данных могут в некоторых случаях и контекстах вызывать вопросы, касающиеся конфиденциальности , законности и этики. [27] В частности, правительственные или коммерческие наборы данных по добыче данных для целей национальной безопасности или правоохранительных органов, например, в Программе полного информирования или в ADVISE , вызвали озабоченность по поводу конфиденциальности. [28] [29]

Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или шаблоны, которые ставят под угрозу конфиденциальность и обязательства по обеспечению конфиденциальности. Обычно это происходит посредством агрегирования данных . Агрегирование данных включает в себя объединение данных вместе (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных на индивидуальном уровне выводимой или иным образом очевидной). [30] Это не интеллектуальный анализ данных как таковой., но результат подготовки данных перед анализом и для его целей. Угроза частной жизни человека вступает в игру, когда данные после компиляции заставляют майнер данных или любое лицо, имеющее доступ к недавно скомпилированному набору данных, иметь возможность идентифицировать конкретных лиц, особенно когда данные изначально были анонимными. [31] [32] [33]

Рекомендуется [ по мнению кого? ], чтобы знать следующее перед сбором данных: [30]

  • Цель сбора данных и любые (известные) проекты интеллектуального анализа данных;
  • Как будут использоваться данные;
  • Кто сможет добывать данные и использовать данные и их производные;
  • Состояние безопасности доступа к данным;
  • Как можно обновить собранные данные.

Данные также могут быть изменены так, чтобы они стали анонимными, так что личности не могут быть легко идентифицированы. [30] Однако даже «анонимные» наборы данных потенциально могут содержать достаточно информации, чтобы позволить идентифицировать людей, как это произошло, когда журналисты смогли найти нескольких людей на основе набора историй поиска, которые были непреднамеренно опубликованы AOL. [34]

Непреднамеренное раскрытие личной информации, ведущей к поставщику, нарушает добросовестную информационную практику. Эта неосмотрительность может причинить указанному лицу финансовые, эмоциональные или телесные повреждения. В одном случае нарушения конфиденциальности покровители Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям, занимающимся интеллектуальным анализом данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям. [35]

Ситуация в Европе [ править ]

В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако Принципы безопасной гавани между США и ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей риску использования конфиденциальности компаниями США. Как следствие Сноуден «s глобального раскрытия наблюдения , там было увеличено обсуждение отменить это соглашение, так как , в частности , данные будут полностью открыты для Агентства национальной безопасности , и попытки достичь соглашения с Соединенными Штатами не увенчались успехом. [36]

В частности, в Соединенном Королевстве были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацеливания на определенные группы клиентов, вынуждая их платить неоправданно высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не разбираются в том, как их можно использовать на цифровых рынках. [37]

Ситуация в США [ править ]

В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США путем принятия регулирующих мер, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди дали свое «осознанное согласие» в отношении информации, которую они предоставляют, и ее предполагаемого использования в настоящем и будущем. Согласно статье в Biotech Business Week , «[в] практике HIPAA не может обеспечить более надежную защиту, чем давно действующие правила в сфере исследований», - говорится в AAHC. Что еще более важно, цель правила - защита посредством информированного согласия - это приблизиться к уровню непонятности для обычных людей ". [38] Это подчеркивает необходимость анонимности данных при агрегировании данных и методах интеллектуального анализа.

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах семьи на образование и неприкосновенность частной жизни (FERPA), применяется только к тем конкретным областям, которые затрагиваются каждым таким законом. Использование интеллектуального анализа данных большинством предприятий в США не регулируется никаким законодательством.

Закон об авторском праве [ править ]

Ситуация в Европе [ править ]

Согласно европейским законам об авторском праве и базах данных , добыча охраняемых авторским правом произведений (например, веб-майнингом ) без разрешения владельца авторских прав является незаконной. Если база данных представляет собой чистые данные в Европе, может быть, что нет авторских прав, но могут существовать права на базы данных, поэтому интеллектуальный анализ данных становится предметом прав владельцев интеллектуальной собственности , которые защищены Директивой о базах данных . По рекомендации обзора Харгривза это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторском праве, разрешив добычу контента в качестве ограничения и исключения . [39]Великобритания стала второй страной в мире, которая сделала это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничения Директивы об информационном обществе (2001 г.) исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании также не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала заинтересованным сторонам обсуждения текста и интеллектуальному анализу данных в 2013 год под названием лицензии для Европы. [40] Акцент на решении этой правовой проблемы, такой как лицензирование, а не ограничения и исключения, побудил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей с открытым доступом покинуть диалог с заинтересованными сторонами в мае 2013 года. [41 ]

Ситуация в США [ править ]

Закон об авторском праве США , и в частности его положение о добросовестном использовании , поддерживает законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является трансформирующим, то есть не заменяет исходную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках мирового соглашения с Google Book председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из которых является интеллектуальный анализ текста и данных. [42]

Программное обеспечение [ править ]

Бесплатное программное обеспечение и приложения для интеллектуального анализа данных с открытым исходным кодом [ править ]

Следующие приложения доступны под бесплатными лицензиями / лицензиями с открытым исходным кодом. Также доступен открытый доступ к исходному коду приложения.

  • Carrot2 : структура кластеризации текста и результатов поиска.
  • Chemicalize.org : программа для разработки химических структур и поисковая система в Интернете.
  • ELKI : университетский исследовательский проект с расширенным кластерным анализом и методами обнаружения выбросов, написанный на языке Java .
  • GATE : инструмент для обработки естественного языка и языковой инженерии.
  • KNIME : Konstanz Information Miner, удобный и комплексный фреймворк для анализа данных.
  • Massive Online Analysis (MOA) : интеллектуальный анализ потоков больших данных в реальном времени с помощью инструмента смещения концепций на языке программирования Java .
  • MEPX - кроссплатформенный инструмент для задач регрессии и классификации на основе варианта генетического программирования.
  • ML-Flex: программный пакет, который позволяет пользователям интегрироваться со сторонними пакетами машинного обучения, написанными на любом языке программирования, выполнять анализ классификации параллельно на нескольких вычислительных узлах и создавать отчеты о результатах классификации в формате HTML.
  • mlpack : набор готовых алгоритмов машинного обучения, написанных на языке C ++ .
  • NLTK ( Natural Language Toolkit ): набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка Python .
  • OpenNN : открытая библиотека нейронных сетей .
  • Orange : программный пакет для анализа данных и машинного обучения на основе компонентов, написанный на языке Python .
  • PSPP : программное обеспечение для сбора данных и статистики в рамках проекта GNU, аналогичное SPSS.
  • R : язык программирования и программная среда для статистических вычислений, интеллектуального анализа данных и графики. Это часть проекта GNU .
  • scikit-learn - это библиотека машинного обучения с открытым исходным кодом для языка программирования Python.
  • Torch : библиотека глубокого обучения с открытым исходным кодом для языка программирования Lua и среды научных вычислений с широкой поддержкой алгоритмов машинного обучения .
  • UIMA : UIMA (Архитектура управления неструктурированной информацией) - это компонентная структура для анализа неструктурированного контента, такого как текст, аудио и видео, первоначально разработанная IBM.
  • Weka : набор программных приложений для машинного обучения, написанных на языке программирования Java .

Проприетарное программное обеспечение и приложения для интеллектуального анализа данных [ править ]

Следующие приложения доступны по проприетарным лицензиям.

  • Angoss KnowledgeSTUDIO: инструмент интеллектуального анализа данных
  • LIONsolver : интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
  • Megaputer Intelligence: программное обеспечение для интеллектуального анализа данных и текста называется PolyAnalyst .
  • Microsoft Analysis Services : программное обеспечение для интеллектуального анализа данных, предоставляемое Microsoft .
  • NetOwl : набор многоязычных продуктов для анализа текста и сущностей, которые позволяют интеллектуальный анализ данных.
  • Oracle Data Mining : программное обеспечение для интеллектуального анализа данных от Oracle Corporation .
  • PSeven : платформа для автоматизации инженерного моделирования и анализа, междисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE .
  • Qlucore Omics Explorer: программное обеспечение для интеллектуального анализа данных.
  • RapidMiner : среда для экспериментов по машинному обучению и интеллектуальному анализу данных.
  • SAS Enterprise Miner : программное обеспечение для интеллектуального анализа данных, предоставленное институтом SAS .
  • SPSS Modeler : программное обеспечение для интеллектуального анализа данных, предоставленное IBM .
  • STATISTICA Data Miner: программное обеспечение для интеллектуального анализа данных, предоставляемое StatSoft .
  • Tanagra : Программное обеспечение для интеллектуального анализа данных, ориентированное на визуализацию, также предназначенное для обучения.
  • Vertica : программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett-Packard .
  • Google Cloud Platform : автоматизированные пользовательские модели машинного обучения под управлением Google .
  • Amazon SageMaker : управляемый сервис, предоставляемый Amazon для создания и производства пользовательских моделей машинного обучения .

См. Также [ править ]

Методы
  • Агент майнинг
  • Обнаружение аномалий / выбросов / изменений
  • Изучение правил ассоциации
  • Байесовские сети
  • Классификация
  • Кластерный анализ
  • Деревья решений
  • Ансамблевое обучение
  • Факторный анализ
  • Генетические алгоритмы
  • Намерение майнинга
  • Система обучающих классификаторов
  • Мультилинейное подпространственное обучение
  • Нейронные сети
  • Регрессивный анализ
  • Последовательный майнинг
  • Структурированный анализ данных
  • Опорные векторные машины
  • Текстовый майнинг
  • Анализ временных рядов
Домены приложений
  • Аналитика
  • Информатика поведения
  • Большое количество данных
  • Биоинформатика
  • Бизнес-аналитика
  • Анализ данных
  • Хранилище данных
  • Система поддержки принятия решений
  • Интеллектуальный анализ данных на основе домена
  • Открытие лекарств
  • Исследовательский анализ данных
  • Прогнозная аналитика
  • Веб-майнинг
Примеры применения
  • Автоматическое распознавание номерных знаков в Великобритании
  • Клиентская аналитика
  • Образовательный интеллектуальный анализ данных
  • Национальное Агенство Безопасности
  • Количественная структура - взаимосвязь деятельности
  • Наблюдение / массовое наблюдение (например, звездный ветер )
похожие темы

Для получения дополнительной информации об извлечении информации из данных (в отличие от анализа данных) см .:

  • Интеграция данных
  • Преобразование данных
  • Электронное открытие
  • Извлечение информации
  • Информационная интеграция
  • Признание именной организации
  • Профилирование (информатика)
  • Психометрия
  • Майнинг в социальных сетях
  • Наблюдательный капитализм
  • Парсинг веб-страниц
Другие источники
  • Международный журнал хранилищ данных и майнинга

Ссылки [ править ]

  1. ^ a b c "Учебная программа по интеллектуальному анализу данных" . ACM SIGKDD . 2006-04-30 . Проверено 27 января 2014 .
  2. ^ Клифтон, Кристофер (2010). «Британская энциклопедия: определение интеллектуального анализа данных» . Проверено 9 декабря 2010 .
  3. ^ Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2009). «Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование» . Архивировано из оригинала на 2009-11-10 . Проверено 7 августа 2012 .
  4. ^ Хан, Камбер, пей, Jaiwei, Мишелин, Цзянь (2011). Интеллектуальный анализ данных: концепции и методы (3-е изд.). Морган Кауфманн. ISBN 978-0-12-381479-1.CS1 maint: несколько имен: список авторов ( ссылка )
  5. ^ a b c Файяд, Усама ; Пятецкий-Шапиро Григорий ; Смит, Padhraic (1996). «От интеллектуального анализа данных к открытию знаний в базах данных» (PDF) . Проверено 17 декабря 2008 года .
  6. ^ Хан, Цзявэй ; Камбер, Мишлен (2001). Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн . п. 5. ISBN 978-1-55860-489-6. Таким образом, интеллектуальный анализ данных правильнее было бы назвать «интеллектуальным анализом данных из данных», что, к сожалению, несколько длинно.
  7. ^ OKAIRP 2005 Fall Conference, Университет штата Аризона архивации 2014-02-01 в Wayback Machine
  8. ^ Виттен, Ян Х .; Франк, Эйбе; Холл, Марк А. (2011). Data Mining: практические инструменты и методы машинного обучения (3-е изд.). Эльзевир. ISBN 978-0-12-374856-0.
  9. ^ Bouckaert, Remco R .; Франк, Эйбе; Холл, Марка А .; Холмс, Джеффри; Пфарингер, Бернхард; Reutemann, Питер; Виттен, Ян Х. (2010). «WEKA Опыт работы с проектом Java с открытым исходным кодом». Журнал исследований в области машинного обучения . 11 : 2533–2541. первоначальное название «Практическое машинное обучение» было изменено ... Термин «интеллектуальный анализ данных» был [добавлен] в первую очередь по маркетинговым причинам.
  10. Перейти ↑ Olson, DL (2007). Интеллектуальный анализ данных в бизнес-сервисах. Сервисный бизнес , 1 (3), 181–193. DOI : 10.1007 / s11628-006-0014-7
  11. ^ Ловелл, Майкл С. (1983). "Сбор данных". Обзор экономики и статистики . 65 (1): 1–12. DOI : 10.2307 / 1924403 . JSTOR 1924403 . 
  12. ^ Charemza, Wojciech W .; Мертвец, Дерек Ф. (1992). "Сбор данных". Новые направления в эконометрической практике . Олдершот: Эдвард Элгар. С. 14–31. ISBN 1-85278-461-X.
  13. Перейти ↑ Mena, Jesús (2011). Криминалистическая экспертиза машинного обучения для правоохранительных органов, безопасности и разведки . Бока-Ратон, Флорида: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  14. ^ Пятецкий-Шапиро, Григорий ; Паркер, Гэри (2011). «Урок: интеллектуальный анализ данных и открытие знаний: введение» . Введение в интеллектуальный анализ данных . KD Nuggets . Проверено 30 августа 2012 года .
  15. ^ Fayyad, Усама (15 июня 1999). «Первая редакция главного редактора» . SIGKDD Исследования . 13 (1): 102. DOI : 10,1145 / 2207243,2207269 . S2CID 13314420 . Проверено 27 декабря 2010 года . 
  16. ^ Кантарджич, Мехмед (2003). Data Mining: концепции, модели, методы и алгоритмы . Джон Вили и сыновья. ISBN 978-0-471-22852-3. OCLC  50055336 .
  17. ^ Грегори Пятецкий-Шапиро (2002) Опрос методологии К.Днаггетса , Грегори Пятецкий-Шапиро (2004) Опрос методологии К.Днаггетса , Грегори Пятецкий-Шапиро (2007) Опрос методологии К.Днаггетса , Грегори Пятецкий-Шапиро (2014) Методология К.Днаггетс
  18. ^ Лукаш Курган и Петр Musilek: "Обзор моделей процессов обнаружения и интеллектуального анализа данных" . Обзор инженерии знаний . Том 21, выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, doi : 10.1017 / S0269888906000737
  19. ^ Азеведы, А. и Сантос, MF KDD, Semma и CRISP-DM: параллельный обзор Архивированных 2013-01-09 в Wayback Machine . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
  20. Перейти ↑ Hawkins, Douglas M (2004). «Проблема переоснащения». Журнал химической информации и компьютерных наук . 44 (1): 1–12. DOI : 10.1021 / ci0342472 . PMID 14741005 . 
  21. ^ «Microsoft Academic Search: Лучшие конференции по интеллектуальному анализу данных» . Microsoft Academic Search .
  22. ^ "Google Scholar: Лучшие публикации - Data Mining & Analysis" . Google Scholar .
  23. Труды, заархивированные 30 апреля 2010 г.,в Wayback Machine , Международные конференции по открытию знаний и интеллектуальному анализу данных, ACM, Нью-Йорк.
  24. ^ SIGKDD Explorations , ACM, Нью-Йорк.
  25. ^ Гюннеманн, Стефан; Кремер, Харди; Зейдл, Томас (2011). «Расширение стандарта PMML на модели подпространственной кластеризации». Материалы семинара 2011 г. по моделированию языка разметки с предсказанием . п. 48. DOI : 10,1145 / 2023598,2023605 . ISBN 978-1-4503-0837-3. S2CID  14967969 .
  26. ^ Зельцер, Уильям (2005). «Перспективы и подводные камни интеллектуального анализа данных: этические вопросы» (PDF) . Секция государственной статистики ASA . Американская статистическая ассоциация.
  27. Питтс, Чип (15 марта 2007 г.). «Конец незаконного домашнего шпионажа? Не рассчитывайте на это» . Вашингтонский зритель . Архивировано из оригинала на 2007-11-28.
  28. ^ Taipale, Ким А. (15 декабря 2003). «Интеллектуальный анализ данных и внутренняя безопасность: соединение точек для понимания данных» . Колумбийский журнал о науке и технологиях . 5 (2). OCLC 45263753 . SSRN 546782 .  
  29. ^ Resig, Джон. «Платформа для разработки служб обмена мгновенными сообщениями» (PDF) . Проверено 16 марта 2018 .
  30. ^ a b c Подумайте, прежде чем копать: последствия интеллектуального анализа и агрегации данных для конфиденциальности. Архивировано 17 декабря 2008 г. в Wayback Machine , отчет NASCIO Research Brief, сентябрь 2004 г.
  31. Ом, Пол. «Не создавайте базу данных разорения» . Harvard Business Review .
  32. ^ Дарвин Бонд-Грэм, Iron Cagebook - Логический конец патентов Facebook , Counterpunch.org , 2013.12.03
  33. ^ Дарвин Бонд-Грэм, Конференция стартапов внутри технологической индустрии , Counterpunch.org , 2013.09.11
  34. ^ Данные поиска AOL идентифицировали людей , SecurityFocus, август 2006 г.
  35. ^ Kshetri, Нир (2014). «Влияние больших данных на конфиденциальность, безопасность и благосостояние потребителей» (PDF) . Телекоммуникационная политика . 38 (11): 1134–1145. DOI : 10.1016 / j.telpol.2014.10.002 .
  36. ^ Вайс, Мартин А.; Арчик, Кристин (19 мая 2016 г.). «Конфиденциальность данных США – ЕС: от безопасной гавани к программе защиты конфиденциальности» (PDF) . Вашингтон, Округ Колумбия Исследовательская служба Конгресса США. п. 6. R44257 . Проверено 9 апреля 2020 . 6 октября 2015 года CJEU  ... вынес решение о признании недействительной Safe Harbor (вступает в силу немедленно) в том виде, в котором она выполняется.
  37. ^ Паркер, Джордж. «Британские компании, нацеленные на использование больших данных для работы с клиентами». Подпишитесь на чтение | Financial Times, Financial Times, 30 сентября 2018 г., www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647.
  38. ^ Редакторы Biotech Business Week (30 июня 2008 г.); БИОМЕДИЦИНА; Правило конфиденциальности HIPAA препятствует биомедицинским исследованиям , Biotech Business Week, получено 17 ноября 2009 г. из LexisNexis Academic
  39. ^ Британские исследователи предоставили право на интеллектуальный анализ данных в соответствии с новым законодательством Великобритании об авторском праве. Архивировано 9 июня 2014 года на сайте Wayback Machine Out-Law.com. Проверено 14 ноября 2014 г.
  40. ^ «Лицензии для Европы - Структурированный диалог с заинтересованными сторонами 2013» . Европейская комиссия . Проверено 14 ноября 2014 года .
  41. ^ «Текст и интеллектуальный анализ данных: его важность и необходимость изменений в Европе» . Ассоциация европейских исследовательских библиотек . Проверено 14 ноября 2014 года .
  42. ^ "Судья выносит упрощенное судебное решение в пользу Google Книг - добросовестное использование" . Lexology.com . Антонелли Закон Ltd . Проверено 14 ноября 2014 года .

Дальнейшее чтение [ править ]

  • Кабена, Питер; Хаджнян, Пабло; Стадлер, Рольф; Верхес, Яап; Занаси, Алессандро (1997); Обнаружение интеллектуального анализа данных: от концепции до реализации , Prentice Hall , ISBN 0-13-743980-6 
  • MS Chen, J. Han, PS Yu (1996) " Интеллектуальный анализ данных: обзор с точки зрения базы данных ". Инженерия знаний и данных, IEEE Transactions на 8 (6), 866–883
  • Фельдман, Ронен; Сэнгер, Джеймс (2007); Справочник по горному делу текстов , Cambridge University Press , ISBN 978-0-521-83657-9 
  • Го, Йике; и Гроссман, Роберт (редакторы) (1999); Высокопроизводительный интеллектуальный анализ данных: алгоритмы масштабирования, приложения и системы , Kluwer Academic Publishers
  • Хан, Цзявэй , Мишлин Камбер и Цзянь Пей. Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн, 2006.
  • Хасти, Тревор , Тибширани, Роберт и Фридман, Джером (2001); Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование , Springer, ISBN 0-387-95284-5 
  • Лю, Бинг (2007, 2011); Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer , ISBN 3-540-37881-2 
  • Мерфи, Крис (16 мая 2011 г.). «Есть ли свобода слова для интеллектуального анализа данных?». Информационная неделя : 12.
  • Нисбет, Роберт; Старейшина, Джон; Шахтер, Гэри (2009); Справочник по приложениям статистического анализа и интеллектуального анализа данных , Academic Press / Elsevier, ISBN 978-0-12-374765-5 
  • Понселе, Паскаль; Масселья, Флоран; и Teisseire, Maguelonne (редакторы) (октябрь 2007 г.); «Шаблоны интеллектуального анализа данных: новые методы и приложения», Справочник по информатике , ISBN 978-1-59904-162-9 
  • Тан, Пан-Нин; Штейнбах, Михаэль; и Кумар, Випин (2005); Введение в интеллектуальный анализ данных , ISBN 0-321-32136-7 
  • Теодоридис, Сергий; и Кутрумбас, Константинос (2009); Распознавание образов , 4-е издание, Academic Press, ISBN 978-1-59749-272-0 
  • Weiss, Sholom M .; и Индуркхья, Нитин (1998); Прогнозный анализ данных , Морган Кауфманн
  • Виттен, Ян Х .; Франк, Эйбе; Холл, Марк А. (30 января 2011 г.). Data Mining: практические инструменты и методы машинного обучения (3-е изд.). Эльзевир. ISBN 978-0-12-374856-0.(См. Также Бесплатное программное обеспечение Weka )
  • Е, Нонг (2003); Справочник по интеллектуальному анализу данных , Махва, Нью-Джерси: Лоуренс Эрлбаум

Внешние ссылки [ править ]

  • Программное обеспечение для поиска знаний в Curlie
  • Поставщики средств интеллектуального анализа данных в Curlie