Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В анализе данных , обнаружение аномалий (также выброс обнаружения ) [1] является идентификация редких предметов, событий или наблюдений , которые поднимают подозрение, значительно отличающиеся от большинства данных. [1] Обычно аномальные элементы переводятся в некую проблему, такую ​​как банковское мошенничество , структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также называются выбросами , новинками, шумом, отклонениями и исключениями. [2]

В частности, в контексте обнаружения злоупотреблений и сетевых вторжений интересными объектами часто являются не редкие объекты, а неожиданные всплески активности. Этот шаблон не соответствует общему статистическому определению выброса как редкого объекта, и многие методы обнаружения выбросов (в частности, неконтролируемые методы) не работают с такими данными, если они не были агрегированы надлежащим образом. Вместо этого алгоритм кластерного анализа может обнаруживать микрокластеры, образованные этими шаблонами. [3]

Существуют три широкие категории методов обнаружения аномалий. [4] Неконтролируемые методы обнаружения аномалий обнаруживают аномалии в немаркированном наборе тестовых данных в предположении, что большинство экземпляров в наборе данных являются нормальными, путем поиска экземпляров, которые кажутся наименее подходящими для остальной части набора данных. Для контролируемых методов обнаружения аномалий требуется набор данных, который был помечен как «нормальный» и «ненормальный», и включает обучение классификатора (ключевым отличием от многих других задач статистической классификации является присущий несбалансированному характеру обнаружения выбросов). Методы полууправляемого обнаружения аномалий создают модель, представляющую нормальное поведение из заданногообычный набор обучающих данных, а затем проверьте вероятность того, что тестовый экземпляр будет сгенерирован используемой моделью.

Приложения [ править ]

Обнаружение аномалий применят в различных областях, такие как обнаружение вторжений , обнаружение мошенничества , обнаружение неисправностей, мониторинг состояния системы, обнаружение событий в сенсорных сетях, обнаружение нарушений экосистем, а также дефекты обнаружение в изображениях с использованием машинного зрения . [5] Он часто используется при предварительной обработке для удаления аномальных данных из набора данных. При обучении с учителем удаление аномальных данных из набора данных часто приводит к статистически значимому повышению точности. [6] [7]

Популярные техники [ править ]

В литературе было предложено несколько методов обнаружения аномалий. [8] Вот некоторые из популярных техник:

  • Методы, основанные на плотности ( k-ближайший сосед , [9] [10] [11] фактор локальных выбросов , [12] изолированные леса , [13] [14] и многие другие варианты этой концепции [15] ).
  • Обнаружение выбросов на основе подпространства, [16], корреляции [17] и тензора [18] для данных большой размерности. [19]
  • Одноклассные опорные векторные машины . [20]
  • Репликаторные нейронные сети ., [21] автокодеры , вариационные автокодеры, [22] нейронные сети с долговременной краткосрочной памятью [23]
  • Байесовские сети . [21]
  • Скрытые марковские модели (СКМ). [21]
  • Обнаружение выбросов на основе кластерного анализа . [24] [25]
  • Отклонения от правил ассоциации и частые наборы элементов.
  • Обнаружение выбросов на основе нечеткой логики.
  • Ансамблевые методы , использующие объединение признаков , [26] [27] нормализацию оценок [28] [29] и различные источники разнообразия. [30] [31]

Производительность различных методов во многом зависит от набора данных и параметров, и методы имеют небольшие систематические преимущества перед другими при сравнении множества наборов данных и параметров. [32] [33]

Приложение к безопасности данных [ править ]

Обнаружение аномалий было предложено для систем обнаружения вторжений (IDS) Дороти Деннинг в 1986 году. [34] Обнаружение аномалий для IDS обычно выполняется с помощью пороговых значений и статистики, но также может выполняться с помощью мягких вычислений и индуктивного обучения. [35] Типы статистики, предложенные к 1999 г., включали профили пользователей, рабочих станций, сетей, удаленных хостов, групп пользователей и программ, основанные на частотах, средних значениях, дисперсиях, ковариациях и стандартных отклонениях. [36] Аналогом обнаружения аномалий при обнаружении вторжений является обнаружение злоупотреблений .

В предварительной обработке данных [ править ]

При обучении с учителем обнаружение аномалий часто является важным этапом предварительной обработки данных, чтобы предоставить алгоритму обучения правильный набор данных для обучения. Это также известно как очистка данных . После обнаружения аномальных образцов классификаторы удаляют их, однако иногда поврежденные данные все еще могут предоставить полезные образцы для обучения. Распространенным методом поиска подходящих образцов для использования является определение зашумленных данных . Один из подходов к поиску зашумленных значений - создание вероятностной модели на основе данных с использованием моделей неповрежденных и поврежденных данных. [37]

Ниже приведен пример набора данных о цветке ириса с добавленной аномалией. С включенной аномалией алгоритм классификации может испытывать трудности с правильным поиском закономерностей или сталкиваться с ошибками.

Если удалить аномалию, обучение будет легче находить закономерности в классификациях.

В интеллектуальном анализе данных многомерные данные также будут предлагать сложные вычислительные задачи с очень большими наборами данных. Удалив многочисленные образцы, которые могут оказаться неуместными для классификатора или алгоритма обнаружения, время выполнения может быть значительно сокращено даже для самых больших наборов данных.

Программное обеспечение [ править ]

  • ELKI - это набор инструментов для интеллектуального анализа данных Java с открытым исходным кодом, который содержит несколько алгоритмов обнаружения аномалий, а также ускорение индексации для них.
  • Scikit-Learn - это библиотека Python с открытым исходным кодом, в которой есть встроенные функции, обеспечивающие неконтролируемое обнаружение аномалий.

Наборы данных [ править ]

  • Аномалии тест обнаружения хранилище данных из Ludwig-Максимилиана Universität München ; Зеркало в университете Сан-Паулу .
  • ODDS - ODDS: большая коллекция общедоступных наборов данных обнаружения выбросов с достоверной информацией в различных областях.
  • Тестирование неконтролируемого обнаружения аномалий в Harvard Dataverse: наборы данных для неконтролируемого обнаружения аномалий с достоверной достоверностью данных.

См. Также [ править ]

  • Обнаружение изменений
  • Статистическое управление процессами
  • Обнаружение новинок
  • Иерархическая временная память

Ссылки [ править ]

  1. ^ a b Зимек, Артур; Шуберт, Эрих (2017), «Обнаружение выбросов», Энциклопедия систем баз данных , Springer, Нью-Йорк, стр. 1–5, DOI : 10.1007 / 978-1-4899-7993-3_80719-1 , ISBN 9781489979933
  2. ^ Ходж, VJ; Остин, Дж. (2004). «Обзор методологий обнаружения выбросов» (PDF) . Обзор искусственного интеллекта . 22 (2): 85–126. CiteSeerX 10.1.1.318.4023 . DOI : 10.1007 / s10462-004-4304-у . S2CID 3330313 .   
  3. ^ Dokas, Павел; Эртоз, Левент; Кумар, Випин; Лазаревич, Александар; Шривастава, Джайдип; Тан, Пан-Нин (2002). «Интеллектуальный анализ данных для обнаружения сетевых вторжений» (PDF) . Труды Семинар NSF по интеллектуальному анализу данных следующего поколения .
  4. ^ Chandola, V .; Banerjee, A .; Кумар, В. (2009). «Обнаружение аномалий: исследование». ACM Computing Surveys . 41 (3): 1–58. DOI : 10.1145 / 1541880.1541882 . S2CID 207172599 . 
  5. ^ Бергманн, Пол; Килиан Бацнер; Майкл Фаузер; Дэвид Сэттлеггер; Карстен Штегер (2021 г.). «Набор данных обнаружения аномалий MVTec: комплексный набор реальных данных для неконтролируемого обнаружения аномалий» . Международный журнал компьютерного зрения . 129 : 1038–1059. DOI : 10.1007 / s11263-020-01400-4 .
  6. Томек, Иван (1976). «Эксперимент с отредактированным правилом ближайшего соседа». IEEE Transactions по системам, человеку и кибернетике . 6 (6): 448–452. DOI : 10.1109 / TSMC.1976.4309523 .
  7. ^ Смит, MR; Мартинес, Т. (2011). «Повышение точности классификации за счет выявления и удаления экземпляров, которые следует классифицировать неправильно» (PDF) . Международная совместная конференция по нейронным сетям 2011 года . п. 2690. CiteSeerX 10.1.1.221.1371 . DOI : 10.1109 / IJCNN.2011.6033571 . ISBN   978-1-4244-9635-8. S2CID  5809822 .
  8. ^ Зимек, Артур; Фильцмозер, Питер (2018). «Туда и обратно: обнаружение выбросов между алгоритмами статистического анализа и интеллектуального анализа данных» (PDF) . Междисциплинарные обзоры Wiley: интеллектуальный анализ данных и открытие знаний . 8 (6): e1280. DOI : 10.1002 / widm.1280 . ISSN 1942-4787 .  
  9. ^ Knorr, EM; Ng, RT; Тукаков, В. (2000). «Выбросы на основе расстояния: алгоритмы и приложения». Журнал VLDB Международный журнал по очень большим базам данных . 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842 . DOI : 10.1007 / s007780050006 . S2CID 11707259 .  
  10. ^ Ramaswamy, S .; Растоги, Р .; Шим, К. (2000). Эффективные алгоритмы извлечения выбросов из больших наборов данных . Материалы международной конференции ACM SIGMOD 2000 по управлению данными - SIGMOD '00. п. 427. DOI : 10,1145 / 342009,335437 . ISBN 1-58113-217-4.
  11. ^ Angiulli, F .; Пиццути, К. (2002). Быстрое обнаружение выбросов в пространствах большой размерности . Принципы интеллектуального анализа данных и обнаружения знаний. Конспект лекций по информатике. 2431 . п. 15. DOI : 10.1007 / 3-540-45681-3_2 . ISBN 978-3-540-44037-6.
  12. ^ Breunig, MM; Кригель, Х.-П. ; Ng, RT; Сандер, Дж. (2000). LOF: Определение локальных выбросов на основе плотности (PDF) . Материалы Международной конференции ACM SIGMOD 2000 по управлению данными . SIGMOD . С. 93–104. DOI : 10.1145 / 335191.335388 . ISBN  1-58113-217-4.
  13. ^ Лю, Фэй Тони; Тинг, Кай Мин; Чжоу, Чжи-Хуа (декабрь 2008 г.). Лес изоляции . 2008 Восьмая Международная конференция IEEE по интеллектуальному анализу данных . С. 413–422. DOI : 10.1109 / ICDM.2008.17 . ISBN 9780769535029. S2CID  6505449 .
  14. ^ Лю, Фэй Тони; Тинг, Кай Мин; Чжоу, Чжи-Хуа (март 2012 г.). «Обнаружение аномалий на основе изоляции» . ACM-транзакции при обнаружении знаний из данных . 6 (1): 1–39. DOI : 10.1145 / 2133360.2133363 . S2CID 207193045 . 
  15. ^ Шуберт, E .; Зимек, А .; Кригель, Х. -П. (2012). «Обнаружение локальных выбросов пересмотрено: обобщенное представление о местности с приложениями для пространственного, видео и сетевого обнаружения выбросов». Интеллектуальный анализ данных и обнаружение знаний . 28 : 190–237. DOI : 10.1007 / s10618-012-0300-Z . S2CID 19036098 . 
  16. ^ Kriegel, HP ; Kröger, P .; Schubert, E .; Зимек, А. (2009). Обнаружение выбросов в параллельных осям подпространствах данных большой размерности . Достижения в области обнаружения знаний и интеллектуального анализа данных. Конспект лекций по информатике. 5476 . п. 831. DOI : 10.1007 / 978-3-642-01307-2_86 . ISBN 978-3-642-01306-5.
  17. ^ Kriegel, HP ; Kroger, P .; Schubert, E .; Зимек, А. (2012). Обнаружение выбросов в произвольно ориентированных подпространствах . 2012 IEEE 12-я Международная конференция по интеллектуальному анализу данных. п. 379. DOI : 10,1109 / ICDM.2012.21 . ISBN 978-1-4673-4649-8.
  18. ^ Fanaee-T, H .; Гама, Дж. (2016). «Тензорное обнаружение аномалий: междисциплинарный обзор» . Системы, основанные на знаниях . 98 : 130–147. DOI : 10.1016 / j.knosys.2016.01.027 .
  19. ^ Зимек, А .; Schubert, E .; Кригель, Х.-П. (2012). «Обзор неконтролируемого обнаружения выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. DOI : 10.1002 / sam.11161 .
  20. ^ Schölkopf, B .; Platt, JC; Shawe-Taylor, J .; Смола, AJ; Уильямсон, Р. К. (2001). «Оценка поддержки многомерного распределения». Нейронные вычисления . 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106 . DOI : 10.1162 / 089976601750264965 . PMID 11440593 . S2CID 2110475 .   
  21. ^ a b c Хокинс, Саймон; Он, Хунсин; Уильямс, Грэм; Бакстер, Рохан (2002). «Обнаружение выбросов с помощью репликаторных нейронных сетей». Хранилище данных и открытие знаний . Конспект лекций по информатике. 2454 . С. 170–180. CiteSeerX 10.1.1.12.3366 . DOI : 10.1007 / 3-540-46145-0_17 . ISBN  978-3-540-44123-6.
  22. ^ Дж. Ан и С. Чо, "Обнаружение аномалий на основе вариационного автокодера с использованием вероятности восстановления", 2015.
  23. ^ Малхотра, Панкадж; Виг, Ловекеш; Шрофф, Готман; Агарвал, Пунит (22–24 апреля 2015 г.). Сети долгосрочной краткосрочной памяти для обнаружения аномалий во временных рядах . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению. Брюгге (Бельгия).
  24. ^ He, Z .; Сюй, X .; Дэн, С. (2003). «Обнаружение кластерных локальных выбросов». Письма о распознавании образов . 24 (9–10): 1641–1650. CiteSeerX 10.1.1.20.4242 . DOI : 10.1016 / S0167-8655 (03) 00003-5 . 
  25. ^ Кампелло, RJGB; Moulavi, D .; Зимек, А .; Сандер, Дж. (2015). «Иерархические оценки плотности для кластеризации данных, визуализации и обнаружения выбросов». ACM-транзакции при обнаружении знаний из данных . 10 (1): 5: 1–51. DOI : 10.1145 / 2733381 . S2CID 2887636 . 
  26. ^ Lazarevic, A .; Кумар, В. (2005). Функция упаковки для обнаружения выбросов . Proc. 11-я Международная конференция ACM SIGKDD по открытию знаний в интеллектуальном анализе данных . С. 157–166. CiteSeerX 10.1.1.399.425 . DOI : 10.1145 / 1081870.1081891 . ISBN  978-1-59593-135-1. S2CID  2054204 .
  27. ^ Нгуен, HV; Ang, HH; Гопалкришнан, В. (2010). Поиск выбросов с помощью ансамбля неоднородных детекторов на случайных подпространствах . Системы баз данных для сложных приложений. Конспект лекций по информатике. 5981 . п. 368. DOI : 10.1007 / 978-3-642-12026-8_29 . ISBN 978-3-642-12025-1.
  28. ^ Kriegel, HP ; Kröger, P .; Schubert, E .; Зимек, А. (2011). Интерпретация и унификация результатов выбросов . Материалы Международной конференции SIAM 2011 по интеллектуальному анализу данных. С. 13–24. CiteSeerX 10.1.1.232.2719 . DOI : 10.1137 / 1.9781611972818.2 . ISBN  978-0-89871-992-5.
  29. ^ Шуберт, E .; Wojdanowski, R .; Зимек, А .; Кригель, HP (2012). Об оценке резко отклоняющихся рейтингов и резко отклоняющихся результатов . Материалы Международной конференции SIAM 2012 по интеллектуальному анализу данных. С. 1047–1058. DOI : 10.1137 / 1.9781611972825.90 . ISBN 978-1-61197-232-0.
  30. ^ Зимек, А .; Кампелло, RJGB; Сандер, младший (2014). «Ансамбли для неконтролируемого обнаружения выбросов». Информационный бюллетень ACM SIGKDD Explorations . 15 : 11–22. DOI : 10.1145 / 2594473.2594476 . S2CID 8065347 . 
  31. ^ Зимек, А .; Кампелло, RJGB; Сандер, младший (2014). Возмущение данных для ансамблей обнаружения выбросов . Материалы 26-й Международной конференции по управлению научными и статистическими базами данных - SSDBM '14. п. 1. дои : 10,1145 / 2618243,2618257 . ISBN 978-1-4503-2722-0.
  32. ^ Campos, Guilherme O .; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Б. Миченкова, Барбора; Шуберт, Эрих; Согласие, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. DOI : 10.1007 / s10618-015-0444-8 . ISSN 1384-5810 . S2CID 1952214 .  
  33. ^ Аномалии тест обнаружения хранилище данных из Ludwig-Максимилиана Universität München ; Зеркало в университете Сан-Паулу .
  34. Перейти ↑ Denning, DE (1987). «Модель обнаружения вторжений» (PDF) . IEEE Transactions по разработке программного обеспечения . SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127 . DOI : 10.1109 / TSE.1987.232894 . S2CID 10028835 .   
  35. ^ Teng, HS; Chen, K .; Лу, SC (1990). Адаптивное обнаружение аномалий в реальном времени с использованием индуктивно генерируемых последовательных шаблонов (PDF) . Материалы симпозиума компьютерного общества IEEE по исследованиям в области безопасности и конфиденциальности . С. 278–284. DOI : 10,1109 / RISP.1990.63857 . ISBN  978-0-8186-2060-7. S2CID  35632142 .
  36. ^ Джонс, Анита К .; Зилькен, Роберт С. (1999). «Обнаружение вторжений в компьютерные системы: обзор». Технический отчет, Департамент компьютерных наук, Университет Вирджинии, Шарлоттсвилль, Вирджиния . CiteSeerX 10.1.1.24.7802 . 
  37. ^ Кубица, J .; Мур, А. "Вероятностная идентификация шума и очистка данных" . Третья международная конференция IEEE по интеллектуальному анализу данных . IEEE Comput. Soc. DOI : 10.1109 / icdm.2003.1250912 . ISBN 0-7695-1978-4.