Обнаружение аномалий

В анализе данных обнаружение аномалий (также называемое обнаружением выбросов, а иногда и обнаружением новизны ) обычно понимается как идентификация редких элементов, событий или наблюдений, которые значительно отклоняются от большинства данных и не соответствуют четко определенному представление о нормальном поведении. ^[1] Такие примеры могут вызвать подозрение, что они созданы другим механизмом, ^[2] или могут показаться несовместимыми с остальной частью этого набора данных. ^[3]

Обнаружение аномалий находит применение во многих областях, включая кибербезопасность, медицину, машинное зрение, статистику, неврологию, правоохранительные органы и финансовое мошенничество, и это лишь некоторые из них. Первоначально аномалии искали на предмет явного отклонения или пропуска данных, чтобы помочь в статистическом анализе, например, для вычисления среднего или стандартного отклонения. Они также были удалены для улучшения прогнозов из таких моделей, как линейная регрессия, а совсем недавно их удаление помогло повысить производительность алгоритмов машинного обучения. Однако во многих приложениях аномалии сами по себе представляют интерес и являются наиболее желательными наблюдениями во всем наборе данных, которые необходимо идентифицировать и отделить от шума или нерелевантных выбросов.

Существуют три широкие категории методов обнаружения аномалий. ^[1] Для контролируемых методов обнаружения аномалий требуется набор данных, который был помечен как «нормальный» и «аномальный», и требует обучения классификатора. Однако этот подход редко используется при обнаружении аномалий из-за общей недоступности размеченных данных и присущей несбалансированности классов. Методы полуконтролируемого обнаружения аномалий предполагают, что некоторая часть данных помечена. Это может быть любая комбинация нормальных или аномальных данных, но чаще всего методы создают модель, представляющую нормальное поведение , из заданного набора данных нормального обучения, а затем проверяют вероятность того, что тестовый экземпляр будет сгенерирован моделью.Неконтролируемые методы обнаружения аномалий предполагают, что данные не имеют маркировки, и на сегодняшний день они наиболее часто используются из-за их более широкого и актуального применения.

В сообществах статистики и компьютерных наук было предпринято много попыток определить аномалию. К наиболее распространенным относятся:

Обнаружение аномалий применимо в очень большом количестве и разнообразии областей и является важной частью неконтролируемого машинного обучения. Таким образом, он имеет приложения для обнаружения вторжений в кибербезопасность , обнаружения мошенничества , обнаружения неисправностей, мониторинга работоспособности системы, обнаружения событий в сенсорных сетях, обнаружения нарушений экосистемы, обнаружения дефектов на изображениях с использованием машинного зрения , медицинской диагностики и правоохранительных органов. ^[4]

Обнаружение аномалий для систем обнаружения вторжений (IDS) было предложено Дороти Деннинг в 1986 году. ^[5] Обнаружение аномалий для IDS обычно достигается с помощью пороговых значений и статистики, но также может выполняться с помощью программных вычислений и индуктивного обучения. ^[6] Типы статистики, предложенные в 1999 году, включали профили пользователей, рабочих станций, сетей, удаленных хостов, групп пользователей и программ на основе частот, средних значений, дисперсий, ковариаций и стандартных отклонений. ^[7] Обратной стороной обнаружения аномалий при обнаружении вторжений является обнаружение неправильного использования .