Изоляционный лес

Лес изоляции - это алгоритм обучения без учителя для обнаружения аномалий, который работает по принципу изоляции аномалий ^[1] вместо наиболее распространенных методов профилирования нормальных точек. ^[2]

Рис. 1 - пример веб-трафика с потенциально аномальными точками.

В статистике аномалия (иначе говоря, выброс ) - это наблюдение или событие, которое настолько отличается от других событий, что вызывает подозрение, что оно было вызвано другим способом. Например, график на рисунке 1 представляет входящий трафик на веб-сервер, выраженный как количество запросов с трехчасовыми интервалами за период в один месяц. Достаточно просто взглянуть на картинку, что некоторые точки (отмеченные красным кружком) необычно высоки, что вызывает подозрение, что веб-сервер мог быть атакован в то время. С другой стороны, плоский сегмент, обозначенный красной стрелкой, также кажется необычным и, возможно, может быть признаком того, что сервер не работал в течение этого периода времени.

Аномалии в большом наборе данных могут следовать очень сложным схемам, которые в подавляющем большинстве случаев трудно обнаружить «на глаз». По этой причине область обнаружения аномалий хорошо подходит для применения методов машинного обучения .

Наиболее распространенные методы, используемые для обнаружения аномалий, основаны на построении профиля того, что является «нормальным»: аномалии сообщаются как те экземпляры в наборе данных, которые не соответствуют нормальному профилю. ^[2] Isolation Forest использует другой подход: вместо того, чтобы пытаться построить модель обычных экземпляров, он явно изолирует аномальные точки в наборе данных. Основным преимуществом этого подхода является возможность использования методов выборки до такой степени, которая недопустима для методов на основе профилей, создавая очень быстрый алгоритм с низким потреблением памяти. ^[1]^[3]^[4]

История

Алгоритм Isolation Forest (iForest) был первоначально предложен Фэй Тони Лю, Кай Мин Тинг и Чжи-Хуа Чжоу в 2008 году. ^[1] Авторы воспользовались преимуществами двух количественных свойств точек аномальных данных в выборке:

Мало - это меньшинство, состоящее из меньшего количества экземпляров и
Разные - у них есть значения атрибутов, которые сильно отличаются от значений обычных экземпляров.

Поскольку аномалии «немногочисленны и различны», их легче «изолировать» по сравнению с нормальными точками. Isolation Forest строит ансамбль «Деревьев изоляции» (iTrees) для набора данных, а аномалии - это точки, которые имеют более короткие средние длины пути на iTrees.

В более поздней статье, опубликованной в 2012 году ^[2], те же авторы описали серию экспериментов, чтобы доказать, что iForest:

имеет низкую линейную временную сложность и небольшие требования к памяти
может работать с многомерными данными с нерелевантными атрибутами
можно обучать с аномалиями в обучающей выборке или без них
может предоставлять результаты обнаружения с разными уровнями детализации без повторного обучения

В 2013 году Чжиго Дин и Минжуй Фэй предложили фреймворк на основе iForest для решения проблемы обнаружения аномалий в потоковой передаче данных. ^[5] Дополнительные возможности применения iForest для потоковой передачи данных описаны в статьях Tan et al., ^[4] Susto et al. ^[6] и Weng et al. ^[7]

Одна из основных проблем применения iForest для обнаружения аномалий заключалась не в самой модели, а в том, как рассчитывалась «оценка аномалий». Эта проблема была подчеркнута Сахандом Харири, Матиасом Карраско Кинд и Робертом Дж. Бруннером в статье 2018 года ^{[8], в} которой они предложили улучшенную модель iForest под названием Extended Isolation Forest (EIF). В той же статье авторы описывают улучшения, внесенные в исходную модель, и то, как они могут повысить согласованность и надежность оценки аномалии, полученной для данной точки данных.

Алгоритм

Рис. 2 - пример выделения неаномальной точки в двумерном распределении Гаусса.

В основе алгоритма Isolation Forest лежит тенденция к тому, что аномальные экземпляры в наборе данных легче отделить от остальной части выборки (изолировать) по сравнению с нормальными точками. Чтобы изолировать точку данных, алгоритм рекурсивно генерирует разделы для выборки, случайным образом выбирая атрибут, а затем случайным образом выбирая значение разделения для атрибута между минимальным и максимальным значениями, разрешенными для этого атрибута.

Рис. 3 - пример выделения аномальной точки в двумерном распределении Гаусса.

Пример случайного разделения в наборе 2D данных нормально распределенных точек приведен на рис. 2 для неаномальной точки и на рис. 3 для точки, которая с большей вероятностью может быть аномалией. Из изображений видно, что аномалии требуют меньшего количества случайных разделов для изолирования по сравнению с нормальными точками.

С математической точки зрения рекурсивное разделение может быть представлено древовидной структурой с именем Isolation Tree , в то время как количество разделов, необходимых для изоляции точки, можно интерпретировать как длину пути внутри дерева, чтобы достичь конечного узла, начиная с из корня. Например, длина пути точки ${\ displaystyle x_ {i}}$ на рис.2 больше, чем длина пути ${\ displaystyle x_ {j}}$ на рис.3.

Более формально, пусть ${\ displaystyle X = \ {x_ {1}, \ dots, x_ {n} \}}$ - множество d-мерных точек и ${\ Displaystyle X '\ подмножество X}$ . Дерево изоляции (iTree) определяется как структура данных со следующими свойствами:

для каждого узла ${\ displaystyle T}$ в дереве, ${\ displaystyle T}$ является либо внешним узлом без дочерних узлов, либо внутренним узлом с одним «тестом» и ровно двумя дочерними узлами ( ${\ displaystyle T_ {l}}$ а также ${\ displaystyle T_ {r}}$ )
тест на узле ${\ displaystyle T}$ состоит из атрибута ${\ displaystyle q}$ и разделенное значение ${\ displaystyle p}$ так что тест ${\ displaystyle q }>$ определяет переход точки данных либо к ${\ displaystyle T_ {l}}$ или же ${\ displaystyle T_ {r}}$ .

Чтобы построить iTree, алгоритм рекурсивно делит ${\ displaystyle X '}$ путем случайного выбора атрибута ${\ displaystyle q}$ и разделенное значение ${\ displaystyle p}$ , пока либо

узел имеет только один экземпляр, или
все данные в узле имеют одинаковые значения.

Когда iTree полностью вырастет, каждая точка в ${\ displaystyle X}$ изолирован на одном из внешних узлов. Интуитивно понятно, что аномальные точки - это те точки (поэтому их легче изолировать) с меньшей длиной пути в дереве, где длина пути ${\ displaystyle h (x_ {i})}$ точки ${\ displaystyle x_ {i} \ in X}$ определяется как количество ребер ${\ displaystyle x_ {i}}$ проходит от корневого узла до внешнего узла.

Вероятностное объяснение iTree дается в исходной статье iForest. ^[1]

Свойства изоляционного леса

Субдискретизация : поскольку iForest не нужно изолировать все нормальные случаи, он может часто игнорировать большие большую часть обучающей выборки. Как следствие, iForest работает очень хорошо, когда размер выборки остается небольшим, а это свойство контрастирует с подавляющим большинством существующих методов, где обычно желателен большой размер выборки. ^[1]^[2]
Заболачивание : когда нормальные экземпляры слишком близки к аномалиям, количество разделов, необходимых для разделения аномалий, увеличивается, явление, известное как заболачивание , что затрудняет iForest различение аномалий и нормальных точек. Одной из основных причин заболачивания является наличие слишком большого количества данных для обнаружения аномалии, что подразумевает, что одним из возможных решений проблемы является подвыборка. Поскольку iForest очень хорошо реагирует на подвыборку с точки зрения производительности, уменьшение количества точек в выборке также является хорошим способом уменьшить эффект заболачивания. ^[1]
Маскирование : когда количество аномалий велико, возможно, что некоторые из них объединяются в плотный и большой кластер, что затрудняет разделение отдельных аномалий и, в свою очередь, обнаружение таких точек как аномальных. Подобно заболачиванию, это явление (известное как « маскирование ») также более вероятно, когда количество точек в выборке велико, и его можно уменьшить с помощью суб-выборки. ^[1]
Данные высокой размерности : одним из основных ограничений стандартных методов, основанных на расстоянии, является их неэффективность при работе с наборами данных большой размерности: ^[9] Основная причина этого в том, что в многомерном пространстве каждая точка одинаково разрежена, поэтому использование меры разделения на основе расстояния довольно неэффективно. К сожалению, данные большой размерности также влияют на производительность обнаружения iForest, но производительность можно значительно улучшить, добавив тест выбора функций, такой как эксцесс, чтобы уменьшить размерность пространства выборки. ^[1]^[3]
Только нормальные экземпляры : iForest работает хорошо, даже если обучающий набор не содержит аномальных точек ^[3], причина в том, что iForest описывает распределение данных таким образом, что высокие значения длины пути ${\ displaystyle h (x_ {i})}$ соответствуют наличию точек данных. Как следствие, наличие аномалий практически не влияет на эффективность обнаружения iForest.

Обнаружение аномалий с помощью изолированного леса

Обнаружение аномалий с помощью Isolation Forest - это процесс, состоящий из двух основных этапов: ^[3]

на первом этапе обучающий набор данных используется для построения деревьев iTrees, как описано в предыдущих разделах.
на втором этапе каждый экземпляр в наборе тестов проходит через сборку iTrees на предыдущем этапе, и соответствующая «оценка аномалии» присваивается экземпляру с использованием алгоритма, описанного ниже.

После того, как всем экземплярам в наборе тестов была присвоена оценка аномалии, можно отметить как «аномалию» любую точку, оценка которой превышает предварительно определенный порог, который зависит от области применения анализа.

Оценка аномалий

Алгоритм вычисления оценки аномалии точки данных основан на наблюдении, что структура iTrees эквивалентна структуре деревьев двоичного поиска (BST): завершение внешнего узла iTree соответствует неудачному поиску в BST. . ^[3] Как следствие, оценка среднего ${\ Displaystyle ч (х)}$ для завершений внешнего узла то же самое, что и для неудачных поисков в BST, то есть ^[10]

${\ displaystyle c (m) = {\ begin {cases} 2H (m-1) - {\ frac {2 (m-1)} {n}} & {\ text {for}} m> 2 \\ 1 & {\ text {for}} m = 2 \\ 0 & {\ text {else}} \ end {case}}}$

где ${\ displaystyle n}$ это размер тестовых данных, ${\ displaystyle m}$ - размер выборки и ${\ displaystyle H}$ - номер гармоники, который можно оценить как ${\ Displaystyle Н (я) = пер (я) + \ гамма}$ , где ${\ displaystyle \ gamma = 0,5772156649}$ - постоянная Эйлера-Маскерони .

Приведенное выше значение c (m) представляет собой среднее значение ${\ Displaystyle ч (х)}$ дано ${\ displaystyle m}$ , поэтому мы можем использовать его для нормализации ${\ Displaystyle ч (х)}$ и получить оценку оценки аномалии для данного экземпляра x:

${\ Displaystyle s (х, м) = 2 ^ {\ гидроразрыва {-E (ч (х))} {с (м)}}}$

где ${\ Displaystyle Е (час (х))}$ среднее значение ${\ Displaystyle ч (х)}$ из коллекции iTrees. Интересно отметить, что для любого данного экземпляра ${\ displaystyle x}$ :

если ${\ displaystyle s}$ близко к ${\ displaystyle 1}$ тогда ${\ displaystyle x}$ очень вероятно, что это аномалия
если ${\ displaystyle s}$ меньше чем ${\ displaystyle 0.5}$ тогда ${\ displaystyle x}$ скорее всего будет нормальным значением
если для данной выборки всем экземплярам присваивается оценка аномалии около ${\ displaystyle 0.5}$ , то можно с уверенностью предположить, что в образце нет аномалии

Лес расширенной изоляции

Как описано в предыдущих разделах, алгоритм Isolation Forest очень хорошо работает как с точки зрения вычислений, так и с точки зрения потребления памяти. Основная проблема исходного алгоритма заключается в том, что способ ветвления деревьев вносит систематическую ошибку, которая, вероятно, снижает надежность оценок аномалий для ранжирования данных. Это основная мотивация внедрения алгоритма Extended Isolation Forest (EIF) Hariri et al. ^[8]

Рис.4 - двумерные нормально распределенные точки с нулевым средним и единичной ковариационной матрицей

Чтобы понять, почему исходный Isolation Forest страдает от этого предубеждения, авторы предоставляют практический пример, основанный на случайном наборе данных, взятом из двумерного нормального распределения с нулевым средним и ковариацией, заданными единичной матрицей. Пример такого набора данных показан на рис.4.

Глядя на рисунок, легко понять, что точки, падающие близко к (0, 0), скорее всего, будут нормальными точками, а точка, которая находится далеко от (0, 0), скорее всего, будет аномальной. Как следствие, оценка аномалии точки должна увеличиваться с почти круглым и симметричным рисунком, поскольку точка перемещается радиально наружу от «центра» распределения. На практике это не так, как демонстрируют авторы, генерируя карту оценок аномалий, созданную для распределения с помощью алгоритма Isolation Forest. Хотя оценки аномалии правильно увеличиваются по мере того, как точки перемещаются радиально наружу, они также создают прямоугольные области с более низкой оценкой аномалии в направлениях x и y по сравнению с другими точками, которые находятся примерно на том же радиальном расстоянии от центра.

Рис.5 - случайное разбиение с EIF

Можно продемонстрировать, что эти неожиданные прямоугольные области на карте оценки аномалии действительно являются артефактом, введенным алгоритмом, и в основном из-за того, что границы принятия решений в Isolation Forest ограничены либо вертикальными, либо горизонтальными (см. Рис. 2). и рис. 3). ^[8]

По этой причине в своей статье Hariri et al. предлагают улучшить исходный Isolation Forest следующим образом: вместо того, чтобы выбирать случайный объект и значение из диапазона данных, они выбирают срез ветви со случайным «уклоном». Пример случайного разбиения с EIF показан на рисунке 5.

Авторы показывают, как новый подход может преодолеть ограничения оригинального Isolation Forest, что в конечном итоге приводит к улучшенной карте оценки аномалий.

Реализации с открытым исходным кодом

Spark iForest - распределенная реализация на Scala и Python, работающая на Apache Spark . Автор Ян Фанчжоу .
Isolation Forest - реализация Spark / Scala, созданная Джеймсом Вербусом из команды LinkedIn Anti-Abuse AI.
EIF - реализация расширенного изоляционного леса для обнаружения аномалий, автор Саханд Харири
Реализация Python с примерами в scikit-learn .
Реализация пакета Solitude в R от Srikanth Komala Sheshachala

Смотрите также

Обнаружение аномалий
Apache Spark
Случайный лес