Сбор информации в деревьях решений

В теории информации и машинного обучения , усиление информации является синонимом Кульбак-Лейблера дивергенции ; объем информации , накопленный о случайной переменной или сигнала от наблюдения другой случайной величины. Однако в контексте деревьев решений этот термин иногда используется как синоним взаимной информации , которая представляет собой условное математическое ожидание отклонения Кульбака – Лейблера одномерного распределения вероятностей одной переменной от условного распределения этой переменной с учетом другой. .

Информационный прирост случайной величины X, полученный в результате наблюдения случайной величины A, принимающей значение ${\ displaystyle A = a}$ определено

{\ displaystyle IG_ {X, A} {(X, a)} = D _ {\ text {KL}} {\ left (P_ {X} {(x | a)} \ | P_ {X} {(x | Я прав)},}

расхождение Кульбака – Лейблера априорного распределения

{\ Displaystyle P_ {X} {(х | I)}}

для x из апостериорного распределения

{\ Displaystyle P_ {X | A} {(х | а)}}

для x с учетом a .

Ожидаемое значение усиления информации является взаимной информацией ${\ Displaystyle I (Х; А)}$ из X и А - то есть уменьшение энтропии в X достигается путем изучения состояния случайной величины А .

В машинном обучении, эта концепция может быть использована для определения предпочтительной последовательности атрибутов , чтобы исследовать наиболее быстро сузить состояние X . Такая последовательность (которая зависит от результата исследования предыдущих атрибутов на каждом этапе) называется деревом решений и применяется в области машинного обучения, известной как обучение дерева решений . Обычно атрибут с высокой взаимной информацией должен быть предпочтительнее других атрибутов. ^{[ почему? ]}

Общее определение

В общих чертах, ожидаемый информационный выигрыш - это изменение информационной энтропии $Η$ от предыдущего состояния к состоянию, которое принимает некоторую информацию как заданную:

{\ Displaystyle IG (T, a) = \ mathrm {H} {(T)} - \ mathrm {H} {(T | a)},}

где ${\ Displaystyle \ mathrm {H} {(Т | а)}}$ это условная энтропия из ${\ displaystyle T}$ учитывая значение атрибута ${\ displaystyle a}$ .

Формальное определение

Позволять ${\ displaystyle T}$ обозначают набор обучающих примеров , каждый из которых имеет вид ${\ displaystyle ({\ textbf {x}}, y) = (x_ {1}, x_ {2}, x_ {3}, ..., x_ {k}, y)}$ где ${\ displaystyle x_ {a} \ in vals (а)}$ стоимость ${\ displaystyle a ^ {\ text {th}}}$ Атрибут или функция из примера ${\ displaystyle {\ textbf {x}}}$ а $y$ - соответствующая метка класса. Информационный прирост для атрибута ${\ displaystyle a}$ определяется в терминах энтропии Шеннона ${\ Displaystyle \ mathrm {H} (-)}$ следующим образом. Для стоимости ${\ displaystyle v}$ взят по атрибуту ${\ displaystyle a}$ , позволять

{\ Displaystyle S_ {a} {(v)} = \ {{\ textbf {x}} \ in T | x_ {a} = v \}}

быть определенным как набор обучающих входов

{\ displaystyle T}

для какого атрибута

{\ displaystyle a}

равно

{\ displaystyle v}

. Тогда информационный прирост

{\ displaystyle T}

для атрибута

{\ displaystyle a}

есть разница между априорной энтропией Шеннона

{\ Displaystyle \ mathrm {H} (T)}

обучающей выборки и условной энтропии

{\ Displaystyle \ mathrm {H} {(Т | а)}}

.

{\ displaystyle \ mathrm {H} (T | a) = \ sum _ {v \ in vals (a)} {{\ frac {| S_ {a} {(v)} |} {| T |}} \ cdot \ mathrm {H} \ left (S_ {a} {\ left (v \ right)} \ right)}.}

{\ Displaystyle IG (T, a) = \ mathrm {H} (T) - \ mathrm {H} (T | a)}

Взаимная информация равна полной энтропии для атрибута , если для каждого из значений атрибутов уникальной классификация может быть сделана для атрибута результата. В этом случае относительные энтропии, вычитаемые из общей энтропии, равны 0. В частности, значения ${\ displaystyle v \ in vals (а)}$ определяет раздел данных обучающего набора ${\ displaystyle T}$ на взаимоисключающие и всеобъемлющие подмножества , вызывая категориальное распределение вероятностей ${\ textstyle P_ {a} {(v)}}$ о ценностях ${\ textstyle v \ in vals (а)}$ атрибута ${\ displaystyle a}$ . Распределение дано ${\ textstyle P_ {a} {(v)}: = {\ frac {| S_ {a} {(v)} |} {| T |}}}$ . В этом представлении информационный прирост ${\ displaystyle T}$ дано ${\ displaystyle a}$ можно определить как разность безусловной энтропии Шеннона ${\ displaystyle T}$ и ожидаемая энтропия ${\ displaystyle T}$ при условии ${\ displaystyle a}$ , где математическое ожидание берется относительно индуцированного распределения по значениям ${\ displaystyle a}$ .

{\ Displaystyle {\ begin {alignat} {2} IG (T, a) & = \ mathrm {H} (T) - \ sum _ {v \ in vals (a)} {P_ {a} {(v) } \ mathrm {H} \ left (S_ {a} {(v)} \ right)} \\ & = \ mathrm {H} (T) - \ mathbb {E} _ {P_ {a}} {\ left [\ mathrm {H} {(S_ {a} {(v)})} \ right]} \\ & = \ mathrm {H} (T) - \ mathrm {H} {(T | a)}. \ конец {alignat}}}

Недостатки

Хотя получение информации обычно является хорошей мерой для определения релевантности атрибута, он не идеален. Заметная проблема возникает, когда информационное усиление применяется к атрибутам, которые могут принимать большое количество различных значений. Например, предположим, что кто-то строит дерево решений для некоторых данных, описывающих клиентов компании. Получение информации часто используется для того, чтобы решить, какие из атрибутов наиболее актуальны, чтобы их можно было проверить рядом с корнем дерева. Одним из входных атрибутов может быть номер кредитной карты клиента. Этот атрибут имеет много взаимной информации, потому что он однозначно идентифицирует каждого клиента, но мы не хотим включать его в дерево решений: принятие решения о том, как обращаться с клиентом на основе номера его кредитной карты, вряд ли будет распространено на клиентов, которых у нас нет. видел раньше ( переоснащение ).

Чтобы противостоять этой проблеме, Росс Куинлан предложил вместо этого выбрать атрибут с наивысшим коэффициентом полезности информации из тех атрибутов, у которых информационная эффективность является средней или выше. ^[1] Это смещает дерево решений в отношении рассмотрения атрибутов с большим количеством различных значений, но не дает несправедливого преимущества атрибутам с очень низким информационным значением, поскольку информационное значение выше или равно информационному выигрышу. ^[2]

Пример

Давайте воспользуемся этой таблицей в качестве набора данных и воспользуемся полученной информацией, чтобы классифицировать, болен ли пациент каким-либо заболеванием. Пациенты, классифицированные как истинные (T), больны, а пациенты, классифицированные как ложные (F), не болеют. В настоящее время мы находимся в корневом узле дерева и должны рассмотреть все возможные разбиения с использованием данных.

Набор данных обучения
Пациент	Симптом А	Симптом B	Симптом C	Классификация
1	Т	Т	Т	F
2	Т	F	Т	Т
3	F	F	Т	Т
4	F	Т	Т	F
5	F	Т	F	Т

Разделение кандидатов определяется путем рассмотрения каждой переменной, составляющей пациента, и ее состояний. В этом примере все симптомы могут быть истинными (T) или ложными (F).

Раскол кандидатов
Расколоть	Дочерние узлы
1	Симптом A = T, Симптом A = F
2	Симптом B = T, Симптом B = F
3	Симптом C = T, Симптом C = F

Теперь для расщепления №1 мы определяем энтропию до расщепления, которая определяется с использованием классификации каждого пациента.

${\ Displaystyle H (T) = - 3/5 \ log _ {2} (3/5) -2/5 \ log _ {2} (2/5) = 0,971}$

Условная энтропия расщепления №1 определяется путем нахождения энтропии каждого состояния симптома A и их объединения.

${\ Displaystyle H (T | a) = 2/5 (-1/2 \ log _ {2} (1/2) -1/2 \ log _ {2} (1/2)) + 3/5 ( -2/3 \ log _ {2} (2/3) -1/3 \ log _ {2} (1/3)) = 2/5 (1) +3/5 (0,918) = 0,951}$

Информационный прирост затем может быть определен путем нахождения разницы в априорной энтропии и условной энтропии.

${\ Displaystyle IG (T, a) = H (T) -H (T | a) = 0,971-0,951 = 0,02}$

Пример разделения корневого узла

Эти шаги повторяются для всех групп кандидатов, чтобы получить их информацию. Все кандидаты на разбиения для узла используют одно и то же значение для ${\ Displaystyle H (T)}$ .

Разделение кандидатов на получение информации
Расколоть	Получение информации
1	0,020
2	0,419
3	0,171

Разделение кандидатов №2 имеет наибольшее информационное усиление, поэтому оно будет наиболее благоприятным для корневого узла. В зависимости от достоверности классификации дочерних узлов, получение информации может применяться к дочерним узлам, но не может использовать одно и то же разбиение-кандидат.

Смотрите также

Получение информации в более широком смысле
Обучение дереву решений
Информационное содержание , отправная точка теории информации и основа энтропии Шеннона
Коэффициент получения информации
Алгоритм ID3
- C4.5 алгоритм
Неожиданный анализ

дальнейшее чтение

Митчелл, Том М. (1997). Машинное обучение . ISBN компании Mc-Graw-Hill Companies, Inc. 978-0070428072.

[1] Куинлан, Дж. Росс (1986). «Индукция деревьев решений» . Машинное обучение . 1 (1): 81–106. DOI : 10.1007 / BF00116251 .

[2] Мильман, Орен (6 августа 2018 г.). «Каков диапазон коэффициента передачи информации?» . Обмен стеками . Проверено 9 октября 2018 .

[1]