В теории информации и машинного обучения , усиление информации является синонимом Кульбак-Лейблера дивергенции ; объем информации , накопленный о случайной переменной или сигнала от наблюдения другой случайной величины. Однако в контексте деревьев решений этот термин иногда используется как синоним взаимной информации , которая представляет собой условное математическое ожидание отклонения Кульбака – Лейблера одномерного распределения вероятностей одной переменной от условного распределения этой переменной с учетом другой. .
Информационный прирост случайной величины X, полученный в результате наблюдения случайной величины A, принимающей значение определено
Ожидаемое значение усиления информации является взаимной информацией из X и А - то есть уменьшение энтропии в X достигается путем изучения состояния случайной величины А .
В машинном обучении, эта концепция может быть использована для определения предпочтительной последовательности атрибутов , чтобы исследовать наиболее быстро сузить состояние X . Такая последовательность (которая зависит от результата исследования предыдущих атрибутов на каждом этапе) называется деревом решений и применяется в области машинного обучения, известной как обучение дерева решений . Обычно атрибут с высокой взаимной информацией должен быть предпочтительнее других атрибутов. [ почему? ]
Общее определение
В общих чертах, ожидаемый информационный выигрыш - это изменение информационной энтропии Η от предыдущего состояния к состоянию, которое принимает некоторую информацию как заданную:
где это условная энтропия изучитывая значение атрибута .
Формальное определение
Позволять обозначают набор обучающих примеров , каждый из которых имеет вид где стоимость Атрибут или функция из примера а y - соответствующая метка класса. Информационный прирост для атрибутаопределяется в терминах энтропии Шеннона следующим образом. Для стоимости взят по атрибуту , позволять
Взаимная информация равна полной энтропии для атрибута , если для каждого из значений атрибутов уникальной классификация может быть сделана для атрибута результата. В этом случае относительные энтропии, вычитаемые из общей энтропии, равны 0. В частности, значенияопределяет раздел данных обучающего наборана взаимоисключающие и всеобъемлющие подмножества , вызывая категориальное распределение вероятностей о ценностях атрибута . Распределение дано. В этом представлении информационный прирост дано можно определить как разность безусловной энтропии Шеннона и ожидаемая энтропия при условии , где математическое ожидание берется относительно индуцированного распределения по значениям.
Недостатки
Хотя получение информации обычно является хорошей мерой для определения релевантности атрибута, он не идеален. Заметная проблема возникает, когда информационное усиление применяется к атрибутам, которые могут принимать большое количество различных значений. Например, предположим, что кто-то строит дерево решений для некоторых данных, описывающих клиентов компании. Получение информации часто используется для того, чтобы решить, какие из атрибутов наиболее актуальны, чтобы их можно было проверить рядом с корнем дерева. Одним из входных атрибутов может быть номер кредитной карты клиента. Этот атрибут имеет много взаимной информации, потому что он однозначно идентифицирует каждого клиента, но мы не хотим включать его в дерево решений: принятие решения о том, как обращаться с клиентом на основе номера его кредитной карты, вряд ли будет распространено на клиентов, которых у нас нет. видел раньше ( переоснащение ).
Чтобы противостоять этой проблеме, Росс Куинлан предложил вместо этого выбрать атрибут с наивысшим коэффициентом полезности информации из тех атрибутов, у которых информационная эффективность является средней или выше. [1] Это смещает дерево решений в отношении рассмотрения атрибутов с большим количеством различных значений, но не дает несправедливого преимущества атрибутам с очень низким информационным значением, поскольку информационное значение выше или равно информационному выигрышу. [2]
Пример
Давайте воспользуемся этой таблицей в качестве набора данных и воспользуемся полученной информацией, чтобы классифицировать, болен ли пациент каким-либо заболеванием. Пациенты, классифицированные как истинные (T), больны, а пациенты, классифицированные как ложные (F), не болеют. В настоящее время мы находимся в корневом узле дерева и должны рассмотреть все возможные разбиения с использованием данных.
Пациент | Симптом А | Симптом B | Симптом C | Классификация |
---|---|---|---|---|
1 | Т | Т | Т | F |
2 | Т | F | Т | Т |
3 | F | F | Т | Т |
4 | F | Т | Т | F |
5 | F | Т | F | Т |
Разделение кандидатов определяется путем рассмотрения каждой переменной, составляющей пациента, и ее состояний. В этом примере все симптомы могут быть истинными (T) или ложными (F).
Расколоть | Дочерние узлы |
---|---|
1 | Симптом A = T, Симптом A = F |
2 | Симптом B = T, Симптом B = F |
3 | Симптом C = T, Симптом C = F |
Теперь для расщепления №1 мы определяем энтропию до расщепления, которая определяется с использованием классификации каждого пациента.
Условная энтропия расщепления №1 определяется путем нахождения энтропии каждого состояния симптома A и их объединения.
Информационный прирост затем может быть определен путем нахождения разницы в априорной энтропии и условной энтропии.
Эти шаги повторяются для всех групп кандидатов, чтобы получить их информацию. Все кандидаты на разбиения для узла используют одно и то же значение для.
Расколоть | Получение информации |
---|---|
1 | 0,020 |
2 | 0,419 |
3 | 0,171 |
Разделение кандидатов №2 имеет наибольшее информационное усиление, поэтому оно будет наиболее благоприятным для корневого узла. В зависимости от достоверности классификации дочерних узлов, получение информации может применяться к дочерним узлам, но не может использовать одно и то же разбиение-кандидат.
Смотрите также
- Получение информации в более широком смысле
- Обучение дереву решений
- Информационное содержание , отправная точка теории информации и основа энтропии Шеннона
- Коэффициент получения информации
- Алгоритм ID3
- Неожиданный анализ
Рекомендации
- ^ Куинлан, Дж. Росс (1986). «Индукция деревьев решений» . Машинное обучение . 1 (1): 81–106. DOI : 10.1007 / BF00116251 .
- ^ Мильман, Орен (6 августа 2018 г.). «Каков диапазон коэффициента передачи информации?» . Обмен стеками . Проверено 9 октября 2018 .
дальнейшее чтение
- Митчелл, Том М. (1997). Машинное обучение . ISBN компании Mc-Graw-Hill Companies, Inc. 978-0070428072.