В обучении дерева решений , коэффициент усиления информации представляет собой отношение прироста информации к внутренней информации. Он был предложен Росс Куинлан , [1] , чтобы уменьшить уклон в сторону многозначных атрибутов, принимая число и размер филиалов во внимание при выборе атрибута. [2]
Получение информации также известно как взаимная информация . [3]
Расчет сбора информации
Позволять быть набором всех атрибутов и набор всех обучающих примеров, с участием определяет значение конкретного примера для атрибута , определяет энтропию . В функция обозначает набор всех возможных значений атрибута . Информационный прирост для атрибута определяется следующим образом:
Прирост информации равен общей энтропии для атрибута, если для каждого из значений атрибута может быть сделана уникальная классификация для атрибута результата. В этом случае относительные энтропии, вычитаемые из полной энтропии, равны 0.
Расчет внутренней стоимости
Внутренняя ценность теста определяется следующим образом:
Расчет коэффициента передачи информации
Коэффициент усиления информации - это просто соотношение между получением информации и внутренней ценностью:
Преимущества
Коэффициент усиления информации смещает дерева решений в отношении с учетом атрибутов с большим количеством различных значений. Таким образом, он устраняет недостаток получения информации, а именно: получение информации, применяемое к атрибутам, которые могут принимать большое количество различных значений, может слишком хорошо изучить обучающий набор . Например, предположим, что мы строим дерево решений для некоторых данных, описывающих клиентов компании. Получение информации часто используется для того, чтобы решить, какие из атрибутов наиболее актуальны, чтобы их можно было проверить рядом с корнем дерева. Одним из входных атрибутов может быть номер кредитной карты клиента . Этот атрибут имеет высокую информационную ценность, поскольку он однозначно идентифицирует каждого клиента, но мы не хотим включать его в дерево решений: принятие решения о том, как обращаться с клиентом на основе номера его кредитной карты, вряд ли будет распространено на клиентов, которых у нас нет видел раньше.