Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Переменное дерево решений (ADTree) является машинным обучением метод классификации. Он обобщает деревья решений и связан с бустингом .

ADTree состоит из чередования узлов решения, которые определяют условие предиката, и узлов прогнозирования, которые содержат одно число. Экземпляр классифицируется ADTree, следуя всем путям, для которых все узлы решения истинны, и суммируя все пройденные узлы прогнозирования.

История [ править ]

ADTrees были представлены Йоавом Фройндом и Лью Мэйсоном. [1] Однако представленный алгоритм содержал несколько типографских ошибок. Разъяснения и оптимизации были позже представлены Бернхардом Пфарингером, Джеффри Холмсом и Ричардом Киркби. [2] Реализации доступны в Weka и JBoost.

Мотивация [ править ]

Оригинальные алгоритмы повышения обычно использовали либо пни решений, либо деревья решений в качестве слабых гипотез. В качестве примера, усиление пней для принятия решения создает набор взвешенных пней для принятия решения (где - количество итераций повышения), которые затем голосуют за окончательную классификацию в соответствии с их весами. Отдельные этапы принятия решений оцениваются в зависимости от их способности классифицировать данные.

Повышение уровня простого ученика приводит к неструктурированному набору гипотез, что затрудняет вывод корреляций между атрибутами. Чередующиеся деревья решений привносят структуру в набор гипотез, требуя, чтобы они основывались на гипотезе, выдвинутой на более ранней итерации. Результирующий набор гипотез может быть визуализирован в виде дерева на основе взаимосвязи между гипотезой и ее «родителем».

Другой важной особенностью алгоритмов с усилением является то, что данные распределяются по- разному на каждой итерации. Экземплярам, ​​которые неправильно классифицированы, присваивается больший вес, а точно классифицированным экземплярам - меньший вес.

Альтернативная древовидная структура решений [ править ]

Чередующееся дерево решений состоит из узлов решений и узлов прогнозирования. Узлы решения определяют условие предиката. Узлы прогноза содержат одно число. ADTrees всегда имеют узлы прогнозирования как корневые, так и конечные. Экземпляр классифицируется ADTree, следуя всем путям, для которых все узлы решения истинны, и суммируя все пройденные узлы прогнозирования. Это отличается от бинарных деревьев классификации, таких как CART ( дерево классификации и регрессии ) или C4.5, в которых экземпляр следует только по одному пути через дерево.

Пример [ править ]

Следующее дерево было построено с использованием JBoost на наборе данных спамбаза [3] (доступно в репозитории машинного обучения UCI). [4] В этом примере спам кодируется как1, а обычная электронная почта кодируется как−1 .

ADTree для 6 итераций набора данных Spambase.

В следующей таблице содержится часть информации для одного экземпляра.

Экземпляр оценивается путем суммирования всех узлов прогнозирования, через которые он проходит. В случае, приведенном выше, оценка рассчитывается как

Окончательная оценка 0,657 положительный, поэтому экземпляр классифицируется как спам. Величина значения является мерой уверенности в прогнозе. Первоначальные авторы перечисляют три возможных уровня интерпретации набора атрибутов, идентифицированных ADTree:

  • Отдельные узлы могут быть оценены на предмет их предсказательной способности.
  • Наборы узлов на одном пути могут интерпретироваться как имеющие совместный эффект.
  • Дерево можно трактовать как единое целое.

Следует проявлять осторожность при интерпретации отдельных узлов, поскольку оценки отражают повторное взвешивание данных на каждой итерации.

Описание алгоритма [ править ]

Входными данными для алгоритма чередующегося дерева решений являются:

  • Набор входных данных, где - вектор атрибутов, принимающий значение -1 или 1. Входные данные также называются экземплярами.
  • Набор весов, соответствующий каждому экземпляру.

Основным элементом алгоритма ADTree является правило. Одно правило состоит из предусловия, условия и двух оценок. Условие - это предикат формы «значение атрибута <сравнение>». Предварительное условие - это просто логическая комбинация условий. Оценка правила включает пару вложенных операторов if:

1 если (предварительное условие)2 if (условие)3 вернуть score_one4 еще
5 вернуть score_two6 end if
7 else
8 return 09 конец, если

Алгоритму также требуются несколько вспомогательных функций:

  • возвращает сумму весов всех положительно помеченных примеров, удовлетворяющих предикату
  • возвращает сумму весов всех отрицательно помеченных примеров, удовлетворяющих предикату
  • возвращает сумму весов всех примеров, удовлетворяющих предикату

Алгоритм следующий:

1 функция ad_tree2 входа Набор из m обучающих экземпляров3 4 w i = 1 / m для всех i
5
6 R 0 = правило с оценками a и 0 , предварительным условием «истинно» и условием «истинно».7
8 множество всех возможных условий
9 для
10 значений GET , которые минимизируют
11
12
13
14 R J = новое правило с предпосылкой р , условием С , а весовыми коэффициентами 1 и 2
15
16 конца для
17 возврата множество R J  

Набор увеличивается на два предварительных условия в каждой итерации, и можно вывести древовидную структуру набора правил, отметив предварительное условие, которое используется в каждом последующем правиле.

Эмпирические результаты [ править ]

Рисунок 6 в исходной статье [1] демонстрирует, что деревья ADTree обычно столь же устойчивы, как и деревья решений с усилением и пни решений с расширением . Как правило, эквивалентной точности можно достичь с помощью гораздо более простой древовидной структуры, чем алгоритмы рекурсивного разделения.

Ссылки [ править ]

  1. ^ а б Йоав Фройнд и Лью Мейсон. Алгоритм чередующегося дерева решений. Труды 16-й Международной конференции по машинному обучению, страницы 124-133 (1999)
  2. ^ Бернхард Пфарингер, Джеффри Холмс и Ричард Киркби. Оптимизация индукции чередующихся деревьев решений. Труды пятой Тихоокеанско-азиатской конференции по достижениям в области обнаружения знаний и интеллектуального анализа данных. 2001, стр. 477-487.
  3. ^ "Репозиторий машинного обучения UCI" . Ics.uci.edu . Проверено 16 марта 2012 .
  4. ^ "Репозиторий машинного обучения UCI" . Ics.uci.edu . Проверено 16 марта 2012 .

Внешние ссылки [ править ]

  • Введение в Boosting и ADTrees ( содержит множество графических примеров чередования деревьев решений на практике).
  • Программное обеспечение JBoost, реализующее ADTrees.