Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Обучение дерева решений - один из подходов к прогнозному моделированию, используемых в статистике , интеллектуальном анализе данных и машинном обучении . Он использует дерево решений (в качестве модели прогнозирования ) для перехода от наблюдений за элементом (представленных в ветвях) к заключениям о целевом значении элемента (представленных в листьях). Модели деревьев, в которых целевая переменная может принимать дискретный набор значений, называются деревьями классификации ; в этих древовидных структурах листья представляют собой метки классов, а ветви представляют союзы.функций, которые ведут к этим меткам классов. Деревья решений, в которых целевая переменная может принимать непрерывные значения (обычно действительные числа ), называются деревьями регрессии . Деревья решений являются одними из самых популярных алгоритмов машинного обучения, учитывая их понятность и простоту. [1] [2]

При анализе решений дерево решений может использоваться для визуального и явного представления решений и принятия решений . При интеллектуальном анализе данных дерево решений описывает данные (но результирующее дерево классификации может быть входом для принятия решения ). На этой странице рассматриваются деревья решений при интеллектуальном анализе данных .

Общие [ править ]

Дерево, показывающее выживаемость пассажиров на Титанике («sibsp» - это количество супругов или братьев и сестер на борту). Цифры под листьями показывают вероятность выживания и процент наблюдений в листе. Подводя итог: ваши шансы на выживание были хорошими, если вы были (i) женщиной или (ii) мужчиной моложе 9,5 лет и имели строго менее трех братьев и сестер.

Изучение дерева решений - это метод, обычно используемый в интеллектуальном анализе данных. [3] Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких входных переменных.

Дерево решений - это простое представление для классификации примеров. В этом разделе предположим, что все входные функции имеют конечные дискретные области и существует единственная целевая функция, называемая «классификацией». Каждый элемент области классификации называется классом.. Дерево решений или дерево классификации - это дерево, в котором каждый внутренний (не листовой) узел помечен входной функцией. Дуги, исходящие из узла, помеченного входным элементом, помечаются каждым из возможных значений целевого элемента, или дуга ведет к подчиненному узлу решения на другом входном элементе. Каждый лист дерева помечен классом или распределением вероятностей по классам, что означает, что набор данных был отнесен деревом либо к определенному классу, либо к определенному распределению вероятностей (которое, если дерево решений в порядке -конструировано, смещено в сторону определенных подмножеств классов).

Дерево строится путем разделения исходного набора , составляющего корневой узел дерева, на подмножества, составляющие потомков-преемников. Разделение основано на наборе правил разделения, основанных на признаках классификации. [4] Этот процесс повторяется для каждого производного подмножества рекурсивным способом, называемым рекурсивным разделением . Рекурсии завершаются , когда подмножество в узле имеет то же значение целевых переменные, или , когда расщепление больше не повышает ценность предсказаний. Этот процесс нисходящей индукции деревьев решений (TDIDT) [5] является примером жадного алгоритма., и это, безусловно, наиболее распространенная стратегия изучения деревьев решений на основе данных. [ необходима цитата ]

В интеллектуальном анализе данных деревья решений можно описать также как комбинацию математических и вычислительных методов, помогающих описать, категоризировать и обобщить данный набор данных.

Данные поступают в виде записей в форме:

Зависимая переменная - это целевая переменная, которую мы пытаемся понять, классифицировать или обобщить. Вектор состоит из функций и т. Д., Которые используются для этой задачи.

Пример дерева, которое оценивает вероятность кифоза после операции с учетом возраста пациента и позвонка, на котором была начата операция. Одно и то же дерево отображается тремя разными способами. Слева . Цветные листья показывают вероятность кифоза после операции и процент пациентов на листе. Середина Дерево как перспективный сюжет. Справа Вид с воздуха на средний участок. Вероятность кифоза после операции выше на темных участках. (Примечание: лечение кифоза значительно продвинулось после того, как был собран этот довольно небольшой набор данных. [ Необходима ссылка ] )

Типы дерева решений [ править ]

Деревья решений, используемые в интеллектуальном анализе данных, бывают двух основных типов:

  • Классификационный древовидный анализ - это когда прогнозируемым результатом является класс (дискретный), к которому принадлежат данные.
  • Анализ дерева регрессии - это когда прогнозируемый результат можно рассматривать как действительное число (например, стоимость дома или продолжительность пребывания пациента в больнице).

Термин « анализ дерева классификации и регрессии (CART)» является обобщающим термином, используемым для обозначения обеих вышеупомянутых процедур, впервые введенных Breiman et al. в 1984 году. [6] Деревья, используемые для регрессии, и деревья, используемые для классификации, имеют некоторое сходство, но также и некоторые различия, такие как процедура, используемая для определения места разделения. [6]

Некоторые методы, часто называемые ансамблевыми методами, создают более одного дерева решений:

  • Усиленные деревья Постепенное создание ансамбля путем обучения каждого нового экземпляра, чтобы подчеркнуть ранее неправильно смоделированные обучающие экземпляры. Типичный пример - AdaBoost . Их можно использовать для задач регрессионного и классификационного типов. [7] [8]
  • Агрегированные (или упакованные) деревья решений начальной загрузки, метод раннего ансамбля, строят несколько деревьев решений путем многократной повторной выборки обучающих данных с заменой и голосования деревьев для согласованного прогноза. [9]
    • Случайный лес классификатор типа специфика начальной загрузки агрегирования
  • Лес вращения - в котором каждое дерево решений обучается путем применения анализа главных компонентов (PCA) к случайному подмножеству входных функций. [10]

Особый случай дерева решений является списком решений , [11] , которая является односторонним решением дерева, так что каждый внутренний узел имеет ровно один листовой узел и ровно один внутренний узла , как ребенок (для нижнего узла, которого , кроме единственный дочерний элемент - это единственный листовой узел). Несмотря на то, что списки решений менее выразительны, их легче понять, чем общие деревья решений, из-за их дополнительной разреженности, допускающих применение нежадных методов обучения [12] и монотонных ограничений. [13]

Известные алгоритмы дерева решений включают:

  • ID3 (Итерационный дихотомайзер 3)
  • C4.5 (преемник ID3)
  • КОРЗИНА (дерево классификации и регрессии) [6]
  • Автоматическое обнаружение взаимодействия по хи-квадрат (CHAID). Выполняет многоуровневое разбиение при вычислении деревьев классификации. [14]
  • MARS : расширяет деревья решений для лучшей обработки числовых данных.
  • Деревья условного вывода. Подход, основанный на статистике, который использует непараметрические тесты в качестве критериев разделения, скорректированный для множественного тестирования, чтобы избежать переобучения. Этот подход приводит к беспристрастному выбору предикторов и не требует отсечения. [15] [16]

ID3 и CART были изобретены независимо примерно в одно и то же время (между 1970 и 1980 годами) [ необходима цитата ] , но следуют аналогичному подходу для изучения дерева решений из обучающих кортежей.

Также было предложено использовать концепции теории нечетких множеств для определения специальной версии дерева решений, известного как нечеткое дерево решений (FDT). [17] В этом типе нечеткой классификации обычно входной вектор связан с несколькими классами, каждый с различным значением достоверности. Недавно были исследованы усиленные ансамбли FDT, и они показали производительность, сопоставимую с характеристиками других очень эффективных нечетких классификаторов. [18]

Показатели [ править ]

Алгоритмы построения деревьев решений обычно работают сверху вниз, выбирая на каждом шаге переменную, которая наилучшим образом разделяет набор элементов. [19] Различные алгоритмы используют разные метрики для измерения «лучшего». Обычно они измеряют однородность целевой переменной в подмножествах. Ниже приведены некоторые примеры. Эти показатели применяются к каждому подмножеству кандидатов, а полученные значения объединяются (например, усредняются), чтобы обеспечить меру качества разделения.

Примесь Джини [ править ]

Используемый алгоритмом CART (дерево классификации и регрессии) для деревьев классификации, примесь Джини является мерой того, как часто случайно выбранный элемент из набора будет неправильно помечен, если он был случайно помечен в соответствии с распределением ярлыков в подмножестве. Примесь Джини может быть вычислена путем суммирования вероятности выбора элемента с меткой , умноженной на вероятность ошибки при классификации этого элемента. Он достигает своего минимума (нуля), когда все наблюдения в узле попадают в одну целевую категорию.

Примесь Джини также является теоретико-информационной мерой и соответствует энтропии Цаллиса с коэффициентом деформации , что в физике связано с недостатком информации в неравновесных, неэкстенсивных, диссипативных и квантовых системах. Для предела восстанавливается обычная энтропия Больцмана-Гиббса или Шеннона. В этом смысле примесь Джини - всего лишь разновидность обычной меры энтропии для деревьев решений.

Чтобы вычислить примесь Джини для набора элементов с классами, предположим , и пусть будет долей элементов, помеченных классом в наборе.

Получение информации [ править ]

Используется алгоритмами построения деревьев ID3 , C4.5 и C5.0. Получение информации основано на концепции энтропии и информационного содержания из теории информации .

Энтропия определяется следующим образом

где дроби, которые в сумме составляют 1 и представляют процентную долю каждого класса, присутствующего в дочернем узле, который является результатом разделения в дереве. [20]

Усредняя по возможным значениям ,

То есть ожидаемый информационный выигрыш - это взаимная информация, а это означает, что в среднем уменьшение энтропии T - это взаимная информация.

Полученная информация используется для того, чтобы решить, какие функции следует разделять на каждом этапе построения дерева. Лучше всего простота, поэтому мы хотим, чтобы наше дерево было небольшим. Для этого на каждом шаге мы должны выбирать разбиение, которое приводит к чистейшим дочерним узлам. Обычно используемую меру чистоты называют информацией, которая измеряется в битах . Для каждого узла дерева информационное значение «представляет ожидаемый объем информации, которая потребуется, чтобы указать, следует ли классифицировать новый экземпляр« да »или« нет », учитывая, что пример достиг этого узла». [20]

Рассмотрим пример набора данных с четырьмя атрибутами: прогноз (солнечно, пасмурно, дождливо), температура (жарко, умеренно, прохладно), влажность (высокая, нормальная) и ветреная (правда, ложь) с двоичным (да или нет) целевая переменная, игра и 14 точек данных. Чтобы построить дерево решений на основе этих данных, нам нужно сравнить информационный прирост каждого из четырех деревьев, каждое из которых разделено на одну из четырех характеристик. Разделение с наибольшим приростом информации будет считаться первым разбиением, и процесс будет продолжаться до тех пор, пока все дочерние узлы не станут чистыми или пока прирост информации не станет 0.

Чтобы найти информационное усиление разделения с использованием ветреного , мы должны сначала вычислить информацию в данных перед разделением. Исходные данные содержали девять "да" и пять "нет".

Разделение с использованием функции windy приводит к появлению двух дочерних узлов, один для значения windy, равного true, и один, для значения windy, равного false. В этом наборе данных есть шесть точек данных с истинным значением ветра , три из которых имеют значение play (где play - целевая переменная) да, а три - значение воспроизведения no. Восемь оставшихся точек данных с ветреным значением false содержат два «нет» и шесть «да». Информация об узле ветреный = истинный рассчитывается с использованием приведенного выше уравнения энтропии. Поскольку в этом узле равное количество «да» и «нет», мы имеем

Для узла, где windy = false, было восемь точек данных, шесть «да» и два «нет». Таким образом, мы имеем

Чтобы найти информацию о расщеплении, мы берем средневзвешенное значение этих двух чисел в зависимости от того, сколько наблюдений попало в какой узел.

Теперь мы можем рассчитать информационный выигрыш, достигаемый за счет разделения на ветреную особенность.

Чтобы построить дерево, необходимо рассчитать информационный прирост каждого возможного первого разбиения. Лучшее первое разделение - это такое, которое обеспечивает наибольшее количество информации. Этот процесс повторяется для каждого нечистого узла, пока дерево не будет завершено. Этот пример адаптирован из примера, приведенного в Witten et al. [20]

Снижение дисперсии [ править ]

Введенное в CART [6] сокращение дисперсии часто используется в тех случаях, когда целевая переменная является непрерывной (дерево регрессии), что означает, что использование многих других показателей потребует сначала дискретизации перед применением. Уменьшение дисперсии узла N определяется как общее уменьшение дисперсии целевой переменной Y из-за разделения в этом узле:

где , и - набор индексов предварительно разделенной выборки, набор индексов выборки, для которых тест разделения является истинным, и набор индексов выборки, для которых тест разделения является ложным, соответственно. Однако каждое из приведенных выше слагаемых действительно является оценкой дисперсии , записанной в форме без прямой ссылки на среднее значение.

Мера «доброты» [ править ]

Используемая CART в 1984 году [21] мера «добродетели» - это функция, которая стремится оптимизировать баланс способности раскола-кандидата создавать чистых детей с его способностью создавать детей одинакового размера. Этот процесс повторяется для каждого нечистого узла, пока дерево не будет завершено. Функция , где является кандидатом на разделение в узле , определяется, как показано ниже.

где и - левый и правый дочерние элементы узла, использующего split , соответственно; и - пропорции записей в in и , соответственно; и и - пропорции записей класса в и , соответственно.

Рассмотрим пример набора данных с тремя атрибутами: сбережения (низкий, средний, высокий), активы (низкий, средний, высокий), доход (числовое значение) и двоичный целевой переменный кредитный риск (хороший, плохой) и 8 точек данных. [21] Полные данные представлены в таблице ниже. Чтобы начать дерево решений, мы вычислим максимальное значение использования каждой функции, чтобы найти, какая из них разделит корневой узел. Этот процесс будет продолжаться до тех пор, пока все дочерние элементы не станут чистыми или все значения не станут ниже установленного порога.

Чтобы найти экономию функции , нам нужно отметить количество каждого значения. Исходные данные содержали три минимума, три средних значения и два максимума. Из минимальных значений у одного был хороший кредитный риск, а из средних и высоких - у 4 был хороший кредитный риск . Предположим, что разделение-кандидат такое, что записи с низкой экономией будут помещены в левый дочерний элемент, а все остальные записи будут помещены в правый дочерний элемент.

Чтобы построить дерево, необходимо рассчитать «доброту» всех возможных расщеплений для корневого узла. Кандидат с максимальным значением разделит корневой узел, и процесс будет продолжаться для каждого нечистого узла, пока дерево не будет завершено.

По сравнению с другими показателями, такими как получение информации, мера «качества» будет пытаться создать более сбалансированное дерево, что приведет к более согласованному времени принятия решений. Однако он жертвует некоторым приоритетом для создания чистых дочерних элементов, что может привести к дополнительным разбиениям, отсутствующим в других показателях.

Использует [ редактировать ]

Преимущества [ править ]

Среди других методов интеллектуального анализа данных деревья решений имеют ряд преимуществ:

  • Просто понять и интерпретировать. Люди могут понять модели дерева решений после краткого объяснения. Деревья также могут отображаться графически таким образом, чтобы их было легко интерпретировать неспециалистам. [22]
  • Может обрабатывать как числовые, так и категориальные данные. [22] Другие методы обычно специализируются на анализе наборов данных, содержащих только один тип переменных. (Например, правила отношений могут использоваться только с номинальными переменными, в то время как нейронные сети могут использоваться только с числовыми переменными или категориальными значениями, преобразованными в значения 0-1.) Ранние деревья решений были способны обрабатывать только категориальные переменные, но более поздние версии, такие как как C4.5, не имеют этого ограничения. [2]
  • Требуется небольшая подготовка данных. Другие методы часто требуют нормализации данных. Поскольку деревья могут обрабатывать качественные предикторы, нет необходимости создавать фиктивные переменные . [22]
  • Использует модель белого или открытого ящика [2] . Если данная ситуация наблюдается в модели, объяснение условия легко объяснить с помощью булевой логики. Напротив, в модели черного ящика объяснение результатов обычно трудно понять, например, с помощью искусственной нейронной сети .
  • Возможна проверка модели с помощью статистических тестов. Это позволяет учитывать надежность модели.
  • Нестатистический подход, который не делает никаких предположений об обучающих данных или остатках прогноза; например, отсутствие предположений о распределении, независимости или постоянной дисперсии
  • Хорошо работает с большими наборами данных. Большие объемы данных можно анализировать с использованием стандартных вычислительных ресурсов в разумные сроки.
  • Более точно отражает процесс принятия решений человеком, чем другие подходы. [22] Это может быть полезно при моделировании решений / поведения человека.
  • Устойчив к коллинеарности, особенно к повышению
  • Встроенный выбор функций . Дополнительные нерелевантные функции будут реже использоваться, чтобы их можно было удалить при последующих запусках. Иерархия атрибутов в дереве решений отражает важность атрибутов. [23] Это означает, что элементы вверху являются наиболее информативными. [24]
  • Деревья решений могут аппроксимировать любую логическую функцию, например XOR . [25]

Ограничения [ править ]

  • Деревья могут быть очень ненадежными. Небольшое изменение в обучающих данных может привести к большому изменению дерева и, следовательно, окончательных прогнозов. [22]
  • Известно, что проблема обучения оптимальному дереву решений является NP-полной с точки зрения нескольких аспектов оптимальности и даже для простых концепций. [26] [27] Следовательно, практические алгоритмы обучения дереву решений основаны на эвристиках, таких как жадный алгоритм, в котором локально оптимальные решения принимаются в каждом узле. Такие алгоритмы не могут гарантировать возврат глобального оптимального дерева решений. Чтобы уменьшить жадный эффект локальной оптимальности, были предложены такие методы, как дерево двойных информационных расстояний (DID). [28]
  • Обучающиеся дерева решений могут создавать слишком сложные деревья, которые плохо обобщаются на основе данных обучения. (Это известно как переобучение . [29] ) Чтобы избежать этой проблемы, необходимы такие механизмы, как отсечение (за исключением некоторых алгоритмов, таких как подход условного вывода, который не требует отсечения). [15] [16]
  • Не гарантируется, что средняя глубина дерева, определяемая количеством узлов или тестов до классификации, будет минимальной или маленькой при различных критериях разделения. [30]
  • Для данных, включающих категориальные переменные с разным количеством уровней, получение информации в деревьях решений смещено в пользу атрибутов с большим количеством уровней. [31] Тем не менее, проблема смещения выбора предиктора устраняется с помощью подхода условного вывода [15] , двухэтапного подхода [32] или адаптивного выбора функции с исключением по одному. [33]

Реализации [ править ]

Многие программные пакеты интеллектуального анализа данных предоставляют реализации одного или нескольких алгоритмов дерева решений.

Примеры включают

  • Salford Systems CART (которая лицензировала проприетарный код оригинальных авторов CART), [6]
  • IBM SPSS Modeler ,
  • RapidMiner ,
  • SAS Enterprise Miner ,
  • Матлаб ,
  • R (программная среда с открытым исходным кодом для статистических вычислений, которая включает несколько реализаций CART, таких как пакеты rpart, party и randomForest),
  • Weka (бесплатный пакет для интеллектуального анализа данных с открытым исходным кодом, содержащий множество алгоритмов дерева решений),
  • Оранжевый ,
  • KNIME ,
  • Microsoft SQL Server [1] и
  • scikit-learn (бесплатная библиотека машинного обучения с открытым исходным кодом для языка программирования Python ).

Расширения [ править ]

Графики решений [ править ]

В дереве решений, все пути от корневого узла к узлу листа проследовать путем конъюнкция, или и . В графе решений можно использовать дизъюнкции (OR), чтобы объединить еще два пути вместе с использованием минимальной длины сообщения (MML). [34] Графы решений были дополнительно расширены, чтобы дать возможность динамически изучать ранее неустановленные новые атрибуты и использовать их в разных местах на графике. [35] Более общая схема кодирования приводит к лучшей точности прогнозирования и вероятностной оценке логарифма потерь. [ необходима цитата ] В общем, графы решений выводят модели с меньшим количеством листьев, чем деревья решений.

Альтернативные методы поиска [ править ]

Эволюционные алгоритмы использовались, чтобы избежать локальных оптимальных решений и выполнить поиск в пространстве дерева решений с небольшим априорным смещением. [36] [37]

Также существует возможность выборки дерева с помощью MCMC . [38]

Дерево можно искать снизу вверх. [39] Или несколько деревьев могут быть построены параллельно, чтобы уменьшить ожидаемое количество тестов до классификации. [30]

См. Также [ править ]

  • Обрезка дерева решений
  • Диаграмма двоичного решения
  • ЧЭЙД
  • КОРЗИНА
  • Алгоритм ID3
  • C4.5 алгоритм
  • Пни решения , используемые, например, в AdaBoosting
  • Список решений
  • Инкрементное дерево решений
  • Альтернативное дерево решений
  • Анализ структурированных данных (статистика)
  • Дерево логистической модели
  • Иерархическая кластеризация

Ссылки [ править ]

  1. ^ Ву, Синьдун; Кумар, Випин; Росс Куинлан, Дж .; Гош, Джойдип; Ян, Цян; Мотода, Хироши; Маклахлан, Джеффри Дж .; Нг, Ангус; Лю, Бинг; Yu, Philip S .; Чжоу, Чжи-Хуа (01.01.2008). «10 лучших алгоритмов интеллектуального анализа данных». Знания и информационные системы . 14 (1): 1–37. DOI : 10.1007 / s10115-007-0114-2 . hdl : 10983/15329 . ISSN  0219-3116 . S2CID  2367747 .
  2. ^ a b c Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
  3. ^ Рокач, Лиор; Маймон, О. (2008). Интеллектуальный анализ данных с деревьями решений: теория и приложения . ISBN World Scientific Pub Co Inc. 978-9812771711.
  4. ^ Шалев-Шварц, Шай; Бен-Давид, Шай (2014). «18. Деревья решений». Понимание машинного обучения . Издательство Кембриджского университета.
  5. Перейти ↑ Quinlan, JR (1986). «Индукция деревьев решений» (PDF) . Машинное обучение . 1 : 81–106. DOI : 10.1007 / BF00116251 . S2CID 189902138 .  
  6. ^ a b c d e Брейман, Лео; Фридман, JH; Ольшен, РА; Стоун, CJ (1984). Деревья классификации и регрессии . Монтерей, Калифорния: Уодсворт и Брукс / Продвинутые книги и программное обеспечение Коула. ISBN 978-0-412-04841-8.
  7. Перейти ↑ Friedman, JH (1999). Повышение стохастического градиента . Стэндфордский Университет.
  8. ^ Гесте, Т., Tibshirani Р., Фридман, JH (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. Нью-Йорк: Springer Verlag.
  9. ^ Бреймана, Л. (1996). «Предсказатели упаковки» . Машинное обучение . 24 (2): 123–140. DOI : 10.1007 / BF00058655 .
  10. ^ Родригес, JJ; Кунчева Л.И. Алонсо, CJ (2006). «Вращающийся лес: новый метод ансамбля классификаторов». IEEE Transactions по анализу шаблонов и машинному анализу . 28 (10): 1619–1630. CiteSeerX 10.1.1.156.8277 . DOI : 10.1109 / TPAMI.2006.211 . PMID 16986543 . S2CID 6847493 .   
  11. Ривест, Рон (ноябрь 1987 г.). «Списки решений обучения» (PDF) . Машинное обучение . 3 (2): 229–246. DOI : 10,1023 / A: 1022607331053 . S2CID 30625841 .  
  12. ^ Летэм, Бен; Рудин, Синтия ; Маккормик, Тайлер; Мэдиган, Дэвид (2015). «Интерпретируемые классификаторы с использованием правил и байесовского анализа: построение более совершенной модели прогнозирования инсульта». Анналы прикладной статистики . 9 (3): 1350–1371. arXiv : 1511.01644 . DOI : 10.1214 / 15-AOAS848 . S2CID 17699665 . 
  13. ^ Ван, Фултон; Рудин, Синтия (2015). «Списки падающих правил» (PDF) . Журнал исследований в области машинного обучения . 38 .
  14. Перейти ↑ Kass, GV (1980). «Исследовательский метод исследования больших объемов категориальных данных». Прикладная статистика . 29 (2): 119–127. DOI : 10.2307 / 2986296 . JSTOR 2986296 . 
  15. ^ a b c Hothorn, T .; Хорник, К .; Зейлис, А. (2006). «Беспристрастное рекурсивное разбиение: структура условного вывода». Журнал вычислительной и графической статистики . 15 (3): 651–674. CiteSeerX 10.1.1.527.2935 . DOI : 10.1198 / 106186006X133933 . JSTOR 27594202 . S2CID 6074128 .   
  16. ^ a b Strobl, C .; Malley, J .; Тутц, Г. (2009). «Введение в рекурсивное разбиение: обоснование, применение и характеристики деревьев классификации и регрессии, мешков и случайных лесов» . Психологические методы . 14 (4): 323–348. DOI : 10.1037 / a0016973 . PMC 2927982 . PMID 19968396 .  
  17. ^ Janikow, CZ (1998). «Нечеткие деревья решений: проблемы и методы». IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics) . 28 (1): 1–14. DOI : 10.1109 / 3477.658573 . PMID 18255917 . 
  18. ^ Barsacchi, M .; Бечини, А .; Марчеллони, Ф. (2020). «Анализ усиленных ансамблей двоичных нечетких деревьев решений» . Экспертные системы с приложениями . 154 : 113436. DOI : 10.1016 / j.eswa.2020.113436 .
  19. ^ Рокач, Л .; Маймон, О. (2005). «Нисходящая индукция классификаторов деревьев решений - обзор». IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews . 35 (4): 476–487. CiteSeerX 10.1.1.458.7031 . DOI : 10.1109 / TSMCC.2004.843247 . S2CID 14808716 .  
  20. ^ a b c Виттен, Ян; Франк, Эйбе; Холл, Марк (2011). Data Mining . Берлингтон, Массачусетс: Морган Кауфманн. стр.  102 -103. ISBN 978-0-12-374856-0.
  21. ^ a b Лароз, Дэниел Т .; Лароз, Шанталь Д. (2014). Обретение знаний в данных: введение в интеллектуальный анализ данных . Хобокен, Нью-Джерси: ISBN компании John Wiley & Sons, Inc. 9781118874059.
  22. ^ a b c d e Гарет, Джеймс; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2015). Введение в статистическое обучение . Нью-Йорк: Спрингер. С.  315 . ISBN 978-1-4614-7137-0.
  23. Провост, Фостер, 1964- (2013). Наука о данных для бизнеса: [что вам нужно знать о интеллектуальном анализе данных и аналитическом мышлении] . Фосетт, Том. (1-е изд.). Севастополь, Калифорния: О'Рейли. ISBN 978-1-4493-6132-7. OCLC  844460899 .CS1 maint: multiple names: authors list (link)
  24. ^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем, связанных с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары . 146 (2): 04020022. DOI : 10,1061 / JPEODX.0000175 .
  25. ^ Мехтаа, Динеш; Рагхаван, Виджай (2002). «Аппроксимации дерева решений булевых функций». Теоретическая информатика . 270 (1-2): 609-623. DOI : 10.1016 / S0304-3975 (01) 00011-1 .
  26. ^ Хяфил, Лоран; Ривест, Р.Л. (1976). «Построение оптимальных двоичных деревьев решений является NP-полным». Письма об обработке информации . 5 (1): 15–17. DOI : 10.1016 / 0020-0190 (76) 90095-8 .
  27. ^ Мурти С. (1998). «Автоматическое построение деревьев решений на основе данных: междисциплинарный обзор» . Интеллектуальный анализ данных и обнаружение знаний
  28. Перейти ↑ Ben-Gal I. Dana A., Shkolnik N. and Singer (2014). «Эффективное построение деревьев решений методом двойного информационного расстояния» (PDF) . Качественные технологии и количественный менеджмент . 11 (1): 133–147. DOI : 10.1080 / 16843703.2014.11673330 . S2CID 7025979 .  
  29. ^ Принципы интеллектуального анализа данных . 2007. DOI : 10.1007 / 978-1-84628-766-4 . ISBN 978-1-84628-765-7.
  30. ^ а б Бен-Гал И. и Тристер К. (2015). «Параллельное построение деревьев решений с постоянно не увеличивающимся ожидаемым количеством тестов» (PDF) . Прикладные стохастические модели в бизнесе и промышленности, Vol. 31 (1) 64-78.
  31. ^ Дэн, H .; Runger, G .; Тув, Э. (2011). Меры смещения важности для многозначных атрибутов и решений . Материалы 21-й Международной конференции по искусственным нейронным сетям (ICANN). С. 293–300.
  32. ^ Brandmaier, Андреас М .; Эрцен, Тимо фон; МакАрдл, Джон Дж .; Линденбергер, Ульман (2012). «Структурные уравнения моделей деревьев» . Психологические методы . 18 (1): 71–86. DOI : 10.1037 / a0030001 . hdl : 11858 / 00-001M-0000-0024-EA33-9 . PMC 4386908 . PMID 22984789 .  
  33. ^ Пайнски, Амичай; Россет, Сахарон (2017). «Выбор переменных с перекрестной проверкой в ​​древовидных методах повышает эффективность прогнозирования». IEEE Transactions по анализу шаблонов и машинному анализу . 39 (11): 2142–2153. arXiv : 1512.03444 . DOI : 10.1109 / TPAMI.2016.2636831 . PMID 28114007 . S2CID 5381516 .  
  34. ^ "CiteSeerX" .
  35. ^ Тан и Доу (2003)
  36. ^ Папагелис, А .; Каллес, Д. (2001). «Разведение деревьев решений с использованием эволюционных методов» (PDF) . Материалы восемнадцатой Международной конференции по машинному обучению, июнь 28-1 июля 2001 года . С. 393–400.
  37. ^ Баррос, Родриго C .; Басгалупп, депутат; Карвалью, ACPLF; Фрейтас, Алекс А. (2012). "Обзор эволюционных алгоритмов индукции дерева решений". IEEE Transactions по системам, человеку и кибернетике . Часть C: Приложения и обзоры. 42 (3): 291–312. CiteSeerX 10.1.1.308.9068 . DOI : 10.1109 / TSMCC.2011.2157494 . S2CID 365692 .  
  38. ^ Чипман, Хью А .; Джордж, Эдвард I; Маккалок, Роберт Э. (1998). «Поиск байесовской модели CART». Журнал Американской статистической ассоциации . 93 (443): 935–948. CiteSeerX 10.1.1.211.5573 . DOI : 10.1080 / 01621459.1998.10473750 . 
  39. ^ Баррос, RC; Cerri, R .; Jaskowiak, PA; Карвалью, ACPLF (2011). «Восходящий алгоритм индукции наклонного дерева решений». Труды 11-й Международной конференции по проектированию и приложениям интеллектуальных систем (ISDA 2011) . С. 450–456. DOI : 10.1109 / ISDA.2011.6121697 . ISBN 978-1-4577-1676-8. S2CID  15574923 .

Дальнейшее чтение [ править ]

  • Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2017). «Древовидные методы» (PDF) . Введение в статистическом обучение: с приложениями в R . Нью-Йорк: Спрингер. С. 303–336. ISBN 978-1-4614-7137-0.

Внешние ссылки [ править ]

  • Эволюционное изучение деревьев решений в C ++
  • Очень подробное объяснение получения информации как критерия разделения