Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Схема случайного леса решений

Случайные леса или леса случайных решений - это метод обучения ансамбля для классификации , регрессии и других задач, которые работают путем построения множества деревьев решений во время обучения и вывода класса, который является режимом классов (классификация) или средним / средним прогнозом ( регрессия) отдельных деревьев. [1] [2] Случайные леса решений корректируют привычку деревьев решений переобучаться их обучающему набору . [3] : 587–588 Случайные леса обычно превосходят деревья решений., но их точность ниже, чем у деревьев с градиентным усилением. Однако характеристики данных могут повлиять на их производительность. [4] [5]

Первый алгоритм случайных решения лесов был создан Тины Ок Хо [1] , используя метод случайной выборки подпространства , [2] , который, в формулировке Х, является способом реализации «стохастических дискриминации» подхода к классификации , предложенный Евгений Клейнберг. [6] [7] [8]

Расширение алгоритма была разработана Лео Breiman [9] и Адель Катлер , [10] , который зарегистрировал [11] «Случайные леса» в качестве товарного знака (по состоянию на 2019 г. , принадлежащей Minitab, Inc. ). [12] Расширение сочетает в себе идею Бреймана о « мешковине » и случайный выбор функций, впервые представленных Хо [1], а затем независимо друг от друга Амитом и Джеманом [13], с целью построения коллекции деревьев решений с контролируемой дисперсией.

Случайные леса часто используются в качестве моделей «черного ящика» на предприятиях, поскольку они генерируют разумные прогнозы для широкого диапазона данных, не требуя при этом небольшой настройки таких пакетов, как scikit-learn .

История [ править ]

Общий метод лесов случайных решений был впервые предложен Хо в 1995 году. [1] Хо установил, что леса из деревьев, разделенных наклонными гиперплоскостями, могут получить точность по мере роста, не страдая от перетренированности, при условии, что леса случайным образом ограничены, чтобы быть чувствительными. только для выбранных размеров элемента . Последующая работа в том же направлении [2]пришли к выводу, что другие методы расщепления ведут себя аналогичным образом, если они случайно вынуждены быть нечувствительными к размерам некоторых элементов. Обратите внимание, что это наблюдение более сложного классификатора (более крупного леса), почти монотонно повышающего точность, резко контрастирует с распространенным мнением о том, что сложность классификатора может вырасти только до определенного уровня точности, прежде чем будет нарушена переоснащение. Объяснение устойчивости метода леса к перетренированности можно найти в теории стохастической дискриминации Клейнберга. [6] [7] [8]

На раннее развитие концепции случайных лесов Бреймана повлияла работа Амита и Гемана [13], которые представили идею поиска по случайному подмножеству доступных решений при разделении узла в контексте выращивания одного дерева . Идея случайного выбора подпространства из Ho [2] также оказала влияние на дизайн случайных лесов. В этом методе выращивается лес деревьев, и различия между деревьями вводятся путем проецирования обучающих данных в случайно выбранное подпространство.перед подгонкой каждого дерева или каждого узла. Наконец, идея рандомизированной оптимизации узлов, где решение в каждом узле выбирается рандомизированной процедурой, а не детерминированной оптимизацией, была впервые введена Диттерихом. [14]

Само введение случайных лесов было впервые сделано в статье Лео Бреймана . [9] В этой статье описывается метод построения леса некоррелированных деревьев с использованием процедуры, подобной CART , в сочетании со случайной оптимизацией узлов и сбором пакетов . Кроме того, этот документ сочетает в себе несколько ингредиентов, некоторые из которых были известны ранее, а некоторые - новые, которые составляют основу современной практики случайных лесов, в частности:

  1. Использование ошибки вне сумки в качестве оценки ошибки обобщения .
  2. Измерение важности переменных путем перестановки.

В отчете также предлагается первый теоретический результат для случайных лесов в виде границы ошибки обобщения, которая зависит от прочности деревьев в лесу и их корреляции .

Алгоритм [ править ]

Предварительные сведения: изучение дерева решений [ править ]

Деревья решений - популярный метод для решения различных задач машинного обучения. Обучение на основе дерева «ближе всего к удовлетворению требований для использования в качестве стандартной процедуры интеллектуального анализа данных», - говорят Хасти и др. , «потому что он инвариантен при масштабировании и различных других преобразованиях значений признаков, устойчив к включению нерелевантных функций и дает проверяемые модели. Однако они редко бывают точными». [3] : 352

В частности, деревья, которые выросли очень глубоко, имеют тенденцию усваивать весьма нерегулярные модели: они превышают свои обучающие наборы, то есть имеют низкую систематическую ошибку, но очень высокую дисперсию . Случайные леса - это способ усреднения нескольких глубоких деревьев решений, обученных на разных частях одного и того же обучающего набора, с целью уменьшения дисперсии. [3] : 587–588 Это происходит за счет небольшого увеличения систематической ошибки и некоторой потери интерпретируемости, но в целом значительно повышает производительность окончательной модели.

Леса подобны объединению усилий алгоритмов дерева решений. Совместная работа множества деревьев, повышающая производительность одного случайного дерева. Хотя это и не совсем похоже, леса дают эффект перекрестной проверки в K-кратном порядке.

Бэггинг [ править ]

Алгоритм обучения для случайных лесов применяет общую методику агрегирования или объединения в пакеты для учащихся деревьев. Учитывая обучающий набор X = x 1 , ..., x n с ответами Y = y 1 , ..., y n , повторная упаковка ( B раз) выбирает случайную выборку с заменой обучающего набора и подгоняет деревья к этим образцы:

Для b = 1, ..., B :
  1. Пример, с заменой, n обучающих примеров из X , Y ; назовем их X b , Y b .
  2. Обучите дерево классификации или регрессии f b на X b , Y b .

После обучения прогнозы для невидимых выборок x ' могут быть сделаны путем усреднения прогнозов всех отдельных деревьев регрессии по x' :

или путем получения большинства голосов в случае деревьев классификации.

Эта процедура начальной загрузки приводит к лучшей производительности модели, поскольку она уменьшает дисперсию модели без увеличения смещения. Это означает, что, хотя прогнозы одного дерева очень чувствительны к шуму в его обучающем наборе, среднее значение для многих деревьев нет, пока деревья не коррелированы. Простое обучение множества деревьев на одном обучающем наборе даст сильно коррелированные деревья (или даже одно и то же дерево много раз, если алгоритм обучения детерминирован); Самостоятельная выборка - это способ декорреляции деревьев путем показа им различных обучающих наборов.

Кроме того, оценка неопределенности прогноза может быть сделана как стандартное отклонение прогнозов по всем отдельным деревьям регрессии по x ' :

Не удалось выполнить синтаксический анализ (MathML с запасным вариантом SVG или PNG (рекомендуется для современных браузеров и инструментов специальных возможностей): недопустимый ответ («Расширение Math не может подключиться к Restbase.») От сервера «/ mathoid / local / v1 /» :): {\ displaystyle \ sigma = \ sqrt {\ frac {\ sum_ {b = 1} ^ B (f_b (x ') - \ hat {f}) ^ 2} {B-1}}.}

Количество образцов / деревьев, B , является свободным параметром. Обычно используется от нескольких сотен до нескольких тысяч деревьев, в зависимости от размера и характера обучающего набора. Оптимальное количество деревьев B можно найти с помощью перекрестной проверки или наблюдения за ошибкой вне пакета : средней ошибкой прогнозирования для каждой обучающей выборки x i , используя только деревья, у которых не было x i в их выборке начальной загрузки. . [15] Ошибка обучения и тестирования имеет тенденцию выравниваться после подгонки некоторого количества деревьев.

От мешков до случайных лесов [ править ]

Вышеупомянутая процедура описывает исходный алгоритм упаковки деревьев. Случайные леса отличаются от этой общей схемы только одним способом: они используют модифицированный алгоритм обучения дерева, который выбирает при каждом разбиении кандидатов в процессе обучения случайное подмножество функций . Этот процесс иногда называют «сборкой функций». Причина для этого - корреляция деревьев в обычной выборке начальной загрузки: если одна или несколько функций являются очень сильными предикторами для переменной ответа (целевой результат), эти функции будут выбраны во многих B- деревьях, вызывая их чтобы стать коррелированными. Хо провел анализ того, как мешки и случайная проекция подпространства способствуют повышению точности при различных условиях. [16]

Как правило, для задачи классификации с p признаками в каждом разбиении используются признаки p (с округлением в меньшую сторону). [3] : 592 Для задач регрессии изобретатели рекомендуют p / 3 (с округлением в меньшую сторону) с минимальным размером узла 5 по умолчанию. [3] : 592 На практике наилучшие значения этих параметров будут зависеть от проблемы, и их следует рассматривать как параметры настройки. [3] : 592

ExtraTrees [ править ]

Добавление еще одного шага рандомизации дает чрезвычайно рандомизированные деревья или ExtraTrees. Хотя они похожи на обычные случайные леса в том смысле, что они представляют собой ансамбль отдельных деревьев, есть два основных отличия: во-первых, каждое дерево обучается с использованием всей обучающей выборки (а не выборки начальной загрузки), а во-вторых, нисходящее разбиение в ученик дерева рандомизирован. Вместо того, чтобы вычислять локально оптимальную точку отсечения для каждой рассматриваемой функции (на основе, например, получения информации или примеси Джини ), случайныйточка отсечки выбрана. Это значение выбирается из равномерного распределения в пределах эмпирического диапазона функции (в обучающем наборе дерева). Затем из всех случайно сгенерированных разбиений выбирается разбиение, дающее наивысший балл, для разбиения узла. Подобно обычным случайным лесам, можно указать количество случайно выбранных объектов, которые будут учитываться в каждом узле. Значения по умолчанию для этого параметра предназначены для классификации и для регрессии, где не удалось выполнить синтаксический анализ (MathML с резервным SVG или PNG (рекомендуется для современных браузеров и инструментов специальных возможностей): недопустимый ответ («Расширение Math не может подключиться к Restbase.») С сервера »/ mathoid / local / v1 / ":): p - количество функций в модели. [17]

Свойства [ править ]

Переменная важность [ править ]

Случайные леса можно использовать для естественного ранжирования важности переменных в задаче регрессии или классификации. Следующая техника была описана в оригинальной статье Бреймана [9] и реализована в пакете R randomForest . [10]

Первым шагом в измерении важности переменной в наборе данных является подгонка случайного леса к данным. В процессе подгонки для каждой точки данных регистрируется ошибка « вне пакета» и усредняется по лесу (ошибки в независимом наборе тестов могут быть заменены, если во время обучения не используется сбор пакетов ).

Чтобы измерить важность -го признака после обучения, значения -го признака переставляются среди обучающих данных, и ошибка вне пакета снова вычисляется на этом возмущенном наборе данных. Оценка важности -й функции вычисляется путем усреднения разницы в ошибках вне пакета до и после перестановки по всем деревьям. Оценка нормализована стандартным отклонением этих различий.

Характеристики, которые производят большие значения для этой оценки, считаются более важными, чем функции, которые производят маленькие значения. Статистическое определение меры важности переменной было дано и проанализировано Zhu et al. [18]

Этот метод определения важности переменных имеет ряд недостатков. Для данных, включающих категориальные переменные с разным количеством уровней, случайные леса смещены в пользу атрибутов с большим количеством уровней. Для решения проблемы можно использовать такие методы, как частичные перестановки [19] [20] [4] и выращивание несмещенных деревьев [21] [22] . Если данные содержат группы коррелированных характеристик, имеющих одинаковую значимость для выходных данных, то группы меньшего размера предпочтительнее, чем группы большего размера. [23]

Отношения с ближайшими соседями [ править ]

Связь между случайными лесами и K -ближайших соседей алгоритма ( K -nn) было отмечено, Лин и Jeon в 2002 г. [24] Оказалось, что оба могут быть просмотрены в виде так называемых схем взвешенных окрестностей . Это модели, построенные на основе обучающего набора, которые делают прогнозы для новых точек x ' , глядя на «окрестность» точки, формализованную весовой функцией W :

Здесь - неотрицательный вес i -й обучающей точки относительно новой точки x ' в том же дереве. Для любого конкретного x ' веса баллов должны в сумме равняться единице. Весовые функции представлены следующим образом:

  • В k -NN веса равны, если x i - одна из k точек, ближайших к x ' , и нулю в противном случае.
  • В дереве, если x i - одна из k ' точек в том же листе, что и x' , и ноль в противном случае.

Поскольку лес усредняет прогнозы набора m деревьев с индивидуальными весовыми функциями , его прогнозы

Это показывает, что весь лес снова представляет собой взвешенную схему соседства со средними весами отдельных деревьев. Соседи x ' в этой интерпретации - это точки, имеющие общий лист любого дерева . Таким образом, окрестность x ' сложным образом зависит от структуры деревьев и, следовательно, от структуры обучающей выборки. Лин и Чон показывают, что форма окрестностей, используемых случайным лесом, адаптируется к местной важности каждой особенности. [24]

Неконтролируемое обучение со случайными лесами [ править ]

Как часть их построения, случайные предикторы леса естественным образом приводят к измерению несходства между наблюдениями. Можно также определить случайную меру несходства леса между немаркированными данными: идея состоит в том, чтобы построить случайный предиктор леса, который отличает «наблюдаемые» данные от соответствующим образом сгенерированных синтетических данных. [9] [25]Наблюдаемые данные являются исходными немаркированными данными, а синтетические данные взяты из эталонного распределения. Несходство случайного леса может быть привлекательным, поскольку оно очень хорошо обрабатывает смешанные типы переменных, инвариантно к монотонным преобразованиям входных переменных и устойчиво к внешним наблюдениям. Несходство случайного леса легко справляется с большим количеством полунепрерывных переменных из-за присущего ему выбора переменных; например, несходство случайного леса «Addcl 1» взвешивает вклад каждой переменной в зависимости от того, насколько она зависит от других переменных. Несходство случайного леса использовалось во множестве приложений, например, для поиска кластеров пациентов на основе данных маркеров тканей. [26]

Варианты [ править ]

Вместо деревьев решений были предложены и оценены линейные модели в качестве базовых оценок в случайных лесах, в частности, полиномиальная логистическая регрессия и наивные байесовские классификаторы . [5] [27] [28] В случаях, когда взаимосвязь между предикторами и целевой переменной является линейной, базовые учащиеся могут иметь такую ​​же высокую точность, как и учащиеся группы. [29] [5]

Случайный лес ядра [ править ]

В машинном обучении случайные леса ядра устанавливают связь между случайными лесами и методами ядра . Слегка изменив их определение, случайные леса можно переписать как методы ядра , которые легче интерпретировать и анализировать. [30]

История [ править ]

Лео Брейман [31] был первым, кто заметил связь между методами случайного леса и ядра . Он указал, что случайные леса, которые выращиваются с использованием случайных векторов iid при построении дерева, эквивалентны ядру, действующему на истинную границу. Лин и Чон [32] установили связь между случайными лесами и адаптивным ближайшим соседом, подразумевая, что случайные леса можно рассматривать как оценки адаптивного ядра. Дэвис и Гахрамани [33] предложили ядро ​​случайного леса и показали, что оно может эмпирически превзойти современные методы ядра. Скорнет [30]сначала определил оценки KeRF и дал явную связь между оценками KeRF и случайным лесом. Он также дал явные выражения для ядер на основе центрированного случайного леса [34] и равномерного случайного леса [35], двух упрощенных моделей случайного леса. Он назвал эти два KeRF, центрированный KeRF и Uniform KeRF, и доказал верхние границы их степени согласованности.

Обозначения и определения [ править ]

Предварительные условия: Центрированные леса [ править ]

Центрированный лес [34] - это упрощенная модель исходного случайного леса Бреймана, которая равномерно выбирает атрибут среди всех атрибутов и выполняет разбиение в центре ячейки по заранее выбранному атрибуту. Алгоритм останавливается, когда построено полностью двоичное дерево уровней , где - параметр алгоритма.

Единый лес [ править ]

Единый лес [35] - это еще одна упрощенная модель исходного случайного леса Бреймана, которая равномерно выбирает объект среди всех объектов и выполняет разбиение в точке, равномерно нарисованной на стороне ячейки, вдоль предварительно выбранного объекта.

Из случайного леса в KeRF [ править ]

Учитывая обучающую выборку из -значных независимых случайных величин , распределенных в качестве независимого прототипа пары , где . Мы стремимся предсказать ответ , связанный со случайной величиной , путем оценки функции регрессии . Лес случайной регрессии - это eнабор рандомизированных деревьев регрессии. Обозначим прогнозируемое значение в точке по -му дерева, где независимые случайные величины, распределенные в качестве общей случайной величины , независимо от образца . Эта случайная величина может использоваться для описания случайности, вызванной разделением узла и процедуры выборки для построения дерева. Деревья объединяются для формирования оценки конечного леса , где - ячейка, содержащая , спроектированная со случайностью и набором данных , и .

Таким образом , случайный лес оценки удовлетворяют условиям, для всех , . Лес случайной регрессии имеет два уровня усреднения: сначала по выборкам в целевой ячейке дерева, а затем по всем деревьям. Таким образом, вклад наблюдений, которые находятся в ячейках с высокой плотностью точек данных, меньше, чем вклад наблюдений, которые принадлежат менее заселенным ячейкам. Чтобы улучшить методы случайного леса и компенсировать неверную оценку, Скорнет [30] определил KeRF следующим образом:

что равно среднему значению числа падений в ячейках, содержащихся в лесу. Если мы определим функцию связи конечного леса как , то есть долю ячеек, разделяемых между и , то почти наверняка мы имеем , что определяет KeRF.

Центрированный KeRF [ править ]

Конструкция центрированного KeRF уровня такая же, как и для центрированного леса, за исключением того, что прогнозы делаются соответствующей функцией ядра или функцией соединения.

Униформа KeRF [ править ]

Унифицированный KeRF построен так же, как и равномерный лес, за исключением того, что прогнозы делаются , соответствующей функцией ядра или функцией соединения.

Свойства [ править ]

Связь между KeRF и случайным лесом [ править ]

Прогнозы, данные KeRF и случайными лесами, близки, если количество точек в каждой ячейке контролируется:

Предположим, что существуют такие последовательности , что почти наверняка

Тогда почти наверняка,

Связь между бесконечным KeRF и бесконечным случайным лесом [ править ]

Когда количество деревьев стремится к бесконечности, мы получаем бесконечный случайный лес и бесконечный KeRF. Их оценки близки, если количество наблюдений в каждой ячейке ограничено:

Предположим, что существуют такие последовательности , что почти наверняка

Тогда почти наверняка,

Результаты согласованности [ править ]

Предположим, что , где - центрированный гауссовский шум, не зависящий от , с конечной дисперсией . Кроме того, равномерно распределяется на и является Липшица . Скорнет [30] доказал верхние границы на скорость согласованности для центрированного KeRF и однородного KeRF.

Согласованность центрированного KeRF [ править ]

Предоставление и существует постоянная такая , что для всех , .

Согласованность единого KeRF [ править ]

При условии и существует такая константа , что ,.

Недостатки [ править ]

Хотя случайные леса часто достигают более высокой точности, чем одно дерево решений, они приносят в жертву внутреннюю интерпретируемость, присущую деревьям решений. Деревья решений относятся к довольно небольшому семейству моделей машинного обучения, которые легко интерпретировать вместе с линейными моделями, моделями на основе правил и моделями на основе внимания . Эта интерпретируемость - одно из наиболее желательных качеств деревьев решений. Это позволяет разработчикам подтвердить, что модель получила реалистичную информацию из данных, и позволяет конечным пользователям доверять решениям, принимаемым моделью. [5] [3]Например, проследить путь, по которому дерево решений принимает свое решение, довольно тривиально, но следовать путем десятков или сотен деревьев намного сложнее. Для достижения производительности и интерпретируемости некоторые методы сжатия модели позволяют преобразовать случайный лес в минимальное «возрожденное» дерево решений, которое точно воспроизводит ту же функцию принятия решения. [5] [36] Если установлено, что прогнозные атрибуты линейно коррелируют с целевой переменной, использование случайного леса может не повысить точность базового обучающегося. [5] [29] Кроме того, в задачах с несколькими категориальными переменными случайный лес может не повысить точность базового учащегося. [37]

См. Также [ править ]

  • Повышение
  • Обучение дереву решений
  • Ансамблевое обучение
  • Повышение градиента
  • Непараметрическая статистика
  • Рандомизированный алгоритм

Ссылки [ править ]

  1. ^ a b c d Ho, Тин Кам (1995). Леса произвольного решения (PDF) . Материалы 3-й Международной конференции по анализу и распознаванию документов, Монреаль, Квебек, 14–16 августа 1995 г. С. 278–282. Архивировано из оригинального (PDF) 17 апреля 2016 года . Проверено 5 июня +2016 .
  2. ^ а б в г Хо Т.К. (1998). «Метод случайного подпространства для построения лесов решений» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 20 (8): 832–844. DOI : 10.1109 / 34.709601 .
  3. ^ a b c d e f g Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2008). Элементы статистического обучения (2-е изд.). Springer. ISBN 0-387-95284-5.
  4. ^ a b Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары . 146 (2): 04020022. DOI : 10,1061 / JPEODX.0000175 .
  5. ^ Б с д е е Piryonesi, С. Madeh; Эль-Дираби, Тамер Э. (01.02.2021). «Использование машинного обучения для изучения влияния типа показателя эффективности на моделирование износа гибкого покрытия» . Журнал инфраструктурных систем . 27 (2): 04021005. DOI : 10,1061 / (ASCE) IS.1943-555X.0000602 . ISSN 1076-0342 . 
  6. ^ а б Клейнберг Э (1990). «Стохастическая дискриминация» (PDF) . Анналы математики и искусственного интеллекта . 1 (1–4): 207–239. CiteSeerX 10.1.1.25.6750 . DOI : 10.1007 / BF01531079 .  
  7. ^ а б Клейнберг Э (1996). «Устойчивый к перетренированию метод стохастического моделирования для распознавания образов» . Анналы статистики . 24 (6): 2319–2349. DOI : 10.1214 / AOS / 1032181157 . Руководство по ремонту 1425956 . 
  8. ^ а б Клейнберг Э (2000). «Об алгоритмической реализации стохастической дискриминации» (PDF) . Транзакции IEEE на PAMI . 22 (5): 473–490. CiteSeerX 10.1.1.33.4131 . DOI : 10.1109 / 34.857004 .  
  9. ^ а б в г Брейман Л. (2001). «Случайные леса» . Машинное обучение . 45 (1): 5–32. DOI : 10,1023 / A: 1010933404324 .
  10. ^ a b Liaw A (16 октября 2012 г.). «Документация для пакета R randomForest» (PDF) . Проверено 15 марта 2013 года .
  11. ^ Регистрационный номер товарного знака в США 3185828, зарегистрирован в 2006/12/19.
  12. ^ "RANDOM FORESTS Торговая марка Health Care Productivity, Inc. - Регистрационный номер 3185828 - Серийный номер 78642027 :: Торговые марки Justia" .
  13. ^ a b Амит Y, Geman D (1997). «Квантование формы и распознавание с помощью рандомизированных деревьев» (PDF) . Нейронные вычисления . 9 (7): 1545–1588. CiteSeerX 10.1.1.57.6069 . DOI : 10.1162 / neco.1997.9.7.1545 .  
  14. ^ Диттерих, Томас (2000). «Экспериментальное сравнение трех методов построения ансамблей деревьев решений: пакетирование, усиление и рандомизация» . Машинное обучение . 40 (2): 139–157. DOI : 10,1023 / A: 1007607513941 .
  15. Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение . Springer. С. 316–321.
  16. Перейти ↑ Ho, Tin Kam (2002). "Анализ сложности данных сравнительных преимуществ конструкторов леса решений" (PDF) . Анализ шаблонов и приложения . 5 (2): 102–112. DOI : 10.1007 / s100440200009 .
  17. ^ Geurts P, Эрнст D, Wehenkel L (2006). «Чрезвычайно рандомизированные деревья» (PDF) . Машинное обучение . 63 : 3–42. DOI : 10.1007 / s10994-006-6226-1 .
  18. ^ Чжу R, Цзэн D, Kosorok MR (2015). «Деревья обучения с подкреплением» . Журнал Американской статистической ассоциации . 110 (512): 1770–1784. DOI : 10.1080 / 01621459.2015.1036994 . PMC 4760114 . PMID 26903687 .  
  19. ^ Дэн, H .; Runger, G .; Тув, Э. (2011). Меры смещения важности для многозначных атрибутов и решений . Материалы 21-й Международной конференции по искусственным нейронным сетям (ICANN). С. 293–300.
  20. ^ Альтманн А., Толоши Л., Сандер О., Ленгауэр Т. (май 2010 г.). «Важность перестановки: исправленная мера важности функции» . Биоинформатика . 26 (10): 1340–7. DOI : 10.1093 / биоинформатики / btq134 . PMID 20385727 . 
  21. ^ Штробл С, Boulesteix А, Augustin Т (2007). «Беспристрастный раздельный выбор для деревьев классификации на основе индекса Джини» (PDF) . Вычислительная статистика и анализ данных . 52 : 483–501. CiteSeerX 10.1.1.525.3178 . DOI : 10.1016 / j.csda.2006.12.030 .  
  22. ^ Painsky А, Россет S (2017). «Выбор переменных с перекрестной проверкой в ​​древовидных методах повышает эффективность прогнозирования». IEEE Transactions по анализу шаблонов и машинному анализу . 39 (11): 2142–2153. arXiv : 1512.03444 . DOI : 10.1109 / tpami.2016.2636831 . PMID 28114007 . 
  23. ^ Tolosi L, Lengauer T (июль 2011). «Классификация с коррелированными признаками: ненадежность ранжирования признаков и решений» . Биоинформатика . 27 (14): 1986–94. DOI : 10.1093 / биоинформатики / btr300 . PMID 21576180 . 
  24. ^ а б Линь, Йи; Чон, Ёнхо (2002). Случайные леса и адаптивные ближайшие соседи (Технический отчет). Технический отчет № 1055. Университет Висконсина. CiteSeerX 10.1.1.153.9168 . 
  25. ^ Ши, Т., Хорват, С. (2006). «Обучение без учителя со случайными предсказателями леса». Журнал вычислительной и графической статистики . 15 (1): 118–138. CiteSeerX 10.1.1.698.2365 . DOI : 10.1198 / 106186006X94072 . JSTOR 27594168 .  CS1 maint: uses authors parameter (link)
  26. ^ Ши Г, Д Селигсон, Belldegrun А.С., Palotie А, Хорват С (апрель 2005 г.). «Классификация опухолей по профилированию тканевых микроматриц: случайная кластеризация леса применительно к почечно-клеточной карциноме» . Современная патология . 18 (4): 547–57. DOI : 10.1038 / modpathol.3800322 . PMID 15529185 . 
  27. ^ Prinzie А., Ван ден Poel, D. (2008). «Случайные леса для мультиклассовой классификации: случайный многочленный логит». Экспертные системы с приложениями . 34 (3): 1721–1732. DOI : 10.1016 / j.eswa.2007.01.029 .CS1 maint: uses authors parameter (link)
  28. ^ Prinzie, Анита (2007). «Случайная многоклассовая классификация: обобщение случайных лесов на случайные MNL и случайные NB». У Роланда Вагнера; Норман Ревелл; Гюнтер Пернул (ред.). Приложения баз данных и экспертных систем: 18-я международная конференция, DEXA 2007, Регенсбург, Германия, 3-7 сентября 2007 г., Труды . Конспект лекций по информатике. 4653 . С. 349–358. DOI : 10.1007 / 978-3-540-74469-6_35 . ISBN 978-3-540-74467-2.
  29. ^ а б Смит, Пол Ф .; Ганеш, Шива; Лю, Пин (01.10.2013). «Сравнение случайной регрессии леса и множественной линейной регрессии для прогнозирования в нейробиологии» . Журнал методов неврологии . 220 (1): 85–91. DOI : 10.1016 / j.jneumeth.2013.08.024 .
  30. ^ a b c d Скорнет, Эрван (2015). «Случайные леса и методы ядра». arXiv : 1502.03836 [ math.ST ].
  31. ^ Брейман, Лео (2000). «Некоторая теория бесконечности для ансамблей предсказателей» . Технический отчет 579, Статистический департамент UCB. Cite journal requires |journal= (help)
  32. ^ Лин, Йи; Чон, Ёнхо (2006). «Случайные леса и адаптивные ближайшие соседи». Журнал Американской статистической ассоциации . 101 (474): 578–590. CiteSeerX 10.1.1.153.9168 . DOI : 10.1198 / 016214505000001230 . 
  33. ^ Дэвис, Алекс; Гахрамани, Зубин (2014). «Ядро случайного леса и другие ядра для больших данных из случайных разделов». arXiv : 1402.4293 [ stat.ML ].
  34. ^ а б Брейман Л., Гахрамани З. (2004). «Непротиворечивость простой модели случайных лесов». Статистический факультет Калифорнийского университета в Беркли. Технический отчет (670). CiteSeerX 10.1.1.618.90 . 
  35. ^ а б Arlot S, Genuer R (2014). «Анализ чисто случайной систематической ошибки лесов». arXiv : 1407.3939 [ math.ST ].
  36. ^ Видаль, Тибо; Шиффер, Максимилиан (2020). "Ансамбли возрожденных деревьев" . Международная конференция по машинному обучению . PMLR. 119 : 9743–9753.
  37. ^ «Пирьонеси, С.М. (2019). Применение аналитики данных для управления активами: ухудшение состояния и адаптация к изменению климата на дорогах Онтарио (докторская диссертация)» .

Дальнейшее чтение [ править ]

  • Prinzie A, Poel D (2007). «Случайная многоклассовая классификация: обобщение случайных лесов на случайные MNL и случайные NB» . Приложения баз данных и экспертных систем . Конспект лекций по информатике . 4653 . п. 349. DOI : 10.1007 / 978-3-540-74469-6_35 . ISBN 978-3-540-74467-2.
  • Дениско Д., Хоффман М.М. (февраль 2018 г.). «Классификация и взаимодействие в случайных лесах» . Труды Национальной академии наук Соединенных Штатов Америки . 115 (8): 1690–1692. DOI : 10.1073 / pnas.1800256115 . PMC  5828645 . PMID  29440440 .

Внешние ссылки [ править ]

  • Описание классификатора случайных лесов (сайт Лео Бреймана)
  • Лиау, Энди и Винер, Мэтью "Классификация и регрессия с помощью randomForest" R News (2002) Vol. 2/3 п. 18 (Обсуждение использования пакета random forest для R )