Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Bootstrap агрегирования , называемый также расфасовке (от б ootstrap AGG regat ING ), является машинного обучения ансамбль мета-алгоритм , предназначенный для повышения стабильности и точности машинного обучения алгоритмов , используемых в статистической классификации и регрессии . Это также уменьшает дисперсию и помогает избежать переобучения . Хотя он обычно применяется к методам дерева решений , его можно использовать с любым типом метода. Бэггинг - это частный случай метода усреднения модели .

Описание техники [ править ]

Принимая во внимание стандартный обучающий набор из размера п , мешки генерирует м новые наборы обучающих , каждый из размера N ' , путем отбора проб из D равномерно и с заменой . При выборке с заменой некоторые наблюдения могут повторяться в каждом . Если n = n , то для больших n ожидается, что в наборе будет доля (1 - 1 / e ) (≈63,2%) уникальных примеров D , остальные будут дублироваться. [1] Такой пример известен как бутстрап. образец. Выборка с заменой гарантирует, что каждый бутстрап независим от своих аналогов, так как он не зависит от предыдущих выбранных выборок при выборке. Затем m моделей подбираются с использованием m вышеупомянутых загрузочных выборок и объединяются путем усреднения выходных данных (для регрессии) или голосования (для классификации).

Иллюстрация концепции начального агрегирования


Пакетирование приводит к «улучшениям для нестабильных процедур» [2], которые включают, например, искусственные нейронные сети , деревья классификации и регрессии , а также выбор подмножества в линейной регрессии . [3] Было показано, что бэггинг улучшает обучение прообразу. [4] [5] С другой стороны, это может слегка ухудшить производительность стабильных методов, таких как K-ближайшие соседи. [2]

Процесс алгоритма [ править ]

Исходный набор данных [ править ]

Исходный набор данных содержит несколько записей выборок от s1 до s5. Каждый образец имеет 5 характеристик (от гена 1 до гена 5). Все образцы помечены как «Да» или «Нет» в зависимости от проблемы классификации.

Создание наборов данных начальной загрузки [ править ]

Учитывая приведенную выше таблицу для классификации новой выборки, сначала необходимо создать самонастраиваемый набор данных с использованием данных из исходного набора данных. Этот набор данных начальной загрузки обычно имеет размер исходного набора данных или меньше.

В этом примере размер равен 5 (от s1 до s5). Загрузочный набор данных создается путем случайного выбора образцов из исходного набора данных. Допускается повторный выбор. Любые выборки, которые не выбраны для набора данных начальной загрузки, помещаются в отдельный набор данных, называемый набором данных Out-of-Bag.

См. Пример загруженного набора данных ниже. Он имеет 5 записей (того же размера, что и исходный набор данных). Есть повторяющиеся записи, такие как две s3, поскольку записи выбираются случайным образом с заменой.

Этот шаг будет повторяться для создания m наборов данных с начальной загрузкой.

Создание деревьев решений [ править ]

Дерево решений создается для каждого начального набора данных с использованием случайно выбранных значений столбцов для разделения узлов.

Прогнозирование с использованием нескольких деревьев решений [ править ]

Когда в таблицу добавляется новый образец. Набор данных начальной загрузки используется для определения значения классификатора новой записи.

Новая выборка тестируется в случайном лесу, созданном каждым загруженным набором данных, и каждое дерево создает значение классификатора для новой выборки. Для классификации процесс, называемый голосованием, используется для определения окончательного результата, где результат, наиболее часто получаемый случайным лесом, является заданным результатом для выборки. Для регрессии выборке присваивается среднее значение классификатора, созданное деревьями.

После того, как образец протестирован в случайном лесу. Образцу присваивается значение классификатора, и он добавляется в таблицу.

Алгоритм (Классификация) [ править ]

Блок-схема алгоритма упаковки в мешки при использовании для классификации

Для классификации используйте обучающий набор , Inducer и количество образцов начальной загрузки в качестве входных данных. Сгенерировать классификатор в качестве вывода [6]

  1. Создавайте новые обучающие наборы , начиная с замены
  2. Классификатор строится из каждого набора с использованием для определения классификации набора
  3. Наконец, классификатор генерируется с использованием ранее созданного набора классификаторов на исходном наборе данных , классификация, наиболее часто предсказываемая подклассификаторами, является окончательной классификацией.
для i = от 1 до m { D '= образец начальной загрузки из D (образец с заменой) Ci = I (D ')}C * (x) = argmax Σ 1 (наиболее часто предсказываемая метка y) y∈Y i: Ci (x) = y

Пример: данные об озоне [ править ]

Чтобы проиллюстрировать основные принципы упаковки в мешки, ниже приводится анализ взаимосвязи между озоном и температурой (данные Rousseeuw и Leroy (1986), анализ выполнен на R ).

Взаимосвязь между температурой и озоном, судя по диаграмме рассеяния, в этом наборе данных является нелинейной. Для математического описания этой взаимосвязи используются сглаживающие устройства LOESS (с полосой пропускания 0,5). Вместо того, чтобы строить единую систему сглаживания для полного набора данных, было отобрано 100 образцов начальной загрузки . Каждая выборка состоит из случайного подмножества исходных данных и сохраняет подобие распределения и изменчивости основного набора. Для каждого образца бутстрапа подбирался сглаживающий фильтр LOESS. Затем были сделаны прогнозы на основе этих 100 сглаживателей для всего диапазона данных. Черные линии представляют эти первоначальные прогнозы. Линии не согласуются в своих прогнозах и имеют тенденцию переоценивать свои точки данных: это видно по шаткому течению линий.

Взяв среднее значение из 100 сглаживателей, каждое из которых соответствует подмножеству исходного набора данных, мы приходим к одному предиктору с упаковкой (красная линия). Течение красной линии стабильно и не слишком соответствует какой-либо точке (точкам) данных.

Преимущества против недостатков [ править ]

Преимущества:

  • Многие слабые учащиеся в совокупности обычно превосходят одного учащегося по всему набору и имеют меньше возможностей.
  • Устраняет дисперсию в наборах данных с высокой дисперсией и низким смещением [7]
  • Может выполняться параллельно , так как каждый отдельный бутстрап может обрабатываться отдельно перед объединением [8]

Недостатки:

  • В наборе данных с высокой систематической погрешностью использование пакетов также будет иметь большое отклонение в совокупности [7]
  • Утрата интерпретируемости модели.
  • В зависимости от набора данных могут потребоваться большие вычислительные ресурсы.


История [ править ]

Концепция Bootstrap Aggregating основана на концепции Bootstrapping, разработанной Брэдли Эфроном. [9] Бутстрап Агрегирование было предложено Лео Breiman который также ввели сокращенный термин «Баггинг» ( Б ootstrap AGG regat ING ). Брейман разработал концепцию упаковки в 1994 году, чтобы улучшить классификацию путем комбинирования классификаций случайно сгенерированных обучающих наборов. Он утверждал: «Если возмущение обучающей выборки может вызвать значительные изменения в построенном предикторе, то упаковка может повысить точность». [3]

См. Также [ править ]

  • Повышение (мета-алгоритм)
  • Самостоятельная загрузка (статистика)
  • Перекрестная проверка (статистика)
  • Случайный лес
  • Метод случайного подпространства (упаковка атрибутов)
  • Переделанная граница эффективности
  • Прогнозный анализ: деревья классификации и регрессии

Ссылки [ править ]

  1. ^ Аслам, Джавед А .; Попа, Ралука А .; и Ривест, Рональд Л. (2007); Об оценке объема и достоверности статистического аудита , Труды семинара по технологиям электронного голосования (EVT '07), Бостон, Массачусетс, 6 августа 2007 г. В более общем плане, при рисовании с заменой n ' значений из набора n ( разные и одинаково вероятные), ожидаемое количество уникальных розыгрышей равно.
  2. ^ a b Брейман, Лео (1996). "Предсказатели мешков". Машинное обучение . 24 (2): 123–140. CiteSeerX  10.1.1.32.9399 . DOI : 10.1007 / BF00058655 . S2CID  47328136 .
  3. ^ a b Брейман, Лео (сентябрь 1994 г.). "Предикторы упаковки" (PDF) . Департамент статистики Калифорнийского университета в Беркли . Технический отчет № 421 . Проверено 28 июля 2019 .
  4. ^ Саху, А., Рангер, Г., Апли, Д., Шумоподавление изображений с помощью многофазного подхода основных компонентов ядра и ансамблевой версии , IEEE Applied Imagery Pattern Recognition Workshop, стр.1-7, 2011.
  5. ^ Shinde, Amit, Anshuman Sahu, Даниэль Apley, и Джордж Runger. « Прообразы для вариационных паттернов из ядра PCA и бэггинга ». IIE Транзакции, Том 46, Выпуск 5, 2014 г.
  6. ^ Бауэр, Эрик; Кохави, Рон (1999). «Эмпирическое сравнение алгоритмов классификации голосования: пакетирование, повышение и варианты» . Машинное обучение . 36 : 108–109. DOI : 10,1023 / A: 1007515423169 . S2CID 1088806 . Дата обращения 6 декабря 2020 . 
  7. ^ a b "Что такое Bagging (Bootstrap Aggregation)?" . CFI . Институт корпоративных финансов . Проверено 5 декабря 2020 года .
  8. ^ Zoghni, Рауф (5 сентября 2020). «Бэггинг (агрегирование бутстрапа), обзор» . Средний . Стартап.
  9. Перейти ↑ Efron, B. (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Летопись статистики . 7 (1): 1-26. DOI : 10.1214 / aos / 1176344552 .

Дальнейшее чтение [ править ]

  • Брейман, Лео (1996). "Предсказатели мешков". Машинное обучение . 24 (2): 123–140. CiteSeerX  10.1.1.32.9399 . DOI : 10.1007 / BF00058655 . S2CID  47328136 .
  • Альфаро, Э., Гамес, М. и Гарсия, Н. (2012). «adabag: пакет R для классификации с помощью AdaBoost.M1, AdaBoost-SAMME и Bagging» . Цитировать журнал требует |journal=( помощь )
  • Коциантис, Сотирис (2014). «Варианты бэггинга и бустинга для решения задач классификации: обзор». Knowledge Eng. Обзор . 29 (1): 78–100. DOI : 10.1017 / S0269888913000313 .
  • Бёмке, Брэдли; Гринвелл, Брэндон (2019). «Бэггинг». Hands-On Machine Learning с R . Чепмен и Холл. С. 191–202. ISBN 978-1-138-49568-5.