Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Рекурсивное разбиение - это статистический метод многомерного анализа . [1] Рекурсивное разделение создает дерево решений, которое стремится правильно классифицировать членов совокупности, разбивая ее на подгруппы на основе нескольких дихотомических независимых переменных . Процесс называется рекурсивным, потому что каждая подгруппа, в свою очередь, может быть разделена неопределенное количество раз, пока процесс разделения не завершится после достижения определенного критерия остановки.

Рекурсивное дерево разбиения, показывающее выживаемость пассажиров на Титанике («sibsp» - это количество супругов или братьев и сестер на борту). Цифры под листьями показывают вероятность выживания и процент наблюдений в листе. Подводя итог: ваши шансы на выживание были хорошими, если бы вы были (i) женщиной или (ii) мальчиком без нескольких членов семьи.

Рекурсивные методы разбиения разрабатываются с 1980-х годов. Хорошо известные методы рекурсивного разделения включают алгоритм ID3 Росс Квинлана и его последователи, C4.5 и C5.0, а также деревья классификации и регрессии . Методы ансамблевого обучения, такие как случайные леса, помогают преодолеть общую критику этих методов - их уязвимость к переобучению данных - за счет использования разных алгоритмов и некоторого комбинирования их результатов.

В этой статье основное внимание уделяется рекурсивному разделению для медицинских диагностических тестов, но этот метод имеет гораздо более широкое применение. См. Дерево решений .

По сравнению с регрессионным анализом, который создает формулу, которую медицинские работники могут использовать для расчета вероятности того, что у пациента есть заболевание, рекурсивное разделение создает правило, такое как `` Если пациент обнаружил x, y или z, у него, вероятно, есть болезнь ''. q '.

Разновидностью является «линейное рекурсивное разбиение Кокса». [2]

Преимущества и недостатки [ править ]

По сравнению с другими многомерными методами рекурсивное разбиение имеет преимущества и недостатки.

  • Преимущества:
    • Создает клинически более интуитивно понятные модели, не требующие от пользователя выполнения расчетов. [3]
    • Позволяет изменять приоритетность ошибочной классификации, чтобы создать правило принятия решения, которое имеет большую чувствительность или специфичность . [2]
    • Может быть точнее. [4]
  • Недостатки:
    • Не работает для непрерывных переменных [5]
    • Может привести к перегрузке данных.

Примеры [ править ]

Имеются примеры использования рекурсивного разбиения при исследовании диагностических тестов. [6] [7] [8] [9] [10] [11] Голдман использовал рекурсивное разделение, чтобы определить приоритет чувствительности при диагностике инфаркта миокарда среди пациентов с болью в груди в отделении неотложной помощи. [11]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Брейман, Лео (1984). Деревья классификации и регрессии . Бока-Ратон: Chapman & Hall / CRC. ISBN 978-0-412-04841-8.
  2. ^ а б Кук EF, Goldman L (1984). «Эмпирическое сравнение многомерных аналитических методов: преимущества и недостатки рекурсивного разбиения анализа». Журнал хронических болезней . 37 (9–10): 721–31. DOI : 10.1016 / 0021-9681 (84) 90041-9 . PMID 6501544 . 
  3. Перейти ↑ James KE, White RF, Kraemer HC (2005). «Повторная проверка разделения выборки для оценки логистической регрессии и рекурсивного разделения: приложение для прогнозирования когнитивных нарушений». Статистика в медицине . 24 (19): 3019–35. DOI : 10.1002 / sim.2154 . PMID 16149128 . 
  4. ^ Каттан МВт, Hess KR, Бек JR (1998). «Эксперименты по определению того, преодолевает ли рекурсивное разделение (CART) или искусственная нейронная сеть теоретические ограничения регрессии пропорциональных рисков Кокса». Comput. Биомед. Res . 31 (5): 363–73. DOI : 10,1006 / cbmr.1998.1488 . PMID 9790741 . 
  5. Перейти ↑ Lee JW, Um SH, Lee JB, Mun J, Cho H (2006). «Скоринговые и промежуточные системы с использованием моделирования линейной регрессии Кокса и рекурсивного разбиения». Методы информации в медицине . 45 (1): 37–43. DOI : 10,1055 / с-0038-1634034 . PMID 16482368 . 
  6. ^ Fonarow GC, Adams KF, Abraham WT, Янси CW, Boscardin WJ (2005). «Стратификация риска госпитальной смертности при острой декомпенсированной сердечной недостаточности: классификация и регрессионный древовидный анализ» . ДЖАМА . 293 (5): 572–80. DOI : 10,1001 / jama.293.5.572 . PMID 15687312 . 
  7. ^ Stiell IG, Wells GA, Vandemheen KL и др. (2001). «Канадское правило шейного отдела позвоночника для рентгенографии у настороженных и стабильных пациентов с травмой» . ДЖАМА . 286 (15): 1841–8. DOI : 10,1001 / jama.286.15.1841 . PMID 11597285 . 
  8. ^ Haydel MJ, Preston CA, Миллс TJ, Luber S, Blaudeau E, DeBlieux PM (2000). «Показания к компьютерной томографии у пациентов с легкой травмой головы». N. Engl. J. Med . 343 (2): 100–5. DOI : 10.1056 / NEJM200007133430204 . PMID 10891517 . 
  9. ^ Эдворти С.М., Zatarain E, Макшейн DJ, Блох DA (1988). «Анализ набора данных критериев ARA lupus 1982 года с помощью методологии рекурсивного разделения: новый взгляд на относительные достоинства отдельных критериев». J. Rheumatol . 15 (10): 1493–8. PMID 3060613 . 
  10. ^ Stiell IG, Greenberg GH, Wells GA и др. (1996). «Перспективная проверка решающего правила для использования рентгенографии при острых травмах колена». ДЖАМА . 275 (8): 611–5. DOI : 10,1001 / jama.275.8.611 . PMID 8594242 . 
  11. ^ а б Гольдман Л, Вайнберг М, Вайсберг М и др. (1982). «Компьютерный протокол для помощи в диагностике пациентов отделения неотложной помощи с острой болью в груди». N. Engl. J. Med . 307 (10): 588–96. DOI : 10.1056 / NEJM198209023071004 . PMID 7110205 .