Рекурсивное разбиение

Рекурсивное разбиение - это статистический метод многомерного анализа . ^[1] Рекурсивное разделение создает дерево решений, которое стремится правильно классифицировать членов совокупности, разбивая ее на подгруппы на основе нескольких дихотомических независимых переменных . Процесс называется рекурсивным, потому что каждая подгруппа, в свою очередь, может быть разделена неопределенное количество раз, пока процесс разделения не завершится после достижения определенного критерия остановки.

Рекурсивное дерево разбиения, показывающее выживаемость пассажиров на Титанике («sibsp» - это количество супругов или братьев и сестер на борту). Цифры под листьями показывают вероятность выживания и процент наблюдений в листе. Подводя итог: ваши шансы на выживание были хорошими, если бы вы были (i) женщиной или (ii) мальчиком без нескольких членов семьи.

Рекурсивные методы разбиения разрабатываются с 1980-х годов. Хорошо известные методы рекурсивного разделения включают алгоритм ID3 Росс Квинлана и его последователи, C4.5 и C5.0, а также деревья классификации и регрессии . Методы ансамблевого обучения, такие как случайные леса, помогают преодолеть общую критику этих методов - их уязвимость к переобучению данных - за счет использования разных алгоритмов и некоторого комбинирования их результатов.

В этой статье основное внимание уделяется рекурсивному разделению для медицинских диагностических тестов, но этот метод имеет гораздо более широкое применение. См. Дерево решений .

По сравнению с регрессионным анализом, который создает формулу, которую медицинские работники могут использовать для расчета вероятности того, что у пациента есть заболевание, рекурсивное разделение создает правило, такое как `` Если пациент обнаружил x, y или z, у него, вероятно, есть болезнь ''. q '.

Разновидностью является «линейное рекурсивное разбиение Кокса». ^[2]

Преимущества и недостатки [ править ]

По сравнению с другими многомерными методами рекурсивное разбиение имеет преимущества и недостатки.

Преимущества:
- Создает клинически более интуитивно понятные модели, не требующие от пользователя выполнения расчетов. ^[3]
- Позволяет изменять приоритетность ошибочной классификации, чтобы создать правило принятия решения, которое имеет большую чувствительность или специфичность . ^[2]
- Может быть точнее. ^[4]
Недостатки:
- Не работает для непрерывных переменных ^[5]
- Может привести к перегрузке данных.

Примеры [ править ]

Имеются примеры использования рекурсивного разбиения при исследовании диагностических тестов. ^[6]^[7]^[8]^[9]^[10]^[11] Голдман использовал рекурсивное разделение, чтобы определить приоритет чувствительности при диагностике инфаркта миокарда среди пациентов с болью в груди в отделении неотложной помощи. ^[11]

См. Также [ править ]

Обучение дереву решений

Ссылки [ править ]

^ Брейман, Лео (1984). Деревья классификации и регрессии . Бока-Ратон: Chapman & Hall / CRC. ISBN 978-0-412-04841-8.
^ ^а б Кук EF, Goldman L (1984). «Эмпирическое сравнение многомерных аналитических методов: преимущества и недостатки рекурсивного разбиения анализа». Журнал хронических болезней . 37 (9–10): 721–31. DOI : 10.1016 / 0021-9681 (84) 90041-9 . PMID 6501544 .
Перейти ↑ James KE, White RF, Kraemer HC (2005). «Повторная проверка разделения выборки для оценки логистической регрессии и рекурсивного разделения: приложение для прогнозирования когнитивных нарушений». Статистика в медицине . 24 (19): 3019–35. DOI : 10.1002 / sim.2154 . PMID 16149128 .
^ Каттан МВт, Hess KR, Бек JR (1998). «Эксперименты по определению того, преодолевает ли рекурсивное разделение (CART) или искусственная нейронная сеть теоретические ограничения регрессии пропорциональных рисков Кокса». Comput. Биомед. Res . 31 (5): 363–73. DOI : 10,1006 / cbmr.1998.1488 . PMID 9790741 .
Перейти ↑ Lee JW, Um SH, Lee JB, Mun J, Cho H (2006). «Скоринговые и промежуточные системы с использованием моделирования линейной регрессии Кокса и рекурсивного разбиения». Методы информации в медицине . 45 (1): 37–43. DOI : 10,1055 / с-0038-1634034 . PMID 16482368 .
^ Fonarow GC, Adams KF, Abraham WT, Янси CW, Boscardin WJ (2005). «Стратификация риска госпитальной смертности при острой декомпенсированной сердечной недостаточности: классификация и регрессионный древовидный анализ» . ДЖАМА . 293 (5): 572–80. DOI : 10,1001 / jama.293.5.572 . PMID 15687312 .
^ Stiell IG, Wells GA, Vandemheen KL и др. (2001). «Канадское правило шейного отдела позвоночника для рентгенографии у настороженных и стабильных пациентов с травмой» . ДЖАМА . 286 (15): 1841–8. DOI : 10,1001 / jama.286.15.1841 . PMID 11597285 .
^ Haydel MJ, Preston CA, Миллс TJ, Luber S, Blaudeau E, DeBlieux PM (2000). «Показания к компьютерной томографии у пациентов с легкой травмой головы». N. Engl. J. Med . 343 (2): 100–5. DOI : 10.1056 / NEJM200007133430204 . PMID 10891517 .
^ Эдворти С.М., Zatarain E, Макшейн DJ, Блох DA (1988). «Анализ набора данных критериев ARA lupus 1982 года с помощью методологии рекурсивного разделения: новый взгляд на относительные достоинства отдельных критериев». J. Rheumatol . 15 (10): 1493–8. PMID 3060613 .
^ Stiell IG, Greenberg GH, Wells GA и др. (1996). «Перспективная проверка решающего правила для использования рентгенографии при острых травмах колена». ДЖАМА . 275 (8): 611–5. DOI : 10,1001 / jama.275.8.611 . PMID 8594242 .
^ а б Гольдман Л, Вайнберг М, Вайсберг М и др. (1982). «Компьютерный протокол для помощи в диагностике пациентов отделения неотложной помощи с острой болью в груди». N. Engl. J. Med . 307 (10): 588–96. DOI : 10.1056 / NEJM198209023071004 . PMID 7110205 .

[isbn0-412-04841-8-1] Брейман, Лео (1984). Деревья классификации и регрессии . Бока-Ратон: Chapman & Hall / CRC. ISBN 978-0-412-04841-8.

[pmid6501544-2] а б Кук EF, Goldman L (1984). «Эмпирическое сравнение многомерных аналитических методов: преимущества и недостатки рекурсивного разбиения анализа». Журнал хронических болезней . 37 (9–10): 721–31. DOI : 10.1016 / 0021-9681 (84) 90041-9 . PMID 6501544 .

[pmid16149128-3] Перейти ↑ James KE, White RF, Kraemer HC (2005). «Повторная проверка разделения выборки для оценки логистической регрессии и рекурсивного разделения: приложение для прогнозирования когнитивных нарушений». Статистика в медицине . 24 (19): 3019–35. DOI : 10.1002 / sim.2154 . PMID 16149128 .

[pmid9790741-4] Каттан МВт, Hess KR, Бек JR (1998). «Эксперименты по определению того, преодолевает ли рекурсивное разделение (CART) или искусственная нейронная сеть теоретические ограничения регрессии пропорциональных рисков Кокса». Comput. Биомед. Res . 31 (5): 363–73. DOI : 10,1006 / cbmr.1998.1488 . PMID 9790741 .

[pmid16482368-5] Перейти ↑ Lee JW, Um SH, Lee JB, Mun J, Cho H (2006). «Скоринговые и промежуточные системы с использованием моделирования линейной регрессии Кокса и рекурсивного разбиения». Методы информации в медицине . 45 (1): 37–43. DOI : 10,1055 / с-0038-1634034 . PMID 16482368 .

[pmid15687312-6] Fonarow GC, Adams KF, Abraham WT, Янси CW, Boscardin WJ (2005). «Стратификация риска госпитальной смертности при острой декомпенсированной сердечной недостаточности: классификация и регрессионный древовидный анализ» . ДЖАМА . 293 (5): 572–80. DOI : 10,1001 / jama.293.5.572 . PMID 15687312 .

[pmid11597285-7] Stiell IG, Wells GA, Vandemheen KL и др. (2001). «Канадское правило шейного отдела позвоночника для рентгенографии у настороженных и стабильных пациентов с травмой» . ДЖАМА . 286 (15): 1841–8. DOI : 10,1001 / jama.286.15.1841 . PMID 11597285 .

[pmid10891517-8] Haydel MJ, Preston CA, Миллс TJ, Luber S, Blaudeau E, DeBlieux PM (2000). «Показания к компьютерной томографии у пациентов с легкой травмой головы». N. Engl. J. Med . 343 (2): 100–5. DOI : 10.1056 / NEJM200007133430204 . PMID 10891517 .

[pmid3060613-9] Эдворти С.М., Zatarain E, Макшейн DJ, Блох DA (1988). «Анализ набора данных критериев ARA lupus 1982 года с помощью методологии рекурсивного разделения: новый взгляд на относительные достоинства отдельных критериев». J. Rheumatol . 15 (10): 1493–8. PMID 3060613 .

[pmid8594242-10] Stiell IG, Greenberg GH, Wells GA и др. (1996). «Перспективная проверка решающего правила для использования рентгенографии при острых травмах колена». ДЖАМА . 275 (8): 611–5. DOI : 10,1001 / jama.275.8.611 . PMID 8594242 .

[pmid7110205-11] а б Гольдман Л, Вайнберг М, Вайсберг М и др. (1982). «Компьютерный протокол для помощи в диагностике пациентов отделения неотложной помощи с острой болью в груди». N. Engl. J. Med . 307 (10): 588–96. DOI : 10.1056 / NEJM198209023071004 . PMID 7110205 .

[1]