Проблема множественных сравнений

В статистических данных , то множественные сравнения , кратность или несколько проблемы тестировании возникает , если учесть набор статистических выводов одновременно ^[1] или выводит подмножество параметров , выбранных на основе наблюдаемых значений. ^[2] В некоторых областях это известно как эффект поиска в другом месте .

Пример совпадения, полученного при копании данных (показывающий корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками). Учитывая достаточно большой пул переменных за тот же период времени, можно найти пару графиков, которые показывают корреляцию без причинно-следственной связи .

Чем больше выводов делается, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, обычно требующих более строгого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов.

История

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работе таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Израиле прошла первая международная конференция по процедурам множественного сравнения ; обычно проводится примерно раз в два года в разных принимающих странах. ^[3]

Определение

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых может привести к «открытию». Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому индивидуально, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. ^[4] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, о чем свидетельствуют следующие примеры:

Предположим, что лечение - это новый способ обучения студентов письму, а контроль - это стандартный способ обучения письму. Учащиеся двух групп можно сравнивать по грамматике, орфографии, организации, содержанию и так далее. По мере того как сравнивается больше атрибутов, становится все более вероятным, что экспериментальная и контрольная группы будут различаться хотя бы по одному атрибуту только из-за ошибки случайной выборки .
Предположим, мы рассматриваем эффективность лекарства с точки зрения уменьшения любого из ряда симптомов заболевания. По мере рассмотрения большего количества симптомов становится все более вероятным, что лекарство будет выглядеть лучше существующих лекарств с точки зрения по крайней мере одного симптома.

В обоих примерах по мере увеличения числа сравнений становится более вероятным, что сравниваемые группы будут различаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, как правило, будет слабее, если он будет наблюдаться в рамках анализа, включающего несколько сравнений, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, вероятность ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако, если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга. , вероятность хотя бы одного неправильного отказа составляет примерно 99,4%.

Проблема множественных сравнений также относится к доверительным интервалам . Единый доверительный интервал с уровнем вероятности охвата 95% будет содержать истинное значение параметра в 95% выборок. Однако, если одновременно рассматривать 100 доверительных интервалов, каждый с вероятностью охвата 95%, ожидаемое количество непокрываемых интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр 99,4%.

Были разработаны методы для предотвращения роста числа ложноположительных результатов и показателей неполного охвата, которые возникают при использовании нескольких статистических тестов.

Классификация множественных проверок гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, что у нас есть m нулевых гипотез, обозначенных как $H 1, H 2, ..., H m .$ Используя статистический тест , мы отклоняем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест несущественен. Суммирование результатов каждого типа по всем H _i дает следующие случайные величины:

	Нулевая гипотеза верна (H ₀ )	Альтернативная гипотеза верна (H _A )	Общее
Тест объявлен значимым	$V$	$S$	$р$
Тест объявлен несущественным	$U$	$Т$	${\ displaystyle mR}$
Общее	${\ displaystyle m_ {0}}$	${\ Displaystyle м-м_ {0}}$	$м$

$m$ - общее количество проверенных гипотез
${\ displaystyle m_ {0}}$ количество истинных нулевых гипотез , неизвестный параметр
${\ Displaystyle м-м_ {0}}$ количество истинных альтернативных гипотез
$V$ - количество ложных срабатываний (ошибка типа I) (также называемых «ложными открытиями»).
$S$ - количество истинных положительных результатов (также называемых «истинными открытиями»).
$T$ - количество ложноотрицательных результатов (ошибка типа II)
$U$ - количество истинных негативов
${\ Displaystyle R = V + S}$ это количество отклоненных нулевых гипотез (также называемых «открытиями», истинными или ложными)

В $m$ проверках гипотез, из которых ${\ displaystyle m_ {0}}$ - истинные нулевые гипотезы, $R$ - наблюдаемая случайная величина, а $S$ , $T$ , $U$ и $V$ - ненаблюдаемые случайные величины .

Контрольные процедуры

Если выполняется m независимых сравнений, коэффициент ошибок по семейству (FWER) определяется как

{\ displaystyle {\ bar {\ alpha}} = 1- \ left (1- \ alpha _ {\ {{\ text {для сравнения}} \}} \ right) ^ {m}.}

Следовательно, если тесты не являются абсолютно положительно зависимыми (т. Е. Идентичными), ${\ displaystyle {\ bar {\ alpha}}}$ увеличивается по мере увеличения количества сравнений. Если мы не предполагаем, что сравнения независимы, мы все же можем сказать:

{\ displaystyle {\ bar {\ alpha}} \ leq m \ cdot \ alpha _ {\ {{\ text {для сравнения}} \}},}

которое следует из неравенства Буля . Пример: ${\ displaystyle 0,2649 = 1- (1-.05) ^ {6} \ leq .05 \ times 6 = 0,3}$

Есть разные способы гарантировать, что частота ошибок в семье не превосходит ${\ displaystyle {\ bar {\ alpha}}}$ . Наиболее консервативный метод, свободный от предположений о зависимости и распределении, - это поправка Бонферрони. ${\ displaystyle \ alpha _ {\ mathrm {\ {per \ compare \}}} = {\ alpha} / m}$ . Чуть менее консервативную поправку можно получить, решив уравнение для коэффициента ошибок семейства ${\ displaystyle m}$ независимые сравнения для ${\ displaystyle \ alpha _ {\ mathrm {\ {per \ compare \}}}}$ . Это дает ${\ displaystyle \ alpha _ {\ {{\ text {для сравнения}} \}} = 1 - {(1 - {\ alpha})} ^ {1 / m}}$ , известная как поправка Шидака . Другой процедурой является метод Холма – Бонферрони , который равномерно обеспечивает большую мощность, чем простая поправка Бонферрони, путем проверки только самого низкого значения p ( ${\ displaystyle i = 1}$ ) по самому строгому критерию, а более высокие значения p ( ${\ displaystyle i> 1}$ ) против все менее строгих критериев. ^[5] ${\ displaystyle \ alpha _ {\ mathrm {\ {per \ compare \}}} = {\ alpha} / (m-i + 1)}$ .

Для непрерывных задач можно использовать байесовскую логику для вычисления ${\ displaystyle m}$ от до-заднего объемного соотношения. Непрерывные обобщения поправки Бонферрони и Шидака представлены в ^[6].

Коррекция множественного тестирования

Коррекция множественного тестирования относится к более строгим статистическим тестам, чтобы противодействовать проблеме множественного тестирования. Самая известная такая корректировка - это поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для управления частотой ошибок в семействе или частотой ложных обнаружений .

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто при анализе дисперсии . Другой набор методов был разработан для «крупномасштабного множественного тестирования», в котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микроматрицы , можно измерить уровни экспрессии десятков тысяч генов и можно измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации - результат был статистически значимым в одном исследовании, но не мог быть воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что неспособность полностью учесть последствия выполнения множественных сравнений является одной из причин. ^[7]

В разных областях науки множественное тестирование выполняется по-разному. Некоторые утверждали, что корректировка для множественных сравнений не нужна, ^{[8] в} то время как другие утверждали, что корректировка требуется только для некоторых типов множественных сравнений, но не для других. ^[9] Также утверждалось, что достижения в области измерений и информационных технологий значительно упростили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительной основы для ожидания того, что многие из гипотез будут правда. В этой ситуации ожидается очень высокий процент ложных срабатываний , если не будут сделаны корректировки множественных сравнений.

Для крупномасштабных задач тестирования, цель которых состоит в том, чтобы предоставить окончательные результаты, частота ошибок по семействам остается наиболее приемлемым параметром для приписывания уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно протестированы в независимом исследовании, часто предпочтительнее контролировать частоту ложных открытий (FDR) ^[10]^[11]^[12] . FDR, в общих чертах определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям идентифицировать набор «возможных положительных результатов», которые можно более тщательно оценить в ходе последующего исследования. ^[13]

Практика попытки множества нескорректированных сравнений в надежде найти существенное - известная проблема, независимо от того, применяется ли она непреднамеренно или преднамеренно, иногда называется «р-хакингом». ^[14]^[15]

Оценка того, верны ли какие-либо альтернативные гипотезы

Нормальный квантиль участок для моделируемого набора статистических тестов , которые были стандартизированы , чтобы быть Z-баллами при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали связано с наличием значительно более крупных значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертой по величине наблюдаемой статистике теста, которая составляет 3,13, по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятой наименьшей тестовой статистике, которая составляет -1,75 по сравнению с ожидаемым значением -1,96. График предполагает, что маловероятно, что все нулевые гипотезы верны, и что большинство или все экземпляры истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, есть ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, заключается в использовании распределения Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые были бы найдены, когда все нулевые гипотезы выполнены. правда. ^{[ необходима цитата ]} Если наблюдаемое количество положительных результатов значительно больше, чем следовало ожидать, это говорит о том, что среди значимых результатов, вероятно, будут некоторые истинные положительные результаты. Например, если выполнено 1000 независимых тестов, каждое на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдут, когда все нулевые гипотезы верны. Основываясь на распределении Пуассона со средним значением 50, вероятность наблюдения более 61 значимого критерия составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых выполняется альтернативная гипотеза. Недостатком этого подхода является то, что он переоценивает доказательства того, что некоторые из альтернативных гипотез верны, когда статистические данные теста положительно коррелированы, что обычно происходит на практике. ^{[ необходима цитата ]} . С другой стороны, этот подход остается в силе даже при наличии корреляции между тестовой статистикой, пока можно показать, что распределение Пуассона дает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных частых наборов элементов из наборов транзакционных данных. Кроме того, тщательный двухэтапный анализ может ограничить FDR на заранее заданном уровне. ^[16]

Другой распространенный подход, который можно использовать в ситуациях, когда статистику теста можно стандартизировать до Z- значений, - это построить нормальный график квантилей для статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. ^{[ необходима цитата ]}

Смотрите также

q -значение

Ключевые идеи

Семейная частота ошибок
Ложноположительная ставка
Коэффициент ложного обнаружения (FDR)
Коэффициент ложного покрытия (FCR)
Оценка интервала
Постфактум анализ
Экспериментальная частота ошибок
Статистическая проверка гипотез

Общие методы альфа-корректировки для множественных сравнений

Закрытая процедура тестирования
Коррекция Бонферрони
Граница Буля – Бонферрони
Новый многодиапазонный тест Дункана
Метод Холма – Бонферрони
Процедура гармонического среднего p-значения

Связанные понятия

Проверка гипотез, предложенных данными
Заблуждение техасского снайпера
Выбор модели
Эффект "поиск в другом месте"
Дноуглубительные работы

дальнейшее чтение

Ф. Бец, Т. Хотхорн, П. Вестфол (2010), Множественные сравнения с использованием R , CRC Press
С. Дудуа и М. Дж. Ван дер Лаан (2008), Процедуры множественного тестирования с применением в геномике , Springer
Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез, с особым вниманием к количеству ложных открытий». Статистические методы в медицинских исследованиях . 17 : 347–388. DOI : 10.1177 / 0962280206079046 .
Phipson, B .; Смит, GK (2010). «P-значения перестановок никогда не должны быть нулевыми: вычисление точных P-значений при случайном построении перестановок». Статистические приложения в генетике и молекулярной биологии . DOI : 10.2202 / 1544-6155.1585 .
PH Westfall и SS Young (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения , Wiley
П. Вестфолл, Р. Тобиас, Р. Вольфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS , 2-е изд., Институт SAS
Галерея примеров неправдоподобных корреляций, полученных с помощью драгирования данных

[1] Перейти ↑ Miller, RG (1981). Одновременный статистический вывод 2-е изд . Springer Verlag Нью-Йорк. ISBN 978-0-387-90548-8.

[2] Бенджамини, Ю. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал . 52 (6): 708–721. DOI : 10.1002 / bimj.200900299 . PMID 21154895 .

[3] [1]

[4] Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . стр. 744 -745.

[5] Aickin, M; Генслер, Х (май 1996 г.). «Поправка на множественное тестирование при сообщении результатов исследования: методы Бонферрони и Холма» . Am J Public Health . 86 (5): 726–728. DOI : 10,2105 / ajph.86.5.726 . PMC 1380484 . PMID 8629727 .

[Bayer2020-6] Байер, Адриан Э .; Селяк, Урош (2020). «Эффект поиска в другом месте с объединенной байесовской и частотной точки зрения» . Журнал космологии и физики астрономических частиц . 2020 (10): 009–009. arXiv : 2007.13821 . DOI : 10.1088 / 1475-7516 / 2020/10/009 .

[7] Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронак, Константин (01.10.2010). «Статистическая значимость в исследованиях генетических ассоциаций» . Клиническая и следственная медицина . 33 (5): E266 – E270. ISSN 0147-958X . PMC 3270946 . PMID 20926032 .

[8] Ротман, Кеннет Дж. (1990). «Для множественных сравнений корректировок не требуется». Эпидемиология . 1 (1): 43–46. DOI : 10.1097 / 00001648-199001000-00010 . JSTOR 20065622 . PMID 2081237 .

[Rubin_(2021)-9] Рубин, Марк (2021). «Когда корректировать альфа во время множественного тестирования: рассмотрение дизъюнкции, конъюнкции и индивидуального тестирования» . Synthese . DOI : 10.1007 / s11229-021-03276-4 .

[10] Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль ложного обнаружения: практичный и эффективный подход к множественному тестированию». Журнал Королевского статистического общества, Series B . 57 (1): 125–133. JSTOR 2346101 .

[11] Стори, JD; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований» . PNAS . 100 (16): 9440–9445. Bibcode : 2003PNAS..100.9440S . DOI : 10.1073 / pnas.1530509100 . JSTOR 3144228 . PMC 170937 . PMID 12883005 .

[12] Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д .; Тушер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. DOI : 10.1198 / 016214501753382129 . JSTOR 3085878 .

[13] Благородный, Уильям С. (2009-12-01). «Как работает коррекция множественного тестирования?» . Природа Биотехнологии . 27 (12): 1135–1137. DOI : 10.1038 / nbt1209-1135 . ISSN 1087-0156 . PMC 2907892 . PMID 20010596 .

[Deming-14] Янг, СС, Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. DOI : 10.1111 / j.1740-9713.2011.00506.x .CS1 maint: несколько имен: список авторов ( ссылка )

[bmj02-15] Смит, Г.Д., Шах, Э. (2002). «Углубление данных, предвзятость или искажение данных» . BMJ . 325 (7378): 1437–1438. DOI : 10.1136 / bmj.325.7378.1437 . PMC 1124898 . PMID 12493654 .CS1 maint: несколько имен: список авторов ( ссылка )

[16] Кирш, А; Митценмахер, М ; Pietracaprina, A; Пуччи, G; Upfal, E ; Вандин, Ф (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал ACM . 59 (3): 12: 1–12: 22. arXiv : 1002.1104 . DOI : 10.1145 / 2220357.2220359 .

[1]