Проблема множественных сравнений

В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов ^[1] или делается вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. ^[2]

Чем больше выводов сделано, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, обычно требующих более строгого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов.

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Израиле состоялась первая международная конференция по процедурам множественного сравнения . ^[3]

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых может привести к «открытию». Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому в отдельности, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. ^[4] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, что иллюстрируется следующими примерами:

В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут различаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, как правило, должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, существует только 5%-й риск ошибочного отклонения нулевой гипотезы. Однако, если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложные срабатывания или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга. , вероятность хотя бы одного неверного отказа составляет примерно 99,4%.

Пример совпадения, полученного в результате углубления данных (показывающего корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками). Имея достаточно большой набор переменных за один и тот же период времени, можно найти пару графиков, показывающих корреляцию без причинно -следственной связи .

Нормальный квантильный график для смоделированного набора тестовых статистических данных, которые были стандартизированы для Z-показателей при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали связано с наличием существенно более больших значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертой по величине наблюдаемой тестовой статистике, равной 3,13, по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятой наименьшей тестовой статистике, равной -1,75, по сравнению с ожидаемым значением -1,96. График показывает, что маловероятно, что все нулевые гипотезы верны, и что большинство или все случаи истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.