В статистике проблема множественных сравнений , множественности или множественного тестирования возникает, когда одновременно рассматривается набор статистических выводов [1] или делается вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. [2]
Чем больше выводов сделано, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, обычно требующих более строгого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов.
Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Израиле состоялась первая международная конференция по процедурам множественного сравнения . [3]
Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых может привести к «открытию». Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому в отдельности, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. [4] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, что иллюстрируется следующими примерами:
В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут различаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, как правило, должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.
Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, существует только 5%-й риск ошибочного отклонения нулевой гипотезы. Однако, если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложные срабатывания или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга. , вероятность хотя бы одного неверного отказа составляет примерно 99,4%.