Из Википедии, свободной энциклопедии
  (Перенаправлено из множественных сравнений )
Перейти к навигации Перейти к поиску
Пример совпадения, полученного при копании данных (показывающий корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками). Учитывая достаточно большой пул переменных за тот же период времени, можно найти пару графиков, которые показывают корреляцию без причинно-следственной связи .

В статистических данных , то множественные сравнения , кратность или несколько проблемы тестировании возникает , если учесть набор статистических выводов одновременно [1] или выводит подмножество параметров , выбранных на основе наблюдаемых значений. [2] В некоторых областях это известно как эффект поиска в другом месте .

Чем больше выводов делается, тем больше вероятность появления ошибочных выводов. Для предотвращения этого было разработано несколько статистических методов, позволяющих напрямую сравнивать уровни значимости для одиночных и множественных сравнений. Эти методы обычно требуют более строгого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов. Обзор тестов множественного сравнения может помочь пользователям определить, какой тест лучше всего подходит для их ситуации. [3]

История [ править ]

Интерес к проблеме множественных сравнений возник в 1950-х годах с работ Тьюки и Шеффе . Позже появились и другие методы, такие как закрытая процедура тестирования (Marcus et al., 1976) и метод Холма – Бонферрони (1979). В 1995 году началась работа над уровнем ложных открытий . В 1996 году в Израиле прошла первая международная конференция по процедурам множественного сравнения ; обычно проводится примерно раз в два года в разных принимающих странах. [4]

Определение [ править ]

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых может привести к «открытию» одного и того же набора данных или зависимых наборов данных. Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому индивидуально, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. [5] Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, о чем свидетельствуют следующие примеры:

  • Предположим, что лечение - это новый способ обучения студентов письму, а контроль - это стандартный способ обучения письму. Учащиеся двух групп можно сравнивать по грамматике, орфографии, организации, содержанию и так далее. По мере того, как сравнивается больше атрибутов, становится все более вероятным, что экспериментальная и контрольная группы будут различаться по крайней мере по одному атрибуту только из-за ошибки случайной выборки .
  • Предположим, мы рассматриваем эффективность лекарства с точки зрения уменьшения любого из ряда симптомов заболевания. По мере рассмотрения большего количества симптомов становится все более вероятным, что лекарство будет выглядеть лучше существующих лекарств с точки зрения по крайней мере одного симптома.

В обоих примерах по мере увеличения числа сравнений становится более вероятным, что сравниваемые группы будут различаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, как правило, будет слабее, если он будет наблюдаться в рамках анализа, включающего несколько сравнений, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, вероятность ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако, если проведено 100 тестов и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга, вероятность не менее один неверный отказ - 99,4%.

Обратите внимание, что, конечно, проблема множественных сравнений возникает не в каждой ситуации, когда несколько гипотез проверяются эмпирически, будь то последовательно или параллельно (одновременно); [6] грубо говоря, проблема множественных сравнений возникает всякий раз, когда несколько гипотез проверяются на одном и том же наборе данных (или наборах данных, которые не являются независимыми) или когда одна и та же гипотеза проверяется в нескольких наборах данных.

Проблема множественных сравнений также относится к доверительным интервалам . Единый доверительный интервал с уровнем вероятности охвата 95% будет содержать параметр совокупности в 95% экспериментов. Однако, если одновременно рассматривать 100 доверительных интервалов, каждый с вероятностью охвата 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр 99,4%.

Были разработаны методы для предотвращения роста числа ложноположительных результатов и показателей неполного охвата, которые возникают при использовании нескольких статистических тестов.

Классификация множественных проверок гипотез[ редактировать ]

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, что у нас есть m нулевых гипотез, обозначенных как H 1H 2 , ...,  H m . Используя статистический тест , мы отклоняем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест несущественен. Суммирование результатов каждого типа по всем H i   дает следующие случайные величины:

В m проверках гипотез, из которых являются истинными нулевыми гипотезами, R - наблюдаемая случайная величина, а S , T , U и V - ненаблюдаемые случайные величины .

Контрольные процедуры [ править ]

Если выполняется m независимых сравнений, коэффициент ошибок по семейству (FWER) определяется как

Следовательно, если тесты не являются абсолютно положительно зависимыми (т. Е. Идентичными), увеличивается с увеличением числа сравнений. Если мы не предполагаем, что сравнения независимы, мы все же можем сказать:

которое следует из неравенства Буля . Пример:

Есть разные способы обеспечить максимальное количество ошибок в семье . Наиболее консервативный метод, свободный от предположений о зависимости и распределении, - это поправка Бонферрони . Чуть менее консервативная поправка может быть получена путем решения уравнения для семейной ошибки независимых сравнений для . Эта доходность известна как поправка Шидака . Другой процедурой является метод Холма – Бонферрони , который равномерно обеспечивает большую мощность, чем простая поправка Бонферрони, путем проверки только самого низкого p-значения ( ) по самому строгому критерию, а более высоких p-значений ( ) по постепенно менее строгим критериям. [7] .

Для непрерывных задач можно использовать байесовскую логику, чтобы вычислить соотношение объемов до и после. Непрерывные обобщения поправки Бонферрони и Шидака представлены в [8].

Исправление множественного тестирования [ править ]

Коррекция множественного тестирования относится к повторному вычислению вероятностей, полученных в результате статистического теста, который повторялся несколько раз. Чтобы сохранить заданный коэффициент ошибок для семейства α в анализе, включающем более одного сравнения, коэффициент ошибок для каждого сравнения должен быть более строгим, чем  α . Неравенство Буля означает, что если каждый из m тестов выполняется так, чтобы иметь коэффициент ошибок типа I  α / m , общий коэффициент ошибок не будет превышать  α . Это называется поправкой Бонферрони и является одним из наиболее часто используемых подходов для множественных сравнений.

В некоторых ситуациях поправка Бонферрони в значительной степени консервативна, т. Е. Фактическая частота ошибок в семье намного меньше предписанного уровня  α . Это происходит, когда статистика теста сильно зависит (в крайнем случае, когда тесты полностью зависимы, частота ошибок на уровне семьи без корректировки множественных сравнений и частота ошибок для каждого теста идентичны). Например, при анализе фМРТ [9] [10] тесты проводятся на более чем 100 000 вокселей мозга. Метод Бонферрони требует, чтобы p-значения были меньше 0,05 / 100000, чтобы объявить значимость. Поскольку соседние воксели имеют тенденцию быть сильно коррелированными, этот порог обычно слишком строг.

Поскольку простые методы, такие как метод Бонферрони, могут быть консервативными, большое внимание было уделено разработке более совершенных методов, позволяющих поддерживать общий уровень ложных срабатываний без чрезмерного увеличения количества ложноотрицательных результатов. Такие методы можно разделить на общие категории:

  • Методы, в которых можно доказать, что общая альфа никогда не превышает 0,05 (или какое-либо другое выбранное значение) ни при каких условиях. Эти методы обеспечивают «строгий» контроль против ошибок типа I во всех условиях, включая частично правильную нулевую гипотезу.
  • Методы, в которых можно доказать, что общая альфа не превышает 0,05, за исключением определенных определенных условий.
  • Методы, основанные на комплексном тесте, прежде чем переходить к множественным сравнениям. Обычно эти методы требуют значительного анализа ANOVA , MANOVA или диапазона Тьюки . Эти методы обычно обеспечивают только «слабый» контроль ошибок типа I, за исключением определенного количества гипотез.
  • Эмпирические методы, которые адаптивно контролируют долю ошибок типа I, используя характеристики корреляции и распределения наблюдаемых данных.

Появление компьютеризированных методов передискретизации , таких как бутстрэппинг и моделирование методом Монте-Карло , привело к появлению многих методов в последней категории. В некоторых случаях, когда выполняется повторная выборка с исчерпывающей перестановкой, эти тесты обеспечивают точный и строгий контроль над частотой ошибок типа I. в других случаях, таких как бутстраповская выборка, они обеспечивают только приблизительный контроль.

Масштабное множественное тестирование [ править ]

Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто при анализе дисперсии . Другой набор методов был разработан для «крупномасштабного множественного тестирования», в котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микроматрицы , можно измерить уровни экспрессии десятков тысяч генов и можно измерить генотипы миллионов генетических маркеров. В частности, в области генетической ассоциацииисследований, возникла серьезная проблема с отсутствием репликации - результат был статистически значимым в одном исследовании, но не мог быть воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что неспособность полностью учесть последствия выполнения множественных сравнений является одной из причин. [11]

В разных областях науки множественное тестирование выполняется по-разному. Утверждалось, что если статистические тесты выполняются только при наличии веских оснований ожидать, что результат будет верным, корректировки множественных сравнений не требуются. [12] Также утверждалось, что использование множественных тестовых поправок является неэффективным способом проведения эмпирических исследований , поскольку множественные тестовые поправки контролируют ложноположительные результаты за счет потенциального увеличения количества ложноотрицательных результатов . С другой стороны, утверждалось, что достижения в области измерений и информационных технологий значительно упростили создание больших наборов данных для исследовательского анализа., что часто приводит к проверке большого количества гипотез без предварительной основы для ожидания того, что многие из гипотез верны. В этой ситуации ожидается очень высокий процент ложных срабатываний , если не будут сделаны корректировки множественных сравнений.

Для крупномасштабных задач тестирования, цель которых состоит в том, чтобы предоставить окончательные результаты, частота ошибок по семействам остается наиболее приемлемым параметром для приписывания уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно протестированы в независимом исследовании, часто предпочтительнее контролировать частоту ложных открытий (FDR) [13] [14] [15] . FDR, в общих чертах определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям идентифицировать набор «возможных положительных результатов», которые можно более тщательно оценить в ходе последующего исследования. [16]

Практика попытки множества нескорректированных сравнений в надежде найти существенное - известная проблема, независимо от того, применяется ли она непреднамеренно или преднамеренно, иногда называется «р-хакингом». [17] [18]

Оценка верности альтернативных гипотез [ править ]

Нормальный квантиль участок для моделируемого набора статистических тестов , которые были стандартизированы , чтобы быть Z-баллами при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали связано с наличием значительно более крупных значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертой по величине наблюдаемой статистике теста, которая составляет 3,13, по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятой наименьшей тестовой статистике, которая составляет -1,75 по сравнению с ожидаемым значением -1,96. График предполагает, что маловероятно, что все нулевые гипотезы верны, и что большинство или все экземпляры истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, есть ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, заключается в использовании распределения Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые были бы найдены, когда все нулевые гипотезы выполнены. правда. [ необходима цитата ] Если наблюдаемое количество положительных результатов значительно больше, чем следовало ожидать, это говорит о том, что среди значимых результатов, вероятно, будут некоторые истинные положительные результаты. Например, если выполнено 1000 независимых тестов, каждое на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдут, когда все нулевые гипотезы верны. Основываясь на распределении Пуассона со средним значением 50, вероятность наблюдения более 61 значимого критерия составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых выполняется альтернативная гипотеза. Недостатком этого подхода является то, что он переоценивает доказательства того, что некоторые из альтернативных гипотез верны, когда статистика тестаположительно коррелированы, что часто встречается на практике. [ необходима цитата ] . С другой стороны, этот подход остается в силе даже при наличии корреляции между тестовой статистикой, пока можно показать, что распределение Пуассона дает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных частых наборов элементов из наборов транзакционных данных. Кроме того, тщательный двухэтапный анализ может ограничить FDR на заранее заданном уровне. [19]

Другой распространенный подход, который можно использовать в ситуациях, когда статистику теста можно стандартизировать до Z- значений, - это построить нормальный график квантилей для статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. [ необходима цитата ]

См. Также [ править ]

  • q -значение
Ключевые идеи
  • Частота семейных ошибок
  • Ложноположительная ставка
  • Коэффициент ложного обнаружения (FDR)
  • Коэффициент ложного покрытия (FCR)
  • Оценка интервала
  • Постфактум анализ
  • Экспериментальная частота ошибок
  • Статистическая проверка гипотез
Общие методы альфа-корректировки для множественных сравнений
  • Закрытая процедура тестирования
  • Коррекция Бонферрони
  • Граница Буля – Бонферрони
  • Новый многодиапазонный тест Дункана
  • Метод Холма – Бонферрони
  • Процедура гармонического среднего p-значения
Связанные понятия
  • Проверка гипотез, предложенных данными
  • Заблуждение техасского снайпера
  • Выбор модели
  • Эффект поиска в другом месте
  • Дноуглубительные работы

Ссылки [ править ]

  1. Перейти ↑ Miller, RG (1981). Одновременный статистический вывод 2-е изд . Springer Verlag Нью-Йорк. ISBN 978-0-387-90548-8.
  2. Перейти ↑ Benjamini, Y. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал . 52 (6): 708–721. DOI : 10.1002 / bimj.200900299 . PMID 21154895 . 
  3. ^ Мидуэй, Стивен; Робертсон, Мэтью; Флинн, Шейн; Каллер, Майкл (2020-12-04). «Сравнение множественных сравнений: практическое руководство по выбору лучшего теста множественных сравнений» . PeerJ . 8 : e10387. DOI : 10,7717 / peerj.10387 . ISSN 2167-8359 . 
  4. ^ [1]
  5. ^ Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . стр.  744 -745.
  6. ^ Георгиев, Георгий (2017-08-22). «Многовариантное тестирование - лучшие практики и инструменты для тестирования MVT (A / B / n)» . Блог по веб-аналитике, статистике и интернет-маркетингу на основе данных | Analytics-Toolkit.com . Проверено 13 февраля 2020 .
  7. ^ Aickin, M; Генслер, Х (май 1996 г.). «Поправка на множественное тестирование при сообщении результатов исследования: методы Бонферрони и Холма» . Am J Public Health . 86 (5): 726–728. DOI : 10,2105 / ajph.86.5.726 . PMC 1380484 . PMID 8629727 .  
  8. ^ Байер, Адриан Э .; Селяк, Урош (2020). «Эффект поиска в другом месте с объединенной байесовской и частотной точки зрения» . Журнал космологии и физики астрономических частиц . 2020 (10): 009–009. arXiv : 2007.13821 . DOI : 10.1088 / 1475-7516 / 2020/10/009 .
  9. ^ Логан, BR; Роу, ДБ (2004). «Оценка пороговых методов в анализе фМРТ». NeuroImage . 22 (1): 95–108. CiteSeerX 10.1.1.10.421 . DOI : 10.1016 / j.neuroimage.2003.12.047 . PMID 15110000 .  
  10. ^ Логан, BR; Гелязкова, депутат; Роу, ДБ (2008). «Оценка методов пространственной пороговой обработки в анализе фМРТ» . Картирование человеческого мозга . 29 (12): 1379–1389. DOI : 10.1002 / hbm.20471 . PMC 6870886 . PMID 18064589 .  
  11. ^ Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронак, Константин (01.10.2010). «Статистическая значимость в исследованиях генетических ассоциаций» . Клиническая и следственная медицина . 33 (5): E266 – E270. ISSN 0147-958X . PMC 3270946 . PMID 20926032 .   
  12. ^ Ротман, Кеннет Дж. (1990). «Для множественных сравнений корректировок не требуется». Эпидемиология . 1 (1): 43–46. DOI : 10.1097 / 00001648-199001000-00010 . JSTOR 20065622 . PMID 2081237 .  
  13. ^ Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль ложного обнаружения: практичный и эффективный подход к множественному тестированию». Журнал Королевского статистического общества, Series B . 57 (1): 125–133. JSTOR 2346101 . 
  14. ^ Стори, JD; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований» . PNAS . 100 (16): 9440–9445. Bibcode : 2003PNAS..100.9440S . DOI : 10.1073 / pnas.1530509100 . JSTOR 3144228 . PMC 170937 . PMID 12883005 .   
  15. ^ Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д .; Тушер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. DOI : 10.1198 / 016214501753382129 . JSTOR 3085878 . 
  16. ^ Благородный, Уильям С. (2009-12-01). «Как работает коррекция множественного тестирования?» . Природа Биотехнологии . 27 (12): 1135–1137. DOI : 10.1038 / nbt1209-1135 . ISSN 1087-0156 . PMC 2907892 . PMID 20010596 .   
  17. Перейти ↑ Young, SS, Karr, A. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. DOI : 10.1111 / j.1740-9713.2011.00506.x . CS1 maint: multiple names: authors list (link)
  18. Перейти ↑ Smith, GD, Shah, E. (2002). «Углубление данных, предвзятость или искажение данных» . BMJ . 325 (7378): 1437–1438. DOI : 10.1136 / bmj.325.7378.1437 . PMC 1124898 . PMID 12493654 .  CS1 maint: multiple names: authors list (link)
  19. ^ Кирш, А; Митценмахер, М ; Pietracaprina, A; Пуччи, G; Upfal, E ; Вандин, Ф (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал ACM . 59 (3): 12: 1–12: 22. arXiv : 1002.1104 . DOI : 10.1145 / 2220357.2220359 .

Дальнейшее чтение [ править ]

  • Ф. Бец, Т. Хотхорн, П. Вестфол (2010), Множественные сравнения с использованием R , CRC Press
  • С. Дудуа и М.Дж. ван дер Лаан (2008), Процедуры множественного тестирования с применением в геномике , Springer
  • Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез, с особым вниманием к количеству ложных открытий». Статистические методы в медицинских исследованиях . 17 : 347–388. DOI : 10.1177 / 0962280206079046 .
  • Phipson, B .; Смит, GK (2010). «P-значения перестановок никогда не должны быть нулевыми: вычисление точных P-значений при случайном построении перестановок». Статистические приложения в генетике и молекулярной биологии . DOI : 10.2202 / 1544-6155.1585 .
  • PH Westfall и SS Young (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения , Wiley
  • П. Вестфолл, Р. Тобиас, Р. Вольфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS , 2-е изд., Институт SAS
  • Галерея примеров неправдоподобных корреляций, полученных с помощью драгирования данных