В статистике , гипотезы были предложены данным набором данных , при тестировании того же набор данных , который предложил им, скорее всего, будет приняты , даже если они не являются истинными. Это связано с тем, что будет задействовано круговое рассуждение (двойное погружение): что-то кажется верным в ограниченном наборе данных; поэтому мы предполагаем, что это в целом верно; поэтому мы (ошибочно) тестируем его на том же ограниченном наборе данных, который, кажется, подтверждает, что это правда. Формирование гипотез на основе уже наблюдаемых данных в отсутствие проверки их на новых данных называется апостериорным теоретизированием (от латинского post hoc - «после этого»).
Правильная процедура - проверить любую гипотезу на наборе данных, который не использовался для создания гипотезы.
Пример ошибочного принятия гипотезы
Предположим, пятьдесят различных исследователей проводят клинические испытания, чтобы проверить, эффективен ли витамин X при лечении рака. Подавляющее большинство из них не находят существенных различий между измерениями, проведенными на пациентах, принимавших витамин X, и тех, кто принимал плацебо . Однако из-за статистического шума одно исследование обнаруживает значительную корреляцию между приемом витамина X и излечением от рака.
Принимая во внимание все 50 исследований в целом, единственный вывод, который можно сделать с большой уверенностью, заключается в том, что нет никаких доказательств того, что витамин X оказывает какое-либо влияние на лечение рака. Тем не менее, кто-то, кто пытается добиться большей огласки одного необычного исследования, может попытаться создать гипотезу, предложенную на основе данных, найдя некоторый аспект, уникальный для этого исследования, и заявив, что этот аспект является ключом к его разным результатам. Предположим, например, что это исследование было единственным, проведенным в Дании. Можно утверждать, что этот набор из 50 исследований показывает, что витамин X более эффективен в Дании, чем где-либо еще. Однако, хотя данные не противоречат этой гипотезе, они также не подтверждают ее. Только одно или несколько дополнительных исследований могут подтвердить эту дополнительную гипотезу.
Общая проблема
Проверка гипотезы, выдвинутой на основе данных, может очень легко привести к ложным срабатываниям ( ошибки типа I ). Если посмотреть достаточно долго и в достаточно разных местах, в конечном итоге можно будет найти данные, подтверждающие любую гипотезу. Тем не менее, эти положительные данные сами по себе не являются свидетельством того, что гипотеза верна. Отрицательные данные теста, которые были выброшены, не менее важны, потому что они дают представление о том, насколько часто положительные результаты сравниваются со случайностью. Проведение эксперимента, наблюдение за закономерностью в данных, выдвижение гипотезы на основе этого паттерна, а затем использование тех же экспериментальных данных в качестве доказательства новой гипотезы является крайне сомнительным, потому что данные всех других экспериментов, завершенных или потенциальных, по существу были "выброшены". вне », выбрав рассмотрение только тех экспериментов, которые изначально предлагали новую гипотезу.
Большой набор тестов , как описано выше , значительно завышает вероятность от ошибки типа I , как все , но данные , наиболее благоприятных для гипотезы отбрасывают. Это риск не только при проверке гипотез, но и во всех статистических выводах, поскольку часто бывает проблематично точно описать процесс, которому следовали при поиске и удалении данных . Другими словами, кто-то хочет сохранить все данные (независимо от того, поддерживают они или опровергают гипотезу) из «хороших тестов», но иногда бывает трудно понять, что такое «хороший тест». Это особая проблема в статистическом моделировании , когда многие различные модели отбрасываются методом проб и ошибок перед публикацией результата (см. Также переобучение , систематическая ошибка публикации ).
Ошибка особенно часто встречается при интеллектуальном анализе данных и машинном обучении . Это также часто встречается в академических публикациях, где обычно принимаются только сообщения о положительных, а не отрицательных результатах, что приводит к эффекту, известному как предвзятость публикации .
Правильные процедуры
Все стратегии обоснованной проверки гипотез, предлагаемых на основе данных, включают включение более широкого круга тестов в попытке подтвердить или опровергнуть новую гипотезу. Это включает:
- Сбор образцов подтверждения
- Перекрестная проверка
- Способы компенсации множественных сравнений
- Имитационные исследования, включая адекватное представление фактически задействованного множественного тестирования
Одновременный тест Генри Шеффе всех контрастов в нескольких задачах сравнения - наиболее [ цитата ] известное средство в случае дисперсионного анализа . [1] Это метод, разработанный для проверки гипотез, предложенных на основе данных, с одновременным устранением ошибки, описанной выше.
Смотрите также
Примечания и ссылки
- ^ Генри Шеффе , «Метод оценки всех контрастов в дисперсионном анализе», Biometrika , 40, страницы 87–104 (1953). DOI : 10,1093 / Biomet / 40.1-2.87