Выемка данных

Дноуглубление данных (также известное как отслеживание данных или p -hacking ) ^[1]^[a] — это неправильное использование анализа данных для поиска закономерностей в данных, которые могут быть представлены как статистически значимые , что резко увеличивает и занижает риск ложных срабатываний. Это делается путем выполнения множества статистических тестов данных и сообщения только тех, которые возвращаются со значительными результатами. ^[2]

Процесс извлечения данных включает в себя проверку нескольких гипотез с использованием одного набора данных путем исчерпывающего поиска — возможно, комбинаций переменных, которые могут показать корреляцию , и, возможно, групп случаев или наблюдений, которые показывают различия в их среднем значении или в их разбивке по каким-либо другим параметрам. переменная.

Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы действовала только случайность, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочное отклонение нулевой гипотезы). Этот уровень риска называется значимостью. Когда выполняется большое количество тестов, некоторые из них дают ложные результаты этого типа; следовательно, 5 % случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми при уровне значимости 5 %, 1 % может быть (ошибочно) сообщено как статистически значимый при уровне значимости 1 % и т. д., только случайно. . Когда проверяется достаточное количество гипотез, практически наверняка некоторые из них будут признаны статистически значимыми (даже если это вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции . Если они не будут осторожны, исследователи, использующие методы интеллектуального анализа данных, могут быть легко введены в заблуждение этими результатами.

Извлечение данных — пример игнорирования проблемы множественных сравнений . Одна форма - это когда подгруппы сравниваются, не предупреждая читателя об общем количестве рассмотренных сравнений подгрупп. ^[3]

Обычная процедура частотной проверки статистической гипотезы заключается в том, чтобы сформулировать исследовательскую гипотезу, например, «люди из более высоких социальных классов живут дольше», затем собрать соответствующие данные, а затем провести проверку статистической значимости, чтобы увидеть, насколько вероятны такие результаты, если случай одни были на работе. (Последний шаг называется проверкой нулевой гипотезы .)

Ключевым моментом в правильном статистическом анализе является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это очень важно, потому что каждый набор данных содержит некоторые закономерности, полностью обусловленные случайностью. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что такая закономерность может быть получена только благодаря случайности. См. проверку гипотез, предложенных данными .

Пример результата драгирования данных, показывающий корреляцию между количеством букв в слове-победителе Scripps National Spelling Bee и количеством людей в Соединенных Штатах, убитых ядовитыми пауками .