Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Статистическая гипотеза является гипотезой , что является проверяемым на основе наблюдаемых данных , смоделированных в качестве реализованных значений , принимаемых совокупностью случайных величин . [1] Набор данных моделируется как реализованные значения набора случайных величин, имеющих совместное распределение вероятностей в некотором наборе возможных совместных распределений. Проверяемая гипотеза - это именно тот набор возможных распределений вероятностей. Тест статистической гипотезы является методом статистического вывода . Альтернативная гипотезапредлагается для вероятностного распределения данных либо явно, либо только неформально. Сравнение двух моделей считается статистически значимым, если в соответствии с пороговой вероятностью - уровнем значимости - данные вряд ли будут получены, если нулевая гипотеза верна. Проверка гипотезы определяет, какие результаты исследования могут привести к отклонению нулевой гипотезы на заранее заданном уровне значимости, при этом используется заранее выбранная мера отклонения от этой гипотезы (тестовая статистика или критерий согласия. мера). Заранее выбранный уровень значимости - это максимально допустимая «частота ложных срабатываний». Один хочет контролировать риск неправильного отклонения истинной нулевой гипотезы.

Процесс различения нулевой гипотезы и альтернативной гипотезы облегчается рассмотрением двух концептуальных типов ошибок. Первый тип ошибки возникает, когда нулевая гипотеза ошибочно отвергается. Второй тип ошибки возникает, когда нулевая гипотеза ошибочно не отклоняется. (Эти два типа известны как ошибки типа 1 и типа 2. )

Проверка гипотез, основанная на статистической значимости, - это еще один способ выражения доверительных интервалов (точнее, наборов достоверности). Другими словами, каждая проверка гипотезы, основанная на значимости, может быть получена с помощью доверительного интервала, а каждый доверительный интервал может быть получен с помощью проверки гипотезы на основе значимости. [2]

Проверка гипотез на основе значимости является наиболее распространенной структурой для проверки статистических гипотез. Альтернативная структура для проверки статистических гипотез состоит в том, чтобы указать набор статистических моделей , по одной для каждой гипотезы-кандидата, а затем использовать методы выбора модели для выбора наиболее подходящей модели. [3] Наиболее распространенные методы отбора основаны либо на информационном критерии Акаике, либо на байесовском факторе.. Однако на самом деле это не «альтернативный фреймворк», хотя его можно назвать более сложным фреймворком. Это ситуация, когда хочется различать множество возможных гипотез, а не только две. В качестве альтернативы его можно рассматривать как гибрид между тестированием и оценкой, где один из параметров является дискретным и указывает, какая из иерархии все более и более сложных моделей является правильной.

  • Проверка значимости нулевой гипотезы * - это название версии проверки гипотез без явного упоминания возможных альтернатив и без особого учета количества ошибок. Его отстаивал Рональд Фишер в контексте, в котором он недооценивал любой явный выбор альтернативной гипотезы и, следовательно, не обращал внимания на силу теста. Кто-то просто выдвигает нулевую гипотезу как своего рода соломенный человек или, что более любезно, как формализацию стандартного, установочного, стандартного представления о том, как обстоят дела. Один попытался опровергнуть это общепринятое мнение, показав, что он приводит к выводу, что произошло нечто крайне маловероятное, тем самым дискредитируя теорию.

Процесс тестирования [ править ]

В статистической литературе проверка статистических гипотез играет фундаментальную роль. [4] Можно использовать два математически эквивалентных процесса. [5]

Обычно рассуждают следующим образом:

  1. Существует первоначальная исследовательская гипотеза, истина которой неизвестна.
  2. Первый шаг - сформулировать соответствующие нулевые и альтернативные гипотезы . Это важно, так как неверная формулировка гипотез запутает остальную часть процесса.
  3. Второй шаг - рассмотреть статистические допущения , сделанные в отношении выборки при проведении теста; например, предположения о статистической независимости или о форме распределений наблюдений. Это не менее важно, поскольку неверные предположения будут означать, что результаты теста недействительны.
  4. Решить , какой тест является целесообразным, и указать соответствующую тестовую статистику T .
  5. Получите распределение тестовой статистики при нулевой гипотезе из предположений. В стандартных случаях это будет хорошо известный результат. Например, статистика теста может следовать t-распределению Стьюдента с известными степенями свободы или нормальному распределению с известным средним и дисперсией. Если распределение тестовой статистики полностью фиксируется нулевой гипотезой, мы называем гипотезу простой, иначе она называется составной.
  6. Выберите уровень значимости ( α ), порог вероятности, ниже которого нулевая гипотеза будет отклонена. Общие значения 5% и 1%.
  7. Распределение тестовой статистики при нулевой гипотезе делит возможные значения T на те, для которых нулевая гипотеза отклоняется (так называемая критическая область), и те, для которых это не так. Вероятность критической области равна α . В случае составной нулевой гипотезы максимальная вероятность критической области равна α .
  8. Вычислительные из наблюдений наблюдаемого значения т OBS тестовой статистики T .
  9. Решите либо отклонить нулевую гипотезу в пользу альтернативы, либо не отклонять ее. Правило принятия решения состоит в том, чтобы отклонить нулевую гипотезу H 0, если наблюдаемое значение t obs находится в критической области, и принять или «не отклонить» гипотезу в противном случае.

Общая альтернативная формулировка этого процесса выглядит следующим образом:

  1. Вычислительные из наблюдений наблюдаемого значения т OBS тестовой статистики T .
  2. Вычислите p -значение . Это вероятность при нулевой гипотезе выборки тестовой статистики, по крайней мере, столь же экстремальной, как наблюдаемая (максимальная вероятность того события, если гипотеза составная).
  3. Отвергните нулевую гипотезу в пользу альтернативной гипотезы тогда и только тогда, когда значение p меньше (или равно) пороговому значению уровня значимости (выбранной вероятности) ( ).

Первый процесс был выгоден в прошлом, когда были доступны только таблицы тестовой статистики с общими порогами вероятности. Это позволяло принимать решение без вычисления вероятности. Его было достаточно для работы в классе и для оперативного использования, но было недостаточно для отчета о результатах. Последний процесс опирался на обширные таблицы или вычислительную поддержку, которая не всегда доступна. Явный расчет вероятности полезен для составления отчетов. Теперь вычисления легко выполняются с помощью соответствующего программного обеспечения.

Разница в двух процессах, примененных к примеру с радиоактивным чемоданом (ниже):

  • «Счетчик Гейгера показывает 10. Предел - 9. Проверьте чемодан».
  • «Показания счетчика Гейгера высокие; 97% безопасных чемоданов имеют более низкие показания. Предел составляет 95%. Проверьте чемодан».

Первый отчет является адекватным, второй дает более подробное объяснение данных и причин, по которым чемодан проверяется.

Разница между принятием нулевой гипотезы и просто неспособностью ее отвергнуть очень важна. Терминология «не удалось отклонить» подчеркивает тот факт, что несущественный результат не дает возможности определить, какая из двух гипотез верна, поэтому все, что можно сделать, - это то, что нулевая гипотеза не была отвергнута. Фраза «принять нулевую гипотезу» может означать, что она доказана просто потому, что не была опровергнута, - логическая ошибка, известная как аргумент от незнания . Если не использовать тест с особенно высокой мощностью , идея «принятия» нулевой гипотезы, вероятно, будет неверной. Тем не менее терминология преобладает в статистике, где фактически подразумеваемое значение хорошо понимается.

Описанные здесь процессы идеально подходят для вычислений. Они серьезно пренебрегают соображениями планирования экспериментов . [6] [7]

Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.

Фраза «критерий значимости» была придумана статистиком Рональдом Фишером . [8]

Интерпретация [ править ]

Значение p - это вероятность того, что данный результат (или более значимый результат) будет иметь место при нулевой гипотезе (или, в случае составного нуля, это наибольшая такая вероятность; см. Главу 10 «Вся статистика: Краткий курс статистического вывода », Springer; 1-е исправленное издание, 20-е издание, 17 сентября 2004 г .; Ларри Вассерман). Например, предположим, что честная монета проверяется на честность (нулевая гипотеза). При уровне значимости 0,05 ожидается, что честная монета (ошибочно) отвергнет нулевую гипотезу примерно в 1 из 20 тестов. Значение p не дает вероятности того, что какая-либо гипотеза верна (общий источник путаницы). [9]

Если значение p меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отклоняется на выбранном уровне значимости. Отказ от нулевой гипотезы - это вывод. Это похоже на обвинительный приговор в уголовном процессе: доказательств достаточно, чтобы отрицать невиновность, тем самым доказывая вину. Мы могли бы принять альтернативную гипотезу (и гипотезу исследования).

Если р -значение является не меньше выбранного порогового значения ( то же самое, если наблюдаемый тест статистика вне критической области), то доказательств недостаточно , чтобы поддержать заключение. (Это похоже на вердикт « невиновен ».) Исследователь обычно уделяет особое внимание тем случаям, когда значение p близко к уровню значимости.

Некоторым людям полезно думать о системе проверки гипотез как о математическом доказательстве от противоречия . [10]

В примере «Леди, дегустирующая чай» (ниже) Фишер потребовал, чтобы Леди должным образом классифицировала все чашки чая, чтобы обосновать вывод о том, что результат маловероятен. Его тест показал, что если женщина эффективно гадала наугад (нулевая гипотеза), была 1,4% вероятность того, что наблюдаемые результаты (идеально заказанный чай) произойдут.

Действительно ли отклонение нулевой гипотезы оправдывает принятие исследовательской гипотезы, зависит от структуры гипотез. Отказ от гипотезы о том, что большой отпечаток лапы произошел от медведя, не сразу доказывает существование снежного человека . Проверка гипотез делает упор на отказе, который основан на вероятности, а не на принятии, что требует дополнительных логических шагов.

«Вероятность отклонения нулевой гипотезы зависит от пяти факторов: одно- или двустороннего теста, уровня значимости, стандартного отклонения, величины отклонения от нулевой гипотезы и количества наблюдений. " [11] Эти факторы являются источником критики; факторы, находящиеся под контролем экспериментатора / аналитика, придают результатам видимость субъективности.

Использование и важность [ править ]

Статистика полезна при анализе большинства наборов данных. Это в равной степени верно и для проверки гипотез, которая может оправдать выводы, даже если не существует научной теории. В примере с чаем «Леди дегустация» было «очевидно», что не существует разницы между (наливание молока в чай) и (наливание чая в молоко). Данные противоречили «очевидному».

Реальные приложения проверки гипотез включают: [12]

  • Проверка того, страдают ли от кошмаров больше мужчин, чем женщин
  • Установление авторства документов
  • Оценка влияния полнолуния на поведение
  • Определение дальности, на которой летучая мышь может обнаружить насекомое по эхо
  • Как решить, приводит ли больничное ковровое покрытие к увеличению числа инфекций
  • Выбор лучших способов бросить курить
  • Проверка того, отражают ли наклейки на бампере поведение автовладельца
  • Проверка утверждений аналитиков почерка

Статистическая проверка гипотез играет важную роль во всей статистике и в статистических выводах . Например, Леманн (1992) в обзоре фундаментальной статьи Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многие разработки, осуществленные в ее рамках, продолжают оставаться в силе. играют центральную роль как в теории, так и в практике статистики, и можно ожидать, что они сделают это в обозримом будущем ".

Тестирование значимости было предпочтительным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в Журнале прикладной психологии в начале 1990-х). [13] В других областях предпочтение отдается оценке параметров (например, размера эффекта ). Проверка значимости используется вместо традиционного сравнения прогнозируемого значения и экспериментального результата, лежащего в основе научного метода . Когда теория способна только предсказать знак взаимосвязи, направленный (односторонний) тест гипотез можно настроить так, чтобы только статистически значимый результат поддерживал теорию. Эта форма оценки теории является наиболее критикуемым применением проверки гипотез.

Предостережения [ править ]

«Если бы правительство потребовало, чтобы статистические процедуры наносили предупредительные надписи, как на наркотиках, большинство методов вывода действительно имели бы длинные ярлыки». [14] Это предупреждение относится к проверкам гипотез и их альтернативам.

Успешная проверка гипотезы связана с вероятностью и частотой ошибок первого типа. Вывод может быть неверным.

Заключение теста настолько же убедительно, насколько и образец, на котором он основан. Дизайн эксперимента имеет решающее значение. Наблюдался ряд неожиданных эффектов, в том числе:

  • Умный Ганс эффект . Оказалось, что лошадь способна выполнять простую арифметику.
  • Эффект Хоторна . Промышленные рабочие были более производительны при лучшем освещении и наиболее продуктивны при худшем.
  • Эффект плацебо . Таблетки без медицинских активных ингредиентов были чрезвычайно эффективными.

Статистический анализ вводящих в заблуждение данных приводит к неверным выводам. Вопрос качества данных может быть более тонким. В прогнозировании , например, нет никакого согласия на меру прогноза точности. В отсутствие согласованного измерения ни одно решение, основанное на измерениях, не будет бесспорным.

Книга « Как лгать со статистикой» [15] [16] - самая популярная из когда-либо изданных книг по статистике. [17] Тестирование гипотез в нем не рассматривается, но его предостережения применимы, в том числе: Многие утверждения делаются на основе слишком малых выборок, чтобы их можно было убедить. Если в отчете не упоминается размер выборки, сомневайтесь.

Проверка гипотез действует как фильтр статистических выводов; только те результаты, которые соответствуют порогу вероятности, подлежат публикации. Экономика также действует как фильтр публикации; Для публикации могут быть представлены только те результаты, которые благоприятны для автора и источника финансирования. Влияние фильтрации на публикацию называется предвзятостью публикации . Связанная с этим проблема - это множественное тестирование (иногда связанное с интеллектуальным анализом данных ), при котором к одному набору данных применяются различные тесты для различных возможных эффектов, и сообщаются только те, которые дают значительный результат. С ними часто справляются с помощью процедур коррекции множественности, которые контролируют частоту ошибок семейства (FWER) или частоту ложных обнаружений. (FDR).

Те, кто принимает важные решения на основе результатов проверки гипотез, благоразумно рассматривают детали, а не только выводы. В физических науках большинство результатов полностью принимаются только при независимом подтверждении. Общий совет относительно статистики: «Цифры никогда не лгут, но фигура лжецы» (анонимно).

Примеры [ править ]

Соотношение полов [ править ]

Самое раннее использование статистической проверки гипотез обычно связано с вопросом о равной вероятности рождения мужского и женского пола (нулевая гипотеза), который был рассмотрен в 1700-х годах Джоном Арбетнотом (1710), [18] и позже Пьером-Симоном Лапласом. (1770-е). [19]

Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил критерий знаков , простой непараметрический тест . [20] [21] [22] Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если рассматривать большее количество мужских или более женских рождений как равновероятные, вероятность наблюдаемого результата составляет 0,5 82 , или примерно 1 из 4,8360,0000,0000,0000,0000,0000; говоря современным языком, это p-ценить. Арбутнот пришел к выводу, что это слишком мало, чтобы быть результатом случайности, а должно быть результатом божественного провидения: «Отсюда следует, что правит искусство, а не случайность». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мужского и женского пола при уровне значимости p  = 1/2 82 .

Лаплас считал статистику почти полумиллиона рождений. Статистика показала превышение количества мальчиков над девочками. [23] [24] Он пришел к выводу, вычислив p -значение, что превышение было реальным, но необъяснимым эффектом. [25]

Леди дегустирует чай [ править ]

В известном примере проверки гипотез, известном как « Леди дегустация чая» , [26] доктор Мюриэль Бристоль, женщина-коллега Фишера утверждала, что может сказать, чай или молоко было сначала добавлено в чашку. Фишер предложил подать ей восемь чашек, по четыре каждого сорта, в произвольном порядке. Тогда можно было бы спросить, какова вероятность того, что она получит правильное число, но просто случайно. Нулевая гипотеза заключалась в том, что Леди не обладала такой способностью. Статистика теста представляла собой простой подсчет количества успехов в выборе 4 чашек. Критическая область была единственным случаем 4 успехов из 4 возможных на основе общепринятого критерия вероятности (<5%). Модель из 4 успехов соответствует 1 из 70 возможных комбинаций (p ≈ 1,4%). Фишер утверждал, что никакой альтернативной гипотезы (никогда) не требовалось. Дама правильно определила каждую чашку, [27] что будет считаться статистически значимым результатом.

Судебный процесс [ править ]

Процедура статистической проверки сопоставима с уголовным судом ; подсудимый считается невиновным до тех пор, пока его вина не доказана. Прокурор пытается доказать вину подсудимого. Только когда имеется достаточно доказательств для обвинения, обвиняемый признается виновным.

В начале процедуры выдвигаются две гипотезы : «подсудимый невиновен» и «подсудимый виновен». Первая называется нулевой гипотезой и пока принимается. Вторая,, называется альтернативной гипотезой . Это альтернативная гипотеза, которую мы надеемся поддержать.

Гипотеза невиновности отвергается только тогда, когда ошибка маловероятна, потому что никто не хочет осуждать невиновного обвиняемого. Такая ошибка называется ошибкой первого рода (т. Е. Осуждением невиновного человека), и появление этой ошибки контролируется, чтобы быть редким. Вследствие такого асимметричного поведения чаще встречается ошибка второго рода (оправдание лица, совершившего преступление).

Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решения: виновен против невиновности или доказательство против порога («вне разумного сомнения»). С одной точки зрения, подсудимого судят; с другой точки зрения, оценивается исполнение обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как оценка гипотезы, либо как оценка доказательств.

Философские бобы [ править ]

Следующий пример был приведен философом, описывающим поколения научных методов до того, как проверка гипотез была формализована и популяризирована. [28]

Некоторые бобы из этой горсти белые.
Большинство бобов в этом пакете белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.

Фасоль в мешке - это население. Горстка образцов. Нулевая гипотеза состоит в том, что выборка произошла от совокупности. Критерием отклонения нулевой гипотезы является «очевидная» разница во внешнем виде (неформальная разница в среднем). Интересный результат состоит в том, что рассмотрение реальной популяции и реальной выборки привело к созданию воображаемого мешка. Философ рассматривал логику, а не вероятность. Чтобы быть реальной статистической проверкой гипотезы, этот пример требует формальности вычисления вероятности и сравнения этой вероятности со стандартом.

Простое обобщение этого примера рассматривает смешанный пакет с фасолью и горсть, которые содержат либо очень мало, либо очень много белой фасоли. Обобщение рассматривает обе крайности. Чтобы прийти к формальному ответу, требуется больше вычислений и сравнений, но основная философия остается неизменной; Если состав горсти сильно отличается от состава мешка, значит, образец, вероятно, был взят из другого мешка. Исходный пример называется односторонним или односторонним тестом, тогда как обобщение называется двусторонним или двусторонним тестом.

Заявление также опирается на вывод о том, что выборка была случайной. Если бы кто-то рылся в сумке, чтобы найти белую фасоль, то это объяснило бы, почему в пригоршне было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке было исчерпано (хотя мешок, вероятно, предполагается, намного больше, чем рука).

Карточная игра ясновидящего [ править ]

Человека (испытуемого) проверяют на ясновидение . Им 25 раз показывают обратную сторону случайно выбранной игральной карты и спрашивают, какой из четырех мастей она принадлежит. Число обращений, или правильные ответы, называется X .

Когда мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза состоит в том, что этот человек не является ясновидящим. [29] Альтернатива такова: человек (более или менее) ясновидящий.

Если нулевая гипотеза верна, единственное, что может сделать тестируемый, - это предположить. Для каждой карты вероятность (относительная частота) появления любой одной масти равна 1/4. Если альтернатива верна, испытуемый правильно предсказывает масть с вероятностью более 1/4. Мы будем называть вероятность правильного угадывания p . Итак, гипотезы таковы:

  • нулевая гипотеза     (просто предположение)

и

  • альтернативная гипотеза    (истинный ясновидящий).

Когда испытуемый правильно предсказывает все 25 карт, мы будем считать их ясновидящими и отвергнем нулевую гипотезу. Таким образом, также с 24 или 23 попаданиями. С другой стороны, с 5 или 6 попаданиями нет причин считать их таковыми. Но как насчет 12 или 17 попаданий? Каково критическое число ударов c , при котором мы будем считать испытуемого ясновидящим? Как определить критическое значение c ? При выборе c = 25 (т.е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c= 10. В первом случае почти никто из испытуемых не будет признан ясновидящим, во втором - определенное количество пройдут проверку. На практике каждый решает, насколько критичным он будет. То есть каждый решает, как часто он принимает ошибку первого типа - ложное срабатывание или ошибку первого типа. При c = 25 вероятность такой ошибки составляет:

а значит, очень маленький. Вероятность ложного срабатывания - это вероятность случайного угадывания всех 25 раз.

Будучи менее критичным, с c = 10 дает:

(где C (25, k) - биномиальный коэффициент 25 выбора k). Таким образом, c = 10 дает гораздо большую вероятность ложного срабатывания.

Перед фактическим проведением испытания определяется максимально допустимая вероятность ошибки типа I ( α ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных предположений.) В зависимости от этой частоты ошибок типа 1 вычисляется критическое значение c . Например, если мы выберем коэффициент ошибок 1%, c рассчитывается следующим образом:

Из всех чисел c с этим свойством мы выбираем наименьшее, чтобы минимизировать вероятность ошибки типа II, ложноотрицательной . Для приведенного выше примера, мы выбираем: .

Радиоактивный чемодан [ править ]

В качестве примера рассмотрите возможность определения наличия в чемодане радиоактивных материалов. Помещенный под счетчик Гейгера , он производит 10 отсчетов в минуту. Нулевая гипотеза состоит в том, что в чемодане нет радиоактивного материала и что все измеренные количества связаны с окружающей радиоактивностью, типичной для окружающего воздуха и безвредных предметов. Затем мы можем вычислить, насколько вероятно, что мы наблюдали бы 10 отсчетов в минуту, если бы нулевая гипотеза была верна. Если нулевая гипотеза предсказывает (скажем) в среднем 9 отсчетов в минуту, то согласно распределению Пуассона, типичному для радиоактивного распадавероятность записи 10 или более отсчетов составляет около 41%. Таким образом, мы можем сказать, что чемодан совместим с нулевой гипотезой (это не гарантирует отсутствие радиоактивного материала, просто у нас недостаточно доказательств, чтобы предположить, что он есть). С другой стороны, если нулевая гипотеза предсказывает 3 отсчета в минуту (для которых распределение Пуассона предсказывает только 0,1% вероятность записи 10 или более отсчетов), то чемодан несовместим с нулевой гипотезой, и, вероятно, есть другие факторы, ответственные за произвести измерения.

Тест не подтверждает прямо наличие радиоактивного материала. Успешное испытание утверждает , что требование не радиоактивного материала , присутствующего вряд ли дал показания (и , следовательно , ...). Двойное отрицание (опровержение нулевой гипотезы) метода сбивает с толку, но использование контрпримера для опровержения является стандартной математической практикой. Привлекательность метода - его практичность. Мы знаем (по опыту) ожидаемый диапазон отсчетов при наличии только радиоактивности окружающей среды, поэтому мы можем сказать, что измерение необычно велико. Статистика просто формализует интуитивное понимание, используя числа вместо прилагательных. Мы, вероятно, не знаем характеристик радиоактивных чемоданов; Мы просто предполагаем, что они дают более высокие показания.

Чтобы немного формализовать интуицию: радиоактивность подозревается, если счет Гейгера с чемоданом входит в число или превышает наибольшее (5% или 1%) из счетчиков Гейгера, сделанных только с окружающим излучением. Это не делает никаких предположений о распределении подсчетов. Для получения хороших оценок вероятности редких событий требуется множество наблюдений за излучением окружающей среды.

Описанный здесь тест более полно является тестом статистической значимости нулевой гипотезы. Нулевая гипотеза представляет собой то, во что мы бы поверили по умолчанию, прежде чем увидим какие-либо доказательства. Статистическая значимость - это возможное обнаружение теста, объявленное, когда наблюдаемая выборка вряд ли возникла случайно, если бы нулевая гипотеза была верна. Название теста описывает его формулировку и возможный результат. Одной из характеристик теста является четкое решение: отвергать или не отвергать нулевую гипотезу. Вычисленное значение сравнивается с порогом, который определяется из допустимого риска ошибки.

Определение терминов [ править ]

Следующие определения в основном основаны на изложении в книге Леманна и Романо: [4]

Статистическая гипотеза
Заявление о параметрах, описывающих совокупность (не выборку).
Статистика
Значение, рассчитанное на основе образца без каких-либо неизвестных параметров, часто для обобщения образца в целях сравнения.
Простая гипотеза
Любая гипотеза, полностью определяющая распределение населения.
Составная гипотеза
Любая гипотеза, не определяющая полностью распределение населения.
Нулевая гипотеза (H 0 )
Гипотеза, связанная с противоречием теории, которую нужно доказать.
Положительные данные
Данные, позволяющие исследователю отклонить нулевую гипотезу.
Альтернативная гипотеза (H 1 )
Гипотеза (часто составная), связанная с теорией, которую нужно доказать.
Статистический тест
Процедура, входные данные которой являются выборками, а результат - гипотезой.
Регион приема
Набор значений тестовой статистики, для которых мы не можем отвергнуть нулевую гипотезу.
Регион отторжения / Критический регион
Набор значений тестовой статистики, для которых отклоняется нулевая гипотеза.
Критическое значение
Пороговое значение, ограничивающее области принятия и отклонения для статистики теста.
Мощность теста (1 -  β )
Вероятность правильного отклонения нулевой гипотезы, когда альтернативная гипотеза верна. Дополнение к ложноотрицательной ставке β . В биостатистике мощность называется чувствительностью . («Это чувствительный тест. Поскольку результат отрицательный, мы можем с уверенностью сказать, что у пациента нет этого состояния».) Исчерпывающие определения см. В разделе чувствительность и специфичность, а также ошибки типа I и типа II .
Размер
Для простых гипотез это вероятность неверного отклонения нулевой гипотезы тестом . Уровень ложных срабатываний . Для составных гипотез это верхняя грань вероятности отклонения нулевой гипотезы по всем случаям, охватываемым нулевой гипотезой. Дополнение к количеству ложных срабатываний в биостатистике называется специфичностью . («Это особый тест. Поскольку результат положительный, мы можем с уверенностью сказать, что у пациента есть заболевание».) Исчерпывающие определения см. В разделе чувствительность и специфичность, а также ошибки типа I и типа II .
Уровень значимости теста ( α )
Это верхняя граница размера теста. Его значение выбирает статистик перед просмотром данных или выбором какого-либо конкретного теста, который будет использоваться. Это максимальное воздействие ошибочного отклонения H 0, которое они готовы принять. Проверка H 0 на уровне значимости α означает проверку H 0 с помощью теста, размер которого не превышает α . В большинстве случаев используются тесты, размер которых равен уровню значимости.
p -значение
Вероятность, если предположить, что нулевая гипотеза верна, получить результат, по крайней мере, такой же экстремальный, как статистика теста. В случае составной нулевой гипотезы вероятность наихудшего случая.
Статистическая значимость теста
Предшественник проверки статистических гипотез (см. Раздел «Происхождение»). Результат эксперимента считался статистически значимым, если образец был достаточно несовместим с (нулевой) гипотезой. Это по-разному считалось здравым смыслом, прагматической эвристикой для выявления значимых экспериментальных результатов, соглашением, устанавливающим порог статистических данных, или методом вывода выводов из данных. Проверка статистической гипотезы добавила математической строгости и философской согласованности концепции, сделав альтернативную гипотезу явной. Этот термин широко используется для современной версии, которая сейчас является частью статистической проверки гипотез.
Консервативный тест
Тест является консервативным, если при построении для данного номинального уровня значимости истинная вероятность ошибочного отклонения нулевой гипотезы никогда не превышает номинальный уровень.
Точный тест
Тест, в котором уровень значимости или критическое значение может быть вычислено точно, т. Е. Без какого-либо приближения. В некоторых контекстах этот термин ограничен тестами, применяемыми к категориальным данным и к тестам перестановки , в которых вычисления выполняются путем полного перечисления всех возможных результатов и их вероятностей.

Тест статистической гипотезы сравнивает статистику теста (например, z или t ) с пороговым значением. Статистика теста (формула, приведенная в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики сводит к минимуму частоту ошибок типа II (что эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:

Самый мощный тест
Для данного размера или уровня значимости тест с наибольшей мощностью (вероятностью отклонения) для данного значения проверяемого параметра (ов), содержащийся в альтернативной гипотезе.
Единообразно самый мощный тест (UMP)
Тест с наибольшей мощностью для всех значений проверяемых параметров, содержащихся в альтернативной гипотезе.

Общая статистика теста [ править ]

Варианты и подклассы [ править ]

Статистическая проверка гипотез является ключевой техникой как частотного вывода, так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (исправляет) вероятность неправильного решения, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно, что набор наблюдений будет иметь место, если нулевая гипотеза верна. Обратите внимание, что эта вероятность принятия неправильного решения не является ни вероятностью того, что нулевая гипотеза верна, ни верностью какой-либо конкретной альтернативной гипотезы. Это контрастирует с другими возможными методами теории принятия решений.в котором нулевая и альтернативная гипотезы рассматриваются на более равной основе.

Один наивный байесовский подход к проверке гипотез является основой для принятия решений на задней вероятности , [30] [31] , но это не удается при сравнении точки и непрерывные гипотезы. Другие подходы к принятию решений, такие как байесовская теория решений , пытаются сбалансировать последствия неправильных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступен через теорию принятия решений и оптимальные решения., некоторые из которых обладают желаемыми свойствами. Однако проверка гипотез является доминирующим подходом к анализу данных во многих областях науки. Расширения теории проверки гипотез включают изучение мощности тестов, то есть вероятности правильного отклонения нулевой гипотезы при условии, что она ложна. Такие соображения можно использовать для определения размера выборки до сбора данных.

История [ править ]

Раннее использование [ править ]

В то время как проверка гипотез была популяризирована в начале 20 века, ранние формы использовались в 1700-х годах. Первое использование приписывают Джону Арбутноту (1710 г.), [32], а затем Пьеру-Симону Лапласу (1770-е гг.) При анализе соотношения полов у человека при рождении; см. § Соотношение полов человека .

Современное происхождение и ранние противоречия [ править ]

Современное тестирование значимости в значительной степени является продуктом Карла Пирсона ( p- значение , критерий хи-квадрат Пирсона ), Уильяма Сили Госсета ( t-распределение Стьюдента ) и Рональда Фишера (« нулевая гипотеза », дисперсионный анализ , « критерий значимости ») , а проверку гипотез разработали Ежи Нейман и Эгон Пирсон (сын Карла). Рональд Фишер начал свою жизнь в статистике как байесовец (Zabell 1992), но вскоре Фишер разочаровался в субъективности (а именно в использовании принципа безразличия).при определении априорных вероятностей), и стремился обеспечить более «объективный» подход к индуктивному выводу. [33]

Фишер был статистиком в области сельского хозяйства, который подчеркивал строгий экспериментальный план и методы извлечения результатов из нескольких выборок, предполагающих гауссовское распределение. Нейман (который объединился с младшим Пирсоном) подчеркивал математическую строгость и методы для получения большего количества результатов из многих выборок и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировок, методов и терминологии Фишера и Неймана / Пирсона, разработанных в начале 20 века.

Фишер популяризировал «критерий значимости». Ему потребовалась нулевая гипотеза (соответствующая распределению частот населения) и выборка. Его (теперь уже знакомые) расчеты определили, следует ли отвергать нулевую гипотезу или нет. Тестирование значимости не использовало альтернативную гипотезу, поэтому не было концепции ошибки типа II.

Значение p было разработано как неформальный, но объективный индекс, призванный помочь исследователю определить (на основе других знаний), следует ли изменять будущие эксперименты или укрепить свою веру в нулевую гипотезу. [34] Проверка гипотез (и ошибки типа I / II) была разработана Нейманом и Пирсоном как более объективная альтернатива p- значению Фишера, также предназначенная для определения поведения исследователя, но не требующая от исследователя каких-либо индуктивных выводов . [35] [36]

Нейман и Пирсон рассмотрели другую проблему (которую они назвали «проверкой гипотез»). Первоначально они рассмотрели две простые гипотезы (обе с частотным распределением). Они вычисляли две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза с большей вероятностью сгенерировала выборку). Их метод всегда выбирал гипотезу. Это также позволило вычислить оба типа вероятностей ошибок.

Между Фишером и Нейманом / Пирсоном возникли ожесточенные конфликты. Нейман / Пирсон считали их формулировку улучшенным обобщением проверки значимости (определяющая статья [35] была абстрактной . Математики обобщали и уточняли теорию на протяжении десятилетий [37] ). Фишер считал, что она неприменима к научным исследованиям, потому что часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений об отклонении / принятии, основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовой неразберихе.[38]

Спор между Фишером и Нейманом – Пирсоном велся на философских основаниях, охарактеризованных одним философом как спор о надлежащей роли моделей в статистических выводах. [39]

Вмешались события: Нейман занял позицию в западном полушарии, разорвав свое партнерство с Пирсоном и разделив спорящих (которые занимали одно и то же здание) на большую часть диаметра планеты. Вторая мировая война дала паузу в дебатах. Спор между Фишером и Нейманом прекратился (не разрешенный через 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо известную панегирик. [40] В некоторых из более поздних публикаций Неймана сообщалось о р- значениях и уровнях значимости. [41]

Современная версия проверки гипотез представляет собой гибрид двух подходов, возникших в результате путаницы со стороны авторов статистических учебников (как предсказывал Фишер), начиная с 1940-х годов. [42] (Но при обнаружении сигналов , например, по-прежнему используется формулировка Неймана / Пирсона). Большие концептуальные различия и многие предостережения в дополнение к упомянутым выше были проигнорированы. Нейман и Пирсон предоставили более строгую терминологию, более строгую математику и более последовательную философию, но предмет, который преподается сегодня во вводной статистике, имеет больше общего с методом Фишера, чем их. [43] Эта история объясняет противоречивую терминологию (пример: нулевая гипотеза никогда не принимается, но есть область принятия).

Где-то около 1940 года [42], очевидно, пытаясь предоставить исследователям «не вызывающий сомнений» [44] способ съесть свой пирог и съесть его , авторы статистических учебников начали анонимно комбинировать эти две стратегии, используя p -значение вместо тестовой статистики (или данных) для проверки на соответствие «уровню значимости» Неймана – Пирсона. [42] Таким образом, исследователям было предложено сделать вывод о силе своих данных в сравнении с некоторой нулевой гипотезой, используя p-значения , но при этом они думали, что они сохраняют объективность после сбора данных.обеспечивается проверкой гипотез. Затем стало обычным, что нулевая гипотеза, которая изначально была некой реалистичной исследовательской гипотезой, использовалась почти исключительно как соломенная «нулевая» гипотеза (гипотеза, при которой лечение не оказывает никакого эффекта, независимо от контекста). [45]

Ранний выбор нулевой гипотезы [ править ]

Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы в значительной степени осталась непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент будет более серьезной проверкой лежащей в основе теории. Когда нулевая гипотеза по умолчанию равна «нет разницы» или «нет эффекта», более точный эксперимент - менее серьезная проверка теории, которая мотивировала проведение эксперимента. [46] Таким образом, может оказаться полезным изучение истоков последней практики:

1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек во многих европейских городах. Он заявляет: «Естественно сделать вывод, что эти возможности почти в одинаковом соотношении». Таким образом, нулевая гипотеза Лапласа о том, что рождаемость мальчиков и девочек должна быть равной с учетом «общепринятого мнения». [23]

1900: Карл Пирсон разрабатывает критерий хи-квадрат, чтобы определить, «будет ли данная форма частотной кривой эффективно описывать выборки, взятые из данной популяции». Таким образом, нулевая гипотеза состоит в том, что популяция описывается некоторым распределением, предсказываемым теорией. Он использует в качестве примера числа пять и шестерки в данных о броске игральных костей Велдона . [47]

1904: Карл Пирсон развивает концепцию « непредвиденных обстоятельств », чтобы определить, не зависят ли результаты от данного категориального фактора. Здесь нулевая гипотеза по умолчанию состоит в том, что две вещи не связаны между собой (например, образование рубцов и уровень смертности от оспы). [48] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, но вместо этого является принципом безразличия, который заставил Фишера и других отказаться от использования «обратных вероятностей». [49]

Проверка статистической значимости нулевой гипотезы [ править ]

Пример проверки гипотезы Неймана – Пирсона может быть сделан путем изменения примера с радиоактивным чемоданом. Если «чемодан» на самом деле является экранированным контейнером для перевозки радиоактивного материала, то можно использовать тест для выбора одной из трех гипотез: отсутствие радиоактивного источника, наличие одного, наличие двух (всех). Испытание может потребоваться на безопасность, с действиями, необходимыми в каждом случае. Нейман-Пирсон лемма тестирования гипотезы говорит , что хороший критерий для выбора гипотез является отношением вероятностей (а отношение правдоподобия). Простой метод решения - выбрать гипотезу с наибольшей вероятностью для наблюдаемых подсчетов Гейгера. Типичный результат соответствует интуиции: несколько подсчетов подразумевают отсутствие источника, многие подсчеты подразумевают два источника, а промежуточные подсчеты подразумевают один источник. Также обратите внимание, что обычно возникают проблемы с доказательством отрицательного результата . Нулевые гипотезы должны быть как минимум опровергнутыми .

Теория Неймана – Пирсона может учитывать как априорные вероятности, так и стоимость действий, вытекающих из решений. [50] Первый позволяет каждому тесту учитывать результаты более ранних тестов (в отличие от тестов значимости Фишера). Последний позволяет рассматривать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием выбора гипотез.

Две формы проверки гипотез основаны на разных постановках задачи. Исходный тест аналогичен вопросу «верно / неверно»; тест Неймана – Пирсона больше похож на множественный выбор. По мнению Тьюки [51], первое приводит к выводу на основе только веских доказательств, в то время как последний выносит решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки приводят к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы превращаются в 0,1,2,3 ... крупинки радиоактивного песка. Существует небольшое различие между отсутствием или некоторой радиацией (Фишер) и 0 крупинками радиоактивного песка по сравнению со всеми альтернативами (Нейман-Пирсон). Основная статья Неймана – Пирсона 1933 г. [35]также рассматривались составные гипотезы (те, в распределении которых присутствует неизвестный параметр). Пример доказал оптимальность t- критерия (Стьюдента) : «не может быть лучшего теста для рассматриваемой гипотезы» (стр. 321). Теория Неймана – Пирсона с самого начала доказывала оптимальность фишеровских методов.

Тестирование значимости Фишера оказалось популярным гибким статистическим инструментом в приложении с небольшим математическим потенциалом роста. Проверка гипотез Неймана – Пирсона считается столпом математической статистики [52], создавая новую парадигму в этой области. Это также стимулировало новые приложения в статистическом управлении процессом , теории обнаружения , теории принятия решений и теории игр . Обе формулы оказались успешными, но успехи носили разный характер.

Спор по поводу формулировок не решен. Наука в основном использует формулировку Фишера (слегка измененную), как учат во вводной статистике. Статистики изучают теорию Неймана – Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их отдельно. Выученные мнения считают, что эти формулировки по-разному конкурируют (Фишер против Неймана), несовместимы [33] или дополняют друг друга. [37] Спор стал более сложным, поскольку байесовский вывод приобрел респектабельность.

Терминология непоследовательна. Проверка гипотез может означать любую смесь двух составов, которые со временем меняются. Любое обсуждение проверки значимости и проверки гипотез вдвойне уязвимо для путаницы.

Фишер считал, что проверка гипотез является полезной стратегией для проведения промышленного контроля качества, однако категорически не согласен с тем, что проверка гипотез может быть полезна для ученых. [34] Проверка гипотез предоставляет средства поиска статистических данных, используемых при проверке значимости. [37] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски разными. [39] Обычно (но не всегда ) они дают одинаковый математический ответ. Предпочтительный ответ зависит от контекста. [37]Хотя существующее слияние теорий Фишера и Неймана – Пирсона подвергалось резкой критике, было рассмотрено изменение слияния для достижения байесовских целей. [53]

Критика [ править ]

Критика проверки статистических гипотез заполняет объемы. [54] [55] [56] [57] [58] [59] Большую часть критики можно резюмировать следующими вопросами:

  • Интерпретация p- значения зависит от правила остановки и определения множественного сравнения. Первое часто меняется в ходе исследования, а второе неизбежно неоднозначно. (т.е. «значения p зависят как от наблюдаемых (данных), так и от других возможных (данных), которые могли наблюдаться, но не были»). [60]
  • Путаница, возникающая (частично) из-за комбинирования концептуально различных методов Фишера и Неймана – Пирсона. [51]
  • Акцент на статистической значимости, исключение оценки и подтверждения повторными экспериментами. [61]
  • Жесткое требование статистической значимости в качестве критерия публикации, что приводит к предвзятости публикации . [62] Большая часть критики носит косвенный характер. Вместо того, чтобы ошибаться, статистическая проверка гипотез неправильно понимается, используется чрезмерно и неправильно.
  • При использовании для определения того, существует ли разница между группами, возникает парадокс. По мере внесения улучшений в план эксперимента (например, повышение точности измерения и размера выборки) тест становится более щадящим. Если не принять абсурдное предположение о том, что все источники шума в данных полностью исключаются, вероятность обнаружения статистической значимости в любом направлении приближается к 100%. [63] Однако это абсурдное предположение о том, что средняя разница между двумя группами не может быть нулевой, означает, что данные не могут быть независимыми и одинаково распределенными (iid), потому что ожидаемая разница между любыми двумя подгруппами случайных переменных iid равна нулю; следовательно, предположение iid также абсурдно.
  • Слои философских проблем. Вероятность статистической значимости зависит от решений, принятых экспериментаторами / аналитиками. [11] Если решения основаны на соглашении, они называются произвольными или бессмысленными [44], а решения, не основанные на этом, могут быть названы субъективными. Чтобы свести к минимуму ошибки типа II, рекомендуется использовать большие образцы. В психологии практически все нулевые гипотезы объявляются ложными для достаточно больших выборок, поэтому «... обычно бессмысленно проводить эксперимент с единственной целью отклонить нулевую гипотезу». [64] «Статистически значимые результаты часто вводят в заблуждение» в психологии. [65] Статистическая значимость не предполагает практического значения икорреляция не подразумевает причинно-следственной связи . Таким образом, ставить под сомнение нулевую гипотезу - это далеко не прямое подтверждение гипотезы исследования.
  • «[Я] т не говорит нам того, что мы хотим знать». [66] Доступны списки десятков жалоб. [58] [67] [68]

Критики и сторонники в основном согласны с фактами относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить важную информацию, она неадекватна в качестве единственного инструмента статистического анализа . Успешный отказ от нулевой гипотезы может не поддержать исследовательскую гипотезу. Продолжающиеся споры касаются выбора лучших статистических практик на ближайшее будущее с учетом (часто плохих) существующих практик. Критики предпочли бы полностью запретить NHST, вынудив полностью отказаться от этой практики, в то время как сторонники предлагают менее абсолютные изменения. [ необходима цитата ]

Споры по поводу проверки значимости и, в частности, ее влияния на предвзятость публикации, дали несколько результатов. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после обзора [69], издатели медицинских журналов признали обязательство публиковать некоторые результаты, которые не являются статистически значимыми для борьбы с предвзятостью публикации [70], и журнал ( Журнал статей в поддержку Null Hypothesis ) была создана исключительно для публикации таких результатов. [71] В учебники добавлены некоторые предостережения [72]и более широкий охват инструментов, необходимых для оценки размера выборки, необходимой для получения значимых результатов. Крупные организации не отказались от использования критериев значимости, хотя некоторые обсуждали это. [69]

Альтернативы [ править ]

Объединяющая позиция критиков состоит в том, что статистика должна приводить не к выводу или решению «принять-отклонить», а к расчетному значению с интервальной оценкой ; эта философия анализа данных широко называется оценочной статистикой . Статистические оценки могут быть выполнены с помощью частотных [1] или байесовских методов. [73]

Один сильный критик тестирования значимости предложил список альтернативных вариантов отчетности: [74] размеры эффекта для важности, интервалы прогнозирования для достоверности, репликации и расширения для воспроизводимости, метаанализ для общности. Ни одна из этих предложенных альтернатив не приводит к выводу / решению. Леманн сказал, что теорию проверки гипотез можно представить в виде выводов / решений, вероятностей или доверительных интервалов. «Различие между ... подходами в значительной степени заключается в отчетности и интерпретации». [75]

По одной «альтернативе» нет разногласий: сам Фишер сказал: [26] «В отношении проверки значимости мы можем сказать, что явление экспериментально продемонстрировано, если мы знаем, как провести эксперимент, который редко не дает нам результатов. статистически значимый результат ". Коэн, влиятельный критик проверки значимости, согласился с этим [66]: «... не ищите волшебную альтернативу NHST [проверке значимости нулевой гипотезы]... Его не существует. "" ... учитывая проблемы статистической индукции, мы, наконец, должны полагаться, как и более старые науки, на репликацию "." Альтернативой "проверке значимости является повторное тестирование. Самый простой способ Чтобы уменьшить статистическую неопределенность, нужно получить больше данных, будь то увеличенный размер выборки или повторные тесты. Никерсон утверждал, что никогда не видел публикации буквально воспроизводимого эксперимента в психологии. [67] Косвенным подходом к воспроизведению является метаанализ .

Байесовский вывод - одна из предлагаемых альтернатив тестированию значимости. (Никерсон процитировал 10 источников, предполагающих это, в том числе Розебум (1960)). [67] Например, оценка байесовского параметра может предоставить обширную информацию о данных, из которой исследователи могут сделать выводы, при этом используются неопределенные априорные значения, которые оказывают лишь минимальное влияние на результаты при наличии достаточного количества данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t- критерию . [76] В качестве альтернативы можно сравнить две конкурирующие модели / гипотезы с использованием байесовских факторов . [77]Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в тех случаях, когда наиболее интенсивно используется проверка значимости. Ни априорные вероятности, ни распределение вероятностей тестовой статистики при альтернативной гипотезе часто недоступны в социальных науках. [67]

Сторонники байесовского подхода иногда заявляют, что цель исследователя чаще всего состоит в том, чтобы объективно оценить вероятность того, что гипотеза верна, на основе собранных данных. [78] [79] Ни проверка значимости Фишера , ни проверка гипотез Неймана – Пирсона не могут предоставить эту информацию и не претендуют на нее. Вероятность того, что гипотеза верна, может быть получена только из использования теоремы Байеса , которая не удовлетворила ни Фишера, ни Неймана – Пирсона из-за явного использования субъективности в форме априорной вероятности . [35] [80]Стратегия Фишера состоит в том, чтобы обойти это с помощью p- значения (объективного индекса, основанного только на данных), за которым следует индуктивный вывод , в то время как Нейман-Пирсон разработал свой подход индуктивного поведения .

Философия [ править ]

Проверка гипотез и философия пересекаются. Логическая статистика , которая включает проверку гипотез, применяется к вероятности. И вероятность, и ее применение переплетены с философией. Философ Дэвид Юм писал: «Всякое знание вырождается в вероятность». Конкурирующие практические определения вероятности отражают философские различия. Наиболее частое применение проверки гипотез - это научная интерпретация экспериментальных данных, которая естественным образом изучается философией науки .

Фишер и Нейман выступили против субъективности вероятности. Их взгляды способствовали составлению объективных определений. Суть их исторического разногласия была философской.

Многие из философских критических замечаний по поводу проверки гипотез обсуждаются статистиками в других контекстах, в частности, корреляция не подразумевает причинно-следственную связь и план экспериментов . Проверка гипотез вызывает постоянный интерес философов. [39] [81]

Образование [ править ]

В школах все чаще преподают статистику, причем одним из элементов обучения является проверка гипотез. [82] [83] Многие выводы, публикуемые в популярной прессе (от политических опросов общественного мнения до медицинских исследований), основаны на статистике. Некоторые авторы заявили, что статистический анализ такого рода позволяет четко осмыслить проблемы, связанные с массовыми данными, а также эффективно сообщать о тенденциях и выводах из указанных данных, но следует предупредить, что авторы для широкой публики должны иметь твердое представление о данной области. чтобы правильно использовать термины и понятия. [84] [85] [ необходима цитата ] [84] [85] [ необходима цитата ]На вводном курсе статистики в колледже большое внимание уделяется проверке гипотез - возможно, половина курса. Такие области, как литература и богословие, теперь включают результаты, основанные на статистическом анализе (см. Анализатор Библии ). На вводном уроке статистики проверка гипотез преподается в виде поваренной книги. Проверка гипотез также преподается в аспирантуре. Статистики узнают, как создавать хорошие процедуры статистических тестов (например, z , t Стьюдента , F и хи-квадрат). Статистическая проверка гипотез считается зрелой областью в статистике [75], но ограниченное количество разработок продолжается.

В академическом исследовании говорится, что метод преподавания вводной статистики по кулинарной книге не оставляет времени для истории, философии или споров. Проверка гипотез преподается по единому методу. Опросы показали, что выпускники класса были наполнены философскими заблуждениями (по всем аспектам статистических выводов), которые сохранялись среди преподавателей. [86] Хотя проблема была решена более десяти лет назад, [87] и продолжаются призывы к реформе образования, [88] студенты все еще заканчивают уроки статистики, придерживаясь фундаментальных неправильных представлений о проверке гипотез. [89]Идеи по улучшению обучения проверке гипотез включают поощрение студентов к поиску статистических ошибок в опубликованных статьях, преподавание истории статистики и акцентирование внимания на противоречиях в обычно сухом предмете. [90]

См. Также [ править ]

  • Статистика
  • Проблема Беренса – Фишера
  • Самостоятельная загрузка (статистика)
  • Проверка честности монеты
  • Дерево решений теста сравнения средних
  • Полная пространственная случайность
  • Контрнулл
  • Фальсифицируемость
  • Метод Фишера для объединения независимых тестов значимости
  • Причинность Грейнджера
  • Эффект поиска в другом месте
  • Модифицируемая проблема площадных единиц
  • Многовариантная проверка гипотез
  • Омнибус тест
  • Дихотомическое мышление
  • Проверка почти достоверной гипотезы

Ссылки [ править ]

  1. ^ Стюарт А., Орд К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2A - Классический вывод и линейная модель ( Арнольд ) §20.2.
  2. ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (3-е изд.). Томсон Брукс / Коул . §9.3.
  3. ^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.). Springer-Verlag. ISBN 978-0-387-95364-9.
  4. ^ a b Lehmann, EL; Романо, Джозеф П. (2005). Проверка статистических гипотез (3E ред.). Нью-Йорк: Спрингер. ISBN 978-0-387-98864-1.
  5. ^ Triola, Марио (2001). Элементарная статистика (8-е изд.). Бостон: Эддисон-Уэсли. п. 388 . ISBN 978-0-201-61477-0.
  6. ^ Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов . I и II (Второе изд.). Вайли. ISBN 978-0-470-38551-7.CS1 maint: multiple names: authors list (link)
  7. ^ Монтгомери, Дуглас (2009). Планирование и анализ экспериментов . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-12866-4.
  8. Перейти ↑ RA Fisher (1925). Статистические методы для научных работников , Эдинбург: Оливер и Бойд, 1925, стр. 43.
  9. ^ Nuzzo, Regina (2014). «Научный метод: статистические ошибки» . Природа . 506 (7487): 150–152. Bibcode : 2014Natur.506..150N . DOI : 10.1038 / 506150a . PMID 24522584 . 
  10. ^ Сигрист, Кайл. «Проверка гипотез - Введение» . www.randomservices.org . Проверено 8 марта 2018 года .
  11. ^ a b Бакан, Дэвид (1966). «Тест значимости в психологическом исследовании». Психологический бюллетень . 66 (6): 423–437. DOI : 10.1037 / h0020412 . PMID 5974619 . 
  12. ^ Ричард Дж. Ларсен; Донна Фокс Строуп (1976). Статистика в реальном мире: сборник примеров . Макмиллан. ISBN 978-0023677205.
  13. ^ Hubbard, R .; Парса, АР; Люти, MR (1997). "Распространение тестирования статистической значимости в психологии: случай журнала прикладной психологии". Теория и психология . 7 (4): 545–554. DOI : 10.1177 / 0959354397074006 . S2CID 145576828 . 
  14. ^ Мур, Дэвид (2003). Введение в статистическую практику . Нью-Йорк: WH Freeman and Co., стр. 426. ISBN. 9780716796572.
  15. ^ Хафф, Даррелл (1993). Как соврать со статистикой . Нью-Йорк: Нортон. ISBN 978-0-393-31072-6.
  16. ^ Хафф, Даррелл (1991). Как лгать со статистикой . Лондон: Книги Пингвинов. ISBN 978-0-14-013629-6.
  17. ^ «За последние пятьдесят лет« Как лгать со статистикой »было продано больше копий, чем любой другой статистический текст». Дж. М. Стил. « Даррелл Хафф и пятьдесят лет лжи со статистикой » . Статистическая наука , 20 (3), 2005, 205–209.
  18. ^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. DOI : 10,1098 / rstl.1710.0011 . S2CID 186209819 .  
  19. ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении . Springer Science & Business Media. стр.  1 -25. ISBN 978-1-4020-6036-6.
  20. ^ Коновер, WJ (1999), "Глава 3.4: Знак Test", практический непараметрической статистики (. Третье издание), М., С. 157-176,. ISBN 978-0-471-16068-7
  21. ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 978-0-412-44980-2
  22. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. С.  225–226 . ISBN 978-0-67440341-3.
  23. ^ a b Лаплас, П. (1778). "Mémoire sur les probabilités" (PDF) . Mémoires de l'Académie Royale des Sciences de Paris . 9 : 227–332.
  24. ^ Лаплас, П. (1778). "Mémoire sur les probabilités (XIX, XX)" . Совершенные произведения Лапласа . Mémoires de l'Académie Royale des Sciences de Paris . 9 . С. 429–438.
  25. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press of Harvard University Press. п. 134 . ISBN 978-0-674-40340-6.
  26. ^ a b Фишер, сэр Рональд А. (1956) [1935]. «Математика дамы, дегустирующей чай» . В Джеймс Рой Ньюман (ред.). Мир математики, том 3 [ Планирование экспериментов ]. Courier Dover Publications. ISBN 978-0-486-41151-4.Из книги Фишера « Дизайн экспериментов» .
  27. ^ Коробка, Джоан Фишер (1978). Р. А. Фишер, Жизнь ученого . Нью-Йорк: Вили. п. 134. ISBN 978-0-471-09300-8.
  28. CS Пирс (август 1878 г.). «Иллюстрации логики науки VI: дедукция, индукция и гипотеза» . Ежемесячно научно-популярный . 13 . Проверено 30 марта 2012 года .
  29. Перейти ↑ Jaynes, ET (2007). Теория вероятностей: логика науки (5. печат. Изд.). Кембридж [ua]: Cambridge Univ. Нажмите. ISBN 978-0-521-59271-0.
  30. ^ Schervish, M (1996) Теория статистики , с. 218. Springer ISBN 0-387-94546-6 
  31. ^ Кэй, Дэвид Х .; Фридман, Дэвид А. (2011). «Справочник по статистике» . Справочное руководство по научным данным (3-е изд.). Иган, Миннесота, Вашингтон, округ Колумбия: West National Academies Press. п. 259. ISBN. 978-0-309-21421-6.
  32. ^ Bellhouse, P. (2001), "Джон Арбутнот", в статистиках столетий ЦК Хейд и Е. Сенетами , Springer, стр. 39-42, ISBN 978-0-387-95329-8
  33. ^ a b Раймонд Хаббард, MJ Bayarri , Значения P не являются вероятностями ошибок. Архивировано 4 сентября 2013 г. в Wayback Machine . Рабочий документ, в котором объясняется разница между доказанным p-значением Фишера и частотой ошибок типа I Неймана – Пирсона .
  34. ^ а б Фишер, Р. (1955). «Статистические методы и научная индукция» (PDF) . Журнал Королевского статистического общества, Series B . 17 (1): 69–78.
  35. ^ a b c d Нейман, Дж; Пирсон, ES (1 января 1933 г.). «К вопросу о наиболее эффективных проверках статистических гипотез» . Философские труды Королевского общества А . 231 (694–706): 289–337. Bibcode : 1933RSPTA.231..289N . DOI : 10,1098 / rsta.1933.0009 .
  36. Перейти ↑ Goodman, SN (15 июня 1999 г.). «К медицинской статистике, основанной на доказательствах. 1: Ошибка значения P». Ann Intern Med . 130 (12): 995–1004. DOI : 10.7326 / 0003-4819-130-12-199906150-00008 . PMID 10383371 . S2CID 7534212 .  
  37. ^ a b c d Lehmann, EL (декабрь 1993 г.). "Теории Фишера, Неймана – Пирсона проверки гипотез: одна теория или две?". Журнал Американской статистической ассоциации . 88 (424): 1242–1249. DOI : 10.1080 / 01621459.1993.10476404 .
  38. Перейти ↑ Fisher, RN (1958). «Природа вероятности» (PDF) . Столетний обзор . 2 : 261–274. "Мы очень рискуем послать в мир высококвалифицированных и очень умных молодых людей с таблицами ошибочных чисел под мышками и с густым туманом в том месте, где должны быть их мозги. В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по борьбе с болезнями, и нет предела тому, в какой степени они могут препятствовать любым национальным усилиям ».
  39. ^ a b c Ленхард, Йоханнес (2006). «Модели и статистический вывод: противоречие между Фишером и Нейманом-Пирсоном». Br. J. Philos. Sci . 57 : 69–91. DOI : 10.1093 / bjps / axi152 . S2CID 14136146 . 
  40. ^ Нейман, Ежи (1967). "Р. А. Фишер (1890—1962): Признательность". Наука . 156 (3781): 1456–1460. Bibcode : 1967Sci ... 156.1456N . DOI : 10.1126 / science.156.3781.1456 . PMID 17741062 . S2CID 44708120 .  
  41. ^ Лосавич, JL; Neyman, J .; Скотт, EL; Уэллс, Массачусетс (1971). «Гипотетические объяснения отрицательных явных эффектов засева облаков в эксперименте Уайттоп» . Труды Национальной академии наук Соединенных Штатов Америки . 68 (11): 2643–2646. Bibcode : 1971PNAS ... 68.2643L . DOI : 10.1073 / pnas.68.11.2643 . PMC 389491 . PMID 16591951 .  
  42. ^ a b c Халпин, П.Ф .; Стам, HJ (зима 2006 г.). «Индуктивный вывод или индуктивное поведение: Фишер и Нейман: подходы Пирсона к статистическому тестированию в психологических исследованиях (1940–1960)». Американский журнал психологии . 119 (4): 625–653. DOI : 10.2307 / 20445367 . JSTOR 20445367 . PMID 17286092 .  
  43. ^ Гигеренцер, Герд; Зено Свийтинк; Теодор Портер; Лоррейн Дастон; Джон Битти; Лоренц Крюгер (1989). «Часть 3: Эксперты по выводам». Империя случая: как вероятность изменила науку и повседневную жизнь . Издательство Кембриджского университета. С. 70–122. ISBN 978-0-521-39838-1.
  44. ^ a b Gigerenzer, G (ноябрь 2004 г.). «Бездумная статистика». Социально-экономический журнал . 33 (5): 587–606. DOI : 10.1016 / j.socec.2004.09.033 .
  45. Перейти ↑ Loftus, GR (1991). «О тирании проверки гипотез в социальных науках» (PDF) . Современная психология . 36 (2): 102–105. DOI : 10.1037 / 029395 .
  46. ^ Meehl P (1990). «Оценка и исправление теорий: стратегия защиты Лакатоса и два принципа, которые это подтверждают» (PDF) . Психологический опрос . 1 (2): 108–141. DOI : 10,1207 / s15327965pli0102_1 .
  47. ^ Пирсон, K (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . 5 (50): 157–175. DOI : 10.1080 / 14786440009463897 .
  48. ^ Пирсон, K (1904). «О теории случайности и ее связи с ассоциацией и нормальной корреляцией» . Серия биометрических мемуаров исследования компании Drapers . 1 : 1–35.
  49. ^ Zabell, S (1989). «Р.А. Фишер по истории обратной вероятности» . Статистическая наука . 4 (3): 247–256. DOI : 10,1214 / сс / 1177012488 . JSTOR 2245634 . 
  50. ^ Эш, Роберт (1970). Основная теория вероятностей . Нью-Йорк: Вили. ISBN 978-0471034506.Раздел 8.2
  51. ^ а б Тьюки, Джон У. (1960). «Выводы vs решения». Технометрика . 26 (4): 423–433. DOI : 10.1080 / 00401706.1960.10489909 .«Пока мы не пройдемся по отчетам о проверке гипотез, отделяя элементы решения [Неймана-Пирсона] от элементов заключения [Фишера], внутренняя смесь разрозненных элементов будет постоянным источником путаницы». ... «Есть место как для того, чтобы« делать все, что можно », так и« говорить только то, что достоверно », но в каждом случае важно знать, что делается, а что следует делать. "
  52. Стиглер, Стивен М. (август 1996 г.). «История статистики в 1933 году» . Статистическая наука . 11 (3): 244–252. DOI : 10,1214 / сс / 1032280216 . JSTOR 2246117 . 
  53. ^ Бергер, Джеймс О. (2003). "Могли ли Фишер, Джеффрис и Нейман договориться о тестировании?" . Статистическая наука . 18 (1): 1–32. DOI : 10,1214 / сс / 1056397485 .
  54. ^ Моррисон, Дентон; Хенкель, Рамон, ред. (2006) [1970]. Противоречие теста значимости . AldineTransaction. ISBN 978-0-202-30879-1.
  55. ^ Оукс, Майкл (1986). Статистический вывод: комментарий для социальных и поведенческих наук . Чичестер Нью-Йорк: Вили. ISBN 978-0471104438.
  56. ^ Chow, Сю Л. (1997). Статистическая значимость: обоснование, обоснованность и полезность . ISBN 978-0-7619-5205-3.
  57. ^ Харлоу, Лиза Лавуа; Стэнли А. Мулайк; Джеймс Х. Стейгер, ред. (1997). Что делать, если не было тестов на значимость? . Лоуренс Эрлбаум Ассошиэйтс. ISBN 978-0-8058-2634-0.
  58. ^ а б Клайн, Рекс (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях . Вашингтон, округ Колумбия: Американская психологическая ассоциация. ISBN 9781591471189.
  59. ^ McCloskey, Deirdre N .; Стивен Т. Зиляк (2008). Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Пресса Мичиганского университета. ISBN 978-0-472-05007-9.
  60. ^ Нива, Джером (1976). «Последние методологические вклады в клинические испытания» (PDF) . Американский журнал эпидемиологии . 104 (4): 408–421. DOI : 10.1093 / oxfordjournals.aje.a112313 . PMID 788503 .  
  61. ^ Йейтс, Фрэнк (1951). «Влияние статистических методов для научных работников на развитие статистической науки». Журнал Американской статистической ассоциации . 46 (253): 19–34. DOI : 10.1080 / 01621459.1951.10500764 .«Акцент, который уделяется формальным тестам значимости во всех статистических методах [Р. А. Фишера] ... заставил научных исследователей уделять чрезмерное внимание результатам тестов значимости, которые они проводят на своих данных, особенно данных, полученных в результате экспериментов, а также мало к оценкам масштабов исследуемых ими эффектов ". ... «Акцент на проверке значимости и рассмотрение результатов каждого эксперимента в отдельности привели к печальным последствиям: научные работники часто рассматривали выполнение проверки значимости эксперимента как конечную цель».
  62. ^ Бегг, Колин Б .; Берлин, Джесси А. (1988). «Предвзятость публикации: проблема интерпретации медицинских данных». Журнал Королевского статистического общества, Series A . 151 (3): 419–463. DOI : 10.2307 / 2982993 . JSTOR 2982993 . 
  63. ^ Meehl, Пол Э. (1967). "Теория-тестирование в психологии и физике: методологический парадокс" (PDF) . Философия науки . 34 (2): 103–115. DOI : 10.1086 / 288135 . S2CID 96422880 . Архивировано из оригинального (PDF) 3 декабря 2013 года.   Тридцать лет спустя Миль признал теорию статистической значимости математически обоснованной, продолжая при этом подвергать сомнению выбор по умолчанию нулевой гипотезы, вместо этого обвиняя в этом «плохое понимание социологами логической связи между теорией и фактом» в статье «Проблема - это эпистемология, а не Статистика: заменить тесты значимости доверительными интервалами и количественно оценить точность рискованных численных прогнозов »(глава 14 в Harlow (1997)).
  64. ^ Nunnally, Юм (1960). «Место статистики в психологии». Образовательные и психологические измерения . 20 (4): 641–650. DOI : 10.1177 / 001316446002000401 . S2CID 144813784 . 
  65. ^ Lykken, Дэвид Т. (1991). «Что вообще не так с психологией?». Ясное мышление о психологии . 1 : 3–39.
  66. ^ a b Джейкоб Коэн (декабрь 1994 г.). «Земля круглая (р <0,05)» . Американский психолог . 49 (12): 997–1003. DOI : 10.1037 / 0003-066X.49.12.997 . S2CID 380942 . Этот документ приводит к обзору статистической практики АПА. Коэн был членом рабочей группы, которая проводила обзор.
  67. ^ a b c d Никерсон, Раймонд С. (2000). «Проверка значимости нулевой гипотезы: обзор старых и продолжающихся споров» . Психологические методы . 5 (2): 241–301. DOI : 10.1037 / 1082-989X.5.2.241 . PMID 10937333 . S2CID 28340967 .  
  68. Перейти ↑ Branch, Mark (2014). «Злокачественные побочные эффекты проверки значимости нулевой гипотезы» . Теория и психология . 24 (2): 256–277. DOI : 10.1177 / 0959354314525282 . S2CID 40712136 . 
  69. ^ a b Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах; рекомендации и пояснения». Американский психолог . 54 (8): 594–604. DOI : 10.1037 / 0003-066X.54.8.594 .«Проверка гипотез. Трудно представить себе ситуацию, в которой дихотомическое решение принять-отклонить лучше, чем сообщить фактическое значение p или, что еще лучше, доверительный интервал». (стр. 599). Комитет использовал предостерегающий термин «терпение» при описании своего решения против запрета проверки гипотез в психологических репортажах. (стр 603)
  70. ^ «ICMJE: Обязательство публиковать отрицательные исследования» . Архивировано из оригинального 16 июля 2012 года . Проверено 3 сентября 2012 года . Редакторы должны серьезно рассмотреть для публикации любое тщательно проведенное исследование важного вопроса, имеющего отношение к их читателям, независимо от того, являются ли результаты для основного или любого дополнительного результата статистически значимыми. Неспособность представить или опубликовать результаты из-за отсутствия статистической значимости является важной причиной систематической ошибки публикации.
  71. ^ Журнал статей в поддержку веб-сайта нулевой гипотезы : домашняя страница JASNH . Том 1 номер 1 был опубликован в 2002 году, и все статьи посвящены вопросам, связанным с психологией.
  72. ^ Хауэлл, Дэвид (2002). Статистические методы психологии (5-е изд.). Даксбери. п. 94 . ISBN 978-0-534-37770-0.
  73. ^ Kruschke, JK (9 июля 2012). «Байесовская оценка заменяет T-тест» (PDF) . Журнал экспериментальной психологии: Общие . 142 (2): 573–603. DOI : 10.1037 / a0029146 . PMID 22774788 .  
  74. ^ Армстронг, Дж. Скотт (2007). «Тесты значимости вредят прогрессу в прогнозировании» . Международный журнал прогнозирования . 23 (2): 321–327. CiteSeerX 10.1.1.343.9516 . DOI : 10.1016 / j.ijforecast.2007.03.004 . 
  75. ^ а б Э. Л. Леманн (1997). «Проверка статистических гипотез: история книги» . Статистическая наука . 12 (1): 48–52. DOI : 10,1214 / сс / 1029963261 .
  76. ^ Kruschke, JK (9 июля 2012). «Байесовская оценка заменяет T-тест» (PDF) . Журнал экспериментальной психологии: Общие . 142 (2): 573–603. DOI : 10.1037 / a0029146 . PMID 22774788 .  
  77. Перейти ↑ Kass, RE (1993). «Байесовские факторы и неопределенность модели» (PDF) . Департамент статистики Вашингтонского университета. Cite journal requires |journal= (help)
  78. ^ Rozeboom, Уильям W (1960). «Ошибка проверки значимости нулевой гипотезы» (PDF) . Психологический бюллетень . 57 (5): 416–428. CiteSeerX 10.1.1.398.9002 . DOI : 10.1037 / h0042040 . PMID 13744252 .    «... надлежащее применение статистики к научным выводам безоговорочно требует всестороннего рассмотрения обратных [AKA байесовских] вероятностей ...» С сожалением было признано, что априорные вероятностные распределения были доступны «только как субъективное ощущение, отличаясь от одного человека к другому ", по крайней мере, в ближайшем будущем".
  79. ^ Бергер, Джеймс (2006). «Аргументы в пользу объективного байесовского анализа» . Байесовский анализ . 1 (3): 385–402. DOI : 10.1214 / 06-BA115 . При перечислении конкурирующих определений «объективного» байесовского анализа: «Основная цель статистики (а точнее науки) - найти полностью согласованную объективную байесовскую методологию обучения на основе данных». Автор высказал мнение, что эта цель «недостижима».
  80. Перейти ↑ Aldrich, J (2008). "Р. А. Фишер по теореме Байеса и Байеса" (PDF) . Байесовский анализ . 3 (1): 161–170. DOI : 10.1214 / 08-BA306 . Архивировано из оригинального (PDF) 6 сентября 2014 года.
  81. ^ Мэйо, Д.Г. Спанос, А. (2006). «Суровые испытания как основная концепция в философии индукции Неймана – Пирсона». Британский журнал философии науки . 57 (2): 323–357. CiteSeerX 10.1.1.130.8131 . DOI : 10.1093 / bjps / axl003 . S2CID 7176653 .  
  82. ^ Математика> Средняя школа: Статистика и вероятность> Введение. Архивировано 28 июля 2012 г. на Archive.today Common Core State Standards Initiative (относится к студентам из США)
  83. ^ Тесты College Board> AP: Subjects> Statistics The College Board (касается студентов из США)
  84. ^ a b Хафф, Даррелл (1993). Как соврать со статистикой . Нью-Йорк: Нортон. п. 8 . ISBN 978-0-393-31072-6.«Статистические методы и статистические термины необходимы при представлении массовых данных о социальных и экономических тенденциях, условиях ведения бизнеса, опросах общественного мнения, переписи населения. Но без писателей, которые честно используют эти слова, и без читателей, знающих, что они означают, результатом может быть только семантическая чушь ».
  85. ^ a b Снедекор, Джордж В .; Кокран, Уильям Г. (1967). Статистические методы (6 изд.). Эймс, Айова: Издательство Государственного университета Айовы. п. 3. «... основные идеи в статистике помогают нам ясно осмыслить проблему, дают некоторые рекомендации относительно условий, которые должны быть выполнены, чтобы делать правильные выводы, и позволяют нам обнаруживать многие выводы, не имеющие хорошей логической основы. "
  86. ^ Sotos, Ана Элиса Кастро; Ванхуф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2007). «Ошибочные представления студентов о статистических выводах: обзор эмпирических данных исследований по статистике образования» (PDF) . Обзор образовательных исследований . 2 (2): 98–113. DOI : 10.1016 / j.edurev.2007.04.001 .
  87. ^ Мур, Дэвид С. (1997). «Новая педагогика и новое содержание: случай статистики» (PDF) . Международное статистическое обозрение . 65 (2): 123–165. DOI : 10.2307 / 1403333 . JSTOR 1403333 .  
  88. ^ Хаббард, Раймонд; Армстронг, Дж. Скотт (2006). «Почему мы действительно не знаем, что означает статистическая значимость: значение для преподавателей» (PDF) . Журнал маркетингового образования . 28 (2): 114–120. DOI : 10.1177 / 0273475306288399 . ЛВП : 2092/413 . S2CID 34729227 . Архивировано 18 мая 2006 года.  CS1 maint: unfit URL (link) Препринт
  89. ^ Sotos, Ана Элиса Кастро; Ванхуф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2009). «Насколько уверены студенты в своих неправильных представлениях о проверках гипотез?» . Журнал статистики образования . 17 (2). DOI : 10.1080 / 10691898.2009.11889514 .
  90. ^ Гигеренцер, G. (2004). «Нулевой ритуал. Что вы всегда хотели знать о серьезном тестировании, но боялись спросить» (PDF) . Справочник SAGE по количественной методологии для социальных наук . С. 391–408. DOI : 10.4135 / 9781412986311 . ISBN  9780761923596.

Дальнейшее чтение [ править ]

  • Леманн Э.Л. (1992) "Введение в Неймана и Пирсона (1933) по проблеме наиболее эффективных проверок статистических гипотез". В: « Прорывы в статистике», том 1 , (Эдс Коц, С., Джонсон, Нидерланды), Springer-Verlag. ISBN 0-387-94037-5 (с последующей перепечаткой статьи) 
  • Neyman, J .; Пирсон, ES (1933). «К вопросу о наиболее эффективных проверках статистических гипотез» . Философские труды Королевского общества А . 231 (694–706): 289–337. Bibcode : 1933RSPTA.231..289N . DOI : 10,1098 / rsta.1933.0009 .

Внешние ссылки [ править ]

  • «Статистические гипотезы, проверка» , Математическая энциклопедия , EMS Press , 2001 [1994]
  • Уилсон Гонсалес, Джорджина; Кай Шанкаран (10 сентября 1997 г.). «Проверка гипотез» . Учебник по отбору проб и мониторингу окружающей среды . Virginia Tech.
  • Байесовская критика классической проверки гипотез
  • Критика классической проверки гипотез, подчеркивающая давние сомнения статистиков
  • Dallal GE (2007) Маленький справочник по статистической практике (хороший учебник)
  • Ссылки на аргументы за и против проверки гипотез
  • Обзор статистических тестов: как выбрать правильный статистический тест
  • [2] Статистический анализ, основанный на методе проверки гипотез при открытии биологических знаний; Md. Naseef-Ur-Rahman Chowdhury, Suvankar Paul, Kazi Zakia Sultana

Онлайн калькуляторы [ править ]

  • Калькуляторы доверительного интервала и проверки гипотез MBAStats
  • Некоторые калькуляторы p-значения и проверки гипотез .