Парадокс Линдли

Парадокс Линдлите в этом противоречащий ситуация в статистике , в которых байесовские и частотных подходы к проверке гипотез проблем дают различные результаты для некоторых вариантов в априорном распределении . Проблема разногласий между двумя подходами обсуждалась в учебнике Гарольда Джеффриса 1939 года; ^[1] он стал известен как парадокс Линдли после того, как Деннис Линдли назвал разногласие парадоксом в статье 1957 года. ^[2]

Хотя это и называется парадоксом , разные результаты байесовского и частотного подходов можно объяснить их использованием для ответа на принципиально разные вопросы, а не фактического несогласия между двумя методами.

Тем не менее, для большого класса априорных подходов различия между частотным и байесовским подходами вызваны сохранением фиксированного уровня значимости: как признавал даже Линдли, «теория не оправдывает практику сохранения фиксированного уровня значимости» и даже «некоторые вычисления профессора Пирсона в обсуждении этой статьи подчеркнули, как уровень значимости должен измениться с размером выборки, если бы потери и априорные вероятности оставались фиксированными ». ^[2] Фактически, если критическое значение увеличивается с увеличением размер выборки достаточно быстро, тогда расхождение между частотным и байесовским подходами становится незначительным по мере увеличения размера выборки. ^[3]

Описание парадокса

Результат ${\ displaystyle \ textstyle x}$ некоторого эксперимента имеет два возможных объяснения, гипотезы ${\ displaystyle \ textstyle H_ {0}}$ а также ${\ displaystyle \ textstyle H_ {1}}$ , и некоторое предварительное распространение ${\ displaystyle \ textstyle \ pi}$ представление неопределенности относительно того, какая гипотеза более точна, прежде чем принимать во внимание ${\ displaystyle \ textstyle x}$ .

Парадокс Линдли возникает, когда

Результат ${\ displaystyle \ textstyle x}$ "значимо" по частотному тесту ${\ displaystyle \ textstyle H_ {0}}$ с указанием достаточных доказательств для отклонения ${\ displaystyle \ textstyle H_ {0}}$ , скажем, на уровне 5%, и
Апостериорная вероятность из ${\ displaystyle \ textstyle H_ {0}}$ дано ${\ displaystyle \ textstyle x}$ высокий, что указывает на веские доказательства того, что ${\ displaystyle \ textstyle H_ {0}}$ лучше согласуется с ${\ displaystyle \ textstyle x}$ чем ${\ displaystyle \ textstyle H_ {1}}$ .

Эти результаты могут появиться одновременно, когда ${\ displaystyle \ textstyle H_ {0}}$ очень специфично, ${\ displaystyle \ textstyle H_ {1}}$ более расплывчатый, и предварительное распределение не сильно благоприятствует тому или другому, как показано ниже.

Числовой пример

Следующий числовой пример иллюстрирует парадокс Линдли. В одном городе за определенный период времени родился 49 581 мальчик и 48 870 девочек. Наблюдаемая пропорция ${\ displaystyle \ textstyle x}$ рождений мальчиков составляет 49 581/98 451 ≈ 0,5036. Мы предполагаем, что доля рождений мужского пола является биномиальной переменной с параметром ${\ displaystyle \ textstyle \ theta}$ . Мы заинтересованы в том, чтобы проверить, действительно ли ${\ displaystyle \ textstyle \ theta}$ составляет 0,5 или другое значение. То есть наша нулевая гипотеза ${\ displaystyle \ textstyle H_ {0}: \ theta = 0,5}$ и альтернатива ${\ displaystyle \ textstyle H_ {1}: \ theta \ neq 0,5}$ .

Частотный подход

Частотный подход к тестированию ${\ displaystyle \ textstyle H_ {0}}$ состоит в том, чтобы вычислить p-значение , вероятность увидеть долю мальчиков, по крайней мере, столь же велика, как ${\ displaystyle \ textstyle x}$ предполагая ${\ displaystyle \ textstyle H_ {0}}$ правда. Поскольку число рождений очень велико, мы можем использовать нормальное приближение для доли рождений мужского пола. ${\ displaystyle \ textstyle X \ sim N (\ mu, \ sigma ^ {2})}$ , с участием ${\ displaystyle \ textstyle \ mu = np = n \ theta = 98 451 \ times 0,5 = 49 225,5}$ а также ${\ displaystyle \ textstyle \ sigma ^ {2} = n \ theta (1- \ theta) = 98 451 \ times 0,5 \ times 0,5 = 24 612,75}$ , вычислить

{\ Displaystyle {\ begin {align} P (X \ geq x \ mid \ mu = 49225.5) = \ int _ {x = 49581} ^ {98451} {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- ({\ frac {u- \ mu} {\ sigma}}) ^ {2} / 2} du \\ = \ int _ {x = 49581} ^ {98451} {\ frac {1} {\ sqrt {2 \ pi (24 612,75)}}} e ^ {- {\ frac {(u-49225.5) ^ {2}} {24612.75}} / 2} du \ приблизительно 0,0117. \ конец {выровнен}}}

Мы были бы в равной степени удивлены, если бы увидели 49 581 рождение девочки, т.е. ${\ displaystyle \ textstyle x \ приблизительно 0,4964}$ , поэтому частотный специалист обычно выполняет двусторонний тест, для которого p-значение будет ${\ displaystyle \ textstyle p \ приблизительно 2 \ раза 0,0117 = 0,0235}$ . В обоих случаях значение p ниже уровня значимости α, равного 5%, поэтому частотный подход отвергает ${\ displaystyle \ textstyle H_ {0}}$ поскольку это не согласуется с наблюдаемыми данными.

Байесовский подход

При отсутствии причин отдавать предпочтение одной гипотезе другой, байесовский подход заключался бы в назначении априорных вероятностей ${\ displaystyle \ textstyle \ pi (H_ {0}) = \ pi (H_ {1}) = 0,5}$ и равномерное распределение по ${\ displaystyle \ textstyle \ theta}$ под ${\ displaystyle H_ {1}}$ , а затем вычислить апостериорную вероятность ${\ displaystyle \ textstyle H_ {0}}$ используя теорему Байеса ,

{\ Displaystyle P (H_ {0} \ mid k) = {\ frac {P (k \ mid H_ {0}) \ pi (H_ {0})} {P (k \ mid H_ {0}) \ pi (H_ {0}) + P (k \ mid H_ {1}) \ pi (H_ {1})}}.}.

После наблюдения ${\ displaystyle \ textstyle k = 49 581}$ мальчики из ${\ displaystyle \ textstyle n = 98 451}$ рождений, мы можем вычислить апостериорную вероятность каждой гипотезы, используя функцию массы вероятности для биномиальной переменной,

{\ displaystyle {\ begin {align} P (k \ mid H_ {0}) & = {n \ choose k} (0,5) ^ {k} (1-0,5) ^ {nk} \ приблизительно 1,95 \ times 10 ^ {-4} \\ P (k \ mid H_ {1}) & = \ int _ {0} ^ {1} {n \ choose k} \ theta ^ {k} (1- \ theta) ^ {nk} d \ theta = {n \ choose k} \ mathrm {\ mathrm {B}} (k + 1, n-k + 1) = 1 / (n + 1) \ приблизительно 1,02 \ times 10 ^ {- 5} \ конец {выровнен}}}

где ${\ Displaystyle \ textstyle \ mathrm {\ mathrm {B}} (а, б)}$ это бета-функция .

Из этих значений находим апостериорную вероятность ${\ Displaystyle P (\ textstyle H_ {0} \ mid k) \ приблизительно 0,95}$ , что сильно способствует ${\ displaystyle \ textstyle H_ {0}}$ над ${\ displaystyle \ textstyle H_ {1}}$ .

Два подхода - байесовский и частотный - кажутся конфликтующими, и в этом заключается «парадокс».

Согласование байесовского и частотного подходов

Однако, по крайней мере, в примере Линдли, если мы возьмем последовательность уровней значимости $α n$ , такую, что $α n = n - r$ с $r > 1/2$ , тогда апостериорная вероятность нуля сходится к 0, что согласуется с отказ от нуля. ^[3] В этом числовом примере принятие $r = 1/2$ дает уровень значимости 0,00318, поэтому частотный специалист не отвергнет нулевую гипотезу, которая примерно соответствует байесовскому подходу.

Распределение

p

при нулевой гипотезе и апостериорное распределение

p

.

Если мы воспользуемся малоинформативным априором и проверим гипотезу, более похожую на гипотезу частотного подхода, парадокс исчезнет.

Например, если мы рассчитаем апостериорное распределение ${\ Displaystyle \ textstyle Р (\ тета \ середина х, п)}$ , используя равномерное априорное распределение на ${\ displaystyle \ textstyle \ theta}$ (т.е. ${\ Displaystyle \ TextStyle \ пи (\ тета \ в [0,1]) = 1}$ ), мы нашли

{\ Displaystyle P (\ theta \ mid k, n) = \ mathrm {\ mathrm {B}} (k + 1, n-k + 1).}

Если мы используем это, чтобы проверить вероятность того, что новорожденный, скорее всего, будет мальчиком, чем девочкой, т. Е. ${\ Displaystyle Р (\ тета> 0,5 \ середина к, п)}$ , мы нашли

 ${\ displaystyle \ int _ {0.5} ^ {1} \ mathrm {\ mathrm {B}} (49582,48871) \ приблизительно 0,983.}$

Другими словами, очень вероятно, что доля рождений мужского пола выше 0,5.

Ни один из анализов не дает непосредственной оценки величины эффекта , но оба могут использоваться для определения, например, того, будет ли доля рождений мальчиков выше определенного порогового значения.

Отсутствие настоящего парадокса

Очевидное расхождение между двумя подходами вызвано сочетанием факторов. Во-первых, частотный подход, описанный выше. ${\ displaystyle \ textstyle H_ {0}}$ без ссылки на ${\ displaystyle \ textstyle H_ {1}}$ . Байесовский подход оценивает ${\ displaystyle \ textstyle H_ {0}}$ как альтернатива ${\ displaystyle \ textstyle H_ {1}}$ , и считает, что первая лучше согласуется с наблюдениями. Это потому, что последняя гипотеза гораздо более расплывчата, так как ${\ displaystyle \ textstyle \ theta}$ может быть где угодно в ${\ displaystyle \ textstyle [0,1]}$ , что приводит к очень низкой апостериорной вероятности. Чтобы понять, почему, полезно рассмотреть две гипотезы как генераторы наблюдений:

Под ${\ displaystyle \ textstyle H_ {0}}$ , мы выбрали ${\ displaystyle \ textstyle \ theta \ приблизительно 0,500}$ и спросите, какова вероятность того, что при 98 451 рождении будет 49 581 мальчик.
Под ${\ displaystyle \ textstyle H_ {1}}$ , мы выбрали ${\ displaystyle \ textstyle \ theta}$ случайным образом из любого места в пределах от 0 до 1 и задайте тот же вопрос.

Большинство возможных значений для ${\ displaystyle \ textstyle \ theta}$ под ${\ displaystyle \ textstyle H_ {1}}$ очень слабо подтверждаются наблюдениями. По сути, очевидное несоответствие между методами - это вовсе не разногласия, а, скорее, два разных утверждения о том, как гипотезы соотносятся с данными:

Частотный специалист считает, что ${\ displaystyle \ textstyle H_ {0}}$ является плохим объяснением наблюдения.
Байесовец считает, что ${\ displaystyle \ textstyle H_ {0}}$ является гораздо лучшим объяснением наблюдения, чем ${\ displaystyle \ textstyle H_ {1}}$ .

Согласно частотному тесту соотношение полов новорожденных маловероятно 50/50. Тем не менее, 50/50 - лучшее приближение, чем большинство, но не все другие соотношения. Гипотеза ${\ displaystyle \ textstyle \ theta \ приблизительно 0,504}$ соответствовали бы наблюдениям намного лучше, чем почти все другие соотношения, включая ${\ displaystyle \ textstyle \ theta \ приблизительно 0,500}$ .

Например, этот выбор гипотез и априорных вероятностей подразумевает утверждение: «если ${\ displaystyle \ textstyle \ theta}$ > 0,49 и ${\ displaystyle \ textstyle \ theta}$ <0,51, то априорная вероятность ${\ displaystyle \ theta}$ быть точно 0,5 равно 0,50 / 0,51 ${\ Displaystyle \ приблизительно}$ 98% ". Учитывая такое сильное предпочтение ${\ displaystyle \ theta = 0,5}$ , легко понять, почему байесовский подход отдает предпочтение ${\ displaystyle H_ {0}}$ перед лицом ${\ displaystyle x \ приблизительно 0,5036}$ , хотя наблюдаемое значение ${\ displaystyle x}$ ложь ${\ displaystyle 2.28 \ sigma}$ от 0,5. Отклонение более 2 сигм от ${\ displaystyle H_ {0}}$ считается значимым в частотном подходе, но его значение отвергается предшествующим в байесовском подходе.

Посмотрев на это с другой стороны, мы можем увидеть, что априорное распределение по существу является плоским с дельта-функцией на ${\ displaystyle \ textstyle \ theta = 0,5}$ . Ясно, что это сомнительно. Фактически, если бы вы представили действительные числа как непрерывные, то было бы более логичным предположить, что никакое данное число не может быть точным значением параметра, т. Е. Мы должны предположить, что P (theta = 0,5) = 0.

Более реалистичное распределение для ${\ displaystyle \ textstyle \ theta}$ в альтернативной гипотезе дает менее удивительный результат для апостериорной ${\ displaystyle \ textstyle H_ {0}}$ . Например, если мы заменим ${\ displaystyle \ textstyle H_ {1}}$ с участием ${\ displaystyle \ textstyle H_ {2}: \ theta = x}$ , т. е. оценка максимального правдоподобия для ${\ displaystyle \ textstyle \ theta}$ , апостериорная вероятность ${\ displaystyle \ textstyle H_ {0}}$ будет всего 0,07 по сравнению с 0,93 для ${\ displaystyle \ textstyle H_ {2}}$ (Конечно, на самом деле нельзя использовать MLE как часть предыдущего распространения).

Недавнее обсуждение

Парадокс продолжает оставаться предметом активных дискуссий. ^[3]^[4]^[5]^[6]

Смотрите также

Байесовский фактор

Заметки

^ Джеффрис, Гарольд (1939). Теория вероятностей . Издательство Оксфордского университета . MR 0000924 .
^ ^а ^б Линдли, Д.В. (1957). «Статистический парадокс». Биометрика . 44 (1–2): 187–192. DOI : 10.1093 / Biomet / 44.1-2.187 . JSTOR 2333251 .
^ ^а ^б ^в Нааман, Майкл (01.01.2016). «Почти надежная проверка гипотез и разрешение парадокса Джеффриса-Линдли» . Электронный статистический журнал . 10 (1): 1526–1550. DOI : 10.1214 / 16-EJS1146 . ISSN 1935-7524 .
^ Спанос, Арис (2013). «Кому стоит бояться парадокса Джеффриса-Линдли?». Философия науки . 80,1 : 73-93. DOI : 10.1086 / 668875 .
^ Шпренгер, янв (2013). «Проверка точной нулевой гипотезы: случай парадокса Линдли» (PDF) . Философия науки . 80 : 733–744. DOI : 10.1086 / 673730 . hdl : 2318/1657960 .
^ Роберт, Кристиан П. (2014). «О парадоксе Джеффриса-Линдли». Философия науки . 81.2 : 216–232. arXiv : 1303,5973 . DOI : 10.1086 / 675729 .

дальнейшее чтение

Шафер, Гленн (1982). «Парадокс Линдли». Журнал Американской статистической ассоциации . 77 (378): 325–334. DOI : 10.2307 / 2287244 . JSTOR 2287244 . Руководство по ремонту 0664677 .

[1] Джеффрис, Гарольд (1939). Теория вероятностей . Издательство Оксфордского университета . MR 0000924 .

[:0-2] а ^б Линдли, Д.В. (1957). «Статистический парадокс». Биометрика . 44 (1–2): 187–192. DOI : 10.1093 / Biomet / 44.1-2.187 . JSTOR 2333251 .

[:1-3] а ^б ^в Нааман, Майкл (01.01.2016). «Почти надежная проверка гипотез и разрешение парадокса Джеффриса-Линдли» . Электронный статистический журнал . 10 (1): 1526–1550. DOI : 10.1214 / 16-EJS1146 . ISSN 1935-7524 .

[4] Спанос, Арис (2013). «Кому стоит бояться парадокса Джеффриса-Линдли?». Философия науки . 80,1 : 73-93. DOI : 10.1086 / 668875 .

[5] Шпренгер, янв (2013). «Проверка точной нулевой гипотезы: случай парадокса Линдли» (PDF) . Философия науки . 80 : 733–744. DOI : 10.1086 / 673730 . hdl : 2318/1657960 .

[6] Роберт, Кристиан П. (2014). «О парадоксе Джеффриса-Линдли». Философия науки . 81.2 : 216–232. arXiv : 1303,5973 . DOI : 10.1086 / 675729 .

[1]