Парадокс Берксона

Парадокс Берксон в , также известном как смещение Берксон в , коллайдере смещение или ошибочность Берксон в , является результатом в условной вероятности и статистике , которая часто оказываются парадоксальными , и , следовательно, правдивым парадоксом . Это усложняющий фактор, возникающий при статистических проверках пропорций. В частности, это возникает, когда есть предвзятость установления, присущая дизайну исследования. Эффект связан с феноменом объяснения в байесовских сетях и условием работы коллайдера в графических моделях .

Пример парадокса Берксона: на
рисунке 1 предположим, что талант и привлекательность не связаны между собой в популяции.
На рисунке 2 кто-то, отобравший население с использованием знаменитостей, может ошибочно сделать вывод о том, что талант отрицательно коррелирует с привлекательностью, поскольку люди, которые не являются ни талантливыми, ни привлекательными, обычно не становятся знаменитостями.

Его часто описывают в области медицинской статистики или биостатистики , как в оригинальном описании проблемы Джозефом Берксоном .

Примеры

Обзор

Иллюстрация парадокса Берксона. Верхний график представляет фактическое распределение, при котором наблюдается положительная корреляция между качеством гамбургеров и картофеля фри. Однако человек, который не ест в любом месте, где оба являются плохими, наблюдает только распределение на нижнем графике, которое, по-видимому, показывает отрицательную корреляцию.

Наиболее распространенный пример парадокса Берксона - это ложное наблюдение отрицательной корреляции между двумя положительными чертами, т. Е. Того , что члены популяции, у которых есть какая-то положительная черта, как правило, не имеют второй. Парадокс Берксона возникает, когда это наблюдение кажется верным, когда на самом деле эти два свойства не связаны - или даже положительно коррелируют, - потому что члены популяции, в которых оба отсутствуют, наблюдаются неодинаково. Например, человек может на собственном опыте заметить, что рестораны быстрого питания в их районе, где подают хорошие гамбургеры, как правило, подают плохой картофель фри и наоборот; но поскольку они, вероятно, не будут есть там, где оба были плохими, они не учитывают большое количество ресторанов в этой категории, что ослабит или даже изменит корреляцию.

Оригинальная иллюстрация

Оригинальная иллюстрация Берксона включает ретроспективное исследование, изучающее фактор риска заболевания в статистической выборке из популяции стационарных пациентов в больнице . Поскольку образцы берутся у пациентов, находящихся в стационаре, а не у населения в целом, это может привести к ложной отрицательной связи между заболеванием и фактором риска. Например, если фактором риска является диабет, а заболевание - холецистит , больной пациент без диабета с большей вероятностью болеет холециститом, чем член общей популяции, поскольку у пациента, должно быть, не было диабета (возможно, вызывающего холецистит). причина попасть в больницу в первую очередь. Этот результат будет получен независимо от того, существует ли какая-либо связь между диабетом и холециститом в общей популяции.

Пример Элленберга

Пример, представленный Джорданом Элленбергом : предположим, что Алекс будет встречаться с мужчиной только в том случае, если его любезность плюс его красота превышают некоторый порог. Тогда более приятным мужчинам не обязательно быть такими красивыми, чтобы попасть в пул знакомств Алекса. Таким образом, среди мужчин, с которыми встречается Алекс , Алекс может заметить, что более хорошие в среднем менее красивы (и наоборот), даже если эти черты не коррелируют в общей популяции. Обратите внимание, что это не означает, что мужчины в пуле знакомств проигрывают мужчинам в популяции. Напротив, критерий отбора Алекса означает, что у Алекса высокие стандарты. Средний симпатичный мужчина, с которым встречается Алекс, на самом деле более красив, чем средний мужчина в населении (поскольку даже среди хороших мужчин самая уродливая часть населения пропускается). Отрицательная корреляция Берксона - это эффект, который возникает в пуле знакомств: грубые мужчины, с которыми встречается Алекс, должно быть, были даже более красивыми, чтобы соответствовать критериям.

Количественный пример

В качестве количественного примера предположим, что у коллекционера есть 1000 почтовых марок , из которых 300 красивых и 100 редких, а 30 одновременно красивых и редких. 10% всех его марок - редкие, а 10% его красивых марок - редкие, поэтому красота ничего не говорит о редкости. Он выставляет на обозрение 370 красивых или редких марок. Чуть более 27% выставленных марок являются редкими (100/370), но все же только 10% красивых марок являются редкими (и 100% из 70 выставленных некрасивых марок редки). Если наблюдатель рассматривает только выставленные марки, он увидит ложную отрицательную связь между красивостью и редкостью в результате систематической ошибки выбора (то есть непривлекательность явно указывает на редкость на выставке, но не в общей коллекции).

Заявление

Два независимых события становятся условно зависимыми (отрицательно зависимыми) при условии, что хотя бы одно из них происходит. Символически:

Если

{\ Displaystyle 0

,

{\ Displaystyle 0

, а также

{\ Displaystyle P (A | B) = P (A)}

, тогда

{\ Displaystyle P (A | B, A \ чашка B)

.

Мероприятие ${\ displaystyle A}$ и событие ${\ displaystyle B}$ может или не может произойти

${\ Displaystyle P (A | B)}$ , условная вероятность , это вероятность наблюдения события ${\ displaystyle A}$ учитывая, что ${\ displaystyle B}$ правда.
Пояснение: Событие ${\ displaystyle A}$ а также ${\ displaystyle B}$ независимы друг от друга

${\ Displaystyle P (A | B, A \ чашка B)}$ вероятность наблюдения события ${\ displaystyle A}$ учитывая, что ${\ displaystyle B}$ и ( ${\ displaystyle A}$ или же ${\ displaystyle B}$ ) имеет место. Это также можно записать как ${\ Displaystyle P (A | B \ cap (A \ чашка B))}$

Пояснение: Вероятность ${\ displaystyle A}$ учитывая оба ${\ displaystyle B}$ и ( ${\ displaystyle A}$ или же ${\ displaystyle B}$ ) меньше вероятности ${\ displaystyle A}$ дано ( ${\ displaystyle A}$ или же ${\ displaystyle B}$ )

Другими словами, учитывая два независимых события, если вы рассматриваете только те результаты, в которых происходит хотя бы одно, тогда они становятся отрицательно зависимыми, как показано выше.

Объяснение

Причина в том, что условная вероятность события ${\ displaystyle A}$ происходящие, учитывая, что это или ${\ displaystyle B}$ происходит, завышено: оно выше безусловной вероятности, потому что мы исключили случаи, когда ни то, ни другое не происходит.

{\ Displaystyle P (A | A \ чашка B)> P (A)}

условная вероятность завышена относительно безусловной

В табличной форме это можно увидеть следующим образом: желтые области - это результаты, в которых происходит хотя бы одно событие (а ~ A означает «не A »).

	А	~ А
B	А и Б	~ А и Б
~ B	A и ~ B	~ A и ~ B

Например, если у вас есть образец ${\ displaystyle 100}$ , и оба ${\ displaystyle A}$ а также ${\ displaystyle B}$ происходят независимо друг от друга в половине случаев ( ${\ Displaystyle P (A) = P (B) = 1/2}$ ), получаем:

	А	~ А
B	25	25
~ B	25	25

Так что в ${\ displaystyle 75}$ результаты, либо ${\ displaystyle A}$ или же ${\ displaystyle B}$ происходит, из которых ${\ displaystyle 50}$ имеют ${\ displaystyle A}$ происходит. Путем сравнения условной вероятности ${\ displaystyle A}$ к безусловной вероятности ${\ displaystyle A}$ :

{\ Displaystyle P (A | A \ чашка B) = 50/75 = 2/3> P (A) = 50/100 = 1/2}

Мы видим, что вероятность ${\ displaystyle A}$ выше ( ${\ displaystyle 2/3}$ ) в подмножестве результатов, где ( ${\ displaystyle A}$ или же ${\ displaystyle B}$ ) встречается, чем в общей популяции ( ${\ displaystyle 1/2}$ ). С другой стороны, вероятность ${\ displaystyle A}$ учитывая оба ${\ displaystyle B}$ а также ( ${\ displaystyle A}$ или же ${\ displaystyle B}$ ) - это просто безусловная вероятность ${\ displaystyle A}$ , ${\ Displaystyle P (A)}$ , поскольку ${\ displaystyle A}$ не зависит от ${\ displaystyle B}$ . В числовом примере мы условились находимся в верхнем ряду:

	А	~ А
B	25	25
~ B	25	25

Здесь вероятность ${\ displaystyle A}$ является ${\ displaystyle 25/50 = 1/2}$ .

Парадокс Берксона возникает из-за того, что условная вероятность ${\ displaystyle A}$ дано ${\ displaystyle B}$ внутри подмножества из трех ячеек равна условной вероятности в общей популяции, но безусловная вероятность внутри подмножества завышена по сравнению с безусловной вероятностью в общей популяции, следовательно, внутри подмножества наличие ${\ displaystyle B}$ уменьшает условную вероятность ${\ displaystyle A}$ (вернемся к его общей безусловной вероятности):

{\ Displaystyle P (A | B, A \ чашка B) = P (A | B) = P (A)}

{\ Displaystyle P (A | A \ чашка B)> P (A)}

Смотрите также

Парадокс Симпсона

Внешние ссылки

Numberphile: Голливуд портит книги? - Образовательный видеоролик о парадоксе Берксона в популярной культуре.