Тест Босхлоо

Тест Boschloo в этом статистический тест гипотезы для анализа 2х2 таблицы сопряженности . Он исследует ассоциацию двух распределенных по Бернулли случайных величин и является более мощной альтернативой точному критерию Фишера . Он был предложен в 1970 году RD Boschloo. ^[1]

Параметр

Таблица непредвиденных обстоятельств 2x2 визуализирует ${\ displaystyle n}$ независимые наблюдения двух бинарных переменных ${\ displaystyle A}$ а также ${\ displaystyle B}$ :

{\ displaystyle {\ begin {array} {c | cc | c} & B = 1 & B = 0 & {\ mbox {Total}} \\\ hline A = 1 & x_ {11} & x_ {10} & n_ {1} \\ A = 0 & x_ {01} & x_ {00} & n_ {0} \\\ hline {\ mbox {Total}} & s_ {1} & s_ {0} & n \\\ end {array}}}

Распределение вероятностей таких таблиц можно разделить на три различных случая. ^[2]

Суммы строк ${\ displaystyle n_ {1}, n_ {0}}$ и суммы столбцов ${\ displaystyle s_ {1}, s_ {0}}$ фиксируются заранее, а не случайным образом.
Тогда все ${\ displaystyle x_ {ij}}$ определяются ${\ displaystyle x_ {11}}$ . Если ${\ displaystyle A}$ а также ${\ displaystyle B}$ независимы, ${\ displaystyle x_ {11}}$ следует гипергеометрическому распределению с параметрами ${\ displaystyle n, n_ {1}, s_ {1}}$ :
${\ displaystyle x_ {11} \ sim {\ mbox {Hypergeometric}} (n, n_ {1}, s_ {1})}$ .
Суммы строк ${\ displaystyle n_ {1}, n_ {0}}$ фиксируются заранее, но сумма столбца ${\ displaystyle s_ {1}, s_ {0}}$ не.
Тогда все случайные параметры определяются как ${\ displaystyle x_ {11}}$ а также ${\ displaystyle x_ {01}}$ а также ${\ displaystyle x_ {11}, x_ {01}}$ следовать биномиальному распределению с вероятностями ${\ displaystyle p_ {1}, p_ {0}}$ :
${\ displaystyle x_ {11} \ sim B (n_ {1}, p_ {1})}$
${\ displaystyle x_ {01} \ sim B (n_ {0}, p_ {0})}$
Только общее количество ${\ displaystyle n}$ фиксировано, но сумма строк ${\ displaystyle n_ {1}, n_ {0}}$ и суммы столбца ${\ displaystyle s_ {1}, s_ {0}}$ не.
Тогда случайный вектор ${\ displaystyle (x_ {11}, x_ {10}, x_ {01}, x_ {00})}$ следует полиномиальному распределению с вектором вероятности ${\ displaystyle (p_ {11}, p_ {10}, p_ {01}, p_ {00})}$ .

Точный тест Фишера разработан для первого случая и, следовательно, является точным условным тестом (поскольку он определяет суммы столбцов). Типичным примером такого случая является дегустация чая Леди : женщина пробует 8 чашек чая с молоком. В 4 из этих чашек наливают молоко перед чаем. В остальные 4 чашки в первую очередь наливается чай. Дама пытается разделить кубки на две категории. Следуя нашим обозначениям, случайная величина ${\ displaystyle A}$ представляет используемый метод (1 = молоко сначала, 0 = молоко в последнюю очередь) и ${\ displaystyle B}$ представляет собой предположения женщины (1 = молоко первое предположение, 0 = молоко последнее предположение). Тогда суммы строк - это фиксированное количество чашек, приготовленных каждым методом: ${\ displaystyle n_ {1} = 4, n_ {0} = 4}$ . Женщина знает, что в каждой категории 4 чашки, поэтому назначит по 4 чашки каждому методу. Таким образом, заранее фиксируются и суммы столбцов: ${\ displaystyle s_ {1} = 4, s_ {0} = 4}$ . Если она не может отличить, ${\ displaystyle A}$ а также ${\ displaystyle B}$ независимы, а число ${\ displaystyle x_ {11}}$ правильно классифицированных чашек с молоком сначала следует гипергеометрическому распределению ${\ displaystyle {\ mbox {Hypergeometric}} (8,4,4)}$ .

Тест Boschloo разработан для второго случая и, следовательно, является точным безусловным тестом. Примеры такого случая часто встречаются в медицинских исследованиях, где бинарная конечная точка сравнивается между двумя группами пациентов. Следуя нашим обозначениям, ${\ displaystyle A = 1}$ представляет первую группу, которая получает какое-либо интересующее лекарство. ${\ displaystyle A = 0}$ представляет вторую группу, получающую плацебо . ${\ displaystyle B}$ указывает на излечение пациента (1 = излечение, 0 = нет лечения). Тогда суммы строк равны размерам групп и обычно фиксируются заранее. Суммы столбцов - это общее количество вылеченных или продолжений болезни, а не фиксированные заранее.

Пример для третьего случая можно построить следующим образом: одновременно подбросьте две различимые монеты. ${\ displaystyle A}$ а также ${\ displaystyle B}$ и сделай это ${\ displaystyle n}$ раз. Если мы посчитаем количество результатов в нашей таблице 2x2 (1 = голова, 0 = хвост), мы не знаем заранее, как часто ${\ displaystyle A}$ показывает голову или хвост (суммы строк случайны), и мы не знаем, как часто монеты ${\ displaystyle B}$ показывает голову или хвост (случайные суммы столбцов).

Проверить гипотезу

Нулевая гипотеза о Boschloo в один хвост тест (высокие значения ${\ displaystyle x_ {1}}$ в пользу альтернативной гипотезы):

{\ displaystyle H_ {0}: p_ {1} \ leq p_ {0}}

Нулевая гипотеза одностороннего теста может быть сформулирована и в другом направлении (небольшие значения ${\ displaystyle x_ {1}}$ поддерживают альтернативную гипотезу):

{\ displaystyle H_ {0}: p_ {1} \ geq p_ {0}}

Нулевая гипотеза двустороннего теста:

{\ displaystyle H_ {0}: p_ {1} = p_ {0}}

Универсального определения двусторонней версии точного критерия Фишера не существует. ^[3] Поскольку тест Босхлоо основан на точном тесте Фишера, универсальной двусторонней версии теста Босхлоо также не существует. Далее мы имеем дело с односторонним тестом и ${\ displaystyle H_ {0}: p_ {1} \ leq p_ {0}}$ .

Идея Босхлоо

Обозначим желаемый уровень значимости через ${\ displaystyle \ alpha}$ . Точный тест Фишера является условным тестом и подходит для первого из вышеупомянутых случаев. Но если мы рассмотрим наблюдаемую сумму столбца ${\ displaystyle s_ {1}}$ как установлено заранее, точный критерий Фишера также может быть применен ко второму случаю. Таким образом, истинный размер теста зависит от мешающих параметров. ${\ displaystyle p_ {1}}$ а также ${\ displaystyle p_ {0}}$ . Можно показать, что максимальный размер ${\ displaystyle \ max \ limits _ {p_ {1} \ leq p_ {0}} {\ big (} {\ mbox {size}} (p_ {1}, p_ {0}) {\ big)}}$ принимается в равных пропорциях ${\ displaystyle p = p_ {1} = p_ {0}}$ ^[4] и по-прежнему контролируется ${\ displaystyle \ alpha}$ . ^[1] Однако Boschloo заявил, что для малых размеров выборки максимальный размер часто значительно меньше, чем ${\ displaystyle \ alpha}$ . Это приводит к нежелательной потере мощности .

Компания Boschloo предложила использовать точный тест Фишера с более высоким номинальным уровнем ${\ Displaystyle \ альфа ^ {*}> \ альфа}$ . Здесь, ${\ displaystyle \ alpha ^ {*}}$ следует выбирать как можно больше, чтобы максимальный размер по-прежнему контролировался ${\ displaystyle \ alpha}$ : ${\ displaystyle \ max \ limits _ {p \ in [0,1]} {\ big (} {\ mbox {size}} (p) {\ big)} \ leq \ alpha}$ . Этот метод был особенно выгоден во время публикации Boschloo, потому что ${\ displaystyle \ alpha ^ {*}}$ можно найти общие ценности ${\ displaystyle \ alpha, n_ {1}}$ а также ${\ displaystyle n_ {0}}$ . Это упростило выполнение теста Boschloo в вычислительном отношении.

Статистика теста

Правило принятия решений подхода Boschloo основано на точном тест Фишера. Эквивалентный способ сформулировать тест - использовать p-значение точного критерия Фишера в качестве статистики теста . Значение p Фишера вычисляется из гипергеометрического распределения (для простоты обозначений мы пишем ${\ displaystyle x_ {1}, x_ {0}}$ вместо ${\ displaystyle x_ {11}, x_ {01}}$ ):

{\ displaystyle p_ {F} = 1-F _ {{\ mbox {Hypergeometric}} (n, n_ {1}, x_ {1} + x_ {0})} (x_ {1} -1)}

Распределение ${\ displaystyle p_ {F}}$ определяется биномиальным распределением ${\ displaystyle x_ {1}}$ а также ${\ displaystyle x_ {0}}$ и зависит от неизвестного мешающего параметра ${\ displaystyle p}$ . Для заданного уровня значимости ${\ displaystyle \ alpha,}$ критическое значение из ${\ displaystyle p_ {F}}$ это максимальное значение ${\ displaystyle \ alpha ^ {*}}$ это удовлетворяет ${\ displaystyle \ max \ limits _ {p \ in [0,1]} P (p_ {F} \ leq \ alpha ^ {*}) \ leq \ alpha}$ . Критическое значение ${\ displaystyle \ alpha ^ {*}}$ соответствует номинальному уровню оригинального подхода Boschloo.

Модификация

Тест Boschloo имеет дело с неизвестным мешающим параметром ${\ displaystyle p}$ взяв максимум по всему пространству параметров ${\ displaystyle [0,1]}$ . Процедура Бергера и Бооса использует другой подход, максимизируя ${\ Displaystyle P (п_ {F} \ leq \ alpha ^ {*})}$ через ${\ Displaystyle (1- \ гамма)}$ доверительный интервал от ${\ displaystyle p = p_ {1} = p_ {0}}$ и добавление ${\ displaystyle \ gamma}$ . ^[5] ${\ displaystyle \ gamma}$ обычно представляет собой небольшое значение, например 0,001 или 0,0001. В результате получается модифицированный тест Бошлоо, который также является точным. ^[6]

Сравнение с другими точными тестами

Все точные тесты имеют указанный уровень значимости, но могут иметь разную мощность в разных ситуациях. Mehrotra et al. сравнил мощность некоторых точных тестов в разных ситуациях. ^[6] Результаты теста Boschloo резюмируются ниже.

Модифицированный тест Босхлоо

Тест Boschloo и модифицированный тест Boschloo имеют одинаковую мощность во всех рассмотренных сценариях. В некоторых случаях тест Boschloo имеет немного большую мощность, а в некоторых - наоборот.

Точный тест Фишера

Тест Boschloo по своей конструкции намного мощнее точного теста Фишера. Для небольших размеров выборки (например, 10 на группу) разница в мощности велика и составляет от 16 до 20 процентных пунктов в рассматриваемых случаях. Разница в мощности меньше для больших размеров выборки.

Точный ${\ displaystyle Z}$ -Пул тест

Этот тест основан на статистике теста

{\ displaystyle Z_ {P} (x_ {1}, x_ {0}) = {\ frac {{\ hat {p}} _ {1} - {\ hat {p}} _ {0}} {\ sqrt {{\ tilde {p}} (1 - {\ tilde {p}}) ({\ frac {1} {n_ {1}}} + {\ frac {1} {n_ {0}}})}} },}

где ${\ displaystyle {\ hat {p}} _ {i} = {\ frac {x_ {i}} {n_ {i}}}}$ - частота групповых событий и ${\ displaystyle {\ тильда {p}} = {\ frac {x_ {1} + x_ {0}} {n_ {1} + n_ {0}}}}$ - объединенная частота событий.

По мощности этот тест аналогичен тесту Boschloo в большинстве сценариев. В некоторых случаях ${\ displaystyle Z}$ - Объединенный тест имеет большую мощность, с различиями в основном от 1 до 5 процентных пунктов. В очень редких случаях разница достигает 9 процентных пунктов.

Этот тест также можно изменить с помощью процедуры Бергера и Бооса. Однако результирующий тест во всех сценариях имеет такую же мощность, что и неизмененный тест.

Точный ${\ displaystyle Z}$ -Не объединенный тест

Этот тест основан на статистике теста

{\ displaystyle Z_ {U} (x_ {1}, x_ {0}) = {\ frac {{\ hat {p}} _ {1} - {\ hat {p}} _ {0}} {\ sqrt {{\ frac {{\ hat {p}} _ {1} (1 - {\ hat {p}} _ {1})} {n_ {1}}} + {\ frac {{\ hat {p} } _ {0} (1 - {\ hat {p}} _ {0})} {n_ {0}}}}}},}

где ${\ displaystyle {\ hat {p}} _ {i} = {\ frac {x_ {i}} {n_ {i}}}}$ - частота групповых событий.

По мощности этот тест аналогичен тесту Boschloo во многих сценариях. В некоторых случаях ${\ displaystyle Z}$ -Не объединенный тест имеет большую мощность с разницей от 1 до 5 процентных пунктов. Однако в некоторых других случаях тест Boschloo имеет заметно большую мощность с разницей до 68 процентных пунктов.

Этот тест также можно изменить с помощью процедуры Бергера и Бооса. Результирующий тест в большинстве сценариев имеет мощность, аналогичную немодифицированному. В некоторых случаях модификация значительно улучшает мощность, но общее сравнение мощности с тестом Boschloo остается неизменным.

Программное обеспечение