Последовательный тест отношения вероятностей

Тест последовательного отношения вероятностей (SPRT) - это особый последовательный тест гипотез , разработанный Абрахамом Вальдом ^[1] и позже доказанный как оптимальный Уолдом и Якобом Вулфовицем . ^[2] Результат Неймана и Пирсона 1933 г. вдохновил Уолда переформулировать его как задачу последовательного анализа. Лемма Неймана-Пирсона, напротив, предлагает практическое правило, когда собираются все данные (и известно их отношение правдоподобия).

Первоначально разработанный для использования в исследованиях по контролю качества в сфере производства, SPRT был разработан для использования в компьютеризированном тестировании испытуемых-людей в качестве критерия исключения. ^[3]^[4]^[5]

Теория [ править ]

Как и в классической проверке гипотез , ЭПТС начинается с парой гипотез, скажем , и для нулевой гипотезы и альтернативной гипотезы соответственно. Их необходимо указать следующим образом: ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {1}}$

{\ displaystyle H_ {0}: p = p_ {0}}

{\ displaystyle H_ {1}: p = p_ {1}}

Следующий шагом является вычислением накопленной суммы логарифмически отношений правдоподобия , как новые данные прибывают: с , то для = 1,2, ..., ${\ displaystyle \ log \ Lambda _ {i}}$ ${\ displaystyle S_ {0} = 0}$ ${\ displaystyle i}$

{\ Displaystyle S_ {я} = S_ {я-1} + \ log \ Lambda _ {я}}

Останавливая правило простая схема пороговая:

${\ displaystyle a <S_ {i} <b}$ : продолжить мониторинг ( критическое неравенство )
$S_{i}\geq b$ : Принимать $H_{1}$
$S_{i}\leq a$ : Принимать $H_{0}$

где и ( ) зависят от желаемых ошибок типа I и типа II , и . Их можно выбрать следующим образом: $a$ $b$ $a<0<b<\infty$ $\alpha$ $\beta$

$a\approx \log {\frac {\beta }{1-\alpha }}$ а также $b\approx \log {\frac {1-\beta }{\alpha }}$

Другими словами, и должно быть решено заранее , с тем чтобы установить пороги соответственно. Числовое значение будет зависеть от приложения. Причина того, что это только приближение, заключается в том, что в дискретном случае сигнал может пересекать порог между выборками. Таким образом, в зависимости от штрафа за ошибку и частоты дискретизации можно установить более агрессивные пороги. В непрерывном случае точные оценки верны. $\alpha$ $\beta$

Пример [ править ]

Хрестоматийный пример является параметром оценки в виде функции распределения вероятностей . Рассмотрим экспоненциальное распределение :

f_{\theta }(x)=\theta ^{-1}e^{-{\frac {x}{\theta }}},\qquad x,\theta >0

Гипотезы

{\begin{cases}H_{0}:\theta =\theta _{0}\\H_{1}:\theta =\theta _{1}\end{cases}}\qquad \theta _{1}>\theta _{0}.

Тогда функция логарифма правдоподобия (LLF) для одной выборки равна

{\begin{aligned}\log \Lambda (x)&=\log \left({\frac {\theta _{1}^{-1}e^{-{\frac {x}{\theta _{1}}}}}{\theta _{0}^{-1}e^{-{\frac {x}{\theta _{0}}}}}}\right)\\&=\log \left({\frac {\theta _{0}}{\theta _{1}}}e^{{\frac {x}{\theta _{0}}}-{\frac {x}{\theta _{1}}}}\right)\\&=\log \left({\frac {\theta _{0}}{\theta _{1}}}\right)+\log \left(e^{{\frac {x}{\theta _{0}}}-{\frac {x}{\theta _{1}}}}\right)\\&=-\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {x}{\theta _{0}}}-{\frac {x}{\theta _{1}}}\right)\\&=-\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)x\end{aligned}}

Кумулятивная сумма LLF для всех $x$ равна

S_{n}=\sum _{i=1}^{n}\log \Lambda (x_{i})=-n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)\sum _{i=1}^{n}x_{i}

Соответственно, правило остановки:

a<-n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)+\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)\sum _{i=1}^{n}x_{i}<b

После перестановки мы наконец находим

a+n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)<\left({\frac {\theta _{1}-\theta _{0}}{\theta _{0}\theta _{1}}}\right)\sum _{i=1}^{n}x_{i}<b+n\log \left({\frac {\theta _{1}}{\theta _{0}}}\right)

Пороги - это просто две параллельные линии с наклоном . Отбор проб следует прекратить, когда сумма отсчетов выйдет за пределы области продолжения отбора проб . $\log(\theta _{1}/\theta _{0})$

Приложения [ править ]

Производство [ править ]

Тест проводится на метрике пропорции и проверяет, что переменная p равна одной из двух желаемых точек, p ₁ или p ₂ . Область между этими двумя точками известна как область безразличия (IR). Например, предположим, что вы проводите исследование контроля качества на заводской партии виджетов. Руководство хотело бы, чтобы на лоте было 3% дефектных виджетов или меньше, но 1% или меньше - это идеальный лот, который прошел бы безупречно. В этом примере p ₁ = 0,01 и p ₂ = 0,03.и область между ними - IR, потому что руководство считает эти лоты маргинальными и не возражает против их классификации в любом случае. Виджеты будут отбираться по одной из партии (последовательный анализ) до тех пор, пока тест не определит с допустимым уровнем ошибки, что партия идеальна или ее следует отклонить.

Тестирование испытуемых [ править ]

SPRT в настоящее время является преобладающим методом классификации экзаменуемых в компьютерном классификационном тесте переменной длины (CCT) ^{[ необходима ссылка ]} . Два параметра - p ₁ и p ₂ - задаются путем определения оценки (порога) для испытуемых по метрике правильной пропорции и выбора точки выше и ниже этой оценки. Например, предположим, что оценка для теста установлена на 70%. Мы могли бы выбрать p ₁ = 0,65 и p ₂ = 0,75.. Затем тест оценивает вероятность того, что истинная оценка экзаменуемого по этой метрике равна одному из этих двух баллов. Если у экзаменуемого установлено 75%, они сдают экзамен, а если у экзаменуемого 65%, они не сдаются.

Эти точки не указаны полностью произвольно. Оценка всегда должна устанавливаться с помощью юридически оправданного метода, такого как модифицированная процедура Angoff . Опять же, область безразличия представляет собой область оценок, с которыми разработчик тестов согласен идти в любом случае (прошел или не прошел). Верхний параметр p ₂ концептуально является наивысшим уровнем, который разработчик тестов готов принять в качестве отказа (потому что все, кто ниже него, имеют хорошие шансы на провал), а нижний параметр p ₁ - это самый низкий уровень, на котором разработчик тестов согласен. принять на проход (потому что у всех, кто находится выше него, есть приличные шансы пройти). Хотя это определение может показаться относительно небольшим бременем, рассмотритеВажный случай теста на лицензирование для врачей: в какой момент мы должны считать кого-то на одном из этих двух уровней?

Хотя SPRT был впервые применен к тестированию во времена классической теории тестирования , как это было применено в предыдущем абзаце, Reckase (1983) предложил использовать теорию ответа элемента для определения параметров p ₁ и p ₂ . Оценка порезов и область безразличия определяются в метрике скрытой способности (тета) и переводятся в метрику пропорции для вычисления. С тех пор в исследованиях CCT эта методология применялась по нескольким причинам:

Банки крупных предметов обычно калибруются с помощью IRT.
Это позволяет более точно указать параметры.
Используя функцию ответа элемента для каждого элемента, параметры легко могут различаться между элементами.

Обнаружение аномальных медицинских результатов [ править ]

Spiegelhalter et al. ^[6] показали, что SPRT может использоваться для контроля работы врачей, хирургов и других практикующих врачей таким образом, чтобы своевременно предупреждать о потенциально аномальных результатах. В своей статье 2003 года они показали, как это могло помочь идентифицировать Гарольда Шипмана как убийцу задолго до того, как его действительно опознали.

Расширения [ править ]

MaxSPRT [ править ]

Совсем недавно, в 2011 году, было представлено расширение метода SPRT под названием Максимизированный последовательный тест отношения вероятности (MaxSPRT) ^[7] . Отличительной особенностью MaxSPRT является учет составной односторонней альтернативной гипотезы и введение верхней границы остановки. Этот метод использовался в нескольких медицинских исследованиях. ^[8]

См. Также [ править ]

CUSUM
Компьютеризированный классификационный тест
Тест Вальда
Тест отношения правдоподобия

Ссылки [ править ]

Перейти ↑ Wald, Abraham (июнь 1945). «Последовательная проверка статистических гипотез» . Анналы математической статистики . 16 (2): 117–186. DOI : 10.1214 / АОМ / 1177731118 . JSTOR 2235829 .
^ Wald, A .; Вулфовиц, Дж. (1948). «Оптимальный характер теста последовательного отношения вероятностей» . Летопись математической статистики . 19 (3): 326–339. DOI : 10.1214 / АОМ / 1177730197 . JSTOR 2235638 .
^ Фергюсон, Ричард Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения . Неопубликованная докторская диссертация, Питтсбургский университет.
^ Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
^ Eggen, TJHM (1999). «Выбор элемента в адаптивном тестировании с помощью теста последовательного отношения вероятностей». Прикладное психологическое измерение . 23 (3): 249–261. DOI : 10.1177 / 01466219922031365 .
^ Последовательные тесты отношения вероятностей с поправкой на риск: применение в Бристоле, Шипмане и кардиохирургии взрослых Spiegelhalter, D. et al. Int J Qual Health Care vol 15 7-13 (2003)
^ Kulldorff, Мартин; Дэвис, Роберт Л .; Кольчак †, Маргаретт; Льюис, Эдвин; Лиу, Трейси; Платт, Ричард (2011). «Максимальный последовательный тест отношения вероятности для надзора за безопасностью лекарств и вакцин» . Последовательный анализ . 30 : 58–78. DOI : 10.1080 / 07474946.2011.539924 .
^ Совторого по последний абзацы раздела 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Тест максимального последовательного отношения вероятностей для надзора за безопасностью лекарств и вакцин Kulldorff, M. et al. Sequential Analysis: Design Методы и приложения том 30, выпуск 1

Дальнейшее чтение [ править ]

Гош, Бхаскар Кумар (1970). Последовательная проверка статистических гипотез . Читает: Эддисон-Уэсли . CS1 maint: discouraged parameter (link)
Хольгер Вилкер: Sequential-Statistik in der Praxis , Совет директоров, Norderstedt 2012, ISBN 978-3848232529 .

Внешние ссылки [ править ]

Тест отношения последовательной вероятности Вальда для R , Стефан Боттин
Последовательный тест отношения вероятностей Вальда для Python, автор: Zhenning Yu.

[1] Перейти ↑ Wald, Abraham (июнь 1945). «Последовательная проверка статистических гипотез» . Анналы математической статистики . 16 (2): 117–186. DOI : 10.1214 / АОМ / 1177731118 . JSTOR 2235829 .

[2] Wald, A .; Вулфовиц, Дж. (1948). «Оптимальный характер теста последовательного отношения вероятностей» . Летопись математической статистики . 19 (3): 326–339. DOI : 10.1214 / АОМ / 1177730197 . JSTOR 2235638 .

[3] Фергюсон, Ричард Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения . Неопубликованная докторская диссертация, Питтсбургский университет.

[4] Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.

[Eggen1999-5] Eggen, TJHM (1999). «Выбор элемента в адаптивном тестировании с помощью теста последовательного отношения вероятностей». Прикладное психологическое измерение . 23 (3): 249–261. DOI : 10.1177 / 01466219922031365 .

[6] Последовательные тесты отношения вероятностей с поправкой на риск: применение в Бристоле, Шипмане и кардиохирургии взрослых Spiegelhalter, D. et al. Int J Qual Health Care vol 15 7-13 (2003)

[7] Kulldorff, Мартин; Дэвис, Роберт Л .; Кольчак †, Маргаретт; Льюис, Эдвин; Лиу, Трейси; Платт, Ричард (2011). «Максимальный последовательный тест отношения вероятности для надзора за безопасностью лекарств и вакцин» . Последовательный анализ . 30 : 58–78. DOI : 10.1080 / 07474946.2011.539924 .

[8] Совторого по последний абзацы раздела 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Тест максимального последовательного отношения вероятностей для надзора за безопасностью лекарств и вакцин Kulldorff, M. et al. Sequential Analysis: Design Методы и приложения том 30, выпуск 1

[1]