Тест последовательного отношения вероятностей (SPRT) - это особый последовательный тест гипотез , разработанный Абрахамом Вальдом [1] и позже доказанный как оптимальный Уолдом и Якобом Вулфовицем . [2] Результат Неймана и Пирсона 1933 г. вдохновил Уолда переформулировать его как задачу последовательного анализа. Лемма Неймана-Пирсона, напротив, предлагает практическое правило, когда собираются все данные (и известно их отношение правдоподобия).
Первоначально разработанный для использования в исследованиях по контролю качества в сфере производства, SPRT был разработан для использования в компьютеризированном тестировании испытуемых-людей в качестве критерия исключения. [3] [4] [5]
Теория [ править ]
Как и в классической проверке гипотез , ЭПТС начинается с парой гипотез, скажем , и для нулевой гипотезы и альтернативной гипотезы соответственно. Их необходимо указать следующим образом:
Следующий шагом является вычислением накопленной суммы логарифмически отношений правдоподобия , как новые данные прибывают: с , то для = 1,2, ...,
Останавливая правило простая схема пороговая:
- : продолжить мониторинг ( критическое неравенство )
- : Принимать
- : Принимать
где и ( ) зависят от желаемых ошибок типа I и типа II , и . Их можно выбрать следующим образом:
а также
Другими словами, и должно быть решено заранее , с тем чтобы установить пороги соответственно. Числовое значение будет зависеть от приложения. Причина того, что это только приближение, заключается в том, что в дискретном случае сигнал может пересекать порог между выборками. Таким образом, в зависимости от штрафа за ошибку и частоты дискретизации можно установить более агрессивные пороги. В непрерывном случае точные оценки верны.
Пример [ править ]
Хрестоматийный пример является параметром оценки в виде функции распределения вероятностей . Рассмотрим экспоненциальное распределение :
Гипотезы
Тогда функция логарифма правдоподобия (LLF) для одной выборки равна
Кумулятивная сумма LLF для всех x равна
Соответственно, правило остановки:
После перестановки мы наконец находим
Пороги - это просто две параллельные линии с наклоном . Отбор проб следует прекратить, когда сумма отсчетов выйдет за пределы области продолжения отбора проб .
Приложения [ править ]
Производство [ править ]
Тест проводится на метрике пропорции и проверяет, что переменная p равна одной из двух желаемых точек, p 1 или p 2 . Область между этими двумя точками известна как область безразличия (IR). Например, предположим, что вы проводите исследование контроля качества на заводской партии виджетов. Руководство хотело бы, чтобы на лоте было 3% дефектных виджетов или меньше, но 1% или меньше - это идеальный лот, который прошел бы безупречно. В этом примере p 1 = 0,01 и p 2 = 0,03.и область между ними - IR, потому что руководство считает эти лоты маргинальными и не возражает против их классификации в любом случае. Виджеты будут отбираться по одной из партии (последовательный анализ) до тех пор, пока тест не определит с допустимым уровнем ошибки, что партия идеальна или ее следует отклонить.
Тестирование испытуемых [ править ]
SPRT в настоящее время является преобладающим методом классификации экзаменуемых в компьютерном классификационном тесте переменной длины (CCT) [ необходима ссылка ] . Два параметра - p 1 и p 2 - задаются путем определения оценки (порога) для испытуемых по метрике правильной пропорции и выбора точки выше и ниже этой оценки. Например, предположим, что оценка для теста установлена на 70%. Мы могли бы выбрать p 1 = 0,65 и p 2 = 0,75.. Затем тест оценивает вероятность того, что истинная оценка экзаменуемого по этой метрике равна одному из этих двух баллов. Если у экзаменуемого установлено 75%, они сдают экзамен, а если у экзаменуемого 65%, они не сдаются.
Эти точки не указаны полностью произвольно. Оценка всегда должна устанавливаться с помощью юридически оправданного метода, такого как модифицированная процедура Angoff . Опять же, область безразличия представляет собой область оценок, с которыми разработчик тестов согласен идти в любом случае (прошел или не прошел). Верхний параметр p 2 концептуально является наивысшим уровнем, который разработчик тестов готов принять в качестве отказа (потому что все, кто ниже него, имеют хорошие шансы на провал), а нижний параметр p 1 - это самый низкий уровень, на котором разработчик тестов согласен. принять на проход (потому что у всех, кто находится выше него, есть приличные шансы пройти). Хотя это определение может показаться относительно небольшим бременем, рассмотритеВажный случай теста на лицензирование для врачей: в какой момент мы должны считать кого-то на одном из этих двух уровней?
Хотя SPRT был впервые применен к тестированию во времена классической теории тестирования , как это было применено в предыдущем абзаце, Reckase (1983) предложил использовать теорию ответа элемента для определения параметров p 1 и p 2 . Оценка порезов и область безразличия определяются в метрике скрытой способности (тета) и переводятся в метрику пропорции для вычисления. С тех пор в исследованиях CCT эта методология применялась по нескольким причинам:
- Банки крупных предметов обычно калибруются с помощью IRT.
- Это позволяет более точно указать параметры.
- Используя функцию ответа элемента для каждого элемента, параметры легко могут различаться между элементами.
Обнаружение аномальных медицинских результатов [ править ]
Spiegelhalter et al. [6] показали, что SPRT может использоваться для контроля работы врачей, хирургов и других практикующих врачей таким образом, чтобы своевременно предупреждать о потенциально аномальных результатах. В своей статье 2003 года они показали, как это могло помочь идентифицировать Гарольда Шипмана как убийцу задолго до того, как его действительно опознали.
Расширения [ править ]
MaxSPRT [ править ]
Совсем недавно, в 2011 году, было представлено расширение метода SPRT под названием Максимизированный последовательный тест отношения вероятности (MaxSPRT) [7] . Отличительной особенностью MaxSPRT является учет составной односторонней альтернативной гипотезы и введение верхней границы остановки. Этот метод использовался в нескольких медицинских исследованиях. [8]
См. Также [ править ]
- CUSUM
- Компьютеризированный классификационный тест
- Тест Вальда
- Тест отношения правдоподобия
Ссылки [ править ]
- Перейти ↑ Wald, Abraham (июнь 1945). «Последовательная проверка статистических гипотез» . Анналы математической статистики . 16 (2): 117–186. DOI : 10.1214 / АОМ / 1177731118 . JSTOR 2235829 .
- ^ Wald, A .; Вулфовиц, Дж. (1948). «Оптимальный характер теста последовательного отношения вероятностей» . Летопись математической статистики . 19 (3): 326–339. DOI : 10.1214 / АОМ / 1177730197 . JSTOR 2235638 .
- ^ Фергюсон, Ричард Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения . Неопубликованная докторская диссертация, Питтсбургский университет.
- ^ Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
- ^ Eggen, TJHM (1999). «Выбор элемента в адаптивном тестировании с помощью теста последовательного отношения вероятностей». Прикладное психологическое измерение . 23 (3): 249–261. DOI : 10.1177 / 01466219922031365 .
- ^ Последовательные тесты отношения вероятностей с поправкой на риск: применение в Бристоле, Шипмане и кардиохирургии взрослых Spiegelhalter, D. et al. Int J Qual Health Care vol 15 7-13 (2003)
- ^ Kulldorff, Мартин; Дэвис, Роберт Л .; Кольчак †, Маргаретт; Льюис, Эдвин; Лиу, Трейси; Платт, Ричард (2011). «Максимальный последовательный тест отношения вероятности для надзора за безопасностью лекарств и вакцин» . Последовательный анализ . 30 : 58–78. DOI : 10.1080 / 07474946.2011.539924 .
- ^ Совторого по последний абзацы раздела 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Тест максимального последовательного отношения вероятностей для надзора за безопасностью лекарств и вакцин Kulldorff, M. et al. Sequential Analysis: Design Методы и приложения том 30, выпуск 1
Дальнейшее чтение [ править ]
- Гош, Бхаскар Кумар (1970). Последовательная проверка статистических гипотез . Читает: Эддисон-Уэсли . CS1 maint: discouraged parameter (link)
- Хольгер Вилкер: Sequential-Statistik in der Praxis , Совет директоров, Norderstedt 2012, ISBN 978-3848232529 .
Внешние ссылки [ править ]
- Тест отношения последовательной вероятности Вальда для R , Стефан Боттин
- Последовательный тест отношения вероятностей Вальда для Python, автор: Zhenning Yu.