Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Тест последовательного отношения вероятностей (SPRT) - это особый последовательный тест гипотез , разработанный Абрахамом Вальдом [1] и позже доказанный как оптимальный Уолдом и Якобом Вулфовицем . [2] Результат Неймана и Пирсона 1933 г. вдохновил Уолда переформулировать его как задачу последовательного анализа. Лемма Неймана-Пирсона, напротив, предлагает практическое правило, когда собираются все данные (и известно их отношение правдоподобия).

Первоначально разработанный для использования в исследованиях по контролю качества в сфере производства, SPRT был разработан для использования в компьютеризированном тестировании испытуемых-людей в качестве критерия исключения. [3] [4] [5]

Теория [ править ]

Как и в классической проверке гипотез , ЭПТС начинается с парой гипотез, скажем , и для нулевой гипотезы и альтернативной гипотезы соответственно. Их необходимо указать следующим образом:

Следующий шагом является вычислением накопленной суммы логарифмически отношений правдоподобия , как новые данные прибывают: с , то для = 1,2, ...,

Останавливая правило простая схема пороговая:

  • : продолжить мониторинг ( критическое неравенство )
  • : Принимать
  • : Принимать

где и ( ) зависят от желаемых ошибок типа I и типа II , и . Их можно выбрать следующим образом:

а также

Другими словами, и должно быть решено заранее , с тем чтобы установить пороги соответственно. Числовое значение будет зависеть от приложения. Причина того, что это только приближение, заключается в том, что в дискретном случае сигнал может пересекать порог между выборками. Таким образом, в зависимости от штрафа за ошибку и частоты дискретизации можно установить более агрессивные пороги. В непрерывном случае точные оценки верны.

Пример [ править ]

Хрестоматийный пример является параметром оценки в виде функции распределения вероятностей . Рассмотрим экспоненциальное распределение :

Гипотезы

Тогда функция логарифма правдоподобия (LLF) для одной выборки равна

Кумулятивная сумма LLF для всех x равна

Соответственно, правило остановки:

После перестановки мы наконец находим

Пороги - это просто две параллельные линии с наклоном . Отбор проб следует прекратить, когда сумма отсчетов выйдет за пределы области продолжения отбора проб .

Приложения [ править ]

Производство [ править ]

Тест проводится на метрике пропорции и проверяет, что переменная p равна одной из двух желаемых точек, p 1 или p 2 . Область между этими двумя точками известна как область безразличия (IR). Например, предположим, что вы проводите исследование контроля качества на заводской партии виджетов. Руководство хотело бы, чтобы на лоте было 3% дефектных виджетов или меньше, но 1% или меньше - это идеальный лот, который прошел бы безупречно. В этом примере p 1 = 0,01 и p 2 = 0,03.и область между ними - IR, потому что руководство считает эти лоты маргинальными и не возражает против их классификации в любом случае. Виджеты будут отбираться по одной из партии (последовательный анализ) до тех пор, пока тест не определит с допустимым уровнем ошибки, что партия идеальна или ее следует отклонить.

Тестирование испытуемых [ править ]

SPRT в настоящее время является преобладающим методом классификации экзаменуемых в компьютерном классификационном тесте переменной длины (CCT) [ необходима ссылка ] . Два параметра - p 1 и p 2 - задаются путем определения оценки (порога) для испытуемых по метрике правильной пропорции и выбора точки выше и ниже этой оценки. Например, предположим, что оценка для теста установлена ​​на 70%. Мы могли бы выбрать p 1 = 0,65 и p 2 = 0,75.. Затем тест оценивает вероятность того, что истинная оценка экзаменуемого по этой метрике равна одному из этих двух баллов. Если у экзаменуемого установлено 75%, они сдают экзамен, а если у экзаменуемого 65%, они не сдаются.

Эти точки не указаны полностью произвольно. Оценка всегда должна устанавливаться с помощью юридически оправданного метода, такого как модифицированная процедура Angoff . Опять же, область безразличия представляет собой область оценок, с которыми разработчик тестов согласен идти в любом случае (прошел или не прошел). Верхний параметр p 2 концептуально является наивысшим уровнем, который разработчик тестов готов принять в качестве отказа (потому что все, кто ниже него, имеют хорошие шансы на провал), а нижний параметр p 1 - это самый низкий уровень, на котором разработчик тестов согласен. принять на проход (потому что у всех, кто находится выше него, есть приличные шансы пройти). Хотя это определение может показаться относительно небольшим бременем, рассмотритеВажный случай теста на лицензирование для врачей: в какой момент мы должны считать кого-то на одном из этих двух уровней?

Хотя SPRT был впервые применен к тестированию во времена классической теории тестирования , как это было применено в предыдущем абзаце, Reckase (1983) предложил использовать теорию ответа элемента для определения параметров p 1 и p 2 . Оценка порезов и область безразличия определяются в метрике скрытой способности (тета) и переводятся в метрику пропорции для вычисления. С тех пор в исследованиях CCT эта методология применялась по нескольким причинам:

  1. Банки крупных предметов обычно калибруются с помощью IRT.
  2. Это позволяет более точно указать параметры.
  3. Используя функцию ответа элемента для каждого элемента, параметры легко могут различаться между элементами.

Обнаружение аномальных медицинских результатов [ править ]

Spiegelhalter et al. [6] показали, что SPRT может использоваться для контроля работы врачей, хирургов и других практикующих врачей таким образом, чтобы своевременно предупреждать о потенциально аномальных результатах. В своей статье 2003 года они показали, как это могло помочь идентифицировать Гарольда Шипмана как убийцу задолго до того, как его действительно опознали.

Расширения [ править ]

MaxSPRT [ править ]

Совсем недавно, в 2011 году, было представлено расширение метода SPRT под названием Максимизированный последовательный тест отношения вероятности (MaxSPRT) [7] . Отличительной особенностью MaxSPRT является учет составной односторонней альтернативной гипотезы и введение верхней границы остановки. Этот метод использовался в нескольких медицинских исследованиях. [8]

См. Также [ править ]

  • CUSUM
  • Компьютеризированный классификационный тест
  • Тест Вальда
  • Тест отношения правдоподобия

Ссылки [ править ]

  1. Перейти ↑ Wald, Abraham (июнь 1945). «Последовательная проверка статистических гипотез» . Анналы математической статистики . 16 (2): 117–186. DOI : 10.1214 / АОМ / 1177731118 . JSTOR  2235829 .
  2. ^ Wald, A .; Вулфовиц, Дж. (1948). «Оптимальный характер теста последовательного отношения вероятностей» . Летопись математической статистики . 19 (3): 326–339. DOI : 10.1214 / АОМ / 1177730197 . JSTOR 2235638 . 
  3. ^ Фергюсон, Ричард Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения . Неопубликованная докторская диссертация, Питтсбургский университет.
  4. ^ Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
  5. ^ Eggen, TJHM (1999). «Выбор элемента в адаптивном тестировании с помощью теста последовательного отношения вероятностей». Прикладное психологическое измерение . 23 (3): 249–261. DOI : 10.1177 / 01466219922031365 .
  6. ^ Последовательные тесты отношения вероятностей с поправкой на риск: применение в Бристоле, Шипмане и кардиохирургии взрослых Spiegelhalter, D. et al. Int J Qual Health Care vol 15 7-13 (2003)
  7. ^ Kulldorff, Мартин; Дэвис, Роберт Л .; Кольчак †, Маргаретт; Льюис, Эдвин; Лиу, Трейси; Платт, Ричард (2011). «Максимальный последовательный тест отношения вероятности для надзора за безопасностью лекарств и вакцин» . Последовательный анализ . 30 : 58–78. DOI : 10.1080 / 07474946.2011.539924 .
  8. ^ Совторого по последний абзацы раздела 1: http://www.tandfonline.com/doi/full/10.1080/07474946.2011.539924 Тест максимального последовательного отношения вероятностей для надзора за безопасностью лекарств и вакцин Kulldorff, M. et al. Sequential Analysis: Design Методы и приложения том 30, выпуск 1

Дальнейшее чтение [ править ]

  • Гош, Бхаскар Кумар (1970). Последовательная проверка статистических гипотез . Читает: Эддисон-Уэсли . CS1 maint: discouraged parameter (link)
  • Хольгер Вилкер: Sequential-Statistik in der Praxis , Совет директоров, Norderstedt 2012, ISBN 978-3848232529 . 

Внешние ссылки [ править ]

  • Тест отношения последовательной вероятности Вальда для R , Стефан Боттин
  • Последовательный тест отношения вероятностей Вальда для Python, автор: Zhenning Yu.