Чувствительность и специфичность

Чувствительность и специфичность - это статистические показатели эффективности теста двоичной классификации , которые широко используются:

Чувствительность (показатель истинно положительных результатов) измеряет долю правильно идентифицированных положительных результатов (т. Е. Долю тех, у кого есть какое-либо заболевание (затронуто), которые правильно идентифицированы как имеющие заболевание).
Специфичность (истинно отрицательный показатель) измеряет долю правильно идентифицированных отрицательных результатов (т. Е. Долю тех, у кого нет заболевания (незатронутых), которые правильно идентифицированы как не страдающие этим заболеванием).

Термины «истинно положительный», «ложноположительный», «истинно отрицательный» и «ложноотрицательный» относятся к результату теста и правильности классификации. Например, если заболевание является заболеванием, «истинно положительный результат» означает «правильно диагностирован как заболевание», «ложный положительный результат» означает «неправильно диагностирован как заболевание», «истинно отрицательный» означает «правильно диагностирован как не заболевание» и «ложно. отрицательный »означает« неправильно диагностирован как здоровый ». Таким образом, если чувствительность теста составляет 97%, а его специфичность - 92%, уровень ложноотрицательных результатов составляет 3%, а уровень ложноположительных результатов - 8%. В диагностическом тесте чувствительность - это мера того, насколько хорошо тест может определять истинные положительные результаты. Чувствительность также может называться отзывом , частотой попаданий или истинно положительной частотой. Это процент или пропорция истинных положительных результатов от всех образцов, удовлетворяющих условию (истинные положительные и ложно отрицательные). Чувствительность теста может помочь показать, насколько хорошо он может классифицировать образцы с этим заболеванием.

В тесте специфичность - это мера того, насколько хорошо тест может определять истинно отрицательные результаты. Специфичность также называется избирательностью или истинно отрицательным показателем, и это процент или пропорция истинных отрицательных результатов из всех образцов, которые не соответствуют условию (истинные отрицательные и ложноположительные).

В «хорошем» тесте (который пытается точно идентифицировать людей с этим заболеванием) количество ложных срабатываний должно быть очень низким. То есть люди, которые определены как страдающие заболеванием, с высокой вероятностью действительно имеют это заболевание. Это связано с тем, что люди, которые определены как имеющие заболевание (но на самом деле не имеют его), могут быть подвергнуты: дополнительному тестированию (которое может быть дорогостоящим); стигма (например, положительный результат теста на ВИЧ); беспокойство (например, я болею ... я могу умереть).

Для всех тестов, как диагностических, так и скрининговых , существует компромисс между чувствительностью и специфичностью. Более высокая чувствительность будет означать более низкую специфичность и наоборот.

Чувствительность и специфичность

Термины «чувствительность» и «специфичность» были введены американским биостатистом Джейкобом Йерушалми в 1947 году ^[1].

Терминология и выводы
из матрицы неточностей
положительное состояние (P) количество реальных положительных случаев в данных условие отрицательное (N) количество реальных отрицательных случаев в данных истинно положительный (TP) экв. с хитом истинно отрицательный (TN) экв. с правильным отклонением ложное срабатывание (FP) экв. с ложной тревогой , ошибкой типа I или недооценкой ложноотрицательный (FN) экв. с промахом, ошибкой типа II или переоценкой чувствительность , отзыв , частота совпадений или истинно положительный показатель (TPR) ${\ displaystyle \ mathrm {TPR} = {\ frac {\ mathrm {TP}} {\ mathrm {P}}} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN} }} = 1- \ mathrm {FNR}}$ специфичность , селективность или истинно отрицательный показатель (TNR) ${\ displaystyle \ mathrm {TNR} = {\ frac {\ mathrm {TN}} {\ mathrm {N}}} = {\ frac {\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FP} }} = 1- \ mathrm {FPR}}$ точность или положительная прогностическая ценность (PPV) ${\ Displaystyle \ mathrm {PPV} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FP}}} = 1- \ mathrm {FDR}}$ отрицательная прогностическая ценность (NPV) ${\ displaystyle \ mathrm {NPV} = {\ frac {\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FN}}} = 1- \ mathrm {FOR}}$ мисс скорость или ложных отрицательный (РБН) ${\ displaystyle \ mathrm {FNR} = {\ frac {\ mathrm {FN}} {\ mathrm {P}}} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TP} }} = 1- \ mathrm {TPR}}$ частота выпадений или ложных срабатываний (FPR) ${\ displaystyle \ mathrm {FPR} = {\ frac {\ mathrm {FP}} {\ mathrm {N}}} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TN} }} = 1- \ mathrm {TNR}}$ коэффициент ложного обнаружения (FDR) ${\ displaystyle \ mathrm {FDR} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TP}}} = 1- \ mathrm {PPV}}$ коэффициент ложных пропусков (FOR) ${\ displaystyle \ mathrm {FOR} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TN}}} = 1- \ mathrm {NPV}}$ порог распространенности (ПП) ${\ displaystyle \ mathrm {PT} = {\ frac {{\ sqrt {\ mathrm {TPR} (- \ mathrm {TNR} +1)}} + \ mathrm {TNR} -1} {(\ mathrm {TPR} + \ mathrm {TNR} -1)}}}$ оценка угрозы (TS) или индекс критического успеха (CSI) ${\ displaystyle \ mathrm {TS} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN} + \ mathrm {FP}}}}$ точность (ACC) ${\ displaystyle \ mathrm {ACC} = {\ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {P} + \ mathrm {N}}} = {\ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {TP} + \ mathrm {TN} + \ mathrm {FP} + \ mathrm {FN}}}}$ сбалансированная точность (BA) ${\ displaystyle \ mathrm {BA} = {\ frac {TPR + TNR} {2}}}$ Оценка F1 является средним гармоническим из точности и чувствительности : ${\ displaystyle \ mathrm {F} _ {1} = 2 \ times {\ frac {\ mathrm {PPV} \ times \ mathrm {TPR}} {\ mathrm {PPV} + \ mathrm {TPR}}} = {\ гидроразрыв {2 \ mathrm {TP}} {2 \ mathrm {TP} + \ mathrm {FP} + \ mathrm {FN}}}}$ Коэффициент корреляции Мэтьюза (MCC) ${\ displaystyle \ mathrm {MCC} = {\ frac {\ mathrm {TP} \ times \ mathrm {TN} - \ mathrm {FP} \ times \ mathrm {FN}} {\ sqrt {(\ mathrm {TP} + \ mathrm {FP}) (\ mathrm {TP} + \ mathrm {FN}) (\ mathrm {TN} + \ mathrm {FP}) (\ mathrm {TN} + \ mathrm {FN})}}}}$ Индекс Фаулкса – Маллоуса (FM) ${\ displaystyle \ mathrm {FM} = {\ sqrt {{\ frac {TP} {TP + FP}} \ times {\ frac {TP} {TP + FN}}}} = {\ sqrt {PPV \ times TPR }}}$ информированность или информированность букмекеров (BM) ${\ Displaystyle \ mathrm {BM} = \ mathrm {TPR} + \ mathrm {TNR} -1}$ маркировка (МК) или дельтаП (Δp) ${\ Displaystyle \ mathrm {MK} = \ mathrm {PPV} + \ mathrm {NPV} -1}$ Источники: Fawcett (2006), ^[2] Piryonesi and El-Diraby (2020), ^[3] Powers (2011), ^[4] Ting (2011), ^[5] CAWCR, ^[6] D. Chicco & G. Jurman (2020, 2021) , ^[7]^[8] Тарват (2018). ^[9]

Заявка на отборочное исследование

Представьте себе исследование, оценивающее тест, который проверяет людей на наличие болезни. Каждый человек, проходящий тест, болеет или не болеет. Результат теста может быть положительным (классифицируя человека как больного) или отрицательным (классифицируя человека как не болеющего). Результаты тестирования по каждому предмету могут совпадать, а могут и не совпадать с фактическим статусом испытуемого. В этой обстановке:

Истинно положительный результат: больные люди правильно определены как больные
Ложноположительный результат: здоровые люди ошибочно идентифицированы как больные
Истинно отрицательный: здоровые люди правильно определены как здоровые
Ложноотрицательный: больные люди, ошибочно считающиеся здоровыми.

После получения количества истинно-положительных, ложноположительных, истинно-отрицательных и ложноотрицательных результатов можно рассчитать чувствительность и специфичность теста. Если окажется, что специфичность высока, то любой человек, которого тест классифицирует как положительный, скорее всего, будет истинно положительным. С другой стороны, если чувствительность высока, то любой человек, которого тест классифицирует как отрицательный, скорее всего, будет истинно отрицательным. На веб-сайте NIH есть обсуждение того, как рассчитываются эти отношения. ^[10]

Матрица путаницы

Рассмотрим группу с P положительными экземплярами и N отрицательными экземплярами некоторого условия. Четыре результата могут быть сформулированы в виде таблицы непредвиденных обстоятельств 2 × 2 или матрицы неточностей , а также выводов нескольких показателей с использованием четырех результатов следующим образом:

		Прогнозируемое состояние		^{Источники:} ^[11]^[12]^[13]^[14]^[15]^[16]^[17]^{[18] »}		^{Посмотреть говорить редактировать}
	Общая численность населения = P + N	Прогнозируемое состояние положительное (PP)	Прогнозируемое состояние отрицательное (PN)	Информированность, информированность букмекеров (BM) = TPR + TNR - 1		Сбалансированная точность (BA) =TPR + TNR/2
Фактическое состояние	Фактическое состояние положительное (P)	Истинно положительный (TP) , хит	Ложноотрицательный (FN) , ошибка типа II , промах, завышение	Уровень истинных положительных результатов (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, частота совпадений, мощность = TP/п = 1 - FNR		Частота ложных отрицательных результатов (FNR), частота промахов = FN/п = 1 - TPR
Фактическое состояние	Фактическое состояние отрицательное (N)	Ложное срабатывание (FP) , ошибка типа I , ложная тревога, недооценка	Истинно отрицательный (TN) , правильный отказ	Частота ложных срабатываний (FPR), вероятность ложной тревоги, выпадение = FP/N = 1 - TNR		Истинно отрицательная скорость (TNR), специфичность (SPC), селективность = TN/N = 1 - FPR
	Распространенность = п/P + N	Положительная прогностическая ценность (PPV), точность = TP/ПП = 1 - FDR	Уровень ложных пропусков (FOR) = FN/PN = 1 - ЧПС	Отношение положительного правдоподобия (LR +) = TPR/FPR		Отрицательное отношение правдоподобия (LR−) = FNR/TNR
	Порог распространенности (PT) =√ TPR · FPR - FPR/TPR - FPR	Коэффициент ложного обнаружения (FDR) = FP/ПП = 1 - PPV	Отрицательная прогностическая ценность (NPV) = TN/PN = 1 - ДЛЯ	Маркированность (МК), deltaP (Δp) = PPV + NPV - 1	Отношение диагностических шансов (DOR) = LR +/LR−
	Точность (ACC) = TP + TN/P + N	F 1 балл =2 · PPV · TPR/PPV + TPR знак равно 2TP/2TP + FP + FN	Индекс Фаулкса – Маллоуса (FM) = √ PPV · TPR	Оценка угрозы (TS), индекс критического успеха (CSI) = TP/TP + FN + FP	Коэффициент корреляции Мэтьюза (MCC) = √ TPR · TNR · PPV · NPV - √ FNR · FPR · FOR · FDR

Чувствительность

Рассмотрим пример медицинского теста для диагностики состояния. Чувствительность относится к способности теста правильно выявлять больных, у которых действительно есть данное состояние. ^[19] В примере медицинского теста, используемого для выявления состояния, чувствительность (иногда также называемая степенью выявления в клинических условиях) теста - это доля людей, у которых положительный результат теста на заболевание, среди тех, у кого есть заболевание. . Математически это можно выразить как:

{\ displaystyle {\ begin {align} {\ text {чувствительность}} & = {\ frac {\ text {количество истинных положительных результатов}} {{\ text {количество истинных положительных результатов}} + {\ text {количество ложных результатов Negative}}}} \\ [8pt] & = {\ frac {\ text {количество истинно положительных результатов}} {\ text {общее количество больных людей в популяции}}} \\ [8pt] & = {\ text { вероятность положительного результата теста при условии, что у пациента есть заболевание}} \ end {align}}}

Отрицательный результат теста с высокой чувствительностью полезен для исключения заболевания. ^[19] Тест с высокой чувствительностью является надежным, если его результат отрицательный, поскольку он редко ставит неправильный диагноз тем, у кого есть болезнь. Тест со 100% чувствительностью распознает всех пациентов с заболеванием по положительному результату. Отрицательный результат теста окончательно исключит наличие заболевания у пациента. Однако положительный результат теста с высокой чувствительностью не обязательно полезен для определения болезни. Предположим, что «фиктивный» тестовый набор всегда дает положительный результат. При использовании на больных пациентах все пациенты дают положительный результат, что дает 100% чувствительность теста. Однако чувствительность не учитывает ложные срабатывания. Поддельный тест также дает положительный результат у всех здоровых пациентов, что дает ему 100% ложноположительный результат, что делает его бесполезным для обнаружения или «управления» заболеванием.

При расчете чувствительности не учитываются неопределенные результаты испытаний. Если тест не может быть повторен, неопределенные образцы либо должны быть исключены из анализа (количество исключений должно быть указано при цитировании чувствительности), либо их можно рассматривать как ложноотрицательные (что дает наихудшее значение чувствительности и, следовательно, может занижать его. ).

Специфика

Рассмотрим на примере медицинского теста для диагностики заболевания. Специфичность относится к способности теста правильно отклонять здоровых пациентов без каких-либо заболеваний. Специфичность теста - это доля тех, у кого действительно нет заболевания, у которых тест на это состояние отрицательный. Математически это также можно записать как:

{\ displaystyle {\ begin {align} {\ text {specificity}} & = {\ frac {\ text {количество истинных отрицаний}} {{\ text {количество истинных отрицаний}} + {\ text {количество ложных положительные результаты}}}} \\ [8pt] & = {\ frac {\ text {количество истинных отрицательных результатов}} {\ text {общее количество здоровых особей в популяции}}} \\ [8pt] & = {\ text { вероятность отрицательного результата теста при условии, что пациент здоров}} \ end {align}}}

Положительный результат теста с высокой специфичностью полезен для определения болезни. У здоровых пациентов тест редко дает положительные результаты. Положительный результат говорит о высокой вероятности наличия заболевания. ^[20] Тест со 100% специфичностью распознает всех пациентов без заболевания по отрицательному результату, поэтому положительный результат теста определенно будет иметь значение при наличии заболевания. Однако отрицательный результат теста с высокой специфичностью не обязательно помогает исключить заболевание. Например, тест, который всегда возвращает отрицательный результат теста, будет иметь специфичность 100%, потому что специфичность не учитывает ложноотрицательные результаты. Подобный тест дал бы отрицательный результат для пациентов с этим заболеванием, что сделало бы его бесполезным для лечения болезни.

Тест с более высокой специфичностью имеет более низкую частоту ошибок типа I.

Графическая иллюстрация

Высокая чувствительность и низкая специфичность
Низкая чувствительность и высокая специфичность
Графическая иллюстрация чувствительности и специфичности

Приведенная выше графическая иллюстрация предназначена для демонстрации взаимосвязи между чувствительностью и специфичностью. Черная пунктирная линия в центре графика - это место, где чувствительность и специфичность совпадают. При перемещении влево от черной пунктирной линии чувствительность увеличивается, достигая максимального значения 100% на линии А, а специфичность уменьшается. Чувствительность на линии A составляет 100%, потому что в этой точке нет ложноотрицательных результатов, что означает, что все положительные результаты теста являются истинно положительными. При движении вправо происходит обратное, специфичность увеличивается, пока не достигает линии B и становится 100%, а чувствительность уменьшается. Специфичность в строке B составляет 100%, потому что количество ложных срабатываний в этой строке равно нулю, что означает, что все отрицательные результаты теста являются истинно отрицательными.

Средняя сплошная линия на обоих рисунках, показывающая уровень чувствительности и специфичности, является точкой отсечения теста. Перемещение этой линии приводит к компромиссу между уровнем чувствительности и специфичности, как описано ранее. Левая часть этой строки содержит точки данных, для которых выполнено условие (синие точки указывают на ложноотрицательные результаты). В правой части линии показаны точки данных, для которых условие не выполнено (красные точки указывают на ложные срабатывания). Общее количество точек данных - 80. 40 из них имеют медицинское состояние и находятся слева. Остальные находятся на правой стороне и не имеют медицинского состояния.

Для рисунка, показывающего высокую чувствительность и низкую специфичность, количество ложноотрицательных результатов равно 3, а количество точек данных, которые имеют медицинское состояние, равно 40, поэтому чувствительность составляет (40-3) / (37 + 3) = 92,5. % . Количество ложных срабатываний - 9, поэтому специфичность составляет (40-9) / 40 = 77,5% . Точно так же количество ложноотрицательных результатов на другом рисунке равно 8, а количество точек данных, которые имеют медицинское состояние, равно 40, поэтому чувствительность составляет (40-8) / (37 + 3) = 80% . Количество ложных срабатываний - 3, поэтому специфичность составляет (40-3) / 40 = 92,5% .

Результат теста со 100-процентной чувствительностью.
Результат теста со 100-процентной специфичностью.

Красная точка указывает на пациента с заболеванием. Красный фон указывает на область, где тест предсказывает положительную точку данных. Истинный положительный результат на этом рисунке равен 6, а ложноотрицательный - 0 (потому что все положительные условия правильно предсказываются как положительные). Следовательно, чувствительность составляет 100% (от 6 / (6 + 0) ). Эта ситуация также проиллюстрирована на предыдущем рисунке, где пунктирная линия находится в позиции A (левая часть предсказывается моделью как отрицательная, правая часть предсказывается моделью как положительная). Когда пунктирная линия, разделительная линия теста, находится в положении A, тест правильно предсказывает всю совокупность истинно положительного класса, но не сможет правильно идентифицировать точку данных из истинно отрицательного класса.

Как и на ранее объясненном рисунке, красная точка указывает пациента с заболеванием. Однако в этом случае зеленый фон указывает на то, что тест показывает, что все пациенты свободны от заболевания. Тогда количество точек данных, которые являются истинно отрицательными, равно 26, а количество ложных срабатываний равно 0. Это приводит к 100% специфичности (от 26 / (26 + 0) ). Следовательно, для измерения эффективности теста нельзя использовать только чувствительность или специфичность.

Медицинские примеры

В медицинской диагностике чувствительность теста - это способность теста правильно идентифицировать людей с заболеванием (истинно положительный показатель), тогда как специфичность теста - это способность теста правильно идентифицировать тех, у кого нет заболевания (истинно отрицательный показатель). Если 100 пациентов, о которых известно, что у них есть заболевание, были протестированы, а 43 - положительными, то чувствительность теста составляет 43%. Если 100 тестируются без заболевания и 96 дают полностью отрицательный результат, то специфичность теста 96%. Чувствительность и специфичность являются независимыми от распространенности характеристиками теста, поскольку их значения присущи самому тесту и не зависят от распространенности заболевания в интересующей популяции. ^[21] Положительные и отрицательные прогностические значения , но не чувствительность или специфичность, - это значения, на которые влияет распространенность заболевания в тестируемой популяции. Эти концепции проиллюстрированы графически в этой байесовской клинической диагностической модели апплета, которая показывает положительные и отрицательные прогностические значения в зависимости от распространенности, чувствительности и специфичности.

Заблуждения

Часто утверждают, что высокоспецифический тест эффективен для определения заболевания, если он положительный, в то время как высокочувствительный тест считается эффективным для исключения болезни, если он отрицательный. ^[22]^[23] Это привело к широко используемым мнемоклависайте SPPIN и SNNOUT, в соответствии с которым в высшей степени зра ecific теста, когда р ositive, правила в болезни (СП-П-В), и в высшей степени ' ы е п sitive 'испытаний, когда п egative правила из болезни (SN-N-OUT). Однако оба практических правила вводят в заблуждение, поскольку диагностическая сила любого теста определяется как его чувствительностью, так и его специфичностью. ^[24]^[25]^[26]

Компромисс между специфичностью и чувствительностью исследуется в анализе ROC как компромисс между TPR и FPR (то есть отзывами и последствиями ). ^[27] Присвоение им равного веса оптимизирует информированность = специфичность + чувствительность - 1 = TPR - FPR, величина которого дает вероятность принятия обоснованного решения между двумя классами (> 0 представляет надлежащее использование информации, 0 представляет эффективность на уровне вероятности , <0 представляет неправильное использование информации). ^[28]

Индекс чувствительности

Индекс чувствительности или d ' (произносится как «ди-прайм») - это статистика, используемая в теории обнаружения сигналов . Он обеспечивает разделение между средними значениями распределения сигнала и шума по сравнению со стандартным отклонением распределения шума. Для нормально распределенного сигнала и шума со средним и стандартным отклонениями ${\ displaystyle \ mu _ {S}}$ а также ${\ displaystyle \ sigma _ {S}}$ , а также ${\ displaystyle \ mu _ {N}}$ а также ${\ displaystyle \ sigma _ {N}}$ соответственно, d ' определяется как:

{\ displaystyle d '= {\ frac {\ mu _ {S} - \ mu _ {N}} {\ sqrt {{\ frac {1} {2}} \ left (\ sigma _ {S} ^ {2 } + \ sigma _ {N} ^ {2} \ right)}}}}

^[29]

Оценку d ' можно также найти из измерений частоты совпадений и частоты ложных срабатываний . Он рассчитывается как:

d ' = Z (частота совпадений) - Z (частота ложных срабатываний), ^[30]

где функция Z ( p ), p ∈ [0, 1], является обратной к кумулятивному гауссовскому распределению .

d ' - безразмерная статистика. Более высокий d ' указывает на то, что сигнал может быть легче обнаружен.

Пример работы

Рабочий пример: Диагностический тест с чувствительностью 67% и специфичностью 91% применяется к 2030 людям для поиска заболевания с распространенностью в популяции 1,48%.

		Результат анализа кала на скрытую кровь		^{Посмотреть говорить редактировать}
	Общая численность населения ( население ) = 2030 г.	Результат теста положительный	Результат теста отрицательный	Точность (ACC) = (TP + TN) / нас. = (20 + 1820) / 2030 ≈ 90,64%	F 1 оценка = 2 × точность × отзыв/точность + отзыв ≈ 0,174
Пациенты с раком кишечника (подтверждено при эндоскопии )	Фактическое состояние положительное	Истинно положительный результат (TP) = 20 (2030 × 1,48% × 67%)	Ложноотрицательный результат (FN) = 10 (2030 × 1,48% × (100% - 67%) )	Истинно положительный показатель (TPR), отзыв , чувствительность = TP / (TP + FN) = 20 / (20 + 10) ≈ 66,7%	Ложноотрицательный показатель (FNR), процент промахов = FN / (TP + FN) = 10 / (20 + 10) ≈ 33,3%
Пациенты с раком кишечника (подтверждено при эндоскопии )	Фактическое состояние отрицательное	Ложноположительный результат (FP) = 180 (2030 × (100% - 1,48%) × (100% - 91%) )	Истинно отрицательный (TN) = 1820 (2030 × (100% - 1,48%) × 91%)	Частота ложных срабатываний (FPR), выпадения , вероятность ложной тревоги = FP / (FP + TN) = 180 / (180 + 1820) = 9,0%	Специфичность , селективность, истинно отрицательный показатель (TNR) = TN / (FP + TN) = 1820 / (180 + 1820) = 91%
	Распространенность = (TP + FN) / нас. = (20 + 10) / 2030 ≈ 1,48%	Положительная прогностическая ценность (PPV), точность = TP / (TP + FP) = 20 / (20 + 180) = 10%	Уровень ложных пропусков (FOR) = FN / (FN + TN) = 10 / (10 + 1820) ≈ 0,55%	Отношение положительного правдоподобия (LR +) знак равно TPR/FPR = (20/30) / (180/2000) ≈ 7,41	Отрицательное отношение правдоподобия (LR-) знак равно FNR/TNR = (10/30) / (1820/2000) ≈ 0,366
		Коэффициент ложного обнаружения (FDR) = FP / (TP + FP) = 180 / (20 + 180) = 90,0%	Отрицательная прогностическая ценность (NPV) = TN / (FN + TN) = 1820 / (10 + 1820) ≈ 99,45%	Отношение шансов диагностики (DOR) знак равно LR +/LR− ≈ 20,2

Связанные расчеты

Частота ложноположительных результатов (α) = ошибка типа I = 1 - специфичность = FP / (FP + TN) = 180 / (180 + 1820) = 9%
Частота ложных отрицательных результатов (β) = ошибка типа II = 1 - чувствительность = FN / (TP + FN) = 10 / (20 + 10) ≈ 33%
Мощность = чувствительность = 1 - β
Положительное отношение правдоподобия = чувствительность / (1 - специфичность) ≈ 0,67 / (1 - 0,91) ≈ 7,4
Отношение отрицательного правдоподобия = (1 - чувствительность) / специфичность ≈ (1 - 0,67) / 0,91 ≈ 0,37
Порог распространенности = ${\ displaystyle PT = {\ frac {{\ sqrt {TPR (-TNR + 1)}} + TNR-1} {(TPR + TNR-1)}}}$ ≈ 0,2686 ≈ 26,9%

Этот гипотетический скрининговый тест (анализ кала на скрытую кровь) правильно идентифицировал две трети (66,7%) пациентов с колоректальным раком. ^[a] К сожалению, коэффициент распространенности показывает, что этот гипотетический тест имеет высокий уровень ложноположительных результатов и не позволяет надежно идентифицировать колоректальный рак в общей популяции бессимптомных людей (PPV = 10%).

С другой стороны, этот гипотетический тест демонстрирует очень точное определение людей, свободных от рака (NPV ≈ 99,5%). Следовательно, при использовании для рутинного скрининга на колоректальный рак у бессимптомных взрослых отрицательный результат дает важные данные для пациента и врача, такие как исключение рака как причины желудочно-кишечных симптомов или утешение пациентов, обеспокоенных развитием колоректального рака.

Оценка ошибок в указанной чувствительности или специфичности

Сами по себе значения чувствительности и специфичности могут вводить в заблуждение. Необходимо рассчитать чувствительность или специфичность «наихудшего случая», чтобы не полагаться на эксперименты с небольшим количеством результатов. Например, конкретный тест может легко показать 100% чувствительность, если тестируется по золотому стандарту четыре раза, но один дополнительный тест по золотому стандарту, который дал плохой результат, будет означать чувствительность только 80%. Обычный способ сделать это - установить доверительный интервал биномиальной пропорции , который часто рассчитывается с использованием интервала оценок Вильсона.

Можно рассчитать доверительные интервалы для чувствительности и специфичности, дав диапазон значений, в котором правильное значение находится на заданном уровне достоверности (например, 95%). ^[33]

Терминология в поиске информации

При поиске информации положительная прогностическая ценность называется точностью , а чувствительность - отзывом . В отличие от компромисса между специфичностью и чувствительностью, эти меры не зависят от количества истинных негативов, которое обычно неизвестно и намного превышает фактическое количество релевантных и извлеченных документов. Это предположение об очень большом количестве истинно отрицательных по сравнению с положительными редко встречается в других приложениях. ^[28]

F-оценка может быть использована в качестве единственного показателя выполнения теста для положительного класса. Оценка F - это среднее гармоническое значение точности и запоминания:

{\ displaystyle F = 2 \ times {\ frac {{\ text {precision}} \ times {\ text {вспомнить}}} {{\ text {precision}} + {\ text {вспомнить}}}}}

На традиционном языке статистической проверки гипотез чувствительность теста называется статистической мощностью теста, хотя слово « мощность» в этом контексте имеет более общее значение, которое не применимо в данном контексте. Чувствительный тест будет иметь меньше ошибок типа II .

Смотрите также

Оценка Бриера
Накопительный профиль точности
Дискриминация (информация)
Ложноположительный парадокс
Проверка гипотез на точность
Точность и отзыв
Статистическая значимость
Коэффициент неопределенности , также называемый квалификацией
Статистика Юдена J

Заметки

^ У всех медицинских скрининговых тестов есть свои преимущества и недостатки. Эти риски и преимущества описаны в руководствах по клинической практике , таких как скрининг колоректального рака. ^[31]^[32]

дальнейшее чтение

Альтман Д.Г., Бланд Дж. М. (июнь 1994 г.). «Диагностические тесты. 1: Чувствительность и специфичность» . BMJ . 308 (6943): 1552. DOI : 10.1136 / bmj.308.6943.1552 . PMC 2540489 . PMID 8019315 .
Loong TW (сентябрь 2003 г.). «Понимание чувствительности и специфичности правого полушария мозга» . BMJ . 327 (7417): 716–9. DOI : 10.1136 / bmj.327.7417.716 . PMC 200804 . PMID 14512479 .

Внешние ссылки

Калькулятор UIC
Калькулятор чувствительности / специфичности Vassar College
Бесплатный онлайн-калькулятор MedCalc
Апплет байесовской модели клинической диагностики

[33] У всех медицинских скрининговых тестов есть свои преимущества и недостатки. Эти риски и преимущества описаны в руководствах по клинической практике , таких как скрининг колоректального рака. ^[31]^[32]

[1] Перейти ↑ Yerushalmy J (1947). «Статистические проблемы оценки методов медицинской диагностики с особым упором на рентгенологические методы». Отчеты об общественном здравоохранении . 62 (2): 1432–39. DOI : 10.2307 / 4586294 . JSTOR 4586294 . PMID 20340527 .

[2] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[3] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[4] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[5] Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[6] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[7] Chicco D., Jurman G. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .CS1 maint: использует параметр авторов ( ссылка )

[8] Chicco D., Toetsch N., Jurman G. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMC 7863449 . PMID 33541410 .CS1 maint: использует параметр авторов ( ссылка )

[9] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[10] Парих, Раджул; Матай, Энни; Парих, Шефали; Чандра Сехар, G; Томас, Рави (2008). «Понимание и использование чувствительности, специфичности и прогностических значений» . Индийский журнал офтальмологии . 56 (1): 45–50. DOI : 10.4103 / 0301-4738.37595 . PMC 2636062 . PMID 18158403 .

[11] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[12] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[13] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[14] Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[15] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[16] Chicco D., Jurman G. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .CS1 maint: использует параметр авторов ( ссылка )

[17] Chicco D., Toetsch N., Jurman G. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMC 7863449 . PMID 33541410 .CS1 maint: использует параметр авторов ( ссылка )

[18] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[BMJ-19] а б Альтман Д.Г., Бланд Дж. М. (июнь 1994 г.). «Диагностические тесты. 1: Чувствительность и специфичность» . BMJ . 308 (6943): 1552. DOI : 10.1136 / bmj.308.6943.1552 . PMC 2540489 . PMID 8019315 .

[cebm-20] «SpPins и SnNout» . Центр доказательной медицины (CEBM) . Проверено 26 декабря 2013 года .

[21] Мангрулкар Р. «Диагностическое обоснование I и II» . Проверено 24 января 2012 года .

[22] «Доказательная диагностика» . Университет штата Мичиган. Архивировано из оригинала на 2013-07-06 . Проверено 23 августа 2013 .

[23] «Чувствительность и специфичность» . Курс доказательной медицины медицинского факультета Университета Эмори.

[pmid8028462-24] Барон Дж. А. (апрель – июнь 1994 г.). «Жаль, что это неправда». Принятие медицинских решений . 14 (2): 107. DOI : 10,1177 / 0272989X9401400202 . PMID 8028462 . S2CID 44505648 .

[pmid8028470-25] Бойко Е.Ю. (апрель – июнь 1994 г.). «Исключение или устранение болезни с помощью наиболее чувствительного или специфического диагностического теста: короткий путь или неверный поворот?». Принятие медицинских решений . 14 (2): 175–9. DOI : 10.1177 / 0272989X9401400210 . PMID 8028470 . S2CID 31400167 .

[pmid15271832-26] Pewsner D, Battaglia M, Minder C, Marx A, Bucher HC, Egger M (июль 2004 г.). «Постановка диагноза с помощью« SpPIn »и« SnNOut »: предупреждение» . BMJ . 329 (7459): 209–13. DOI : 10.1136 / bmj.329.7459.209 . PMC 487735 . PMID 15271832 .

[Fawcett2006-27] Фосетт, Том (2006). «Введение в ROC-анализ». Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[Powers2011-28] а б Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .

[pmid20089911-29] Гейл С.Д., Перкель ди-джей (январь 2010 г.). «Путь базальных ганглиев управляет избирательными слуховыми ответами дофаминергических нейронов певчих птиц посредством растормаживания» . Журнал неврологии . 30 (3): 1027–37. DOI : 10.1523 / JNEUROSCI.3585-09.2010 . PMC 2824341 . PMID 20089911 .

[MacmillanCreelman2004-30] Macmillan NA, Creelman CD (15 сентября 2004 г.). Теория обнаружения: Руководство пользователя . Психология Press. п. 7. ISBN 978-1-4106-1114-7.

[31] Лин, Дженнифер С .; Пайпер, Маргарет А .; Perdue, Лесли А .; Раттер, Кэролайн М .; Уэббер, Элизабет М .; О'Коннор, Элизабет; Смит, Нин; Уитлок, Эвелин П. (21 июня 2016 г.). «Скрининг колоректального рака» . ДЖАМА . 315 (23): 2576–2594. DOI : 10,1001 / jama.2016.3332 . ISSN 0098-7484 .

[32] Бенар, Флоренция; Баркун, Алан Н .; Мартель, Мириам; Рентельн, Даниэль фон (7 января 2018 г.). «Систематический обзор рекомендаций по скринингу на колоректальный рак для взрослых со средним риском: Обобщение текущих глобальных рекомендаций» . Всемирный журнал гастроэнтерологии . 24 (1): 124–138. DOI : 10,3748 / wjg.v24.i1.124 . PMC 5757117 . PMID 29358889 .

[34] «Онлайн-калькулятор диагностического теста вычисляет чувствительность, специфичность, отношения правдоподобия и прогнозные значения из таблицы 2x2 - калькулятора доверительных интервалов для прогнозных параметров» . medcalc.org .

[1].

Чувствительность и специфичность

Заявка на отборочное исследование

Матрица путаницы

Чувствительность

Специфика

Графическая иллюстрация

Медицинские примеры

Заблуждения

Индекс чувствительности

Пример работы

Оценка ошибок в указанной чувствительности или специфичности

Терминология в поиске информации

Смотрите также

Заметки

Рекомендации

дальнейшее чтение

Внешние ссылки