Точность и отзыв

В распознавания образов , поиск информации и классификациях (машинное обучение) , точность (также называемые положительной прогностическая ценность ) представляет собой доля соответствующих экземпляров среди найденных экземпляров, в то время напомнит (также известный как чувствительность ) представляет собой фракция соответствующих экземпляров , которые были получены. Следовательно, и точность, и отзыв основаны на релевантности .

Точность и отзыв

Предположим, что компьютерная программа для распознавания собак ( соответствующий элемент) на фотографиях идентифицирует восемь собак на изображении, содержащем десять кошек и двенадцать собак, и из восьми, которые она определяет как собак, пять на самом деле собаки (истинно положительные результаты), а остальные три - собаки. кошки (ложные срабатывания). Семь собак были пропущены (ложноотрицательные результаты), а семь кошек были исключены правильно (истинные негативы). Тогда точность программы составляет 5/8 (истинные положительные результаты / выбранные элементы), а ее отзыв - 5/12 (истинные положительные результаты / все положительные результаты).

Когда поисковая система возвращает 30 страниц, только 20 из которых являются релевантными, и не возвращает 40 дополнительных релевантных страниц, ее точность составляет 20/30 = 2/3, что говорит нам, насколько достоверны результаты, в то время как ее отзыв составляет 20 / 60 = 1/3, что говорит нам о полноте результатов.

Принятие подхода к проверке гипотез на основе статистических данных , в котором в данном случае нулевая гипотеза состоит в том, что данный элемент не имеет отношения к делу , т. Е. Не собака, отсутствие ошибок типа I и типа II (т. Е. Совершенная специфичность и чувствительность 100%) каждый) соответствует идеальной точности (без ложных срабатываний) и идеальному отзыву (без ложных отрицательных результатов).

В более общем смысле, отзыв - это просто дополнение к частоте ошибок типа II, т. Е. Единица минус частота ошибок типа II. Точность связана с частотой ошибок типа I, но несколько более сложным образом, так как она также зависит от предварительного распределения видения релевантного элемента по сравнению с нерелевантным.

Приведенный выше пример кошек и собак содержал 8-5 = 3 ошибки типа I для частоты ошибок типа I 3/10 и 12-5 = 7 ошибок типа II для частоты ошибок типа II 7/12. Точность можно рассматривать как меру качества, а отзыв как меру количества. Более высокая точность означает, что алгоритм возвращает больше релевантных результатов, чем нерелевантных, а высокий уровень отзыва означает, что алгоритм возвращает большинство релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).

Вступление

При поиске информации экземплярами являются документы, и задача состоит в том, чтобы вернуть набор релевантных документов по запросу. Отзыв - это количество релевантных документов, найденных в результате поиска, деленное на общее количество существующих релевантных документов , а точность - это количество релевантных документов, найденных в результате поиска, деленное на общее количество документов, найденных в результате этого поиска.

В задаче классификации точность для класса - это количество истинных положительных результатов (т. Е. Количество элементов, правильно помеченных как принадлежащие к положительному классу), деленное на общее количество элементов, помеченных как принадлежащие к положительному классу (т. Е. Сумма истинные срабатывания и ложные срабатывания , которые представляют собой элементы, неправильно помеченные как принадлежащие к классу). Напоминание в этом контексте определяется как количество истинных положительных результатов, деленное на общее количество элементов, которые фактически принадлежат к положительному классу (т. Е. Сумма истинно положительных и ложно отрицательных результатов , которые являются элементами, которые не были помечены как принадлежащие к положительному классу. но должно было быть).

При поиске информации оценка идеальной точности 1,0 означает, что каждый результат, полученный в результате поиска, был релевантным (но ничего не говорит о том, были ли получены все соответствующие документы), тогда как оценка идеальной точности 1,0 означает, что все соответствующие документы были извлечены в результате поиска ( но ничего не говорит о том, сколько нерелевантных документов было также найдено).

Точность и отзыв не являются особенно полезными показателями, когда используются изолированно. Например, можно получить идеальный отзыв, просто извлекая каждый отдельный элемент. Точно так же можно добиться почти идеальной точности, выбрав только очень небольшое количество чрезвычайно вероятных элементов.

В задаче классификации оценка точности 1,0 для класса C означает, что каждый элемент, помеченный как принадлежащий классу C, действительно принадлежит классу C (но ничего не говорит о количестве элементов из класса C, которые были неправильно помечены), тогда как a отзыв 1.0 означает, что каждый элемент из класса C был помечен как принадлежащий классу C (но ничего не говорит о том, сколько элементов из других классов были также неправильно помечены как принадлежащие классу C).

Часто существует обратная зависимость между точностью и отзывом, когда одно можно увеличить за счет уменьшения другого. Хирургия головного мозга является наглядным примером компромисса. Представьте себе, что хирург удаляет раковую опухоль из мозга пациента. Хирургу необходимо удалить все опухолевые клетки, поскольку оставшиеся раковые клетки регенерируют опухоль. И наоборот, хирург не должен удалять здоровые клетки мозга, так как это приведет к нарушению функции мозга пациента. Хирург может более либерально подходить к области мозга, которую он удаляет, чтобы убедиться, что он удалил все раковые клетки. Это решение увеличивает отзыв, но снижает точность. С другой стороны, хирург может быть более консервативным в отношении удаляемого мозга, чтобы гарантировать, что он извлекает только раковые клетки. Это решение увеличивает точность, но уменьшает отзыв. Другими словами, более высокий уровень отзыва увеличивает шансы на удаление здоровых клеток (отрицательный результат) и увеличивает шансы на удаление всех раковых клеток (положительный результат). Повышенная точность снижает вероятность удаления здоровых клеток (положительный результат), но также снижает вероятность удаления всех раковых клеток (отрицательный результат).

Обычно оценки точности и запоминания не обсуждаются изолированно. Вместо этого либо значения для одного показателя сравниваются с фиксированным уровнем для другого показателя (например, точность на уровне отзыва 0,75 ), либо оба значения объединяются в один показатель. Примерами мер, которые представляют собой комбинацию точности и отзыва, являются F-мера (взвешенное гармоническое среднее значение точности и отзыва) или коэффициент корреляции Мэтьюза , который представляет собой среднее геометрическое значений вариантов со случайной коррекцией: коэффициенты регрессии Информированность ( DeltaP ') и маркированностью (DeltaP). ^[1]^[2] Точность - это средневзвешенное арифметическое значение точности и обратной точности (взвешенное по смещению), а также взвешенное среднее арифметическое значение отзыва и обратного отзыва (взвешенное по распространенности). ^[1] Обратная точность и обратный вызов - это просто точность и отзыв обратной задачи, в которой обмениваются положительные и отрицательные метки (как для реальных классов, так и для меток прогноза). Отзыв и обратный отзыв, или, что эквивалентно, частота истинных положительных и ложных срабатываний, часто строятся друг против друга в виде кривых ROC и обеспечивают принципиальный механизм для изучения компромиссов рабочих точек. Помимо поиска информации, применение методов отзыва, точности и F-меры считается ошибочным, поскольку они игнорируют истинно отрицательную ячейку таблицы непредвиденных обстоятельств, и ими легко манипулировать, искажая прогнозы. ^[1] Первая проблема «решается» с использованием точности, а вторая проблема «решается» путем дисконтирования случайной составляющей и перенормировки на каппу Коэна , но это больше не дает возможности графически исследовать компромиссы. Однако информированность и отмеченность являются каппа-подобными перенормировками памяти и точности ^[3], и их средний геометрический коэффициент корреляции Мэтьюза, таким образом, действует как F-мера с искажениями.

Определение (контекст поиска информации)

В контексте поиска информации точность и отзыв определяются в терминах набора извлеченных документов (например, списка документов, созданных поисковой системой в Интернете для запроса) и набора соответствующих документов (например, списка всех документов в Интернете. актуальные для определенной темы), ср. актуальность . ^[4]

Точность

В области поиска информации точность - это доля извлеченных документов, имеющих отношение к запросу:

{\ displaystyle {\ text {precision}} = {\ frac {| \ {{\ text {соответствующие документы}} \} \ cap \ {{\ text {извлеченные документы}} \} |} {| \ {{\ текст {полученные документы}} \} |}}}

Например, для текстового поиска по набору документов точность - это количество правильных результатов, деленное на количество всех возвращенных результатов.

Точность учитывает все извлеченные документы, но ее также можно оценить по заданному пороговому значению, учитывая только самые верхние результаты, возвращаемые системой. Эта мера называется точностью при n или P @ n .

Точность используется с отзывом, процентом всех релевантных документов, возвращаемых поиском. Эти две меры иногда используются вместе в F ₁ Score (или f-measure), чтобы обеспечить единое измерение для системы.

Обратите внимание, что значение и использование термина «точность» в области поиска информации отличается от определения точности и точности в других областях науки и техники.

Отзывать

При поиске информации отзыв - это часть успешно извлеченных релевантных документов.

{\ displaystyle {\ text {вспомнить}} = {\ frac {| \ {{\ text {соответствующие документы}} \} \ cap \ {{\ text {извлеченные документы}} \} |} {| \ {{\ текст {соответствующие документы}} \} |}}}

Например, для текстового поиска по набору документов отзыв - это количество правильных результатов, разделенное на количество результатов, которые должны были быть возвращены.

В бинарной классификации отзыв называется чувствительностью . Его можно рассматривать как вероятность того, что соответствующий документ будет получен запросом.

Добиться 100% отзыва, вернув все документы в ответ на любой запрос, - тривиальная задача. Таким образом, одного отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, путем вычисления точности.

Определение (контекст классификации)

Для задач классификации термины « истинно положительные» , « истинно отрицательные» , « ложные положительные» и « ложно отрицательные» (определения см. В разделе « Ошибки типа I» и «Тип II» ) сравнивают результаты тестируемого классификатора с надежными внешними суждениями. Термины положительный и отрицательный относятся к предсказанию классификатора (иногда называемому ожиданием ), а термины истинное и ложное относятся к тому, соответствует ли этот прогноз внешнему суждению (иногда известному как наблюдение ).

Определим эксперимент из P положительных примеров и N отрицательных случаев для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств 2 × 2 или матрицы неточностей следующим образом:

		Прогнозируемое состояние		^{Источники:} ^[5]^[6]^[7]^[8]^[9]^[10]^[11]^{[12] »}		^{Посмотреть говорить редактировать}
	Общая численность населения = P + N	Прогнозируемое состояние положительное (PP)	Прогнозируемое состояние отрицательное (PN)	Информированность, информированность букмекеров (BM) = TPR + TNR - 1		Порог распространенности (PT) =√ TPR · FPR - FPR/TPR - FPR
Фактическое состояние	Фактическое состояние положительное (P)	Истинно положительный (TP) , хит	Ложноотрицательный (FN) , ошибка типа II , промах, недооценка	Уровень истинных положительных результатов (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, частота совпадений, мощность = TP/п = 1 - FNR		Частота ложных отрицательных результатов (FNR), частота промахов = FN/п = 1 - TPR
Фактическое состояние	Фактическое состояние отрицательное (N)	Ложное срабатывание (FP) , ошибка типа I , ложная тревога, завышение	Истинно отрицательный (TN) , правильный отказ	Частота ложных срабатываний (FPR), вероятность ложной тревоги, выпадение = FP/N = 1 - TNR		Истинно отрицательная скорость (TNR), специфичность (SPC), селективность = TN/N = 1 - FPR
	Распространенность = п/P + N	Положительная прогностическая ценность (PPV), точность = TP/ПП = 1 - FDR	Коэффициент ложных пропусков (FOR) = FN/PN = 1 - ЧПС	Отношение положительного правдоподобия (LR +) = TPR/FPR		Отрицательное отношение правдоподобия (LR−) = FNR/TNR
	Точность (ACC) = TP + TN/P + N	Коэффициент ложного обнаружения (FDR) = FP/ПП = 1 - PPV	Отрицательная прогностическая ценность (NPV) = TN/PN = 1 - ДЛЯ	Маркированность (МК), deltaP (Δp) = PPV + NPV - 1	Отношение диагностических шансов (DOR) = LR +/LR−
	Сбалансированная точность (BA) = TPR + TNR/2	F 1 балл =2 · PPV · TPR/PPV + TPR знак равно 2TP/2TP + FP + FN	Индекс Фаулкса – Маллоуса (FM) = √ PPV · TPR	Коэффициент корреляции Мэтьюза (MCC) = √ TPR · TNR · PPV · NPV - √ FNR · FPR · FOR · FDR	Оценка угрозы (TS), индекс критического успеха (CSI) = TP/TP + FN + FP

Терминология и выводы
из матрицы неточностей
положительное состояние (P) количество реальных положительных случаев в данных условие отрицательное (N) количество реальных отрицательных случаев в данных истинно положительный (TP) экв. с хитом истинно отрицательный (TN) экв. с правильным отклонением ложное срабатывание (FP) экв. с ложной тревогой , ошибкой типа I или недооценкой ложноотрицательный (FN) экв. с промахом, ошибкой II типа или завышением чувствительность , отзыв , частота совпадений или истинно положительный показатель (TPR) ${\ displaystyle \ mathrm {TPR} = {\ frac {\ mathrm {TP}} {\ mathrm {P}}} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN} }} = 1- \ mathrm {FNR}}$ специфичность , селективность или истинно отрицательный показатель (TNR) ${\ displaystyle \ mathrm {TNR} = {\ frac {\ mathrm {TN}} {\ mathrm {N}}} = {\ frac {\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FP} }} = 1- \ mathrm {FPR}}$ точность или положительная прогностическая ценность (PPV) ${\ Displaystyle \ mathrm {PPV} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FP}}} = 1- \ mathrm {FDR}}$ отрицательная прогностическая ценность (NPV) ${\ displaystyle \ mathrm {NPV} = {\ frac {\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FN}}} = 1- \ mathrm {FOR}}$ коэффициент пропусков или ложноотрицательных результатов (FNR) ${\ displaystyle \ mathrm {FNR} = {\ frac {\ mathrm {FN}} {\ mathrm {P}}} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TP} }} = 1- \ mathrm {TPR}}$ количество выпадений или ложных срабатываний (FPR) ${\ displaystyle \ mathrm {FPR} = {\ frac {\ mathrm {FP}} {\ mathrm {N}}} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TN} }} = 1- \ mathrm {TNR}}$ коэффициент ложного обнаружения (FDR) ${\ displaystyle \ mathrm {FDR} = {\ frac {\ mathrm {FP}} {\ mathrm {FP} + \ mathrm {TP}}} = 1- \ mathrm {PPV}}$ коэффициент ложных пропусков (FOR) ${\ displaystyle \ mathrm {FOR} = {\ frac {\ mathrm {FN}} {\ mathrm {FN} + \ mathrm {TN}}} = 1- \ mathrm {NPV}}$ порог распространенности (ПП) ${\ displaystyle \ mathrm {PT} = {\ frac {{\ sqrt {\ mathrm {TPR} (- \ mathrm {TNR} +1)}} + \ mathrm {TNR} -1} {(\ mathrm {TPR} + \ mathrm {TNR} -1)}}}$ оценка угрозы (TS) или индекс критического успеха (CSI) ${\ displaystyle \ mathrm {TS} = {\ frac {\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN} + \ mathrm {FP}}}}$ точность (ACC) ${\ displaystyle \ mathrm {ACC} = {\ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {P} + \ mathrm {N}}} = {\ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {TP} + \ mathrm {TN} + \ mathrm {FP} + \ mathrm {FN}}}}$ сбалансированная точность (BA) ${\ displaystyle \ mathrm {BA} = {\ frac {TPR + TNR} {2}}}$ Оценка F1 является средним гармоническим из точности и чувствительности : ${\ displaystyle \ mathrm {F} _ {1} = 2 \ times {\ frac {\ mathrm {PPV} \ times \ mathrm {TPR}} {\ mathrm {PPV} + \ mathrm {TPR}}} = {\ гидроразрыв {2 \ mathrm {TP}} {2 \ mathrm {TP} + \ mathrm {FP} + \ mathrm {FN}}}}$ Коэффициент корреляции Мэтьюза (MCC) ${\ displaystyle \ mathrm {MCC} = {\ frac {\ mathrm {TP} \ times \ mathrm {TN} - \ mathrm {FP} \ times \ mathrm {FN}} {\ sqrt {(\ mathrm {TP} + \ mathrm {FP}) (\ mathrm {TP} + \ mathrm {FN}) (\ mathrm {TN} + \ mathrm {FP}) (\ mathrm {TN} + \ mathrm {FN})}}}}$ Индекс Фаулкса – Маллоуса (FM) ${\ displaystyle \ mathrm {FM} = {\ sqrt {{\ frac {TP} {TP + FP}} \ times {\ frac {TP} {TP + FN}}}} = {\ sqrt {PPV \ times TPR }}}$ информированность или информированность букмекеров (BM) ${\ Displaystyle \ mathrm {BM} = \ mathrm {TPR} + \ mathrm {TNR} -1}$ маркировка (МК) или дельтаП (Δp) ${\ Displaystyle \ mathrm {MK} = \ mathrm {PPV} + \ mathrm {NPV} -1}$ Источники: Fawcett (2006), ^[13] Piryonesi and El-Diraby (2020), ^[14] Powers (2011), ^[15] Ting (2011), ^[16] CAWCR, ^[17] D. Chicco & G. Jurman (2020, 2021) , ^[18]^[19] Тарват (2018). ^[20]

Тогда точность и отзыв определяются как: ^[21]

{\ displaystyle {\ begin {align} {\ text {Precision}} & = {\ frac {tp} {tp + fp}} \\ {\ text {Recall}} & = {\ frac {tp} {tp + fn}} \, \ end {выровнено}}}

Напоминание в этом контексте также называется истинно положительной скоростью или чувствительностью , а точность также называется положительной прогностической ценностью (PPV); другие связанные меры, используемые при классификации, включают истинно отрицательную скорость и точность . ^[21] Истинно отрицательный показатель также называется специфичностью .

{\ displaystyle {\ text {Истинная отрицательная скорость}} = {\ frac {tn} {tn + fp}} \,}

Несбалансированные данные

{\ displaystyle {\ text {Accuracy}} = {\ frac {tp + tn} {tp + tn + fp + fn}} \,}

Точность может быть неверным показателем для несбалансированных наборов данных. Рассмотрим образец с 95 отрицательными и 5 положительными значениями. Отнесение всех значений к отрицательным в этом случае дает оценку точности 0,95. Многие метрики не страдают от этой проблемы. Например, функция сбалансированной точности ^[22] (bACC) нормализует истинно положительные и истинно отрицательные предсказания на количество положительных и отрицательных выборок соответственно и делит их сумму на два:

{\ displaystyle {\ text {Сбалансированная точность}} = {\ frac {TPR + TNR} {2}} \,}

Для предыдущего примера (95 отрицательных и 5 положительных выборок) отнесение всех к отрицательным дает 0,5 балла сбалансированной точности (максимальный балл bACC равен единице), что эквивалентно ожидаемому значению случайного предположения в сбалансированном наборе данных. Сбалансированная точность может служить показателем общей производительности для модели, независимо от того, несбалансированы ли истинные метки в данных, при условии, что стоимость FN такая же, как и FP.

Другой показатель - это прогнозируемая частота положительных результатов (PPCR), которая определяет процент от общей популяции, отмеченной флажком. Например, для поисковой системы, которая возвращает 30 результатов (извлеченных документов) из 1 000 000 документов, PPCR составляет 0,003%.

{\ displaystyle {\ text {Прогнозируемая частота положительных результатов}} = {\ frac {tp + fp} {tp + fp + tn + fn}} \,}

Согласно Сайто и Ремсмайеру, графики точного отзыва более информативны, чем графики ROC, при оценке двоичных классификаторов на несбалансированных данных. В таких сценариях графики ROC могут быть визуально обманчивыми в отношении выводов о надежности характеристик классификации. ^[23]

В отличие от вышеупомянутых подходов, если масштабирование дисбаланса применяется непосредственно путем взвешивания элементов матрицы путаницы, стандартные определения метрик по-прежнему применяются даже в случае несбалансированных наборов данных. ^[24] Процедура взвешивания связывает элементы матрицы неточностей с опорным набором каждого рассматриваемого класса.

Вероятностная интерпретация

Можно также интерпретировать точность и вспоминание не как отношения, а как оценки вероятностей: ^[25]

Точность - это оценочная вероятность того, что документ, случайно выбранный из пула извлеченных документов, является релевантным.
Отзыв - это оценочная вероятность того, что будет извлечен документ, случайно выбранный из пула релевантных документов.

Другая интерпретация заключается в том, что точность - это средняя вероятность релевантного извлечения, а отзыв - это средняя вероятность полного извлечения, усредненная по нескольким запросам извлечения.

F-мера

Мера, сочетающая точность и отзывчивость, представляет собой гармоническое среднее значение точности и полноты, традиционное F-измерение или сбалансированное F-значение:

{\ displaystyle F = 2 \ cdot {\ frac {\ mathrm {precision} \ cdot \ mathrm {вспомнить}} {\ mathrm {precision} + \ mathrm {вспомнить}}}}

Эта мера является приблизительно средним из двух, когда они близки, и в более общем плане является гармоническим средним , которое в случае двух чисел совпадает с квадратом среднего геометрического, деленного на среднее арифметическое . Есть несколько причин, по которым F-балл может подвергаться критике в определенных обстоятельствах из-за его предвзятости как метрики оценки. ^[1] Это также известно как ${\ displaystyle F_ {1}}$ измерять, потому что отзывчивость и точность равны.

Это частный случай общего ${\ displaystyle F _ {\ beta}}$ мера (для неотрицательных действительных значений ${\ displaystyle \ beta}$ ):

{\ displaystyle F _ {\ beta} = (1+ \ beta ^ {2}) \ cdot {\ frac {\ mathrm {precision} \ cdot \ mathrm {вспомнить}} {\ beta ^ {2} \ cdot \ mathrm { точность} + \ mathrm {отзыв}}}}

Два других широко используемых ${\ displaystyle F}$ меры - это ${\ displaystyle F_ {2}}$ мера, весы которой напоминают больше, чем точность, а ${\ displaystyle F_ {0,5}}$ мера, в которой больше внимания уделяется точности, чем отзыву.

F-мера была получена ван Райсбергеном (1979) так, что ${\ displaystyle F _ {\ beta}}$ "измеряет эффективность поиска по отношению к пользователю, который прикрепляет ${\ displaystyle \ beta}$ в разы важнее, чем точность ". Он основан на показателе эффективности ван Рейсбергена. ${\ displaystyle E _ {\ alpha} = 1 - {\ frac {1} {{\ frac {\ alpha} {P}} + {\ frac {1- \ alpha} {R}}}}}$ , второй член представляет собой взвешенное гармоническое среднее значение точности и отзыва с весами ${\ Displaystyle (\ альфа, 1- \ альфа)}$ . Их отношения ${\ displaystyle F _ {\ beta} = 1-E _ {\ alpha}}$ где ${\ displaystyle \ alpha = {\ frac {1} {1+ \ beta ^ {2}}}}$ .

Ограничения как цели

Существуют и другие параметры и стратегии для метрики производительности информационно-поисковой системы, например площадь под кривой ROC (AUC). ^[26]

Смотрите также

Коэффициент неопределенности , также называемый квалификацией
Чувствительность и специфичность

Внешние ссылки

Поиск информации - CJ van Rijsbergen 1979
Вычисление точности и отзыва для задачи классификации нескольких классов

[Powers2011-1] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF) . Журнал технологий машинного обучения . 2 (1): 37–63. Архивировано из оригинального (PDF) на 2019-11-14.

[2] Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика . 17 (2–3): 97–119. DOI : 10.1016 / s0911-6044 (03) 00059-9 . S2CID 17104364 .

[3] Пауэрс, Дэвид МВ (2012). «Проблема с каппой» . Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP .

[4] * Кент, Аллен; Берри, Мэдлин М .; Luehrs, Jr., Fred U .; Перри, JW (1955). «Машинный поиск литературы VIII. Эксплуатационные критерии проектирования информационно-поисковых систем». Американская документация . 6 (2): 93. DOI : 10.1002 / asi.5090060209 .

[5] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[6] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[7] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[8] Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[9] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[10] Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .

[11] Chicco D, Toetsch N, Jurman G (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMC 7863449 . PMID 33541410 .

[12] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[13] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[14] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[15] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[16] Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[17] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[18] Chicco D., Jurman G. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .CS1 maint: использует параметр авторов ( ссылка )

[19] Chicco D., Toetsch N., Jurman G. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMC 7863449 . PMID 33541410 .CS1 maint: использует параметр авторов ( ссылка )

[20] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[OlsonDelen-21] Олсон, Дэвид Л .; и Делен, Дурсун (2008); Расширенные методы интеллектуального анализа данных , Springer, 1-е издание (1 февраля 2008 г.), стр. 138, ISBN 3-540-76916-1

[22] Косилка, Джеффри П. (12 апреля 2005 г.). «PREP-Mt: предсказательный редактор РНК для митохондриальных генов растений» . BMC Bioinformatics . 6 : 96. DOI : 10,1186 / 1471-2105-6-96 . ISSN 1471-2105 . PMC 1087475 . PMID 15826309 .

[23] Сайто, Такая; Ремсмайер, Марк (4 марта 2015 г.). Брок, Гай (ред.). «График точности-отзыва более информативен, чем график ROC при оценке двоичных классификаторов на несбалансированных наборах данных» . PLOS ONE . 10 (3): e0118432. Bibcode : 2015PLoSO..1018432S . DOI : 10.1371 / journal.pone.0118432 . ISSN 1932-6203 . PMC 4349800 . PMID 25738806 . Краткое содержание (март 2017 г.).

[24] Трипиккио, Паоло; Камачо-Гонсалес, Херардо; Д'Авелла, Сальваторе (2020). «Обнаружение дефектов сварки: устранение дефектов на производственной линии» . Международный журнал передовых производственных технологий . 111 (5): 1659--1669.

[25] Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, Deep Metric Learning to Rank , In Proc. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 2019 г.

[26] Зигмунт Zając. Что вы хотели знать о AUC. http://fastml.com/what-you-wanted-to-know-about-auc/

[1]

Точность и отзыв

Вступление

Определение (контекст поиска информации)

Точность

Отзывать

Определение (контекст классификации)

Несбалансированные данные

Вероятностная интерпретация

F-мера

Ограничения как цели

Смотрите также

Рекомендации

Внешние ссылки