F-оценка

В статистическом анализе бинарной классификации , то F-счет или F-мера является мерой тестовой по точности . Он рассчитывается на основе точности и отзыва теста, где точность - это количество истинно положительных результатов, деленное на количество всех положительных результатов, включая те, которые не были идентифицированы правильно, а отзыв - это количество истинно положительных результатов, деленное на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.

Точность и отзыв

Оценка F ₁ - это среднее гармоническое значение точности и запоминания. Более общий ${\ displaystyle F _ {\ beta}}$ Score применяет дополнительные веса, оценивая точность или отзывчивость одного больше, чем другого.

Максимально возможное значение F-score составляет 1,0, что указывает на идеальную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. Оценка F ₁ также известна как коэффициент Соренсена – Дайса или коэффициент подобия Дайса (DSC). ^{[ необходима цитата ]}

Этимология

Считается, что название F-мера было названо в честь другой F-функции в книге Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). ^[1]

Определение

Традиционный F-мера или уравновешиваются F-оценка ( F ₁ балл ) является гармоническим средним точности и отзыва:

{\ displaystyle F_ {1} = {\ frac {2} {\ mathrm {вспомнить ^ {- 1}} + \ mathrm {precision ^ {- 1}}}} = 2 \ cdot {\ frac {\ mathrm {precision } \ cdot \ mathrm {вспомнить}} {\ mathrm {precision} + \ mathrm {вспомнить}}} = {\ frac {\ mathrm {tp}} {\ mathrm {tp} + {\ frac {1} {2} } (\ mathrm {fp} + \ mathrm {fn})}}}

.

${\ displaystyle F _ {\ beta}}$

Более общая оценка F, ${\ displaystyle F _ {\ beta}}$ , который использует положительный действительный множитель β, где β выбирается таким образом, что отзыв считается в β раз важнее точности, составляет:

{\ Displaystyle F _ {\ beta} = (1+ \ beta ^ {2}) \ cdot {\ frac {\ mathrm {precision} \ cdot \ mathrm {вспомнить}} {(\ beta ^ {2} \ cdot \ mathrm {точность}) + \ mathrm {отзыв}}}}

.

Что касается ошибок типа I и типа II, это становится:

{\ displaystyle F _ {\ beta} = {\ frac {(1+ \ beta ^ {2}) \ cdot \ mathrm {true \ positive}} {(1+ \ beta ^ {2}) \ cdot \ mathrm {true \ положительный} + \ бета ^ {2} \ cdot \ mathrm {ложный \ отрицательный} + \ mathrm {ложный \ положительный}}} \,}

.

Два обычно используемых значения β: 2, что весит отзыв выше, чем точность, и 0,5, что вес отзыва ниже, чем точность.

F-мера была получена так, что ${\ displaystyle F _ {\ beta}}$ «измеряет эффективность поиска по отношению к пользователю, который придает воспоминаниям в β раз большее значение, чем точность». ^[2] Он основан на Ван Rijsbergen эффективности меры «s

{\ displaystyle E = 1- \ left ({\ frac {\ alpha} {p}} + {\ frac {1- \ alpha} {r}} \ right) ^ {- 1}}

.

Их отношения ${\ displaystyle F _ {\ beta} = 1-E}$ где ${\ displaystyle \ alpha = {\ frac {1} {1+ \ beta ^ {2}}}}$ .

Диагностическое тестирование

Это связано с областью двоичной классификации, где отзыв часто называют «чувствительностью».

		Прогнозируемое состояние		^{Источники:} ^[3]^[4]^[5]^[6]^[7]^[8]^[9]^{[10] »}		^{Посмотреть говорить редактировать}
	Общая численность населения = P + N	Прогнозируемое состояние положительное (PP)	Прогнозируемое состояние отрицательное (PN)	Информированность, информированность букмекеров (BM) = TPR + TNR - 1		Порог распространенности (PT) =√ TPR · FPR - FPR/TPR - FPR
Фактическое состояние	Фактическое состояние положительное (P)	Истинно положительный (TP) , хит	Ложноотрицательный (FN) , ошибка типа II , промах, завышение	Уровень истинных положительных результатов (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, частота совпадений, мощность = TP/п = 1 - FNR		Частота ложноотрицательных результатов (FNR), частота промахов = FN/п = 1 - TPR
Фактическое состояние	Фактическое состояние отрицательное (N)	Ложное срабатывание (FP) , ошибка типа I , ложная тревога, недооценка	Истинно отрицательный (TN) , правильный отказ	Частота ложных срабатываний (FPR), вероятность ложной тревоги, выпадение = FP/N = 1 - TNR		Истинно отрицательная скорость (TNR), специфичность (SPC), селективность = TN/N = 1 - FPR
	Распространенность = п/P + N	Положительная прогностическая ценность (PPV), точность = TP/ПП = 1 - FDR	Уровень ложных пропусков (FOR) = FN/PN = 1 - ЧПС	Отношение положительного правдоподобия (LR +) = TPR/FPR		Отрицательное отношение правдоподобия (LR−) = FNR/TNR
	Точность (ACC) = TP + TN/P + N	Коэффициент ложного обнаружения (FDR) = FP/ПП = 1 - PPV	Отрицательная прогностическая ценность (NPV) = TN/PN = 1 - ДЛЯ	Маркированность (МК), deltaP (Δp) = PPV + NPV - 1	Отношение диагностических шансов (DOR) = LR +/LR−
	Сбалансированная точность (BA) = TPR + TNR/2	F 1 балл =2 · PPV · TPR/PPV + TPR знак равно 2TP/2TP + FP + FN	Индекс Фаулкса – Маллоуса (FM) = √ PPV · TPR	Коэффициент корреляции Мэтьюза (MCC) = √ TPR · TNR · PPV · NPV - √ FNR · FPR · FOR · FDR	Оценка угрозы (TS), индекс критического успеха (CSI) = TP/TP + FN + FP

График нормализованного гармонического среднего, где x - точность, y - отзыв, а вертикальная ось - оценка F ₁ в процентах

Зависимость F-балла от классового дисбаланса

Вильямс ^[11] показал явную зависимость кривой прецизионного отзыва и, следовательно, ${\ displaystyle F _ {\ beta}}$ оценка, по соотношению ${\ displaystyle r}$ положительных или отрицательных тестовых случаев. Это означает, что сравнение F-балла по разным задачам с разным соотношением классов проблематично. Один из способов решения этой проблемы (см., Например, Siblini et al, 2020 ^[12] ) - использовать стандартное соотношение классов ${\ displaystyle r_ {0}}$ при проведении таких сравнений.

Приложения

F-оценка часто используется в области поиска информации для измерения поиска , классификации документов и запросов классификации производительности. ^{[13] В} более ранних работах основное внимание уделялось оценке F ₁ , но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы сделать больший упор либо на точность, либо на отзыв ^[14] и т. Д. ${\ displaystyle F _ {\ beta}}$ рассматривается в широком применении.

Оценка F также используется в машинном обучении . ^[15] Однако F-меры не принимают во внимание истинные отрицания, поэтому такие меры, как коэффициент корреляции Мэтьюса , информированность или каппа Коэна, могут быть предпочтительны для оценки производительности двоичного классификатора. ^[16]

F-оценка широко используется в литературе по обработке естественного языка ^[17], например, при оценке распознавания именованных сущностей и сегментации слов .

Критика

Дэвид Хэнд и другие критикуют широкое использование шкалы F _1, поскольку она придает одинаковое значение точности и запоминанию. На практике разные типы неправильной классификации влекут за собой разные затраты. Другими словами, относительная важность точности и отзывчивости - один из аспектов проблемы. ^[18]

По словам Давиде Чикко и Джузеппе Юрмана, оценка F ₁ менее достоверна и информативна, чем коэффициент корреляции Мэтьюза (MCC) в бинарной классификации. ^[19]

Дэвид Пауэрс указал, что F ₁ игнорирует истинно отрицательные и, таким образом, вводит в заблуждение несбалансированные классы, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор предсказывает истинный класс, а истинный класс предсказывает предсказание классификатора, отдельные мультиклассовые меры информированности и отмеченности для двух направлений, отмечая, что их среднее геометрическое является корреляцией. ^[20]

Отличие от индекса Фаулкса – Маллоуса

В то время как F-мера представляет собой гармоническое среднее значение запоминания и точности, индекс Фаулкса – Маллоуса - их среднее геометрическое . ^[21]

Расширение мультиклассовой классификации

F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). В этой настройке окончательная оценка получается путем микро-усреднения (смещение в зависимости от частоты класса) или макро-усреднения (принимая все классы как одинаково важные). Для макро-усреднения кандидатами использовались две разные формулы: F-балл (арифметической) классовой точности и средств вспоминания или среднее арифметическое F-баллов по классам, где последние демонстрируют более желательные свойства. ^[22]

Смотрите также

BLEU
Матрица путаницы
Проверка гипотез на точность
МЕТЕОР
NIST (метрическая система)
Рабочая характеристика приемника
ROUGE (метрическая система)
Коэффициент неопределенности , он же уровень владения
Частота ошибок в словах

Рекомендации

Перейти ↑ Sasaki, Y. (2007). «Истина F-меры» (PDF) .
^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
^ Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .
^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .
^ Chicco D., Jurman G. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .CS1 maint: использует параметр авторов ( ссылка )
^ Chicco D., Toetsch N., Jurman G. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMC 7863449 . PMID 33541410 .CS1 maint: использует параметр авторов ( ссылка )
^ Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .
^ Уильямс, Кристофер К.И. (2021). «Влияние классового дисбаланса на кривые точности отзыва» . Нейронные вычисления . 33 (4): 853–857. DOI : 10.1162 / neco_a_01362 .
^ Siblini, W .; Fréry, J .; He-Guelton, L .; Oblé, F .; Ван, YQ (2020). «Освойте свои показатели с помощью калибровки» . В М. Бертольд, А. Фелдерс и Г. Кремпль (ред.). Достижения в области интеллектуального анализа данных XVIII . Springer. С. 457–469. DOI : 10.1007 / 978-3-030-44584-3_36 .CS1 maint: множественные имена: список редакторов ( ссылка )
^ Beitzel., Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 .
^ X. Li; Ю.-Й. Ванга; А. Асеро (июль 2008 г.). Изучение цели запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . DOI : 10.1145 / 1390334.1390393 . S2CID 8482989 .
^ См., Например, оценку [1] .
^ Пауэрс, Дэвид М. В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [ cs.IR ].
^ Дерчинский, Л. (2016). Комплементарность, F-оценка и оценка НЛП . Труды Международной конференции по языковым ресурсам и оценке .
^ Рука, Дэвид. «Замечание об использовании F-меры для оценки алгоритмов связывания записей - Размеры» . app.dimensions.ai . DOI : 10.1007 / s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID 38782128 . Проверено 8 декабря 2018 .
^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (6): 6. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, запоминания и оценки F до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .
^ Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика (опережающий печать). DOI : 10.1016 / j.aci.2018.08.003 .
^ Дж. Опиц; С. Бурст (2019). «Макро F1 и Макро F1». arXiv : 1911.03347 [ stat.ML ].

[1] Перейти ↑ Sasaki, Y. (2007). «Истина F-меры» (PDF) .

[2] Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.

[3] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[4] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[5] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[6] Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[7] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[8] Chicco D., Jurman G. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .CS1 maint: использует параметр авторов ( ссылка )

[9] Chicco D., Toetsch N., Jurman G. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMC 7863449 . PMID 33541410 .CS1 maint: использует параметр авторов ( ссылка )

[10] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[williams-21-11] Уильямс, Кристофер К.И. (2021). «Влияние классового дисбаланса на кривые точности отзыва» . Нейронные вычисления . 33 (4): 853–857. DOI : 10.1162 / neco_a_01362 .

[siblini-20-12] Siblini, W .; Fréry, J .; He-Guelton, L .; Oblé, F .; Ван, YQ (2020). «Освойте свои показатели с помощью калибровки» . В М. Бертольд, А. Фелдерс и Г. Кремпль (ред.). Достижения в области интеллектуального анализа данных XVIII . Springer. С. 457–469. DOI : 10.1007 / 978-3-030-44584-3_36 .CS1 maint: множественные имена: список редакторов ( ссылка )

[13] Beitzel., Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 .

[14] X. Li; Ю.-Й. Ванга; А. Асеро (июль 2008 г.). Изучение цели запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . DOI : 10.1145 / 1390334.1390393 . S2CID 8482989 .

[15] См., Например, оценку [1] .

[16] Пауэрс, Дэвид М. В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [ cs.IR ].

[Derczynski2016-17] Дерчинский, Л. (2016). Комплементарность, F-оценка и оценка НЛП . Труды Международной конференции по языковым ресурсам и оценке .

[18] Рука, Дэвид. «Замечание об использовании F-меры для оценки алгоритмов связывания записей - Размеры» . app.dimensions.ai . DOI : 10.1007 / s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID 38782128 . Проверено 8 декабря 2018 .

[19] Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (6): 6. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .

[Powers2007-20] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, запоминания и оценки F до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .

[21] Тарват А. (август 2018 г.). «Классификационные методы оценки» . Прикладные вычисления и информатика (опережающий печать). DOI : 10.1016 / j.aci.2018.08.003 .

[22] Дж. Опиц; С. Бурст (2019). «Макро F1 и Макро F1». arXiv : 1911.03347 [ stat.ML ].

[1]