F-оценка

Точность и отзыв

В статистическом анализе бинарной классификации , то F-счет или F-мера является мерой точности теста - в. Он рассчитывается на основе точности и отзыва теста, где точность - это количество правильно идентифицированных положительных результатов, деленное на количество всех положительных результатов, включая те, которые не были идентифицированы правильно, а отзыв - это количество правильно идентифицированных положительных результатов, разделенное по количеству всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.

Оценка F ₁ - это среднее гармоническое значение точности и запоминания. Более общий балл применяет дополнительные веса, оценивая точность или отзывчивость одного больше, чем другого. ${\ displaystyle F _ {\ beta}}$

Максимально возможное значение F-score составляет 1,0, что указывает на идеальную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. Оценка F ₁ также известна как коэффициент Соренсена – Дайса или коэффициент подобия Дайса (DSC). ^{[ необходима цитата ]}

Этимология [ править ]

Считается, что название F-мера было названо в честь другой F-функции в книге Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). ^[1]

Определение [ править ]

Этот раздел требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален ( Декабрь 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Традиционный F-мера или уравновешиваются F-оценка ( F ₁ балл ) является гармоническим средним точности и отзыва:

{\ Displaystyle F_ {1} = {\ frac {2} {\ mathrm {вспомнить} ^ {- 1} + \ mathrm {precision} ^ {- 1}}} = 2 \ cdot {\ frac {\ mathrm {precision } \ cdot \ mathrm {вспомнить}} {\ mathrm {precision} + \ mathrm {вспомнить}}} = {\ frac {\ mathrm {tp}} {\ mathrm {tp} + {\ frac {1} {2} } (\ mathrm {fp} + \ mathrm {fn})}}}

.

${\ displaystyle F _ {\ beta}}$ [ редактировать ]

Более общая оценка F , которая использует положительный действительный коэффициент β, где β выбирается таким образом, что отзыв считается в β раз более важным, чем точность, составляет: ${\ displaystyle F _ {\ beta}}$

F_{\beta }=(1+\beta ^{2})\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{(\beta ^{2}\cdot \mathrm {precision} )+\mathrm {recall} }}

.

С точки зрения ошибок типа I и типа II это становится:

F_{\beta }={\frac {(1+\beta ^{2})\cdot \mathrm {true\ positive} }{(1+\beta ^{2})\cdot \mathrm {true\ positive} +\beta ^{2}\cdot \mathrm {false\ negative} +\mathrm {false\ positive} }}\,

.

Два обычно используемых значения β: 2, что весит отзыв выше, чем точность, и 0,5, что вес отзыва ниже, чем точность.

F-мера была получена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает в β раз большее значение вспоминанию, чем точность». ^[2] Он основан на Ван Rijsbergen эффективности меры «s $F_{\beta }$

E=1-\left({\frac {\alpha }{p}}+{\frac {1-\alpha }{r}}\right)^{-1}

.

Их отношения есть где . $F_{\beta }=1-E$ $\alpha ={\frac {1}{1+\beta ^{2}}}$

Диагностическое тестирование [ править ]

Это связано с областью двоичной классификации, где отзыв часто называют «чувствительностью».

		Истинное состояние
	Всего населения	Состояние положительное	Состояние отрицательное	Распространенность =Σ Условие положительное/Σ Общая численность населения	Точность (ACC) =Σ Истинно положительный + Σ Истинно отрицательный/Σ Общая численность населения
Прогнозируемое состояние	Прогнозируемое состояние положительное	Истинно положительный	Ложноположительный результат , ошибка типа I	Положительная прогностическая ценность (PPV), точность =Σ Истинно положительный/Σ Прогнозируемое состояние положительное	Коэффициент ложного обнаружения (FDR) =Σ Ложноположительный/Σ Прогнозируемое состояние положительное
	Прогнозируемое состояние отрицательное	Ложноотрицательный результат , ошибка типа II	Истинно отрицательный	Уровень ложных пропусков (FOR) =Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное	Отрицательная прогностическая ценность (NPV) =Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
		Истинно положительный коэффициент (TPR), отзыв , чувствительность , вероятность обнаружения, мощность =Σ Истинно положительный/Σ Условие положительное	Частота ложных срабатываний (FPR), выпадение , вероятность ложной тревоги =Σ Ложноположительный/Σ Условие отрицательное	Отношение положительного правдоподобия (LR +) =TPR/FPR	Отношение шансов диагностики (DOR) =LR +/LR−	F 1 балл = 2 ·Точность · Отзыв/Точность + отзыв
		Уровень ложноотрицательных результатов (FNR), коэффициент промахов =Σ Ложноотрицательный/Σ Условие положительное	Специфичность (SPC), избирательность, истинно отрицательная скорость (TNR) =Σ Истинно отрицательный/Σ Условие отрицательное	Отрицательное отношение правдоподобия (LR−) =FNR/TNR

Приложения [ править ]

F-оценка часто используется в области поиска информации для измерения поиска , классификации документов и запросов классификации производительности. ^{[3] В} более ранних работах основное внимание уделялось оценке F ₁ , но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы сделать больший упор либо на точность, либо на отзыв ^[4], и поэтому это наблюдается в широком применении. $F_{\beta }$

Оценка F также используется в машинном обучении . ^[5] Однако F-меры не принимают во внимание истинные отрицания, поэтому такие меры, как коэффициент корреляции Мэтьюса , информированность или каппа Коэна, могут быть предпочтительны для оценки производительности двоичного классификатора. ^[6]

F-оценка широко использовалась в литературе по обработке естественного языка ^[7], например, при оценке распознавания именованных сущностей и сегментации слов .

Критика [ править ]

Дэвид Хэнд и другие критикуют широкое использование шкалы F _1, поскольку она придает одинаковое значение точности и запоминанию. На практике разные типы неправильной классификации влекут за собой разные затраты. Другими словами, относительная важность точности и отзывчивости - один из аспектов проблемы. ^[8]

По словам Давиде Чикко и Джузеппе Юрмана, оценка F ₁ менее достоверна и информативна, чем коэффициент корреляции Мэтьюза (MCC) в бинарной классификации. ^[9]

Дэвид Пауэрс указал, что F ₁ игнорирует истинно отрицательные и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор предсказывает истинный класс и истинный класс предсказывает предсказание классификатора, предлагая отдельные мультиклассовые меры информированности и значимости для двух направлений, отмечая, что их среднее геометрическое является корреляцией. ^[10]

Отличие от индекса Фаулкса – Маллоуса [ править ]

В то время как F-мера представляет собой гармоническое среднее значение запоминания и точности, индекс Фаулкса – Маллоуса является их средним геометрическим . ^[11]

Расширение мультиклассовой классификации [ править ]

F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). В этой настройке окончательная оценка получается путем микро-усреднения (смещение в зависимости от частоты класса) или макро-усреднения (принимая все классы как одинаково важные). Для макро-усреднения кандидатами использовались две разные формулы: F-балл (арифметической) классовой точности и средств вспоминания или среднее арифметическое F-баллов по классам, где последние демонстрируют более желательные свойства. ^[12]

См. Также [ править ]

Матрица путаницы
МЕТЕОР
BLEU
NIST (метрическая система)
Рабочая характеристика приемника
ROUGE (метрическая система)
Коэффициент неопределенности , он же уровень владения
Частота ошибок в словах

Ссылки [ править ]

Перейти ↑ Sasaki, Y. (2007). «Истина F-меры» (PDF) .
^ Ван Rijsbergen, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
^ Beitzel., Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 .
^ X. Li; Ю.-Й. Ванга; А. Асеро (июль 2008 г.). Изучение намерения запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . DOI : 10.1145 / 1390334.1390393 . S2CID 8482989 .
^ См., Например, оценку [1] .
^ Пауэрс, Дэвид М. В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [ cs.IR ].
^ Derczynski, Л. (2016). Комплементарность, F-оценка и оценка НЛП . Труды Международной конференции по языковым ресурсам и оценке .
↑ Рука, Дэвид. «Замечание об использовании F-меры для оценки алгоритмов связывания записей - Размеры» . app.dimensions.ai . DOI : 10.1007 / s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID 38782128 . Проверено 8 декабря 2018 .
^ Chicco D, Jurman G (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (6): 6. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, запоминания и F-Score до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .
^ Tharwat A (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика (опережающий печать). DOI : 10.1016 / j.aci.2018.08.003 .
^ Дж. Опиц; С. Бурст (2019). «Макро F1 и Макро F1». arXiv : 1911.03347 [ stat.ML ].

[1] Перейти ↑ Sasaki, Y. (2007). «Истина F-меры» (PDF) .

[2] Ван Rijsbergen, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.

[3] Beitzel., Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 .

[4] X. Li; Ю.-Й. Ванга; А. Асеро (июль 2008 г.). Изучение намерения запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . DOI : 10.1145 / 1390334.1390393 . S2CID 8482989 .

[5] См., Например, оценку [1] .

[6] Пауэрс, Дэвид М. В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [ cs.IR ].

[Derczynski2016-7] Derczynski, Л. (2016). Комплементарность, F-оценка и оценка НЛП . Труды Международной конференции по языковым ресурсам и оценке .

[8] Рука, Дэвид. «Замечание об использовании F-меры для оценки алгоритмов связывания записей - Размеры» . app.dimensions.ai . DOI : 10.1007 / s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID 38782128 . Проверено 8 декабря 2018 .

[9] Chicco D, Jurman G (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (6): 6. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .

[Powers2007-10] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, запоминания и F-Score до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .

[11] Tharwat A (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика (опережающий печать). DOI : 10.1016 / j.aci.2018.08.003 .

[12] Дж. Опиц; С. Бурст (2019). «Макро F1 и Макро F1». arXiv : 1911.03347 [ stat.ML ].

[1]