Матрица путаницы

Терминология и выводы
из матрицы неточностей
положительное состояние (P) количество реальных положительных случаев в данных условие отрицательное (N) количество реальных отрицательных случаев в данных истинно положительный (TP) экв. с хитом истинно отрицательный (TN) экв. с правильным отклонением ложное срабатывание (FP) экв. с ложной тревогой , ошибкой типа I или недооценкой ложноотрицательный (FN) экв. с промахом, ошибкой типа II или переоценкой чувствительность , отзыв , частота совпадений или истинно положительный показатель (TPR) $\mathrm {TPR} ={\frac {\mathrm {TP} }{\mathrm {P} }}={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} }}=1-\mathrm {FNR}$ специфичность , селективность или истинно отрицательный показатель (TNR) $\mathrm {TNR} ={\frac {\mathrm {TN} }{\mathrm {N} }}={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FP} }}=1-\mathrm {FPR}$ точность или положительная прогностическая ценность (PPV) $\mathrm {PPV} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FP} }}=1-\mathrm {FDR}$ отрицательная прогностическая ценность (NPV) $\mathrm {NPV} ={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FN} }}=1-\mathrm {FOR}$ коэффициент пропусков или ложноотрицательных результатов (FNR) $\mathrm {FNR} ={\frac {\mathrm {FN} }{\mathrm {P} }}={\frac {\mathrm {FN} }{\mathrm {FN} +\mathrm {TP} }}=1-\mathrm {TPR}$ частота выпадений или ложных срабатываний (FPR) $\mathrm {FPR} ={\frac {\mathrm {FP} }{\mathrm {N} }}={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TN} }}=1-\mathrm {TNR}$ коэффициент ложного обнаружения (FDR) $\mathrm {FDR} ={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TP} }}=1-\mathrm {PPV}$ коэффициент ложных пропусков (FOR) $\mathrm {FOR} ={\frac {\mathrm {FN} }{\mathrm {FN} +\mathrm {TN} }}=1-\mathrm {NPV}$ порог распространенности (ПП) $PT={\frac {{\sqrt {TPR(-TNR+1)}}+TNR-1}{(TPR+TNR-1)}}$ оценка угрозы (TS) или индекс критического успеха (CSI) $\mathrm {TS} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} +\mathrm {FP} }}$ точность (ACC) $\mathrm {ACC} ={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {P} +\mathrm {N} }}={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {TP} +\mathrm {TN} +\mathrm {FP} +\mathrm {FN} }}$ сбалансированная точность (BA) $\mathrm {BA} ={\frac {TPR+TNR}{2}}$ Оценка F1 является средним гармоническим из точности и чувствительности $\mathrm {F} _{1}=2\times {\frac {\mathrm {PPV} \times \mathrm {TPR} }{\mathrm {PPV} +\mathrm {TPR} }}={\frac {2\mathrm {TP} }{2\mathrm {TP} +\mathrm {FP} +\mathrm {FN} }}$ Коэффициент корреляции Мэтьюза (MCC) $\mathrm {MCC} ={\frac {\mathrm {TP} \times \mathrm {TN} -\mathrm {FP} \times \mathrm {FN} }{\sqrt {(\mathrm {TP} +\mathrm {FP} )(\mathrm {TP} +\mathrm {FN} )(\mathrm {TN} +\mathrm {FP} )(\mathrm {TN} +\mathrm {FN} )}}}$ Индекс Фаулкса – Маллоуса (FM) $\mathrm {FM} ={\sqrt {{\frac {TP}{TP+FP}}\times {\frac {TP}{TP+FN}}}}={\sqrt {PPV\times TPR}}$ информированность или информированность букмекеров (BM) $\mathrm {BM} =\mathrm {TPR} +\mathrm {TNR} -1$ маркировка (МК) или дельтаП (Δp) $\mathrm {MK} =\mathrm {PPV} +\mathrm {NPV} -1$ Источники: Fawcett (2006), ^[1] Piryonesi and El-Diraby (2020), ^[2] Powers (2011), ^[3] Ting (2011), ^[4] CAWCR, ^[5] D. Chicco & G. Jurman (2020, 2021) , ^[6]^[7] Тарват (2018). ^[8]

В области машинного обучения и, в частности, проблемы статистической классификации , матрица неточностей , также известная как матрица ошибок ^[9], представляет собой особый макет таблицы, который позволяет визуализировать производительность алгоритма, обычно контролируемого обучения (в обучение без учителя обычно называется матрицей соответствия ). Каждая строка матрицы представляет экземпляры в прогнозируемом классе, а каждый столбец представляет экземпляры в фактическом классе (или наоборот). ^[10] Название проистекает из того факта, что оно позволяет легко увидеть, не путает ли система два класса (т.е. часто ошибочно маркируют один как другой).

Это особый вид таблицы непредвиденных обстоятельств с двумя измерениями («фактическое» и «прогнозируемое») и идентичными наборами «классов» в обоих измерениях (каждая комбинация измерения и класса является переменной в таблице непредвиденных обстоятельств).

Пример [ править ]

Для выборки из 13 изображений, 8 кошек и 5 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,

фактический = [1,1,1,1,1,1,1,1,0,0,0,0,0],

Предположим, что классификатор, который проводит различие между кошками и собаками, обучен, и мы берем 13 изображений и пропускаем их через классификатор, и классификатор делает 8 точных прогнозов и пропускает 5: 3 кошек, ошибочно предсказанных как собак (первые 3 прогноза) и 2 собаки ошибочно предсказаны как кошки (последние 2 прогноза).

прогноз = [0,0,0,1,1,1,1,1,0,0,0,1,1]

С помощью этих двух помеченных наборов (фактический и прогнозный) мы можем создать матрицу путаницы, которая суммирует результаты тестирования классификатора:

Фактический класс Пред- от психотропного класса	Кот	Собака
Кот	5	2
Собака	3	3

В этой матрице путаницы из 8 изображений кошек система определила, что 3 были собаками, а из 5 изображений собак она предсказала, что 2 были кошками. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому можно легко визуально проверить таблицу на предмет ошибок прогноза, поскольку они будут представлены значениями за пределами диагонали.

В абстрактном смысле матрица путаницы выглядит следующим образом:

Фактический класс Пред- от психотропного класса	п	N
п	TP	FP
N	FN	TN

Таблица путаницы [ править ]

Сравнение средней точности и процента ложноотрицательных (завышенных) оценок пяти моделей классификации машинного обучения (мульти-класс). Модели №1, №2 и №4 имеют очень похожую точность, но разные уровни ложноотрицательных или завышенных оценок. ^[11]

В прогностического анализа , А таблица путаницы (иногда также называют спутанность матрица ) представляет собой таблицу с двумя строками и двумя столбцами , что сообщает число ложных срабатываний , ложных негативов , истинно положительных и истинно отрицательных. Это позволяет проводить более подробный анализ, чем простая пропорция правильных классификаций (точности). Точность приведет к ошибочным результатам, если набор данных несбалансирован; то есть когда количество наблюдений в разных классах сильно различается. Например, если в данных было 95 кошек и только 5 собак, конкретный классификатор мог бы классифицировать все наблюдения как кошек. Общая точность будет 95%, но более подробно классификатор будет иметь 100% степень распознавания ( чувствительность ) для класса кошек, но 0% степень распознавания для класса собак. В таких случаях оценка F1 еще более ненадежна и дает здесь более 97,4%, тогда как информированностьустраняет такую предвзятость и дает 0 как вероятность обоснованного решения для любой формы угадывания (здесь всегда угадывающая кошка). Матрица неточностей не ограничивается двоичной классификацией и может также использоваться в мультиклассовых классификаторах. ^[11]

По словам Давиде Чикко и Джузеппе Джурмана, наиболее информативным показателем для оценки матрицы неточностей является коэффициент корреляции Мэтьюза (MCC) . ^[12]

Предполагая приведенную выше матрицу путаницы, соответствующая ей таблица ошибок для класса cat будет:

Фактический класс Пред- от психотропного класса	Кот	Не кошка
Кот	5 истинных положительных моментов	2 ложных срабатывания
Не кошка	3 ложноотрицательных результата	3 истинных негатива

Окончательная таблица путаницы будет содержать средние значения для всех классов вместе взятых.

Определим эксперимент из P положительных примеров и N отрицательных случаев для некоторого условия. Четыре результата могут быть сформулированы в матрице путаницы 2 × 2 следующим образом:

		Истинное состояние
	Всего населения	Состояние положительное	Состояние отрицательное	Распространенность =Σ Условие положительное/Σ Общая численность населения	Точность (ACC) =Σ Истинно положительный + Σ Истинно отрицательный/Σ Общая численность населения
Прогнозируемое состояние	Прогнозируемое состояние положительное	Истинно положительный	Ложноположительный результат , ошибка типа I	Положительная прогностическая ценность (PPV), точность =Σ Истинно положительный/Σ Прогнозируемое состояние положительное	Коэффициент ложного обнаружения (FDR) =Σ Ложноположительный/Σ Прогнозируемое состояние положительное
	Прогнозируемое состояние отрицательное	Ложноотрицательный результат , ошибка типа II	Истинно отрицательный	Уровень ложных пропусков (FOR) =Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное	Отрицательная прогностическая ценность (NPV) =Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
		Истинно положительный коэффициент (TPR), отзыв , чувствительность , вероятность обнаружения, мощность =Σ Истинно положительный/Σ Условие положительное	Частота ложных срабатываний (FPR), выпадение , вероятность ложной тревоги =Σ Ложноположительный/Σ Условие отрицательное	Отношение положительного правдоподобия (LR +) =TPR/FPR	Отношение диагностических шансов (DOR) =LR +/LR−	F 1 балл = 2 ·Точность · Отзыв/Точность + отзыв
		Уровень ложноотрицательных результатов (FNR), коэффициент промахов =Σ Ложноотрицательный/Σ Условие положительное	Специфичность (SPC), избирательность, истинно отрицательная скорость (TNR) =Σ Истинно отрицательный/Σ Условие отрицательное	Отрицательное отношение правдоподобия (LR−) =FNR/TNR

См. Также [ править ]

Положительные и отрицательные прогнозные значения

Ссылки [ править ]

^ Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .
^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
Перейти ↑ Ting, Kai Ming (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .
^ Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)
^ Chicco Д., Toetsch Н., Jurman Г. (февраль 2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMID 33541410 . CS1 maint: uses authors parameter (link)
^ Tharwat А. (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .
^ Stehman, Стивен В. (1997). «Выбор и интерпретация мер точности тематической классификации». Дистанционное зондирование окружающей среды . 62 (1): 77–89. Bibcode : 1997RSEnv..62 ... 77S . DOI : 10.1016 / S0034-4257 (97) 00083-7 .
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63. S2CID 55767944 .
^ a b Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
^ Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)

[1] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[2] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[3] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[4] Перейти ↑ Ting, Kai Ming (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[5] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[6] Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)

[7] Chicco Д., Toetsch Н., Jurman Г. (февраль 2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMID 33541410 . CS1 maint: uses authors parameter (link)

[8] Tharwat А. (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[9] Stehman, Стивен В. (1997). «Выбор и интерпретация мер точности тематической классификации». Дистанционное зондирование окружающей среды . 62 (1): 77–89. Bibcode : 1997RSEnv..62 ... 77S . DOI : 10.1016 / S0034-4257 (97) 00083-7 .

[Powers2011-10] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63. S2CID 55767944 .

[:1-11] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[12] Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)

[1]

vтеМатричные классы
Явно ограниченные записи	(0,1) Альтернант Антидиагональный Антиэрмитский Антисимметричный Стрелка Группа Двухдиагональный Двоичный Бисимметричный Блок-диагональ Блокировать Блок трехдиагональный Логический Коши Центросимметричный Конференция Комплекс Адамар Копозитивный По диагонали доминирует Диагональ Дискретное преобразование Фурье Элементарный Эквивалент Фробениус Обобщенная перестановка Адамар Ганкель Эрмитский Hessenberg Пустой Целое число Логический Марков Metzler Мономиальный Мур Неотрицательный Разделенный Паризи Пятидиагональный Перестановка Персимметричный Полиномиальный Положительный Кватернионный Знак Подпись Косоэрмитский Кососимметричный Горизонт Разреженный Сильвестр Симметричный Теплиц Треугольный Трехдиагональный Унитарный Vandermonde Уолш Z
Постоянный	Обмен Гильберта Личность Лемер Из них Паскаль Паули Редхеффер Сдвиг Нуль
Условия на собственные значения или собственные векторы	Компаньон Сходящийся Дефектный Диагонализуемый Гурвиц Положительно определенный Стабильность Стилтьес
Удовлетворяющие условия на товары или обратное	Конгруэнтный Идемпотент или проекция Обратимый Инволютивный Нильпотентный Нормальный Ортогональный Ортонормированный Единственное число Унимодулярный Унипотентный Полностью унимодулярный Взвешивание
Со специальными приложениями	Приспосабливать Знакопеременный Дополненный Безу Карлеман Картан Циркулянт Кофактор Коммутация Путаница Coxeter Оскорбительный Расстояние Дублирование Устранение Евклидово расстояние Фундаментальное (линейное дифференциальное уравнение) Генератор Грамиан Гессен Домохозяин Якобиан Момент Заплатить Выбирать Случайный Вращение Зейферт Сдвиг Сходство Симплектический Полностью положительный Трансформация Wedderburn X – Y – Z
Используется в статистике	Бернулли Центрирование Корреляция Ковариация Дизайн Дисперсия Вдвойне стохастический Информация Fisher Шляпа Точность Стохастик Переход
Используется в теории графов	Смежность Двуличность Степень Эдмондс Заболеваемость Лапласиан Зайдельская смежность Косая смежность Тутте
Используется в науке и технике	Кабиббо – Кобаяси – Маскава Плотность Фундаментальный (компьютерное зрение) Нечеткий ассоциативный Гамма Гелл-Манн Гамильтониан Нерегулярный Перекрывать S Государственный переход Замена Z (химия)
Связанные термины	Иорданская каноническая форма Линейная независимость Матрица экспоненциальная Матричное представление конических сечений Идеальная матрица Псевдообратный Кватернионная матрица Форма ступенчатого эшелона Вронскиан
Список матриц Категория: Матрицы