Было высказано предположение , что коэффициент Phi быть объединены в этой статье. ( Обсудить ) Предлагается с августа 2020 года. |
Коэффициент корреляции Мэтьюза (MCC) или коэффициент phi используется в машинном обучении как мера качества бинарных (двухклассных) классификаций , введенных биохимиком Брайаном У. Мэтьюзом в 1975 году. [1] MCC определяется идентично классификации Пирсона. фи коэффициент , введенный К. Пирсоном , [2] [3] также известно как коэффициент фи Святочного от его введения Udny Йоль в 1912 году [4] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюзом на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.
Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы очень разных размеров. [5] MCC - это, по сути, коэффициент корреляции между наблюдаемыми и предсказанными двоичными классификациями; он возвращает значение от -1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 - не лучше, чем случайное предсказание, а -1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равно ни -1, ни 0, ни +1, это не является надежным индикатором того, насколько предсказатель похож на случайное предположение, потому что MCC зависит от набора данных. [6] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.
где n - общее количество наблюдений.
Хотя не существует идеального способа описать матрицу путаницы истинных и ложных положительных и отрицательных результатов одним числом, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. [7] Другие меры, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к большему набору обеспечивает высокую долю правильных прогнозов, но обычно не является полезной классификацией.
MCC можно рассчитать непосредственно из матрицы неточностей по формуле:
В этом уравнении TP - это количество истинных положительных результатов , TN - количество истинных отрицательных результатов , FP - количество ложных срабатываний и FN - количество ложных отрицательных результатов . Если любая из четырех сумм в знаменателе равна нулю, знаменатель может быть произвольно установлен на единицу; в результате коэффициент корреляции Мэтьюза равен нулю, что может быть показано как правильное предельное значение.
MCC можно рассчитать по формуле:
с использованием положительной прогнозной ценности, истинно положительной скорости, истинно отрицательной скорости, отрицательной прогнозной ценности, частоты ложных открытий, ложных отрицательных оценок, ложноположительных результатов и ложных пропусков.
Исходная формула, приведенная Мэтьюзом, была следующей: [1]
Это равно формуле, приведенной выше. В качестве коэффициента корреляции , коэффициент корреляции Matthews является средним геометрическим из коэффициентов регрессии задачи и ее двойной . Компонентные коэффициенты регрессии коэффициента корреляции Мэтьюза - это Маркированность (Δp) и J-статистика Юдена ( Информированность или Δp '). [7] [8] Заметность и информированность соответствуют различным направлениям информационного потока и обобщают статистику J Юдена ,p статистики и (как их среднее геометрическое) коэффициент корреляции Мэтьюза для более чем двух классов. [7]
Некоторые ученые утверждают, что коэффициент корреляции Мэтьюса является наиболее информативной единичной оценкой для определения качества предсказания бинарного классификатора в контексте матрицы неточностей. [9]
Пример [ править ]
Для выборки из 13 изображений, 8 кошек и 5 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,
- фактический = [1,1,1,1,1,1,1,1,0,0,0,0,0],
Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 13 изображений и прогоняем их через классификатор, и классификатор делает 8 точных прогнозов и пропускает 5: 3 кошек, ошибочно предсказанных как собак (первые 3 прогноза) и 2 собаки ошибочно предсказаны как кошки (последние 2 прогноза).
- прогноз = [0,0,0,1,1,1,1,1,0,0,0,1,1]
С помощью этих двух помеченных наборов (фактический и прогнозный) мы можем создать матрицу путаницы, которая суммирует результаты тестирования классификатора:
|
В этой матрице путаницы из 8 изображений кошек система определила, что 3 были собаками, а из 5 изображений собак она предсказала, что 2 были кошками. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому можно легко визуально проверить таблицу на предмет ошибок прогноза, поскольку они будут представлены значениями за пределами диагонали.
В абстрактном смысле матрица путаницы выглядит следующим образом:
|
где: P = положительный; N = отрицательный; TP = истинно положительный; FP = ложноположительный результат; TN = истинно отрицательный; FN = ложноотрицательный.
Подставляем числа из формулы:
- MCC = [(5 × 3) - (2 × 3)] / Sqrt [(5 + 2) × (5 + 3) × (3 + 2) × (3 + 3)] = 9 / Sqrt [1680] ≈ 0,219
Матрица путаницы [ править ]
Источники: Fawcett (2006), [10] Piryonesi and El-Diraby (2020), [11] Powers (2011), [12] Ting (2011), [13] CAWCR, [14] D. Chicco & G. Jurman (2020, 2021) , [15] [16] Тарват (2018). [17] |
Определим эксперимент из P положительных примеров и N отрицательных случаев для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств 2 × 2 или матрицы неточностей следующим образом:
Истинное состояние | ||||||
Всего населения | Состояние положительное | Состояние отрицательное | Распространенность =Σ Условие положительное/Σ Общая численность населения | Точность (ACC) =Σ Истинно положительный + Σ Истинно отрицательный/Σ Общая численность населения | ||
Прогнозируемое состояние положительное | Истинно положительный | Ложноположительный результат , ошибка типа I | Положительная прогностическая ценность (PPV), точность =Σ Истинно положительный/Σ Прогнозируемое состояние положительное | Коэффициент ложного обнаружения (FDR) =Σ Ложноположительный/Σ Прогнозируемое состояние положительное | ||
Прогнозируемое состояние отрицательное | Ложноотрицательный результат , ошибка типа II | Истинно отрицательный | Уровень ложных пропусков (FOR) =Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное | Отрицательная прогностическая ценность (NPV) =Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное | ||
Истинно положительный коэффициент (TPR), отзыв , чувствительность , вероятность обнаружения, мощность =Σ Истинно положительный/Σ Условие положительное | Частота ложных срабатываний (FPR), выпадение , вероятность ложной тревоги =Σ Ложноположительный/Σ Условие отрицательное | Отношение положительного правдоподобия (LR +) =TPR/FPR | Отношение диагностических шансов (DOR) =LR +/LR− | F 1 балл = 2 ·Точность · Отзыв/Точность + отзыв | ||
Уровень ложноотрицательных результатов (FNR), коэффициент промахов =Σ Ложноотрицательный/Σ Условие положительное | Специфичность (SPC), избирательность, истинно отрицательная скорость (TNR) =Σ Истинно отрицательный/Σ Условие отрицательное | Отрицательное отношение правдоподобия (LR−) =FNR/TNR |
Мультиклассовый футляр [ править ]
Коэффициент корреляции Мэтьюза был обобщен на мультиклассовый случай. Это обобщение было названо автором статистикой (для K различных классов) и определено в терминах матрицы неточностей [18] . [19]
Когда имеется более двух меток, MCC больше не будет находиться в диапазоне от -1 до +1. Вместо этого минимальное значение будет между -1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.
Эту формулу легче понять, задав промежуточные переменные: [20]
- количество раз, когда класс k действительно имел место,
- количество предсказаний класса k,
- общее количество правильно спрогнозированных образцов,
- общее количество образцов. Это позволяет выразить формулу как:
Использование приведенной выше формулы для вычисления показателя MCC для предсказания Dog & Cat, описанного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:
- число = (8 × 13) - (7 × 8) - (6 × 5) = 18
- denom = Sqrt [(13 2 - 7 2 - 6 2 ) × (13 2 - 8 2 - 5 2 )] = Sqrt [6720]
- MCC = 18 / 81,975 ≈ 0,219
Преимущества MCC над точностью и оценкой F1 [ править ]
Как объяснил Давид Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии» ( BioData Mining , 2017) и Джузеппе Юрман в своей статье «Преимущества коэффициента корреляции Мэтьюза (MCC) над баллом F1 и точности в двоичной системе оценка классификации » ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем оценка F1 и точность при оценке проблем бинарной классификации, поскольку он учитывает коэффициенты баланса четырех категорий матрицы путаницы (истинные положительные, истинные отрицательные, ложные положительные, ложноотрицательные). [9] [21]
В предыдущей статье объясняется совет 8 :
Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако, даже если точность и оценка F1 широко используются в статистике, оба они могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы неточностей при их окончательном вычислении.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами и только 5 являются отрицательными элементами (как описано в совете 5). А также предположим, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда дает положительные результаты. Представьте, что вы не знаете об этой проблеме.
Таким образом, применяя свой единственный положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
- TP = 95, FP = 5; TN = 0, FN = 0.
Эти значения приводят к следующим оценкам производительности: точность = 95% и оценка F1 = 97,44%. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и будете думать, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы ошиблись бы.
Напротив, чтобы избежать этих опасных вводящих в заблуждение иллюзий, есть еще один показатель производительности, который вы можете использовать: коэффициент корреляции Мэтьюза [40] (MCC).
(Уравнение 3, MCC: худшее значение = -1; лучшее значение = +1).
Если учесть долю каждого класса матрицы путаницы в ее формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере оценка MCC будет неопределенной (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы узнаете, что есть проблемы, которые вы должны решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию того же набора данных, что привело к следующим значениям категорий матрицы неточностей:
- TP = 90, FP = 4; TN = 1, FN = 5.
В этом примере классификатор хорошо зарекомендовал себя при классификации положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и оценки точности будут чрезвычайно высокими: точность = 91% и оценка F1 = 95,24%. Подобно предыдущему случаю, если бы исследователь проанализировал только эти два показателя оценки без учета MCC, он ошибочно подумал бы, что алгоритм выполняет свою задачу достаточно хорошо, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза снова будет иметь решающее значение. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать эффективность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC) вместо точности и балла F1 для любой задачи бинарной классификации.
- Давид Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии [9]
Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный. В первом примере выше оценка F1 высока, потому что класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:
- TP = 0, FP = 0; TN = 5, FN = 95
Это дает оценку F1 = 0%.
MCC не зависит от того, какой класс является положительным, который имеет преимущество над оценкой F1, чтобы избежать неправильного определения положительного класса.
См. Также [ править ]
- Каппа Коэна
- V Крамера , аналогичная мера связи между номинальными переменными.
- Оценка F1
- Коэффициент Phi
- Индекс Фаулкса – Маллоуса
Ссылки [ править ]
- ^ а б Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysica Acta (BBA) - Структура белка . 405 (2): 442–451. DOI : 10.1016 / 0005-2795 (75) 90109-9 . PMID 1180967 .
- ^ Крамер, Х. (1946). Математические методы статистики . Princeton: Princeton University Press, стр. 282 (второй абзац). ISBN 0-691-08004-6
- ↑ Дата неясна, но до его смерти в 1936 году.
- ^ Юла, Г. Udny (1912). «О методах измерения связи между двумя атрибутами» . Журнал Королевского статистического общества . 75 (6): 579–652. DOI : 10.2307 / 2340126 . JSTOR 2340126 .
- ^ Boughorbel, SB (2017). «Оптимальный классификатор для несбалансированных данных с использованием метрики Matthews Correlation Coefficient» . PLOS ONE . 12 (6): e0177678. Bibcode : 2017PLoSO..1277678B . DOI : 10.1371 / journal.pone.0177678 . PMC 5456046 . PMID 28574989 .
- ^ Chicco, D .; Tötsch, N .; Юрман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioDataMining . 14 . DOI : 10.1186 / s13040-021-00244-Z .
- ^ a b c Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF) . Журнал технологий машинного обучения . 2 (1): 37–63.
- ^ Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика . 17 (2–3): 97–119. DOI : 10.1016 / s0911-6044 (03) 00059-9 . S2CID 17104364 .
- ^ a b c Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . BioData Mining . 10 (35): 35. DOI : 10,1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .
- ^ Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .
- ^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
- ^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
- Перейти ↑ Ting, Kai Ming (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
- ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .
- ^ Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)
- ^ Chicco Д., Toetsch Н., Jurman Г. (февраль 2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMID 33541410 . CS1 maint: uses authors parameter (link)
- ^ Tharwat А. (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .
- ^ Городкин, Ян (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия . 28 (5): 367–374. DOI : 10.1016 / j.compbiolchem.2004.09.006 . PMID 15556477 .
- ^ Городкин, Ян. "Страница РК " . Страница РК . Проверено 28 декабря +2016 .
- ^ «Коэффициент корреляции Мэтью» . scikit-learn.org .
- ^ Chicco D, Jurman G (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .