Коэффициент корреляции Мэтьюза

Было высказано предположение , что коэффициент Phi быть объединены в этой статье. ( Обсудить ) Предлагается с августа 2020 года.

Коэффициент корреляции Мэтьюза (MCC) или коэффициент phi используется в машинном обучении как мера качества бинарных (двухклассных) классификаций , введенных биохимиком Брайаном У. Мэтьюзом в 1975 году. ^[1] MCC определяется идентично классификации Пирсона. фи коэффициент , введенный К. Пирсоном , ^[2]^[3] также известно как коэффициент фи Святочного от его введения Udny Йоль в 1912 году ^[4] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюзом на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.

Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы очень разных размеров. ^[5] MCC - это, по сути, коэффициент корреляции между наблюдаемыми и предсказанными двоичными классификациями; он возвращает значение от -1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 - не лучше, чем случайное предсказание, а -1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равно ни -1, ни 0, ни +1, это не является надежным индикатором того, насколько предсказатель похож на случайное предположение, потому что MCC зависит от набора данных. ^[6] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.

|{\text{MCC}}|={\sqrt {\frac {\chi ^{2}}{n}}}

где n - общее количество наблюдений.

Хотя не существует идеального способа описать матрицу путаницы истинных и ложных положительных и отрицательных результатов одним числом, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. ^[7] Другие меры, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к большему набору обеспечивает высокую долю правильных прогнозов, но обычно не является полезной классификацией.

MCC можно рассчитать непосредственно из матрицы неточностей по формуле:

{\text{MCC}}={\frac {{\mathit {TP}}\times {\mathit {TN}}-{\mathit {FP}}\times {\mathit {FN}}}{\sqrt {({\mathit {TP}}+{\mathit {FP}})({\mathit {TP}}+{\mathit {FN}})({\mathit {TN}}+{\mathit {FP}})({\mathit {TN}}+{\mathit {FN}})}}}

В этом уравнении TP - это количество истинных положительных результатов , TN - количество истинных отрицательных результатов , FP - количество ложных срабатываний и FN - количество ложных отрицательных результатов . Если любая из четырех сумм в знаменателе равна нулю, знаменатель может быть произвольно установлен на единицу; в результате коэффициент корреляции Мэтьюза равен нулю, что может быть показано как правильное предельное значение.

MCC можно рассчитать по формуле:

{\text{MCC}}={\sqrt {{\mathit {PPV}}\times {\mathit {TPR}}\times {\mathit {TNR}}\times {\mathit {NPV}}}}-{\sqrt {{\mathit {FDR}}\times {\mathit {FNR}}\times {\mathit {FPR}}\times {\mathit {FOR}}}}

с использованием положительной прогнозной ценности, истинно положительной скорости, истинно отрицательной скорости, отрицательной прогнозной ценности, частоты ложных открытий, ложных отрицательных оценок, ложноположительных результатов и ложных пропусков.

Исходная формула, приведенная Мэтьюзом, была следующей: ^[1]

{\begin{aligned}N&={\mathit {TN}}+{\mathit {TP}}+{\mathit {FN}}+{\mathit {FP}}\\S&={\frac {{\mathit {TP}}+{\mathit {FN}}}{N}}\\P&={\frac {{\mathit {TP}}+{\mathit {FP}}}{N}}\\{\text{MCC}}&={\frac {{\mathit {TP}}/N-S\times P}{\sqrt {PS(1-S)(1-P)}}}\end{aligned}}

Это равно формуле, приведенной выше. В качестве коэффициента корреляции , коэффициент корреляции Matthews является средним геометрическим из коэффициентов регрессии задачи и ее двойной . Компонентные коэффициенты регрессии коэффициента корреляции Мэтьюза - это Маркированность (Δp) и J-статистика Юдена ( Информированность или Δp '). ^[7]^[8] Заметность и информированность соответствуют различным направлениям информационного потока и обобщают статистику J Юдена , $\delta$ p статистики и (как их среднее геометрическое) коэффициент корреляции Мэтьюза для более чем двух классов. ^[7]

Некоторые ученые утверждают, что коэффициент корреляции Мэтьюса является наиболее информативной единичной оценкой для определения качества предсказания бинарного классификатора в контексте матрицы неточностей. ^[9]

Пример [ править ]

Для выборки из 13 изображений, 8 кошек и 5 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,

фактический = [1,1,1,1,1,1,1,1,0,0,0,0,0],

Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 13 изображений и прогоняем их через классификатор, и классификатор делает 8 точных прогнозов и пропускает 5: 3 кошек, ошибочно предсказанных как собак (первые 3 прогноза) и 2 собаки ошибочно предсказаны как кошки (последние 2 прогноза).

прогноз = [0,0,0,1,1,1,1,1,0,0,0,1,1]

С помощью этих двух помеченных наборов (фактический и прогнозный) мы можем создать матрицу путаницы, которая суммирует результаты тестирования классификатора:

		Фактический класс
		Кот	Собака
Прогнозируемый класс	Кот	5	2
Прогнозируемый класс	Собака	3	3

В этой матрице путаницы из 8 изображений кошек система определила, что 3 были собаками, а из 5 изображений собак она предсказала, что 2 были кошками. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому можно легко визуально проверить таблицу на предмет ошибок прогноза, поскольку они будут представлены значениями за пределами диагонали.

В абстрактном смысле матрица путаницы выглядит следующим образом:

		Фактический класс
		п	N
Прогнозируемый класс	п	TP	FP
Прогнозируемый класс	N	FN	TN

где: P = положительный; N = отрицательный; TP = истинно положительный; FP = ложноположительный результат; TN = истинно отрицательный; FN = ложноотрицательный.

Подставляем числа из формулы:

MCC = [(5 × 3) - (2 × 3)] / Sqrt [(5 + 2) × (5 + 3) × (3 + 2) × (3 + 3)] = 9 / Sqrt [1680] ≈ 0,219

Матрица путаницы [ править ]

Терминология и выводы
из матрицы неточностей
положительное состояние (P) количество реальных положительных случаев в данных условие отрицательное (N) количество реальных отрицательных случаев в данных истинно положительный (TP) экв. с хитом истинно отрицательный (TN) экв. с правильным отклонением ложное срабатывание (FP) экв. с ложной тревогой , ошибкой типа I или недооценкой ложноотрицательный (FN) экв. с промахом, ошибкой типа II или переоценкой чувствительность , отзыв , частота совпадений или истинно положительный показатель (TPR) $\mathrm {TPR} ={\frac {\mathrm {TP} }{\mathrm {P} }}={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} }}=1-\mathrm {FNR}$ специфичность , селективность или истинно отрицательный показатель (TNR) $\mathrm {TNR} ={\frac {\mathrm {TN} }{\mathrm {N} }}={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FP} }}=1-\mathrm {FPR}$ точность или положительная прогностическая ценность (PPV) $\mathrm {PPV} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FP} }}=1-\mathrm {FDR}$ отрицательная прогностическая ценность (NPV) $\mathrm {NPV} ={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FN} }}=1-\mathrm {FOR}$ коэффициент пропусков или ложноотрицательных результатов (FNR) $\mathrm {FNR} ={\frac {\mathrm {FN} }{\mathrm {P} }}={\frac {\mathrm {FN} }{\mathrm {FN} +\mathrm {TP} }}=1-\mathrm {TPR}$ частота выпадений или ложных срабатываний (FPR) $\mathrm {FPR} ={\frac {\mathrm {FP} }{\mathrm {N} }}={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TN} }}=1-\mathrm {TNR}$ коэффициент ложного обнаружения (FDR) $\mathrm {FDR} ={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TP} }}=1-\mathrm {PPV}$ коэффициент ложных пропусков (FOR) $\mathrm {FOR} ={\frac {\mathrm {FN} }{\mathrm {FN} +\mathrm {TN} }}=1-\mathrm {NPV}$ порог распространенности (ПП) $PT={\frac {{\sqrt {TPR(-TNR+1)}}+TNR-1}{(TPR+TNR-1)}}$ оценка угрозы (TS) или индекс критического успеха (CSI) $\mathrm {TS} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} +\mathrm {FP} }}$ точность (ACC) $\mathrm {ACC} ={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {P} +\mathrm {N} }}={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {TP} +\mathrm {TN} +\mathrm {FP} +\mathrm {FN} }}$ сбалансированная точность (BA) $\mathrm {BA} ={\frac {TPR+TNR}{2}}$ Оценка F1 является средним гармоническим из точности и чувствительности $\mathrm {F} _{1}=2\times {\frac {\mathrm {PPV} \times \mathrm {TPR} }{\mathrm {PPV} +\mathrm {TPR} }}={\frac {2\mathrm {TP} }{2\mathrm {TP} +\mathrm {FP} +\mathrm {FN} }}$ Коэффициент корреляции Мэтьюза (MCC) $\mathrm {MCC} ={\frac {\mathrm {TP} \times \mathrm {TN} -\mathrm {FP} \times \mathrm {FN} }{\sqrt {(\mathrm {TP} +\mathrm {FP} )(\mathrm {TP} +\mathrm {FN} )(\mathrm {TN} +\mathrm {FP} )(\mathrm {TN} +\mathrm {FN} )}}}$ Индекс Фаулкса – Маллоуса (FM) $\mathrm {FM} ={\sqrt {{\frac {TP}{TP+FP}}\times {\frac {TP}{TP+FN}}}}={\sqrt {PPV\times TPR}}$ информированность или информированность букмекеров (BM) $\mathrm {BM} =\mathrm {TPR} +\mathrm {TNR} -1$ маркировка (МК) или дельтаП (Δp) $\mathrm {MK} =\mathrm {PPV} +\mathrm {NPV} -1$ Источники: Fawcett (2006), ^[10] Piryonesi and El-Diraby (2020), ^[11] Powers (2011), ^[12] Ting (2011), ^[13] CAWCR, ^[14] D. Chicco & G. Jurman (2020, 2021) , ^[15]^[16] Тарват (2018). ^[17]

Определим эксперимент из P положительных примеров и N отрицательных случаев для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств 2 × 2 или матрицы неточностей следующим образом:

		Истинное состояние
	Всего населения	Состояние положительное	Состояние отрицательное	Распространенность =Σ Условие положительное/Σ Общая численность населения	Точность (ACC) =Σ Истинно положительный + Σ Истинно отрицательный/Σ Общая численность населения
Прогнозируемое состояние	Прогнозируемое состояние положительное	Истинно положительный	Ложноположительный результат , ошибка типа I	Положительная прогностическая ценность (PPV), точность =Σ Истинно положительный/Σ Прогнозируемое состояние положительное	Коэффициент ложного обнаружения (FDR) =Σ Ложноположительный/Σ Прогнозируемое состояние положительное
	Прогнозируемое состояние отрицательное	Ложноотрицательный результат , ошибка типа II	Истинно отрицательный	Уровень ложных пропусков (FOR) =Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное	Отрицательная прогностическая ценность (NPV) =Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
		Истинно положительный коэффициент (TPR), отзыв , чувствительность , вероятность обнаружения, мощность =Σ Истинно положительный/Σ Условие положительное	Частота ложных срабатываний (FPR), выпадение , вероятность ложной тревоги =Σ Ложноположительный/Σ Условие отрицательное	Отношение положительного правдоподобия (LR +) =TPR/FPR	Отношение диагностических шансов (DOR) =LR +/LR−	F 1 балл = 2 ·Точность · Отзыв/Точность + отзыв
		Уровень ложноотрицательных результатов (FNR), коэффициент промахов =Σ Ложноотрицательный/Σ Условие положительное	Специфичность (SPC), избирательность, истинно отрицательная скорость (TNR) =Σ Истинно отрицательный/Σ Условие отрицательное	Отрицательное отношение правдоподобия (LR−) =FNR/TNR

Мультиклассовый футляр [ править ]

Коэффициент корреляции Мэтьюза был обобщен на мультиклассовый случай. Это обобщение было названо автором статистикой (для K различных классов) и определено в терминах матрицы неточностей ^[18] . ^[19] $R_{K}$ $K\times K$ $C$

{\text{MCC}}={\frac {\sum _{k}\sum _{l}\sum _{m}C_{kk}C_{lm}-C_{kl}C_{mk}}{{\sqrt {\sum _{k}\left(\sum _{l}C_{kl}\right)\left(\sum _{k'|k'\neq k}\sum _{l'}C_{k'l'}\right)}}{\sqrt {\sum _{k}\left(\sum _{l}C_{lk}\right)\left(\sum _{k'|k'\neq k}\sum _{l'}C_{l'k'}\right)}}}}

Когда имеется более двух меток, MCC больше не будет находиться в диапазоне от -1 до +1. Вместо этого минимальное значение будет между -1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.

Эту формулу легче понять, задав промежуточные переменные: ^[20]

$t_{k}=\sum _{i}C_{ik}$ количество раз, когда класс k действительно имел место,
$p_{k}=\sum _{i}C_{ki}$ количество предсказаний класса k,
$c=\sum _{k}C_{kk}$ общее количество правильно спрогнозированных образцов,
$s=\sum _{i}\sum _{j}C_{ij}$ общее количество образцов. Это позволяет выразить формулу как:

{\text{MCC}}={\frac {cs-{\vec {t}}\cdot {\vec {p}}}{{\sqrt {s^{2}-{\vec {p}}\cdot {\vec {p}}}}{\sqrt {s^{2}-{\vec {t}}\cdot {\vec {t}}}}}}

Использование приведенной выше формулы для вычисления показателя MCC для предсказания Dog & Cat, описанного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:

число = (8 × 13) - (7 × 8) - (6 × 5) = 18

denom = Sqrt [(13 ² - 7 ² - 6 ² ) × (13 ² - 8 ² - 5 ² )] = Sqrt [6720]

MCC = 18 / 81,975 ≈ 0,219

Преимущества MCC над точностью и оценкой F1 [ править ]

Как объяснил Давид Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии» ( BioData Mining , 2017) и Джузеппе Юрман в своей статье «Преимущества коэффициента корреляции Мэтьюза (MCC) над баллом F1 и точности в двоичной системе оценка классификации » ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем оценка F1 и точность при оценке проблем бинарной классификации, поскольку он учитывает коэффициенты баланса четырех категорий матрицы путаницы (истинные положительные, истинные отрицательные, ложные положительные, ложноотрицательные). ^[9]^[21]

В предыдущей статье объясняется совет 8 :

Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
${\text{accuracy}}={\frac {TP+TN}{TP+TN+FP+FN}}$
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
${\text{F1 score}}={\frac {2TP}{2TP+FP+FN}}$
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако, даже если точность и оценка F1 широко используются в статистике, оба они могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы неточностей при их окончательном вычислении.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами и только 5 являются отрицательными элементами (как описано в совете 5). А также предположим, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда дает положительные результаты. Представьте, что вы не знаете об этой проблеме.
Таким образом, применяя свой единственный положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
TP = 95, FP = 5; TN = 0, FN = 0.
Эти значения приводят к следующим оценкам производительности: точность = 95% и оценка F1 = 97,44%. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и будете думать, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы ошиблись бы.
Напротив, чтобы избежать этих опасных вводящих в заблуждение иллюзий, есть еще один показатель производительности, который вы можете использовать: коэффициент корреляции Мэтьюза [40] (MCC).
${\text{MCC}}={\frac {TP\times TN-FP\times FN}{\sqrt {(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}}$
(Уравнение 3, MCC: худшее значение = -1; лучшее значение = +1).
Если учесть долю каждого класса матрицы путаницы в ее формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере оценка MCC будет неопределенной (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы узнаете, что есть проблемы, которые вы должны решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию того же набора данных, что привело к следующим значениям категорий матрицы неточностей:
TP = 90, FP = 4; TN = 1, FN = 5.
В этом примере классификатор хорошо зарекомендовал себя при классификации положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и оценки точности будут чрезвычайно высокими: точность = 91% и оценка F1 = 95,24%. Подобно предыдущему случаю, если бы исследователь проанализировал только эти два показателя оценки без учета MCC, он ошибочно подумал бы, что алгоритм выполняет свою задачу достаточно хорошо, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза снова будет иметь решающее значение. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать эффективность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC) вместо точности и балла F1 для любой задачи бинарной классификации.
- Давид Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии ^[9]

Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный. В первом примере выше оценка F1 высока, потому что класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:

TP = 0, FP = 0; TN = 5, FN = 95

Это дает оценку F1 = 0%.

MCC не зависит от того, какой класс является положительным, который имеет преимущество над оценкой F1, чтобы избежать неправильного определения положительного класса.

См. Также [ править ]

Каппа Коэна
V Крамера , аналогичная мера связи между номинальными переменными.
Оценка F1
Коэффициент Phi
Индекс Фаулкса – Маллоуса

Ссылки [ править ]

^ а б Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysica Acta (BBA) - Структура белка . 405 (2): 442–451. DOI : 10.1016 / 0005-2795 (75) 90109-9 . PMID 1180967 .
^ Крамер, Х. (1946). Математические методы статистики . Princeton: Princeton University Press, стр. 282 (второй абзац). ISBN 0-691-08004-6
↑ Дата неясна, но до его смерти в 1936 году.
^ Юла, Г. Udny (1912). «О методах измерения связи между двумя атрибутами» . Журнал Королевского статистического общества . 75 (6): 579–652. DOI : 10.2307 / 2340126 . JSTOR 2340126 .
^ Boughorbel, SB (2017). «Оптимальный классификатор для несбалансированных данных с использованием метрики Matthews Correlation Coefficient» . PLOS ONE . 12 (6): e0177678. Bibcode : 2017PLoSO..1277678B . DOI : 10.1371 / journal.pone.0177678 . PMC 5456046 . PMID 28574989 .
^ Chicco, D .; Tötsch, N .; Юрман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioDataMining . 14 . DOI : 10.1186 / s13040-021-00244-Z .
^ a b c Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF) . Журнал технологий машинного обучения . 2 (1): 37–63.
^ Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика . 17 (2–3): 97–119. DOI : 10.1016 / s0911-6044 (03) 00059-9 . S2CID 17104364 .
^ a b c Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . BioData Mining . 10 (35): 35. DOI : 10,1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .
^ Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .
^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
Перейти ↑ Ting, Kai Ming (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .
^ Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)
^ Chicco Д., Toetsch Н., Jurman Г. (февраль 2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMID 33541410 . CS1 maint: uses authors parameter (link)
^ Tharwat А. (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .
^ Городкин, Ян (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия . 28 (5): 367–374. DOI : 10.1016 / j.compbiolchem.2004.09.006 . PMID 15556477 .
^ Городкин, Ян. "Страница РК " . Страница РК . Проверено 28 декабря +2016 .
^ «Коэффициент корреляции Мэтью» . scikit-learn.org .
^ Chicco D, Jurman G (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .

[Matthews1975-1] а б Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysica Acta (BBA) - Структура белка . 405 (2): 442–451. DOI : 10.1016 / 0005-2795 (75) 90109-9 . PMID 1180967 .

[2] Крамер, Х. (1946). Математические методы статистики . Princeton: Princeton University Press, стр. 282 (второй абзац). ISBN 0-691-08004-6

[3] Дата неясна, но до его смерти в 1936 году.

[4] Юла, Г. Udny (1912). «О методах измерения связи между двумя атрибутами» . Журнал Королевского статистического общества . 75 (6): 579–652. DOI : 10.2307 / 2340126 . JSTOR 2340126 .

[Boughorbel2017-5] Boughorbel, SB (2017). «Оптимальный классификатор для несбалансированных данных с использованием метрики Matthews Correlation Coefficient» . PLOS ONE . 12 (6): e0177678. Bibcode : 2017PLoSO..1277678B . DOI : 10.1371 / journal.pone.0177678 . PMC 5456046 . PMID 28574989 .

[Chicco2021-6] Chicco, D .; Tötsch, N .; Юрман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioDataMining . 14 . DOI : 10.1186 / s13040-021-00244-Z .

[Powers2011-7] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF) . Журнал технологий машинного обучения . 2 (1): 37–63.

[Perruchet2004-8] Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика . 17 (2–3): 97–119. DOI : 10.1016 / s0911-6044 (03) 00059-9 . S2CID 17104364 .

[Chicco2017-9] Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . BioData Mining . 10 (35): 35. DOI : 10,1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .

[10] Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .

[11] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .

[12] Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.

[13] Перейти ↑ Ting, Kai Ming (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.

[14] Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .

[15] Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 . CS1 maint: uses authors parameter (link)

[16] Chicco Д., Toetsch Н., Jurman Г. (февраль 2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMID 33541410 . CS1 maint: uses authors parameter (link)

[17] Tharwat А. (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .

[gorodkin2004comparing-18] Городкин, Ян (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия . 28 (5): 367–374. DOI : 10.1016 / j.compbiolchem.2004.09.006 . PMID 15556477 .

[GorodkinRk2006-19] Городкин, Ян. "Страница РК " . Страница РК . Проверено 28 декабря +2016 .

[20] «Коэффициент корреляции Мэтью» . scikit-learn.org .

[21] Chicco D, Jurman G (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .

[1]