Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Коэффициент корреляции Мэтьюза (MCC) или коэффициент phi используется в машинном обучении как мера качества бинарных (двухклассных) классификаций , введенных биохимиком Брайаном У. Мэтьюзом в 1975 году. [1] MCC определяется идентично классификации Пирсона. фи коэффициент , введенный К. Пирсоном , [2] [3] также известно как коэффициент фи Святочного от его введения Udny Йоль в 1912 году [4] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюзом на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.

Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы очень разных размеров. [5] MCC - это, по сути, коэффициент корреляции между наблюдаемыми и предсказанными двоичными классификациями; он возвращает значение от -1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 - не лучше, чем случайное предсказание, а -1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равно ни -1, ни 0, ни +1, это не является надежным индикатором того, насколько предсказатель похож на случайное предположение, потому что MCC зависит от набора данных. [6] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.

где n - общее количество наблюдений.

Хотя не существует идеального способа описать матрицу путаницы истинных и ложных положительных и отрицательных результатов одним числом, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. [7] Другие меры, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к большему набору обеспечивает высокую долю правильных прогнозов, но обычно не является полезной классификацией.

MCC можно рассчитать непосредственно из матрицы неточностей по формуле:

В этом уравнении TP - это количество истинных положительных результатов , TN - количество истинных отрицательных результатов , FP - количество ложных срабатываний и FN - количество ложных отрицательных результатов . Если любая из четырех сумм в знаменателе равна нулю, знаменатель может быть произвольно установлен на единицу; в результате коэффициент корреляции Мэтьюза равен нулю, что может быть показано как правильное предельное значение.

MCC можно рассчитать по формуле:

с использованием положительной прогнозной ценности, истинно положительной скорости, истинно отрицательной скорости, отрицательной прогнозной ценности, частоты ложных открытий, ложных отрицательных оценок, ложноположительных результатов и ложных пропусков.

Исходная формула, приведенная Мэтьюзом, была следующей: [1]

Это равно формуле, приведенной выше. В качестве коэффициента корреляции , коэффициент корреляции Matthews является средним геометрическим из коэффициентов регрессии задачи и ее двойной . Компонентные коэффициенты регрессии коэффициента корреляции Мэтьюза - это Маркированность (Δp) и J-статистика Юдена ( Информированность или Δp '). [7] [8] Заметность и информированность соответствуют различным направлениям информационного потока и обобщают статистику J Юдена ,p статистики и (как их среднее геометрическое) коэффициент корреляции Мэтьюза для более чем двух классов. [7]

Некоторые ученые утверждают, что коэффициент корреляции Мэтьюса является наиболее информативной единичной оценкой для определения качества предсказания бинарного классификатора в контексте матрицы неточностей. [9]

Пример [ править ]

Для выборки из 13 изображений, 8 кошек и 5 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,

фактический = [1,1,1,1,1,1,1,1,0,0,0,0,0],

Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 13 изображений и прогоняем их через классификатор, и классификатор делает 8 точных прогнозов и пропускает 5: 3 кошек, ошибочно предсказанных как собак (первые 3 прогноза) и 2 собаки ошибочно предсказаны как кошки (последние 2 прогноза).

прогноз = [0,0,0,1,1,1,1,1,0,0,0,1,1]

С помощью этих двух помеченных наборов (фактический и прогнозный) мы можем создать матрицу путаницы, которая суммирует результаты тестирования классификатора:

В этой матрице путаницы из 8 изображений кошек система определила, что 3 были собаками, а из 5 изображений собак она предсказала, что 2 были кошками. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому можно легко визуально проверить таблицу на предмет ошибок прогноза, поскольку они будут представлены значениями за пределами диагонали.

В абстрактном смысле матрица путаницы выглядит следующим образом:

где: P = положительный; N = отрицательный; TP = истинно положительный; FP = ложноположительный результат; TN = истинно отрицательный; FN = ложноотрицательный.

Подставляем числа из формулы:

MCC = [(5 × 3) - (2 × 3)] / Sqrt [(5 + 2) × (5 + 3) × (3 + 2) × (3 + 3)] = 9 / Sqrt [1680] ≈ 0,219

Матрица путаницы [ править ]

Определим эксперимент из P положительных примеров и N отрицательных случаев для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств 2 × 2 или матрицы неточностей следующим образом:

Мультиклассовый футляр [ править ]

Коэффициент корреляции Мэтьюза был обобщен на мультиклассовый случай. Это обобщение было названо автором статистикой (для K различных классов) и определено в терминах матрицы неточностей [18] . [19]

Когда имеется более двух меток, MCC больше не будет находиться в диапазоне от -1 до +1. Вместо этого минимальное значение будет между -1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.


Эту формулу легче понять, задав промежуточные переменные: [20]

  • количество раз, когда класс k действительно имел место,
  • количество предсказаний класса k,
  • общее количество правильно спрогнозированных образцов,
  • общее количество образцов. Это позволяет выразить формулу как:

Использование приведенной выше формулы для вычисления показателя MCC для предсказания Dog & Cat, описанного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:

число = (8 × 13) - (7 × 8) - (6 × 5) = 18
denom = Sqrt [(13 2 - 7 2 - 6 2 ) × (13 2 - 8 2 - 5 2 )] = Sqrt [6720]
MCC = 18 / 81,975 ≈ 0,219

Преимущества MCC над точностью и оценкой F1 [ править ]

Как объяснил Давид Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии» ( BioData Mining , 2017) и Джузеппе Юрман в своей статье «Преимущества коэффициента корреляции Мэтьюза (MCC) над баллом F1 и точности в двоичной системе оценка классификации » ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем оценка F1 и точность при оценке проблем бинарной классификации, поскольку он учитывает коэффициенты баланса четырех категорий матрицы путаницы (истинные положительные, истинные отрицательные, ложные положительные, ложноотрицательные). [9] [21]

В предыдущей статье объясняется совет 8 :

Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.

(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)

(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)

Однако, даже если точность и оценка F1 широко используются в статистике, оба они могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы неточностей при их окончательном вычислении.

Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами и только 5 являются отрицательными элементами (как описано в совете 5). А также предположим, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда дает положительные результаты. Представьте, что вы не знаете об этой проблеме.

Таким образом, применяя свой единственный положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:

TP = 95, FP = 5; TN = 0, FN = 0.

Эти значения приводят к следующим оценкам производительности: точность = 95% и оценка F1 = 97,44%. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и будете думать, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы ошиблись бы.

Напротив, чтобы избежать этих опасных вводящих в заблуждение иллюзий, есть еще один показатель производительности, который вы можете использовать: коэффициент корреляции Мэтьюза [40] (MCC).

(Уравнение 3, MCC: худшее значение = -1; лучшее значение = +1).

Если учесть долю каждого класса матрицы путаницы в ее формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.

В приведенном выше примере оценка MCC будет неопределенной (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы узнаете, что есть проблемы, которые вы должны решить, прежде чем продолжить.

Рассмотрим другой пример. Вы выполнили классификацию того же набора данных, что привело к следующим значениям категорий матрицы неточностей:

TP = 90, FP = 4; TN = 1, FN = 5.

В этом примере классификатор хорошо зарекомендовал себя при классификации положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и оценки точности будут чрезвычайно высокими: точность = 91% и оценка F1 = 95,24%. Подобно предыдущему случаю, если бы исследователь проанализировал только эти два показателя оценки без учета MCC, он ошибочно подумал бы, что алгоритм выполняет свою задачу достаточно хорошо, и у него возникла бы иллюзия успеха.

С другой стороны, проверка коэффициента корреляции Мэтьюза снова будет иметь решающее значение. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.

По этим причинам мы настоятельно рекомендуем оценивать эффективность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC) вместо точности и балла F1 для любой задачи бинарной классификации.

-  Давид Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии [9]

Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный. В первом примере выше оценка F1 высока, потому что класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:

TP = 0, FP = 0; TN = 5, FN = 95

Это дает оценку F1 = 0%.

MCC не зависит от того, какой класс является положительным, который имеет преимущество над оценкой F1, чтобы избежать неправильного определения положительного класса.

См. Также [ править ]

  • Каппа Коэна
  • V Крамера , аналогичная мера связи между номинальными переменными.
  • Оценка F1
  • Коэффициент Phi
  • Индекс Фаулкса – Маллоуса

Ссылки [ править ]

  1. ^ а б Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysica Acta (BBA) - Структура белка . 405 (2): 442–451. DOI : 10.1016 / 0005-2795 (75) 90109-9 . PMID  1180967 .
  2. ^ Крамер, Х. (1946). Математические методы статистики . Princeton: Princeton University Press, стр. 282 (второй абзац). ISBN 0-691-08004-6 
  3. Дата неясна, но до его смерти в 1936 году.
  4. ^ Юла, Г. Udny (1912). «О методах измерения связи между двумя атрибутами» . Журнал Королевского статистического общества . 75 (6): 579–652. DOI : 10.2307 / 2340126 . JSTOR 2340126 . 
  5. ^ Boughorbel, SB (2017). «Оптимальный классификатор для несбалансированных данных с использованием метрики Matthews Correlation Coefficient» . PLOS ONE . 12 (6): e0177678. Bibcode : 2017PLoSO..1277678B . DOI : 10.1371 / journal.pone.0177678 . PMC 5456046 . PMID 28574989 .  
  6. ^ Chicco, D .; Tötsch, N .; Юрман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы» . BioDataMining . 14 . DOI : 10.1186 / s13040-021-00244-Z .
  7. ^ a b c Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF) . Журнал технологий машинного обучения . 2 (1): 37–63.
  8. ^ Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика . 17 (2–3): 97–119. DOI : 10.1016 / s0911-6044 (03) 00059-9 . S2CID 17104364 . 
  9. ^ a b c Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . BioData Mining . 10 (35): 35. DOI : 10,1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .  
  10. ^ Фосетт, Том (2006). «Введение в анализ ROC» (PDF) . Письма о распознавании образов . 27 (8): 861–874. DOI : 10.1016 / j.patrec.2005.10.010 .
  11. ^ Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.03.2020). «Аналитика данных в управлении активами: рентабельное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
  12. ^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
  13. Перейти ↑ Ting, Kai Ming (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Springer. DOI : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
  14. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов» . Сотрудничество в области исследований погоды и климата Австралии . Всемирная метеорологическая организация . Проверено 17 июля 2019 .
  15. ^ Chicco Д., Jurman Г. (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .  CS1 maint: uses authors parameter (link)
  16. ^ Chicco Д., Toetsch Н., Jurman Г. (февраль 2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и заметность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 1-22. DOI : 10.1186 / s13040-021-00244-Z . PMID 33541410 . CS1 maint: uses authors parameter (link)
  17. ^ Tharwat А. (август 2018). «Классификационные методы оценки» . Прикладные вычисления и информатика . DOI : 10.1016 / j.aci.2018.08.003 .
  18. ^ Городкин, Ян (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия . 28 (5): 367–374. DOI : 10.1016 / j.compbiolchem.2004.09.006 . PMID 15556477 . 
  19. ^ Городкин, Ян. "Страница РК " . Страница РК . Проверено 28 декабря +2016 .
  20. ^ «Коэффициент корреляции Мэтью» . scikit-learn.org .
  21. ^ Chicco D, Jurman G (январь 2020). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» . BMC Genomics . 21 (1): 6-1–6-13. DOI : 10,1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .