Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Для популяции, каждый член которой принадлежит к одному из множества различных наборов или классов , правило классификации или классификатор - это процедура, с помощью которой каждый элемент совокупности предсказывается как принадлежащий к одному из классов. [1] Идеальная классификация - это такая, при которой каждый элемент совокупности отнесен к тому классу, к которому он действительно принадлежит. Несовершенная классификация - это та, в которой появляются некоторые ошибки, и затем для анализа классификации должен применяться статистический анализ .

Особый вид правил классификации - это бинарная классификация задач, в которых есть только два класса.

Правила классификации тестирования [ править ]

Учитывая набор данных , состоящий из пар х и у , где х обозначает элемент населения и у класса он принадлежит, правило классификации ч ( х ) представляет собой функцию , которая присваивает каждый элемент х к предсказанному класса Двоичный классификации является так что метка y может принимать только одно из двух значений.

Истинные метки y i могут быть известны, но не обязательно будут соответствовать их приближениям . В бинарной классификации элементы, которые неправильно классифицированы, называются ложноположительными и ложноотрицательными.

Некоторые правила классификации являются статическими функциями. Другие могут быть компьютерными программами. Компьютер классификатор может быть в состоянии узнать или может реализовать статические правила классификации. Для обучающего набора данных истинные метки y j неизвестны, но основная цель процедуры классификации состоит в том, чтобы приближение как можно лучше, когда качество этого приближения должно оцениваться на основе статистических или вероятностные свойства генеральной совокупности, на основе которых будут проводиться наблюдения в будущем.

При заданном правиле классификации тест классификации является результатом применения правила к конечной выборке исходного набора данных.

Бинарная и мультиклассовая классификация [ править ]

Классификацию можно рассматривать как две отдельные проблемы - бинарную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, участвуют только два класса, тогда как мультиклассовая классификация включает отнесение объекта к одному из нескольких классов. [2]Поскольку многие методы классификации были разработаны специально для двоичной классификации, многоклассовая классификация часто требует комбинированного использования нескольких двоичных классификаторов. Важным моментом является то, что во многих практических задачах бинарной классификации эти две группы не являются симметричными - интерес представляет не общая точность, а относительная доля различных типов ошибок. Например, при медицинском тестировании ложноположительный результат (обнаружение болезни, когда ее нет) рассматривается иначе, чем ложноотрицательный (не обнаружение болезни, когда она присутствует). В мультиклассовых классификациях классы могут рассматриваться симметрично (все ошибки эквивалентны) или асимметрично, что значительно сложнее.

Методы бинарной классификации включают пробит-регрессию и логистическую регрессию . Методы многоклассовой классификации включают полиномиальный пробит и полиномиальный логит .

Таблица путаницы [ править ]

Левая и правая половины соответственно содержат экземпляры, которые на самом деле имеют или не имеют условия. Овал содержит экземпляры, которые классифицируются (прогнозируются) как положительные (имеющие условие). Зеленый и красный соответственно содержат экземпляры, которые классифицированы правильно (истинно) и неправильно (ложно).
TP = истинно положительный; TN = истинно отрицательный; FP = ложноположительный результат (ошибка типа I); FN = ложноотрицательный (ошибка типа II); TPR = истинно положительная ставка; FPR = ложноположительный показатель; PPV = положительная прогностическая ценность; NPV = отрицательная прогностическая ценность.

Если функция классификации не идеальна, появятся ложные результаты. В приведенном ниже примере матрицы путаницы для 8 настоящих кошек функция предсказала, что три были собаками, а из шести собак она предсказала, что одна была кроликом, а две - кошками. Из матрицы видно, что рассматриваемая система не умеет различать кошек и собак, но может довольно хорошо отличить кроликов от других типов животных.

Ложные срабатывания [ править ]

Ложноположительные результаты возникают, когда тест ложно (неверно) сообщает о положительном результате. Например, медицинский тест на заболевание может дать положительный результат, указывающий на то, что у пациента есть болезнь, даже если у пациента нет болезни. Ложноположительный результат обычно обозначается как верхняя правая единица (Условие отрицательное, результат теста X положительный) в матрице путаницы . Мы можем использовать теорему Байеса, чтобы определить вероятность того, что положительный результат на самом деле является ложноположительным. Мы обнаружили, что если заболевание встречается редко, то большинство положительных результатов могут быть ложноположительными, даже если тест относительно точен.

Предположим, что тест на болезнь дает следующие результаты:

  • Если тестируемый пациент болен заболеванием, тест дает положительный результат в 99% случаев или с вероятностью 0,99.
  • Если у проверяемого пациента нет заболевания, тест дает положительный результат в 5% случаев или с вероятностью 0,05.

Наивно можно подумать, что только 5% положительных результатов тестов ложны, но, как мы увидим, это совершенно неверно.

Предположим, что только 0,1% населения страдает этим заболеванием, так что случайным образом выбранный пациент имеет априорную вероятность заболевания 0,001.

Мы можем использовать теорему Байеса для вычисления вероятности того, что положительный результат теста является ложноположительным.

Пусть A представляет состояние, в котором пациент болен, а B представляет свидетельство положительного результата теста. Тогда вероятность того, что пациент действительно болен, при положительном результате теста равна

и, следовательно, вероятность того, что положительный результат будет ложноположительным, составляет примерно 1 - 0,019 = 0,98, или 98%.

Несмотря на кажущуюся высокую точность теста, заболеваемость настолько низка, что подавляющее большинство пациентов с положительным результатом теста не болеют. Тем не менее, доля пациентов с положительным результатом теста, у которых действительно есть заболевание (0,019), в 19 раз превышает долю людей, которые еще не прошли тест и у которых есть заболевание (0,001). Таким образом, тест не бесполезен, а повторное тестирование может повысить надежность результата.

Чтобы уменьшить проблему ложных срабатываний, тест должен очень точно сообщать об отрицательном результате, когда у пациента нет заболевания. Если тест показал отрицательный результат у пациентов без заболевания с вероятностью 0,999, то

так что теперь 1 - 0,5 = 0,5 - это вероятность ложного срабатывания.

Ложноотрицательные [ править ]

С другой стороны, ложноотрицательные результаты возникают, когда тест ложно или неправильно сообщает об отрицательном результате. Например, медицинский тест на заболевание может дать отрицательный результат, указывающий на то, что у пациента нет болезни, даже если у пациента действительно есть болезнь. Ложноотрицательный результат обычно обозначается как нижняя левая единица (Условие положительное результат теста X отрицательный) в матрице путаницы . Мы также можем использовать теорему Байеса для вычисления вероятности ложноотрицательного результата. В первом примере выше

Вероятность того, что отрицательный результат является ложноотрицательным, составляет около 0,0000105 или 0,00105%. Если заболевание встречается редко, ложноотрицательные результаты не будут большой проблемой.

Но если бы заболевание было у 60% населения, то вероятность ложноотрицательного результата была бы выше. С помощью вышеуказанного теста вероятность ложноотрицательного результата будет равна

Вероятность того, что отрицательный результат является ложноотрицательным, возрастает до 0,0155 или 1,55%.

Истинные положительные стороны [ править ]

Истинно положительный результат получается, когда проверенный верно (правильно) сообщает о положительном результате. Например, медицинский тест на заболевание может дать положительный результат, указывающий на то, что у пациента есть заболевание. Доказано, что это правда, когда пациент болен. Истинно положительный результат обычно обозначается как верхняя левая единица (Условие положительный результат теста X положительный результат) в матрице замещения . Мы можем использовать теорему Байеса, чтобы определить вероятность того, что положительный результат на самом деле является истинно положительным, используя приведенный выше пример:

  • Если тестируемый пациент болен заболеванием, тест дает положительный результат в 99% случаев или с вероятностью 0,99.
  • Если у проверяемого пациента нет заболевания, тест дает положительный результат в 5% случаев или с вероятностью 0,05.
  • Предположим, что только 0,1% населения страдает этим заболеванием, так что случайным образом выбранный пациент имеет априорную вероятность заболевания 0,001.

Пусть A представляет состояние, в котором пациент болен, а B представляет свидетельство положительного результата теста. Тогда вероятность того, что у пациента действительно есть заболевание, при положительном результате теста:

Вероятность того, что положительный результат будет истинно положительным, составляет около 0,019%.

Истинные негативы [ править ]

Истинно отрицательный результат, когда тестируемый верно (правильно) сообщает об отрицательном результате. Например, медицинский тест на заболевание может дать положительный результат, указывающий на то, что у пациента нет болезни. Доказано, что это правда, когда пациент не болен. Истинно отрицательный результат обычно обозначается как нижняя правая единица (Условие отрицательное, результат теста X отрицательный) в матрице путаницы .

Мы также можем использовать теорему Байеса для вычисления вероятности истинно отрицательного результата. Используя приведенные выше примеры:

  • Если тестируемый пациент болен заболеванием, тест дает положительный результат в 99% случаев или с вероятностью 0,99.
  • Если у проверяемого пациента нет заболевания, тест дает положительный результат в 5% случаев или с вероятностью 0,05.
  • Предположим, что только 0,1% населения страдает этим заболеванием, так что случайным образом выбранный пациент имеет априорную вероятность заболевания 0,001.

Пусть A представляет состояние, в котором пациент болен, а B представляет свидетельство положительного результата теста. Тогда вероятность того, что у пациента действительно есть заболевание, при положительном результате теста:

Вероятность того, что отрицательный результат будет истинно отрицательным, составляет 1 - 0,0000105 = 0,9999895 или 99,99%. Поскольку заболевание встречается редко, а соотношение положительных к положительным и высокое соотношение отрицательных к отрицательным, это приведет к большим истинно отрицательным показателям.

Пример работы [ править ]

Рабочий пример
Диагностический тест с чувствительностью 67% и специфичностью 91% применяется к 2030 людям для поиска заболевания с распространенностью в популяции 1,48%.

Связанные расчеты

  • Частота ложноположительных результатов (α) = ошибка типа I = 1 - специфичность = FP / (FP + TN) = 180 / (180 + 1820) = 9%
  • Частота ложных отрицательных результатов (β) = ошибка типа II = 1 - чувствительность = FN / (TP + FN) = 10 / (20 + 10) ≈ 33%
  • Мощность = чувствительность = 1 - β
  • Положительное отношение правдоподобия = чувствительность / (1 - специфичность) ≈ 0,67 / (1 - 0,91) ≈ 7,4
  • Отношение отрицательного правдоподобия = (1 - чувствительность) / специфичность ≈ (1 - 0,67) / 0,91 ≈ 0,37
  • Порог распространенности = ≈ 0,2686 ≈ 26,9%

Этот гипотетический скрининговый тест (анализ кала на скрытую кровь) правильно идентифицировал две трети (66,7%) пациентов с колоректальным раком. [a] К сожалению, факторный анализ показателей распространенности показывает, что этот гипотетический тест имеет высокий уровень ложноположительных результатов и не позволяет надежно идентифицировать колоректальный рак в общей популяции бессимптомных людей (PPV = 10%).

С другой стороны, этот гипотетический тест демонстрирует очень точное определение людей, свободных от рака (NPV ≈ 99,5%). Следовательно, при использовании для рутинного скрининга на колоректальный рак у бессимптомных взрослых отрицательный результат дает важные данные для пациента и врача, например, исключение рака как причины желудочно-кишечных симптомов или обнадеживает пациентов, обеспокоенных развитием колоректального рака.

Измерение чувствительности и специфичности классификатора [ править ]

При обучении классификатора можно захотеть измерить его производительность, используя общепринятые показатели чувствительности и специфичности. Может быть поучительно сравнить классификатор со случайным классификатором, который подбрасывает монетку в зависимости от распространенности заболевания. Предположим, что вероятность того, что у человека есть болезнь, равна, а вероятность того, что у него нет . Предположим, что у нас есть случайный классификатор, который догадывается, что пациент болен с такой же вероятностью, и предполагает, что он не болен с такой же вероятностью .

Вероятность истинно положительного результата - это вероятность того, что у пациента есть заболевание, умноженная на вероятность того, что случайный классификатор угадает это правильно, или . При аналогичных рассуждениях вероятность ложноотрицательного результата равна . Из приведенных выше определений чувствительность этого классификатора составляет . Используя аналогичные рассуждения, мы можем вычислить специфичность как .

Таким образом, хотя сам показатель не зависит от распространенности заболевания, эффективность этого случайного классификатора зависит от распространенности заболевания. Классификатор может иметь производительность, аналогичную этому случайному классификатору, но с более взвешенной монетой (более высокая чувствительность и специфичность). Таким образом, на эти показатели может влиять распространенность заболевания. Альтернативным показателем эффективности является коэффициент корреляции Мэтьюза , для которого любой случайный классификатор получит средний балл 0.

Распространение этой концепции на небинарные классификации дает матрицу путаницы .

См. Также [ править ]

  • Байесовский классификатор
  • Байесовский вывод
  • Бинарная классификация
  • Правило принятия решения
  • Диагностический тест
  • Золотой стандарт (тест)
  • Функции потерь для классификации
  • Медицинский тест
  • Чувствительность и специфичность
  • Статистическая классификация

Заметки [ править ]

  1. ^ У всех медицинских скрининговых тестов есть свои преимущества и недостатки. Эти риски и преимущества описаны в руководствах по клинической практике , таких как скрининг колоректального рака. [3] [4]

Ссылки [ править ]

  1. ^ Статья Mathworld для статистического теста
  2. ^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Processing Systems 15: Proceedings of the 2002 Conference , MIT Press. ISBN  0-262-02550-7
  3. ^ Лин, Дженнифер С .; Пайпер, Маргарет А .; Perdue, Лесли А .; Раттер, Кэролайн М .; Уэббер, Элизабет М .; О'Коннор, Элизабет; Смит, Нин; Уитлок, Эвелин П. (21 июня 2016 г.). «Скрининг колоректального рака» . ДЖАМА . 315 (23): 2576–2594. DOI : 10,1001 / jama.2016.3332 . ISSN 0098-7484 . 
  4. ^ Бенар, Флоренция; Баркун, Алан Н .; Мартель, Мириам; Рентельн, Даниэль фон (7 января 2018 г.). «Систематический обзор рекомендаций по скринингу на колоректальный рак для взрослых со средним риском: Обобщение текущих глобальных рекомендаций» . Всемирный журнал гастроэнтерологии . 24 (1): 124–138. DOI : 10,3748 / wjg.v24.i1.124 . PMC 5757117 . PMID 29358889 .