Статистическая классификация

В статистике классификация — это проблема определения того, к какому из набора категорий (подгрупп ) относится наблюдение (или наблюдения). Примерами являются отнесение данного электронного письма к классу «спам» или «не спам» и назначение диагноза данному пациенту на основе наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. д.). .

Часто отдельные наблюдения анализируются в виде набора количественных свойств, известных по-разному как объясняющие переменные или признаки . Эти свойства могут быть различными : категориальными (например, "A", "B", "AB" или "O" для группы крови ), порядковыми (например, "большой", "средний" или "маленький"), целочисленными (например , количество вхождений определенного слова в электронном письме ) или действительные значения (например, измерение кровяного давления ).

Алгоритм , реализующий классификацию, особенно в конкретной реализации, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализованной алгоритмом классификации, которая сопоставляет входные данные с категорией.

Терминология в разных областях весьма разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются независимыми переменными (или независимыми переменными , регрессорами и т. д.), а категории, которые необходимо предсказать, известны как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называют экземплярами , независимые переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, которые необходимо предсказать, — это классы .. В других областях может использоваться другая терминология: например, в экологии сообщества термин «классификация» обычно относится к кластерному анализу .

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого выходного значения заданному входному значению. Другими примерами являются регрессия , которая присваивает выход с действительным знаком каждому входу; маркировка последовательности , присваивающая класс каждому члену последовательности значений (например, маркировка части речи , присваивающая часть речи каждому слову во входном предложении); parsing , который присваивает входному предложению дерево разбора , описывающее синтаксическую структуру предложения; и т. д.

Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого рода используют статистический вывод , чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Затем обычно выбирается лучший класс с наибольшей вероятностью. Однако такой алгоритм имеет ряд преимуществ перед невероятностными классификаторами: