Статистическая классификация

В статистике , классификация является проблемой определения того , какой из множества категорий (субпопуляции) новое наблюдение принадлежит, на основе обучающего набора данных , содержащих наблюдение (или экземпляры) , чья категория членство известно. Примерами являются отнесение данного электронного письма к классу «спам» или «не спам» и постановка диагноза данному пациенту на основе наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. Д.) . Классификация - это пример распознавания образов .

В терминологии машинного обучения ^[1] классификация считается экземпляром контролируемого обучения , то есть обучения, при котором доступен обучающий набор правильно идентифицированных наблюдений. Соответствующая неконтролируемая процедура известна как кластеризация и включает в себя группировку данных по категориям на основе некоторой меры присущего сходства или расстояния .

Часто отдельные наблюдения анализируются в виде набора количественных свойств, известных также как объясняющие переменные или характеристики . Эти свойства могут быть по-разному категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «маленький»), целочисленными (например, количество вхождений определенного слова в электронном письме ) или с действительным знаком (например, измерение артериального давления ).Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью функции подобия или расстояния .

Алгоритм , реализующие классификации, особенно в реализации конкретной, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализованной алгоритмом классификации, который отображает входные данные в категорию.

Терминология в разных областях весьма разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. Д.), А категории, которые необходимо прогнозировать, известны как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , объясняющие переменные называются функциями (сгруппированы в вектор признаков ), а возможные категории, которые необходимо прогнозировать, - это классы.. В других областях может использоваться другая терминология: например, в экологии сообщества термин «классификация» обычно относится к кластерному анализу , то есть к типу обучения без учителя , а не к обучению с учителем, описанному в этой статье.

Отношение к другим проблемам [ править ]

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого выходного значения заданному входному значению. Другими примерами являются регрессия , при которой каждому входу присваивается результат с действительным знаком; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, тегирование части речи , которое присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает входному предложению дерево синтаксического анализа , описывающее синтаксическую структуру предложения; и Т. Д.

Общий подкласс классификации - вероятностная классификация . Алгоритмы такого рода используют статистический вывод, чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Затем обычно выбирается лучший класс как наиболее вероятный. Однако у такого алгоритма есть ряд преимуществ перед не вероятностными классификаторами:

Он может выводить значение достоверности, связанное с его выбором (в общем, классификатор, который может это делать, известен как классификатор, взвешенный по достоверности ).
Соответственно, он может воздержаться, когда его уверенность в выборе какого-либо конкретного выхода слишком мала.
Из-за генерируемых вероятностей вероятностные классификаторы могут быть более эффективно включены в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .

Частые процедуры [ править ]

Ранние работы по статистической классификации была предпринята Фишер , ^[2]^[3] в контексте проблем двухгрупповых, что приводит к линейной дискриминантному Фишеру функции , как правило , для присвоения группы нового наблюдения. ^{[4] В} этой ранней работе предполагалось, что значения данных в каждой из двух групп имели многомерное нормальное распределение . Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, наложенным на то, что правило классификации должно быть линейным . ^[4]^[5] Более поздняя работа над многомерным нормальным распределением позволила классификатору быть нелинейным : ^[6]несколько правил классификации могут быть получены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры [ править ]

В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. ^[7] Байесовские процедуры имеют тенденцию быть дорогостоящими в вычислительном отношении, и за несколько дней до разработки вычислений методом Монте-Карло с цепью Маркова были разработаны аппроксимации для правил байесовской кластеризации. ^[8]

Некоторые байесовские процедуры включают вычисление вероятностей членства в группах : они обеспечивают более информативный результат, чем простое приписывание одной метки группы каждому новому наблюдению.

Бинарная и мультиклассовая классификация [ править ]

Классификацию можно рассматривать как две отдельные проблемы - двоичную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, участвуют только два класса, тогда как мультиклассовая классификация включает отнесение объекта к одному из нескольких классов. ^[9] Поскольку многие методы классификации были разработаны специально для двоичной классификации, многоклассовая классификация часто требует комбинированного использования нескольких двоичных классификаторов.

Векторы признаков [ править ]

Большинство алгоритмов описывают индивидуальный экземпляр, категория которого должна быть предсказана с использованием вектора признаков отдельных измеримых свойств экземпляра. Каждое свойство называется функция , также известный в статистике в качестве объясняющей переменной (или независимой переменной , хотя признаки могут или не могут быть статистически независимы ). Функции могут быть по-разному двоичными (например, «включено» или «выключено»); категориальный (например, «A», «B», «AB» или «O» для группы крови ); порядковый (например, «большой», «средний» или «маленький»); целочисленные (например,количество вхождений определенного слова в электронном письме); или жес действительным знаком (например, измерение артериального давления). Если экземпляр является изображением, значения функции могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения признаков могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы данные с действительными или целыми значениями были дискретно разделены на группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы [ править ]

Большое количество алгоритмов классификации можно описать в терминах линейной функции, которая присваивает оценку каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория - это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного предсказания и имеет следующую общую форму:

\operatorname {score} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},

где X _i - вектор характеристик, например i , β _k - вектор весов, соответствующий категории k , а оценка ( X _i , k ) - оценка, связанная с присвоением экземпляра i категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выбор, оценка считается полезностью, связанной с человеком i, выбирающим категорию k .

Алгоритмы с этой базовой настройкой известны как линейные классификаторы . Их отличает процедура определения (обучения) оптимальных весов / коэффициентов и способ интерпретации оценки.

Примеры таких алгоритмов:

Логистическая регрессия и полиномиальная логистическая регрессия
Пробит регрессия
Персептрон алгоритм
Опорные векторные машины
Линейный дискриминантный анализ .

Алгоритмы [ править ]

При обучении без учителя классификаторы составляют основу кластерного анализа, а при обучении с учителем или частично с учителем классификаторы - это то, как система характеризует и оценивает немаркированные данные. Однако во всех случаях классификаторы имеют определенный набор динамических правил, который включает в себя процедуру интерпретации для обработки неопределенных или неизвестных значений, адаптированных к типу исследуемых входных данных. ^[10]

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. Чаще всего используются: ^[11]

Линейные классификаторы
- Линейный дискриминант Фишера
- Логистическая регрессия
- Наивный байесовский классификатор
- Перцептрон
Опорные векторные машины
- Наименьшие квадраты поддерживают векторные машины
Квадратичные классификаторы
Оценка ядра
- k-ближайший сосед
Повышение (мета-алгоритм)
Деревья решений
- Случайные леса
Нейронные сети
Изучение векторного квантования

Оценка [ править ]

Производительность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы со всеми заданными проблемами (явление, которое можно объяснить теоремой о запрете бесплатного обеда ). Были проведены различные эмпирические тесты для сравнения производительности классификатора и определения характеристик данных, которые определяют производительность классификатора. Однако определение подходящего классификатора для данной проблемы - все еще больше искусство, чем наука.

Точность измерения и отзыв являются популярными показателями, используемыми для оценки качества системы классификации. В последнее время кривые рабочих характеристик приемника (ROC) использовались для оценки компромисса между показателями истинных и ложноположительных результатов алгоритмов классификации.

В качестве показателя производительности коэффициент неопределенности имеет преимущество перед простой точностью в том, что на него не влияют относительные размеры различных классов.^[12] Кроме того, это не повредит алгоритму за простую перестановку классов.

Домены приложений [ править ]

Классификация имеет множество приложений. В некоторых из них это используется как процедура интеллектуального анализа данных , в то время как в других проводится более подробное статистическое моделирование.

Компьютерное зрение
- Медицинская визуализация и анализ медицинских изображений
- Оптическое распознавание символов
- Видео слежение
Открытие и разработка лекарств
- Токсикогеномика
- Количественная взаимосвязь структура-активность
Геостатистика
Распознавание речи
Распознавание почерка
Биометрическая идентификация
Биологическая классификация
Статистическая обработка естественного языка
Классификация документов
Поисковые системы в Интернете
Кредитный скоринг
Распознавание образов
Рекомендательная система
Классификация микромассивов

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Январь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

См. Также [ править ]

Викискладе есть медиафайлы, связанные со статистической классификацией .

Искусственный интеллект
Бинарная классификация
Вероятности членства в классе
Правило классификации
Обработка сложных терминов
Сбор данных
Хранилище данных
Нечеткая логика
Поиск информации
Список наборов данных для исследования машинного обучения
Машинное обучение
Рекомендательная система

Ссылки [ править ]

^ Alpaydin, Ethem (2010). Введение в машинное обучение . MIT Press. п. 9. ISBN 978-0-262-01243-0.
Перейти ↑ Fisher, RA (1936). «Использование множественных измерений в таксономических задачах». Летопись евгеники . 7 (2): 179–188. DOI : 10.1111 / j.1469-1809.1936.tb02137.x . ЛВП : 2440/15227 .
Перейти ↑ Fisher, RA (1938). «Статистическое использование множественных измерений». Летопись евгеники . 8 (4): 376–386. DOI : 10.1111 / j.1469-1809.1938.tb02189.x . ЛВП : 2440/15232 .
^ a b Gnanadesikan, R. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86)
^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9c)
^ Андерсон, TW (1958) Введение в многомерный статистический анализ , Wiley.
Перейти ↑ Binder, DA (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. DOI : 10.1093 / Biomet / 65.1.31 .
Перейти ↑ Binder, David A. (1981). «Приближение к правилам байесовской кластеризации». Биометрика . 68 : 275–285. DOI : 10.1093 / Biomet / 68.1.275 .
^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Becker, B., Thrun, S. , Obermayer, K. (Eds), Достижения в системах обработки нейронной информации 15: Материалы конференции 2002 г. , MIT Press. ISBN 0-262-02550-7
^ "Что такое классификатор в машинном обучении?" .
^ «Обзор 10 лучших алгоритмов для новичков в машинном обучении» . Встроенный . 2018-01-20 . Проверено 10 июня 2019 .
^ Питер Миллс (2011). «Эффективная статистическая классификация спутниковых измерений». Международный журнал дистанционного зондирования . 32 (21): 6109–6132. arXiv : 1202.2194 . Bibcode : 2011IJRS ... 32.6109M . DOI : 10.1080 / 01431161.2010.507795 . S2CID 88518570 .

[1] Alpaydin, Ethem (2010). Введение в машинное обучение . MIT Press. п. 9. ISBN 978-0-262-01243-0.

[2] Перейти ↑ Fisher, RA (1936). «Использование множественных измерений в таксономических задачах». Летопись евгеники . 7 (2): 179–188. DOI : 10.1111 / j.1469-1809.1936.tb02137.x . ЛВП : 2440/15227 .

[3] Перейти ↑ Fisher, RA (1938). «Статистическое использование множественных измерений». Летопись евгеники . 8 (4): 376–386. DOI : 10.1111 / j.1469-1809.1938.tb02189.x . ЛВП : 2440/15232 .

[G1977-4] Gnanadesikan, R. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86)

[5] Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9c)

[6] Андерсон, TW (1958) Введение в многомерный статистический анализ , Wiley.

[7] Перейти ↑ Binder, DA (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. DOI : 10.1093 / Biomet / 65.1.31 .

[8] Перейти ↑ Binder, David A. (1981). «Приближение к правилам байесовской кластеризации». Биометрика . 68 : 275–285. DOI : 10.1093 / Biomet / 68.1.275 .

[9] Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Becker, B., Thrun, S. , Obermayer, K. (Eds), Достижения в системах обработки нейронной информации 15: Материалы конференции 2002 г. , MIT Press. ISBN 0-262-02550-7

[10] "Что такое классификатор в машинном обучении?" .

[11] «Обзор 10 лучших алгоритмов для новичков в машинном обучении» . Встроенный . 2018-01-20 . Проверено 10 июня 2019 .

[Mills2010-12] Питер Миллс (2011). «Эффективная статистическая классификация спутниковых измерений». Международный журнал дистанционного зондирования . 32 (21): 6109–6132. arXiv : 1202.2194 . Bibcode : 2011IJRS ... 32.6109M . DOI : 10.1080 / 01431161.2010.507795 . S2CID 88518570 .

[1]