Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , классификация является проблемой определения того , какой из множества категорий (субпопуляции) наблюдение (или наблюдение) принадлежит. Примеры: отнесение данного электронного письма к классу «спам» или «не спам» и постановка диагноза данному пациенту на основе наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. Д.) .

Часто отдельные наблюдения анализируются в виде набора свойств, поддающихся количественной оценке, известных также как объясняющие переменные или характеристики . Эти свойства могут быть по-разному категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «маленький»), целочисленными (например, количество вхождений определенного слова в электронном письме ) или с действительным знаком (например, измерение артериального давления ).Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью функции подобия или расстояния .

Алгоритм , реализующие классификации, особенно в реализации конкретной, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализованной алгоритмом классификации, который отображает входные данные в категорию.

Терминология в разных областях весьма разнообразна. В статистике , где классификация часто делаются с логистической регрессией или аналогичной процедурой, свойство наблюдений, называется объясняющим переменным (или независимыми переменными , регрессор и т.д.), и категория , которые будут предсказано известно как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , объясняющие переменные называются функциями (сгруппированы в вектор признаков ), а возможные категории, которые необходимо прогнозировать, - это классы.. В других областях может использоваться другая терминология: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .

Отношение к другим проблемам [ править ]

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого выходного значения заданному входному значению. Другими примерами являются регрессия , которая присваивает выход с действительным знаком каждому входу; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, тегирование части речи , которое присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает входному предложению дерево синтаксического анализа , описывающее синтаксическую структуру предложения; и т.п.

Общий подкласс классификации - вероятностная классификация . Алгоритмы такого рода используют статистический вывод, чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Затем обычно выбирается лучший класс с наибольшей вероятностью. Однако такой алгоритм имеет ряд преимуществ перед не вероятностными классификаторами:

  • Он может выводить значение достоверности, связанное с его выбором (в общем, классификатор, который может это делать, известен как классификатор, взвешенный по достоверности ).
  • Соответственно, он может воздержаться, когда его уверенность в выборе какого-либо конкретного выхода слишком мала.
  • Из-за генерируемых вероятностей вероятностные классификаторы могут быть более эффективно включены в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .

Частые процедуры [ править ]

Ранние работы по статистической классификации была предпринята Фишер , [1] [2] в контексте проблем двухгрупповых, что приводит к линейной дискриминантному Фишеру функции , как правило , для присвоения группы нового наблюдения. [3] В этой ранней работе предполагалось, что значения данных в каждой из двух групп имеют многомерное нормальное распределение . Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, наложенным на то, что правило классификации должно быть линейным . [3] [4] Более поздняя работа над многомерным нормальным распределением позволила классификатору быть нелинейным : [5]несколько правил классификации могут быть получены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры [ править ]

В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры имеют тенденцию быть дорогостоящими в вычислительном отношении, и за несколько дней до разработки вычислений методом Монте-Карло с цепью Маркова были разработаны аппроксимации для правил байесовской кластеризации. [7]

Некоторые байесовские процедуры включают вычисление вероятностей членства в группах : они обеспечивают более информативный результат, чем простое приписывание одной метки группы каждому новому наблюдению.

Бинарная и мультиклассовая классификация [ править ]

Классификацию можно рассматривать как две отдельные проблемы - бинарную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, участвуют только два класса, тогда как мультиклассовая классификация включает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для двоичной классификации, многоклассовая классификация часто требует комбинированного использования нескольких двоичных классификаторов.

Векторы признаков [ править ]

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть спрогнозирована с использованием вектора характеристик отдельных измеримых свойств экземпляра. Каждое свойство называется функция , также известный в статистике в качестве объясняющей переменной (или независимой переменной , хотя признаки могут или не могут быть статистически независимы ). Функции могут быть по-разному двоичными (например, «включено» или «выключено»); категориальный (например, «A», «B», «AB» или «O» для группы крови ); порядковый (например, «большой», «средний» или «маленький»); целочисленные (например,количество вхождений определенного слова в электронном письме); или жес действительным знаком (например, измерение артериального давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения функции могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы данные с действительными или целыми значениями были дискретно разделены на группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы [ править ]

Большое количество алгоритмов классификации можно сформулировать в терминах линейной функции, которая присваивает оценку каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория - это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного предсказания и имеет следующую общую форму:

где X i - вектор признаков, например i , β k - вектор весов, соответствующий категории k , а оценка ( X i , k ) - оценка, связанная с присвоением экземпляра i категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выбор, оценка считается полезностью, связанной с человеком i, выбирающим категорию k .

Алгоритмы с этой базовой настройкой известны как линейные классификаторы . Их отличает процедура определения (обучения) оптимальных весов / коэффициентов и способ интерпретации оценки.

Примеры таких алгоритмов:

  • Логистическая регрессия и полиномиальная логистическая регрессия
  • Пробит-регрессия
  • Персептрон алгоритм
  • Опорные векторные машины
  • Линейный дискриминантный анализ .

Алгоритмы [ править ]

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. Чаще всего используются: [9]

  • Линейные классификаторы
    • Линейный дискриминант Фишера
    • Логистическая регрессия
    • Наивный байесовский классификатор
    • Перцептрон
  • Опорные векторные машины
    • Наименьшие квадраты поддерживают векторные машины
  • Квадратичные классификаторы
  • Оценка ядра
    • k-ближайший сосед
  • Повышение (мета-алгоритм)
  • Деревья решений
    • Случайные леса
  • Нейронные сети
  • Изучение векторного квантования

Оценка [ править ]

Производительность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы со всеми заданными проблемами (явление, которое можно объяснить теоремой об отсутствии бесплатного обеда ). Были выполнены различные эмпирические тесты для сравнения производительности классификатора и определения характеристик данных, которые определяют производительность классификатора. Однако определение подходящего классификатора для данной проблемы - это все же больше искусство, чем наука.

Точность измерения и отзыв являются популярными показателями, используемыми для оценки качества системы классификации. В последнее время кривые рабочих характеристик приемника (ROC) использовались для оценки компромисса между показателями истинных и ложноположительных результатов алгоритмов классификации.

В качестве показателя производительности коэффициент неопределенности имеет преимущество перед простой точностью в том, что на него не влияют относительные размеры различных классов.[10] Кроме того, это не повредит алгоритму за простую перестановку классов.

Домены приложений [ править ]

Классификация имеет множество применений. В некоторых из них это используется как процедура интеллектуального анализа данных , в то время как в других проводится более подробное статистическое моделирование.

  • Компьютерное зрение
    • Медицинская визуализация и анализ медицинских изображений
    • Оптическое распознавание символов
    • Видео слежение
  • Открытие и разработка лекарств
    • Токсикогеномика
    • Количественная взаимосвязь структура-активность
  • Геостатистика
  • Распознавание речи
  • Распознавание почерка
  • Биометрическая идентификация
  • Биологическая классификация
  • Статистическая обработка естественного языка
  • Классификация документов
  • Поисковые системы в Интернете
  • Кредитный скоринг
  • Распознавание образов
  • Рекомендательная система
  • Классификация микромассивов

См. Также [ править ]

  • Искусственный интеллект
  • Бинарная классификация
  • Вероятности членства в классе
  • Правило классификации
  • Обработка сложных терминов
  • Сбор данных
  • Хранилище данных
  • Нечеткая логика
  • Поиск информации
  • Список наборов данных для исследования машинного обучения
  • Машинное обучение
  • Рекомендательная система

Ссылки [ править ]

  1. Перейти ↑ Fisher, RA (1936). «Использование множественных измерений в таксономических задачах». Летопись евгеники . 7 (2): 179–188. DOI : 10.1111 / j.1469-1809.1936.tb02137.x . ЛВП : 2440/15227 .
  2. Перейти ↑ Fisher, RA (1938). «Статистическое использование множественных измерений». Летопись евгеники . 8 (4): 376–386. DOI : 10.1111 / j.1469-1809.1938.tb02189.x . ЛВП : 2440/15232 .
  3. ^ a b Gnanadesikan, R. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86) 
  4. ^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9c)
  5. ^ Андерсон, TW (1958) Введение в многомерный статистический анализ , Wiley.
  6. Перейти ↑ Binder, DA (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. DOI : 10.1093 / Biomet / 65.1.31 .
  7. Перейти ↑ Binder, David A. (1981). «Приближение к правилам байесовской кластеризации». Биометрика . 68 : 275–285. DOI : 10.1093 / Biomet / 68.1.275 .
  8. ^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Becker, B., Thrun, S. , Obermayer, K. (Eds) Advances in Neural Processing Systems 15: Proceedings of the 2002 Conference , MIT Press. ISBN 0-262-02550-7 
  9. ^ «Обзор 10 лучших алгоритмов для новичков в машинном обучении» . Встроенный . 2018-01-20 . Проверено 10 июня 2019 .
  10. ^ Питер Миллс (2011). «Эффективная статистическая классификация спутниковых измерений». Международный журнал дистанционного зондирования . 32 (21): 6109–6132. arXiv : 1202.2194 . Bibcode : 2011IJRS ... 32.6109M . DOI : 10.1080 / 01431161.2010.507795 . S2CID 88518570 .