Наивный байесовский классификатор

Байесовская статистика
Часть серии по

Теория
Допустимое правило принятия решения Байесовская эффективность Байесовская вероятность Вероятностные интерпретации Теорема Байеса Фактор Байеса Байесовский вывод Байесовская сеть Прежний Задний Вероятность Конъюгировать приор Задний прогностический Гиперпараметр Hyperprior Принцип безразличия Принцип максимальной энтропии Эмпирический метод Байеса Правило Кромвеля Теорема Бернштейна – фон Мизеса Критерий Шварца Достоверный интервал Максимальная апостериорная оценка Радикальный вероятности
Методы
Байесовская линейная регрессия Байесовская оценка Приближенное байесовское вычисление Цепь Маркова Монте-Карло
Математический портал
v т е

В статистике , наивные байесовские классификаторы представляют собой семейство простых « вероятностных классификаторов » на основе применения теоремы Байеса с сильными (наивной) независимостью допущениями между функциями. Они относятся к простейшим байесовским сетевым моделям ^[1], но в сочетании с оценкой плотности ядра они могут обеспечить более высокий уровень точности. ^[2]^[3]

Наивные байесовские классификаторы обладают высокой степенью масштабируемости, требуя ряда параметров, линейных по количеству переменных (функций / предикторов) в задаче обучения. Максимальное правдоподобие обучение может быть сделано путем оценки в выражении замкнутой формы , ^[4]^{: 718} , который принимает линейное время , а не дорогой итеративной аппроксимации , который используется для многих других типов классификаторов.

В статистике и литературе по информатике наивные байесовские модели известны под разными именами, включая простой байесовский и независимый байесовский . ^[5] Все эти названия ссылаются на использование теоремы Байеса в решающем правиле классификатора, но наивный Байес не является (обязательно) байесовским методом. ^[4]^[5]

Введение [ править ]

Наивный байесовский метод - это простой метод построения классификаторов: моделей, которые присваивают метки классов экземплярам проблемы, представленные в виде векторов значений признаков , где метки классов взяты из некоторого конечного набора. Для обучения таких классификаторов не существует единого алгоритма , а существует семейство алгоритмов, основанное на общем принципе: все наивные байесовские классификаторы предполагают, что значение конкретной характеристики не зависит от значения любой другой характеристики, учитывая переменную класса. Например, фрукт может считаться яблоком, если он красный, круглый и имеет диаметр около 10 см. Наивный байесовский классификатор считает, что каждая из этих характеристик независимо вносит вклад в вероятность того, что этот фрукт является яблоком, независимо от любых возможныхкорреляции между элементами цвета, округлости и диаметра.

Для некоторых типов вероятностных моделей наивные байесовские классификаторы можно очень эффективно обучать в условиях контролируемого обучения . Во многих практических приложениях для оценки параметров наивных байесовских моделей используется метод максимального правдоподобия ; другими словами, можно работать с наивной байесовской моделью, не принимая байесовскую вероятность или используя какие-либо байесовские методы.

Несмотря на свой наивный дизайн и явно упрощенные допущения, наивные байесовские классификаторы довольно хорошо работают во многих сложных ситуациях реального мира. В 2004 году анализ проблемы байесовской классификации показал, что существуют веские теоретические причины кажущейся неправдоподобной эффективности наивных байесовских классификаторов. ^[6] Тем не менее, всестороннее сравнение с другими алгоритмами классификации в 2006 году показало, что байесовская классификация уступает другим подходам, таким как усиленные деревья или случайные леса . ^[7]

Преимущество наивного байесовского метода состоит в том, что для оценки параметров, необходимых для классификации, требуется лишь небольшое количество обучающих данных. ^{[ необходима цитата ]}

Вероятностная модель [ править ]

Абстрактно, наивный байесовский метод представляет собой модель условной вероятности : для данного экземпляра проблемы, который должен быть классифицирован, представленного вектором, представляющим некоторые $n$ характеристик (независимых переменных), он присваивает этому экземпляру вероятности ${\ Displaystyle \ mathbf {x} = (x_ {1}, \ ldots, x_ {n})}$

{\ displaystyle p (C_ {k} \ mid x_ {1}, \ ldots, x_ {n}) \,}

для каждого из $K$ возможных исходов или классов . ^[8] ${\ displaystyle C_ {k}}$

Проблема с приведенной выше формулировкой заключается в том, что если количество признаков $n$ велико или если признак может принимать большое количество значений, то основывать такую модель на таблицах вероятности невозможно. Поэтому мы переформулируем модель, чтобы сделать ее более управляемой. Используя теорему Байеса , условную вероятность можно разложить как

{\ Displaystyle p (C_ {k} \ mid \ mathbf {x}) = {\ frac {p (C_ {k}) \ p (\ mathbf {x} \ mid C_ {k})} {p (\ mathbf {Икс} )}}\,}

На простом английском языке, используя терминологию байесовской вероятности , приведенное выше уравнение можно записать как

{\ displaystyle {\ text {posterior}} = {\ frac {{\ text {prior}} \ times {\ text {likelihood}}} {\ text {доказательство}}} \,}

На практике интерес представляет только числитель этой дроби, потому что знаменатель не зависит от значений признаков и даны значения, так что знаменатель фактически постоянен. Числитель эквивалентен совместной вероятностной модели ${\ displaystyle C}$ ${\ displaystyle x_ {i}}$

{\ displaystyle p (C_ {k}, x_ {1}, \ ldots, x_ {n}) \,}

который можно переписать следующим образом, используя цепное правило для повторных применений определения условной вероятности :

{\begin{aligned}p(C_{k},x_{1},\ldots ,x_{n})&=p(x_{1},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\ p(x_{3},\ldots ,x_{n},C_{k})\\&=\cdots \\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\cdots p(x_{n-1}\mid x_{n},C_{k})\ p(x_{n}\mid C_{k})\ p(C_{k})\\\end{aligned}}

Теперь в игру вступают «наивные» предположения об условной независимости : предположим, что все функции являются взаимно независимыми и зависят от категории . В этом предположении $\mathbf {x}$ $C_{k}$

p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,

.

Таким образом, совместная модель может быть выражена как

{\begin{aligned}p(C_{k}\mid x_{1},\ldots ,x_{n})&\varpropto p(C_{k},x_{1},\ldots ,x_{n})\\&\varpropto p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\&\varpropto p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,,\end{aligned}}

где обозначает пропорциональность . $\varpropto$

Это означает, что при указанных выше предположениях о независимости условное распределение по переменной класса : $C$

p(C_{k}\mid x_{1},\ldots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})

где свидетельство представляет собой коэффициент масштабирования, зависящий только от , то есть константу, если значения переменных признаков известны. $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ $x_{1},\ldots ,x_{n}$

Построение классификатора на основе вероятностной модели [ править ]

До сих пор в ходе обсуждения была выведена модель независимых признаков, то есть наивная вероятностная модель Байеса . Наивный байесовский классификатор сочетает эту модель с решающим правилом . Одно из общих правил - выбирать наиболее вероятную гипотезу; это известно как максимальное апостериорное правило или правило принятия решения MAP . Соответствующий классификатор, байесовский классификатор , представляет собой функцию, которая назначает метку класса для некоторого $k$ следующим образом: ${\hat {y}}=C_{k}$

{\hat {y}}={\underset {k\in \{1,\ldots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).

Оценка параметров и модели событий [ править ]

Класс - х до может быть вычислена в предположении равновероятных классов ( то есть , ), или путем вычисления оценки для вероятности класса из обучающей выборки ( т.е. , <до для данного класса> = <число образцов в классе> / <общего количество образцов>). Чтобы оценить параметры распределения признака, необходимо принять распределение или сгенерировать непараметрические модели для признаков из обучающего набора. ^[9] $p(C_{k})=1/K$

Предположения о распределении признаков называются «событийной моделью» наивного байесовского классификатора. Для дискретных функций, подобных тем, которые встречаются при классификации документов (включая фильтрацию спама), популярны полиномиальные распределения и распределения Бернулли . Эти предположения приводят к двум различным моделям, которые часто путают. ^[10]^[11]

Гауссовский наивный Байес [ править ]

При работе с непрерывными данными типичное допущение состоит в том, что непрерывные значения, связанные с каждым классом, распределяются в соответствии с нормальным (или гауссовым) распределением. Например, предположим, что обучающие данные содержат непрерывный атрибут . Сначала мы сегментируем данные по классам, а затем вычисляем среднее значение и дисперсию для каждого класса. Пусть будет средним значением значений, связанных с классом C _k , и пусть будет дисперсией с поправкой на Бесселя для значений, связанных с классом C _k . Предположим, мы собрали некоторую ценность для наблюдений . Тогда плотность вероятности $x$ $x$ $\mu _{k}$ $x$ $\sigma _{k}^{2}$ $x$ $v$ из данного класса , может быть вычислено путем затыкать в уравнение для нормального распределения параметризованного и . То есть, $v$ $C_{k}$ $p(x=v\mid C_{k})$ $v$ $\mu _{k}$ $\sigma _{k}^{2}$

p(x=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{k}^{2}}}}\,e^{-{\frac {(v-\mu _{k})^{2}}{2\sigma _{k}^{2}}}}

Другой распространенный метод обработки непрерывных значений - использование биннинга для дискретизации значений признаков и получения нового набора функций, распределенных по Бернулли; в некоторой литературе фактически предполагается, что это необходимо для применения наивного байесовского метода, но это не так, и дискретизация может отбросить различительную информацию . ^[5]

Иногда распределение условно-классовых предельных плотностей далеко от нормального. В этих случаях оценка плотности ядра может использоваться для более реалистичной оценки предельной плотности каждого класса. Этот метод, предложенный Джоном и Лэнгли ^[9], может значительно повысить точность классификатора. ^[2]^[3]

Полиномиальный наивный Байес [ править ]

В модели полиномиальных событий выборки (векторы признаков) представляют собой частоты, с которыми определенные события были сгенерированы полиномиалом, где - вероятность того, что событие $i$ произойдет (или $K$ таких мультиномов в случае мультикласса). Вектор признаков представляет собой гистограмму с подсчетом количества наблюдений за событием $i$ в конкретном случае. Это модель событий, обычно используемая для классификации документов, с событиями, представляющими появление слова в отдельном документе (см. Предположение о мешке слов ). Вероятность наблюдения гистограммы $x$ определяется выражением $(p_{1},\dots ,p_{n})$ $p_{i}$ $\mathbf {x} =(x_{1},\dots ,x_{n})$ $x_{i}$

p(\mathbf {x} \mid C_{k})={\frac {(\sum _{i}x_{i})!}{\prod _{i}x_{i}!}}\prod _{i}{p_{ki}}^{x_{i}}

Полиномиальный наивный байесовский классификатор становится линейным классификатором, когда выражается в лог-пространстве: ^[12]

{\begin{aligned}\log p(C_{k}\mid \mathbf {x} )&\varpropto \log \left(p(C_{k})\prod _{i=1}^{n}{p_{ki}}^{x_{i}}\right)\\&=\log p(C_{k})+\sum _{i=1}^{n}x_{i}\cdot \log p_{ki}\\&=b+\mathbf {w} _{k}^{\top }\mathbf {x} \end{aligned}}

где и . $b=\log p(C_{k})$ $w_{ki}=\log p_{ki}$

Если данный класс и значение признака никогда не встречаются вместе в обучающих данных, тогда оценка вероятности на основе частоты будет равна нулю, потому что оценка вероятности прямо пропорциональна количеству появлений значения признака. Это проблематично, потому что это уничтожит всю информацию о других вероятностях при их умножении. Следовательно, часто желательно включать поправку на малую выборку, называемую псевдосчетом , во все оценки вероятности, чтобы никакая вероятность никогда не устанавливалась равной нулю. Этот способ регуляризации наивного Байеса называется сглаживанием Лапласа, когда псевдосчет равен единице, и сглаживанием Лидстона в общем случае.

Ренни и др. обсудить проблемы с полиномиальным допущением в контексте классификации документов и возможные способы решения этих проблем, включая использование весов tf – idf вместо исходных частот терминов и нормализации длины документа, чтобы создать наивный байесовский классификатор, который конкурирует с вектором поддержки машины . ^[12]

Бернулли, наивный Байес [ править ]

В многомерной модели событий Бернулли функции являются независимыми логическими значениями (двоичными переменными), описывающими входные данные. Как и полиномиальная модель, эта модель популярна для задач классификации документов ^[10], где используются признаки появления двоичных терминов, а не частота терминов. Если - логическое значение, выражающее появление или отсутствие $i$ -го термина из словаря, то вероятность документа, заданного классом , определяется как ^[10] $x_{i}$ $C_{k}$

p(\mathbf {x} \mid C_{k})=\prod _{i=1}^{n}p_{ki}^{x_{i}}(1-p_{ki})^{(1-x_{i})}

где - вероятность класса, порождающего термин . Эта модель событий особенно популярна для классификации коротких текстов. Его преимущество заключается в явном моделировании отсутствия терминов. Обратите внимание, что наивный байесовский классификатор с моделью событий Бернулли - это не то же самое, что полиномиальный классификатор NB с отсчетом частоты, усеченным до единицы. $p_{ki}$ $C_{k}$ $x_{i}$

Полу-контролируемая оценка параметров [ править ]

Имея способ обучить наивный байесовский классификатор на основе помеченных данных, можно создать полууправляемый обучающий алгоритм, который может учиться на комбинации помеченных и немаркированных данных, запустив алгоритм обучения с учителем в цикле: ^[13]

Учитывая коллекцию меченого образцов

L

и немеченых образцов

U

, начните обучение наивный байесовский классификатор на

L

.

D=L\uplus U

До схождения делать:

Прогнозируйте вероятности классов для всех примеров

x

in .

P(C\mid x)

D

Переобучите модель на основе вероятностей (а не меток), предсказанных на предыдущем шаге.

Сходимость определяется на основе улучшения вероятности модели , где обозначает параметры наивной модели Байеса. $P(D\mid \theta )$ $\theta$

Этот обучающий алгоритм является примером более общего алгоритма ожидания-максимизации (EM): шаг прогнозирования внутри цикла - это E- шаг EM, а повторное обучение наивного байесовского алгоритма - M- шаг. Формально алгоритм обоснован предположением, что данные генерируются смешанной моделью , а компоненты этой смешанной модели являются в точности классами задачи классификации. ^[13]

Обсуждение [ править ]

Несмотря на то, что далеко идущие предположения о независимости часто бывают неточными, наивный байесовский классификатор имеет несколько свойств, которые делают его удивительно полезным на практике. В частности, разделение условных распределений признаков классов означает, что каждое распределение может быть независимо оценено как одномерное распределение. Это помогает облегчить проблемы, возникающие из-за проклятия размерности , например, необходимость в наборах данных, которые экспоненциально масштабируются с количеством функций. Хотя наивный байесовский метод часто не дает хорошей оценки верных вероятностей классов, ^[14]это может не быть требованием для многих приложений. Например, наивный байесовский классификатор сделает правильную классификацию правил принятия решений MAP, если правильный класс более вероятен, чем любой другой класс. Это верно независимо от того, является ли оценка вероятности незначительной или даже очень неточной. Таким образом, общий классификатор может быть достаточно устойчивым, чтобы игнорировать серьезные недостатки лежащей в его основе наивной вероятностной модели. ^[15] Другие причины наблюдаемого успеха наивного байесовского классификатора обсуждаются в цитируемой ниже литературе.

Связь с логистической регрессией [ править ]

Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( Август 2014 г. )

В случае дискретных входных данных (индикатор или частотные характеристики для дискретных событий) наивные байесовские классификаторы образуют генеративно-дискриминационную пару с ( полиномиальными ) классификаторами логистической регрессии : каждый наивный байесовский классификатор можно рассматривать как способ подбора вероятностной модели, которая оптимизирует совместное правдоподобие , в то время как логистическая регрессия соответствует той же вероятностной модели для оптимизации условного . ^[16] $p(C,\mathbf {x} )$ $p(C\mid \mathbf {x} )$

Связь между ними можно увидеть, заметив , что решающая функцию для наивного Байеса (в двоичном случае) можно переписать в виде «предсказать класс , если шансы на превышают ». Выражение этого в пространстве журнала дает: $C_{1}$ $p(C_{1}\mid \mathbf {x} )$ $p(C_{2}\mid \mathbf {x} )$

\log {\frac {p(C_{1}\mid \mathbf {x} )}{p(C_{2}\mid \mathbf {x} )}}=\log p(C_{1}\mid \mathbf {x} )-\log p(C_{2}\mid \mathbf {x} )>0

Левая часть этого уравнения - это логарифм шансов, или логит , величина, предсказанная линейной моделью, лежащей в основе логистической регрессии. Поскольку наивный байесовский метод также является линейной моделью для двух «дискретных» моделей событий, ее можно повторно параметризовать как линейную функцию . Получение вероятностей - это вопрос применения логистической функции к функции softmax или, в случае мультикласса . $b+\mathbf {w} ^{\top }x>0$ $b+\mathbf {w} ^{\top }x$

Дискриминативные классификаторы имеют меньшую асимптотическую ошибку, чем генеративные; однако исследования Нг и Джордана показали, что в некоторых практических случаях наивный метод Байеса может превзойти логистическую регрессию, поскольку она быстрее достигает своей асимптотической ошибки. ^[16]

Примеры [ править ]

Классификация лиц [ править ]

Задача: определить, является ли данный человек мужчиной или женщиной, на основе измеренных характеристик. Характеристики включают рост, вес и размер стопы.

Обучение [ править ]

Пример обучающего набора ниже.

Человек	высота (футы)	вес в фунтах)	размер стопы (дюймы)
мужчина	6	180	12
мужчина	5,92 (5 футов 11 дюймов)	190	11
мужчина	5,58 (5 футов 7 дюймов)	170	12
мужчина	5,92 (5 футов 11 дюймов)	165	10
женский	5	100	6
женский	5,5 (5 футов 6 дюймов)	150	8
женский	5,42 (5 футов 5 дюймов)	130	7
женский	5,75 (5 футов 9 дюймов)	150	9

Классификатор, созданный из обучающего набора с использованием предположения о распределении Гаусса, будет иметь вид (заданные дисперсии являются несмещенными дисперсиями выборки ):

Человек	среднее (рост)	дисперсия (рост)	среднее (вес)	дисперсия (вес)	среднее (размер стопы)	отклонение (размер стопы)
мужчина	5,855	3,5033 × 10 ⁻²	176,25	1,2292 × 10 ²	11,25	9,1667 × 10 ^-1
женский	5,4175	9,7225 × 10 ⁻²	132,5	5,5833 × 10 ²	7,5	1,6667

Допустим, у нас есть равновероятные классы, поэтому P (мужской) = P (женский) = 0,5. Это априорное распределение вероятностей может быть основано на наших знаниях о частотах в большей популяции или на частоте в обучающей выборке.

Тестирование [ править ]

Ниже приведен образец, который можно разделить на мужчин и женщин.

Человек	высота (футы)	вес в фунтах)	размер стопы (дюймы)
образец	6	130	8

Мы хотим определить, какая задняя часть больше, мужская или женская. Для классификации мужского пола задняя часть дается следующим образом:

{\text{posterior (male)}}={\frac {P({\text{male}})\,p({\text{height}}\mid {\text{male}})\,p({\text{weight}}\mid {\text{male}})\,p({\text{foot size}}\mid {\text{male}})}{evidence}}

Для классификации как женщин задняя часть дается следующим образом:

{\text{posterior (female)}}={\frac {P({\text{female}})\,p({\text{height}}\mid {\text{female}})\,p({\text{weight}}\mid {\text{female}})\,p({\text{foot size}}\mid {\text{female}})}{evidence}}

Свидетельство (также называемое нормализующей константой) может быть вычислено:

{\begin{aligned}{\text{evidence}}=P({\text{male}})\,p({\text{height}}\mid {\text{male}})\,p({\text{weight}}\mid {\text{male}})\,p({\text{foot size}}\mid {\text{male}})\\+P({\text{female}})\,p({\text{height}}\mid {\text{female}})\,p({\text{weight}}\mid {\text{female}})\,p({\text{foot size}}\mid {\text{female}})\end{aligned}}

Однако, учитывая выборку, доказательства являются постоянными и, таким образом, одинаково масштабируются для обоих задних зубов. Следовательно, это не влияет на классификацию и может быть проигнорировано. Теперь определим распределение вероятностей для пола выборки.

P({\text{male}})=0.5

p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789

,

где и - параметры нормального распределения, предварительно определенные из обучающей выборки. Обратите внимание, что значение больше 1 здесь в порядке - это скорее плотность вероятности, чем вероятность, потому что высота является непрерывной переменной. $\mu =5.855$ $\sigma ^{2}=3.5033\cdot 10^{-2}$

p({\text{weight}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}

p({\text{foot size}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}

{\text{posterior numerator (male)}}={\text{their product}}=6.1984\cdot 10^{-9}

P({\text{female}})=0.5

p({\text{height}}\mid {\text{female}})=2.2346\cdot 10^{-1}

p({\text{weight}}\mid {\text{female}})=1.6789\cdot 10^{-2}

p({\text{foot size}}\mid {\text{female}})=2.8669\cdot 10^{-1}

{\text{posterior numerator (female)}}={\text{their product}}=5.3778\cdot 10^{-4}

Поскольку в случае женщин апостериорный числитель больше, мы предполагаем, что выборка будет женской.

Классификация документов [ править ]

Вот рабочий пример наивной байесовской классификации к проблеме классификации документов . Рассмотрим проблему классификации документов по их содержанию, например, на спам и не спамовые электронные письма . Представьте, что документы взяты из ряда классов документов, которые можно смоделировать как наборы слов, где (независимая) вероятность того, что i-е слово данного документа встречается в документе из класса C, может быть записана как

p(w_{i}\mid C)\,

(В этом случае мы еще больше упрощаем ситуацию, предполагая, что слова распределены в документе случайным образом, то есть слова не зависят от длины документа, положения в документе по отношению к другим словам или другого контекста документа. )

Тогда вероятность того, что данный документ D содержит все слова , учитывая класс C , равна $w_{i}$

p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,

Вопрос, на который мы хотим ответить: «какова вероятность того, что данный документ D принадлежит данному классу C ?» Другими словами, что есть ? $p(C\mid D)\,$

Теперь по определению

p(D\mid C)={p(D\cap C) \over p(C)}

и

p(C\mid D)={p(D\cap C) \over p(D)}

Теорема Байеса преобразовывает их в утверждение о вероятности с точки зрения правдоподобия .

p(C\mid D)={\frac {p(C)\,p(D\mid C)}{p(D)}}

Предположим на данный момент, что существует только два взаимоисключающих класса, S и ¬ S (например, спам, а не спам), так что каждый элемент (электронное письмо) находится либо в одном, либо в другом;

p(D\mid S)=\prod _{i}p(w_{i}\mid S)\,

и

p(D\mid \neg S)=\prod _{i}p(w_{i}\mid \neg S)\,

Используя байесовский результат выше, мы можем написать:

p(S\mid D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\mid S)

p(\neg S\mid D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\mid \neg S)

Разделение одного на другое дает:

{p(S\mid D) \over p(\neg S\mid D)}={p(S)\,\prod _{i}p(w_{i}\mid S) \over p(\neg S)\,\prod _{i}p(w_{i}\mid \neg S)}

Что может быть переработано как:

{p(S\mid D) \over p(\neg S\mid D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\mid S) \over p(w_{i}\mid \neg S)}

Таким образом, отношение вероятностей p ( S | D ) / p (¬ S | D ) может быть выражено через ряд отношений правдоподобия . Фактическая вероятность p ( S | D ) может быть легко вычислена из log (p ( S | D ) / p (¬ S | D )) на основании наблюдения, что p ( S | D ) + p (¬ S | D ) = 1.

Принимая логарифм всех этих отношений, мы имеем:

\ln {p(S\mid D) \over p(\neg S\mid D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \over p(w_{i}\mid \neg S)}

(Этот метод « логарифмических соотношений правдоподобия » является распространенным методом в статистике. В случае двух взаимоисключающих альтернатив (таких как этот пример) преобразование логарифмического отношения правдоподобия в вероятность принимает форму сигмовидной кривой. : подробности см. в logit .)

Наконец, документ можно классифицировать следующим образом. Это спам, если (т. Е. ), В противном случае это не спам. $p(S\mid D)>p(\neg S\mid D)$ $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$

См. Также [ править ]

AODE
Байесовский классификатор
Байесовская фильтрация спама
Байесовская сеть
Случайный наивный байесовский
Линейный классификатор
Логистическая регрессия
Перцептрон
Лучшая эвристика

Ссылки [ править ]

Эта статья включает в себя список общих ссылок , но он остается в основном непроверенным, поскольку в нем отсутствуют соответствующие встроенные ссылки . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Май 2009 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

^ Маккаллум, Эндрю. «Графические модели, лекция 2: представление байесовской сети» (PDF) . Проверено 22 октября 2019 года .
^ a b Пиринези, С. Мадех; Эль-Дираби, Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем, связанных с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары . 146 (2): 04020022. DOI : 10,1061 / JPEODX.0000175 .
^ а б Хасти, Тревор. (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование: с 200 полноцветными иллюстрациями . Тибширани, Роберт., Фридман, Дж. Х. (Джером Х.). Нью-Йорк: Спрингер. ISBN 0-387-95284-5. OCLC 46809224 .
^ a b Рассел, Стюарт ; Норвиг, Питер (2003) [1995]. Искусственный интеллект: современный подход (2-е изд.). Прентис Холл. ISBN 978-0137903955.
^ a b c Рука, DJ; Ю. К. (2001). «Идиотский байесовский - не все ли так глуп?». Международное статистическое обозрение . 69 (3): 385–399. DOI : 10.2307 / 1403452 . ISSN 0306-7734 . JSTOR 1403452 .
^ Чжан, Гарри. Оптимальность наивного Байеса (PDF) . Конференция FLAIRS2004.
^ Каруана, Р .; Никулеску-Мизил, А. (2006). Эмпирическое сравнение алгоритмов обучения с учителем . Proc. 23-я Международная конференция по машинному обучению. CiteSeerX 10.1.1.122.5901 .
^ Нарасимха Мурти, М .; Сушила Деви, В. (2011). Распознавание образов: алгоритмический подход . ISBN 978-0857294944.
^ a b Джон, Джордж Х .; Лэнгли, Пэт (1995). Оценка непрерывных распределений в байесовских классификаторах . Proc. Одиннадцатая конф. о неопределенности в искусственном интеллекте. Морган Кауфманн. С. 338–345. arXiv : 1302,4964 .
^ a b c МакКаллум, Эндрю; Нигам, Камаль (1998). Сравнение моделей событий для наивной байесовской классификации текста (PDF) . AAAI-98 семинар по обучению категоризации текста. 752 .
^ Метсис, Вангелис; Андроутсопулос, Ион; Палиоурас, Георгиос (2006). Фильтрация спама с наивным байесовским методом - какой наивный байесовский? . Третья конференция по электронной почте и борьбе со спамом (CEAS). 17 .
^ a b Ренни, Дж .; Shih, L .; Teevan, J .; Каргер, Д. (2003). Устранение ошибочных предположений наивных байесовских классификаторов (PDF) . ICML.
^ а б Нигам, Камаль; Маккаллум, Эндрю; Трун, Себастьян; Митчелл, Том (2000). «Учимся классифицировать текст из помеченных и немаркированных документов с помощью EM» (PDF) . Машинное обучение . 39 (2/3): 103–134. DOI : 10,1023 / A: 1007692713085 . S2CID 686980 .
^ Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 . Архивировано из оригинального (PDF) 11 марта 2014 года . Проверено 24 апреля 2016 .
^ Риш, Ирина (2001). Эмпирическое исследование наивного байесовского классификатора (PDF) . Семинар IJCAI по эмпирическим методам ИИ.
^ a b Ng, Эндрю Ю .; Джордан, Майкл И. (2002). О дискриминирующих и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса . НИПС . 14 .

Дальнейшее чтение [ править ]

Домингос, Педро; Паццани, Майкл (1997). «Об оптимальности простого байесовского классификатора при нулевой потере» . Машинное обучение . 29 (2/3): 103–137. DOI : 10,1023 / A: 1007413511361 .
Уэбб, Г.И.; Boughton, J .; Ван, З. (2005). «Не так наивный Байес: агрегирование оценок с одной зависимостью» . Машинное обучение . 58 (1): 5–24. DOI : 10.1007 / s10994-005-4258-6 .
Мозина, М .; Demsar, J .; Kattan, M .; Зупан, Б. (2004). Номограммы для визуализации наивного байесовского классификатора (PDF) . Proc. ПКДД-2004. С. 337–348.
Марон, ME (1961). «Автоматическое индексирование: экспериментальное исследование». Журнал ACM . 8 (3): 404–417. DOI : 10.1145 / 321075.321084 . hdl : 2027 / uva.x030748531 . S2CID 6692916 .
Минский, М. (1961). Шаги к искусственному интеллекту . Proc. IRE. 49 . С. 8–30.

Внешние ссылки [ править ]

Глава книги: Наивная байесовская классификация текстов, Введение в поиск информации
Наивный байесовский метод классификации текста с несбалансированными классами
Результаты тестов наивных байесовских реализаций
Иерархические наивные байесовские классификаторы для неопределенных данных (расширение наивного байесовского классификатора).

Программного обеспечения

Наивные байесовские классификаторы доступны во многих универсальных пакетах машинного обучения и НЛП, включая Apache Mahout , Mallet , NLTK , Orange , scikit-learn и Weka .
IMSL Numerical Libraries Коллекции математических и статистических алгоритмов, доступных на C / C ++, Fortran, Java и C # /. NET. Процедуры интеллектуального анализа данных в библиотеках IMSL включают наивный байесовский классификатор.
Интерактивная электронная таблица Microsoft Excel. Наивная реализация Байеса с использованием VBA (требуются включенные макросы) с видимым исходным кодом.
jBNC - Панель инструментов классификатора байесовских сетей
Набор инструментов статистического распознавания образов для Matlab .
ifile - первый свободно доступный (наивный) байесовский фильтр почты / спама
NClassifier - NClassifier - это библиотека .NET, которая поддерживает классификацию текста и резюмирование текста. Это порт Classifier4J.
Classifier4J - Classifier4J - это библиотека Java, предназначенная для классификации текста. Он поставляется с реализацией байесовского классификатора.
Наивный байесовский классификатор JNBC, работающий в памяти или использующий быстрые хранилища значений ключей (MapDB, LevelDB или RocksDB).
Blayze - Blayze - это минимальная библиотека JVM для наивной байесовской классификации, написанная на Kotlin.

[1] Маккаллум, Эндрю. «Графические модели, лекция 2: представление байесовской сети» (PDF) . Проверено 22 октября 2019 года .

[piryonesi2020-2] Пиринези, С. Мадех; Эль-Дираби, Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем, связанных с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары . 146 (2): 04020022. DOI : 10,1061 / JPEODX.0000175 .

[hastie01-3] а б Хасти, Тревор. (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование: с 200 полноцветными иллюстрациями . Тибширани, Роберт., Фридман, Дж. Х. (Джером Х.). Нью-Йорк: Спрингер. ISBN 0-387-95284-5. OCLC 46809224 .

[aima-4] Рассел, Стюарт ; Норвиг, Питер (2003) [1995]. Искусственный интеллект: современный подход (2-е изд.). Прентис Холл. ISBN 978-0137903955.

[idiots-5] Рука, DJ; Ю. К. (2001). «Идиотский байесовский - не все ли так глуп?». Международное статистическое обозрение . 69 (3): 385–399. DOI : 10.2307 / 1403452 . ISSN 0306-7734 . JSTOR 1403452 .

[6] Чжан, Гарри. Оптимальность наивного Байеса (PDF) . Конференция FLAIRS2004.

[7] Каруана, Р .; Никулеску-Мизил, А. (2006). Эмпирическое сравнение алгоритмов обучения с учителем . Proc. 23-я Международная конференция по машинному обучению. CiteSeerX 10.1.1.122.5901 .

[8] Нарасимха Мурти, М .; Сушила Деви, В. (2011). Распознавание образов: алгоритмический подход . ISBN 978-0857294944.

[john95-9] Джон, Джордж Х .; Лэнгли, Пэт (1995). Оценка непрерывных распределений в байесовских классификаторах . Proc. Одиннадцатая конф. о неопределенности в искусственном интеллекте. Морган Кауфманн. С. 338–345. arXiv : 1302,4964 .

[mccallum-10] МакКаллум, Эндрю; Нигам, Камаль (1998). Сравнение моделей событий для наивной байесовской классификации текста (PDF) . AAAI-98 семинар по обучению категоризации текста. 752 .

[11] Метсис, Вангелис; Андроутсопулос, Ион; Палиоурас, Георгиос (2006). Фильтрация спама с наивным байесовским методом - какой наивный байесовский? . Третья конференция по электронной почте и борьбе со спамом (CEAS). 17 .

[rennie-12] Ренни, Дж .; Shih, L .; Teevan, J .; Каргер, Д. (2003). Устранение ошибочных предположений наивных байесовских классификаторов (PDF) . ICML.

[em-13] а б Нигам, Камаль; Маккаллум, Эндрю; Трун, Себастьян; Митчелл, Том (2000). «Учимся классифицировать текст из помеченных и немаркированных документов с помощью EM» (PDF) . Машинное обучение . 39 (2/3): 103–134. DOI : 10,1023 / A: 1007692713085 . S2CID 686980 .

[14] Никулеску-Мизил, Александру; Каруана, Рич (2005). Предсказание хороших вероятностей с обучением с учителем (PDF) . ICML. DOI : 10.1145 / 1102351.1102430 . Архивировано из оригинального (PDF) 11 марта 2014 года . Проверено 24 апреля 2016 .

[rish-15] Риш, Ирина (2001). Эмпирическое исследование наивного байесовского классификатора (PDF) . Семинар IJCAI по эмпирическим методам ИИ.

[pair-16] Ng, Эндрю Ю .; Джордан, Майкл И. (2002). О дискриминирующих и генеративных классификаторах: сравнение логистической регрессии и наивного Байеса . НИПС . 14 .

[1],