Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , категорично распределение (также называемый обобщенное распределение Бернулли , multinoulli распределения [1] ) является дискретным распределением вероятностей , которая описывает возможные результаты случайной величины , которая может взять на себя одну из K возможных категорий, с вероятностью каждой категории отдельно. В основе этих результатов нет внутреннего упорядочивания, но для удобства описания распределения часто добавляются числовые метки (например, от 1 до K ). K - мерное категоричен распределение является наиболее общим распространения поK -way событие; любое другое дискретное распределение по пространству выборки размером K является особым случаем. Параметры, определяющие вероятности каждого возможного результата, ограничены только тем фактом, что каждый должен находиться в диапазоне от 0 до 1, а все они должны быть в сумме равными 1.

Категорично распределением является обобщением на распределении Бернулли для категориальной случайной величины, т.е. для дискретного переменного с более чем двумя возможными исходами, такие как свиток кости . С другой стороны, категорическое распределение является частным случаем из полиномиального распределения , в том , что он дает вероятность возможных исходов одного чертежа , а не в нескольких чертежей.

Терминология [ править ]

Иногда категориальное распределение называют «дискретным распределением». Однако это правильно относится не к одному конкретному семейству распределений, а к общему классу распределений .

В некоторых областях, таких как машинное обучение и обработка естественного языка , категориальное и полиномиальное распределения объединены, и обычно говорят о «полиномиальном распределении», когда «категориальное распределение» было бы более точным. [2] Это неточное использование проистекает из того факта, что иногда удобно выразить результат категориального распределения как вектор «1 из K » (вектор с одним элементом, содержащим 1, и всеми другими элементами, содержащими 0) а не как целое число в диапазоне от 1 до K ; в этой форме категориальное распределение эквивалентно полиномиальному распределению для одного наблюдения (см. ниже).

Однако объединение категориального и полиномиального распределений может привести к проблемам. Например, в полиномиальном распределении Дирихле , которое обычно возникает в моделях обработки естественного языка (хотя обычно не с таким названием) в результате свернутой выборки Гиббса, где распределения Дирихле вычленены из иерархической байесовской модели , очень важно, чтобы отличить категориальное от полиномиального. Совместное распределениеодних и тех же переменных с одним и тем же полиномиальным распределением Дирихле имеет две разные формы в зависимости от того, охарактеризовано ли оно как распределение, область которого охватывает отдельные категориальные узлы, или подсчет узлов в полиномиальном стиле в каждой конкретной категории (подобно различию между набор узлов, распределенных по Бернулли, и один узел с биномиальным распределением ). Обе формы имеют очень похожие на вид функции вероятностных масс (PMF), которые ссылаются на подсчет узлов в категории в полиномиальном стиле. Однако у PMF в полиномиальном стиле есть дополнительный фактор, полиномиальный коэффициент., то есть константа, равная 1 в PMF категориального стиля. Их смешение может легко привести к неверным результатам в настройках, где этот дополнительный фактор не является постоянным по отношению к интересующим распределениям. Коэффициент часто является постоянным в полных условных выражениях, используемых в выборке Гиббса, и в оптимальных распределениях в вариационных методах .

Составление дистрибутивов [ править ]

Категориальное распределение - это дискретное распределение вероятностей, пространство выборки которого представляет собой набор из k индивидуально идентифицированных элементов. Это обобщение распределения Бернулли для категориальной случайной величины.

В одной формулировке распределения выборочное пространство берется как конечная последовательность целых чисел. Точные целые числа, используемые в качестве меток, не важны; они могут быть {0, 1, ..., k  - 1} или {1, 2, ..., k } или любым другим произвольным набором значений. В следующих описаниях мы используем {1, 2, ..., k } для удобства, хотя это не согласуется с соглашением для распределения Бернулли , которое использует {0, 1}. В этом случае функция массы вероятности f равна:

где , представляет вероятность увидеть элемент i и .

Другая формулировка, которая кажется более сложной, но облегчает математические манипуляции, заключается в следующем, используя скобку Айверсона : [3]

где принимает значение 1, если , 0 в противном случае. У этой рецептуры есть различные преимущества, например:

  • Легче выписать функцию правдоподобия набора независимых одинаково распределенных категориальных переменных.
  • Он связывает категориальное распределение с соответствующим полиномиальным распределением .
  • Это показывает, почему распределение Дирихле является сопряженным априорным по отношению к категориальному распределению, и позволяет вычислить апостериорное распределение параметров.

Еще одна формулировка делает явной связь между категориальным и полиномиальным распределениями , рассматривая категориальное распределение как частный случай полиномиального распределения, в котором параметр n полиномиального распределения (количество выбранных элементов) фиксируется на 1. В этой формулировке , пространство выборки можно рассматривать как набор кодированных 1 из K [4] случайных векторов x размерности k, обладающих тем свойством, что ровно один элемент имеет значение 1, а другие имеют значение 0. Конкретный элемент, имеющий значение 1 указывает, какая категория была выбрана. Функция массы вероятности f в этой формулировке это:

где представляет собой вероятность увидеть элемент i и . Это формулировка, принятая Епископом . [4] [примечание 1]

Свойства [ править ]

Возможные вероятности для категориального распределения с 2-симплексом , вложенным в 3-пространство.
  • Распределение полностью определяется вероятностями , связанных с каждым номером I : , я = 1, ..., K , где . Возможные наборы вероятностей точно такие же, как в стандартном -мерном симплексе ; для k = 2 это сводится к возможным вероятностям того, что распределение Бернулли является 1-симплексом, ( k − 1 ) {\displaystyle (k-1)}
  • Распределение является частным случаем «многомерного распределения Бернулли» [5], в котором ровно одна из k 0–1 переменных принимает значение единицу.
  • Позвольте быть реализация из категориального распределения. Определите случайный вектор Y как составленный из элементов:
где I - индикаторная функция . Тогда Y имеет распределение, которое является частным случаем полиномиального распределения с параметром . Сумма независимых и одинаково распределенных таких случайных величин Y, построенная из категориального распределения с параметром, является полиномиально распределенной с параметрами и
  • Конъюгат перед распределением категориального распределения является распределением Дирихля . [2] См. Раздел ниже для более подробного обсуждения.
  • Достаточная статистика из п независимых наблюдений есть множество отсчетов (или, что эквивалентно, пропорция) наблюдения в каждой категории, где общее число испытаний (= п ) фиксировано.
  • Индикаторная функция наблюдения, имеющая значение i , эквивалентное скобочной функции Айверсона или дельта- функции Кронекера, является распределенной Бернулли с параметром

Байесовский вывод с использованием сопряженного априорного утверждения [ править ]

В статистических байесовском , том распределении Дирихля является сопряженным перед распределением категориального распределения (а также полиномиальное распределение ). Это означает, что в модели, состоящей из точки данных, имеющей категориальное распределение с неизвестным вектором параметров p , и (в стандартном байесовском стиле) мы решили рассматривать этот параметр как случайную величину и дать ему априорное распределение, определенное с использованием распределения Дирихле , тогда апостериорное распределениепараметра, после включения знаний, полученных из данных наблюдений, также является Дирихле. Интуитивно понятно, что в таком случае, исходя из того, что было известно о параметре до наблюдения точки данных, знания могут быть обновлены на основе точки данных, давая новое распределение той же формы, что и старое. Таким образом, сведения о параметре могут быть последовательно обновлены путем включения новых наблюдений по одному, без математических трудностей.

Формально это можно выразить следующим образом. Учитывая модель

то имеет место следующее: [2]

Это соотношение используется в байесовской статистике для оценки основного параметра p категориального распределения для набора из N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчет , т. Е. Как представление количества наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем счетчики для всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.

Дальнейшая интуиция исходит из ожидаемого значения апостериорного распределения (см. Статью о распределении Дирихле ):

Это говорит о том, что ожидаемая вероятность увидеть категорию i среди различных дискретных распределений, сгенерированных апостериорным распределением, просто равна доле вхождений этой категории, фактически наблюдаемой в данных, включая псевдосчетчики в априорном распределении. Это имеет большой интуитивный смысл: если, например, есть три возможные категории, и категория 1 видна в наблюдаемых данных 40% времени, можно ожидать, что в среднем категория 1 будет встречаться в 40% случаев. также и апостериорное распределение.

(Эта интуиция игнорирует эффект априорного распределения. Более того, апостериорное распределение - это распределение по распределениям.. Апостериорное распределение в целом описывает рассматриваемый параметр, и в этом случае сам параметр представляет собой дискретное распределение вероятностей, т. Е. Фактическое категориальное распределение, создавшее данные. Например, если в наблюдаемых данных присутствуют 3 категории в соотношении 40: 5: 55, то, игнорируя эффект предшествующего распределения, истинный параметр - то есть истинное, лежащее в основе распределение, которое сгенерировало наши наблюдаемые данные - будет иметь среднее значение (0,40,0,05,0,55), что действительно показывает задняя часть. Однако на самом деле истинное распределение может быть (0,35,0,07,0,58) или (0,42,0,04,0,54) или другими близкими возможностями. Степень неопределенности здесь определяется дисперсиейапостериорной, которая контролируется общим количеством наблюдений - чем больше наблюдаемых данных, тем меньше неопределенность относительно истинного параметра.)

(Технически, предыдущий параметр должен фактически рассматриваться как представляющий предыдущие наблюдения категории . Затем обновленный апостериорный параметр представляет апостериорные наблюдения. Это отражает тот факт, что распределение Дирихле с имеет полностью плоскую форму - по сути, равномерное распределение по симплексу возможных значений p . По логике, плоское распределение такого рода представляет собой полное игнорирование, не соответствующее никаким наблюдениям. Однако математическое обновление апостериорного распределения работает нормально, если мы игнорируем термин и просто думаем о αвектор как непосредственно представляющий набор псевдосчетов. Более того, это позволяет избежать проблемы интерпретации значений меньше 1.)

Оценка MAP [ править ]

Максимум-а-апостериорная оценка параметра р в приведенной выше модели является просто режим заднего распределения Дирихле , то есть, [2]

Во многих практических приложениях единственный способ гарантировать условие, которое должно быть установлено для всех i .

Предельная вероятность [ править ]

В приведенной выше модели предельная вероятность наблюдений (т. Е. Совместное распределение наблюдений с маргинализированным предыдущим параметром ) является полиномиальным распределением Дирихле : [2]

Это распределение играет важную роль в иерархических байесовских моделях , потому что при выводе по таким моделям с использованием таких методов, как выборка Гиббса или вариационный Байес , априорные распределения Дирихле часто не учитываются. Подробнее читайте в статье об этом дистрибутиве .

Апостериорное прогнозирующее распределение [ править ]

Заднее предсказание распределения нового наблюдения в рассматриваемой модели является распределением , что новое наблюдение будет взять данное набор из N категорических наблюдений. Как показано в статье о полиномиальном распределении Дирихле , оно имеет очень простую форму: [2]

Между этой формулой и предыдущими существуют различные отношения:

  • Апостериорная прогностическая вероятность увидеть определенную категорию такая же, как относительная доля предыдущих наблюдений в этой категории (включая псевдонаблюдения предыдущих). Это имеет логический смысл - интуитивно мы ожидаем увидеть определенную категорию в соответствии с уже наблюдаемой частотой этой категории.
  • Апостериорная прогностическая вероятность такая же, как и ожидаемое значение апостериорного распределения. Это объясняется более подробно ниже.
  • В результате эта формула может быть выражена просто как «апостериорная прогностическая вероятность увидеть категорию пропорциональна общему наблюдаемому количеству этой категории» или как « ожидаемое количество категорий совпадает с общим наблюдаемым количеством категория ", где" наблюдаемое количество "используется для включения псевдонаблюдений предыдущего.

Причина эквивалентности апостериорной предсказательной вероятности и ожидаемого значения апостериорного распределения p становится очевидной при повторном рассмотрении приведенной выше формулы. Как объясняется в статье о апостериорном прогнозном распределении , формула для апостериорной прогнозирующей вероятности имеет форму ожидаемого значения, взятого относительно апостериорного распределения:

Важнейшая строка выше - третья. Второе следует непосредственно из определения ожидаемой стоимости. Третья строка специфична для категориального распределения и следует из того факта, что в категориальном распределении, в частности, ожидаемое значение от просмотра конкретного значения i напрямую определяется соответствующим параметром p i . Четвертая строка - это просто переписывание третьей в другой записи с использованием более высокой записи для математического ожидания, принятого в отношении апостериорного распределения параметров.

Наблюдайте за точками данных одну за другой и каждый раз учитывайте их прогнозируемую вероятность, прежде чем наблюдать за точкой данных и обновлять апостериорную. Для любой данной точки данных вероятность того, что эта точка примет данную категорию, зависит от количества точек данных, уже находящихся в этой категории. В этом сценарии, если категория имеет высокую частоту появления, то новые точки данных с большей вероятностью присоединятся к этой категории, что еще больше обогатит ту же категорию. Этот тип сценария часто называют моделью предпочтительной привязанности (или «богатый становится богаче»). Это моделирует многие реальные процессы, и в таких случаях выбор, сделанный несколькими первыми точками данных, оказывает огромное влияние на остальные точки данных.

Заднее условное распределение [ править ]

При выборке Гиббса обычно требуется использовать условные распределения в многомерных байесовских сетях, где каждая переменная обусловлена ​​всеми остальными. В сетях, которые включают категориальные переменные с априорными параметрами Дирихле (например, модели смеси и модели, включающие компоненты смеси), распределения Дирихле часто «сворачиваются» ( маргинализируются ) из сети, что вводит зависимости между различными категориальными узлами, зависящими от заданного априорного (в частности, их совместное распределение является полиномиальным распределением Дирихле). Одна из причин для этого заключается в том, что в таком случае распределение одного категориального узла с учетом других является в точности апостериорным прогнозным распределением остальных узлов.

То есть, для набора узлов , если рассматриваемый узел обозначен как, а остаток как , то

где - количество узлов категории i среди узлов, отличных от узла n .

Выборка [ править ]

Существует несколько методов , но наиболее распространенный способ выборки из категориального распределения использует тип выборки с обратным преобразованием :

Предположим, что распределение выражено как «пропорциональное» некоторому выражению с неизвестной нормирующей константой . Перед взятием каких-либо образцов необходимо подготовить следующие значения:

  1. Вычислите ненормализованное значение распределения для каждой категории.
  2. Просуммируйте их и разделите каждое значение на эту сумму, чтобы нормализовать их.
  3. Установите какой-то порядок в категориях (например, с помощью индекса от 1 до k , где k - количество категорий).
  4. Преобразуйте значения в кумулятивную функцию распределения (CDF), заменив каждое значение суммой всех предыдущих значений. Это можно сделать за время O (k) . Результирующее значение для первой категории будет 0.

Затем каждый раз необходимо выбрать значение:

  1. Выберите равномерно распределенное число от 0 до 1.
  2. Найдите в CDF наибольшее число, значение которого меньше или равно только что выбранному числу. Это можно сделать за время O (log (k)) с помощью двоичного поиска .
  3. Верните категорию, соответствующую этому значению CDF.

Если необходимо извлечь много значений из одного и того же категориального распределения, следующий подход более эффективен. Он рисует n выборок за время O (n) (при условии, что приближение O (1) используется для извлечения значений из биномиального распределения [6] ).

function draw_categorical (n) // где n - количество выборок, которые нужно извлечь из категориального распределения г = 1 s = 0 для i от 1 до k // где k - количество категорий v = взять из биномиального (n, p [i] / r) распределения // где p [i] - вероятность категории i для j от 1 до v z [s ++] = i // где z - массив, в котором хранятся результаты п = п - v г = г - р [я] перемешать (случайным образом изменить порядок) элементы в z вернуть z

Выборка через раздачу Gumbel [ править ]

В машинном обучении типично параметризовать категориальное распределение через неограниченное представление в , компоненты которого задаются следующим образом:

где - любая действительная постоянная. Учитывая это представление, можно восстановить с помощью функции softmax , которая затем может быть дискретизирована с использованием методов, описанных выше. Однако существует более прямой метод выборки, использующий образцы из распределения Гамбеля . [7] Пусть будет k независимых выводов из стандартного распределения Гамбеля, тогда

будет выборкой из желаемого категориального распределения. (Если это выборка из стандартного равномерного распределения , то это выборка из стандартного распределения Гамбеля.)


См. Также [ править ]

  • Категориальная переменная

Связанные дистрибутивы [ править ]

  • Распределение Дирихле
  • Полиномиальное распределение
  • Распределение Бернулли
  • Дирихле-полиномиальное распределение

Заметки [ править ]

  1. ^ Однако Бишоп явно не использует термин категориальное распределение.

Ссылки [ править ]

  1. ^ Мерфи, КП (2012). Машинное обучение: вероятностная перспектива , стр. 35. MIT press. ISBN  0262018020 .
  2. ^ a b c d e f Минка Т. (2003) Байесовский вывод, энтропия и полиномиальное распределение . Технический отчет Microsoft Research.
  3. ^ Минка, Т. (2003), цит. соч. Минка использует дельта- функцию Кронекера , похожую на скобку Айверсона, но менее общую.
  4. ^ a b Бишоп, C. (2006) Распознавание образов и машинное обучение , Springer. ISBN 0-387-31073-8 . 
  5. ^ Джонсон, Н.Л., Коц, С., Балакришнан, Н. (1997) Дискретные многомерные распределения , Wiley. ISBN 0-471-12844-9 (стр. 105) 
  6. ^ Агрести, А., Введение в категориальный анализ данных, Wiley-Interscience, 2007, ISBN 978-0-471-22618-5 , стр. 25 
  7. ^ Адамс, Райан. "Уловка Гамбеля – Макса для дискретных распределений" .