Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей , то мультиномиальная распределение является обобщением биномиального распределения . Например, он моделирует вероятность подсчета для каждой стороны k- стороннего кубика, брошенного n раз. Для n независимых испытаний, каждое из которых приводит к успеху ровно для одной из k категорий, причем каждая категория имеет заданную фиксированную вероятность успеха, полиномиальное распределение дает вероятность любой конкретной комбинации количества успехов для различных категорий.

Когда k равно 2, а n равно 1, полиномиальное распределение является распределением Бернулли . Когда k равно 2, а n больше 1, это биномиальное распределение . Когда k больше 2, а n равно 1, это категориальное распределение .

Распределение Бернулли моделирует результат одного испытания Бернулли . Другими словами, он моделирует, приведет ли один раз подбрасывание (возможно, смещенной ) монеты либо к успеху (получение головы), либо к неудаче (получение хвоста). Биномиальное распределение обобщает это количество головок от выполнения п независимых щелчков (Бернулли) одной и той же монеты. Мультиномиальное распределение моделирует результат n экспериментов, где результат каждого испытания имеет категориальное распределение , например, n раз бросание k- стороннего кубика .

Пусть k - фиксированное конечное число. Математически у нас есть k возможных взаимоисключающих исходов с соответствующими вероятностями p 1 , ..., p k и n независимых испытаний. Поскольку k исходов являются взаимоисключающими и один должен произойти, мы имеем p i  ≥ 0 для i  = 1, ...,  k и . Тогда, если случайные величины X i указывают, сколько раз результат номер i наблюдался за n испытаний, вектор X  = ( X 1 , ..., X k ) следует полиномиальному распределению с параметрами n и p , где p  = ( p 1 , ...,  p k ). Хотя испытания независимы, их результаты X зависят, потому что они должны быть суммированы до n.

В некоторых областях, таких как обработка естественного языка , категориальные и полиномиальные распределения являются синонимами, и обычно говорят о полиномиальном распределении, когда фактически имеется в виду категориальное распределение . Это связано с тем, что иногда удобно выразить результат категориального распределения как вектор «1 из K» (вектор с одним элементом, содержащим 1, а все остальные элементы содержат 0), а не как целое число. в ассортименте ; в этой форме категориальное распределение эквивалентно полиномиальному распределению по одному испытанию.

Спецификация [ править ]

Функция вероятности массы [ править ]

Предположим, кто-то проводит эксперимент по извлечению n шаров k разных цветов из мешка, заменяя извлеченные шары после каждого розыгрыша. Шары одного цвета эквивалентны. Обозначим переменную, которая представляет собой количество извлеченных шаров цвета i ( i = 1, ..., k ), как X i , и обозначим как p i вероятность того, что данное извлечение будет цвета i . Функция массы вероятности этого полиномиального распределения:

для целых неотрицательных чисел x 1 , ..., x k .

Функция массы вероятности может быть выражена с помощью гамма-функции как:

Эта форма показывает свое сходство с распределением Дирихле , которое является его сопряженным априорным .

Визуализация [ править ]

Как срезы обобщенного треугольника Паскаля [ править ]

Точно так же, как можно интерпретировать биномиальное распределение как (нормализованные) одномерные (1D) срезы треугольника Паскаля , можно также интерпретировать полиномиальное распределение как 2D (треугольные) срезы пирамиды Паскаля или 3D / 4D / + (пирамида- shape) срезы многомерных аналогов треугольника Паскаля. Это показывает интерпретацию диапазона распределения: дискретизированные равноматериальные «пирамиды» в произвольной размерности, то есть симплекс с сеткой. [ необходима цитата ]

Как полиномиальные коэффициенты [ править ]

Точно так же, как можно интерпретировать биномиальное распределение как полиномиальные коэффициенты при расширении, можно интерпретировать полиномиальное распределение как коэффициенты при расширении. (Обратите внимание, что, как и в случае биномиального распределения, коэффициенты должны в сумме равняться 1.) Отсюда происходит название « полиномиальное распределение».

Свойства [ править ]

Ожидается , сколько раз исход я наблюдали в течение п испытаний является

Ковариационная матрица выглядит следующим образом . Каждая диагональная запись представляет собой дисперсию биномиально распределенной случайной величины и, следовательно, является

Недиагональные записи - это ковариации :

для i , j различны.

Все ковариации отрицательны, потому что при фиксированном n увеличение одного компонента полиномиального вектора требует уменьшения другого компонента.

Когда эти выражения объединяются в матрицу с элементами i, j, результатом является положительно-полуопределенная ковариационная матрица k × k ранга k  - 1. В особом случае, когда k  =  n и где все p i равны, ковариация матрица - это центрирующая матрица .

Элементы соответствующей корреляционной матрицы :

Обратите внимание, что размер выборки выпадает из этого выражения.

Каждый из k компонентов в отдельности имеет биномиальное распределение с параметрами n и p i для соответствующего значения нижнего индекса i .

Поддержка из полиномиального распределения является множество

Количество его элементов

Обозначение матрицы [ править ]

В матричных обозначениях

и

где p T = вектор-строка, транспонированная вектор-столбец p .

Пример [ править ]

Предположим, что на трехсторонних выборах в большой стране кандидат A получил 20% голосов, кандидат B получил 30% голосов, а кандидат C получил 50% голосов. Если шесть избирателей выбираются случайным образом, какова вероятность того, что в выборке будет ровно один сторонник кандидата A, два сторонника кандидата B и три сторонника кандидата C?

Примечание. Поскольку мы предполагаем, что число голосующих велико, разумно и допустимо считать вероятности неизменными после того, как избиратель будет выбран для выборки. Технически говоря, это выборка без замены, поэтому правильным распределением является многомерное гипергеометрическое распределение , но распределения сходятся по мере роста населения.

Выборка из полиномиального распределения [ править ]

Во-первых, измените порядок параметров таким образом, чтобы они были отсортированы в порядке убывания (это только для ускорения вычислений и не является строго необходимым). Теперь для каждого испытания возьмите вспомогательную переменную X из равномерного (0, 1) распределения. Результирующий результат - компонент

{ X j = 1, X k = 0 для k  ≠  j } - это одно наблюдение из полиномиального распределения с и n  = 1. Сумма независимых повторений этого эксперимента представляет собой наблюдение из полиномиального распределения с n, равным количеству такие повторы.

Для моделирования из полиномиального распределения [ править ]

Для моделирования из полиномиального распределения могут использоваться различные методы. Очень простое решение - использовать однородный генератор псевдослучайных чисел на (0,1). Сначала мы разделим интервал (0,1) на  k подинтервалов, длина которых равна вероятностям k категорий. Затем мы генерируем n независимых псевдослучайных чисел, чтобы определить, в каком из k интервалов они встречаются, и подсчитать количество появлений в каждом интервале.

Пример

Если у нас есть:

Затем с помощью такого программного обеспечения, как Excel, мы можем использовать следующий рецепт:

После этого мы будем использовать такие функции, как SumIf, для накопления наблюдаемых результатов по категориям и для вычисления оценочной ковариационной матрицы для каждой моделируемой выборки.

Другой способ - использовать дискретный генератор случайных чисел. В этом случае категории должны быть помечены или перемаркированы числовыми значениями.

В обоих случаях результатом является полиномиальное распределение с k категориями. Это эквивалентно непрерывному случайному распределению для моделирования k независимых стандартизованных нормальных распределений или мультинормальному распределению N (0, I), имеющему k компонентов, одинаково распределенных и статистически независимых.

Поскольку количество всех категорий должно быть суммировано с количеством испытаний, количество категорий всегда имеет отрицательную корреляцию. [1]

Тесты эквивалентности для полиномиальных распределений [ править ]

Цель проверки эквивалентности - установить соответствие между теоретическим полиномиальным распределением и наблюдаемой частотой счета. Теоретическое распределение может быть полностью заданным полиномиальным распределением или параметрическим семейством полиномиальных распределений.

Позвольте обозначить теоретическое мультиномиальное распределение и позвольте быть истинным основным распределением. Распределения и считаются эквивалентными, если для параметра расстояния и допуска . Задача проверки эквивалентности - против . Истинное основное распределение неизвестно. Вместо этого наблюдаются частоты подсчета , где - размер выборки. Для отклонения используется тест эквивалентности . Если можно отклонить, то эквивалентность между и отображается на заданном уровне значимости. Тест эквивалентности евклидова расстояния можно найти в учебнике Веллека (2010). [2]Тест эквивалентности для общей дистанции вариации разработан в Ostrovski (2017). [3] Точный критерий эквивалентности для конкретного кумулятивного расстояния предложен в Frey (2009). [4]

Расстояние между истинным основным распределением и семейством полиномиальных распределений определяется как . Тогда задача проверки эквивалентности задается выражениями и . Расстояние обычно вычисляется с помощью численной оптимизации. Тесты для этого случая недавно были разработаны Островским (2018). [5]

Связанные дистрибутивы [ править ]

  • Когда k = 2, полиномиальное распределение является биномиальным распределением .
  • Категориальное распределение , распределение каждого испытания; для k = 2 это распределение Бернулли .
  • Распределение Дирихле является сопряженным априорным числом многочлена в байесовской статистике .
  • Полиномиальное распределение Дирихле .
  • Бета-биномиальная модель .
  • Отрицательное полиномиальное распределение
  • Принцип Харди – Вайнберга (это трехчленное распределение с вероятностями )

Ссылки [ править ]

Цитаты [ править ]

  1. ^ "1.7 - Мультиномиальное распределение | STAT 504" . onlinecourses.science.psu.edu . Проверено 11 сентября 2016 .
  2. ^ Веллек, Стефан (2010). Проверка статистических гипотез эквивалентности и неполноценности . Чепмен и Холл / CRC. ISBN 978-1439808184.
  3. Островский, Владимир (май 2017). «Проверка эквивалентности полиномиальных распределений». Статистические и вероятностные письма . 124 : 77–82. DOI : 10.1016 / j.spl.2017.01.004 . S2CID 126293429 . Официальная веб-ссылка (требуется подписка) . Альтернативная бесплатная веб-ссылка .
  4. ^ Фрей, Джесси (март 2009 г.). «Точный полиномиальный тест на эквивалентность». Канадский статистический журнал . 37 : 47–59. DOI : 10.1002 / cjs.10000 .Официальная веб-ссылка (требуется подписка) .
  5. Островский, Владимир (март 2018). «Проверка эквивалентности семейств полиномиальных распределений с применением модели независимости». Статистические и вероятностные письма . 139 : 61–66. DOI : 10.1016 / j.spl.2018.03.014 . S2CID 126261081 . Официальная веб-ссылка (требуется подписка) . Альтернативная бесплатная веб-ссылка .

Источники [ править ]

  • Эванс, Мортон; Гастингс, Николас; Павлин, Брайан (2000). Статистические распределения (3-е изд.). Нью-Йорк: Вили. стр.  134 -136. ISBN 0-471-37124-6.
  • Вайсштейн, Эрик В. «Мультиномиальное распределение» . MathWorld . Wolfram Research .