Полиномиальный тест

В статистике , то мультиномиальный тест является проверкой нулевой гипотезы о том , что параметры полиномиального распределения сравняться заданными значения. Используется для категориальных данных; см. Рид и Кресси. ^[1]

Начиная с образца ${\ displaystyle N}$ предметы, каждый из которых попадает в одну из ${\ displaystyle k}$ категории. Можно определить ${\ displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ dots, x_ {k})}$ как наблюдаемое количество предметов в каждой ячейке. Следовательно ${\ displaystyle \ textstyle \ sum _ {я = 1} ^ {k} x_ {i} = N}$ .

Далее, определение вектора параметров ${\ displaystyle H_ {0}: \ mathbf {\ pi} = (\ pi _ {1}, \ pi _ {2}, \ dots, \ pi _ {k})}$ , где : ${\ displaystyle \ textstyle \ sum _ {я = 1} ^ {k} \ pi _ {я} = 1}$ . Это значения параметров при нулевой гипотезе .

Точная вероятность наблюдаемой конфигурации ${\ displaystyle \ mathbf {x}}$ при нулевой гипотезе дается выражением

{\ displaystyle \ Pr (\ mathbf {x) _ {0}} = N! \ prod _ {i = 1} ^ {k} {\ frac {\ pi _ {i} ^ {x_ {i}}} { x_ {i}!}}.}

Вероятность значимости для теста - это вероятность появления наблюдаемого набора данных или набора данных с меньшей вероятностью, чем наблюдаемый, если нулевая гипотеза верна. Используя точный тест , это вычисляется как

{\ Displaystyle \ Pr (\ mathbf {sig}) = \ sum _ {y: Pr (\ mathbf {y}) \ leq Pr (\ mathbf {x) _ {0}}} \ Pr (\ mathbf {y} )}

где сумма колеблется по всем исходам с такой же или меньшей вероятностью, чем наблюдаемые. На практике это становится обременительным с точки зрения вычислений, поскольку ${\ displaystyle k}$ а также ${\ displaystyle N}$ увеличиваются, поэтому, вероятно, стоит использовать точные тесты только для небольших образцов. Для больших выборок асимптотические приближения достаточно точны и их легче вычислить.

Одним из таких приближений является отношение правдоподобия . Альтернативная гипотеза может быть определена в соответствии с которым каждое значение ${\ displaystyle \ pi _ {я}}$ заменяется его оценкой максимального правдоподобия ${\ displaystyle p_ {i} = x_ {i} / N}$ . Точная вероятность наблюдаемой конфигурации ${\ displaystyle \ mathbf {x}}$ при альтернативной гипотезе дается выражением

{\ displaystyle \ Pr (\ mathbf {x) _ {A}} = N! \ prod _ {i = 1} ^ {k} {\ frac {p_ {i} ^ {x_ {i}}} {x_ { я}!}}.}

Натуральный логарифм отношения между этими двумя вероятностями, умноженный на ${\ displaystyle -2}$ - тогда статистика для теста отношения правдоподобия

{\ displaystyle -2 \ ln (L / R) = \ textstyle -2 \ sum _ {i = 1} ^ {k} x_ {i} \ ln (\ pi _ {i} / p_ {i}).}

^{[ требуется разъяснение ]}

Если нулевая гипотеза верна, то как ${\ displaystyle N}$ увеличивается, распределение ${\ Displaystyle -2 \ ln (LR)}$ сходится к хи-квадрат с ${\ displaystyle k-1}$ степени свободы. Однако давно известно (например, Lawley 1956), что для конечных размеров выборки моменты ${\ Displaystyle -2 \ ln (LR)}$ больше, чем у хи-квадрат, что увеличивает вероятность ошибок типа I (ложных срабатываний). Разница между моментами хи-квадрат и моментами тестовой статистики зависит от ${\ displaystyle N ^ {- 1}}$ . Уильямс (1976) показал, что первый момент может быть сопоставлен, насколько это возможно. ${\ displaystyle N ^ {- 2}}$ если тестовая статистика делится на коэффициент, равный

{\ displaystyle q_ {1} = 1 + {\ frac {\ sum _ {i = 1} ^ {k} \ pi _ {i} ^ {- 1} -1} {6N (k-1)}}. }

В частном случае, когда нулевая гипотеза состоит в том, что все значения ${\ displaystyle \ pi _ {я}}$ равны ${\ displaystyle 1 / k}$ (т.е. он предусматривает равномерное распределение), это упрощает

{\ displaystyle q_ {1} = 1 + {\ frac {k + 1} {6N}}.}

Впоследствии Smith et al. (1981) вывели делительный множитель, который соответствует первому моменту, насколько это возможно. ${\ displaystyle N ^ {- 3}}$ . В случае равных значений ${\ displaystyle \ pi _ {я}}$ , этот коэффициент

{\ displaystyle q_ {2} = 1 + {\ frac {k + 1} {6N}} + {\ frac {k ^ {2}} {6N ^ {2}}}.}

Нулевая гипотеза также может быть проверена с помощью критерия хи-квадрат Пирсона.

{\ displaystyle \ chi ^ {2} = \ sum _ {i = 1} ^ {k} {(x_ {i} -E_ {i}) ^ {2} \ over E_ {i}}}

где ${\ Displaystyle E_ {я} = N \ pi _ {я}}$ ожидаемое количество дел в категории ${\ displaystyle i}$ при нулевой гипотезе. Эта статистика также сходится к распределению хи-квадрат с ${\ displaystyle k-1}$ степеней свободы, когда нулевая гипотеза верна, но делает это как бы снизу, а не сверху, как ${\ Displaystyle -2 \ ln (LR)}$ делает, поэтому может быть предпочтительнее неисправленной версии ${\ Displaystyle -2 \ ln (LR)}$ для небольших образцов. ^{[ необходима цитата ]}

Полиномиальный тест

Рекомендации