Соотношение лексики

Коэффициент Lexis ^[1] используется в статистике как мера, которая стремится оценить различия между статистическими свойствами случайных механизмов, где результат является двузначным - например, «успех» или «неудача», «победа» или «поражение». . Идея состоит в том, что вероятность успеха может варьироваться в зависимости от набора испытаний в разных ситуациях. В настоящее время это соотношение мало используется, поскольку его в значительной степени заменяет использование критерия хи-квадрат при проверке однородности образцов.

Этот показатель сравнивает дисперсию между наборами пропорций выборки (оцениваемых для каждого набора) с тем, какой должна быть дисперсия, если бы не было разницы между истинными пропорциями успеха в разных наборах. Таким образом, эта мера используется для оценки того, как данные соотносятся с распределением Бернулли с фиксированной вероятностью успеха . Термин «соотношение Lexis» иногда называют L или Q , где

{\ displaystyle L ^ {2} = Q ^ {2} = {\ frac {s ^ {2}} {\ sigma _ {0} ^ {2}}}.}

Где ${\ displaystyle s ^ {2}}$ это (взвешенная) дисперсия выборки, полученная из наблюдаемых долей успеха в наборах в «испытаниях Lexis» и ${\ displaystyle \ sigma _ {0} ^ {2}}$ - это дисперсия, рассчитанная из ожидаемого распределения Бернулли на основе общей средней доли успеха. Испытания, в которых L падает значительно выше или ниже 1, называются сверхнормальными и субнормальными соответственно.

Это отношение (Q) является мерой, которая может использоваться для различения трех типов вариаций в выборке для атрибутов: бернуллианской, лексической и пуассонской. Соотношение Lexis иногда также называют L .

Определение

Пусть имеется k выборок размера n ₁ , n ₃ , n ₃ , ..., n _k, и эти выборки имеют долю проверяемого атрибута p ₁ , p ₂ , p ₃ , ..., p _k соответственно. . Тогда коэффициент Лексиса равен

{\ displaystyle Q = {\ frac {\ sum {n_ {i} (p_ {i} -p) ^ {2}}} {(k-1) p (1-p)}}}

Если коэффициент Лексиса значительно ниже 1, выборка называется пуассоновской (или субнормальной); он равен 1, выборка называется бернуллианской (или нормальной); и если он больше 1, он называется лексианским (или сверхнормальным).

Чупров в 1922 г. показал, что в случае статистической однородности

{\ Displaystyle E (Q) = 1}

а также

${\ displaystyle var (Q) = {\ frac {2} {n-1}}}$

где E () - математическое ожидание, а var () - дисперсия. Формула дисперсии является приблизительной и верна только для больших значений n .

Альтернативное определение:

{\ Displaystyle Q = {\ гидроразрыва {s ^ {2}} {\ sigma _ {0} ^ {2}}}}

здесь ${\ displaystyle s ^ {2} \,}$ это (взвешенная) дисперсия выборки, полученная из наблюдаемых долей успеха в наборах в «испытаниях Lexis» и ${\ displaystyle \ sigma _ {0} ^ {2}}$ - это дисперсия, рассчитанная из ожидаемого распределения Бернулли на основе общей средней доли успеха.

Вариация лексики

Тесно родственное понятие - вариация Lexis. Пусть случайным образом отобраны k выборок размера n каждая . Пусть вероятность успеха ( p ) постоянна, и пусть фактическая вероятность успеха в k- ^й выборке будет p ₁ , p ₂ , ..., p _k .

Средняя вероятность успеха ( p ) равна

{\ displaystyle p = {\ frac {1} {k}} \ sum {p_ {i}}}

Разница в количестве успехов составляет

{\ displaystyle var (успехи) = np (1-p) + n (n-1) var (p_ {i})}

где var ( p _i ) - дисперсия p _i .

Если все p _i равны, выборка называется бернуллианской; где p _i различаются, выборка называется лексической, а дисперсия - сверхнормальной.

Лексическая выборка происходит при выборке из неоднородных слоев.

История

Вильгельм Лексис ввел эту статистику, чтобы проверить распространенное в то время предположение о том, что данные выборки можно рассматривать как однородные.

Смотрите также

Сверхдисперсия # Биномиальный

Эта статья о статистике незавершена . Вы можете помочь Википедии, расширив ее .

[Lexis1877-1] Lexis W (1877) Zur Theorie Der Massenerscheinungen в Der Menschlichen Gesellschaft.

[1]

Соотношение лексики

Определение

Вариация лексики

История

Рекомендации

Смотрите также