Статистика теста

Тестовая статистика является статистической (величина , полученной из образца ) , используемые в статистической проверке гипотез . ^[1] Проверка гипотезы обычно определяется в терминах статистики теста, рассматриваемой как числовая сводка набора данных, который сокращает данные до одного значения, которое может использоваться для выполнения проверки гипотезы. Как правило, тестовая статистика выбирается или определяется таким образом, чтобы количественно оценить в наблюдаемых данных поведения, которые отличают нулевую гипотезу от альтернативной гипотезы , если такая альтернатива предписана, или которая характеризует нулевую гипотезу, если существует нет явно заявленной альтернативной гипотезы.

Важное свойством тестовой статистики является то , что выборочное распределение при нулевой гипотезе должно быть вычисляемым, точно или приближенно, что позволяет р -значению быть вычислено. А статистика тест разделяет некоторые из тех же качеств описательной статистики , и многие статистические данные могут быть использованы в качестве как статистических испытаний и описательной статистики. Однако тестовая статистика специально предназначена для использования в статистическом тестировании, в то время как главное качество описательной статистики состоит в том, что ее легко интерпретировать. Некоторая информативная описательная статистика, такая как диапазон выборки , не дает хорошей статистики теста, поскольку трудно определить их распределение выборки.

Две широко используемые тестовые статистики - это t-статистика и F-тест .

Пример [ править ]

Например, предположим, что задача состоит в том, чтобы проверить, является ли монета честной (т.е. имеет ли равные вероятности выпадение головы или хвоста). Если монета подбрасывается 100 раз и результаты записываются, исходные данные могут быть представлены как последовательность из 100 орлов и решек. Если есть интерес к предельной вероятности получения головы, нужно записать только число T из 100 подбрасываний, которые привели к появлению головы. Но T также можно использовать в качестве тестовой статистики одним из двух способов:

точное распределение выборки из Т при нулевой гипотезы является биномиальное распределение с параметрами 0,5 и 100.
значение T можно сравнить с его ожидаемым значением при нулевой гипотезе 50, и, поскольку размер выборки велик, нормальное распределение можно использовать в качестве приближения к распределению выборки либо для T, либо для пересмотренной статистики теста T - 50.

Используя одно из этих распределений выборки, можно вычислить одностороннее или двустороннее p-значение для нулевой гипотезы о том, что монета является честной. Обратите внимание, что статистика теста в этом случае сокращает набор из 100 чисел до единой числовой сводки, которую можно использовать для тестирования.

Общая статистика теста [ править ]

Одновыборочные тесты подходят, когда выборка сравнивается с генеральной совокупностью из гипотезы. Характеристики популяции известны из теории или рассчитываются по совокупности.

Двухвыборочные тесты подходят для сравнения двух образцов, обычно экспериментальных и контрольных образцов из научно контролируемого эксперимента.

Парные тесты подходят для сравнения двух выборок, где невозможно контролировать важные переменные. Вместо того, чтобы сравнивать два набора, элементы объединяются в пары между выборками, так что разница между элементами становится выборкой. Обычно среднее значение разницы затем сравнивается с нулем. Типичный пример сценария, когда подходит тест парных различий, - это когда к одному набору испытуемых что-то применяется, и тест предназначен для проверки эффекта.

Z-тесты подходят для сравнения средних значений при строгих условиях относительно нормальности и известного стандартного отклонения.

Т -test подходит для сравнения средних при мягких условиях (менее предполагается).

Тесты пропорций аналогичны тестам на средства (пропорция 50%).

В тестах хи-квадрат используются одинаковые вычисления и одинаковое распределение вероятностей для разных приложений:

Критерии хи-квадрат для дисперсии используются, чтобы определить, имеет ли нормальная совокупность указанная дисперсия. Нулевая гипотеза такова.
Критерии независимости хи-квадрат используются для определения того, связаны ли две переменные или являются независимыми. Переменные являются категориальными, а не числовыми. Его можно использовать, чтобы решить, коррелирует ли леворукость с ростом (или нет). Нулевая гипотеза состоит в том, что переменные независимы. Числа, использованные в расчетах, представляют собой наблюдаемую и ожидаемую частоту возникновения (из таблиц непредвиденных обстоятельств ).
Критерии согласия по критерию хи-квадрат используются для определения соответствия кривых данным. Нулевая гипотеза состоит в том, что аппроксимация кривой адекватна. Обычно форму кривой определяют, чтобы минимизировать среднеквадратичную ошибку, поэтому целесообразно, чтобы расчет согласия суммировал квадраты ошибок.

F-тесты (дисперсионный анализ, ANOVA) обычно используются при принятии решения о том, значимы ли группировки данных по категориям. Если дисперсия результатов тестов левшей в классе намного меньше, чем дисперсия всего класса, то может быть полезно изучить левшей как группу. Нулевая гипотеза состоит в том, что две дисперсии одинаковы, поэтому предлагаемая группировка не имеет смысла.

В таблице ниже используемые символы определены в нижней части таблицы. Многие другие тесты можно найти в других статьях . Существуют доказательства того, что статистика теста подходит. ^[2]

Имя

Формула

Предположения или примечания

Z-тест для одной выборки

{\ displaystyle z = {\ frac {{\ overline {x}} - \ mu _ {0}} {({\ sigma} / {\ sqrt {n}})}}}

(Нормальная популяция или n большое) и известно σ.

( z - расстояние от среднего по отношению к стандартному отклонению среднего). Для ненормальных распределений можно вычислить минимальную долю совокупности, которая попадает в k стандартных отклонений для любого k (см .: неравенство Чебышева ).

Z-тест с двумя выборками

{\ displaystyle z = {\ frac {({\ overline {x}} _ {1} - {\ overline {x}} _ {2}) - d_ {0}} {\ sqrt {{\ frac {\ sigma) _ {1} ^ {2}} {n_ {1}}} + {\ frac {\ sigma _ {2} ^ {2}} {n_ {2}}}}}}}

Нормальная популяция и независимые наблюдения и σ ₁ и σ ₂ известны.

Один образец т -test

{\ displaystyle t = {\ frac {{\ overline {x}} - \ mu _ {0}} {(s / {\ sqrt {n}})}},}

${\ Displaystyle df = п-1 \}$

(Нормальная популяция или n большое) и неизвестно

{\ displaystyle \ sigma}

Парный t- тест

t={\frac {{\overline {d}}-d_{0}}{(s_{d}/{\sqrt {n}})}},

$df=n-1\$

(Нормальная совокупность различий или n большое) и неизвестно

\sigma

Объединенный t- критерий по двум выборкам , равные дисперсии

t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{s_{p}{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}},

$s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}},$
$df=n_{1}+n_{2}-2\$ ^[3]

(Нормальные популяции или n ₁ + n ₂ > 40) и независимые наблюдения и σ ₁ = σ ₂ неизвестно

Двухвыборочная unpooled т -TEST, неравные дисперсии ( Уэлча т -test )

t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}},

$df={\frac {\left({\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}\right)^{2}}{{\frac {\left({\frac {s_{1}^{2}}{n_{1}}}\right)^{2}}{n_{1}-1}}+{\frac {\left({\frac {s_{2}^{2}}{n_{2}}}\right)^{2}}{n_{2}-1}}}}$ ^[3]

(Нормальные популяции или n ₁ + n ₂ > 40) и независимые наблюдения и σ ₁ ≠ σ ₂ оба неизвестны

Однопропорциональный z-тест

z={\frac {{\hat {p}}-p_{0}}{\sqrt {p_{0}(1-p_{0})}}}{\sqrt {n}}

п ^.p ₀ > 10 и n (1 - p ₀ )> 10, и это SRS (простая случайная выборка), см. примечания .

Двухпропорциональный z-тест, объединенный для

H_{0}\colon p_{1}=p_{2}

z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})}{\sqrt {{\hat {p}}(1-{\hat {p}})({\frac {1}{n_{1}}}+{\frac {1}{n_{2}}})}}}

${\hat {p}}={\frac {x_{1}+x_{2}}{n_{1}+n_{2}}}$

n ₁ p ₁ > 5 и n ₁ (1 - p ₁ )> 5 и n ₂ p ₂ > 5 и n ₂ (1 - p ₂ )> 5 и независимые наблюдения, см. примечания .

Двухпропорциональный z-тест, не объединенный для

|d_{0}|>0

z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})-d_{0}}{\sqrt {{\frac {{\hat {p}}_{1}(1-{\hat {p}}_{1})}{n_{1}}}+{\frac {{\hat {p}}_{2}(1-{\hat {p}}_{2})}{n_{2}}}}}}

n ₁ p ₁ > 5 и n ₁ (1 - p ₁ )> 5 и n ₂ p ₂ > 5 и n ₂ (1 - p ₂ )> 5 и независимые наблюдения, см. примечания .

Критерий хи-квадрат для дисперсии

\chi ^{2}=(n-1){\frac {s^{2}}{\sigma _{0}^{2}}}

df = n-1

• Нормальное население

Критерий согласия на соответствие критериям хи-квадрат

\chi ^{2}=\sum ^{k}{\frac {({\text{observed}}-{\text{expected}})^{2}}{\text{expected}}}

df = k - 1 - # оцениваемых параметров , и один из них должен выполняться.

• Все ожидаемые результаты не менее 5. ^[4]

• Все ожидаемые значения> 1 и не более 20% ожидаемых значений меньше 5 ^[5]

Двухвыборочный F-тест на равенство дисперсий

F={\frac {s_{1}^{2}}{s_{2}^{2}}}

Нормальные совокупности
Сделайте так и отклоните H ₀ для ^[6]

s_{1}^{2}\geq s_{2}^{2}

F>F(\alpha /2,n_{1}-1,n_{2}-1)

Регрессионный t- тест

H_{0}\colon R^{2}=0.

t={\sqrt {\frac {R^{2}(n-k-1^{*})}{1-R^{2}}}}

Отклонить H ₀ для ^[7] * Вычесть 1 для перехвата; k термов содержат независимые переменные.

t>t(\alpha /2,n-k-1^{*})

В общем, нижний индекс 0 указывает значение, взятое из нулевой гипотезы , H ₀ , которое должно использоваться в максимально возможной степени при построении его тестовой статистики. ... Определения других символов:

$\alpha$ , То вероятность того, из I типа ошибки (отклонение нулевой гипотезы , когда фактически это правда)
$n$ = размер выборки
$n_{1}$ = размер образца 1
$n_{2}$ = размер выборки 2
${\overline {x}}$ = выборочное среднее
$\mu _{0}$ = предполагаемое среднее значение для населения
$\mu _{1}$ = среднее значение для населения 1
$\mu _{2}$ = среднее значение для населения 2
$\sigma$ = стандартное отклонение совокупности
$\sigma ^{2}$ = дисперсия населения
$s$ = стандартное отклонение выборки
$\sum ^{k}$ = сумма (из k чисел)

$s^{2}$ = выборочная дисперсия
$s_{1}$ = стандартное отклонение образца 1
$s_{2}$ = стандартное отклонение образца 2
$t$ = t статистика
$df$ = степени свободы
${\overline {d}}$ = выборочное среднее различий
$d_{0}$ = гипотетическая разница в среднем популяции
$s_{d}$ = стандартное отклонение разностей
$\chi ^{2}$ = Статистика хи-квадрат

${\hat {p}}$ = x / n = доля образца , если не указано иное
$p_{0}$ = предполагаемая доля населения
$p_{1}$ = пропорция 1
$p_{2}$ = пропорция 2
$d_{p}$ = гипотетическая разница в пропорции
$\min\{n_{1},n_{2}\}$ = минимум n ₁ и n ₂
$x_{1}=n_{1}p_{1}$
$x_{2}=n_{2}p_{2}$
$F$ = F статистика

См. Также [ править ]

Тест отношения правдоподобия
Лемма Неймана – Пирсона.
$R^{2}$ = коэффициент детерминации
Достаточность (статистика)

Ссылки [ править ]

^ Бергер, RL; Казелла, Г. (2001). Статистический вывод , Duxbury Press, второе издание (стр. 374)
Перейти ↑ Loveland, Jennifer L. (2011). Математическое обоснование вводных проверок гипотез и разработка стандартных образцов (M.Sc. (математика)). Государственный университет Юты . Проверено 30 апреля 2013 года .Аннотация: «Основное внимание уделялось подходу Неймана – Пирсона к проверке гипотез. Краткое историческое развитие подхода Неймана – Пирсона сопровождается математическими доказательствами каждой из проверок гипотез, описанных в справочном материале». Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционная статистика тестов имеет приписанные им распределения вероятностей, так что вычисления значимости, предполагающие эти распределения, верны. Информация о диссертации также размещена на сайте mathnstats.com с апреля 2013 года.
^ a b Справочник NIST: t- тест с двумя выборками для равных средних
^ Steel, RGD, и Torrie, JH, Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 350.
Перейти ↑ Weiss, Neil A. (1999). Вводная статистика (5-е изд.). С. 802 . ISBN 0-201-59877-9.
^ Справочник NIST: F-тест на равенство двух стандартных отклонений (стандартные отклонения тестирования такие же, как и дисперсии тестирования)
^ Steel, RGD, и Torrie, JH, Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 288.)

[CasellaBerger-1] Бергер, RL; Казелла, Г. (2001). Статистический вывод , Duxbury Press, второе издание (стр. 374)

[Loveland-2] Перейти ↑ Loveland, Jennifer L. (2011). Математическое обоснование вводных проверок гипотез и разработка стандартных образцов (M.Sc. (математика)). Государственный университет Юты . Проверено 30 апреля 2013 года .Аннотация: «Основное внимание уделялось подходу Неймана – Пирсона к проверке гипотез. Краткое историческое развитие подхода Неймана – Пирсона сопровождается математическими доказательствами каждой из проверок гипотез, описанных в справочном материале». Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционная статистика тестов имеет приписанные им распределения вероятностей, так что вычисления значимости, предполагающие эти распределения, верны. Информация о диссертации также размещена на сайте mathnstats.com с апреля 2013 года.

[NIST2mean-3] Справочник NIST: t- тест с двумя выборками для равных средних

[4] Steel, RGD, и Torrie, JH, Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 350.

[5] Перейти ↑ Weiss, Neil A. (1999). Вводная статистика (5-е изд.). С. 802 . ISBN 0-201-59877-9.

[6] Справочник NIST: F-тест на равенство двух стандартных отклонений (стандартные отклонения тестирования такие же, как и дисперсии тестирования)

[7] Steel, RGD, и Torrie, JH, Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 288.)

[1]