Студенческий t- критерий

Т -test любой статистический тест гипотезы , в котором тестовая статистика следует Стьюдент т -распределение под нулевой гипотезой .

Т -test является наиболее часто применяется , когда тестовая статистика будет следовать нормальному распределению , если значение термина масштабирования в тестовых статистиках было известно. Когда термин масштабирование неизвестен и заменяется оценкой на основе данных , статистические данные испытаний (при определенных условиях) следует Стьюдент т распределению. Т -test может быть использован, например, чтобы определить , есть ли средства двух наборов данных могут значительно отличаться друг от друга.

История

Уильям Сили Госсет , который разработал « t- статистику» и опубликовал ее под псевдонимом «Студент».

Термин « t- статистика» сокращен от «статистика проверки гипотез». ^[1]^{[ необходима цитата ]} В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Хельмертом ^[2]^[3]^[4] и Люротом . ^[5]^[6]^[7] t-распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. ^[8] Однако T-распределение, также известное как T-распределение Стьюдента, получило свое название от Уильяма Сили Госсета, который впервые опубликовал его на английском языке в 1908 году в научном журнале Biometrika под псевдонимом «Студент» ^[9]^[10], потому что его Работодатель предпочитал, чтобы сотрудники использовали псевдонимы при публикации научных статей вместо их настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. ^[11] Госсет работал на пивоварне Guinness Brewery в Дублине , Ирландия , и интересовался проблемами малых образцов - например, химическими свойствами ячменя с небольшими размерами образцов. Следовательно, вторая версия этимологии термина Студент заключается в том, что Guinness не хотел, чтобы их конкуренты знали, что они использовали t-критерий для определения качества сырья (см . T -распределение Стьюдента для подробной истории этого псевдонима, который не следует путать с буквальным термином студент ). Хотя это был Уильям Госсет, в честь которого был написан термин «Студент», на самом деле именно благодаря работе Рональда Фишера распределение стало широко известно как «Распределение Стьюдента» ^[12] и «t-критерий Стьюдента».

Госсет был нанят благодаря политике Клода Гиннесса по привлечению лучших выпускников Оксфорда и Кембриджа для применения биохимии и статистики в производственных процессах Гиннесса. ^[13] Госсет разработал t- тест как экономичный способ контроля качества стаута . Работа t- теста была отправлена в журнал Biometrika, опубликована в 1908 г. ^[14].

У Guinness была политика, разрешающая техническому персоналу отпуск для учебы (так называемый «учебный отпуск»), который Госсет использовал в течение первых двух семестров 1906–1907 учебного года в биометрической лаборатории профессора Карла Пирсона в Университетском колледже Лондона . ^[15] Личность Госсета была тогда известна коллегам-статистикам и главному редактору Карлу Пирсону. ^[16]

Использует

Среди наиболее часто используемых t- тестов:

Один образец теста расположение ли среднее значение популяции имеет значение , указанное в нулевой гипотезы .
Двухвыборочная проверка нулевой гипотезы место таким образом, что средства двух популяций равны. Все такие тесты, как правило , называют Стьюдента т - тестов , хотя , строго говоря , что имя должно быть использовано только в случае , если отклонения двух популяций также предполагаются равными; форма теста, используемая при отказе от этого предположения, иногда называется t- критерием Велча . Эти тесты часто называют t- тестами для непарных или независимых выборок , поскольку они обычно применяются, когда статистические единицы, лежащие в основе двух сравниваемых выборок, не перекрываются. ^[17]

Предположения

Большинство тестовых статистик имеют вид $t = Z / s$ , где $Z$ и $s$ - функции данных.

$Z$ может быть чувствительным к альтернативной гипотезе (т. Е. Его величина имеет тенденцию быть больше, когда альтернативная гипотеза верна), тогда как $s$ является параметром масштабирования, который позволяетопределитьраспределение $t$ .

Например, в однократном t- тесте

{\ displaystyle t = {\ frac {Z} {s}} = {\ frac {{\ bar {X}} - \ mu} {{\ widehat {\ sigma}} / {\ sqrt {n}}}} }

где $X$ - выборочное среднее из выборки $X 1, X 2,\dots, X n$ , размера $n$ , $s$ - стандартная ошибка среднего , ${\ textstyle {\ widehat {\ sigma}}}$ - оценка стандартного отклонения генеральной совокупности, а $μ$ - среднее значение $генеральной$ совокупности .

Допущения, лежащие в основе t- теста в простейшей форме, приведенной выше, заключаются в следующем:

$X$ следует нормальному распределению со средним $μ$ и дисперсией $σ 2 / п$
$s 2 (n - 1) / σ 2$ следует распределению χ 2 с $n - 1$ степенями свободы . Это предположение выполняется, когда наблюдения, используемые для оценки $s 2,$ исходят из нормального распределения (и iid для каждой группы).
$Z$ и $s$ являются независимыми .

В t- тесте, сравнивающем средние значения двух независимых выборок, должны выполняться следующие допущения:

Средние значения двух сравниваемых популяций должны соответствовать нормальному распределению . При слабых предположениях это следует для больших выборок из центральной предельной теоремы , даже если распределение наблюдений в каждой группе ненормально. ^[18]
При использовании оригинальное определение Студента о т -теста, две популяции сравниваемых должны иметь одинаковую дисперсию (проверяемые с помощью F -test , тест Левена в , тест Бартлетта или тест Брауна-Форсайта , или оценимый графически с помощью Q-Q участок ). Если размеры выборки в двух сравниваемых группах равны, исходный t- критерий Стьюдента очень устойчив к наличию неравных дисперсий. ^[19] t- критерий Велча нечувствителен к равенству дисперсий независимо от того, схожи ли размеры выборки.
Данные, используемые для проведения теста, следует либо отбирать независимо от двух сравниваемых популяций, либо полностью объединять в пары. Это, как правило, невозможно проверить на основе данных, но если известно, что данные являются зависимыми (например, спарены по дизайну теста), необходимо применить зависимый тест. Для частично парных данных классические независимые t- тесты могут дать неверные результаты, поскольку статистика теста может не соответствовать t- распределению, в то время как зависимый t- критерий является субоптимальным, поскольку он отбрасывает непарные данные. ^[20]

Большинство двухвыборочных t- тестов устойчивы ко всем отклонениям от предположений, кроме больших. ^[21]

Для точности , то т -test и Z -test требуют нормальности средства выборки, а т -test дополнительно требуют, чтобы образец дисперсия следует масштабируется χ 2 распределения , и что выборочная средняя и выборочная дисперсия быть статистически независима . При соблюдении этих условий нормальность отдельных значений данных не требуется. Согласно центральной предельной теореме средние выборки умеренно больших выборок часто хорошо аппроксимируются нормальным распределением, даже если данные не имеют нормального распределения. Для ненормальных данных распределение дисперсии выборки может существенно отклоняться от распределения χ ² . Однако, если размер выборки большой, теорема Слуцкого подразумевает, что распределение дисперсии выборки мало влияет на распределение тестовой статистики.

Непарные и парные двухвыборочные t- тесты

Ошибка типа I для непарных и парных двухвыборочных t- тестов как функция корреляции. Смоделированные случайные числа происходят из двумерного нормального распределения с дисперсией 1. Уровень значимости составляет 5%, а количество случаев - 60.

Мощность непарных и парных двухвыборочных t- тестов как функция корреляции. Смоделированные случайные числа происходят из двумерного нормального распределения с дисперсией 1 и отклонением от ожидаемого значения 0,4. Уровень значимости 5%, количество случаев - 60.

Два образец т - тесты для разницы в среднем включают независимые выборки (образцы) непарные или парные образцы. Парные t- тесты представляют собой форму блокировки и имеют большую мощность (вероятность избежать ошибки типа II, также известную как ложноотрицательный), чем непарные тесты, когда парные единицы аналогичны в отношении «факторов шума», которые не зависят от членство в двух сравниваемых группах. ^[22] В другом контексте, парные t- тесты могут использоваться для уменьшения влияния мешающих факторов в наблюдательном исследовании .

Независимые (непарные) образцы

T- критерий независимых выборок используется, когда получены два отдельных набора независимых и одинаково распределенных выборок, по одному от каждой из двух сравниваемых популяций. Например, предположим, что мы оцениваем эффект от лечения и включаем 100 субъектов в наше исследование, а затем случайным образом назначаем 50 субъектов в группу лечения и 50 субъектов в контрольную группу. В этом случае у нас есть две независимые выборки, и мы будем использовать непарную форму t- критерия.

Парные образцы

Т- тесты парных выборок обычно состоят из выборки совпадающих пар одинаковых единиц или одной группы единиц, которая была протестирована дважды ( t- тест «повторных измерений» ).

Типичный пример t- теста с повторными измерениями - это когда субъектов тестируют перед лечением, скажем, на высокое кровяное давление, и тех же субъектов снова проверяют после лечения препаратом, снижающим артериальное давление. Сравнивая количество одних и тех же пациентов до и после лечения, мы эффективно используем каждого пациента в качестве контроля. Таким образом, правильное отклонение нулевой гипотезы (здесь: отсутствие различий, вызванных лечением) может стать гораздо более вероятным, со статистической мощностью, увеличивающейся просто потому, что случайная вариация между пациентами теперь устранена. Однако увеличение статистической мощности имеет свою цену: требуется больше тестов, каждый предмет должен быть протестирован дважды. Поскольку половина выборки теперь зависит от другой половины, парная версия t- критерия Стьюдента имеет только $п / 2 - 1$ степень свободы ( $n$ - общее количество наблюдений). Пары становятся отдельными тестовыми образцами, и образец необходимо удвоить, чтобы получить такое же количество степеней свободы. Обычно существует $n - 1$ степень свободы ( $n$ - общее количество наблюдений). ^[23]

T -тест парных выборок, основанный на «выборке согласованных пар», получается из непарной выборки, которая впоследствии используется для формирования парной выборки с использованием дополнительных переменных, которые были измерены вместе с интересующей переменной. ^[24] Сопоставление осуществляется путем идентификации пар значений, состоящих из одного наблюдения из каждой из двух выборок, где пара аналогична с точки зрения других измеряемых переменных. Этот подход иногда используется в обсервационных исследованиях для уменьшения или устранения влияния смешивающих факторов.

T- тесты парных выборок часто называют t- тестами зависимых выборок .

Расчеты

Ниже приведены явные выражения, которые можно использовать для проведения различных t- тестов. В каждом случае приводится формула для тестовой статистики, которая либо точно следует, либо близко аппроксимирует t -распределение при нулевой гипотезе. Кроме того, в каждом случае указаны соответствующие степени свободы . Каждую из этих статистических данных можно использовать для проведения одностороннего или двустороннего теста .

После определения значения t и степеней свободы можно найти p -значение , используя таблицу значений t -распределения Стьюдента . Если вычисленное значение p ниже порога, выбранного для статистической значимости (обычно уровня 0,10, 0,05 или 0,01), то нулевая гипотеза отклоняется в пользу альтернативной гипотезы.

Один образец т -test

При проверке нулевой гипотезы о том, что среднее значение $генеральной$ совокупности равно заданному значению $μ$ $0$ , используется статистика

{\ displaystyle t = {\ frac {{\ bar {x}} - \ mu _ {0}} {s / {\ sqrt {n}}}}}

где ${\ displaystyle {\ bar {x}}}$ это выборочное среднее, $˙s$ это стандартное отклонение выборки и $п$ является размер выборки. В этом тесте используются степени свободы $n - 1$ . Хотя родительская популяция не обязательно должна быть нормально распределенной, распределение выборочной совокупности означает ${\ displaystyle {\ bar {x}}}$ считается нормальным.

Согласно центральной предельной теореме , если наблюдения независимы и второй момент существует, то ${\ displaystyle t}$ будет примерно нормальным N (0; 1).

Наклон линии регрессии

Предположим, что кто-то подбирает модель

{\ Displaystyle Y = \ альфа + \ бета х + \ varepsilon}

где $x$ известно, $α$ и $β$ неизвестны, $ε$ - это нормально распределенная случайная величина со средним 0 и неизвестной дисперсией $σ 2$ , а $Y$ - интересующий результат. Мы хотим проверить нулевую гипотезу о том, что наклон $β$ равен некоторому заданному значению $β 0$ (часто принимается равным 0, и в этом случае нулевая гипотеза состоит в том, что $x$ и $y$ некоррелированы).

Позволять

{\ displaystyle {\ begin {align} {\ widehat {\ alpha}}, {\ widehat {\ beta}} & = {\ text {оценки методом наименьших квадратов}}, \\ SE _ {\ widehat {\ alpha}} , SE _ {\ widehat {\ beta}} & = {\ text {стандартные ошибки оценок методом наименьших квадратов}}. \ End {align}}}

потом

{\ displaystyle t _ {\ text {score}} = {\ frac {{\ widehat {\ beta}} - \ beta _ {0}} {SE _ {\ widehat {\ beta}}}} \ sim {\ mathcal { T}} _ {n-2}}

имеет t -распределение с $n - 2$ степенями свободы, если нулевая гипотеза верна. Стандартная ошибка коэффициента наклона :

{\ displaystyle SE _ {\ widehat {\ beta}} = {\ frac {\ sqrt {{\ dfrac {1} {n-2}} \ displaystyle \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {y}} _ {i} \ right) ^ {2}}} {\ sqrt {\ displaystyle \ sum _ {i = 1} ^ {n} \ left (x_ {i} - {\ bar {x}} \ right) ^ {2}}}}}

можно записать через остатки. Позволять

{\ displaystyle {\ begin {align} {\ widehat {\ varepsilon}} _ {i} & = y_ {i} - {\ widehat {y}} _ {i} = y_ {i} - \ left ({\ widehat {\ alpha}} + {\ widehat {\ beta}} x_ {i} \ right) = {\ text {остатки}} = {\ text {оценочные ошибки}}, \\ {\ text {SSR}} & = \ sum _ {i = 1} ^ {n} {{\ widehat {\ varepsilon}} _ {i}} ^ {2} = {\ text {сумма квадратов остатков}}. \ end {выровнено}} }

Тогда $t-$ _балл определяется по формуле:

{\ displaystyle t _ {\ text {score}} = {\ frac {\ left ({\ widehat {\ beta}} - \ beta _ {0} \ right) {\ sqrt {n-2}}} {\ sqrt {\ frac {SSR} {\ sum _ {i = 1} ^ {n} \ left (x_ {i} - {\ bar {x}} \ right) ^ {2}}}}}.}.}

Другой способ определения $t-$ _балла :

{\ displaystyle t _ {\ text {score}} = {\ frac {r {\ sqrt {n-2}}} {\ sqrt {1-r ^ {2}}}},}

где r - коэффициент корреляции Пирсона .

$Т$ _{оценка, отсекаемый} может быть определена из $т$ _{балла, наклон} :

{\ displaystyle t _ {\ text {score, intercept}} = {\ frac {\ alpha} {\ beta}} {\ frac {t _ {\ text {score, slope}}} {\ sqrt {s _ {\ text { x}} ^ {2} + {\ bar {x}} ^ {2}}}}}

где $s x 2$ - дисперсия выборки.

Независимый двухвыборочный t- критерий

Равные размеры выборки и дисперсия

Учитывая две группы (1, 2), этот тест применим только тогда, когда:

два размера выборки (то есть количество участников $n$ в каждой группе) равны;
можно предположить, что два распределения имеют одинаковую дисперсию;

Нарушения этих предположений обсуждаются ниже.

$Т$ статистики для проверки различно может быть вычислена следующим образом средства:

{\ displaystyle t = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {s_ {p} {\ sqrt {\ frac {2} {n}) }}}}}

где

{\ displaystyle s_ {p} = {\ sqrt {\ frac {s_ {X_ {1}} ^ {2} + s_ {X_ {2}} ^ {2}} {2}}}.}

Здесь $s p$ - объединенное стандартное отклонение для $n = n 1 = n 2$ и $s 2 х 1$ и $s 2 х 2$ являются несмещенные оценки этих дисперсий двух образцов. Знаменатель $t$ - это стандартная ошибка разницы между двумя средними.

Для проверки значимости степени свободы этого теста равны $2 n - 2,$ где $n$ - количество участников в каждой группе.

Равные или неравные размеры выборки, одинаковые дисперсии ( 1/2 < s _{X ₁}/s _{X ₂} <2)

Этот тест используется только тогда, когда можно предположить, что два распределения имеют одинаковую дисперсию. (Если это предположение нарушается, см. Ниже.) Предыдущие формулы являются частным случаем формул ниже, их восстанавливают, когда оба образца равны по размеру: $n = n 1 = n 2$ .

$Т$ статистики для проверки различно может быть вычислена следующим образом средства:

{\ displaystyle t = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {s_ {p} \ cdot {\ sqrt {{\ frac {1}} {n_ {1}}} + {\ frac {1} {n_ {2}}}}}}}}

где

{\ displaystyle s_ {p} = {\ sqrt {\ frac {\ left (n_ {1} -1 \ right) s_ {X_ {1}} ^ {2} + \ left (n_ {2} -1 \ right) ) s_ {X_ {2}} ^ {2}} {n_ {1} + n_ {2} -2}}}}

является оценкой объединенного стандартного отклонения двух выборок: он определяется таким образом, что его квадрат является несмещенной оценкой общей дисперсии независимо от того, совпадают ли средние генеральной совокупности или нет. В этих формулах $n i - 1$ - это количество степеней свободы для каждой группы, а общий размер выборки минус два (то есть $n 1 + n 2 - 2$ ) - это общее количество используемых степеней свободы. в тестировании значимости.

Равные или неравные размеры выборки, неравные дисперсии ( s _{X ₁} > 2 s _{X ₂} или s _{X ₂} > 2 s _{X ₁} )

Этот тест, также известный как t- критерий Велча , используется только тогда, когда предполагается, что две дисперсии генеральной совокупности не равны (два размера выборки могут быть или не равны) и, следовательно, должны оцениваться отдельно. $Т$ статистики для теста, отличаются ли средства населения рассчитывается как:

{\ displaystyle t = {\ frac {{\ bar {X}} _ {1} - {\ bar {X}} _ {2}} {s _ {\ bar {\ Delta}}}}}

где

{\ displaystyle s _ {\ bar {\ Delta}} = {\ sqrt {{\ frac {s_ {1} ^ {2}} {n_ {1}}} + {\ frac {s_ {2} ^ {2}) } {n_ {2}}}}}.}

Вот $ев я 2$ является несмещенной оценкой из дисперсии каждого из двух образцов с $п я$ = количество участников в группе $я$ (1 или 2). В таком случае ${\ textstyle (s _ {\ bar {\ Delta}}) ^ {2}}$ не является совокупной дисперсией. Для использования в тестировании значимости распределение тестовой статистики аппроксимируется как обычное t -распределение Стьюдента со степенями свободы, рассчитанными с использованием

{\ displaystyle \ mathrm {df} = {\ frac {\ left ({\ frac {s_ {1} ^ {2}} {n_ {1}}} + {\ frac {s_ {2} ^ {2}}) {n_ {2}}} \ right) ^ {2}} {{\ frac {\ left (s_ {1} ^ {2} / n_ {1} \ right) ^ {2}} {n_ {1} - 1}} + {\ frac {\ left (s_ {2} ^ {2} / n_ {2} \ right) ^ {2}} {n_ {2} -1}}}}.}.

Это известно как уравнение Уэлча – Саттертуэйта . Истинное распределение тестовой статистики фактически зависит (немного) от двух неизвестных дисперсий совокупности (см. Проблему Беренса – Фишера ).

Зависимый t- критерий для парных выборок

Этот тест используется, когда образцы зависимы; то есть, когда есть только один образец, который был протестирован дважды (повторные измерения), или когда есть два образца, которые были сопоставлены или «спарены». Это пример парного разностного теста . Т статистики рассчитывается как

{\ displaystyle t = {\ frac {{\ bar {X}} _ {D} - \ mu _ {0}} {s_ {D} / {\ sqrt {n}}}}}

где ${\ displaystyle {\ bar {X}} _ {D}}$ а также ${\ displaystyle s_ {D}}$ - среднее и стандартное отклонение разностей между всеми парами. Пары представляют собой, например, баллы одного человека до и после тестирования или между парами людей, составленных в значимые группы (например, взятые из одной семьи или возрастной группы: см. Таблицу). Константа $μ 0$ равна нулю, если мы хотим проверить, существенно ли отличается среднее значение разницы. Используемая степень свободы равна $n - 1$ , где $n$ представляет количество пар.

Пример повторных измерений
Число	Имя	Тест 1	Тест 2
1	Майк	35%	67%
2	Мелани	50%	46%
3	Мелисса	90%	86%
4	Митчелл	78%	91%

Пример подобранных пар
Пара	Имя	Возраст	Контрольная работа
1	Джон	35 год	250
1	Джейн	36	340
2	Джимми	22	460
2	Джесси	21 год	200

Примеры работ

Пусть $A 1$ обозначает набор, полученный путем случайной выборки из шести измерений:

{\ Displaystyle A_ {1} = \ {30.02, \ 29.99, \ 30.11, \ 29.97, \ 30.01, \ 29.99 \}}

и пусть $A 2$ обозначает второй набор, полученный аналогично:

{\ Displaystyle A_ {2} = \ {29.89, \ 29.93, \ 29.72, \ 29.98, \ 30.02, \ 29.98 \}}

Это может быть, например, вес шурупов, выбранных из ведра.

Мы проведем проверку нулевой гипотезы о том, что средние значения совокупностей, из которых были взяты две выборки, равны.

Разница между двумя выборочными средними значениями, каждое из которых обозначено $X i$ , которое появляется в числителе для всех двухвыборочных подходов к тестированию, обсужденных выше, составляет

{\ displaystyle {\ bar {X}} _ {1} - {\ bar {X}} _ {2} = 0,095.}

Образцы стандартные отклонения для двух образцов примерно 0,05 и 0,11, соответственно. Для таких небольших выборок проверка равенства между двумя дисперсиями генеральной совокупности не будет очень действенной. Поскольку размеры выборки равны, две формы двухвыборочного t- критерия в этом примере будут работать одинаково.

Неравные отклонения

Если следовать подходу для неравных дисперсий (обсужденному выше), результаты будут

{\ displaystyle {\ sqrt {{\ frac {s_ {1} ^ {2}} {n_ {1}}} + {\ frac {s_ {2} ^ {2}} {n_ {2}}}}}) \ приблизительно 0,04849}

и степени свободы

{\ displaystyle {\ text {df}} \ приблизительно 7,031.}

Статистика теста составляет приблизительно 1,959, что дает p -значение двустороннего теста 0,09077.

Равные отклонения

Если следовать подходу равных дисперсий (обсужденному выше), результаты будут

{\ displaystyle s_ {p} \ приблизительно 0,08396}

и степени свободы

{\ displaystyle {\ text {df}} = 10.}

Статистика теста приблизительно равна 1,959, что дает двустороннее p- значение 0,07857.

Связанные статистические тесты

Альтернативы t- тесту для определения местоположения

Т -test обеспечивает точный тест на равенство средств двух IID нормальных популяций с неизвестным, но равен, дисперсиями. ( Уэлч т -test является почти точным тестом для случая , когда данные являются нормальными , но дисперсии могут отличаться) . Для умеренно больших выборок и одного хвостатых теста, т -test является относительно устойчивой к умеренному нарушению нормальности предположения. ^[25] В достаточно больших выборках t-критерий асимптотически приближается к z- критерию и становится устойчивым даже к большим отклонениям от нормальности. ^[18]

Если данные существенно не соответствуют норме, а размер выборки невелик, t- критерий может дать неверные результаты. См. В разделе « Проверка местоположения» распределений смеси в масштабе Гаусса некоторые теории, относящиеся к одному конкретному семейству ненормальных распределений.

Когда предположение о нормальности не выполняется, непараметрическая альтернатива t- критерию может иметь лучшую статистическую мощность . Однако, когда данные не являются нормальными с различными отклонениями между группами, t-тест может иметь лучший контроль ошибок типа 1, чем некоторые непараметрические альтернативы. ^[26] Кроме того, непараметрические методы, такие как U-критерий Манна-Уитни, обсуждаемый ниже, обычно не проверяют различие средних значений, поэтому их следует использовать осторожно, если разница средних значений представляет первостепенный научный интерес. ^[18] Например, U-критерий Манна-Уитни сохранит ошибку типа 1 на желаемом уровне альфа, если обе группы имеют одинаковое распределение. Он также будет иметь возможность обнаруживать альтернативу, по которой группа B имеет то же распределение, что и A, но после некоторого сдвига на константу (в этом случае действительно будет разница в средних значениях двух групп). Однако могут быть случаи, когда группы A и B будут иметь разные распределения, но с одними и теми же средними значениями (например, два распределения, одно с положительной асимметрией, а другое с отрицательным, но смещенное таким образом, чтобы иметь одинаковые средние значения). В таких случаях MW может иметь больше, чем уровень альфа-уровня, отклоняя гипотезу о нуле, но приписывать интерпретацию различия в средних значениях такому результату было бы неверно.

При наличии выброса t-тест не является надежным. Например, для двух независимых выборок, когда распределения данных асимметричны (то есть распределения искажены ) или распределения имеют большие хвосты, тогда критерий суммы рангов Вилкоксона (также известный как U- критерий Манна – Уитни ) может иметь три в четыре раза большей мощности, чем t- тест. ^[25]^[27]^[28] Непараметрическим аналогом t - критерия для парных выборок является знаковый ранговый критерий Вилкоксона для парных выборок. Для обсуждения выбора между t- критерием и непараметрическими альтернативами см. Lumley, et al. (2002). ^[18]

Односторонний дисперсионный анализ (ANOVA) обобщает двухвыборочный t- критерий, когда данные принадлежат более чем двум группам.

Дизайн, включающий как парные, так и независимые наблюдения.

Когда в двух планах выборки присутствуют как парные наблюдения, так и независимые наблюдения, при условии, что данные отсутствуют полностью случайным образом (MCAR), парные наблюдения или независимые наблюдения могут быть отброшены, чтобы продолжить стандартные тесты, описанные выше. В качестве альтернативы, используя все доступные данные, предполагая нормальность и MCAR, можно использовать t-тест обобщенных частично перекрывающихся выборок. ^[29]

Многовариантное тестирование

Обобщение t- статистики Стьюдента , называемое t- квадратной статистикой Хотеллинга , позволяет проверять гипотезы по множественным (часто коррелированным) измерениям в пределах одной и той же выборки. Например, исследователь может подвергнуть несколько субъектов личностному тесту, состоящему из множественных личностных шкал (например, Миннесотский многофазный опросник личности ). Поскольку меры этого типа обычно положительно коррелированы, не рекомендуется проводить отдельные одномерные t- тесты для проверки гипотез, поскольку они пренебрегают ковариацией между мерами и увеличивают вероятность ложного отклонения по крайней мере одной гипотезы ( ошибка типа I ). В этом случае для проверки гипотез предпочтительнее использовать одномерный многомерный тест. Метод Фишера для объединения нескольких тестов с уменьшенным альфа для положительной корреляции между тестами - один. Другой Хотеллинг T ² статистика следует Т ² распределения. Однако на практике это распределение используется редко, так как табличные значения T ² трудно найти. Обычно вместо этого T ² конвертируется в статистику F.

Для многомерного теста с одной выборкой гипотеза состоит в том, что средний вектор ( $μ$ ) равен заданному вектору ( $μ 0$ ). Статистика теста - t 2 Хотеллинга :

{\ displaystyle t ^ {2} = n ({\ bar {\ mathbf {x}}} - {{\ boldsymbol {\ mu}} _ {0}}) '{\ mathbf {S}} ^ {- 1 } ({\ bar {\ mathbf {x}}} - {{\ boldsymbol {\ mu}} _ {0}})}

где $n$ - размер выборки, $x$ - вектор средних значений столбца, а $S$ - ковариационная матрица выборки $m \times m$ .

Для многомерного теста с двумя выборками гипотеза состоит в том, что средние векторы ( $μ 1, μ 2$ ) двух выборок равны. Статистический показатель теста - это двухвыборочный t 2 Хотеллинга :

{\ displaystyle t ^ {2} = {\ frac {n_ {1} n_ {2}} {n_ {1} + n_ {2}}} \ left ({\ bar {\ mathbf {x}}} _ { 1} - {\ bar {\ mathbf {x}}} _ {2} \ right) '{\ mathbf {S} _ {\ text {pooled}}} ^ {- 1} \ left ({\ bar {\ mathbf {x}}} _ {1} - {\ bar {\ mathbf {x}}} _ {2} \ right).}

Программные реализации

Многие программы для работы с электронными таблицами и статистические пакеты, такие как QtiPlot , LibreOffice Calc , Microsoft Excel , SAS , SPSS , Stata , DAP , gretl , R , Python , PSPP , MATLAB и Minitab , включают реализации t- теста Стьюдента .

Язык / Программа	Функция	Заметки
Microsoft Excel до 2010 г.	`TTEST(array1, array2, tails, type)`	См. [1]
Microsoft Excel 2010 и более поздние версии	`T.TEST(array1, array2, tails, type)`	См. [2]
LibreOffice Calc	`TTEST(Data1; Data2; Mode; Type)`	См. [3]
Google Таблицы	`TTEST(range1, range2, tails, type)`	См. [4]
Python	`scipy.stats.ttest_ind(a, b, equal_var=True)`	См. [5]
MATLAB	`ttest(data1, data2)`	См. [6]
Mathematica	`TTest[{data1,data2}]`	См. [7]
р	`t.test(data1, data2, var.equal=TRUE)`	См. [8]
SAS	`PROC TTEST`	См. [9]
Ява	`tTest(sample1, sample2)`	См. [10]
Юлия	`EqualVarianceTTest(sample1, sample2)`	См. [11]
Stata	`ttest data1 == data2`	См. [12]

Смотрите также

Модель условного изменения
F -тест
Нецентральное t- распределение в анализе мощности
T- статистика студента
Z -тест
U- критерий Манна – Уитни
Поправка Шидака для t- критерия
T- критерий Велча
Дисперсионный анализ (ANOVA)

дальнейшее чтение

Боне, К. Алан (1960). «Последствия нарушения предположений, лежащих в основе t- теста». Психологический бюллетень . 57 (1): 49–64. DOI : 10.1037 / h0041412 . PMID 13802482 .
Edgell, Стивен Э .; Полдень, Шейла М. (1984). «Влияние нарушения нормальности на t- тест коэффициента корреляции». Психологический бюллетень . 95 (3): 576–583. DOI : 10.1037 / 0033-2909.95.3.576 .

Внешние ссылки

"Студенческий тест" , Энциклопедия математики , EMS Press , 2001 [1994]
Концептуальная статья о t- критерии Стьюдента.
Эконометрика лекции (тема: проверка гипотез) на YouTube с помощью Mark Thoma

[1] Микробиом в здоровье и болезнях . Академическая пресса. 2020-05-29. п. 397. ISBN. 978-0-12-820001-8.

[2] Сабо, Иштван (2003), «Systeme aus einer endlichen Anzahl starrer Körper», Einführung in die Technische Mechanik , Springer Berlin Heidelberg, стр. 196–199, doi : 10.1007 / 978-3-642-61925-0_16 , ISBN 978-3-540-13293-6

[3] Шливич, Б. (октябрь 1937 г.). "Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica superior und damit в Zusammenhang stehende Fragen". Zeitschrift für Anatomie und Entwicklungsgeschichte . 107 (6): 709–737. DOI : 10.1007 / bf02118337 . ISSN 0340-2061 . S2CID 27311567 .

[4] Гельмерт (1876 г.). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit" . Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–131. Bibcode : 1876AN ..... 88..113H . DOI : 10.1002 / asna.18760880802 .

[5] Люрот, Дж. (1876 г.). "Vergleichung von zwei Werthen des wahrscheinlichen Fehlers" . Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Bibcode : 1876AN ..... 87..209L . DOI : 10.1002 / asna.18760871402 .

[6] Pfanzagl Дж, Шейнин О (1996). «Исследования по истории вероятности и статистики. XLIV. Предшественник t-распределения». Биометрика . 83 (4): 891–898. DOI : 10.1093 / Biomet / 83.4.891. Руководство по ремонту 1766040.

[7] Шейнин, Оскар (1995). «Работа Гельмерта по теории ошибок». Архив истории точных наук . 49 (1): 73–104. DOI : 10.1007 / BF00374700 . ISSN 0003-9519 . S2CID 121241599 .

[8] Пирсон, К. (1895-01-01). "Вклад в математическую теорию эволюции. II. Косые вариации в однородном материале". Философские труды Королевского общества A: математические, физические и инженерные науки . 186 : 343–414 (374). DOI : 10,1098 / rsta.1895.0010. ISSN 1364-503X

[9] "Студент" Уильям Сили Госсет (1908). «Вероятная ошибка среднего» (PDF). Биометрика . 6 (1): 1–25. DOI : 10.1093 / biomet / 6.1.1. hdl : 10338.dmlcz / 143545. JSTOR 2331554

[10] «Таблица T | История таблицы T, этимология, таблица T с одним концом, таблица T с двумя хвостами и T-статистика» .

[11] Перейти ↑ Wendl MC (2016). «Псевдонимная слава». Наука. 351 (6280): 1406. DOI: 10.1126 / science.351.6280.1406. PMID 27013722

[12] Уолпол, Рональд Э. (2006). Вероятность и статистика для инженеров и ученых . Майерс, Х. Раймонд. (7-е изд.). Нью-Дели: Пирсон. ISBN 81-7758-404-9. OCLC 818811849 .

[Gossett-13] О'Коннор, Джон Дж .; Робертсон, Эдмунд Ф. , "Уильям Сили Госсет" , архив истории математики MacTutor , Университет Сент-Эндрюс

[The_Probable_Error_of_a_Mean-14] «Вероятная ошибка среднего» (PDF) . Биометрика . 6 (1): 1–25. 1908. DOI : 10.1093 / biomet / 6.1.1 . hdl : 10338.dmlcz / 143545 . Проверено 24 июля +2016 .

[15] Раджу, TN (2005). «Уильям Сили Госсет и Уильям А. Сильверман: два« студента »науки». Педиатрия . 116 (3): 732–5. DOI : 10.1542 / peds.2005-1134 . PMID 16140715 . S2CID 32745754 .

[Dodge2008-16] Додж, Ядола (2008). Краткая энциклопедия статистики . Springer Science & Business Media. С. 234–235. ISBN 978-0-387-31742-7.

[fadem-17] Фадем, Барбара (2008). Высокодоходная поведенческая наука . Высокодоходная серия. Хагерстаун, Мэриленд: Липпинкотт Уильямс и Уилкинс. ISBN 978-0-7817-8258-6.

[:0-18] а б в г Ламли, Томас; Дир, Паула; Эмерсон, Скотт; Чен, Лу (май 2002 г.). «Важность предположения о нормальности в больших наборах данных общественного здравоохранения» . Ежегодный обзор общественного здравоохранения . 23 (1): 151–169. DOI : 10.1146 / annurev.publhealth.23.100901.140546 . ISSN 0163-7525 . PMID 11910059 .

[19] Марковски, Кэрол А .; Марковский, Эдвард П. (1990). «Условия эффективности предварительного дисперсионного теста». Американский статистик . 44 (4): 322–326. DOI : 10.2307 / 2684360 . JSTOR 2684360 .

[Guo2017-20] Го, Бэйбэй; Юань, Ин (2017). «Сравнительный обзор методов сравнения средних с использованием частично парных данных». Статистические методы в медицинских исследованиях . 26 (3): 1323–1340. DOI : 10.1177 / 0962280215577111 . PMID 25834090 . S2CID 46598415 .

[Bland1995-21] Блэнд, Мартин (1995). Введение в медицинскую статистику . Издательство Оксфордского университета. п. 168. ISBN 978-0-19-262428-4.

[22] Райс, Джон А. (2006). Математическая статистика и анализ данных (3-е изд.). Duxbury Advanced.^{[ ISBN отсутствует ]}

[23] Вайсштейн, Эрик. "Студенческое t-распределение" . mathworld.wolfram.com .

[24] Дэвид, Х. А .; Ганнинк, Джейсон Л. (1997). «Парный t- тест при искусственном спаривании». Американский статистик . 51 (1): 9–12. DOI : 10.2307 / 2684684 . JSTOR 2684684 .

[Sawilowsky-Blair-25] а б Савиловский, Шломо С .; Блэр, Р. Клиффорд (1992). «Более реалистичный взгляд на устойчивость и свойства ошибок типа II t- теста на отклонения от нормальности для популяции». Психологический бюллетень . 111 (2): 352–360. DOI : 10.1037 / 0033-2909.111.2.352 .

[26] Циммерман, Дональд В. (январь 1998 г.). «Признание недействительными параметрических и непараметрических статистических тестов одновременным нарушением двух предположений». Журнал экспериментального образования . 67 (1): 55–68. DOI : 10.1080 / 00220979809598344 . ISSN 0022-0973 .

[27] Блэр, Р. Клиффорд; Хиггинс, Джеймс Дж. (1980). «Сравнение Силой Вилкоксона суммы рангов Statistic на что из Стьюдента т статистики в рамках различных ненормальных распределений». Журнал образовательной статистики . 5 (4): 309–335. DOI : 10.2307 / 1164905 . JSTOR 1164905 .

[28] Фэй, Майкл П .; Прошан, Майкл А. (2010). «Уилкоксона – Манна – Уитни или t- критерий? На предположениях для проверки гипотез и множественной интерпретации правил принятия решений» . Статистические обзоры . 4 : 1–39. DOI : 10.1214 / 09-SS051 . PMC 2857732 . PMID 20414472 .

[Partover-29] Деррик, B; Toher, D; Белый, П (2017). «Как сравнить средние значения двух выборок, которые включают парные наблюдения и независимые наблюдения: спутник Деррика, Расс, Тохер и Уайт (2017)» (PDF) . Количественные методы психологии . 13 (2): 120–126. DOI : 10.20982 / tqmp.13.2.p120 .

[1]

Студенческий t- критерий

История

Использует

Предположения