В статистике , в частности , проверки гипотез , в Хотеллинге T -squared распределения ( T 2 ), предложенное Хотеллингом , [1] является многомерным распределением вероятностей , которая тесно связана с F -распределения и является наиболее заметным для возникновения как распределение из набора образцов статистики , которые являются естественным обобщением статистических данных , лежащих в основе Стьюдента т -распределения .
В Хотеллинге т -squared статистика ( т 2 ) является обобщением Стьюдента т -статистики , который используется в многомерной проверке гипотез . [2]
Распределение возникает в многомерной статистике при проведении тестов различий между (многомерными) средними значениями различных популяций, где тесты для одномерных задач будут использовать t- критерий . Распределение названо в честь Гарольда Хотеллинга , который разработал его как обобщение t- распределения Стьюдента. [1]
Если вектор является многомерно-распределенным по Гауссу с нулевым средним и единичной ковариационной матрицей а также это матрица с матрицей единичного масштаба и m степенями свободы с распределением Уишарта , то квадратичная форма имеет распределение Хотеллинга (с параметрами а также ): [3]
Кроме того, если случайная величина X имеет Т- квадрат распределения Хотеллинга ,, затем: [1]
где - F -распределение с параметрами p и m − p + 1 .
Позволять быть выборкой ковариации :
где мы обозначим транспонирование с помощью апострофа . Можно показать, чтоявляется положительным (пол) определенная матрицей иследует p -вариантному распределению Уишарта с n −1 степенями свободы. [4] Примерная ковариационная матрица среднего значения выглядит следующим образом:.
В Хотеллинге т -squared статистика затем определяются как: [5]
который пропорционален расстоянию между выборочным средним и. Из-за этого следует ожидать, что статистика будет принимать низкие значения, если, и высокие значения, если они разные.
Из раздачи ,
где - F -распределение с параметрами p и n - p .
Для того , чтобы вычислить р -значение (не связанной с р переменной здесь), отметим , что распределение эквивалентно означает, что
Затем используйте количество в левой части, чтобы оценить значение p, соответствующее образцу, которое получено из F- распределения. Область доверия также может быть определена с помощью аналогичной логики.
Мотивация
Позволять обозначают нормальное распределение p- переменной с местоположением и известная ковариация . Позволять
быть n независимыми одинаково распределенными (iid) случайными величинами , которые могут быть представлены каквекторы-столбцы действительных чисел. Определять
быть выборочным средним с ковариацией. Можно показать, что
где - распределение хи-квадрат с p степенями свободы. [6]
Доказательство |
---|
Доказательство - Чтобы показать это, используйте тот факт, что и вывести характеристическую функцию случайной величины. Как обычно, пустьобозначают определитель аргумента, как в. По определению характеристической функции имеем: [7]
Внутри интеграла две экспоненты, поэтому, умножая экспоненты, мы складываем показатели вместе, получая:
Теперь возьмите термин от интеграла и умножить все на тождество , поместив одну из них внутрь интеграла:
Но член внутри интеграла - это в точности функция плотности вероятности многомерного нормального распределения с ковариационной матрицей и значит , поэтому при интегрировании по всем , он должен уступить согласно аксиомам вероятности . [ требуется пояснение ] Таким образом, мы получаем:
где является единичной матрицей размерности . Наконец, вычисляя определитель, получаем:
которая является характеристической функцией для распределения хи-квадрат с степени свободы. |
Если а также , с выборками, независимо взятыми из двух независимых многомерных нормальных распределений с одним и тем же средним значением и ковариацией, и мы определяем
как означает образец, и
как соответствующие выборочные ковариационные матрицы. потом
представляет собой несмещенную оценку объединенной ковариационной матрицы (расширение объединенной дисперсии ).
Наконец, в два-образце Хотеллинга т -squared статистических IS
Связанные понятия
Это может быть связано с F-распределением [4]
Ненулевое распределение этой статистики является нецентральным F-распределением (отношение нецентральной случайной величины хи-квадрат и независимой центральной случайной величины хи-квадрат )
с участием
где - вектор разницы между средними по численности населения.
В случае с двумя переменными формула красиво упрощается, позволяя понять, как корреляция , между переменными влияет . Если мы определим
а также
тогда
Таким образом, если различия в двух строках вектора одного знака, как правило, становится меньше по мере того, как становится более позитивным. Если различия противоположного знака становится больше по мере того, как становится более позитивным.
Одномерный частный случай можно найти в t-критерии Велча .
В литературе были предложены более надежные и мощные тесты, чем двухвыборочный тест Хотеллинга, см., Например, тесты на основе расстояния между точками, которые могут применяться также, когда количество переменных сравнимо или даже больше, чем количество испытуемых. [8] [9]