Среднее значение выборки и ковариация

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эта статья может быть слишком технической, чтобы ее могло понять большинство читателей . Пожалуйста, помогите улучшить его, чтобы он был понятен неспециалистам , не удаляя технические детали. ( Июнь 2014 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален
Найти источники: «Примерное среднее и ковариация» - новости · газеты · книги · научный сотрудник · JSTOR ( февраль 2008 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

( Узнайте, как и когда удалить этот шаблон сообщения )

Выборочное среднее (или «эмпирическое среднее») и образец ковариационной являются статистические данные , вычисленные из выборки данных по одному или более случайных величин .

Среднее значение выборки - это среднее значение (или среднее значение ) выборки чисел, взятой из большей совокупности чисел, где «совокупность» означает не количество людей, а совокупность соответствующих данных, независимо от того, собраны они или нет. Для удобства можно использовать выборку продаж 40 компаний из списка Fortune 500, вместо того, чтобы смотреть на совокупность, продажи всех 500 компаний. Среднее значение выборки используется в качестве оценки для среднего значения генеральной совокупности, среднего значения для всей генеральной совокупности, где оценка ближе к среднему значению генеральной совокупности, если выборка большая и репрезентативная. Достоверность выборочного среднего оценивается с использованием стандартной ошибки, который, в свою очередь, рассчитывается с использованием дисперсии выборки. Если выборка является случайной, стандартная ошибка падает с размером выборки, и распределение выборочного среднего приближается к нормальному распределению по мере увеличения размера выборки.

Термин «выборочное среднее» также может использоваться для обозначения вектора средних значений, когда статистик смотрит на значения нескольких переменных в выборке, например, продаж, прибыли и сотрудников выборки компаний из списка Fortune 500. В этом случае существует не просто выборочная дисперсия для каждой переменной, но и выборочная ковариационная матрица дисперсии (или просто ковариационная матрица ), показывающая также взаимосвязь между каждой парой переменных. Это будет матрица 3x3, когда рассматриваются 3 переменные. Ковариация выборки полезна при оценке надежности выборочных средних в качестве оценок, а также полезна в качестве оценки матрицы ковариаций генеральной совокупности.

Из - за легкости их расчета и других желательных характеристик, выборочная средняя и Выборочная ковариация широко используется в статистике для представления местоположения и дисперсии в распределении значений в выборке, а также для оценки значений для населения.

Определение выборочного среднего [ править ]

Среднее значение выборки - это среднее значение переменной в выборке, которое представляет собой сумму этих значений, деленную на количество значений. Используя математическую нотацию, если выборка из N наблюдений по переменной X берется из генеральной совокупности, выборочное среднее значение будет:

{\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.

Согласно этому определению, если образец (1, 4, 1) взят из генеральной совокупности (1,1,3,4,0,2,1,0), то среднее значение выборки будет 1/3 (1 + 4 + 1) = 2 по сравнению со средним генеральным значением 1/8 (1 + 1 + 3 + 4 + 0 + 2 + 1 + 0) = 12/8 = 1,5. Даже если выборка является случайной, она редко бывает идеально репрезентативной, и другие выборки будут иметь другие выборочные средние значения, даже если все выборки принадлежат одной и той же генеральной совокупности. Например, выборка (2, 1, 0) будет иметь выборочное среднее значение 1. ${\bar {x}}=$ $\mu =$

Если статистика интересует K переменных, а не одну, каждое наблюдение имеет значение для каждой из этих K переменных, общее среднее значение по выборке состоит из K средних по выборке для отдельных переменных. Пусть будет i- ^е независимо проведенное наблюдение ( i = 1, ..., N ) на j- ^й случайной величине ( j = 1, ..., K ). Эти наблюдения могут быть организованы в N векторов-столбцов, каждый из которых содержит K записей, причем вектор-столбец K × 1 дает i- ^е наблюдения всех обозначаемых переменных ( $x_{ij}$ $\mathbf {x} _{i}$ i = 1, ..., N ).

Образец средний вектор представляет собой вектор столбец, J - ^й элемент представляет собой среднее значение из N наблюдений J - ^й переменной: $\mathbf {\bar {x}}$ ${\bar {x}}_{j}$

{\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.

Таким образом, вектор выборочного среднего содержит среднее значение наблюдений для каждой переменной и записывается как

\mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}={\begin{bmatrix}{\bar {x}}_{1}\\\vdots \\{\bar {x}}_{j}\\\vdots \\{\bar {x}}_{K}\end{bmatrix}}

Определение выборочной ковариации [ править ]

Образец ковариационная матрица представляет собой K матрицу с размерностью K матрица с элементами $\textstyle \mathbf {Q} =\left[q_{jk}\right]$

q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right),

где - оценка ковариации между $j-$ ^й переменной и $k-$ ^й переменной совокупности, лежащей в основе данных. В терминах векторов наблюдений ковариация выборки равна $q_{jk}$

\mathbf {Q} ={1 \over {N-1}}\sum _{i=1}^{N}(\mathbf {x} _{i}.-\mathbf {\bar {x}} )(\mathbf {x} _{i}.-\mathbf {\bar {x}} )^{\mathrm {T} },

В качестве альтернативы можно расположить векторы наблюдений как столбцы матрицы, чтобы

\mathbf {F} ={\begin{bmatrix}\mathbf {x} _{1}&\mathbf {x} _{2}&\dots &\mathbf {x} _{N}\end{bmatrix}}

,

которая представляет собой матрицу из K строк и N столбцов. Здесь примерная ковариационная матрица может быть вычислена как

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })^{\mathrm {T} }

,

где - вектор единиц размером N на $1$ . Если наблюдения выполнены в виде строк , а не столбцов, так что теперь 1 × К вектор - строка , и представляет собой N × K матрица, столбец J представляет собой вектор N наблюдений по переменной J , затем применяя Транспонирует в соответствующих местах урожайности $\mathbf {1} _{N}$ $\mathbf {\bar {x}}$ $\mathbf {M} =\mathbf {F} ^{\mathrm {T} }$

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {M} -\mathbf {1} _{N}\mathbf {{\bar {x}}^{\mathrm {T} }} )^{\mathrm {T} }(\mathbf {M} -\mathbf {1} _{N}\mathbf {{\bar {x}}^{\mathrm {T} }} ).

Как и ковариационные матрицы для случайного вектора , выборочные ковариационные матрицы являются положительно полуопределенными . Чтобы доказать это, заметим, что для любой матрицы матрица положительно полуопределенная. Кроме того, ковариационная матрица положительно определена тогда и только тогда, когда ранг векторов равен K. $\mathbf {A}$ $\mathbf {A} ^{T}\mathbf {A}$ $\mathbf {x} _{i}.-\mathbf {\bar {x}}$

Беспристрастность [ править ]

Выборочные средние и матрица ковариации образца являются несмещенными оценками из среднего и в ковариационной матрице из случайного вектора , вектора - строки которого J - ^й элемента ( J = 1, ..., К ) является одним из случайных величин. ^[1] Выборочная ковариационная матрица находится в знаменателе, а не из-за варианта поправки Бесселя : Короче говоря, выборочная ковариация зависит от разницы между каждым наблюдением и выборочным средним, но выборочное среднее слегка коррелирует с каждым наблюдением, поскольку он определяется на основе всех наблюдений. Если среднее значение населения $\textstyle \mathbf {X}$ $\textstyle N-1$ $\textstyle N$ $\operatorname {E} (\mathbf {X} )$ как известно, аналогичная несмещенная оценка

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),

используя среднее значение генеральной совокупности, в знаменателе стоит . Это пример того, почему в вероятности и статистике важно различать случайные величины (заглавные буквы) и реализации случайных величин (строчные буквы). $\textstyle N$

Оценка максимального правдоподобия ковариации

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right)

для случая распределения Гаусса в знаменателе также стоит N. Отношение 1 / N к 1 / ( N - 1) приближается к 1 для большого N , поэтому оценка максимального правдоподобия приблизительно равна несмещенной оценке при большой выборке.

Дисперсия выборочного распределения выборочного среднего [ править ]

Для каждой случайной переменной среднее значение выборки является хорошей оценкой среднего значения генеральной совокупности, где «хорошая» оценка определяется как эффективная и несмещенная. Конечно, оценка, скорее всего, не будет истинным значением среднего генеральной совокупности, поскольку разные выборки, взятые из одного и того же распределения, дадут разные выборочные средние и, следовательно, разные оценки истинного среднего. Таким образом, выборочное среднее значение является случайной величиной , а не константой, и, следовательно, имеет собственное распределение. Для случайной выборки из N наблюдений на j- ^й случайной величине само распределение выборочного среднего имеет среднее значение, равное среднему по генеральной совокупности, и дисперсию, равную , где $E(X_{j})$ $\sigma _{j}^{2}/N$ $\sigma _{j}^{2}$ - дисперсия населения.

Взвешенные образцы [ править ]

В взвешенной выборке каждому вектору (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес . Без ограничения общности предположим, что веса нормализованы : $\textstyle {\textbf {x}}_{i}$ $\textstyle w_{i}\geq 0$

\sum _{i=1}^{N}w_{i}=1.

(Если это не так, разделите веса на их сумму). Тогда вектор взвешенного среднего определяется как $\textstyle \mathbf {\bar {x}}$

\mathbf {\bar {x}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.

а элементы взвешенной ковариационной матрицы равны ^[2] $q_{jk}$ $\textstyle \mathbf {Q}$

q_{jk}={\frac {1}{1-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right).

Если все веса одинаковы, взвешенное среднее и ковариация уменьшаются до выборочного среднего и ковариации, упомянутых выше. $\textstyle w_{i}=1/N$

Критика [ править ]

Среднее значение выборки и ковариация выборки не являются надежной статистикой , что означает, что они чувствительны к выбросам . Поскольку устойчивость часто является желаемой характеристикой, особенно в реальных приложениях, надежные альтернативы могут оказаться желательными, особенно статистика на основе квантилей, такая как медиана выборки для местоположения ^[3] и межквартильный диапазон (IQR) для дисперсии. Другие альтернативы включают обрезку и Winsorising , такие как усеченное среднее и Winsorized среднее .

См. Также [ править ]

Оценка ковариационных матриц
Матрица разброса
Беспристрастная оценка стандартного отклонения

Ссылки [ править ]

^ Ричард Арнольд Джонсон; Дин В. Уичерн (2007). Прикладной многомерный статистический анализ . Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 года .
↑ Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU - Справочное руководство, версия 1.15 , 2011 г. Разд. 21.7 Взвешенные образцы
^ Всемирный центр вопросов 2006: Среднее значение , Барт Коско

[JohnsonWichern2007-1] Ричард Арнольд Джонсон; Дин В. Уичерн (2007). Прикладной многомерный статистический анализ . Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 года .

[Galassi-2007-GSL-2] Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. Научная библиотека GNU - Справочное руководство, версия 1.15 , 2011 г. Разд. 21.7 Взвешенные образцы

[3] Всемирный центр вопросов 2006: Среднее значение , Барт Коско