Смещение оценщика

В статистических данных , то смещения (или функция смещения ) в качестве оценки разница между этой оценкой по ожидаемому значению и истинное значение параметра оцениваются. Оценка или правило принятия решения с нулевым смещением называется несмещенным . В статистике «систематическая ошибка» - это объективное свойство оценщика. Смещение также может быть измерено относительно медианы , а не среднего (ожидаемого значения), и в этом случае можно отличить медиану- объективность от обычного среднего- объективного свойства. Смещение - это отличное понятие от последовательности. Последовательные оценки сходятся по вероятности к истинному значению параметра, но могут быть смещенными или несмещенными; см. смещение по сравнению с последовательностью, чтобы узнать больше.

При прочих равных, несмещенная оценка предпочтительнее, чем смещенная оценка, хотя на практике часто используются смещенные оценки (как правило, с небольшим смещением). Когда используется смещенная оценка, вычисляются границы смещения. Смещенная оценка может использоваться по разным причинам: поскольку несмещенная оценка не существует без дополнительных предположений о совокупности; потому что оценщик трудно вычислить (как при объективной оценке стандартного отклонения ); потому что оценка является несмещенной по среднему, но не по среднему (или наоборот); потому что смещенная оценка дает более низкое значение некоторой функции потерь (особенно среднеквадратичной ошибки ) по сравнению с несмещенной оценкой (особенно в оценках усадки ); или потому, что в некоторых случаях непредвзятость является слишком сильным условием, и единственные объективные оценки бесполезны.

Кроме того, несмещенность по среднему не сохраняется при нелинейных преобразованиях, хотя средняя несмещенность сохраняется (см. § Эффект преобразований ); например, дисперсия выборки является смещенной оценкой дисперсии генеральной совокупности. Все это проиллюстрировано ниже.

Определение

Предположим, у нас есть статистическая модель , параметризованная действительным числом θ , дающая начало распределению вероятностей для наблюдаемых данных, ${\ Displaystyle P _ {\ theta} (x) = P (x \ mid \ theta)}$ , и статистика ${\ displaystyle {\ hat {\ theta}}}$ который служит в качестве оценки из & thetas на основе любых наблюдаемых данных ${\ displaystyle x}$ . То есть мы предполагаем, что наши данные следуют некоторому неизвестному распределению ${\ Displaystyle Р (х \ середина \ тета)}$ (где θ - фиксированная неизвестная константа, которая является частью этого распределения), а затем мы строим некоторую оценку ${\ displaystyle {\ hat {\ theta}}}$ который отображает наблюдаемые данные в значения, которые, как мы надеемся, близки к θ . Смещения от ${\ displaystyle {\ hat {\ theta}}}$ относительно ${\ displaystyle \ theta}$ определяется как ^[1]^[2]

{\ displaystyle \ operatorname {Bias} ({\ hat {\ theta}}, \ theta) = \ operatorname {Bias} _ {\ theta} [\, {\ hat {\ theta}} \,] = \ operatorname { E} _ {x \ mid \ theta} [\, {\ hat {\ theta}} \,] - \ theta = \ operatorname {E} _ {x \ mid \ theta} [\, {\ hat {\ theta }} - \ theta \,],}

где ${\ displaystyle \ operatorname {E} _ {x \ mid \ theta}}$ обозначает ожидаемое значение по распределению ${\ Displaystyle Р (х \ середина \ тета)}$ (т.е. усреднение по всем возможным наблюдениям ${\ displaystyle x}$ ). Второе уравнение следует из того, что θ измеримо относительно условного распределения ${\ Displaystyle Р (х \ середина \ тета)}$ .

Оценщик называется несмещенным, если его смещение равно нулю для всех значений параметра θ , или, что то же самое, если ожидаемое значение оценщика совпадает с ожидаемым значением параметра. ^[3]

В имитационном эксперименте, касающемся свойств оценщика, смещение оценщика может быть оценено с использованием средней разности со знаком .

Примеры

Выборочная дисперсия

Выборочная дисперсия случайной величины демонстрирует два аспекта смещения оценивани: во - первых, смещена наивные оценки, которые могут быть исправлены с помощью масштабного коэффициента; во-вторых, несмещенная оценка не является оптимальной с точки зрения среднеквадратичной ошибки (MSE), которую можно минимизировать, используя другой масштабный коэффициент, что приводит к смещенной оценке с более низкой MSE, чем несмещенная оценка. Конкретно, наивная оценка суммирует квадраты отклонений и делит на n, что является необъективным. Вместо этого деление на n - 1 дает несмещенную оценку. И наоборот, MSE можно минимизировать путем деления на другое число (в зависимости от распределения), но это приводит к смещению оценки. Это число всегда больше, чем n - 1, поэтому это называется оценкой усадки , поскольку она «сжимает» несмещенную оценку до нуля; для нормального распределения оптимальное значение - n + 1.

Предположим, что X ₁ , ..., X _n - независимые и одинаково распределенные (iid) случайные величины с математическим ожиданием μ и дисперсией σ ² . Если выборочное среднее и нескорректированная выборочная дисперсия определены как

{\ displaystyle {\ overline {X}} \, = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ {i} \ qquad S ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ big (} X_ {i} - {\ overline {X}} \, {\ big)} ^ {2} \ qquad}

то S ² является смещенной оценкой σ ² , потому что

{\ displaystyle {\ begin {align} \ operatorname {E} [S ^ {2}] & = \ operatorname {E} \ left [{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ big (} X_ {i} - {\ overline {X}} {\ big)} ^ {2} \ right] = \ operatorname {E} {\ bigg [} {\ frac {1} { n}} \ sum _ {i = 1} ^ {n} {\ bigg (} (X_ {i} - \ mu) - ({\ overline {X}} - \ mu) {\ bigg)} ^ {2 } {\ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ bigg (} (X_ {i} - \ mu) ^ {2} -2 ({\ overline {X}} - \ mu) (X_ {i} - \ mu) + ({\ overline {X}} - \ mu) ^ {2} {\ bigg)} {\ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ { n} (X_ {i} - \ mu) ^ {2} - {\ frac {2} {n}} ({\ overline {X}} - \ mu) \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) + {\ frac {1} {n}} ({\ overline {X}} - \ mu) ^ {2} \ sum _ {i = 1} ^ {n} 1 { \ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ му) ^ {2} - {\ frac {2} {n}} ({\ overline {X}} - \ mu) \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) + {\ frac {1} {n}} ({\ overline {X}} - \ mu) ^ {2} \ cdot n {\ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2} - {\ frac {2} {n}} ({ \ overline {X}} - \ mu) \ sum _ {i = 1} ^ {n} ( X_ {i} - \ mu) + ({\ overline {X}} - \ mu) ^ {2} {\ bigg]} \\ [8pt] \ end {align}}}

В продолжение заметим, что, вычитая ${\ displaystyle \ mu}$ с обеих сторон ${\ displaystyle {\ overline {X}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ {i}}$ , мы получили

{\ displaystyle {\ begin {align} {\ overline {X}} - \ mu = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ {i} - \ mu = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} X_ {i} - {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ mu \ = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu). \\ [8pt] \ end {выровнено}}}

Значение (путем перекрестного умножения) ${\ displaystyle n \ cdot ({\ overline {X}} - \ mu) = \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu)}$ . Тогда предыдущее становится:

{\ displaystyle {\ begin {align} \ operatorname {E} [S ^ {2}] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1 } ^ {n} (X_ {i} - \ mu) ^ {2} - {\ frac {2} {n}} ({\ overline {X}} - \ mu) \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) + ({\ overline {X}} - \ mu) ^ {2} {\ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [ } {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2} - {\ frac {2} {n}} ({\ overline {X}} - \ mu) \ cdot n \ cdot ({\ overline {X}} - \ mu) + ({\ overline {X}} - \ mu) ^ {2} {\ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2} -2 ({\ overline {X}} - \ mu) ^ {2} + ({\ overline {X}} - \ mu) ^ {2} {\ bigg]} \\ [8pt] & = \ operatorname { E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2} - ({\ overline {X} } - \ mu) ^ {2} {\ bigg]} \\ [8pt] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2} {\ bigg]} - \ operatorname {E} {\ bigg [} ({\ overline {X}} - \ mu) ^ {2} {\ bigg]} \\ [8pt] & = \ sigma ^ {2} - \ operatorname {E} {\ bigg [} ({\ overline {X}} - \ mu) ^ {2} {\ bigg]} = \ left (1 - {\ frac {1} {n}} \ right) \ sigma ^ {2} <\ sigma ^ {2}. \ end {align}}}

Это можно увидеть, обратив внимание на следующую формулу, которая следует из формулы Биенайме , для члена в неравенстве для математического ожидания нескорректированной выборочной дисперсии выше: ${\ displaystyle \ operatorname {E} {\ big [} ({\ overline {X}} - \ mu) ^ {2} {\ big]} = {\ frac {1} {n}} \ sigma ^ {2 }}$ .

Другими словами, ожидаемое значение нескорректированной дисперсии выборки не равно дисперсии совокупности σ ² , если не умножено на коэффициент нормализации. С другой стороны, выборочное среднее представляет собой несмещенную ^[4] оценку среднего генерального значения μ . ^[3]

Обратите внимание, что обычное определение дисперсии выборки: ${\ displaystyle S ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}} \,) ^ {2}}$ , и это объективная оценка дисперсии совокупности.

Алгебраически говоря, ${\ displaystyle \ operatorname {E} [S ^ {2}]}$ беспристрастен, потому что:

{\ displaystyle {\ begin {align} \ operatorname {E} [S ^ {2}] & = \ operatorname {E} \ left [{\ frac {1} {n-1}} \ sum _ {i = 1 } ^ {n} {\ big (} X_ {i} - {\ overline {X}} {\ big)} ^ {2} \ right] = {\ frac {n} {n-1}} \ operatorname { E} \ left [{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ big (} X_ {i} - {\ overline {X}} {\ big)} ^ {2} \ right] \\ [8pt] & = {\ frac {n} {n-1}} \ left (1 - {\ frac {1} {n}} \ right) \ sigma ^ {2} = \ sigma ^ {2}, \\ [8pt] \ end {выровнено}}}

где переход ко второй строке использует результат, полученный выше для смещенной оценки. Таким образом ${\ Displaystyle \ OperatorName {E} [S ^ {2}] = \ sigma ^ {2}}$ , и поэтому ${\ displaystyle S ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}} \,) ^ {2}}$ - несмещенная оценка дисперсии совокупности σ ² . Соотношение между смещенными (нескорректированными) и несмещенными оценками дисперсии известно как поправка Бесселя .

Причина смещения нескорректированной выборочной дисперсии S ² связана с тем фактом, что выборочное среднее является обычной оценкой методом наименьших квадратов (МНК) для μ : ${\ displaystyle {\ overline {X}}}$ это число, составляющее сумму ${\ Displaystyle \ сумма _ {я = 1} ^ {п} (X_ {я} - {\ overline {X}}) ^ {2}}$ как можно меньше. То есть, когда в эту сумму подставляется любое другое число, сумма может только увеличиваться. В частности, выбор ${\ displaystyle \ mu \ neq {\ overline {X}}}$ дает,

{\ displaystyle {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ {2} <{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2},}

а потом

{\ displaystyle {\ begin {align} \ operatorname {E} [S ^ {2}] & = \ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ sum _ {i = 1 } ^ {n} (X_ {i} - {\ overline {X}}) ^ {2} {\ bigg]} <\ operatorname {E} {\ bigg [} {\ frac {1} {n}} \ сумма _ {i = 1} ^ {n} (X_ {i} - \ mu) ^ {2} {\ bigg]} = \ sigma ^ {2}. \ end {align}}}

Приведенное выше обсуждение можно понять в геометрических терминах: вектор ${\ displaystyle {\ vec {C}} = (X_ {1} - \ mu, \ ldots, X_ {n} - \ mu)}$ можно разложить на «среднюю часть» и «часть дисперсии» путем проецирования в направлении ${\ Displaystyle {\ vec {u}} = (1, \ ldots, 1)}$ и к гиперплоскости ортогонального дополнения этого направления. Один получает ${\ displaystyle {\ vec {A}} = ({\ overline {X}} - \ mu, \ ldots, {\ overline {X}} - \ mu)}$ для части вместе ${\ displaystyle {\ vec {u}}}$ а также ${\ displaystyle {\ vec {B}} = (X_ {1} - {\ overline {X}}, \ ldots, X_ {n} - {\ overline {X}})}$ для дополнительной части. Поскольку это ортогональное разложение, теорема Пифагора гласит ${\ displaystyle | {\ vec {C}} | ^ {2} = | {\ vec {A}} | ^ {2} + | {\ vec {B}} | ^ {2}}$ , и исходя из ожиданий получаем ${\ displaystyle n \ sigma ^ {2} = n \ operatorname {E} \ left [({\ overline {X}} - \ mu) ^ {2} \ right] + n \ operatorname {E} [S ^ { 2}]}$ , как указано выше (но раз ${\ displaystyle n}$ ). Если распределение ${\ displaystyle {\ vec {C}}}$ осесимметрична, как и в случае, когда ${\ displaystyle X_ {i}}$ выбираются из гауссианы, затем в среднем размер по ${\ displaystyle {\ vec {u}}}$ способствует ${\ displaystyle | {\ vec {C}} | ^ {2}}$ так же, как и ${\ displaystyle n-1}$ направления, перпендикулярные ${\ displaystyle {\ vec {u}}}$ , чтобы ${\ displaystyle \ operatorname {E} \ left [({\ overline {X}} - \ mu) ^ {2} \ right] = {\ frac {\ sigma ^ {2}} {n}}}$ а также ${\ displaystyle \ operatorname {E} [S ^ {2}] = {\ frac {(n-1) \ sigma ^ {2}} {n}}}$ . Как объяснено выше, в целом это действительно так.

Оценка вероятности Пуассона

Гораздо более крайний случай, когда смещенная оценка лучше, чем любая несмещенная оценка, возникает из распределения Пуассона . ^[5]^[6] Предположим, что X имеет распределение Пуассона с математическим ожиданием λ . Предположим, требуется оценить

{\ displaystyle \ operatorname {P} (X = 0) ^ {2} = e ^ {- 2 \ lambda} \ quad}

с выборкой размером 1. (Например, когда входящие вызовы на телефонном коммутаторе моделируются как процесс Пуассона, а λ - среднее количество вызовов в минуту, тогда e ^{−2 λ} - вероятность того, что вызовы не поступят в следующие две минуты.)

Поскольку ожидание несмещенной оценки δ ( X ) равно оценке, т. Е.

{\ Displaystyle \ OperatorName {E} (\ delta (X)) = \ sum _ {x = 0} ^ {\ infty} \ delta (x) {\ frac {\ lambda ^ {x} e ^ {- \ lambda }} {x!}} = e ^ {- 2 \ lambda},}

единственная функция данных, составляющих несмещенную оценку, - это

{\ Displaystyle \ дельта (х) = (- 1) ^ {х}. \,}

Чтобы увидеть это, обратите внимание, что при разложении e ^{- λ} из приведенного выше выражения для математического ожидания сумма, которая остается, также является разложением e ^-^λ в ряд Тейлора , что дает e ^-^λ e ^-^λ = e ⁻²^λ (см. Характеристики экспоненциальной функции ).

Если наблюдаемое значение X равно 100, тогда оценка равна 1, хотя истинное значение оцениваемой величины, скорее всего, будет около 0, что является противоположным экстремумом. И если X оказывается равным 101, тогда оценка еще более абсурдна: это -1, хотя оцениваемая величина должна быть положительной.

(Смещенная) оценка максимального правдоподобия

{\ displaystyle e ^ {- 2 {X}} \ quad}

намного лучше, чем эта беспристрастная оценка. Его значение не только всегда положительно, но и более точно в том смысле, что его среднеквадратичная ошибка

{\ displaystyle e ^ {- 4 \ lambda} -2e ^ {\ lambda (1 / e ^ {2} -3)} + e ^ {\ lambda (1 / e ^ {4} -1)} \,}

меньше; сравнить MSE объективной оценки

{\ displaystyle 1-e ^ {- 4 \ lambda}. \,}

СКО являются функциями истинного значения λ . Смещение оценки максимального правдоподобия:

{\ displaystyle e ^ {- 2 \ lambda} -e ^ {\ lambda (1 / e ^ {2} -1)}. \,}

Максимум дискретного равномерного распределения

Систематическая ошибка оценок максимального правдоподобия может быть значительной. Рассмотрим случай , когда п билеты , пронумерованных от 1 до п помещены в коробку и один выбирается случайным образом , давая значение X . Если n неизвестно, то оценка максимального правдоподобия n равна X , даже несмотря на то, что математическое ожидание X для данного n составляет только ( n + 1) / 2; мы можем быть уверены только в том, что n не меньше X и, вероятно, больше. В этом случае естественная несмещенная оценка равна 2 X - 1.

Средне-несмещенные оценки

Теория несмещенных оценок по медиане была возрождена Джорджем Брауном в 1947 г .: ^[7]

Оценка одномерного параметра θ будет называться несмещенной по медиане, если для фиксированного θ медиана распределения оценки находится на значении θ; т.е. оценка занижается так же часто, как и завышается. Это требование, по-видимому, для большинства целей выполняет столько же, сколько и требование несмещенного среднего, и имеет дополнительное свойство, заключающееся в том, что оно инвариантно относительно однозначного преобразования.

Другие свойства оценок без смещения по медиане были отмечены Леманом, Бирнбаумом, ван дер Ваарт и Пфанзаглом. ^{[ необходима цитата ]} В частности, несмещенные по среднему значению оценки существуют в тех случаях, когда несмещенные по среднему значению оценки и оценки максимального правдоподобия не существуют. Они инвариантны относительно однозначных преобразований .

Существуют методы построения несмещенных по медиане оценок для распределений вероятностей, которые имеют монотонные функции правдоподобия , такие как однопараметрические экспоненциальные семейства, чтобы гарантировать их оптимальность (в некотором смысле аналогично свойству минимальной дисперсии, рассматриваемому для оценок без смещения среднего). . ^[8]^[9] Одна из таких процедур является аналогом процедуры Рао – Блэквелла для несмещенных оценок среднего: процедура выполняется для меньшего класса вероятностных распределений, чем процедура Рао – Блэквелла для несмещенных оценок, но для большего класс функций потерь. ^[9]

Смещение относительно других функций потерь

Любая оценка с минимальной дисперсией, несмещенная к среднему, минимизирует риск ( ожидаемые потери ) по отношению к функции потерь с квадратом ошибок (среди оценок со средним несмещением), как наблюдал Гаусс . ^[10] Несмещенная по медиане оценка минимального среднего абсолютного отклонения минимизирует риск по отношению к функции абсолютных потерь (среди оценок, несмещенных по медиане), как наблюдал Лаплас . ^[10]^[11] Другие функции потерь используются в статистике, особенно в надежной статистике . ^[10]^[12]

Эффект преобразований

Как указано выше, для одномерных параметров оценки без смещения по медиане остаются несмещенными по медиане при преобразованиях, сохраняющих порядок (или обратный порядок).

Обратите внимание на то, что когда преобразование применяется к несмещенному среднему оценщику, результат не обязательно должен быть несмещенным к среднему оценщиком соответствующей статистики совокупности. Согласно неравенству Дженсена , выпуклая функция как преобразование вносит положительное смещение, в то время как вогнутая функция вносит отрицательное смещение, а функция смешанной выпуклости может вносить смещение в любом направлении, в зависимости от конкретной функции и распределения. То есть для нелинейной функции f и несмещенной в среднем оценки U параметра p составная оценка f ( U ) не обязательно должна быть несмещенной в среднем оценкой f ( p ). Так , например, квадратный корень из несмещенной оценки населения дисперсии это не средняя-несмещенной оценка населения стандартного отклонения : квадратный корень из несмещенной выборочной дисперсии , скорректированного стандартного отклонения выборки , смещаются. Смещение зависит как от распределения выборки оценщика, так и от преобразования и может быть весьма сложно вычислить - см. Несмещенную оценку стандартного отклонения для обсуждения в этом случае.

Смещение, дисперсия и среднеквадратичная ошибка

Выборочные распределения двух альтернативных оценок для параметра β ₀ . Хотя β ₁^{^} несмещен, он явно уступает смещенному β ₂^{^} .

Регрессия гребня является одним из примеров метода, при котором допущение небольшого отклонения может привести к значительному сокращению дисперсии и более надежным оценкам в целом.

В то время как смещение количественно определяет ожидаемую среднюю разницу между оценочным устройством и базовым параметром, можно дополнительно ожидать, что оценка, основанная на конечной выборке, будет отличаться от параметра из-за случайности в выборке.

Одна из мер , которая используется , чтобы попытаться отразить оба типа различия является среднеквадратической ошибкой , ^[2]

{\ displaystyle \ operatorname {MSE} ({\ hat {\ theta}}) = \ operatorname {E} {\ big [} ({\ hat {\ theta}} - \ theta) ^ {2} {\ big] }.}

Можно показать, что это равно квадрату смещения плюс дисперсия: ^[2]

{\ displaystyle {\ begin {align} \ operatorname {MSE} ({\ hat {\ theta}}) = & (\ operatorname {E} [{\ hat {\ theta}}] - \ theta) ^ {2} + \ operatorname {E} [\, ({\ hat {\ theta}} - \ operatorname {E} [\, {\ hat {\ theta}} \,]) ^ {2} \,] \\ = & (\ operatorname {Bias} ({\ hat {\ theta}}, \ theta)) ^ {2} + \ operatorname {Var} ({\ hat {\ theta}}) \ end {выровнено}}}

Когда параметр является вектором, применяется аналогичное разложение: ^[13]

{\ displaystyle \ operatorname {MSE} ({\ hat {\ theta}}) = \ operatorname {trace} (\ operatorname {Var} ({\ hat {\ theta}})) + \ left \ Vert \ operatorname {Bias } ({\ hat {\ theta}}, \ theta) \ right \ Vert ^ {2}}

где

{\ displaystyle \ operatorname {trace} (\ operatorname {Var} ({\ hat {\ theta}}))}

- след ковариационной матрицы оценки.

Оценщик, который минимизирует смещение, не обязательно минимизирует среднеквадратичную ошибку.

Пример: оценка дисперсии совокупности

Например, ^[14] предположим, что оценка вида

{\ displaystyle T ^ {2} = c \ sum _ {i = 1} ^ {n} \ left (X_ {i} - {\ overline {X}} \, \ right) ^ {2} = cnS ^ { 2}}

ищется для дисперсии совокупности, как указано выше, но на этот раз для минимизации MSE:

{\ displaystyle {\ begin {align} \ operatorname {MSE} = & \ operatorname {E} \ left [(T ^ {2} - \ sigma ^ {2}) ^ {2} \ right] \\ = & \ left (\ operatorname {E} \ left [T ^ {2} - \ sigma ^ {2} \ right] \ right) ^ {2} + \ operatorname {Var} (T ^ {2}) \ end {выровнено} }}

Если переменные X ₁ ... X _n подчиняются нормальному распределению, тогда nS ² / σ ² имеет распределение хи-квадрат с n - 1 степенями свободы, что дает:

{\ displaystyle \ operatorname {E} [nS ^ {2}] = (n-1) \ sigma ^ {2} {\ text {and}} \ operatorname {Var} (nS ^ {2}) = 2 (n -1) \ sigma ^ {4}.}

и другие

{\ Displaystyle \ OperatorName {MSE} = (с (n-1) -1) ^ {2} \ sigma ^ {4} + 2c ^ {2} (n-1) \ sigma ^ {4}}

С помощью небольшой алгебры можно подтвердить, что именно c = 1 / ( n + 1) минимизирует эту комбинированную функцию потерь, а не c = 1 / ( n - 1), которое минимизирует только член смещения.

В более общем смысле, только в ограниченных классах задач будет средство оценки, которое минимизирует MSE независимо от значений параметров.

Однако очень часто может возникнуть впечатление , что существует компромисс между смещением и дисперсией , так что небольшое увеличение смещения можно обменять на большее уменьшение дисперсии, что приведет к более желательной оценке в целом.

Байесовский взгляд

Большинство байесовцев довольно безразлично к беспристрастности (по крайней мере, в формальном смысле теории выборки, приведенном выше) своих оценок. Например, Гельман и соавторы (1995) пишут: «С байесовской точки зрения принцип непредвзятости разумен в пределах больших выборок, но в остальном он потенциально вводит в заблуждение». ^[15]

По сути, разница между байесовским подходом и подходом теории выборки, описанным выше, заключается в том, что в подходе теории выборки параметр считается фиксированным, а затем рассматриваются распределения вероятностей статистики на основе предсказанного распределения выборки данных. Для байесовского, однако, это данные, которые известны и фиксированы, и это неизвестный параметр, для которого делается попытка построить распределение вероятностей, используя теорему Байеса :

{\ Displaystyle п (\ тета \ середина D, я) \ пропто р (\ тета \ середина I) р (D \ середина \ тета, я)}

Здесь второй член, вероятность данных при неизвестном значении параметра θ, зависит только от полученных данных и моделирования процесса генерации данных. Однако байесовское вычисление также включает первый член, априорную вероятность для θ, которая учитывает все, что аналитик может знать или подозревать о θ до того, как поступят данные. Эта информация не играет никакой роли в подходе теории выборки; действительно, любая попытка включить его будет считаться «отклонением от того, на что указывают чисто данные». Поскольку байесовские расчеты включают априорную информацию, по существу неизбежно, что их результаты не будут «беспристрастными» с точки зрения теории выборки.

Но результаты байесовского подхода могут отличаться от подхода теории выборки, даже если байесовский пытается принять «неинформативный» априор.

Например, снова рассмотрим оценку неизвестной дисперсии совокупности σ ² Нормального распределения с неизвестным средним, где желательно оптимизировать c в функции ожидаемых потерь.

{\ displaystyle \ operatorname {ExpectedLoss} = \ operatorname {E} \ left [\ left (cnS ^ {2} - \ sigma ^ {2} \ right) ^ {2} \ right] = \ operatorname {E} \ left [\ sigma ^ {4} \ left (cn {\ tfrac {S ^ {2}} {\ sigma ^ {2}}} - 1 \ right) ^ {2} \ right]}

Стандартный выбор неинформативного априора для этой проблемы - априор Джеффри , ${\ Displaystyle \ scriptstyle {p (\ sigma ^ {2}) \; \ propto \; 1 / \ sigma ^ {2}}}$ , что эквивалентно принятию масштабно-инвариантного плоского априора для ln (σ ² ) .

Одним из следствий принятия этого априорного значения является то, что S ² / σ ² остается ключевой величиной , т. Е. Распределение вероятностей S ² / σ ² зависит только от S ² / σ ² , независимо от значения S ² или σ ² :

{\ displaystyle p \ left ({\ tfrac {S ^ {2}} {\ sigma ^ {2}}} \ mid S ^ {2} \ right) = p \ left ({\ tfrac {S ^ {2}) } {\ sigma ^ {2}}} \ mid \ sigma ^ {2} \ right) = g \ left ({\ tfrac {S ^ {2}} {\ sigma ^ {2}}} \ right)}

Однако пока

{\ displaystyle \ operatorname {E} _ {p (S ^ {2} \ mid \ sigma ^ {2})} \ left [\ sigma ^ {4} \ left (cn {\ tfrac {S ^ {2}}) {\ sigma ^ {2}}} - 1 \ right) ^ {2} \ right] = \ sigma ^ {4} \ operatorname {E} _ {p (S ^ {2} \ mid \ sigma ^ {2} )} \ left [\ left (cn {\ tfrac {S ^ {2}} {\ sigma ^ {2}}} - 1 \ right) ^ {2} \ right]}

в отличие

{\ displaystyle \ operatorname {E} _ {p (\ sigma ^ {2} \ mid S ^ {2})} \ left [\ sigma ^ {4} \ left (cn {\ tfrac {S ^ {2}}) {\ sigma ^ {2}}} - 1 \ right) ^ {2} \ right] \ neq \ sigma ^ {4} \ operatorname {E} _ {p (\ sigma ^ {2} \ mid S ^ {2 })} \ left [\ left (cn {\ tfrac {S ^ {2}} {\ sigma ^ {2}}} - 1 \ right) ^ {2} \ right]}

- когда математическое ожидание берется по распределению вероятностей сг ² данной S ² , как это происходит в случае байесовского, а не S ² дано σ ² , можно больше не принимать σ ⁴ в качестве постоянной и фактора оно вне. Следствием этого является то, что, по сравнению с расчетом по теории выборки, байесовский расчет придает больший вес большим значениям σ ² , должным образом принимая во внимание (поскольку расчет по теории выборки не может), что при этой функции квадратов потерь следствие недооценка больших значений σ ² обходится дороже с точки зрения квадрата потерь, чем переоценка малых значений σ ² .

Разработанный байесовский расчет дает масштабированное обратное распределение хи-квадрат с n - 1 степенями свободы для апостериорного распределения вероятностей σ ² . Ожидаемые потери сводятся к минимуму, когда cnS ² = <σ ² >; это происходит, когда c = 1 / ( n - 3).

Следовательно, даже при неинформативном априорном вычислении байесовское вычисление может не дать такого же результата минимизации ожидаемых потерь, как соответствующее вычисление теории выборки.

Смотрите также

Последовательный оценщик
Эффективный оценщик
Теория оценок
Ожидаемый убыток
Ожидаемое значение
Функция потерь
Медиана
Несмещенная оценка минимальной дисперсии
Смещение пропущенной переменной
Предвзятость оптимизма
Оценка отношения
Статистическая теория принятия решений

Заметки

^ «Список вероятностных и статистических символов» . Математическое хранилище . 2020-04-26 . Проверено 12 сентября 2020 .
^ а б в Коздрон, Михаил (март 2016). «Оценка качества оценщика: систематическая ошибка, среднеквадратическая ошибка, относительная эффективность (глава 3)» (PDF) . stat.math.uregina.ca . Проверено 11 сентября 2020 .
^ а б Тейлор, Кортни (13 января 2019 г.). «Беспристрастные и предвзятые оценщики» . ThoughtCo . Проверено 12 сентября 2020 .
^ Ричард Арнольд Джонсон; Дин В. Уичерн (2007). Прикладной многомерный статистический анализ . Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 года .
^ JP Romano и AF Siegel (1986) Контрпримеры в вероятности и статистике , Wadsworth & Brooks / Cole, Монтерей, Калифорния, США, стр. 168
^ Харди, М. (1 марта 2003 г.). «Яркий контрпример». Американский математический ежемесячник . 110 (3): 234–238. arXiv : math / 0206006 . DOI : 10.2307 / 3647938 . ISSN 0002-9890 . JSTOR 3647938 .
^ Браун (1947), стр. 583
^ Пфанцагль, Иоганн (1979). «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров» . Летопись статистики . 7 (1): 187–193. DOI : 10.1214 / aos / 1176344563 .
^ а б Браун, LD; Коэн, Артур; Strawderman, WE (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Аня. Статист . 4 (4): 712–722. DOI : 10.1214 / AOS / 1176343543 .
^ а б в Додж, Ядола, изд. (1987). Статистический анализ данных на основе L ₁ -нормы и родственных методов . Материалы Первой международной конференции, состоявшейся в Невшателе 31 августа - 4 сентября 1987 г. Амстердам: Северная Голландия. ISBN 0-444-70273-3.
^ Джейнс, ET (2007). Теория вероятностей: логика науки . Кембридж: Cambridge Univ. Нажмите. п. 172. ISBN. 978-0-521-59271-0.
^ Клебанов, Лев Б .; Рачев, Светлозар Т .; Фабоцци, Фрэнк Дж. (2009). «Функции потерь и теория объективного оценивания». Робастные и ненадежные модели в статистике . Нью-Йорк: Nova Scientific. ISBN 978-1-60741-768-2.
^ Табога, Марко (2010). «Лекции по теории вероятностей и математической статистике» .
^ ДеГрут, Моррис Х. (1986). Вероятность и статистика (2-е изд.). Эддисон-Уэсли. стр. 414 -5. ISBN 0-201-11366-X. Но сравните это, например, с обсуждением в Казелла; Бергер (2001). Статистический вывод (2-е изд.). Даксбери. п. 332. ISBN. 0-534-24312-6.
^ Гельман, А .; и другие. (1995). Байесовский анализ данных . Чепмен и Холл. п. 108. ISBN 0-412-03991-5.

Внешние ссылки

"Беспристрастная оценка" , Энциклопедия математики , EMS Press , 2001 [1994]^{[ требуется разъяснение ]}

[1] «Список вероятностных и статистических символов» . Математическое хранилище . 2020-04-26 . Проверено 12 сентября 2020 .

[:0-2] а б в Коздрон, Михаил (март 2016). «Оценка качества оценщика: систематическая ошибка, среднеквадратическая ошибка, относительная эффективность (глава 3)» (PDF) . stat.math.uregina.ca . Проверено 11 сентября 2020 .

[:1-3] а б Тейлор, Кортни (13 января 2019 г.). «Беспристрастные и предвзятые оценщики» . ThoughtCo . Проверено 12 сентября 2020 .

[JohnsonWichern2007-4] Ричард Арнольд Джонсон; Дин В. Уичерн (2007). Прикладной многомерный статистический анализ . Пирсон Прентис Холл. ISBN 978-0-13-187715-3. Проверено 10 августа 2012 года .

[5] JP Romano и AF Siegel (1986) Контрпримеры в вероятности и статистике , Wadsworth & Brooks / Cole, Монтерей, Калифорния, США, стр. 168

[6] Харди, М. (1 марта 2003 г.). «Яркий контрпример». Американский математический ежемесячник . 110 (3): 234–238. arXiv : math / 0206006 . DOI : 10.2307 / 3647938 . ISSN 0002-9890 . JSTOR 3647938 .

[7] Браун (1947), стр. 583

[8] Пфанцагль, Иоганн (1979). «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров» . Летопись статистики . 7 (1): 187–193. DOI : 10.1214 / aos / 1176344563 .

[BrownEtAl-9] а б Браун, LD; Коэн, Артур; Strawderman, WE (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Аня. Статист . 4 (4): 712–722. DOI : 10.1214 / AOS / 1176343543 .

[Dodge-10] а б в Додж, Ядола, изд. (1987). Статистический анализ данных на основе L ₁ -нормы и родственных методов . Материалы Первой международной конференции, состоявшейся в Невшателе 31 августа - 4 сентября 1987 г. Амстердам: Северная Голландия. ISBN 0-444-70273-3.

[11] Джейнс, ET (2007). Теория вероятностей: логика науки . Кембридж: Cambridge Univ. Нажмите. п. 172. ISBN. 978-0-521-59271-0.

[12] Клебанов, Лев Б .; Рачев, Светлозар Т .; Фабоцци, Фрэнк Дж. (2009). «Функции потерь и теория объективного оценивания». Робастные и ненадежные модели в статистике . Нью-Йорк: Nova Scientific. ISBN 978-1-60741-768-2.

[taboga-13] Табога, Марко (2010). «Лекции по теории вероятностей и математической статистике» .

[14] ДеГрут, Моррис Х. (1986). Вероятность и статистика (2-е изд.). Эддисон-Уэсли. стр. 414 -5. ISBN 0-201-11366-X. Но сравните это, например, с обсуждением в Казелла; Бергер (2001). Статистический вывод (2-е изд.). Даксбери. п. 332. ISBN. 0-534-24312-6.

[15] Гельман, А .; и другие. (1995). Байесовский анализ данных . Чепмен и Холл. п. 108. ISBN 0-412-03991-5.

[1]