L-оценка

Простые L-оценки могут быть визуально оценены по прямоугольной диаграмме и включают в себя межквартильный размах , середину , размах , середину и три-среднее .

В статистике , L-оценка является оценкой , которая является линейной комбинацией статистических данных порядка измерений (который также называют L-статистику ). Это может быть всего одна точка, как в медиане (нечетного числа значений), или столько, сколько все точки, как в среднем.

Основное преимущество L-оценок заключается в том, что они часто являются чрезвычайно простыми и часто надежными статистическими данными : предполагая, что данные отсортированы, их очень легко вычислить и интерпретировать, и они часто устойчивы к выбросам. Таким образом, они полезны в надежной статистике, в качестве описательной статистики , в статистическом образовании , а также в тех случаях, когда вычисления затруднены. Однако они неэффективны , и в наше время предпочтительны надежные статистические M-оценки , хотя они намного сложнее в вычислительном отношении. Во многих случаях L-оценки достаточно эффективны и, следовательно, подходят для первоначальной оценки.

Примеры [ править ]

Базовый пример - медиана . Принимая во внимание п значения , если нечетное, то средний равен , в статистику -го порядка; если даже, это среднее из двух порядковых статистик: . Это обе линейные комбинации порядковых статистик, и поэтому медиана является простым примером L-оценки. ${\ displaystyle x_ {1}, \ ldots, x_ {n}}$ ${\ displaystyle n = 2k + 1}$ ${\ Displaystyle х _ {(к + 1)}}$ $(n+1)/2$ $n=2k$ $(x_{(k)}+x_{(k+1)})/2$

Более подробный список примеров включает: с одной точкой, максимум, минимум или любую статистику или квантиль одного порядка ; с одним или двумя баллами - медиана; с двумя точками: средним диапазоном , диапазоном , средним итогом ( обрезанным средним диапазоном, включая срединное значение ) и обрезанным диапазоном (включая межквартильный диапазон и междисциплинарный диапазон ); с тремя точками - триедиа ; с фиксированной долей точек, то усеченной средним (включая межквартильное среднее ) и винзоризированный означают ; со всеми точками, среднее.

Обратите внимание, что некоторые из них (например, медиана или средний диапазон) являются мерами центральной тенденции и используются в качестве оценок для параметра местоположения , такого как среднее значение нормального распределения, в то время как другие (например, диапазон или усеченный диапазон) являются показателями статистической дисперсии и используются в качестве оценок параметра масштаба , например стандартного отклонения нормального распределения.

L-оценки могут также измерять форму распределения, помимо местоположения и масштаба. Например, середина минус медиана - это трехчленная L-оценка, которая измеряет асимметрию , а другие различия срединных сумм дают меры асимметрии в разных точках хвоста. ^[1]

Выборочные L-моменты являются L-оценками для L-момента совокупности и имеют довольно сложные выражения. L-моменты обычно рассматриваются отдельно; подробности см. в этой статье.

Надежность [ править ]

L-оценки часто статистически устойчивы , имея высокую точку пробоя . Это определяется как доля измерений, которая может быть произвольно изменена, не приводя к стремлению результирующей оценки к бесконечности (т. Е. К «разрушению»). Точка разбивки L-оценки задается статистикой ближайшего порядка к минимуму или максимуму: например, медиана имеет точку разбивки 50% (максимально возможное значение), а усеченное n % или Winsorized среднее значение имеет разбивку. точка n %.

Не все L-оценки надежны; если он включает минимум или максимум, то он имеет точку разбивки 0. Эти ненадежные L-оценки включают минимум, максимум, среднее и среднее значение. Однако обрезанные эквиваленты надежны.

Надежные L-оценки, используемые для измерения дисперсии, такие как IQR, обеспечивают надежные меры масштаба .

Приложения [ править ]

При практическом использовании в надежной статистике L-оценки были заменены M-оценками , которые обеспечивают надежную статистику, которая также имеет высокую относительную эффективность за счет того, что они гораздо более сложны в вычислительном отношении и непрозрачны.

Однако простота L-оценок означает, что они легко интерпретируются и визуализируются, и делает их пригодными для описательной статистики и обучения статистике ; многие из них даже могут быть вычислены мысленно из пятизначного или семизначного итогового отчета или визуализированы с помощью прямоугольной диаграммы . L-оценки играют фундаментальную роль во многих подходах к непараметрической статистике .

Несмотря на то, что L-оценки являются непараметрическими, они часто используются для оценки параметров , как указано в названии, хотя они часто должны корректироваться для получения несмещенной согласованной оценки . Выбор L-оценки и корректировки зависят от распределения, параметр которого оценивается.

Например, при оценке параметра местоположения для симметричного распределения симметричная L-оценка (например, медиана или середина) будет несмещенной. Однако, если распределение имеет перекос , симметричные L-оценки обычно будут смещены и потребуют корректировки. Например, в асимметричном распределении непараметрический сдвиг (и коэффициенты асимметрии Пирсона ) измеряют смещение медианы как оценки среднего.

При оценке масштабного параметра , например, при использовании L-оценки в качестве надежных мер масштаба , например, для оценки дисперсии совокупности или стандартного отклонения совокупности , обычно необходимо умножить на масштабный коэффициент, чтобы сделать ее несмещенной согласованной оценкой; см. масштабный параметр: оценка .

Например, деление IQR на (с использованием функции ошибок ) делает его несмещенным и непротиворечивым средством оценки дисперсии совокупности, если данные следуют нормальному распределению . $2{\sqrt {2}}\operatorname {erf} ^{-1}(1/2)\approx 1.349$

L-оценки могут также использоваться как статистические данные сами по себе - например, медиана - это мера местоположения, а IQR - мера дисперсии. В этих случаях статистика выборки может выступать в качестве оценок собственного ожидаемого значения ; например, медиана выборки является оценкой медианы совокупности.

Преимущества [ править ]

Помимо простоты, L-оценки также часто легко вычислить и надежны.

Предполагая, что данные отсортированы, L-оценки, включающие только несколько точек, могут быть рассчитаны с гораздо меньшим количеством математических операций, чем эффективные оценки. ^[2]^[3] До появления электронных калькуляторов и компьютеров они предоставляли полезный способ извлечения большей части информации из выборки с минимальными трудозатратами. Они оставались в практическом использовании до начала и середины 20-го века, когда была возможна автоматическая сортировка данных перфокарт , но вычисления оставались трудными ^[2] и до сих пор используются для оценок с учетом списка числовых значений в немашинных системах. -читаемая форма, где ввод данных дороже, чем ручная сортировка. Они также позволяют производить быструю оценку.

L-оценки часто намного более надежны, чем максимально эффективные традиционные методы - медиана максимально статистически устойчива , имеет точку разрыва 50% , а усеченный средний диапазон X% имеет точку разрыва X%, в то время как выборочное среднее (которое максимально эффективный) является минимально устойчивым, разбиваясь на один выброс.

Эффективность [ править ]

Хотя L-оценки не так эффективны, как другие статистические данные, они часто имеют достаточно высокую относительную эффективность и показывают, что большая часть информации, используемой при оценке, может быть получена с использованием всего нескольких точек - всего лишь одного, двух или трех. . В качестве альтернативы они показывают, что статистика заказов содержит значительный объем информации.

Например, с точки зрения эффективности, дан образец из более нормально распределенного числового параметра, то среднее арифметическое (среднее значение ) для населения могут быть оценены с максимальной эффективностью путем вычисления выборочного среднего - добавление всех членов образца и деления количество участников.

Однако для большого набора данных (более 100 точек) от симметричной совокупности среднее значение можно достаточно эффективно оценить по сравнению с наилучшей оценкой с помощью L-оценок. Используя одну точку, это делается путем взятия медианы выборки без каких-либо вычислений (кроме сортировки); это дает эффективность 64% или лучше (для всех n ). Используя две точки, простая оценка - это середина диапазона (25% усеченного среднего диапазона ), но более эффективная оценка - это 29% усеченный средний диапазон, то есть усреднение двух значений на 29% пути от наименьшего. и наибольшие значения: 29-й и 71-й процентили; это имеет КПД около 81%. ^[3] Для трех точек тример(среднее значение медианы и середины), хотя среднее значение 20, 50 и 80 процентилей дает эффективность 88%. Использование дополнительных точек дает более высокую эффективность, хотя примечательно, что для очень высокой эффективности необходимо всего 3 точки.

Для оценки стандартного отклонения нормального распределения масштабированный интердецильный диапазон дает достаточно эффективную оценку, хотя вместо этого берется 7% усеченный диапазон (разница между 7-м и 93-м процентилями) и делится на 3 (соответствует 86% данных). нормального распределения, попадающего в 1,5 стандартных отклонения от среднего) дает оценку эффективности около 65%. ^[3]

Для небольших выборок L-оценки также относительно эффективны: средняя сумма 3-й точки с каждого конца имеет эффективность около 84% для выборок размером около 10, а диапазон, деленный на, имеет достаточно хорошую эффективность для размеров до 20, хотя он уменьшается с увеличением n, и коэффициент масштабирования можно улучшить (эффективность 85% для 10 точек). Другие эвристические оценки для малых выборок включают диапазон по n (для стандартной ошибки) и диапазон, возведенный в квадрат по медиане (для хи-квадрат распределения Пуассона). ^[3] ${\sqrt {n}}$

См. Также [ править ]

L-момент
М-оценка

Ссылки [ править ]

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Апрель 2013 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

^ Velleman & Hoaglin 1981 .
^ а б Мостеллер 2006 .
^ a b c d Evans 1955 , Приложение G: Неэффективная статистика, стр. 902–904 .

Эванс, Робли Данглисон (1955). Атомное ядро . Международная серия по чистой и прикладной физике. Макгроу-Хилл. С. 972 . ISBN 0-89874414-8.
Fraiman, R .; Meloche, J .; Гарсия-Эскудеро, Луизиана; Gordaliza, A .; Он, X .; Maronna, R .; Йохай, VCJ; Sheather, SJ; Маккин, JW; Маленький, CG; Wood, A .; Fraiman, R .; Мелоче, Дж. (1999). «Многомерная L-оценка». Тест . 8 (2): 255–317. DOI : 10.1007 / BF02595872 .
Хубер, Питер Дж. (2004). Надежная статистика . Нью-Йорк: Wiley-Interscience. ISBN 0-471-65072-2.
Мостеллер, Фредерик (2006) [1946]. «О какой-то полезной« неэффективной »статистике». В Файнберге, Стивен; Хоглин, Дэвид (ред.). Избранные статьи Фредерика Мостеллера . Серии Спрингера в статистике. Нью-Йорк: Спрингер. стр. 69 -100. DOI : 10.1007 / 978-0-387-44956-2_4 . ISBN 978-0-387-20271-6.
Шао, июнь (2003). Математическая статистика . Берлин: Springer-Verlag. ISBN 0-387-95382-5.- сек. 5.2.2
Веллеман П.Ф .; Хоглин, округ Колумбия (1981). Приложения, основы и вычисления исследовательского анализа данных . ISBN 0-87150-409-X.

[FOOTNOTEVellemanHoaglin1981-1] Velleman & Hoaglin 1981 .

[FOOTNOTEMosteller2006-2] а б Мостеллер 2006 .

[FOOTNOTEEvans1955Appendix_G:_Inefficient_statistics,_pp._[httpsarchiveorgstreamatomicnucleus032805mbppagen925mode2up_902–904]-3] Evans 1955 , Приложение G: Неэффективная статистика, стр. 902–904 .

[1]