Основная тенденция

В статистике , центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением для распределения вероятностей . ^[1] Его также можно назвать центром или местом распространения. В просторечии меры центральной тенденции часто называют средними . Термин « центральная тенденция» появился в конце 1920-х годов. ^[2]

Наиболее распространенными показателями центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». ^[2]^[3]

Центральная тенденция распределения обычно контрастирует с его дисперсией или изменчивостью ; дисперсия и центральная тенденция - часто характеризующие свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на ее дисперсии.

Меры [ править ]

Следующее может применяться к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры - возведение значений в квадрат или логарифм. Подходит ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто среднее: сумма всех измерений, деленная на количество наблюдений в наборе данных.
Медиана: среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода - единственные меры центральной тенденции, которые можно использовать для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим: наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальными данными , которым присвоены чисто качественные категории.
Среднее геометрическое: п - й корень из произведения значений данных, где есть п из них. Эта мера действительна только для данных, которые измеряются по строго положительной шкале.
Гармоническое среднее: обратной арифметического среднего обратных значений данных. Эта мера также действительна только для данных, которые измеряются по строго положительной шкале.
Среднее арифметическое взвешенное: среднее арифметическое, которое включает взвешивание определенных элементов данных.
Усеченное среднее или усеченное среднее: среднее арифметическое значений данных после отбрасывания определенного количества или пропорции наивысшего и самого низкого значений данных.
Межквартильное среднее: усеченное среднее значение, основанное на данных в пределах межквартильного диапазона .
Средний диапазон: среднее арифметическое максимального и минимального значений набора данных.
Midhinge: среднее арифметическое первого и третьего квартилей .
Тримеан: взвешенное среднее арифметическое медианы и двух квартилей.
Winsorized среднее: среднее арифметическое, в котором экстремальные значения заменяются значениями, близкими к медиане.

Любое из вышеперечисленного может применяться к каждому измерению многомерных данных, но результаты могут не быть инвариантными по отношению к поворотам многомерного пространства. Кроме того, есть

Геометрическая медиана: что минимизирует сумму расстояний до точек данных. Это то же самое, что и медиана применительно к одномерным данным, но это не то же самое, что получение медианы каждого измерения независимо. Это не инвариантно к разному масштабированию различных измерений.
Квадратичное среднее (часто называемое среднеквадратичным ): полезен в технике, но не часто используется в статистике. Это связано с тем, что это не лучший индикатор центра распределения, когда распределение включает отрицательные значения.
Симплициальная глубина: вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
Медиана Тьюки: точка со свойством, что каждое содержащее ее полупространство также содержит много точек выборки

Решения вариационных задач [ править ]

Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной задачи в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , нужно указать меру центральной тенденции, которая минимизирует вариации: такая, что отклонение от центра минимально среди всех вариантов выбора центра. В остальном «рассеяние предшествует местонахождению». Эти меры изначально определены в одном измерении, но могут быть обобщены для нескольких измерений. Этот центр может быть уникальным, а может и не быть. В смысле L р пространств , то соответствие:

$L p$	разброс	основная тенденция
$L 0$	коэффициент вариации	режим ^[а]
$L 1$	среднее абсолютное отклонение	медиана ( геометрическая медиана ) ^[b]
$L 2$	стандартное отклонение	среднее ( центроид ) ^[c]
$L \infty$	максимальное отклонение	среднечастотный ^[d]

Соответствующие функции называются p -нормами : соответственно 0- «норма», 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L ^0, не является нормой и поэтому часто упоминается в кавычках: 0- «норма».

В уравнениях для данного (конечного) набора данных $X$ , рассматриваемого как вектор $x = (x 1,\dots, x n)$ , дисперсия вокруг точки $c$ - это «расстояние» от $x$ до постоянного вектора $c = (c,\dots, c)$ в p -норме (нормированной на количество точек n ):

{\ displaystyle f_ {p} (c) = \ left \ | \ mathbf {x} - \ mathbf {c} \ right \ | _ {p}: = {\ bigg (} {\ frac {1} {n} } \ sum _ {i = 1} ^ {n} \ left | x_ {i} -c \ right | ^ {p} {\ bigg)} ^ {1 / p}}

При $p = 0$ и $p = \infty$ эти функции определяются взятием пределов соответственно при $p \to 0$ и $p \to \infty$ . Для $p = 0$ предельными значениями являются $00 = 0$ и $a 0 = 0$ или $a 0$ , поэтому разница становится просто равенством, поэтому 0-норма учитывает количество неравных точек. При $p = \infty$ преобладает наибольшее число, и, следовательно, ∞-норма является максимальной разностью.

Уникальность [ править ]

Среднее значение ( центр L ² ) и средний диапазон ( центр L ^∞ ) уникальны (если они существуют), в то время как медиана ( центр L ¹ ) и мода ( центр L ⁰ ), как правило, не уникальны. Это можно понять с точки зрения выпуклости связанных функций ( коэрцитивных функций ).

2-норма и ∞-норма являются строго выпуклыми , и поэтому (посредством выпуклой оптимизации) минимизатор единственен (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение относительно среднего значения ниже, чем стандартное отклонение относительно любой другой точки, а максимальное отклонение относительно среднего диапазона ниже, чем максимальное отклонение относительно любой другой точки.

1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в смысле минимизации) в общем случае не уникальна, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0- «норма» не является выпуклой (следовательно, не нормой). Соответственно, режим не уникален - например, в равномерном распределении любая точка является режимом.

Кластеризация [ править ]

Вместо одной центральной точки можно запросить несколько точек, чтобы минимизировать отклонения от этих точек. Это приводит к кластерному анализу , где каждая точка в наборе данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение на кластеризацию k- средних , а использование 1-нормы обобщает (геометрическую) медиану на кластеризацию k- средних . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) на использование k наиболее распространенных значений в качестве центров.

В отличие от одноцентровой статистики, эту многоцентровую кластеризацию, как правило, нельзя вычислить в выражении в замкнутой форме , а вместо этого необходимо вычислить или аппроксимировать итерационным методом ; один общий подход - это алгоритмы максимизации ожидания .

Информационная геометрия [ править ]

Понятие «центр» как минимизирующее отклонение может быть обобщено в геометрии информации как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , когда оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемые неожиданности ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно, относительную энтропию , Кульбак– Дивергенция Лейблера).

Простой пример этого - для центра номинальных данных: вместо использования режима (единственный однозначный «центр» ) в качестве «центра» часто используется эмпирическая мера ( частотное распределение, деленное на размер выборки ). . Например, для двоичных данных , скажем орла или решки, если набор данных состоит из 2 орлов и 1 решки, то используется режим «орла», но эмпирическая мера - 2/3 орла, 1/3 решки, что минимизирует кросс-энтропия (общий сюрприз) из набора данных. Эта перспектива также используется в регрессионном анализе , где методом наименьших квадратов находят решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии., оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

Отношения между средним, медианным и модой [ править ]

Для унимодальных распределений известны и точны следующие оценки: ^[4]

{\ displaystyle {\ frac {| \ theta - \ mu |} {\ sigma}} \ leq {\ sqrt {3}},}

{\ displaystyle {\ frac {| \ nu - \ mu |} {\ sigma}} \ leq {\ sqrt {0,6}},}

{\ displaystyle {\ frac {| \ theta - \ nu |} {\ sigma}} \ leq {\ sqrt {3}},}

где μ - среднее значение, ν - медиана, θ - мода, а σ - стандартное отклонение.

Для каждого распределения ^[5]^[6]

{\ displaystyle {\ frac {| \ nu - \ mu |} {\ sigma}} \ leq 1.}

См. Также [ править ]

Центральный момент
Ожидаемое значение
Параметр местоположения

Примечания [ править ]

^ В отличие от других мер, режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применяется в одном измерении, в нескольких измерениях или даже для категориальных переменных .
^ Медиана определяется только в одном измерении; геометрическая медиана - это многомерное обобщение.
^ Среднее значение может быть определено одинаково для векторов в нескольких измерениях и для скаляров в одном измерении; многомерную форму часто называют центроидом.
^ В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является обычным явлением.

Ссылки [ править ]

^ Вайсберг HF (1992) Центральная Склонность и изменчивость , шалфей университет Бумага серия по количественным применению в социальных науках, ISBN 0-8039-4007-6 стр.2
^ а б Аптон, G .; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN 978-0-19-954145-4 (запись для «центральной тенденции»)
^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP Международного статистического института . ISBN 0-19-920613-9 (запись для «центральной тенденции»)
^ Джонсон NL, Роджерс CA (1951) "Проблема моментов для одномодальных распределений". Анналы математической статистики , 22 (3) 433–439
^ Hotelling H, Solomons LM (1932) Пределы меры асимметрии. Annals Math Stat 3, 141–114
^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142

[4] В отличие от других мер, режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применяется в одном измерении, в нескольких измерениях или даже для категориальных переменных .

[5] Медиана определяется только в одном измерении; геометрическая медиана - это многомерное обобщение.

[6] Среднее значение может быть определено одинаково для векторов в нескольких измерениях и для скаляров в одном измерении; многомерную форму часто называют центроидом.

[7] В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является обычным явлением.

[Weisberg-1] Вайсберг HF (1992) Центральная Склонность и изменчивость , шалфей университет Бумага серия по количественным применению в социальных науках, ISBN 0-8039-4007-6 стр.2

[Upton-2] а б Аптон, G .; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN 978-0-19-954145-4 (запись для «центральной тенденции»)

[Dodge-3] Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP Международного статистического института . ISBN 0-19-920613-9 (запись для «центральной тенденции»)

[Johnson1951-8] Джонсон NL, Роджерс CA (1951) "Проблема моментов для одномодальных распределений". Анналы математической статистики , 22 (3) 433–439

[Hotelling1932-9] Hotelling H, Solomons LM (1932) Пределы меры асимметрии. Annals Math Stat 3, 141–114

[Garver1932-10] Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142

[1]