Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением для распределения вероятностей . [1] Его также можно назвать центром или местом распространения. В просторечии меры центральной тенденции часто называют средними . Термин « центральная тенденция» появился в конце 1920-х годов. [2]

Наиболее распространенными показателями центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». [2] [3]

Центральная тенденция распределения обычно контрастирует с его дисперсией или изменчивостью ; дисперсия и центральная тенденция - часто характеризующие свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на ее дисперсии.

Меры [ править ]

Следующее может применяться к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры - возведение значений в квадрат или логарифм. Подходит ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто среднее
сумма всех измерений, деленная на количество наблюдений в наборе данных.
Медиана
среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода - единственные меры центральной тенденции, которые можно использовать для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим
наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальными данными , которым присвоены чисто качественные категории.
Среднее геометрическое
п - й корень из произведения значений данных, где есть п из них. Эта мера действительна только для данных, которые измеряются по строго положительной шкале.
Гармоническое среднее
обратной арифметического среднего обратных значений данных. Эта мера также действительна только для данных, которые измеряются по строго положительной шкале.
Среднее арифметическое взвешенное
среднее арифметическое, которое включает взвешивание определенных элементов данных.
Усеченное среднее или усеченное среднее
среднее арифметическое значений данных после отбрасывания определенного количества или пропорции наивысшего и самого низкого значений данных.
Межквартильное среднее
усеченное среднее значение, основанное на данных в пределах межквартильного диапазона .
Средний диапазон
среднее арифметическое максимального и минимального значений набора данных.
Midhinge
среднее арифметическое первого и третьего квартилей .
Тримеан
взвешенное среднее арифметическое медианы и двух квартилей.
Winsorized среднее
среднее арифметическое, в котором экстремальные значения заменяются значениями, близкими к медиане.

Любое из вышеперечисленного может применяться к каждому измерению многомерных данных, но результаты могут не быть инвариантными по отношению к поворотам многомерного пространства. Кроме того, есть

Геометрическая медиана
что минимизирует сумму расстояний до точек данных. Это то же самое, что и медиана применительно к одномерным данным, но это не то же самое, что получение медианы каждого измерения независимо. Это не инвариантно к разному масштабированию различных измерений.
Квадратичное среднее (часто называемое среднеквадратичным )
полезен в технике, но не часто используется в статистике. Это связано с тем, что это не лучший индикатор центра распределения, когда распределение включает отрицательные значения.
Симплициальная глубина
вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
Медиана Тьюки
точка со свойством, что каждое содержащее ее полупространство также содержит много точек выборки

Решения вариационных задач [ править ]

Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной задачи в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , нужно указать меру центральной тенденции, которая минимизирует вариации: такая, что отклонение от центра минимально среди всех вариантов выбора центра. В остальном «рассеяние предшествует местонахождению». Эти меры изначально определены в одном измерении, но могут быть обобщены для нескольких измерений. Этот центр может быть уникальным, а может и не быть. В смысле L р пространств , то соответствие:

Соответствующие функции называются p -нормами : соответственно 0- «норма», 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L 0, не является нормой и поэтому часто упоминается в кавычках: 0- «норма».

В уравнениях для данного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия вокруг точки c - это «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормированной на количество точек n ):

При p = 0 и p = ∞ эти функции определяются взятием пределов соответственно при p → 0 и p → ∞ . Для p = 0 предельными значениями являются 0 0 = 0 и a 0 = 0 или a 0 , поэтому разница становится просто равенством, поэтому 0-норма учитывает количество неравных точек. При p = ∞ преобладает наибольшее число, и, следовательно, ∞-норма является максимальной разностью.

Уникальность [ править ]

Среднее значение ( центр L 2 ) и средний диапазон ( центр L ) уникальны (если они существуют), в то время как медиана ( центр L 1 ) и мода ( центр L 0 ), как правило, не уникальны. Это можно понять с точки зрения выпуклости связанных функций ( коэрцитивных функций ).

2-норма и ∞-норма являются строго выпуклыми , и поэтому (посредством выпуклой оптимизации) минимизатор единственен (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение относительно среднего значения ниже, чем стандартное отклонение относительно любой другой точки, а максимальное отклонение относительно среднего диапазона ниже, чем максимальное отклонение относительно любой другой точки.

1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в смысле минимизации) в общем случае не уникальна, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0- «норма» не является выпуклой (следовательно, не нормой). Соответственно, режим не уникален - например, в равномерном распределении любая точка является режимом.

Кластеризация [ править ]

Вместо одной центральной точки можно запросить несколько точек, чтобы минимизировать отклонения от этих точек. Это приводит к кластерному анализу , где каждая точка в наборе данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение на кластеризацию k- средних , а использование 1-нормы обобщает (геометрическую) медиану на кластеризацию k- средних . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) на использование k наиболее распространенных значений в качестве центров.

В отличие от одноцентровой статистики, эту многоцентровую кластеризацию, как правило, нельзя вычислить в выражении в замкнутой форме , а вместо этого необходимо вычислить или аппроксимировать итерационным методом ; один общий подход - это алгоритмы максимизации ожидания .

Информационная геометрия [ править ]

Понятие «центр» как минимизирующее отклонение может быть обобщено в геометрии информации как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , когда оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемые неожиданности ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно, относительную энтропию , Кульбак– Дивергенция Лейблера).

Простой пример этого - для центра номинальных данных: вместо использования режима (единственный однозначный «центр» ) в качестве «центра» часто используется эмпирическая мера ( частотное распределение, деленное на размер выборки ). . Например, для двоичных данных , скажем орла или решки, если набор данных состоит из 2 орлов и 1 решки, то используется режим «орла», но эмпирическая мера - 2/3 орла, 1/3 решки, что минимизирует кросс-энтропия (общий сюрприз) из набора данных. Эта перспектива также используется в регрессионном анализе , где методом наименьших квадратов находят решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии., оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

Отношения между средним, медианным и модой [ править ]

Для унимодальных распределений известны и точны следующие оценки: [4]

где μ - среднее значение, ν - медиана, θ - мода, а σ - стандартное отклонение.

Для каждого распределения [5] [6]

См. Также [ править ]

  • Центральный момент
  • Ожидаемое значение
  • Параметр местоположения

Примечания [ править ]

  1. ^ В отличие от других мер, режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применяется в одном измерении, в нескольких измерениях или даже для категориальных переменных .
  2. ^ Медиана определяется только в одном измерении; геометрическая медиана - это многомерное обобщение.
  3. ^ Среднее значение может быть определено одинаково для векторов в нескольких измерениях и для скаляров в одном измерении; многомерную форму часто называют центроидом.
  4. ^ В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является обычным явлением.

Ссылки [ править ]

  1. ^ Вайсберг HF (1992) Центральная Склонность и изменчивость , шалфей университет Бумага серия по количественным применению в социальных науках, ISBN  0-8039-4007-6 стр.2
  2. ^ а б Аптон, G .; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN 978-0-19-954145-4 (запись для «центральной тенденции») 
  3. ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP Международного статистического института . ISBN 0-19-920613-9 (запись для «центральной тенденции») 
  4. ^ Джонсон NL, Роджерс CA (1951) "Проблема моментов для одномодальных распределений". Анналы математической статистики , 22 (3) 433–439
  5. ^ Hotelling H, Solomons LM (1932) Пределы меры асимметрии. Annals Math Stat 3, 141–114
  6. ^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142