Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , эксцесс (от греческого : κυρτός , kyrtos или kurtos , что означает «изогнутый, выгибая») является мерой «tailedness» из распределения вероятностей в виде реального -значная случайной величины . Как и асимметрия , эксцесс описывает форму распределения вероятностей, и существуют различные способы его количественной оценки для теоретического распределения и соответствующие способы его оценки на основе выборки из совокупности. Разные меры эксцесса могут иметь разные интерпретации .

Стандартная мера эксцесса дистрибутивного, в происходящем с Карлом Пирсоном , [1] является уменьшенной версией четвертого момента распределения. Это число относится к хвостам распределения, а не к его пику; [2] следовательно, иногда наблюдаемая характеристика эксцесса как «остроконечность» неверна. Для этого показателя более высокий эксцесс соответствует большей крайности отклонений (или выбросов ), а не конфигурации данных вблизи среднего значения.

Эксцесс любого одномерного нормального распределения равен 3. Обычно эксцесс распределения сравнивают с этим значением. Распределения с эксцессом менее 3 называются платикуртическими , хотя это не означает, что распределение является «плоским», как иногда утверждают. Скорее, это означает, что распределение производит меньше и меньше экстремальных выбросов, чем нормальное распределение. Примером платикуртического распределения является равномерное распределение , которое не приводит к выбросам. Распределения с эксцессом более 3 называются лептокуртическими . Примером лептокуртического распределения является распределение Лапласа, который имеет хвосты, которые асимптотически приближаются к нулю медленнее, чем гауссовский, и поэтому производит больше выбросов, чем нормальное распределение. Также обычной практикой является использование скорректированной версии эксцесса Пирсона, избыточного эксцесса, который представляет собой эксцесс минус 3, чтобы обеспечить сравнение со стандартным нормальным распределением . Некоторые авторы используют термин «эксцесс» сам по себе для обозначения избыточного эксцесса. Однако для ясности и общности эта статья следует соглашению о недопустимости эксцесса и явно указывает, где имеется в виду избыточный эксцесс.

Альтернативные меры эксцесса: L-эксцесс , который является масштабированной версией четвертого L-момента ; меры, основанные на четырех квантилях генеральной совокупности или выборки . [3] Они аналогичны альтернативным мерам асимметрии , которые не основаны на обычных моментах. [3]

Моменты Пирсона [ править ]

Эксцесс - это четвертый стандартизированный момент , определяемый как

где μ 4 - четвертый центральный момент, а σ - стандартное отклонение . В литературе для обозначения эксцесса используются несколько букв. Очень распространенный выбор - κ , и это нормально, если ясно, что он не относится к кумулянту . Другие варианты включают γ 2 , чтобы быть похожим на обозначение для асимметрии, хотя иногда это вместо этого зарезервировано для избыточного эксцесса.

Эксцесс ограничен снизу квадратом асимметрии плюс 1: [4] : 432

где μ 3 - третий центральный момент . Нижняя оценка реализуется распределением Бернулли . Верхнего предела эксцесса общего распределения вероятностей нет, и он может быть бесконечным.

Причина, по которой некоторые авторы отдают предпочтение избыточному эксцессу, заключается в том, что кумулянты являются обширными . Формулы, относящиеся к экстенсивному свойству, более естественно выражаются в терминах избыточного эксцесса. Например, пусть X 1 , ..., X n - независимые случайные величины, для которых существует четвертый момент, и пусть Y - случайная величина, определяемая суммой X i . Избыточный эксцесс Y равен

где - стандартное отклонение . В частности, если все X i имеют одинаковую дисперсию, то это упрощается до

Причина, по которой не следует вычитать 3, состоит в том, что голый четвертый момент лучше обобщается на многомерные распределения , особенно когда не предполагается независимость. Cokurtosis между парами переменного порядка четыре тензора . Для двумерного нормального распределения тензор кокуртоза имеет недиагональные члены, которые в целом не равны ни 0, ни 3, поэтому попытка "исправить" избыток становится запутанной. Однако верно, что совместные кумулянты степени больше двух для любого многомерного нормального распределения равны нулю.

Для двух случайных величин, X и Y , не обязательно независимых, эксцесс суммы X  +  Y равен

Обратите внимание, что биномиальные коэффициенты появляются в приведенном выше уравнении.

Интерпретация [ править ]

Точная интерпретация меры эксцесса (или избыточного эксцесса) Пирсона раньше оспаривалась, но теперь решена. Как отмечает Вестфолл в 2014 году [2] , «... его единственная недвусмысленная интерпретация - это конечность хвоста, то есть либо существующие выбросы (для выборочного эксцесса), либо склонность производить выбросы (для эксцесса распределения вероятностей). " Логика проста: эксцесс - это среднее (или ожидаемое значение ) стандартизованных данных.возведен в четвертую степень. Любые стандартизованные значения меньше 1 (т. Е. Данные в пределах одного стандартного отклонения от среднего, где будет «пик») практически не влияют на эксцесс, поскольку увеличение числа, меньшего 1, до четвертой степени делает его ближе к нулю. Единственные значения данных (наблюдаемые или наблюдаемые), которые вносят какой-либо значимый вклад в эксцесс, - это значения за пределами области пика; т.е. выбросы. Следовательно, эксцесс измеряет только выбросы; он ничего не измеряет о «пике».

Было дано много неправильных интерпретаций эксцесса, включающих понятие пика. Один из них заключается в том, что эксцесс измеряет как «остроту» распределения, так и тяжесть его хвоста . [5] Были предложены различные другие неправильные интерпретации, такие как «отсутствие плеч» (где «плечо» неопределенно определяется как площадь между пиком и хвостом, или, более конкретно, как площадь примерно на одно стандартное отклонение от среднего ) или «бимодальность». [6] Баланда и МакГилливрей утверждают, что стандартное определение эксцесса «является плохой мерой эксцесса, пиковости или остаточного веса распределения» [5] : 114и вместо этого предлагают «расплывчато определить эксцесс как перемещение вероятностной массы без локализации и масштабов от плеч распределения к его центру и хвостам». [5]

Интерпретация мавров [ править ]

В 1986 году Мавс дал интерпретацию эксцесса. [7] Пусть

где X - случайная величина, μ - среднее значение, а σ - стандартное отклонение.

Теперь по определению эксцесса и хорошо известной идентичности

.

Теперь эксцесс можно рассматривать как меру разброса Z 2 вокруг его ожидания. В качестве альтернативы можно увидеть меру дисперсии Z около +1 и -1. κ достигает минимального значения в симметричном двухточечном распределении. С точки зрения исходной переменной X , эксцесс - это мера дисперсии X вокруг двух значений μ  ±  σ .

Высокие значения κ возникают в двух случаях:

  • где вероятностная масса сосредоточена вокруг среднего, а процесс генерации данных дает случайные значения, далекие от среднего,
  • где вероятностная масса сосредоточена в хвостах распределения.

Чрезмерный эксцесс [ править ]

Избыток эксцесса определяется как эксцесса минус 3. Есть 3 различных режима , как описано ниже.

Мезокуртик [ править ]

Распределения с нулевым избыточным эксцессом называют мезокуртозом или мезокуртозом. Наиболее ярким примером мезокуртического распределения является семейство нормального распределения, независимо от значений его параметров . Некоторые другие хорошо известные распределения могут быть мезокуртическими, в зависимости от значений параметров: например, биномиальное распределение является мезокуртическим для .

Лептокуртик [ править ]

Распределение с положительным избыточным эксцессом называется лептокуртозом или лептокуртозом. «Лепто-» означает «стройный». [8] Что касается формы, у лептокуртического распределения более толстые хвосты . Примеры распределений leptokurtic включают в Распределение Стьюдента , распределение Рэлея , распределение Лапласа , экспоненциальное распределение , распределение Пуассона и логистическое распределение . Такие распределения иногда называют супергауссовыми . [9]

Platykurtic [ править ]

Жеребьевка является наиболее platykurtic распределения

Распространение с отрицательным избыточным эксцессом называется платикуртозом , или платикуртозом. «Platy-» означает «широкий». [10] С точки зрения формы, у платикуртического распределения более тонкие хвосты . Примеры платикуртических распределений включают непрерывные и дискретные равномерные распределения , а также распределение с приподнятым косинусом . Наиболее платикуртичным из всех является распределение Бернулли с p = 1/2 (например, количество раз, когда человек получает «орел» при подбрасывании монеты один раз, при подбрасывании монеты ), для которого избыточный эксцесс равен −2. Такие распределения иногда называютсубгауссовское распределение , первоначально предложенное Жан-Пьером Каханом [11] и далее описанное Булдыгиным и Козаченко. [12]

Графические примеры [ править ]

Семейство Пирсона типа VII [ править ]

pdf для распределения Пирсона типа VII с избыточным эксцессом бесконечности (красный); 2 (синий); и 0 (черный)
log-pdf для распределения Пирсона типа VII с избыточным эксцессом бесконечности (красный); 2 (синий); 1, 1/2, 1/4, 1/8 и 1/16 (серый); и 0 (черный)

Эффекты эксцесса проиллюстрированы с помощью параметрического семейства распределений, эксцесс которых можно регулировать, в то время как их моменты более низкого порядка и кумулянты остаются постоянными. Рассмотрим семейство Пирсона типа VII , которое является частным случаем семейства Пирсона IV типа, ограниченного симметричными плотностями. Функция плотности вероятности определяется выражением

где a - параметр масштаба, а m - параметр формы .

Все плотности в этом семействе симметричны. К - й момент существует при условии т  > ( K  + 1) / 2. Для существования эксцесса нам требуется m  > 5/2. Тогда существуют среднее значение и асимметрия, которые равны нулю. Установка с 2  = 2 м  - 3 делает дисперсию , равную единице. Тогда единственным свободным параметром является m , который управляет четвертым моментом (и кумулянтом) и, следовательно, эксцессом. Можно изменить параметры с помощью , гдеявляется избыточным эксцессом, как определено выше. Это дает однопараметрическое лептокуртическое семейство с нулевым средним, единичной дисперсией, нулевой асимметрией и произвольным неотрицательным избыточным эксцессом. Повторно параметризованная плотность равна

В пределе при получении плотности

что показано красной кривой на изображениях справа.

В другом направлении, когда получается стандартная нормальная плотность как предельное распределение, показанное черной кривой.

На изображениях справа синяя кривая представляет плотность с избыточным эксцессом, равным 2. Верхнее изображение показывает, что лептокуртические плотности в этом семействе имеют более высокий пик, чем мезокуртическая нормальная плотность, хотя этот вывод действителен только для этого избранного семейства раздачи. Сравнительно более толстые хвосты лептокуртических плотностей проиллюстрированы на втором изображении, на котором изображен натуральный логарифм плотностей Пирсона типа VII: черная кривая - логарифм стандартной нормальной плотности, которая является параболой.. Можно видеть, что нормальная плотность наделяет небольшую вероятностную массу областям, далеким от среднего («имеет тонкие хвосты»), по сравнению с голубой кривой лептокуртической плотности Пирсона типа VII с избыточным эксцессом, равным 2. Между синей кривой и черные - другие плотности типа VII Пирсона с γ 2  = 1, 1/2, 1/4, 1/8 и 1/16. Красная кривая снова показывает верхний предел семейства Пирсона VII типа с (что, строго говоря, означает, что четвертый момент не существует). Красная кривая убывает медленнее всего по мере удаления от начала координат («имеет толстые хвосты»).

Другие известные дистрибутивы [ править ]

Функции плотности вероятности для выбранных распределений со средним 0, дисперсией 1 и различным избыточным эксцессом
Логарифмы из функций плотности вероятности для выбранных распределений с средним 0, дисперсия 1 и другой избыточным эксцессом

Здесь сравниваются несколько хорошо известных унимодальных и симметричных распределений из разных параметрических семейств. Каждый из них имеет нулевое среднее значение и асимметрию. Параметры были выбраны так, чтобы в каждом случае дисперсия была равна 1. На изображениях справа показаны кривые для следующих семи плотностей в линейном и логарифмическом масштабе :

  • D: распределение Лапласа , также известное как двойное экспоненциальное распределение, красная кривая (две прямые на графике в логарифмическом масштабе), избыточный эксцесс = 3.
  • S: гиперболическое секущее распределение , оранжевая кривая, избыточный эксцесс = 2
  • L: логистическое распределение , зеленая кривая, избыточный эксцесс = 1,2
  • N: нормальное распределение , черная кривая (перевернутая парабола на графике в логарифмическом масштабе), избыточный эксцесс = 0
  • C: приподнятый косинус , голубая кривая, избыточный эксцесс = −0,593762 ...
  • W: распределение полукруга Вигнера , синяя кривая, избыточный эксцесс = −1
  • U: равномерное распределение , пурпурная кривая (для ясности показана прямоугольником на обоих изображениях), избыточный эксцесс = -1,2.

Обратите внимание, что в этих случаях платикуртические плотности имеют ограниченную опору , тогда как плотности с положительным или нулевым избыточным эксцессом поддерживаются на всей действительной прямой .

Нельзя сделать вывод о том, что распределения с высоким или низким эксцессом имеют характеристики, указанные в этих примерах. Существуют платикуртические плотности с бесконечной опорой,

  • например, экспоненциальные распределения мощности с достаточно большим параметром формы b

и существуют лептокуртические плотности с конечным носителем.

  • например, распределение, которое является однородным между -3 и -0,3, между -0,3 и 0,3 и между 0,3 и 3, с одинаковой плотностью в интервалах (-3, -0,3) и (0,3, 3), но с 20 раз больше плотности в интервале (-0,3, 0,3)

Также существуют плоскостные плотности с бесконечной остротой,

  • например, равная смесь бета-распределения с параметрами 0,5 и 1 с отражением около 0,0

и существуют лептокуртические плотности, которые кажутся плоскими,

  • например, смесь распределения, которая является однородной между -1 и 1 с t-распределением Стьюдента T (4,0000001) , с вероятностями смешивания 0,999 и 0,001.

Пример эксцесса [ править ]

Определения [ править ]

Естественная, но необъективная оценка [ править ]

Для выборки из n значений метод оценки моментов избыточного эксцесса совокупности может быть определен как

где m 4 - это четвертый момент выборки относительно среднего , m 2 - второй выборочный момент, относящийся к среднему (то есть выборочная дисперсия ), x i - это i- е значение, а - выборочное среднее .

Эта формула имеет более простое представление:

где значения представляют собой стандартизованные значения данных с использованием стандартного отклонения, определенного с использованием n, а не n  - 1 в знаменателе.

Например, предположим, что значениями данных являются 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.

Тогда значения равны −0,239, −0,225, −0,221, −0,234, −0,230, −0,225, −0,239, −0,230, −0,234, −0,225, −0,230, −0,239, −0,230, −0,230, −0,225, - 0,230, -0,216, -0,230, -0,225, 4,359

и значения: 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.

Среднее значение этих значений составляет 18,05, а избыточный эксцесс, таким образом, составляет 18,05 - 3 = 15,05. Этот пример проясняет, что данные около «середины» или «пика» распределения не влияют на статистику эксцесса, следовательно, эксцесс не измеряет «пиковость». Это просто показатель выброса, 999 в этом примере.

Стандартная объективная оценка [ править ]

Учитывая подмножество выборок из популяции, избыточный эксцесс в выборке, приведенный выше, является смещенной оценкой избыточного эксцесса в выборке . Альтернативная оценка эксцесса эксцесса популяции, несмещенная в случайных выборках нормального распределения, определяется следующим образом: [3]

где k 4 - уникальная симметричная несмещенная оценка четвертого кумулянта , k 2 - несмещенная оценка второго кумулянта (идентичная несмещенной оценке дисперсии выборки), m 4 - момент четвертой выборки относительно среднего, m 2 - второй момент выборки о среднем, x i - это i- е значение, и это выборочное среднее. Этот скорректированный стандартизованный коэффициент момента Фишера – Пирсона является версией, которую можно найти в Excel и нескольких статистических пакетах, включая Minitab ,SAS и SPSS . [13]

К сожалению, в ненормальных выборках само по себе обычно предвзято.

Верхняя граница [ править ]

Верхняя граница выборочного эксцесса n ( n > 2) действительных чисел равна [14]

где - соответствующая асимметрия образца.

Дисперсия при нормальности [ править ]

Отклонение эксцесса выборки размера n от нормального распределения составляет [15]

Иными словами , это можно показать в предположении, что основная случайная величина имеет нормальное распределение . [16] : необходим номер страницы

Приложения [ править ]

Выборочный эксцесс - полезная мера того, есть ли проблема с выбросами в наборе данных. Большой эксцесс указывает на более серьезную проблему с выбросами и может побудить исследователя выбрать альтернативные статистические методы.

K-квадрат тест д'Агостина в это благость, из посадки тест нормальности на основе комбинации перекос образца и образца эксцесса, как это испытание Харке-Бера на нормальность.

Для ненормальных образцов дисперсия выборочной дисперсии зависит от эксцесса; подробнее см. дисперсию .

Определение эксцесса Пирсона используется как индикатор перемежаемости турбулентности . [17]

Конкретный пример - следующая лемма Хэ, Чжана и Чжана: [18] Предположим, что случайная величина имеет математическое ожидание , дисперсию и эксцесс . Предположим, мы выбрали множество независимых копий. потом

.

Это показывает, что при большом количестве образцов мы увидим тот, который превосходит ожидания, по крайней мере, с вероятностью . Другими словами: если эксцесс большой, мы можем увидеть множество значений либо ниже, либо выше среднего.

Конвергенция эксцесса [ править ]

При применении полосовых фильтров к цифровым изображениям значения эксцесса, как правило, однородны, независимо от диапазона фильтра. Это поведение, называемое конвергенцией эксцесса , может использоваться для обнаружения сращивания изображений при судебном анализе . [19]

Другие меры [ править ]

Другая мера «эксцесса» обеспечивается использованием L-моментов вместо обычных моментов. [20] [21]

См. Также [ править ]

  • Риск эксцесса
  • Распределение вероятностей максимальной энтропии

Ссылки [ править ]

  1. ^ Пирсон, Карл (1905), "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. Реплика" [Закон ошибки и его обобщения Фехнера и Пирсона. Реплику], Biometrika , 4 (1-2): 169-212, DOI : 10,1093 / Biomet / 4.1-2.169 , JSTOR 2331536 
  2. ^ Б Уэстфолл, Peter H. (2014), "эксцесс в островершинности, 1905 - 2014. RIP ", Американский статистик , 68 (3): 191-195, DOI : 10,1080 / 00031305.2014.917055 , PMC 4321753 , PMID 25678714  
  3. ^ a b c Джоанес, Деррик Н .; Гилл, Кристин А. (1998), "Сравнение мер образца асимметрии и эксцесса", журнал Королевского статистического общества, серия D , 47 (1): 183-189, DOI : 10.1111 / 1467-9884.00122 , JSTOR 2988433 
  4. Пирсон, Карл (1916), «Математические вклады в теорию эволюции. - XIX. Второе дополнение к воспоминаниям о перекосах вариаций», Philosophical Transactions of the Royal Society of London A , 216 (546): 429–457, DOI : 10,1098 / rsta.1916.0009 , JSTOR 91092 
  5. ^ a b c Баланда, Кевин П .; MacGillivray, Хелен Л. (1988), "эксцесс: Критический обзор", Американский Статистик , 42 (2): 111-119, DOI : 10,2307 / 2684482 , JSTOR 2684482 
  6. ^ Дарлингтона, Ричард Б. (1970), "Is Эксцесс Действительно 'островершинность'?", Американский Статистик , 24 (2): 19-22, DOI : 10,1080 / 00031305.1970.10478885 , JSTOR 2681925 
  7. ^ Мавры, JJA (1986), "Смысл эксцесса: Дарлингтон пересмотрен", Американский Статистик , 40 (4): 283-284, DOI : 10,1080 / 00031305.1986.10475415 , JSTOR 2684603 
  8. ^ "Лепто-" .
  9. ^ Бенвенист, Альберт; Гурса, Морис; Ruget, Габриэль (1980), "Надежная идентификация nonminimum системы фазовой: Регулировка Слепой линейного эквалайзера в передаче данных", IEEE Transactions по автоматическому управлению , 25 (3): 385-399, DOI : 10,1109 / tac.1980.1102343
  10. ^ http://www.yourdictionary.com/platy-prefix
  11. ^ Кахан, Жан-Пьер (1960), « Локальные свойства функций в серии элементов Фурье» [Локальные свойства функций в терминах случайных рядов Фурье], Studia Mathematica (на французском языке), 19 (1): 1–25, DOI : 10,4064 / см-19-1-1-25
  12. ^ Булдыгин, Валерий В .; Козаченко, Юрий В. (1980), «Субгауссовские случайные величины», Украинский математический журнал , 32 (6): 483–489, doi : 10.1007 / BF01087176
  13. ^ Доун ДП, Сьюард LE (2011) J. Стат Образов 19 (2)
  14. ^ Шарма, Раджеш; Bhandari, Раджив К. (2015), "Асимметрия, Эксцесс и неравенство Ньютона", Rocky Mountain Journal математики , 45 (5): 1639-1643, DOI : 10,1216 / RMJ-2015-45-5-1639
  15. ^ Фишер, Рональд А. (1930), "Моменты распределения для нормальных выборок показателей отклонения от нормальности", Труды Королевского общества A , 130 (812): 16–28, DOI : 10.1098 / rspa.1930.0185 , JSTOR 95586 
  16. ^ Кендалл, Морис G .; Стюарт, Алан, Расширенная теория статистики, Том 1: Теория распределения (3-е изд.), Лондон, Великобритания: Charles Griffin & Company Limited, ISBN 0-85264-141-9
  17. ^ Sandborn, Вергилий А. (1959), "Измерение Перемежаемости турбулентного движения в пограничном слое", Журнал Fluid Mechanics , 6 (2): 221-240, DOI : 10,1017 / S0022112059000581
  18. ^ Он, S .; Zhang, J .; Чжан, С. (2010). «Граничная вероятность малого отклонения: подход четвертого момента» . Математика исследования операций . 35 (1): 208–232. DOI : 10.1287 / moor.1090.0438 .
  19. ^ Пан, Сюньюй; Чжан, Син; Лю, Сивэй (2012), «Выявление сращивания изображений с несогласованными локальными вариациями шума», 2012 Международная конференция IEEE по компьютерной фотографии (ICCP) , 28-29 апреля 2012 года; Сиэтл, Вашингтон, США: IEEE, DOI : 10,1109 / ICCPhot.2012.6215223CS1 maint: location (link)
  20. ^ Hosking, Джонатан Р. (1992), "Моменты или L моменты Пример сравнение двух мер обобщенной формы?", Американский Статистик , 46 (3): 186-189, DOI : 10,1080 / 00031305.1992.10475880 , JSTOR 2685210 
  21. ^ Хоскинг, Джонатан Р.М. (2006), «О характеристике распределений их L- моментами», Журнал статистического планирования и вывода , 136 (1): 193–198, doi : 10.1016 / j.jspi.2004.06.004

Дальнейшее чтение [ править ]

  • Ким, Тэ-Хван; Белый, Халберт (2003). «О более надежной оценке асимметрии и эксцесса: моделирование и применение к индексу S & P500» . Письма о финансовых исследованиях . 1 : 56–70. DOI : 10.1016 / S1544-6123 (03) 00003-5 . Альтернативный источник (Сравнение оценок эксцесса)
  • Seier, E .; Бонетт, Д.Г. (2003). «Два семейства мер эксцесса». Метрика . 58 : 59–70. DOI : 10.1007 / s001840200223 .

Внешние ссылки [ править ]

  • "Коэффициент превышения" , Энциклопедия математики , EMS Press , 2001 [1994]
  • Калькулятор эксцесса
  • Бесплатное онлайн-программное обеспечение (калькулятор) вычисляет различные типы статистики асимметрии и эксцесса для любого набора данных (включая тесты малых и больших выборок).
  • Эксцесс самых ранних известных употреблений некоторых слов математики
  • Празднование 100-летия эксцесса - история этой темы с различными показателями эксцесса.