Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Вставка участков этого эксперимента Майкельсона-Морли , показывая пример максимумов и минимумов

В статистике , то образец максимальной и образец минимум, также называют крупнейшим наблюдение и наименьшее наблюдение, являются значения наибольшего и наименьшего элементов выборки . Они являются основными сводными статистическими данными , используемыми в описательных статистиках , такие как резюме пяти чисел и резюме семизначных Боулей в и соответствующей коробке участок .

Минимальное и максимальное значение - это статистика первого и последнего порядка (часто обозначаются как X (1) и X ( n ) соответственно, для размера выборки n ).

Если в выборке есть выбросы , они обязательно включают максимум или минимум выборки, или оба, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не обязательно должны быть выбросами, если они не слишком далеки от других наблюдений.

Надежность [ править ]

Максимум и минимум выборки являются наименее надежной статистикой : они максимально чувствительны к выбросам.

Это может быть либо преимуществом, либо недостатком: если экстремальные значения реальны (а не ошибки измерения) и имеют реальные последствия, как в приложениях теории экстремальных значений, таких как строительство дамб или финансовые потери, то выбросы (как отражено в экстремумах выборки) важные. С другой стороны, если выбросы мало или не влияют на фактические результаты, то использование ненадежной статистики, такой как экстремумы выборки, просто затуманивает статистику, и следует использовать надежные альтернативы, такие как другие квантили : 10-й и 90-й процентили ( первый и последний дециль ) являются более надежными альтернативами.

Полученная статистика [ править ]

В дополнение к тому, что они являются компонентом каждой статистики, которая использует все элементы выборки, экстремумы выборки являются важными частями диапазона , мерой дисперсии и средним диапазоном , мерой местоположения. Они также осознают максимальное абсолютное отклонение : одна из них - самая дальняя точка от любой заданной точки, в частности, мера центра, такая как медиана или среднее значение.

Приложения [ править ]

Гладкий максимум [ править ]

Для набора образцов функция максимума негладкая и, следовательно, недифференцируемая. Для задач оптимизации, возникающих в статистике, часто требуется аппроксимация гладкой функцией, близкой к максимуму набора.

Гладкой максимум , например,

g ( x 1 , x 2 ,…, x n ) = log (exp ( x 1 ) + exp ( x 2 ) +… + exp ( x n ))

является хорошим приближением к максимуму выборки.

Сводная статистика [ править ]

Максимум и минимум выборки представляют собой базовую сводную статистику , показывающую наиболее экстремальные наблюдения, и используются в сводке с пятью числами, версии сводки с семью номерами и связанной с ними прямоугольной диаграмме .

Интервал прогноза [ править ]

Максимум и минимум выборки обеспечивают непараметрический интервал прогнозирования : в выборке из генеральной совокупности или, в более общем смысле, в сменяемой последовательности случайных величин каждое наблюдение с равной вероятностью будет максимумом или минимумом.

Таким образом, если у одного есть выборка, и один выбирает другое наблюдение, то это имеет вероятность быть наибольшим значением, наблюдаемым до сих пор, вероятность быть наименьшим значением, наблюдаемым до сих пор, и, следовательно, другой раз, находится между максимумом выборки и минимумом выборки. из Таким образом, обозначая образца максимум и минимум на М и м, Это дает интервал предсказания [ т , М ].

Например, если n  = 19, то [ m , M ] дает интервал прогноза 18/20 = 90% - 90% времени, 20-е наблюдение попадает между наименьшим и наибольшим наблюдением, которое наблюдалось до сих пор. Аналогично, n  = 39 дает 95% интервал прогнозирования, а n  = 199 дает 99% интервал прогнозирования.

Оценка [ править ]

Из-за их чувствительности к выбросам экстремумы выборки не могут надежно использоваться в качестве оценок, если данные не являются чистыми - надежные альтернативы включают первый и последний децили .

Однако с чистыми данными или в теоретической обстановке они иногда могут оказаться очень хорошими оценками, особенно для платикуртических распределений, где для небольших наборов данных средний диапазон является наиболее эффективным средством оценки.

Однако они не являются эффективными оценками местоположения для мезокуртических распределений, таких как нормальное распределение и лептокуртические распределения.

Равномерное распределение [ править ]

Для выборки без замены из равномерного распределения с одной или двумя неизвестными конечными точками (то есть с N неизвестными или с M и N неизвестными), максимум выборки или, соответственно, максимум выборки и минимум выборки являются достаточными и полной статистикой для неизвестного конечные точки; таким образом, несмещенная оценка, полученная из них, будет оценкой UMVU .

Если неизвестна только верхняя конечная точка, максимум выборки является смещенной оценкой для максимума совокупности, но несмещенная оценка (где m - максимум выборки, а k - размер выборки) является оценщиком UMVU; см. проблему с немецкими танками .

Если обе конечные точки неизвестны, то диапазон выборки является смещенной оценкой для диапазона популяции, но корректировка максимума выше дает оценку UMVU.

Если обе конечные точки неизвестны, то средний диапазон - это несмещенная (и, следовательно, UMVU) оценка средней точки интервала (здесь эквивалентно медиана, среднее или среднее значение популяции).

Причина, по которой экстремумы выборки являются достаточной статистикой, заключается в том, что условное распределение неэкстремальных выборок - это просто распределение для равномерного интервала между максимумом и минимумом выборки - после того, как конечные точки зафиксированы, значения внутренних точек не добавляют никакой дополнительной информации .

Проверка нормальности [ править ]

Экстремумы выборки можно использовать для проверки нормальности , поскольку события за пределами диапазона 3σ очень редки.

Экстремумы выборки могут использоваться для простого теста нормальности , в частности эксцесса: вычисляется t-статистика максимума и минимума выборки (вычитается среднее значение выборки и делится на стандартное отклонение выборки ), и если они необычно велики для выборки размера (в соответствии с правилом трех сигм и таблицей в нем, или, точнее , t-распределением Стьюдента ), то эксцесс выборочного распределения значительно отклоняется от нормального распределения.

Например, ежедневный процесс должен ожидать событие 3σ один раз в год (календарных дней; один раз в полтора года в рабочие дни), в то время как событие 4σ происходит в среднем каждые 40 лет календарных дней, 60 лет рабочих дней ( один раз в жизни), события 5σ происходят каждые 5000 лет (один раз в зарегистрированной истории), а события 6σ происходят каждые 1,5 миллиона лет (практически никогда). Таким образом, если экстремумы выборки находятся на 6 сигмах от среднего, у одного имеется значительный отказ от нормальности.

Кроме того, этот тест очень прост в использовании без привлечения статистики.

Эти тесты на нормальность могут применяться, например, при наличии риска эксцесса .

Теория экстремальных ценностей [ править ]

События могут выходить за рамки любых ранее наблюдаемых, как, например, Лиссабонское землетрясение 1755 года .

Выборочные экстремумы играют две основные роли в теории экстремальных значений :

  • во-первых, они дают нижнюю границу экстремальных событий - события могут быть по крайней мере такими экстремальными и для этой выборки;
  • во-вторых, их иногда можно использовать для оценки вероятности более экстремальных событий.

Однако следует проявлять осторожность при использовании экстремумов выборки в качестве руководства: в распределениях с тяжелыми хвостами или для нестационарных процессов экстремальные события могут быть значительно более экстремальными, чем любое ранее наблюдаемое событие. Это разработано в теории черного лебедя .

См. Также [ править ]

  • Максимумы и минимумы