Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Функции плотности вероятности статистики порядка для выборки размера n  = 5 из экспоненциального распределения с параметром единичного масштаба

В статистике , то к - го порядка статистики из статистической выборки равна его к м-наименьшее значение. [1] Вместе со статистикой рангов, статистика заказов является одним из самых фундаментальных инструментов непараметрической статистики и вывода .

Важными частными случаями упорядоченной статистики являются минимальное и максимальное значение выборки и (с некоторыми оговорками, обсуждаемыми ниже) медиана выборки и другие квантили выборки .

При использовании теории вероятностей для анализа порядковой статистики случайных выборок из непрерывного распределения , кумулятивная функция распределения используется для сведения анализа к случаю порядковой статистики равномерного распределения .

Обозначения и примеры [ править ]

Например, предположим, что наблюдаются или записываются четыре числа, в результате чего получается выборка размером 4. Если значения выборки равны

6, 9, 3, 8,

статистика заказа будет обозначена

где нижний индекс ( i ) в круглых скобках указывает статистику i- го порядка выборки.

Первого порядка статистики (или наименьший порядок статистики ) всегда является минимальной выборки, то есть,

где, следуя общепринятому соглашению, мы используем прописные буквы для обозначения случайных величин и строчные буквы (как указано выше) для обозначения их фактических наблюдаемых значений.

Аналогичным образом , для образца размера п , то п - го порядка статистика ( , или по величине статистика порядка ) является максимумом , то есть

Диапазон выборки - это разница между максимумом и минимумом. Это функция статистики заказов:

Аналогичная важная статистика в исследовательском анализе данных, которая просто связана со статистикой порядка, - это межквартильный диапазон выборки .

Медиана выборки может быть, а может и не быть статистикой порядка, поскольку есть одно среднее значение только тогда, когда число n наблюдений нечетное . Точнее, если n = 2 m +1 для некоторого целого числа m , то медиана выборки является статистикой порядка. С другой стороны, когда п является даже , п = 2 м , и есть две средних значений, и , и образец медиана некоторая функция из двух (обычно в среднем) и , следовательно , не приказ статистики. Аналогичные замечания применимы ко всем квантилям выборки.

Вероятностный анализ [ править ]

Для любых случайных величин X 1 , X 2 ..., X n , порядковые статистики X (1) , X (2) , ..., X ( n ) также являются случайными величинами, определяемыми путем сортировки значений ( реализаций ) из X 1 , ..., X п в порядке возрастания.

Когда случайные величины X 1 , X 2 ..., X n образуют выборку, они независимы и одинаково распределены . Этот случай рассматривается ниже. Как правило, случайные величины X 1 , ..., X n могут возникать в результате выборки из более чем одной совокупности. Тогда они независимы , но не обязательно одинаково распределены, и их совместное распределение вероятностей дается теоремой Бапат-Бега .

С этого момента мы будем предполагать, что рассматриваемые случайные величины являются непрерывными, и, где это удобно, мы также будем предполагать, что они имеют функцию плотности вероятности (PDF), то есть они абсолютно непрерывны . В конце обсуждаются особенности анализа распределений, приписывающих массу точек (в частности, дискретных распределений ).

Кумулятивная функция распределения статистики заказов [ править ]

Для случайной выборки, как указано выше, с кумулятивным распределением , статистика порядка для этой выборки имеет кумулятивное распределение следующим образом [2] (где r указывает, какая статистика порядка):

соответствующая функция плотности вероятности может быть получена из этого результата, и она оказывается

.

Более того, есть два особых случая, в которых легко вычислить функции CDF.

Что может быть получено путем тщательного рассмотрения вероятностей.

Распределения вероятностей статистики заказов [ править ]

Статистические данные по заказам взяты из равномерного распределения [ править ]

В этом разделе мы покажем, что порядковая статистика равномерного распределения на единичном интервале имеет маргинальные распределения, принадлежащие семейству бета-распределения . Мы также даем простой метод получения совместного распределения любого количества порядковых статистик и, наконец, переводим эти результаты в произвольные непрерывные распределения с помощью cdf .

В этом разделе мы предполагаем, что это случайная выборка, полученная из непрерывного распределения с помощью cdf . Обозначая, мы получаем соответствующую случайную выборку из стандартного равномерного распределения . Обратите внимание, что статистика заказов тоже удовлетворяет .

Функция плотности вероятности статистики порядка равна [3]

то есть статистика k- го порядка равномерного распределения является случайной величиной с бета-распределением . [3] [4]

Доказательство этих утверждений следующее. Чтобы быть между u и u  +  du , необходимо, чтобы ровно k  - 1 элементов выборки были меньше u , и чтобы хотя бы один был между u и u  + d u . Вероятность того, что в последнем интервале находится более одного, уже есть , поэтому мы должны вычислить вероятность того, что ровно k  - 1, 1 и n  -  k наблюдений попадают в интервалы , и соответственно. Это равно ( подробности см. В мультиномиальном распределении )

и результат следует.

Среднее значение этого распределения равно k / ( n + 1).

Совместное распределение порядковой статистики равномерного распределения [ править ]

Точно так же для i  <  j можно показать , что совместная функция плотности вероятности статистик двух порядков U ( i )  <  U ( j ) равна

что ( с точностью до членов более высокого порядка , чем ) вероятность того, что я  - 1, 1, J  - 1 -  я , 1 и п  -  J выборки элементов падают в интервалах , , , , соответственно.

Совершенно аналогичным образом рассуждают о выводе совместных распределений более высокого порядка. Удивительно, но совместная плотность статистики n-го порядка оказывается постоянной :

Один из способов понять это - то, что неупорядоченный образец действительно имеет постоянную плотность, равную 1, и что их n ! разные перестановки выборки, соответствующие одной и той же последовательности порядковых статистик. Это связано с тем, что 1 / n ! объем области .

Используя приведенные выше формулы, можно вывести распределение диапазона статистик порядка, то есть распределение , то есть максимум минус минимум. В более общем плане , для , также имеет бета - распределение:

Из этих формул мы можем вывести ковариацию между статистиками двух порядков:
Формула следует из того, что
и сравнивая это с
где , что является фактическим распределением разницы.

Статистика заказов, полученная из экспоненциального распределения [ править ]

Для случайных выборок из экспоненциального распределения с параметром λ каждая статистика порядка X (i) для i = 1,2,3, ..., n имеет распределение

где Z j - стандартные экспоненциальные случайные величины iid (т.е. с параметром скорости 1). Этот результат был впервые опубликован Альфредом Реньи. [5] [6]

Статистика заказов, взятая из распределения Erlang [ править ]

Преобразование Лапласа статистики порядка может быть выбрано из распределения Эрланга с помощью метода подсчета путей [ требуется пояснение ] . [7]

Совместное распределение порядковой статистики абсолютно непрерывного распределения [ править ]

Если F X является абсолютно непрерывной , она имеет плотность такая , что , и мы можем использовать подстановки

и

чтобы получить следующие функции плотности вероятности для статистики порядка выборки размера n, взятой из распределения X :

куда
куда

Применение: доверительные интервалы для квантилей [ править ]

Интересный вопрос заключается в том, насколько хорошо статистические данные о порядке служат для оценки квантилей основного распределения.

Пример небольшого размера выборки [ править ]

Самый простой случай, который следует рассмотреть, - насколько хорошо медиана выборки оценивает медианную совокупность.

В качестве примера рассмотрим случайную выборку размера 6. В этом случае медиана выборки обычно определяется как средняя точка интервала, ограниченного статистикой 3-го и 4-го порядка. Однако из предыдущего обсуждения мы знаем, что вероятность того, что этот интервал действительно содержит медианную популяцию, равна

Хотя медиана выборки, вероятно, является одной из лучших точечных оценок медианы совокупности, не зависящей от распределения , этот пример показывает, что она не особенно хороша в абсолютном выражении. В этом конкретном случае лучшим доверительным интервалом для медианы является интервал, ограниченный статистикой 2-го и 5-го порядка, который содержит медианное значение совокупности с вероятностью

При таком небольшом размере выборки, если кто-то хочет иметь по крайней мере 95% уверенности, можно сказать, что медиана находится между минимумом и максимумом из 6 наблюдений с вероятностью 31/32 или приблизительно 97%. Фактически, размер 6 является наименьшим размером выборки, так что интервал, определяемый минимумом и максимумом, составляет по крайней мере 95% доверительный интервал для медианы совокупности.

Большой размер выборки [ править ]

Для равномерного распределения, поскольку п стремится к бесконечности, то р - й пробы квантиль асимптотически нормально распределены , так как она аппроксимируется

Для общего распределения F с непрерывной ненулевой плотностью в F  −1 ( p ) применяется аналогичная асимптотическая нормальность:

где F является функцией плотности и F  -1 является функцией квантиля , связанная с F . Одним из первых, кто упомянул и доказал этот результат, был Фредерик Мостеллер в его основополагающей статье 1946 года. [8] Дальнейшие исследования привели в 1960-х годах к представлению Бахадура, которое предоставляет информацию о границах ошибок.

Интересное наблюдение можно сделать в случае, когда распределение является симметричным, а медиана совокупности равна среднему значению совокупности. В этом случае выборочное среднее согласно центральной предельной теореме также асимптотически нормально распределено, но с дисперсией σ 2 / n . Этот асимптотический анализ предполагает, что среднее значение превосходит медиану в случаях низкого эксцесса , и наоборот. Например, медиана дает лучшие доверительные интервалы для распределения Лапласа , в то время как среднее работает лучше для X , которые распределены нормально.

Доказательство [ править ]

Можно показать, что

куда

где Z i являются независимыми одинаково распределенными экспоненциальными случайными величинами со скоростью 1. Так как X / n и Y / n асимптотически нормально распределены CLT, наши результаты основаны на применении дельта-метода .

Применение: непараметрическая оценка плотности [ править ]

Моменты распределения для статистики первого порядка можно использовать для разработки непараметрической оценки плотности. [9] Предположим, мы хотим оценить плотность в точке . Рассмотрим случайные величины , которым присвоена функция распределения . В частности, .

Ожидаемое значение статистики первого порядка с учетом общего количества выборок,

где - функция квантиля, связанная с распределением , и . Это уравнение в сочетании с методом складывания ножей становится основой для следующего алгоритма оценки плотности:

 Сырьё: образцы. точки оценки плотности. Параметр настройки (обычно 1/3). Выход: расчетная плотность в точках оценки.
 1: Набор 2: Набор 3: Создать матрицу, содержащую подмножества с выборками в каждом. 4: Создайте вектор, чтобы удерживать оценки плотности. 5: для  do 6: для do 7: найти ближайшее расстояние до текущей точки в th подмножестве    8: конец для 9: вычислить среднее подмножество расстояний до 10: вычислить оценку плотности в 11: конец для 12: возврат 

В отличие от параметров настройки на основе полосы пропускания / длины для подходов на основе гистограммы и ядра , параметром настройки для оценки плотности на основе статистики порядка является размер подмножеств выборки. Такая оценка более надежна, чем подходы на основе гистограммы и ядра, например плотности, подобные распределению Коши (в котором отсутствуют конечные моменты), могут быть выведены без необходимости специальных модификаций, таких как полоса пропускания на основе IQR . Это потому, что первый момент статистики заказа всегда существует, если ожидаемое значение базового распределения существует, но обратное не обязательно верно. [10]

Работа с дискретными переменными [ править ]

Предположит , являются IID случайных величин из дискретного распределения с функцией распределения и функцией вероятности массовой . Чтобы найти вероятности статистики порядка, сначала нужны три значения, а именно

Кумулятивную функцию распределения статистики заказов можно вычислить, отметив, что

Точно так же дается

Обратите внимание, что функция массы вероятности - это просто разность этих значений, то есть

Вычисление статистики заказов [ править ]

Задача вычисления k- го наименьшего (или наибольшего) элемента списка называется проблемой выбора и решается с помощью алгоритма выбора. Хотя эта проблема сложна для очень больших списков, были созданы сложные алгоритмы выбора, которые могут решить эту проблему во времени, пропорциональном количеству элементов в списке, даже если список полностью неупорядочен. Если данные хранятся в определенных специализированных структурах данных, это время можно уменьшить до O (log n ). Во многих приложениях требуется вся статистика заказов, и в этом случае можно использовать алгоритм сортировки, а затраченное время равно O ( n log n ).

См. Также [ править ]

  • Rankit
  • Коробчатый сюжет
  • Сопутствующие (статистика)
  • Распределение Фишера – Типпета
  • Теорема Бапата – Бега для статистики порядка независимых, но не обязательно одинаково распределенных случайных величин
  • Полином Бернштейна
  • L-оценка - линейные комбинации статистик заказов
  • Распределение по рангам
  • Алгоритм выбора

Примеры статистики заказов [ править ]

  • Максимум и минимум выборки
  • Квантиль
  • Процентиль
  • Дециль
  • Квартиль
  • Медиана

Ссылки [ править ]

  1. ^ Дэвид, штат Джорджия; Нагараджа, HN (2003). Статистика заказов . Серия Уайли по вероятности и статистике. DOI : 10.1002 / 0471722162 . ISBN 9780471722168.
  2. ^ Каселла, Джордж; Бергер, Роджер. Статистический вывод (2-е изд.). Cengage Learning. п. 229. ISBN 9788131503942.
  3. ^ a b Джентл, Джеймс Э. (2009), Вычислительная статистика , Springer, стр. 63, ISBN 9780387981444.
  4. ^ Джонс, MC (2009), "Кумарасвами дистрибьюторская: Распределение бета-типа с некоторыми преимуществами сговорчивости", Статистическая методология , 6 (1): 70-81, DOI : 10.1016 / j.stamet.2008.04.001 , Как хорошо известно, что бета-распределение - это распределение статистики m -го порядка из случайной выборки размера n из равномерного распределения (на (0,1)).
  5. ^ Дэвид, штат Джорджия; Нагараджа, Х.Н. (2003), «Глава 2. Базовая теория распределения», Статистика порядка , ряды Уайли в вероятности и статистике, стр. 9, DOI : 10.1002 / 0471722162.ch2 , ISBN 9780471722168
  6. ^ Рение, Alfréd (1953). «К теории порядковой статистики» (PDF) . Acta Mathematica Hungarica . 4 (3): 191–231. DOI : 10.1007 / BF02127580 . Архивировано из оригинального (PDF) 09.10.2016.
  7. ^ Хлынка, М .; Брилл, PH; Хорн, В. (2010). «Метод получения преобразований Лапласа порядковой статистики случайных величин Эрланга». Статистические и вероятностные письма . 80 : 9–18. DOI : 10.1016 / j.spl.2009.09.006 .
  8. ^ Мостеллер, Фредерик (1946). «О какой-то полезной« неэффективной »статистике» . Анналы математической статистики . 17 (4): 377–408. DOI : 10.1214 / АОМ / 1177730881 . Проверено 26 февраля 2015 года .
  9. ^ Гарг, Викрам В .; Тенорио, Луис; Уиллкокс, Карен (2017). «Оценка плотности минимального локального расстояния». Коммуникации в статистике - теория и методы . 46 (1): 148–164. arXiv : 1412,2851 . DOI : 10.1080 / 03610926.2014.988260 .
  10. ^ Дэвид, штат Джорджия; Нагараджа, Х.Н. (2003), «Глава 3. Ожидаемые значения и моменты», Статистика заказов, Серия Wiley в вероятности и статистике, стр. 34, DOI : 10.1002 / 0471722162.ch3 , ISBN 9780471722168

Внешние ссылки [ править ]

  • Статистика заказа на PlanetMath . Проверено 02 февраля 2005 г.
  • Вайсштейн, Эрик В. «Статистика порядка» . MathWorld . Проверено 02 февраля 2005 г.
  • Статистика динамического заказа исходного кода C ++