Студентизированное распределение диапазона

В вероятности и статистике , стьюдентизированное распределение диапазона является непрерывным распределением вероятности в стьюдентизированном диапазоне от с н.о.р. выборки из нормально распределенного населения.

Студентизированное распределение диапазона
Функция плотности вероятности
Кумулятивная функция распределения
Параметры	k > 1 , количество групп ${\ displaystyle \ nu}$ > 0 , степени свободы
Служба поддержки	${\ Displaystyle д \ в (0, + \ infty)}$
PDF	${\ displaystyle {\ begin {matrix} f _ {\ text {R}} (q; k, \ nu) = {\ frac {\, {\ sqrt {2 \ pi \,}} \, k \, (k -1) \, \ nu ^ {\ nu / 2} \,} {\ Gamma (\ nu / 2) \, 2 ^ {\ left (\ nu / 2-1 \ right)}}} \ int _ { 0} ^ {\ infty} s ^ {\ nu} \, \ varphi ({\ sqrt {\ nu \,}} \, s) \, \ times \\ [0.5em] \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z + q \, s) \, \ varphi (z) \, \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-2} \, \ mathrm {d} z \ right] \, \ mathrm {d} s \ end {matrix}}}$
CDF	${\ displaystyle {\ begin {matrix} F _ {\ text {R}} (q; k, \ nu) = {\ frac {\, {\ sqrt {2 \ pi \,}} \, k \, \ nu ^ {\ nu / 2} \,} {\, \ Gamma (\ nu / 2) \, 2 ^ {\ left (\ nu / 2-1 \ right)}}} \ int _ {0} ^ {\ infty} s ^ {\ nu -1} \, \ varphi ({\ sqrt {\ nu \,}} \, s) \, \ times \\ [0.5em] \ qquad \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z) \, \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-1} \, \ mathrm {d} z \ right] \, \ mathrm {d} s \ end {matrix}}}$

Предположим, что мы берем выборку размера n из каждой из k популяций с одинаковым нормальным распределением N ( μ , σ ² ) и предполагаем, что ${\ displaystyle {\ bar {y}} _ {\ min}}$ является наименьшим из этих выборочных средних и ${\ displaystyle {\ bar {y}} _ {\ max}}$ является самым большим из этих средств выборки, и предположим , что с ² это объединенный образец дисперсии из этих образцов. Тогда следующая статистика имеет распределение по стьюдентизированному диапазону.

{\ displaystyle q = {\ frac {{\ overline {y}} _ {\ max} - {\ overline {y}} _ {\ min}} {s / {\ sqrt {n \,}}}}}

Определение

Функция плотности вероятности

Дифференцирование кумулятивной функции распределения по q дает функцию плотности вероятности .

{\ displaystyle f _ {\ text {R}} (q; k, \ nu) = {\ frac {{\ sqrt {2 \ pi \,}} \, k \, (k-1) \, \ nu ^ {\ nu / 2}} {\ Gamma (\ nu / 2) \, 2 ^ {\ left (\ nu / 2-1 \ right)}}} \ int _ {0} ^ {\ infty} s ^ { \ nu} \, \ varphi ({\ sqrt {\ nu \,}} \, s) \, \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z + q \, s) \, \ varphi (z) \, \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-2} \, \ mathrm {d} z \ right] \, \ mathrm {d} s}

Отметим, что во внешней части интеграла уравнение

{\ displaystyle \ varphi ({\ sqrt {\ nu \,}} \, s) \, {\ sqrt {2 \ pi \,}} = e ^ {- \ left (\ nu \, s ^ ​​{2} / 2 \ right)}}

был использован для замены экспоненциального множителя.

Кумулятивная функция распределения

Кумулятивная функция распределения определяется выражением ^[1]

{\ displaystyle F _ {\ text {R}} (q; k, \ nu) = {\ frac {{\ sqrt {2 \ pi \,}} \, k \, \ nu ^ {\ nu / 2}} {\, ​​\ Gamma (\ nu / 2) \, 2 ^ {(\ nu / 2-1)} \,}} \ int _ {0} ^ {\ infty} s ^ {\ nu -1} \ varphi ({\ sqrt {\ nu \,}} \, s) \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z) \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-1} \, \ mathrm {d} z \ right] \, \ mathrm {d} s}

Особые случаи

Если k равно 2 или 3, ^[2] функция распределения вероятностей стьюдентизированного диапазона может быть вычислена напрямую, где ${\ Displaystyle \ varphi (г)}$ - стандартная нормальная функция плотности вероятности и ${\ displaystyle \ Phi (z)}$ - стандартная нормальная кумулятивная функция распределения.

{\ displaystyle f_ {R} (q; k = 2) = {\ sqrt {2 \,}} \, \ varphi \ left (\, q / {\ sqrt {2 \,}} \ right)}

{\ displaystyle f_ {R} (q; k = 3) = 6 {\ sqrt {2 \,}} \, \ varphi \ left (\, q / {\ sqrt {2 \,}} \ right) \ left [\ Phi \ left (q / {\ sqrt {6 \,}} \ right) - {\ tfrac {1} {2}} \ right]}

Когда степени свободы приближаются к бесконечности, кумулятивное распределение стьюдентизированного диапазона может быть вычислено для любого k с использованием стандартного нормального распределения.

{\ Displaystyle F_ {R} (д; к) = к \, \ int _ {- \ infty} ^ {\ infty} \ varphi (z) \, {\ Bigl [} \ Phi (z + q) - \ Phi (z) {\ Bigr]} ^ {k-1} \, \ mathrm {d} z = k \, \ int _ {- \ infty} ^ {\ infty} \, {\ Bigl [} \ Phi ( z + q) - \ Phi (z) {\ Bigr]} ^ {k-1} \, \ mathrm {d} \ Phi (z)}

Приложения

Критические значения стьюдентизированного распределения диапазонов используются в тесте диапазона Тьюки .

Стидентизованный диапазон используется для расчета уровней значимости результатов, полученных с помощью интеллектуального анализа данных , когда выборочно выявляются крайние различия в выборочных данных, а не только случайная выборка.

Распределение стьюдентизированного диапазона применяется для проверки гипотез и процедур множественных сравнений . Например, тест диапазона Тьюки и новый тест множественного диапазона Дункана (MRT), в котором выборка x ₁ , ..., x _n представляет собой выборку средних значений, а q - базовая статистика теста, могут использоваться как апостериорные. анализ, чтобы проверить, между какими двумя группами имеется значимая разница (попарные сравнения) после отклонения нулевой гипотезы о том, что все группы принадлежат к одной и той же совокупности (т.е. все средние значения равны) с помощью стандартного дисперсионного анализа . ^[3]

Связанные дистрибутивы

Когда ставится под сомнение только равенство двух групп средних значений (то есть, действительно ли μ ₁ = μ ₂ ), стьюдентизированное распределение диапазона аналогично распределению Стьюдента t , отличаясь только тем, что первое учитывает количество рассматриваемых средних, и соответственно корректируется критическое значение. Чем больше рассматриваемых средств, тем больше критическое значение. Это имеет смысл, поскольку чем больше имеется средств, тем больше вероятность того, что хотя бы некоторые различия между парами средних будут значительны только из-за случайности.

Вывод

Функция распределения стьюдентизированного диапазона возникает в результате повторного масштабирования диапазона выборки R на стандартное отклонение выборки s , поскольку стьюдентизованный диапазон обычно табулируется в единицах стандартных отклонений с переменной q = R / s . Вывод начинается с совершенно общей формы функции распределения диапазона выборки, которая применяется к любому распределению выборочных данных.

Чтобы получить распределение в терминах «стьюдентизированного» диапазона q , мы изменим переменную с R на s и q . Предполагая, что данные выборки распределены нормально , стандартное отклонение s будет распределено по $χ$ . Путем дальнейшего интегрирования по s мы можем удалить s как параметр и получить масштабированное распределение только с точки зрения q .

Общая форма

Для любой функции плотности вероятности f _X плотность вероятности дальности f _R равна: ^[2]

{\ displaystyle f_ {R} (r; k) = k \, (k-1) \ int _ {- \ infty} ^ {\ infty} f_ {X} \ left (t + {\ tfrac {1} {2) }} r \ right) f_ {X} \ left (t - {\ tfrac {1} {2}} r \ right) \ left [\ int _ {t - {\ tfrac {1} {2}} r} ^ {t + {\ tfrac {1} {2}} r} f_ {X} (x) \, \ mathrm {d} x \ right] ^ {k-2} \, \ mathrm {d} \, t}

Это означает, что мы складываем вероятности того, что, учитывая k, взятых из распределения, две из них различаются на r , а оставшиеся k - 2 вытяжки попадают между двумя крайними значениями. Если мы заменим переменные на u, где ${\ Displaystyle и = т - {\ tfrac {1} {2}} г}$ является нижним пределом диапазона, и определите F _X как кумулятивную функцию распределения f _X , тогда уравнение можно упростить:

{\ displaystyle f_ {R} (r; k) = k \, (k-1) \ int _ {- \ infty} ^ {\ infty} f_ {X} (u + r) \, f_ {X} ( u) \, \ left [\, F_ {X} (u + r) -F_ {X} (u) \, \ right] ^ {k-2} \, \ mathrm {d} \, u}

Введем аналогичный интеграл и заметим, что дифференцирование под знаком интеграла дает

{\ displaystyle {\ begin {align} {\ frac {\ partial} {\ partial r}} & \ left [k \, \ int _ {- \ infty} ^ {\ infty} f_ {X} (u) \ , {\ Bigl [} \, F_ {X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-1} \, \ mathrm {d} \, u \ right ] \\ [5pt] = {} & k \, (k-1) \ int _ {- \ infty} ^ {\ infty} f_ {X} (u + r) \, f_ {X} (u) \, {\ Bigl [} \, F_ {X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-2} \, \ mathrm {d} \, u \ end { выровнено}}}

который восстанавливает интеграл выше, ^[a], так что последнее соотношение подтверждает

{\ displaystyle {\ begin {align} F_ {R} (r; k) & = k \ int _ {- \ infty} ^ {\ infty} f_ {X} (u) {\ Bigl [} \, F_ { X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-1} \, \ mathrm {d} \, u \\ & = k \ int _ {- \ infty } ^ {\ infty} {\ Bigl [} \, F_ {X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-1} \, \ mathrm {d} \, F_ {X} (и) \ конец {выровнено}}}

потому что для любого непрерывного cdf

{\ displaystyle {\ frac {\ partial F_ {R} (r; k)} {\ partial r}} = f_ {R} (r; k)}

Специальная форма для обычных данных

Распределение диапазона чаще всего используется для доверительных интервалов вокруг выборочных средних, которые асимптотически нормально распределены согласно центральной предельной теореме .

Чтобы создать стьюдентизированное распределение диапазона для нормальных данных, мы сначала переключаемся с общих f _X и F _X на функции распределения φ и Φ для стандартного нормального распределения , а затем меняем переменную r на s · q , где q - фиксированный коэффициент, изменяющий масштаб r на коэффициент масштабирования s :

{\ displaystyle f_ {R} (q; k) = s \, k \, (k-1) \ int _ {- \ infty} ^ {\ infty} \ varphi (u + sq) \ varphi (u) \ , \ left [\, \ Phi (u + sq) - \ Phi (u) \ right] ^ {k-2} \, \ mathrm {d} u}

Выберите коэффициент масштабирования s в качестве стандартного отклонения выборки, чтобы q стало числом стандартных отклонений в пределах диапазона. Для нормальных данных s - это распределение хи ^[b], а функция распределения f _S распределения хи задается следующим образом:

{\ displaystyle f_ {S} (s; \ nu) \, \ mathrm {d} s = {\ begin {case} {\ dfrac {\ nu ^ {\ nu / 2} \, s ^ ​​{\ nu -1 } e ^ {- \ nu \, s ^ ​​{2} / 2} \,} {2 ^ {\ left (\ nu / 2-1 \ right)} \ Gamma (\ nu / 2)}} \, \ mathrm {d} s & {\ text {for}} \, 0

Умножение распределений f _R и f _S и интегрирование для удаления зависимости от стандартного отклонения s дает стьюдентизированную функцию распределения диапазонов для нормальных данных:

{\ displaystyle f_ {R} (q; k, \ nu) = {\ frac {\ nu ^ {\ nu / 2} \, k \, (k-1)} {2 ^ {\ left (\ nu / 2-1 \ right)} \ Gamma (\ nu / 2)}} \ int _ {0} ^ {\ infty} s ^ {\ nu} e ^ {- \ nu s ^ {2} / 2} \ int _ {- \ infty} ^ {\ infty} \ varphi (u + sq) \, \ varphi (u) \, \ left [\, \ Phi (u + sq) - \ Phi (u) \ right] ^ { к-2} \, \ mathrm {d} и \, \ mathrm {d} s}

где

q - ширина диапазона данных, измеренная в стандартных отклонениях,

$ν$ - количество степеней свободы для определения стандартного отклонения выборки, ^[c] и

k - количество отдельных средних значений, образующих точки в пределах диапазона.

Уравнение для PDF, показанное в разделах выше, получено из использования

{\ displaystyle e ^ {- \ nu \, s ^ ​​{2} / 2} = {\ sqrt {2 \ pi \,}} \, \ varphi ({\ sqrt {\ nu \,}} \, s) }

для замены экспоненциального выражения во внешнем интеграле.

Заметки

^ Технически соотношение верно только для точек ${\ displaystyle u}$ где ${\ displaystyle f_ {X} (u + r)> 0}$ , который выполняется везде для нормальных данных, как обсуждается в следующем разделе, но не для распределений, поддержка которых имеет верхнюю границу, как равномерно распределенные данные.
^ Обрати внимание также отсутствие «квадрат»: Текст относится к $й$ распределению , а не на $χ$ ² распределения .
^ Обычно ${\ Displaystyle \ ню = п-1}$ , где n - общее количество всех точек данных, используемых для нахождения средних значений, являющихся значениями в диапазоне.

дальнейшее чтение

Пирсон, ES ; Хартли, HO (1942). «Интеграл вероятности диапазона в выборках из N наблюдений из нормальной популяции». Биометрика . 32 (3): 301–310. DOI : 10.1093 / Biomet / 32.3-4.309 . JSTOR 2332134 .
Хартли, HO (1942). «Диапазон в случайных выборках». Биометрика . 32 (3): 334–348. DOI : 10.2307 / 2332137 . JSTOR 2332137 .
Данлэп, WP; Пауэлл, РС; Коннерт, Т.К. (1977). «Функция FORTRAN IV для вычисления вероятностей, связанных со статистикой стьюдентизированного диапазона» . Методы и инструменты исследования поведения . 9 (4): 373–375. DOI : 10.3758 / BF03202264 .

Внешние ссылки

Таблица критических значений для распределения стьюдентизированного диапазона

[4] Технически соотношение верно только для точек ${\ displaystyle u}$ где ${\ displaystyle f_ {X} (u + r)> 0}$ , который выполняется везде для нормальных данных, как обсуждается в следующем разделе, но не для распределений, поддержка которых имеет верхнюю границу, как равномерно распределенные данные.

[5] Обрати внимание также отсутствие «квадрат»: Текст относится к $й$ распределению , а не на $χ$ ² распределения .

[6] Обычно ${\ Displaystyle \ ню = п-1}$ , где n - общее количество всех точек данных, используемых для нахождения средних значений, являющихся значениями в диапазоне.

[lund-1] Лунд, RE; Лунд, младший (1983). «Алгоритм AS 190: вероятности и верхние квантили для студентизированного диапазона». Журнал Королевского статистического общества . 32 (2): 204–210. JSTOR 2347300 .

[mckay-2] а б Маккей, А. Т. (1933). «Примечание о распределении диапазона в выборках из n ». Биометрика . 25 (3): 415–420. DOI : 10.2307 / 2332292 . JSTOR 2332292 .

[3] Пирсон и Хартли (1970, раздел 14.2)

[1]