Интервал прогноза

‹Приведенный ниже шаблон ( необходим эксперт ) рассматривается для удаления. См. Шаблоны для обсуждения, чтобы помочь достичь консенсуса. ›

Эта статья требует внимания эксперта по данной теме . Добавьте причину или параметр обсуждения в этот шаблон, чтобы объяснить проблему со статьей.
При размещении этого тега рассмотрите возможность связывания этого запроса с WikiProject . ( Ноябрь 2010 г. )

В статистическом выводе , а именно в прогнозном выводе , интервал прогнозирования - это оценка интервала, в который с определенной вероятностью попадет будущее наблюдение, учитывая то, что уже наблюдалось. Интервалы прогнозирования часто используются в регрессионном анализе .

Интервалы прогнозирования используются как в частотной статистике, так и в байесовской статистике : интервал прогнозирования имеет ту же связь с будущим наблюдением, что и частотный доверительный интервал или байесовский надежный интервал с ненаблюдаемым параметром совокупности: интервалы прогнозирования предсказывают распределение отдельных будущих точек, тогда как доверительные интервалы и достоверные интервалы параметров предсказывают распределение оценок истинного среднего значения совокупности или другой интересующей величины, которую нельзя наблюдать.

Введение [ править ]

Например, если сделать параметрическое предположение, что базовое распределение является нормальным распределением и имеет набор выборок { X ₁ , ..., X _n }, тогда доверительные интервалы и достоверные интервалы могут использоваться для оценки среднего генерального значения μ. и стандартное отклонение σ основной совокупности, в то время как интервалы прогнозирования могут использоваться для оценки значения следующей переменной выборки, X _{n +1} .

В качестве альтернативы, используя байесовские термины , интервал прогнозирования может быть описан как вероятный интервал для самой переменной, а не как параметр ее распределения.

Концепция интервалов прогнозирования не должна ограничиваться выводом об одном будущем выборочном значении, но может быть расширена на более сложные случаи. Например, в контексте речного наводнения, когда анализ часто основывается на годовых значениях самого большого стока в течение года, может возникнуть интерес сделать выводы о самом большом наводнении, которое может случиться в течение следующих 50 лет.

Поскольку интервалы предсказания касается только прошлых и будущих наблюдений, а не ненаблюдаемых параметров популяции, они выступают в качестве лучшего способа , чем доверительных интервалы некоторых статистик, таких как Seymour Geisser , ^{[ править ]} после фокусировки на наблюдаемом с помощью Бруно Финетти . ^{[ необходима цитата ]}

Нормальное распределение [ править ]

Для выборки из нормального распределения , параметры которой неизвестны, можно дать интервалы прогноза в частотном смысле, т. Е. Интервал [ a , b ] на основе статистики выборки, такой что при повторных экспериментах X _{n +1} попадает в интервал желаемый процент времени; эти интервалы можно назвать предсказательными . ^[1]

Общий метод частотных интервалов прогнозирования состоит в том, чтобы найти и вычислить основное количество наблюдаемых X ₁ , ..., X _n , X _{n +1} - что означает функцию наблюдаемых и параметров, распределение вероятностей которых не зависит от параметров - которая может быть инвертирована, чтобы дать вероятность того, что будущее наблюдение X _{n +1} попадет в некоторый интервал, вычисленный с точки зрения наблюдаемых на данный момент значений. Такая основная величина, зависящая только от наблюдаемых, называется вспомогательной статистикой . ^[2] ${\ displaystyle X_ {1}, \ dots, X_ {n}.}$ Обычный метод построения основных величин состоит в том, чтобы взять разность двух переменных, которые зависят от местоположения, так что местоположение компенсируется, а затем взять соотношение двух переменных, которые зависят от масштаба, так что масштаб компенсируется. Наиболее известной ключевой величиной является t-статистика Стьюдента , которая может быть получена этим методом и используется в дальнейшем.

Известное среднее, известная дисперсия [ править ]

Интервал прогнозирования [ ℓ , u ] для будущего наблюдения X в нормальном распределении N ( µ , σ ² ) с известным средним значением и дисперсией может быть вычислен из

{\ displaystyle \ gamma = P (\ ell <X <u) = P \ left ({\ frac {\ ell - \ mu} {\ sigma}} <{\ frac {X- \ mu} {\ sigma}} <{\ frac {u- \ mu} {\ sigma}} \ right) = P \ left ({\ frac {\ ell - \ mu} {\ sigma}} <Z <{\ frac {u- \ mu} {\ sigma}} \ right),}

где , то стандартный счет из X , распространяется как стандартное нормальное. ${\ Displaystyle Z = {\ гидроразрыва {X- \ mu} {\ sigma}}}$

Следовательно

{\ displaystyle {\ frac {\ ell - \ mu} {\ sigma}} = - z, \ quad {\ frac {u- \ mu} {\ sigma}} = z,}

или же

{\ displaystyle \ ell = \ mu -z \ sigma, \ quad u = \ mu + z \ sigma,}

где z - квантиль в стандартном нормальном распределении, для которого:

{\ Displaystyle \ gamma = P (-z <Z <z).}

или эквивалентно;

{\ displaystyle {\ tfrac {1} {2}} (1- \ gamma) = P (Z> z).}

Интервал прогноза	z
75%	1,15 ^[3]
90%	1,64 ^[3]
95%	1,96 ^[3]
99%	2,58 ^[3]

Интервал прогноза (по оси Y ), заданный по z (квантиль стандартной оценки по оси X ). Ось Y логарифмически сжата (но значения на ней не изменяются).

Интервал прогнозирования условно записывается как:

{\ displaystyle \ left [\ mu -z \ sigma, \ \ mu + z \ sigma \ right].}

Например, чтобы рассчитать 95% интервал прогнозирования для нормального распределения со средним значением ( µ ), равным 5, и стандартным отклонением ( σ ), равным 1, тогда z будет приблизительно равно 2. Следовательно, нижний предел интервала прогнозирования составляет приблизительно 5 - (2 · 1) = 3, а верхний предел составляет приблизительно 5 + (2 · 1) = 7, что дает интервал прогнозирования приблизительно от 3 до 7.

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним ( µ ) 0 и дисперсией ( σ ² ) 1. В дополнение к функции квантиля , интервал прогнозирования для любой стандартной оценки может быть рассчитан как (1 - (1 - Φ _{µ) , σ ²} (стандартный балл)) · 2). Например, стандартная оценка x = 1,96 дает Φ _{µ , σ ²} (1,96) = 0,9750, что соответствует интервалу прогноза (1 - (1 - 0,9750) · 2) = 0,9500 = 95%.

Оценка параметров [ править ]

Для распределения с неизвестными параметрами прямой подход к прогнозированию состоит в том, чтобы оценить параметры и затем использовать связанную функцию квантилей - например, можно использовать выборочное среднее значение в качестве оценки для μ и выборочную дисперсию s ² в качестве оценки для σ ^2. . Обратите внимание, что здесь есть два естественных выбора для s ² - деление на дает несмещенную оценку, а деление на n дает оценку максимального правдоподобия , и любой из них может использоваться. Затем можно использовать функцию квантиля с этими оцененными параметрами, чтобы получить интервал прогнозирования. ${\overline {X}}$ $(n-1)$ $\Phi _{{\overline {X}},s^{2}}^{-1}$

Этот подход можно использовать, но полученный интервал не будет иметь интерпретации повторной выборки ^[4] - это не доверительный интервал для прогнозирования.

Для продолжения используйте примерное среднее:

{\overline {X}}={\overline {X}}_{n}=(X_{1}+\cdots +X_{n})/n

и (несмещенная) дисперсия выборки:

s^{2}=s_{n}^{2}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}.

Неизвестное среднее значение, известная дисперсия [ править ]

Учитывая ^[5] нормальное распределение с неизвестным средним μ, но известной дисперсией 1, выборочное среднее значений наблюдений имеет распределение, в то время как будущее наблюдение имеет распределение. Взяв их разность, мы сокращаем μ и получаем нормальное распределение дисперсии, таким образом ${\overline {X}}$ $X_{1},\dots ,X_{n}$ $N(\mu ,1/n),$ $X_{n+1}$ $N(\mu ,1).$ $1+(1/n),$

{\frac {X_{n+1}-{\overline {X}}}{\sqrt {1+(1/n)}}}\sim N(0,1).

Решение для дает прогнозное распределение, из которого можно вычислить интервалы, как и раньше. Это прогнозирующий доверительный интервал в том смысле, что если использовать диапазон квантилей 100 p %, то при повторных применениях этого вычисления будущее наблюдение будет попадать в прогнозируемый интервал в 100 p % времени. $X_{n+1}$ $N({\overline {X}},1+(1/n)),$ $X_{n+1}$

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование оценочного среднего и известной дисперсии 1, поскольку оно использует дисперсию , следовательно, дает более широкие интервалы. Это необходимо для сохранения свойства желаемого доверительного интервала. ${\overline {X}}$ $1+(1/n)$

Известное среднее, неизвестная дисперсия [ править ]

И наоборот, при нормальном распределении с известным средним значением 0, но неизвестной дисперсией , выборочная дисперсия наблюдений имеет, с точностью до масштаба, распределение ; точнее: $\sigma ^{2}$ $s^{2}$ $X_{1},\dots ,X_{n}$ χ n − 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}

{\frac {(n-1)s_{n}^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.

в то время как будущее наблюдение имеет распределение. Принятие отношения будущего наблюдения к стандартному отклонению выборки ^[^{требуется пояснение}^] отменяет σ, давая t-распределение Стьюдента с n - 1 степенями свободы : $X_{n+1}$ $N(0,\sigma ^{2}).$

{\frac {X_{n+1}}{s}}\sim T^{n-1}.

Решение для дает прогнозное распределение, из которого можно вычислить интервалы, как и раньше. $X_{n+1}$ $sT^{n-1},$

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование нормального распределения с предполагаемым стандартным отклонением и известным средним значением 0, поскольку оно использует t-распределение вместо нормального распределения, следовательно, дает более широкие интервалы. Это необходимо для сохранения свойства желаемого доверительного интервала. $s$

Неизвестное среднее, неизвестная дисперсия [ править ]

Комбинируя вышеуказанное для нормального распределения с неизвестными как μ, так и σ ^2, получаем следующую вспомогательную статистику: ^[6] $N(\mu ,\sigma ^{2})$

{\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+1/n}}}}\sim T^{n-1}.

Эта простая комбинация возможна, потому что выборочное среднее и выборочная дисперсия нормального распределения являются независимой статистикой; это верно только для нормального распределения и фактически характеризует нормальное распределение.

Решение для урожайности прогнозируемого распределения $X_{n+1}$

{\overline {X}}_{n}+s_{n}{\sqrt {1+1/n}}\cdot T^{n-1}.

Тогда вероятность попадания в заданный интервал равна: $X_{n+1}$

\Pr \left({\overline {X}}_{n}-T_{a}s_{n}{\sqrt {1+(1/n)}}\leq X_{n+1}\leq {\overline {X}}_{n}+T_{a}s_{n}{\sqrt {1+(1/n)}}\,\right)=p

где Т является 100 (1 - р / 2) ^го процентиль из Распределения Стьюдента с п - 1 степенями свободы. Следовательно, числа

{\overline {X}}_{n}\pm T_{a}s_{n}{\sqrt {1+(1/n)}}

являются конечными точками интервала прогнозирования 100 (1 - p )% для . $X_{n+1}$

Непараметрические методы [ править ]

Можно вычислить интервалы прогноза без каких-либо предположений о совокупности; формально это непараметрический метод. ^[7]

Предположим, кто-то случайным образом отбирает выборку из двух наблюдений X ₁ и X ₂ из совокупности, в которой предполагается, что значения имеют непрерывное распределение вероятностей.

Какова вероятность того, что X ₂ > X ₁ ?

Ответ составляет ровно 50%, независимо от основной совокупности - вероятность выбора 3, а затем 7 такая же, как и выбор 7, а затем 3, независимо от конкретной вероятности выбора 3 или 7. Таким образом, если выбрать одну выборку точка X ₁ , то в 50% случаев следующая точка выборки будет больше, что дает ( X ₁ , + ∞) как 50% интервал прогнозирования для X ₂ . Точно так же в 50% случаев он будет меньше, что дает еще 50% интервал прогноза для X ₂ , а именно (−∞, X ₁). Обратите внимание, что предположение о непрерывном распределении исключает возможность того, что значения могут быть точно равными; это усложнило бы дело.

Точно так же, если есть выборка { X ₁ , ..., X _n }, то вероятность того, что следующее наблюдение X _{n +1} будет наибольшим, равна 1 / ( n + 1), поскольку все наблюдения имеют равную вероятность того, что они будут максимум. Точно так же вероятность того, что X _{n +1} будет наименьшим, равна 1 / ( n + 1). Другое ( п - 1) / ( п + 1) времени, Х _{п + 1} падает между максимумом образца и образца минимум образца { Х ₁ , ..., X_n }. Таким образом, обозначение максимума и минимума выборки буквами M и m дает интервал прогнозирования( n - 1) / ( n + 1) [ m , M ].

Например, если n = 19, то [ m , M ] дает интервал прогноза 18/20 = 90% - 90% времени, 20-е наблюдение попадает между наименьшим и наибольшим наблюдением, которое наблюдалось до сих пор. Аналогично, n = 39 дает 95% интервал прогнозирования, а n = 199 дает 99% интервал прогнозирования.

В более общем смысле, если X _{( j )} и X _{( k )} являются статистикой порядка выборки с j < k и j + k = n + 1, то [ X _{( j )} , X _{( k )} ] является интервалом прогнозирования для X _{n +1} с вероятностью охвата ( уровнем значимости ), равной ( n + 1-2 j ) / ( n + 1) .

Это можно визуализировать, нарисовав n точек выборки на линии, которая делит линию на n + 1 сегмент ( n - 1 сегмент между выборками и 2 интервала, уходящие в бесконечность на обоих концах), и отмечая, что X _{n +1} имеет равный шанс приземлиться в любой из этих n + 1 секций. Таким образом, можно также выбрать любые k из этих секций и задать интервал прогнозирования k / ( n + 1) (или установить, если секции не идут подряд). Например, если n = 2, то вероятность того, что X ₃ окажется между двумя существующими наблюдениями, равна 1/3.

Обратите внимание, что хотя это дает вероятность того, что будущее наблюдение попадет в диапазон, оно не дает никакой оценки относительно того, где в сегменте оно упадет - в частности, если оно выходит за пределы диапазона наблюдаемых значений, оно может быть далеко за пределами диапазон. Смотрите теорию экстремальных ценностей для дальнейшего обсуждения. Формально это относится не только к выборке из совокупности, но и к любой заменяемой последовательности случайных величин, не обязательно независимых или одинаково распределенных .

Сравните с другими интервалами [ править ]

Сравните с доверительными интервалами [ править ]

Следует отметить , что в формуле для предиктивного доверительного интервала без упоминания выполнен из ненаблюдаемых параметров ц и σ из среднего населения и стандартное отклонение - наблюдаемые образцы статистики и выборочного среднего и стандартного отклонения используются, и то , что, по оценкам , является результатом будущие образцы. ${\overline {X}}_{n}$ $S_{n}$

Вместо того чтобы использовать статистические выборки в качестве оценок параметров населения и применения доверительных интервалов для этих оценок, один считает «очередной образец» , как сама статистика, и вычисляет его распределение выборки . $X_{n+1}$

В доверительных интервалах параметра оцениваются параметры совокупности; если кто-то желает интерпретировать это как предсказание следующей выборки, он моделирует «следующую выборку» как выборку из этой оцененной совокупности, используя (оценочное) распределение совокупности . Напротив, в предсказательных доверительных интервалах используется выборочное распределение (статистика) выборки из n или n + 1 наблюдений из такой совокупности, а распределение совокупности напрямую не используется, хотя предположение о его форме (хотя а не значения его параметров) используется при вычислении выборочного распределения.

Контраст с интервалами допуска [ править ]

Эта статья должна включать краткое изложение интервала допуска . См. Wikipedia: Summary style для получения информации о том, как включить его в основной текст этой статьи. ( Февраль 2013 г. )

Приложения [ править ]

Интервалы прогноза обычно используются в качестве определения контрольных диапазонов , таких как контрольные диапазоны для анализов крови, чтобы дать представление о том, является ли анализ крови нормальным или нет. Для этой цели наиболее часто используемым интервалом прогнозирования является 95% интервал прогнозирования, и основанный на нем контрольный диапазон можно назвать стандартным контрольным диапазоном .

Регрессионный анализ [ править ]

Обычно интервалы прогнозирования применяются в регрессионном анализе .

Предположим, что данные моделируются с помощью прямой регрессии:

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}\,

где - переменная ответа , - объясняющая переменная , ε _i - член случайной ошибки, и - параметры. $y_{i}$ $x_{i}$ $\alpha$ $\beta$

С учетом оценок и параметров, таких как простая линейная регрессия , прогнозируемое значение отклика y _d для данного объясняющего значения x _d равно ${\hat {\alpha }}$ ${\hat {\beta }}$

{\hat {y}}_{d}={\hat {\alpha }}+{\hat {\beta }}x_{d},

(точка на линии регрессии), а фактический ответ будет

y_{d}=\alpha +\beta x_{d}+\varepsilon _{d}.\,

Точечная оценка называется средний отклик , и является оценкой ожидаемого значения от у _г , ${\hat {y}}_{d}$ $E(y\mid x_{d}).$

Вместо этого интервал прогнозирования дает интервал, в который ожидается падение y _d ; в этом нет необходимости, если известны фактические параметры α и β (вместе с членом ошибки ε _i ), но если оценивается по выборке , то можно использовать стандартную ошибку оценок для точки пересечения и наклона ( и ) , а также их корреляция, чтобы вычислить интервал прогнозирования. ${\hat {\alpha }}$ ${\hat {\beta }}$

В регрессии Фарауэй (2002 , стр. 39) проводит различие между интервалами для предсказаний среднего отклика и для предсказаний наблюдаемого отклика, существенно влияя на включение или не включение члена единства в квадратный корень в приведенных выше факторах расширения; подробнее см. Faraway (2002) .

Байесовская статистика [ править ]

Сеймур Гейссер , сторонник предсказательного вывода, предлагает прогностические приложения байесовской статистики . ^[8]

В байесовской статистике можно вычислить (байесовские) интервалы предсказания из апостериорной вероятности случайной величины как достоверного интервала . В теоретической работе вероятные интервалы часто рассчитываются не для предсказания будущих событий, а для вывода параметров, то есть вероятных интервалов параметра, а не для результатов самой переменной. Однако, особенно когда приложения связаны с возможными экстремальными значениями в еще не наблюдаемых случаях, достоверные интервалы для таких значений могут иметь практическое значение.

См. Также [ править ]

Экстраполяция
Апостериорная вероятность
Прогноз
Группа предсказаний
Сеймур Гейссер
Проверка статистической модели
Оценка тренда

Примечания [ править ]

^ Гейссер (1993 , стр. 6 ): Глава 2: небайесовские подходы к прогнозированию
^ Geisser (1993 , стр. 7 )
^ a b c d Таблица A2 в Sterne & Kirkwood (2003 , стр. 472)
^ Geisser (1993 , стр. 8-9 )
^ Geisser (1993 , стр. 7 )
^ Geisser (1993 , пример 2.2, стр. 9-10 )
^ " Интервалы прогнозов ", Статистика @ SUNY Oswego
^ Geisser (1993)

Ссылки [ править ]

Фарауэй, Джулиан Дж. (2002), Практическая регрессия и Anova с использованием R (PDF)
Гейссер, Сеймур (1993), Прогнозирующий вывод , CRC Press
Стерн, Джонатан; Кирквуд, Бетти Р. (2003), Essential Medical Statistics , Blackwell Science , ISBN 0-86542-871-9

Дальнейшее чтение [ править ]

Чатфилд, К. (1993). «Расчет интервальных прогнозов». Журнал деловой и экономической статистики . 11 (2): 121–135. DOI : 10.2307 / 1391361 .
Лоулесс, JF; Фредетт, М. (2005). «Интервалы предсказания Frequentist и предсказывающие распределения». Биометрика . 92 (3): 529–542. DOI : 10.1093 / Biomet / 92.3.529 .
Meade, N .; Ислам, Т. (1995). «Интервалы прогнозирования для прогнозов кривой роста». Журнал прогнозирования . 14 (5): 413–430. DOI : 10.1002 / for.3980140502 .
ISO 16269-8 Стандартная интерпретация данных, Часть 8, Определение интервалов прогнозирования

[1] Гейссер (1993 , стр. 6 ): Глава 2: небайесовские подходы к прогнозированию

[2] Geisser (1993 , стр. 7 )

[MedicalStatisticsA2-3] Таблица A2 в Sterne & Kirkwood (2003 , стр. 472)

[4] Geisser (1993 , стр. 8-9 )

[5] Geisser (1993 , стр. 7 )

[6] Geisser (1993 , пример 2.2, стр. 9-10 )

[7] " Интервалы прогнозов ", Статистика @ SUNY Oswego

[8] Geisser (1993)

[1]