Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистическом выводе , а именно в прогнозном выводе , интервал прогнозирования - это оценка интервала, в который с определенной вероятностью попадет будущее наблюдение, учитывая то, что уже наблюдалось. Интервалы прогнозирования часто используются в регрессионном анализе .

Интервалы прогнозирования используются как в частотной статистике, так и в байесовской статистике : интервал прогнозирования имеет ту же связь с будущим наблюдением, что и частотный доверительный интервал или байесовский надежный интервал с ненаблюдаемым параметром совокупности: интервалы прогнозирования предсказывают распределение отдельных будущих точек, тогда как доверительные интервалы и достоверные интервалы параметров предсказывают распределение оценок истинного среднего значения совокупности или другой интересующей величины, которую нельзя наблюдать.

Введение [ править ]

Например, если сделать параметрическое предположение, что базовое распределение является нормальным распределением и имеет набор выборок { X 1 , ...,  X n }, тогда доверительные интервалы и достоверные интервалы могут использоваться для оценки среднего генерального значения μ. и стандартное отклонение σ основной совокупности, в то время как интервалы прогнозирования могут использоваться для оценки значения следующей переменной выборки, X n +1 .

В качестве альтернативы, используя байесовские термины , интервал прогнозирования может быть описан как вероятный интервал для самой переменной, а не как параметр ее распределения.

Концепция интервалов прогнозирования не должна ограничиваться выводом об одном будущем выборочном значении, но может быть расширена на более сложные случаи. Например, в контексте речного наводнения, когда анализ часто основывается на годовых значениях самого большого стока в течение года, может возникнуть интерес сделать выводы о самом большом наводнении, которое может случиться в течение следующих 50 лет.

Поскольку интервалы предсказания касается только прошлых и будущих наблюдений, а не ненаблюдаемых параметров популяции, они выступают в качестве лучшего способа , чем доверительных интервалы некоторых статистик, таких как Seymour Geisser , [ править ] после фокусировки на наблюдаемом с помощью Бруно Финетти . [ необходима цитата ]

Нормальное распределение [ править ]

Для выборки из нормального распределения , параметры которой неизвестны, можно дать интервалы прогноза в частотном смысле, т. Е. Интервал [ ab ] на основе статистики выборки, такой что при повторных экспериментах X n +1 попадает в интервал желаемый процент времени; эти интервалы можно назвать предсказательными . [1]

Общий метод частотных интервалов прогнозирования состоит в том, чтобы найти и вычислить основное количество наблюдаемых X 1 , ...,  X nX n +1 - что означает функцию наблюдаемых и параметров, распределение вероятностей которых не зависит от параметров - которая может быть инвертирована, чтобы дать вероятность того, что будущее наблюдение X n +1 попадет в некоторый интервал, вычисленный с точки зрения наблюдаемых на данный момент значений. Такая основная величина, зависящая только от наблюдаемых, называется вспомогательной статистикой . [2]Обычный метод построения основных величин состоит в том, чтобы взять разность двух переменных, которые зависят от местоположения, так что местоположение компенсируется, а затем взять соотношение двух переменных, которые зависят от масштаба, так что масштаб компенсируется. Наиболее известной ключевой величиной является t-статистика Стьюдента , которая может быть получена этим методом и используется в дальнейшем.

Известное среднее, известная дисперсия [ править ]

Интервал прогнозирования [ , u ] для будущего наблюдения X в нормальном распределении N ( µ , σ 2 ) с известным средним значением и дисперсией может быть вычислен из

где , то стандартный счет из X , распространяется как стандартное нормальное.

Следовательно

или же

где z - квантиль в стандартном нормальном распределении, для которого:

или эквивалентно;

Интервал прогноза (по оси Y ), заданный по z (квантиль стандартной оценки по оси X ). Ось Y логарифмически сжата (но значения на ней не изменяются).

Интервал прогнозирования условно записывается как:

Например, чтобы рассчитать 95% интервал прогнозирования для нормального распределения со средним значением ( µ ), равным 5, и стандартным отклонением ( σ ), равным 1, тогда z будет приблизительно равно 2. Следовательно, нижний предел интервала прогнозирования составляет приблизительно 5 - (2 · 1) = 3, а верхний предел составляет приблизительно 5 + (2 · 1) = 7, что дает интервал прогнозирования приблизительно от 3 до 7.

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним ( µ ) 0 и дисперсией ( σ 2 ) 1. В дополнение к функции квантиля , интервал прогнозирования для любой стандартной оценки может быть рассчитан как (1 - (1 -  Φ µ) , σ 2 (стандартный балл)) · 2). Например, стандартная оценка x  = 1,96 дает Φ µ , σ 2 (1,96) = 0,9750, что соответствует интервалу прогноза (1 - (1 - 0,9750) · 2) = 0,9500 = 95%.

Оценка параметров [ править ]

Для распределения с неизвестными параметрами прямой подход к прогнозированию состоит в том, чтобы оценить параметры и затем использовать связанную функцию квантилей - например, можно использовать выборочное среднее значение в качестве оценки для μ и выборочную дисперсию s 2 в качестве оценки для σ 2. . Обратите внимание, что здесь есть два естественных выбора для s 2 - деление на дает несмещенную оценку, а деление на n дает оценку максимального правдоподобия , и любой из них может использоваться. Затем можно использовать функцию квантиля с этими оцененными параметрами, чтобы получить интервал прогнозирования.

Этот подход можно использовать, но полученный интервал не будет иметь интерпретации повторной выборки [4] - это не доверительный интервал для прогнозирования.

Для продолжения используйте примерное среднее:

и (несмещенная) дисперсия выборки:

Неизвестное среднее значение, известная дисперсия [ править ]

Учитывая [5] нормальное распределение с неизвестным средним μ, но известной дисперсией 1, выборочное среднее значений наблюдений имеет распределение, в то время как будущее наблюдение имеет распределение. Взяв их разность, мы сокращаем μ и получаем нормальное распределение дисперсии, таким образом

Решение для дает прогнозное распределение, из которого можно вычислить интервалы, как и раньше. Это прогнозирующий доверительный интервал в том смысле, что если использовать диапазон квантилей 100 p %, то при повторных применениях этого вычисления будущее наблюдение будет попадать в прогнозируемый интервал в 100 p % времени.

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование оценочного среднего и известной дисперсии 1, поскольку оно использует дисперсию , следовательно, дает более широкие интервалы. Это необходимо для сохранения свойства желаемого доверительного интервала.

Известное среднее, неизвестная дисперсия [ править ]

И наоборот, при нормальном распределении с известным средним значением 0, но неизвестной дисперсией , выборочная дисперсия наблюдений имеет, с точностью до масштаба, распределение ; точнее: χ n − 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}

в то время как будущее наблюдение имеет распределение. Принятие отношения будущего наблюдения к стандартному отклонению выборки [ требуется пояснение ] отменяет σ, давая t-распределение Стьюдента с n  - 1 степенями свободы :

Решение для дает прогнозное распределение, из которого можно вычислить интервалы, как и раньше.

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование нормального распределения с предполагаемым стандартным отклонением и известным средним значением 0, поскольку оно использует t-распределение вместо нормального распределения, следовательно, дает более широкие интервалы. Это необходимо для сохранения свойства желаемого доверительного интервала.

Неизвестное среднее, неизвестная дисперсия [ править ]

Комбинируя вышеуказанное для нормального распределения с неизвестными как μ, так и σ 2, получаем следующую вспомогательную статистику: [6]

Эта простая комбинация возможна, потому что выборочное среднее и выборочная дисперсия нормального распределения являются независимой статистикой; это верно только для нормального распределения и фактически характеризует нормальное распределение.

Решение для урожайности прогнозируемого распределения

Тогда вероятность попадания в заданный интервал равна:

где Т является 100 (1 -  р / 2) го процентиль из Распределения Стьюдента с п  - 1 степенями свободы. Следовательно, числа

являются конечными точками интервала прогнозирования 100 (1 -  p )% для .

Непараметрические методы [ править ]

Можно вычислить интервалы прогноза без каких-либо предположений о совокупности; формально это непараметрический метод. [7]

Предположим, кто-то случайным образом отбирает выборку из двух наблюдений X 1 и X 2 из совокупности, в которой предполагается, что значения имеют непрерывное распределение вероятностей.

Какова вероятность того, что X 2 > X 1 ?

Ответ составляет ровно 50%, независимо от основной совокупности - вероятность выбора 3, а затем 7 такая же, как и выбор 7, а затем 3, независимо от конкретной вероятности выбора 3 или 7. Таким образом, если выбрать одну выборку точка X 1 , то в 50% случаев следующая точка выборки будет больше, что дает ( X 1 , + ∞) как 50% интервал прогнозирования для X 2 . Точно так же в 50% случаев он будет меньше, что дает еще 50% интервал прогноза для X 2 , а именно (−∞,  X 1). Обратите внимание, что предположение о непрерывном распределении исключает возможность того, что значения могут быть точно равными; это усложнило бы дело.

Точно так же, если есть выборка { X 1 , ...,  X n }, то вероятность того, что следующее наблюдение X n +1 будет наибольшим, равна 1 / ( n  + 1), поскольку все наблюдения имеют равную вероятность того, что они будут максимум. Точно так же вероятность того, что X n +1 будет наименьшим, равна 1 / ( n  + 1). Другое ( п  - 1) / ( п  + 1) времени, Х п + 1 падает между максимумом образца и образца минимум образца { Х 1 , ...,  Xn }. Таким образом, обозначение максимума и минимума выборки буквами M и m дает интервал прогнозирования( n  - 1) / ( n + 1) [ m M ].

Например, если n  = 19, то [ mM ] дает интервал прогноза 18/20 = 90% - 90% времени, 20-е наблюдение попадает между наименьшим и наибольшим наблюдением, которое наблюдалось до сих пор. Аналогично, n  = 39 дает 95% интервал прогнозирования, а n  = 199 дает 99% интервал прогнозирования.

В более общем смысле, если X ( j ) и X ( k ) являются статистикой порядка выборки с j < k и j + k = n + 1, то [ X ( j ) , X ( k ) ] является интервалом прогнозирования для X n +1 с вероятностью охвата ( уровнем значимости ), равной ( n + 1-2 j ) / ( n + 1) .

Это можно визуализировать, нарисовав n точек выборки на линии, которая делит линию на n  +  1 сегмент ( n - 1 сегмент между выборками и 2 интервала, уходящие в бесконечность на обоих концах), и отмечая, что X n +1 имеет равный шанс приземлиться в любой из этих n  + 1 секций. Таким образом, можно также выбрать любые k из этих секций и  задать интервал прогнозирования k / ( n + 1) (или установить, если секции не идут подряд). Например, если n  = 2, то вероятность того, что X 3 окажется между двумя существующими наблюдениями, равна 1/3.

Обратите внимание, что хотя это дает вероятность того, что будущее наблюдение попадет в диапазон, оно не дает никакой оценки относительно того, где в сегменте оно упадет - в частности, если оно выходит за пределы диапазона наблюдаемых значений, оно может быть далеко за пределами диапазон. Смотрите теорию экстремальных ценностей для дальнейшего обсуждения. Формально это относится не только к выборке из совокупности, но и к любой заменяемой последовательности случайных величин, не обязательно независимых или одинаково распределенных .

Сравните с другими интервалами [ править ]

Сравните с доверительными интервалами [ править ]

Следует отметить , что в формуле для предиктивного доверительного интервала без упоминания выполнен из ненаблюдаемых параметров ц и σ из среднего населения и стандартное отклонение - наблюдаемые образцы статистики и выборочного среднего и стандартного отклонения используются, и то , что, по оценкам , является результатом будущие образцы.

Вместо того чтобы использовать статистические выборки в качестве оценок параметров населения и применения доверительных интервалов для этих оценок, один считает «очередной образец» , как сама статистика, и вычисляет его распределение выборки .

В доверительных интервалах параметра оцениваются параметры совокупности; если кто-то желает интерпретировать это как предсказание следующей выборки, он моделирует «следующую выборку» как выборку из этой оцененной совокупности, используя (оценочное) распределение совокупности . Напротив, в предсказательных доверительных интервалах используется выборочное распределение (статистика) выборки из n или n  + 1 наблюдений из такой совокупности, а распределение совокупности напрямую не используется, хотя предположение о его форме (хотя а не значения его параметров) используется при вычислении выборочного распределения.

Контраст с интервалами допуска [ править ]

Приложения [ править ]

Интервалы прогноза обычно используются в качестве определения контрольных диапазонов , таких как контрольные диапазоны для анализов крови, чтобы дать представление о том, является ли анализ крови нормальным или нет. Для этой цели наиболее часто используемым интервалом прогнозирования является 95% интервал прогнозирования, и основанный на нем контрольный диапазон можно назвать стандартным контрольным диапазоном .

Регрессионный анализ [ править ]

Обычно интервалы прогнозирования применяются в регрессионном анализе .

Предположим, что данные моделируются с помощью прямой регрессии:

где - переменная ответа , - объясняющая переменная , ε i - член случайной ошибки, и - параметры.

С учетом оценок и параметров, таких как простая линейная регрессия , прогнозируемое значение отклика y d для данного объясняющего значения x d равно

(точка на линии регрессии), а фактический ответ будет

Точечная оценка называется средний отклик , и является оценкой ожидаемого значения от у г ,

Вместо этого интервал прогнозирования дает интервал, в который ожидается падение y d ; в этом нет необходимости, если известны фактические параметры α и β (вместе с членом ошибки ε i ), но если оценивается по выборке , то можно использовать стандартную ошибку оценок для точки пересечения и наклона ( и ) , а также их корреляция, чтобы вычислить интервал прогнозирования.

В регрессии Фарауэй (2002 , стр. 39) проводит различие между интервалами для предсказаний среднего отклика и для предсказаний наблюдаемого отклика, существенно влияя на включение или не включение члена единства в квадратный корень в приведенных выше факторах расширения; подробнее см. Faraway (2002) .

Байесовская статистика [ править ]

Сеймур Гейссер , сторонник предсказательного вывода, предлагает прогностические приложения байесовской статистики . [8]

В байесовской статистике можно вычислить (байесовские) интервалы предсказания из апостериорной вероятности случайной величины как достоверного интервала . В теоретической работе вероятные интервалы часто рассчитываются не для предсказания будущих событий, а для вывода параметров, то есть вероятных интервалов параметра, а не для результатов самой переменной. Однако, особенно когда приложения связаны с возможными экстремальными значениями в еще не наблюдаемых случаях, достоверные интервалы для таких значений могут иметь практическое значение.

См. Также [ править ]

  • Экстраполяция
  • Апостериорная вероятность
  • Прогноз
  • Группа предсказаний
  • Сеймур Гейссер
  • Проверка статистической модели
  • Оценка тренда

Примечания [ править ]

  1. ^ Гейссер (1993 , стр.  6 ): Глава 2: небайесовские подходы к прогнозированию
  2. ^ Geisser (1993 , стр.  7 )
  3. ^ a b c d Таблица A2 в Sterne & Kirkwood (2003 , стр. 472)
  4. ^ Geisser (1993 , стр.  8-9 )
  5. ^ Geisser (1993 , стр.  7 )
  6. ^ Geisser (1993 , пример 2.2, стр. 9-10 )
  7. ^ " Интервалы прогнозов ", Статистика @ SUNY Oswego
  8. ^ Geisser (1993)

Ссылки [ править ]

  • Фарауэй, Джулиан Дж. (2002), Практическая регрессия и Anova с использованием R (PDF)
  • Гейссер, Сеймур (1993), Прогнозирующий вывод , CRC Press
  • Стерн, Джонатан; Кирквуд, Бетти Р. (2003), Essential Medical Statistics , Blackwell Science , ISBN 0-86542-871-9

Дальнейшее чтение [ править ]

  • Чатфилд, К. (1993). «Расчет интервальных прогнозов». Журнал деловой и экономической статистики . 11 (2): 121–135. DOI : 10.2307 / 1391361 .
  • Лоулесс, JF; Фредетт, М. (2005). «Интервалы предсказания Frequentist и предсказывающие распределения». Биометрика . 92 (3): 529–542. DOI : 10.1093 / Biomet / 92.3.529 .
  • Meade, N .; Ислам, Т. (1995). «Интервалы прогнозирования для прогнозов кривой роста». Журнал прогнозирования . 14 (5): 413–430. DOI : 10.1002 / for.3980140502 .
  • ISO 16269-8 Стандартная интерпретация данных, Часть 8, Определение интервалов прогнозирования