Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , то функция дисперсии является гладкой функцией , которая изображает дисперсию в виде случайной величины в зависимости от его среднего . Функция дисперсии является мерой гетероскедастичности и играет большую роль во многих параметрах статистического моделирования. Это является основным ингредиентом в обобщенной линейной модели структуры и инструмент , используемый в непараметрической регрессии , [1] полупараметрическая регрессии [1] и функциональный анализ данных . [2]В параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают взаимосвязь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии является гладкой функцией .

Интуиция [ править ]

В настройке регрессионной модели цель состоит в том, чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы как можно лучше описать эту связь. Основное предположение линейной регрессии - постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные отклика имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная предиктора вместе являются нормальными, см. Нормальное распределение . Как мы увидим позже, функция дисперсии в настройке Normal является постоянной, однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) при отсутствии совместной нормальности.

Когда существует вероятность того, что ответ соответствует распределению, которое является членом экспоненциального семейства, обобщенная линейная модель может быть более подходящей для использования, и, более того, когда мы не хотим навязывать параметрическую модель нашим данным, непараметрическая может быть полезен регрессионный подход. Важность возможности моделировать дисперсию как функцию среднего значения заключается в улучшенном выводе (в параметрической настройке) и оценке функции регрессии в целом для любой настройки.

Функции дисперсии играют очень важную роль в оценке и выводе параметров. В общем, оценка максимального правдоподобия требует определения функции правдоподобия. Это требование подразумевает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако для определения квази-правдоподобия нужно только указать взаимосвязь между средним значением и дисперсией наблюдений, чтобы затем иметь возможность использовать функцию квази-правдоподобия для оценки. [3] Оценка квази-правдоподобия особенно полезна при чрезмерном разбросе . Чрезмерная дисперсия возникает, когда данные более изменчивы, чем следовало бы ожидать в противном случае в соответствии с предполагаемым распределением данных.

Таким образом, для обеспечения эффективного вывода параметров регрессии и функции регрессии необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют важную роль в оценке и выводе регрессии.

Типы [ править ]

Функция дисперсии и ее приложения используются во многих областях статистического анализа. Очень важно использовать эту функцию в рамках обобщенных линейных моделей и непараметрической регрессии .

Обобщенная линейная модель [ править ]

Если указан член экспоненциального семейства , функция дисперсии может быть легко выведена. [4] : 29 Общая форма функции дисперсии представлена ​​в контексте экспоненциального семейства, а также конкретные формы для нормального, Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии в оценке максимального правдоподобия и оценки квази правдоподобия.

Вывод [ править ]

Обобщенная линейная модель (GLM) , является обобщением обычного регрессионного анализа , который простирается до любого члена экспоненциального семейства . Это особенно полезно, когда переменная ответа является категориальной, двоичной или имеет ограничение (например, только положительные ответы имеют смысл). Краткое описание компонентов GLM приведено на этой странице, но для получения дополнительных сведений и информации см. Страницу, посвященную обобщенным линейным моделям .

GLM состоит из трех основных компонентов:

1. Случайная компонента: распределение y из экспоненциального семейства,
2. Линейный предсказатель:
3. Функция ссылки:

Сначала важно вывести пару ключевых свойств экспоненциального семейства.

Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида

с логической вероятностью,

Здесь - канонический параметр и интересующий параметр, а также мешающий параметр, который играет роль в дисперсии. Мы используем тождества Бартлетта, чтобы получить общее выражение для функции дисперсии . Первый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. Правило интеграла Лейбница ) для функции плотности, зависящей от ,

Эти тождества приводят к простым вычислениям ожидаемого значения и дисперсии любой случайной величины в экспоненциальном семействе .

Ожидаемое значение Y : взяв первую производную по логарифму плотности в форме экспоненциального семейства, описанной выше, мы имеем

Затем, взяв ожидаемое значение и установив его равным нулю, мы получим

Дисперсия Y: для вычисления дисперсии мы используем второе тождество Бартлетта,

Теперь у нас есть связь между и , а именно

и , что позволяет установить связь между и дисперсией,

Обратите внимание, что, поскольку , then обратимо. Мы выводим функцию дисперсии для нескольких распространенных распределений.

Пример - нормальный [ править ]

Нормальное распределение является частным случаем , когда функция дисперсии является константой. Пусть тогда мы представим функцию плотности y в форме экспоненциального семейства, описанного выше:

где

Чтобы вычислить функцию дисперсии , сначала выразим как функцию от . Затем преобразуем в функцию от

Следовательно, функция дисперсии постоянна.

Пример - Бернулли [ править ]

Пусть тогда мы выразим плотность распределения Бернулли в форме экспоненциального семейства:

logit (p), что дает нам expit
и
истекать

Это дает нам

Пример - Пуассон [ править ]

Пусть тогда мы выразим плотность распределения Пуассона в экспоненциальной форме семейства:

что дает нам
и

Это дает нам

Здесь мы видим центральное свойство пуассоновских данных - дисперсия равна среднему значению.

Пример - Гамма [ править ]

Гамма - распределение и функция плотности могут быть выражены в различных параметризациях. Воспользуемся формой гаммы с параметрами

Тогда в форме экспоненциальной семьи мы имеем

И у нас есть

Приложение - взвешенный метод наименьших квадратов [ править ]

Очень важным применением функции дисперсии является ее использование для оценки параметров и вывода, когда переменная отклика имеет требуемую форму экспоненциального семейства, а также в некоторых случаях, когда это не так (что мы обсудим в квази-правдоподобии ). Метод взвешенных наименьших квадратов (WLS) - это частный случай обобщенного метода наименьших квадратов. Каждый член критерия WLS включает вес, который определяет влияние каждого наблюдения на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми ответами и функциональной частью модели.

Хотя WLS предполагает независимость наблюдений, он не предполагает равной дисперсии и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. Теорема Гаусса – Маркова и Эйткен демонстрируют, что лучшая линейная несмещенная оценка (BLUE), несмещенная оценка с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.

В рамках GLM наша цель - оценить параметры , где . Поэтому мы хотели бы минимизировать, и если мы определим весовую матрицу W как

где определены в предыдущем разделе, это позволяет проводить оценку параметров методом наименьших квадратов (IRLS) с повторным взвешиванием. См. Раздел о методах наименьших квадратов с повторным взвешиванием для получения дополнительной информации.

Также важно отметить, что когда весовая матрица имеет форму, описанную здесь, минимизация выражения также минимизирует расстояние Пирсона. См. Раздел Корреляция расстояний для получения дополнительной информации.

Матрица W выпадает сразу из оценочных уравнений для оценки . Оценка максимального правдоподобия для каждого параметра , требует

, где - логарифм правдоподобия.

Глядя на одно наблюдение, мы имеем

Это дает нам

и отмечая, что
у нас есть это

Матрица Гессе определяется аналогичным образом и может быть показана как

Заметив, что Fisher Information (FI),

, позволяет асимптотически аппроксимировать
, и, следовательно, может быть выполнен вывод.

Применение - квазивероятность [ править ]

Поскольку большинство характеристик GLM зависят только от первых двух моментов распределения, а не от всего распределения, квази-правдоподобие можно получить, просто указав функцию связи и функцию дисперсии. То есть нам нужно указать

- Функция ссылки:
- Функция отклонения:

При заданной функции дисперсии и связи функции мы можем разработать, в качестве альтернативы логарифмически функции правдоподобия , в функции партитуры , и информации Фишера , в квази-вероятности , в квази-счет , и квази-информации . Это позволяет сделать полный вывод о .

Квази-правдоподобие (QL)

Хотя называют квази-вероятность , что это на самом деле квази- журнал -likelihood. QL для одного наблюдения составляет

Следовательно, QL для всех n наблюдений будет

Из QL у нас есть квази-оценка

Квази-оценка (QS)

Напомним функцию оценка , U , для данных с лог-правдоподобия является

Точно так же мы получаем квази-оценку:

Отметив, что для одного наблюдения оценка

Первые два уравнения Бартлетта удовлетворяются для квази-оценки, а именно

и

Кроме того, квази-оценка линейна по y .

В конечном итоге цель - найти информацию об интересующих параметрах . И QS, и QL на самом деле являются функциями . Напомним, и , следовательно,

Квазиинформация (QI)

Квази-информация , аналогична информации Фишера ,

QL, QS, QI как функции

QL, QS и QI - все представляют собой строительные блоки для вывода об интересующих параметрах, и поэтому важно выразить QL, QS и QI как функции .

Напоминая еще раз, что мы выводим выражения для QL, QS и QI, параметризованные ниже .

Квазивероятность в ,

QS как функция , следовательно ,

Где,

Квазиинформационная матрица в :

Получение функции оценки и информации о параметрах позволяет оценивать и делать выводы аналогично тому, как описано в разделе Метод наименьших квадратов с взвешиванием по приложению .

Непараметрический регрессионный анализ [ править ]

График разброса лет в высшей лиге против зарплаты (x 1000 долларов). Линия - это тренд в среднем. График показывает, что дисперсия непостоянна.
Сглаженная условная дисперсия против сглаженного условного среднего. Квадратичная форма указывает на гамма-распределение. Функция дисперсии гаммы V ( ) =

Непараметрическая оценка функции дисперсии и ее важность широко обсуждалась в литературе [5] [6] [7] В непараметрическом регрессионном анализе цель состоит в том, чтобы выразить ожидаемое значение вашей переменной ответа ( y ) в зависимости от ваших предикторов ( X ). То есть мы стремимся оценить функцию среднего , не принимая параметрическую форму. Есть много форм непараметрических методов сглаживания, помогающих оценить функцию . Интересный подход - также посмотреть на непараметрическую функцию дисперсии ,. Непараметрическая функция дисперсии позволяет взглянуть на функцию среднего значения, поскольку она связана с функцией дисперсии, и замечать закономерности в данных.

Пример подробно описан на рисунках справа. Целью проекта было определить (среди прочего), влияет ли предсказатель, количество лет в высшей лиге (бейсбол) на реакцию, зарплату , сделанный игроком. Начальная диаграмма разброса данных указывает на гетероскедастичность данных, поскольку дисперсия не является постоянной на каждом уровне предсказателя. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график и посмотреть, указывает ли форма на какое-либо известное распределение. Можно оценить и с помощью общего сглаживанияметод. График непараметрической сглаженной функции дисперсии может дать исследователю представление о взаимосвязи между дисперсией и средним значением. Изображение справа указывает на квадратичную зависимость между средним значением и дисперсией. Как мы видели выше, функция гамма-дисперсии в среднем квадратична.

Заметки [ править ]

  1. ^ a b Мюллер и Чжао (1995). «О модели полупараметрической функции дисперсии и тесте на гетероскедастичность» . Летопись статистики . 23 (3): 946–967. DOI : 10.1214 / AOS / 1176324630 . JSTOR  2242430 .
  2. ^ Мюллер, Штадтмюллер и Яо (2006). «Функциональные вариативные процессы». Журнал Американской статистической ассоциации . 101 (475): 1007–1018. DOI : 10.1198 / 016214506000000186 . JSTOR 27590778 . S2CID 13712496 .  
  3. ^ Wedderburn, РВМ (1974). «Функции квази-правдоподобия, обобщенные линейные модели и метод Гаусса – Ньютона». Биометрика . 61 (3): 439–447. DOI : 10.1093 / Biomet / 61.3.439 . JSTOR 2334725 . 
  4. ^ МакКаллаг, Питер; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN 0-412-31760-5.
  5. ^ Мюллер и ШтадтМюллер (1987). «Оценка гетероскедастичности в регрессионном анализе» . Летопись статистики . 15 (2): 610–625. DOI : 10.1214 / AOS / 1176350364 . JSTOR 2241329 . 
  6. ^ Цай и Ван, Т .; Ван, Ли (2008). «Адаптивная оценка функции дисперсии в гетероскедастической непараметрической регрессии». Летопись статистики . 36 (5): 2025–2054. arXiv : 0810.4780 . Bibcode : 2008arXiv0810.4780C . DOI : 10.1214 / 07-AOS509 . JSTOR 2546470 . S2CID 9184727 .  
  7. ^ Райс и Сильверман (1991). «Непараметрическая оценка структуры среднего значения и ковариации, когда данные являются кривыми». Журнал Королевского статистического общества . 53 (1): 233–243. JSTOR 2345738 . 

Ссылки [ править ]

  • Маккаллах, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN 0-412-31760-5.
  • Хенрик Мэдсен и Пол Тайрегод (2011). Введение в общие и обобщенные линейные модели . Чепмен и Холл / CRC. ISBN 978-1-4200-9155-7.

Внешние ссылки [ править ]

  • СМИ, связанные с функцией дисперсии на Викискладе?