Пробит модель

Регрессивный анализ
Часть серии по

Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общий Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовская многомерная
Фон
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброта подгонки Студентизированный остаток Теорема Гаусса – Маркова
Математический портал
v т е

В статистике , модель пробит представляет собой тип регрессии , где зависимой переменной может принимать только два значения, например , в браке или не замужем. Слово является контаминация , исходя из проб способности + ип так ли . ^[1] Цель модели - оценить вероятность того, что наблюдение с определенными характеристиками попадет в определенную категорию; более того, классификация наблюдений на основе их предсказанных вероятностей является разновидностью модели бинарной классификации .

Пробит модель популярной спецификации для модели бинарного отклика . Таким образом, он решает тот же набор проблем, что и логистическая регрессия с использованием аналогичных методов. При рассмотрении в рамках обобщенной линейной модели пробит-модель использует функцию пробит- ссылки . ^[2] Это чаще всего оценивается с использованием процедуры максимального правдоподобия ^[3], такая оценка называется пробит-регрессией .

Концептуальная основа [ править ]

Предположим, что переменная ответа Y является двоичной , то есть она может иметь только два возможных результата, которые мы обозначим как 1 и 0. Например, Y может представлять наличие / отсутствие определенного условия, успех / отказ какого-либо устройства, ответ да / нет на обследовании и т.д. Мы также имеем вектор регрессоров X , которые , как предполагается, влияет на результат Y . В частности, мы предполагаем, что модель имеет вид

{\ Displaystyle \ Pr (Y = 1 \ середина X) = \ Phi (X ^ {T} \ beta),}

где Pr обозначает вероятность , а Φ - кумулятивная функция распределения ( CDF ) стандартного нормального распределения . Параметры β обычно оцениваются методом максимального правдоподобия .

Пробит-модель можно мотивировать как модель со скрытыми переменными . Предположим, что существует вспомогательная случайная величина

{\ Displaystyle Y ^ {\ ast} = X ^ {T} \ beta + \ varepsilon,}

где ε ~ N (0, 1). Тогда Y можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Y=\left.{\begin{cases}1&Y^{*}>0\\0&{\text{otherwise}}\end{cases}}\right\}=\left.{\begin{cases}1&X^{T}\beta +\varepsilon >0\\0&{\text{otherwise}}\end{cases}}\right\}

Использование стандартного нормального распределения не вызывает потери общности по сравнению с использованием нормального распределения с произвольным средним и стандартным отклонением, потому что добавление фиксированной суммы к среднему может быть компенсировано путем вычитания той же суммы из точки пересечения и умножения стандартное отклонение на фиксированную величину можно компенсировать путем умножения весов на ту же величину.

Чтобы убедиться, что эти две модели эквивалентны, обратите внимание, что

{\begin{aligned}&\Pr(Y=1\mid X)\\={}&\Pr(Y^{\ast }>0)\\={}&\Pr(X^{T}\beta +\varepsilon >0)\\={}&\Pr(\varepsilon >-X^{T}\beta )\\={}&\Pr(\varepsilon <X^{T}\beta )&{\text{by symmetry of the normal distribution}}\\={}&\Phi (X^{T}\beta )\end{aligned}}

Оценка модели [ править ]

Оценка максимального правдоподобия [ править ]

Предположим, что набор данных содержит n независимых статистических единиц, соответствующих модели, приведенной выше. $\{y_{i},x_{i}\}_{i=1}^{n}$

Для одиночного наблюдения, зависящего от вектора входных данных этого наблюдения, мы имеем:

Pr(y_{i}=1|x_{i})=\Phi (x_{i}'\beta )

^{[ требуется разъяснение ]}

Pr(y_{i}=0|x_{i})=1-\Phi (x_{i}'\beta )

где - вектор входов, а - вектор коэффициентов. $x_{i}$ $K\times 1$ $\beta$ $K\times 1$

Тогда вероятность единичного наблюдения равна $(y_{i},x_{i})$

{\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta )^{y_{i}}[1-\Phi (x_{i}'\beta )]^{(1-y_{i})}

Фактически, если , то , а если , то . $y_{i}=1$ ${\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta )$ $y_{i}=0$ ${\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}'\beta )$

Поскольку наблюдения независимы и одинаково распределены, то вероятность всей выборки или совместное правдоподобие будет равно произведению правдоподобий отдельных наблюдений:

{\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}'\beta )^{y_{i}}[1-\Phi (x_{i}'\beta )]^{(1-y_{i})}\right)

Таким образом, совместная функция логарифмического правдоподобия

\ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}'\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}'\beta ){\big )}{\bigg )}

Оценщик, который максимизирует эту функцию, будет согласованным , асимптотически нормальным и эффективным при условии, что E [ XX ' ] существует и не является сингулярным. Можно показать, что эта функция логарифмического правдоподобия глобально вогнута по β , и поэтому стандартные численные алгоритмы оптимизации быстро сходятся к единственному максимуму. ${\hat {\beta }}$

Асимптотическое распределение для определяется выражением ${\hat {\beta }}$

{\sqrt {n}}({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),

куда

\Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X'\beta )}{\Phi (X'\beta )(1-\Phi (X'\beta ))}}XX'{\bigg ]},\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}}x_{i}x'_{i},

и - функция плотности вероятности ( PDF ) стандартного нормального распределения. $\varphi =\Phi '$

Также доступны полупараметрические и непараметрические методы максимального правдоподобия для пробит-типа и других связанных моделей. ^[4]

Метод минимального хи-квадрат Берксона [ править ]

Этот метод может применяться только тогда, когда имеется много наблюдений переменной ответа, имеющей одинаковое значение вектора регрессоров (такую ситуацию можно назвать «много наблюдений на ячейку»). Более конкретно модель можно сформулировать следующим образом. $y_{i}$ $x_{i}$

Предположим, что среди n наблюдений есть только T различных значений регрессоров, которые можно обозначить как . Позвольте быть количество наблюдений с и количество таких наблюдений с . Мы предполагаем, что действительно существует «много» наблюдений на каждую «ячейку»: для каждой . $\{y_{i},x_{i}\}_{i=1}^{n}$ $\{x_{(1)},\ldots ,x_{(T)}\}$ $n_{t}$ $x_{i}=x_{(t)},$ $r_{t}$ $y_{i}=1$ $t,\lim _{n\rightarrow \infty }n_{t}/n=c_{t}>0$

Обозначить

{\hat {p}}_{t}=r_{t}/n_{t}

{\hat {\sigma }}_{t}^{2}={\frac {1}{n_{t}}}{\frac {{\hat {p}}_{t}(1-{\hat {p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({\hat {p}}_{t}){\big )}}}

Тогда оценка минимального хи-квадрат Берксона является обобщенной оценкой наименьших квадратов в регрессии включения с весами : $\Phi ^{-1}({\hat {p}}_{t})$ $x_{(t)}$ ${\hat {\sigma }}_{t}^{-2}$

{\hat {\beta }}={\Bigg (}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}x'_{(t)}{\Bigg )}^{-1}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}\Phi ^{-1}({\hat {p}}_{t})

Можно показать, что эта оценка непротиворечива (при n → ∞ и фиксированном T ), асимптотически нормальна и эффективна. ^{[ необходимая цитата ]} Его преимуществом является наличие формулы для оценки в замкнутой форме. Однако, это имеет смысл только для проведения такого анализа , когда отдельные наблюдения не доступны, только их агрегированных отсчетов , и (например , при анализе поведения избирателей). $r_{t}$ $n_{t}$ $x_{(t)}$

Сэмплирование Гиббса [ править ]

Выборка Гиббса пробит-модели возможна, потому что в регрессионных моделях обычно используются нормальные априорные распределения по весам, и это распределение сопряжено с нормальным распределением ошибок (и, следовательно, скрытых переменных Y ^* ). Модель можно описать как

{\begin{aligned}{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {b} _{0},\mathbf {B} _{0})\\[3pt]y_{i}^{\ast }\mid \mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} '_{i}{\boldsymbol {\beta }},1)\\[3pt]y_{i}&={\begin{cases}1&{\text{if }}y_{i}^{\ast }>0\\0&{\text{otherwise}}\end{cases}}\end{aligned}}

Исходя из этого, мы можем определить все необходимые условные плотности:

{\begin{aligned}\mathbf {B} &=(\mathbf {B} _{0}^{-1}+\mathbf {X} '\mathbf {X} )^{-1}\\[3pt]{\boldsymbol {\beta }}\mid \mathbf {y} ^{\ast }&\sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} '\mathbf {y} ^{\ast }),\mathbf {B} )\\[3pt]y_{i}^{\ast }\mid y_{i}=0,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} '_{i}{\boldsymbol {\beta }},1)[y_{i}^{\ast }<0]\\[3pt]y_{i}^{\ast }\mid y_{i}=1,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} '_{i}{\boldsymbol {\beta }},1)[y_{i}^{\ast }\geq 0]\end{aligned}}

Результат для β приведен в статье о байесовской линейной регрессии , хотя и в других обозначениях.

Единственная хитрость заключается в последних двух уравнениях. Обозначение - скобка Айверсона , иногда пишется или аналогично. Это указывает на то, что распределение должно быть усечено в пределах заданного диапазона и соответствующим образом масштабировано. В этом частном случае возникает усеченное нормальное распределение . Выборка из этого распределения зависит от степени усечения. Если остается большая часть исходной массы, отбор пробы может быть легко выполнен с помощью отбраковочного отбора проб. $[y_{i}^{\ast }<0]$ ${\mathcal {I}}(y_{i}^{\ast }<0)$ - просто выберите число из необрезанного распределения и отклоните его, если оно выходит за рамки ограничения, наложенного усечением. Однако, если отбор проб только из небольшой части исходной массы (например, если отбор от одного из хвостов нормального распределения - например, около 3 или более, и желательна отрицательная выборка), то это будет неэффективно и возникает необходимость прибегнуть к другим алгоритмам выборки. Общая выборка из усеченной нормали может быть достигнута с использованием приближений к нормальной функции CDF и пробит-функции , а в R есть функция для генерации выборок из усеченной нормали. $\mathbf {x} '_{i}{\boldsymbol {\beta }}$ rtnorm()

Оценка модели [ править ]

Пригодность оцениваемой бинарной модели может быть оценена путем подсчета количества истинных наблюдений, равного 1, и числа, равного нулю, для которых модель назначает правильную предсказанную классификацию, обрабатывая любую оценочную вероятность выше 1/2 (или, ниже 1 /). 2), как присвоение прогноза 1 (или 0). См. Подробности в разделе « Логистическая регрессия» § Пригодность модели .

Производительность при неправильной спецификации [ править ]

Этот раздел может потребовать очистки для соответствия стандартам качества Википедии . Конкретная проблема заключается в следующем: необходимо принять обозначения остальной части статьи, исправить грамматику и сделать прозу более понятной. Пожалуйста, помогите улучшить этот раздел, если можете. ( Июнь 2019 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

Рассмотрим формулировку модели пробит-модели со скрытыми переменными. Когда разница в условии не является постоянной , но в зависимости от , то гетероскедастичности возникает проблема. Например, предположим, что и где - непрерывная положительная независимая переменная. При гетероскедастичности пробит-оценка обычно непоследовательна, и большинство тестов на коэффициенты недействительны. Что еще более важно, оценка тоже становится непоследовательной. Чтобы справиться с этой проблемой, исходная модель должна быть преобразована в гомоскедастичную. Например, в том же примере, можно переписать как , где . Следовательно, $\varepsilon$ $x$ $x$ $y^{*}=\beta _{0}+B_{1}x_{1}+\varepsilon$ $\varepsilon \mid x\sim N(0,x_{1}^{2})$ $x_{1}$ $\beta$ $P(y=1\mid x)$ $1[\beta _{0}+\beta _{1}x_{1}+\varepsilon >0]$ $1[\beta _{0}/x_{1}+\beta _{1}+\varepsilon /x_{1}>0]$ $\varepsilon /x_{1}\mid x\sim N(0,1)$ $P(y=1\mid x)=\Phi (\beta _{1}+\beta _{0}/x_{1})$ и запуск пробита генерирует непротиворечивую оценку условной вероятности $(1,1/x_{1})$ $P(y=1\mid x).$

Когда предположение о нормальном распределении не выполняется, возникает проблема неправильного определения функциональной формы : если модель все еще оценивается как пробит-модель, оценки коэффициентов несовместимы. Например, если в истинной модели следует логистическое распределение , но модель оценивается пробит, оценки обычно будут меньше истинного значения. Тем не менее, несоответствие оценок коэффициента практически не имеет значения , поскольку оценки для частичных эффектов , , будут близки к оценкам , приведенным в истинной модели логит. ^[5] $\varepsilon$ $\beta$ $\varepsilon$ $\partial P(y=1\mid x)/\partial x_{i'}$

Чтобы избежать проблемы неправильной спецификации распределения, можно принять общее предположение о распределении для члена ошибки, так что в модель может быть включено множество различных типов распределения. Стоимость - более тяжелые вычисления и меньшая точность увеличения количества параметров. ^[6] В большинстве случаев на практике, когда форма распределения указана неправильно, оценки коэффициентов несовместимы, но оценки условной вероятности и частичных эффектов все еще очень хороши. ^{[ необходима цитата ]}

Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают предположений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит). ^[4]

История [ править ]

Пробит-модель обычно приписывают Честеру Блиссу , который ввел термин «пробит» в 1934 году ^[7], и Джону Гэддуму (1933), который систематизировал более ранние работы. ^[8] Тем не менее, основные модели даты к закону Вебера-Фехнера по Фехнер , опубликованной в Фехнер (1860) , и не раз заново до 1930; см. Finney (1971 , глава 3.6) и Aitchison & Brown (1957 , глава 1.2) . ^[8]

Быстрый метод вычисления оценок максимального правдоподобия для пробит-модели был предложен Рональдом Фишером в качестве приложения к работе Блисс в 1935 году ^[9].

См. Также [ править ]

Обобщенная линейная модель
Ограниченная зависимая переменная
Логит модель
Полиномиальный пробит
Многомерные пробит- модели
Заказанный пробит и Заказанная модель логита
Разделение (статистика)
Модель Tobit

Ссылки [ править ]

^ Оксфордский словарь английского языка , 3-е изд. sv probit (статья от июня 2007 г.): Bliss, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. DOI : 10.1126 / science.79.2037.38 . PMID 17813446 . Эти произвольные единицы вероятности были названы «пробитами».
^ Агрести, Алан (2015). Основы линейных и обобщенных линейных моделей . Нью-Йорк: Вили. С. 183–186. ISBN 978-1-118-73003-4.
^ Олдрич, Джон Х .; Нельсон, Форрест Д .; Адлер, Э. Скотт (1984). Линейная вероятность, логит-модели и пробит-модели . Мудрец. С. 48–65. ISBN 0-8039-2133-0.
^ a b Park, Byeong U .; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. DOI : 10.1016 / j.csda.2016.10.024 .
^ Грин, WH (2003), Эконометрический анализ, Prentice Hall, Upper Saddle River, NJ.
^ Для получения дополнительной информации см .: Каппе, О., Мулин, Э. и Райден, Т. (2005): «Вывод в скрытых марковских моделях», Springer-Verlag New York, глава 2.
^ Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. DOI : 10.1126 / science.79.2037.38 . PMID 17813446 .
^ a b Крамер 2002 , стр. 7.
Перейти ↑ Fisher, RA (1935). «Случай нулевых выживших в пробит-анализах» . Летопись прикладной биологии . 22 : 164–165. DOI : 10.1111 / j.1744-7348.1935.tb07713.x . Архивировано из оригинала на 2014-04-30.

Крамер, JS (2002). Истоки логистической регрессии (PDF) (Технический отчет). 119 . Институт Тинбергена. С. 167–178. DOI : 10.2139 / ssrn.360300 .
- Опубликовано в: Cramer, JS (2004). «Ранние истоки логит-модели». Исследования по истории и философии науки Часть C: Исследования по истории и философии биологических и биомедицинских наук . 35 (4): 613–626. DOI : 10.1016 / j.shpsc.2004.09.003 .
Финни, ди-джей (1971). Пробит-анализ .

Дальнейшее чтение [ править ]

Альберт, JH; Чиб, С. (1993). «Байесовский анализ двоичных и полихотомических данных ответа». Журнал Американской статистической ассоциации . 88 (422): 669–679. DOI : 10.1080 / 01621459.1993.10476321 . JSTOR 2290350 .
Амемия, Такеши (1985). «Модели качественного ответа» . Продвинутая эконометрика . Оксфорд: Бэзил Блэквелл. С. 267–359. ISBN 0-631-13345-3.
Гурье, Кристиан (2000). «Простая дихотомия» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. С. 6–37. ISBN 0-521-58985-1.
Ляо, Тим Футинг (1994). Интерпретация вероятностных моделей: логит, пробит и другие обобщенные линейные модели . Мудрец. ISBN 0-8039-4999-5.
Маккаллах, Питер ; Джон Нелдер (1989). Обобщенные линейные модели . Лондон: Чепмен и Холл. ISBN 0-412-31760-5.

Внешние ссылки [ править ]

СМИ, связанные с моделью Пробит на Викискладе?
Лекция по эконометрике (тема: пробит-модель) на YouTube от Марка Тома

[1] Оксфордский словарь английского языка , 3-е изд. sv probit (статья от июня 2007 г.): Bliss, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. DOI : 10.1126 / science.79.2037.38 . PMID 17813446 . Эти произвольные единицы вероятности были названы «пробитами».

[2] Агрести, Алан (2015). Основы линейных и обобщенных линейных моделей . Нью-Йорк: Вили. С. 183–186. ISBN 978-1-118-73003-4.

[3] Олдрич, Джон Х .; Нельсон, Форрест Д .; Адлер, Э. Скотт (1984). Линейная вероятность, логит-модели и пробит-модели . Мудрец. С. 48–65. ISBN 0-8039-2133-0.

[sciencedirect.com-4] Park, Byeong U .; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. DOI : 10.1016 / j.csda.2016.10.024 .

[5] Грин, WH (2003), Эконометрический анализ, Prentice Hall, Upper Saddle River, NJ.

[6] Для получения дополнительной информации см .: Каппе, О., Мулин, Э. и Райден, Т. (2005): «Вывод в скрытых марковских моделях», Springer-Verlag New York, глава 2.

[7] Блисс, CI (1934). «Метод пробитов». Наука . 79 (2037): 38–39. DOI : 10.1126 / science.79.2037.38 . PMID 17813446 .

[FOOTNOTECramer20027-8] Крамер 2002 , стр. 7.

[9] Перейти ↑ Fisher, RA (1935). «Случай нулевых выживших в пробит-анализах» . Летопись прикладной биологии . 22 : 164–165. DOI : 10.1111 / j.1744-7348.1935.tb07713.x . Архивировано из оригинала на 2014-04-30.