Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , бином регрессии является регрессионный анализ метод , в котором реакция (часто упоминается как Y ) имеет биномиальное распределение : это число успехов в серии независимых испытаний Бернулли , где каждое испытание имеет вероятность успеха . [1] В биномиальной регрессии вероятность успеха связана с объясняющими переменными : соответствующая концепция в обычной регрессии состоит в том, чтобы связать среднее значение ненаблюдаемого ответа с объясняющими переменными.

Биномиальная регрессия тесно связана с бинарной регрессией : если ответ представляет собой двоичную переменную (два возможных результата), то его можно рассматривать как биномиальное распределение с испытанием, рассматривая один из результатов как «успех», а другой как «неудачу». , подсчет результатов как 1 или 0: за счет успеха 1 успех из 1 испытания, а за неудачу - как 0 успехов из 1 испытания. Модели биномиальной регрессии по сути такие же, как модели бинарного выбора , один из типов модели дискретного выбора . Основное различие заключается в теоретической мотивации.

В машинном обучении биномиальная регрессия считается частным случаем вероятностной классификации и, следовательно, обобщением бинарной классификации .

Пример приложения [ править ]

В одном опубликованном примере применения биномиальной регрессии [2] детали были следующими. Наблюдаемая переменная результата заключалась в том, произошла ли ошибка в производственном процессе. Существовали две объясняющие переменные: первая представляла собой простой фактор из двух случаев, показывающий, использовалась ли модифицированная версия процесса, а вторая - обычная количественная переменная, измеряющая чистоту материала, поставляемого для процесса.

Модель дискретного выбора [ править ]

Модели дискретного выбора мотивируются теорией полезности, чтобы обрабатывать различные типы коррелированных и некоррелированных выборов, в то время как модели биномиальной регрессии обычно описываются в терминах обобщенной линейной модели , попытки обобщить различные типы моделей линейной регрессии . В результате модели дискретного выбора обычно описываются в основном скрытой переменной, указывающей «полезность» выбора, и случайностью, вводимой через переменную ошибки, распределяемую в соответствии с определенным распределением вероятностей.. Обратите внимание, что сама скрытая переменная не наблюдается, а только фактический выбор, который предполагается, что был сделан, если чистая полезность была больше нуля. Однако в моделях бинарной регрессии не используются как скрытая, так и ошибочная переменная и предполагается, что выбор сама по себе является случайной величиной с функцией связи, которая преобразует ожидаемое значение переменной выбора в значение, которое затем предсказывается линейным предсказателем. Можно показать, что эти две функции эквивалентны, по крайней мере, в случае моделей двоичного выбора: функция связи соответствует функции квантиля распределения переменной ошибки, а функция обратной связи - кумулятивной функции распределения.(CDF) переменной ошибки. Скрытая переменная имеет эквивалент, если представить себе создание равномерно распределенного числа от 0 до 1, вычитание из него среднего (в форме линейного предиктора, преобразованного функцией обратной связи) и инвертирование знака. Затем у каждого есть число, вероятность которого больше 0 равна вероятности успеха в переменной выбора, и его можно рассматривать как скрытую переменную, указывающую, был ли выбран 0 или 1.

Спецификация модели [ править ]

Предполагается, что результаты биномиально распределены . [1] Их часто используют как обобщенную линейную модель, где предсказанные значения μ представляют собой вероятности того, что любое отдельное событие приведет к успеху. Вероятность предсказаний затем дается

где 1 A - индикаторная функция, которая принимает значение 1, когда происходит событие A , и ноль в противном случае: в этой формулировке для любого данного наблюдения y i только один из двух членов внутри продукта вносит вклад в зависимости от того, является ли y i = 0 или 1. Функция правдоподобия более полно определяется путем определения формальных параметров μ i как параметризованных функций независимых переменных: это определяет вероятность в терминах значительно уменьшенного числа параметров. Подгонка модели обычно достигается с помощью метода максимального правдоподобия.для определения этих параметров. На практике использование формулировки в качестве обобщенной линейной модели позволяет воспользоваться преимуществами определенных алгоритмических идей, которые применимы ко всему классу более общих моделей, но не применимы ко всем задачам максимального правдоподобия.

Модели, используемые в биномиальной регрессии, часто могут быть расширены до полиномиальных данных.

Существует множество методов получения значений μ систематическими способами, которые позволяют интерпретировать модель; они обсуждаются ниже.

Функции связи [ править ]

Существует требование, чтобы моделирование, связывающее вероятности μ с независимыми переменными, имело форму, которая дает только значения в диапазоне от 0 до 1. Многие модели могут быть помещены в форму.

Здесь η - это промежуточная переменная, представляющая линейную комбинацию независимых переменных, содержащую параметры регрессии. Функция g - это кумулятивная функция распределения (cdf) некоторого распределения вероятностей . Обычно это распределение вероятностей имеет поддержку от минус бесконечности до плюс бесконечности, так что любое конечное значение η преобразуется функцией g в значение в диапазоне от 0 до 1.

В случае логистической регрессии функция связи - это логарифм отношения шансов или логистическая функция . В случае пробита ссылка - это cdf нормального распределения . Модель линейной вероятности не является подходящей спецификацией биномиальной регрессии, потому что прогнозы не обязательно должны находиться в диапазоне от нуля до единицы; он иногда используется для этого типа данных, когда интерпретация происходит в вероятностном пространстве или когда аналитику не хватает достаточного опыта для подбора или вычисления приблизительной линеаризации вероятностей для интерпретации.

Сравнение моделей биномиальной регрессии и бинарного выбора [ править ]

Модель бинарного выбора предполагает скрытую переменную U n , полезность (или чистую выгоду), которую человек n получает от совершения действия (в противоположность бездействию). Польза, которую получает человек от совершения действия, зависит от характеристик человека, некоторые из которых наблюдаются исследователем, а некоторые нет:

где - набор коэффициентов регрессии и - набор независимых переменных (также известных как «характеристики»), описывающих человека n , которые могут быть либо дискретными « фиктивными переменными », либо обычными непрерывными переменными. - случайная величина, определяющая «шум» или «ошибку» в предсказании, предположительно распределенная согласно некоторому распределению. Обычно, если в распределении есть параметр среднего или дисперсии, его невозможно идентифицировать , поэтому параметры устанавливаются на удобные значения - по соглашению обычно означает 0, дисперсию 1.

Человек выполняет действие y n = 1 , если U n > 0. Предполагается, что ненаблюдаемый член ε n имеет логистическое распределение .

Спецификация кратко написана как:

    • U n = βs n + ε n
    • ε логистический , стандартный нормальный и т. д.

Напишем немного иначе:

    • U n = βs n - e n
    • e логистический , стандартный нормальный и т. д.

Здесь мы сделали замену e n = - ε n . Это изменяет случайную переменную на несколько другую, определенную в отрицательной области. Так получилось, что обычно рассматриваемые нами распределения ошибок (например, логистическое распределение , стандартное нормальное распределение , стандартное t-распределение Стьюдента и т.д.) симметричны относительно 0, и, следовательно, распределение по e n идентично распределению по ε n .

Обозначим кумулятивную функцию распределения (CDF) as и функцию квантиля (обратную CDF) as

Обратите внимание, что

Поскольку это испытание Бернулли , мы имеем

или эквивалентно

Обратите внимание, что это в точности эквивалентно модели биномиальной регрессии, выраженной в формализме обобщенной линейной модели .

Если т. Е. Распределено как стандартное нормальное распределение , то

что и есть пробит-модель .

Если, например, распределено как стандартное логистическое распределение со средним значением 0 и параметром масштаба 1, то соответствующая функция квантиля является функцией логита , и

что в точности логит-модель .

Обратите внимание, что два разных формализма - обобщенные линейные модели (GLM) и модели дискретного выбора - эквивалентны в случае простых моделей двоичного выбора, но могут быть расширены разными способами:

  • GLM может легко обрабатывать произвольно распределенные переменные отклика ( зависимые переменные ), а не только категориальные переменные или порядковые переменные , которыми модели дискретного выбора ограничены по своей природе. GLM также не ограничиваются функциями связи, которые являются функциями квантилей некоторого распределения, в отличие от использования переменной ошибки , которая по предположению должна иметь распределение вероятностей .
  • С другой стороны, поскольку модели дискретного выбора описываются как типы генеративных моделей , концептуально легче распространить их на сложные ситуации с множественными, возможно, коррелированными вариантами выбора для каждого человека или другими вариациями.

Интерпретация / вывод скрытых переменных [ править ]

Модель скрытых переменных, включающая биномиальную наблюдаемую переменную Y, может быть построена так, чтобы Y была связана со скрытой переменной Y * через

Затем скрытая переменная Y * связана с набором регрессионных переменных X моделью

Это приводит к модели биномиальной регрессии.

Дисперсия е не могут быть идентифицированы , и , когда она не представляет интереса часто принимается равным единице. Если ε распределен нормально, то пробит является подходящей моделью и , если ε является лог-Вейбулла распределены, то логит является целесообразным. Если ϵ равномерно распределен, то подходит линейная вероятностная модель.

См. Также [ править ]

  • Линейная вероятностная модель
  • Регрессия Пуассона
  • Прогностическое моделирование

Примечания [ править ]

  1. ^ а б Сэнфорд Вайсберг (2005). «Биномиальная регрессия». Прикладная линейная регрессия . Wiley-IEEE. стр.  253 -254. ISBN 0-471-66379-4.
  2. Cox & Snell (1981), Пример H, стр. 91

Ссылки [ править ]

  • Кокс, Д.Р . ; Снелл, EJ (1981). Прикладная статистика: принципы и примеры . Чепмен и Холл. ISBN 0-412-16570-8.