Логистическая регрессия

В статистике , то логистическая модель (или логит модели ) используется для моделирования вероятности определенного класса или события , такие как существующие годен / не годен, выигрыш / проигрыш, живой / мертвый или здоровый / больной. Это может быть расширено для моделирования нескольких классов событий, таких как определение того, содержит ли изображение кошку, собаку, льва и т. Д. Каждому обнаруживаемому на изображении объекту будет присвоена вероятность от 0 до 1 с суммой, равной единице.

Логистическая регрессия - это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования двоичной зависимой переменной , хотя существует множество более сложных расширений . В регрессионном анализе , логистическая регрессия ^[1] (или логит регрессия ) является оценка параметров логистической модели (форма двоичной регрессии ). Математически бинарная логистическая модель имеет зависимую переменную с двумя возможными значениями, такими как годен / не годен, которая представлена индикаторной переменной , где два значения помечены как «0» и «1». В логистической моделилог-коэффициенты (The логарифм из шансов ) для значения с надписью «1» представляет собой линейную комбинацию из одного или нескольких независимых переменных ( «предсказателей»); каждая независимая переменная может быть двоичной переменной (два класса, кодируемых индикаторной переменной) или непрерывной переменной (любое действительное значение). Соответствующая вероятность значения, помеченного «1», может варьироваться от 0 (обязательно значение «0») до 1 (безусловно, значение «1»), отсюда и маркировка; функция, которая преобразует логарифмические шансы в вероятность, является логистической функцией, отсюда и название. Единица измерения для шкалы лога-фор называется логитом из журнала ИСТИК ипа нее , следовательно , альтернативных имен. Можно также использовать аналогичные модели с другой сигмоидной функцией вместо логистической, например, пробит-модель ; Определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно увеличивает шансы данного результата с постоянной скоростью, при этом каждая независимая переменная имеет свой собственный параметр; для двоичной зависимой переменной это обобщает отношение шансов .

В модели бинарной логистической регрессии зависимая переменная имеет два уровня ( категориальный ). Выходы с более чем двумя значениями моделируются с помощью полиномиальной логистической регрессии и, если несколько категорий упорядочены , с помощью порядковой логистической регрессии (например, порядковая логистическая модель пропорциональных шансов ^[2] ). Сама модель логистической регрессии просто моделирует вероятность выхода с точки зрения входных данных и не выполняет статистическую классификацию (это не классификатор), хотя ее можно использовать для создания классификатора, например, путем выбора порогового значения и классификации входных данных с вероятностью. больше порогового значения для одного класса и ниже порогового значения для другого класса; это обычный способ создания двоичного классификатора . Коэффициенты обычно не вычисляются с помощью выражения в замкнутой форме, в отличие от линейных наименьших квадратов ; см. § Подгонка модели . Логистической регрессии в качестве общей статистической модели была первоначально разработана и популяризировал в первую очередь Джозефа Berkson , ^[3] , начиная с Berkson (1944) , где он придуман «логит»; см. § История .

Приложения

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальных наук. Например, Шкала тяжести травм и травм ( TRISS ), которая широко используется для прогнозирования смертности травмированных пациентов, была первоначально разработана Boyd et al. с помощью логистической регрессии. ^[4] Многие другие медицинские шкалы, используемые для оценки тяжести состояния пациента, были разработаны с использованием логистической регрессии. ^[5]^[6]^[7]^[8] Логистическая регрессия может использоваться для прогнозирования риска развития данного заболевания (например, диабета ; ишемической болезни сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела. , результаты различных анализов крови и др.). ^[9]^[10] Другим примером может быть предсказание того, проголосует ли непальский избиратель за Конгресс Непала, Коммунистическую партию Непала или любую другую партию, исходя из возраста, дохода, пола, расы, государства проживания, голосов на предыдущих выборах и т. Д. . ^[11] Этот метод также может использоваться в инженерии , особенно для прогнозирования вероятности отказа данного процесса, системы или продукта. ^[12]^[13] Он также используется в маркетинговых приложениях, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. Д. ^[14] В экономике его можно использовать для прогнозирования вероятности того, что человек окажется в рабочая сила, и бизнес-приложение должно было бы предсказывать вероятность того, что домовладелец не сможет выполнить свои обязательства по ипотеке . Условные случайные поля , расширение логистической регрессии до последовательных данных, используются при обработке естественного языка .

Примеры

Логистическая модель

Давайте попробуем понять логистическую регрессию, рассмотрев логистическую модель с заданными параметрами, а затем посмотрим, как можно оценить коэффициенты на основе данных. Рассмотрим модель с двумя предикторами, ${\ displaystyle x_ {1}}$ а также ${\ displaystyle x_ {2}}$ , и одна двоичная (Бернулли) переменная ответа ${\ displaystyle Y}$ , который мы обозначим ${\ Displaystyle p = P (Y = 1)}$ . Мы предполагаем линейную связь между переменными-предикторами и логарифмическими шансами (также называемыми логит) события, которое ${\ displaystyle Y = 1}$ . Это линейное соотношение может быть записано в следующей математической форме (где ℓ - логарифмические шансы, ${\ displaystyle b}$ является основанием логарифма, а ${\ displaystyle \ beta _ {я}}$ параметры модели):

{\ displaystyle \ ell = \ log _ {b} {\ frac {p} {1-p}} = \ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}

Мы можем восстановить шансы , возведя в степень логарифм шансов:

{\ displaystyle {\ frac {p} {1-p}} = b ^ {\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}}

.

Простыми алгебраическими манипуляциями (и делением числителя и знаменателя на ${\ displaystyle b ^ {\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}}$ ) вероятность того, что ${\ displaystyle Y = 1}$ является

{\ displaystyle p = {\ frac {b ^ {\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}}} {b ^ {\ beta _ { 0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2}} + 1}} = {\ frac {1} {1 + b ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2})}}} = S_ {b} (\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2})}

.

Где ${\ displaystyle S_ {b}}$ является сигмовидной функцией с основанием ${\ displaystyle b}$ . Приведенная выше формула показывает, что однажды ${\ displaystyle \ beta _ {я}}$ фиксированы, мы можем легко вычислить либо логарифмические шансы, что ${\ displaystyle Y = 1}$ для данного наблюдения или вероятность того, что ${\ displaystyle Y = 1}$ для данного наблюдения. Основным вариантом использования логистической модели является наблюдение. ${\ displaystyle (x_ {1}, x_ {2})}$ , и оценим вероятность ${\ displaystyle p}$ что ${\ displaystyle Y = 1}$ . В большинстве приложений база ${\ displaystyle b}$ логарифма обычно принимается равным e . Однако в некоторых случаях проще сообщить результаты, работая с основанием 2 или основанием 10.

Рассмотрим пример с ${\ displaystyle b = 10}$ , а коэффициенты ${\ displaystyle \ beta _ {0} = - 3}$ , ${\ displaystyle \ beta _ {1} = 1}$ , а также ${\ displaystyle \ beta _ {2} = 2}$ . Чтобы быть конкретным, модель

{\ displaystyle \ log _ {10} {\ frac {p} {1-p}} = \ ell = -3 + x_ {1} + 2x_ {2}}

где ${\ displaystyle p}$ вероятность того, что ${\ displaystyle Y = 1}$ .

Это можно интерпретировать следующим образом:

${\ displaystyle \ beta _ {0} = - 3}$ это y- перехват . Логарифмические шансы события ${\ displaystyle Y = 1}$ , когда предикторы ${\ displaystyle x_ {1} = x_ {2} = 0}$ . Возведя в степень, мы можем увидеть, что когда ${\ displaystyle x_ {1} = x_ {2} = 0}$ шансы того, что ${\ displaystyle Y = 1}$ от 1 до 1000, или ${\ displaystyle 10 ^ {- 3}}$ . Точно так же вероятность того, что ${\ displaystyle Y = 1}$ когда ${\ displaystyle x_ {1} = x_ {2} = 0}$ можно вычислить как ${\ displaystyle 1 / (1000 + 1) = 1/1001}$ .
${\ displaystyle \ beta _ {1} = 1}$ означает, что увеличение ${\ displaystyle x_ {1}}$ на 1 увеличивает логарифмические шансы на ${\ displaystyle 1}$ . Так что если ${\ displaystyle x_ {1}}$ увеличивается на 1, вероятность того, что ${\ displaystyle Y = 1}$ увеличение в раз ${\ displaystyle 10 ^ {1}}$ . Обратите внимание , что вероятность из ${\ displaystyle Y = 1}$ также увеличилось, но не настолько, насколько увеличились шансы.
${\ displaystyle \ beta _ {2} = 2}$ означает, что увеличение ${\ displaystyle x_ {2}}$ на 1 увеличивает логарифмические шансы на ${\ displaystyle 2}$ . Так что если ${\ displaystyle x_ {2}}$ увеличивается на 1, вероятность того, что ${\ displaystyle Y = 1}$ увеличение в раз ${\ displaystyle 10 ^ {2}.}$ Обратите внимание, как эффект ${\ displaystyle x_ {2}}$ по логарифмическому коэффициенту вдвое больше, чем эффект ${\ displaystyle x_ {1}}$ , но влияние на шансы в 10 раз больше. Но эффект на вероятность из ${\ displaystyle Y = 1}$ не в 10 раз больше, это только влияние на шансы в 10 раз больше.

Для оценки параметров ${\ displaystyle \ beta _ {я}}$ исходя из данных, необходимо провести логистическую регрессию.

Вероятность сдачи экзамена по сравнению с часами обучения

Чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на обучение, влияет на вероятность сдачи студентом экзамена?

Причина использования логистической регрессии для этой проблемы заключается в том, что значения зависимой переменной, пройден и не пройден, хотя и представлены «1» и «0», не являются количественными числами . Если проблема была изменена таким образом, что результат «прошел / не прошел» был заменен оценкой 0–100 (количественные числа), то можно было бы использовать простой регрессионный анализ .

В таблице показано количество часов, проведенных каждым учащимся, и указано, прошли они (1) или не прошли (0).

Часы	0,50	0,75	1,00	1,25	1,50	1,75	1,75	2,00	2,25	2,50	2,75	3,00	3,25	3,50	4.00	4,25	4,50	4,75	5.00	5,50
Проходить	0	0	0	0	0	0	1	0	1	0	1	0	1	0	1	1	1	1	1	1

График показывает вероятность сдачи экзамена в зависимости от количества часов обучения с кривой логистической регрессии, подобранной к данным.

График кривой логистической регрессии, показывающий вероятность сдачи экзамена в зависимости от количества часов обучения

Логистический регрессионный анализ дает следующий результат.

	Коэффициент	Std.Error	z-значение	P-значение (Вальд)
Перехватить	-4,0777	1,7610	-2,316	0,0206
Часы	1,5046	0,6287	2.393	0,0167

Вывод показывает, что количество часов обучения в значительной степени связано с вероятностью сдачи экзамена ( ${\ displaystyle p = 0,0167}$ , Проба Вальда ). Выходные данные также предоставляют коэффициенты для ${\ displaystyle {\ text {Intercept}} = - 4,0777}$ а также ${\ displaystyle {\ text {Hours}} = 1,5046}$ . Эти коэффициенты вводятся в уравнение логистической регрессии для оценки шансов (вероятности) сдачи экзамена:

{\ displaystyle {\ begin {align} {\ text {Лог-шансы сдачи экзамена}} & = 1,5046 \ cdot {\ text {Hours}} - 4,0777 = 1,5046 \ cdot ({\ text {Hours}} - 2,71) \\ {\ text {Вероятность сдачи экзамена}} & = \ exp \ left (1.5046 \ cdot {\ text {Hours}} - 4.0777 \ right) = \ exp \ left (1.5046 \ cdot ({\ text {Hours}) } -2.71) \ right) \\ {\ text {Вероятность сдачи экзамена}} & = {\ frac {1} {1+ \ exp \ left (- \ left (1.5046 \ cdot {\ text {Hours}}) - 4.0777 \ right) \ right)}} \ end {align}}}

Предполагается, что один дополнительный час обучения увеличит логарифмическую вероятность прохождения теста на 1,5046, поэтому умножение шансов прохождения мимо ${\ displaystyle \ exp (1,5046) \ приблизительно 4,5.}$ Форма с перехватом x (2.71) показывает, что это оценивает четные шансы (логарифм-шансы 0, шансы 1, вероятность 1/2) для студента, который учится 2,71 часа.

Например, для студента, который учится 2 часа, введите значение ${\ displaystyle {\ text {Часы}} = 2}$ в уравнении дает оценочную вероятность сдачи экзамена 0,26:

{\ displaystyle {\ text {Вероятность сдачи экзамена}} = {\ frac {1} {1+ \ exp \ left (- \ left (1.5046 \ cdot 2-4.0777 \ right) \ right)}} = 0,26}

Точно так же для студента, который учится 4 часа, оценочная вероятность сдачи экзамена составляет 0,87:

{\ displaystyle {\ text {Вероятность сдачи экзамена}} = {\ frac {1} {1+ \ exp \ left (- \ left (1.5046 \ cdot 4-4.0777 \ right) \ right)}} = 0,87}

В этой таблице показана вероятность сдачи экзамена для нескольких значений часов обучения.

Часы учебы	Сдача экзамена
Часы учебы	Лог-шансы	Шансы	Вероятность
1	−2,57	0,076 ≈ 1: 13,1	0,07
2	−1,07	0,34 ≈ 1: 2,91	0,26
3	0,44	1,55	0,61
4	1,94	6,96	0,87
5	3,45	31,4	0,97

Результат анализа логистической регрессии дает p-значение ${\ displaystyle p = 0,0167}$ , который основан на z-оценке Вальда. Вместо метода Вальда для расчета p-значения для логистической регрессии рекомендуется ^{[ ссылка ]} метод отношения правдоподобия (LRT), который для этих данных дает ${\ displaystyle p = 0,0006}$ .

Обсуждение

Логистическая регрессия может быть биномиальной, порядковой или полиномиальной. Биномиальная или бинарная логистическая регрессия имеет дело с ситуациями, в которых наблюдаемый результат для зависимой переменной может иметь только два возможных типа: «0» и «1» (которые могут представлять, например, «мертвый» против «живого» или «выигрышный». "vs." потеря "). Полиномиальная логистическая регрессия имеет дело с ситуациями, когда результат может иметь три или более возможных типа (например, «болезнь A» против «болезни B» против «болезни C»), которые не упорядочены. Порядковая логистическая регрессия имеет дело с упорядоченными зависимыми переменными.

В бинарной логистической регрессии результат обычно кодируется как «0» или «1», поскольку это приводит к наиболее простой интерпретации. ^[15] Если конкретный наблюдаемый результат для зависимой переменной является заслуживающим внимания возможным результатом (называемым «успехом», «экземпляром» или «случаем»), он обычно кодируется как «1», а противоположный результат (упоминается как как «сбой», «неэкземпляр» или «неслучай») как «0». Бинарная логистическая регрессия используется для прогнозирования вероятности возникновения случая на основе значений независимых переменных (предикторов). Шансы определяются как вероятность того, что конкретный исход является случаем, деленный на вероятность того, что это не случай.

Как и другие формы регрессионного анализа , логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть непрерывными или категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают принадлежность к одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат испытания Бернулли ), а не для непрерывного результата. Учитывая эту разницу, предположения о линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для двоичной зависимой переменной. Что необходимо, так это способ преобразования двоичной переменной в непрерывную, которая может принимать любое реальное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет вероятность того, что событие произойдет для разных уровней каждой независимой переменной, а затем использует логарифм для создания непрерывного критерия в виде преобразованной версии зависимой переменной. Логарифм шансов - это $логит$ вероятности, $логит$ определяется следующим образом:

{\ displaystyle \ operatorname {logit} p = \ ln {\ frac {p} {1-p}} \ quad {\ text {for}} 0

Хотя зависимой переменной в логистической регрессии является Бернулли, логит имеет неограниченный масштаб. ^[15] Логит-функция является функцией связи в обобщенной линейной модели такого рода, т. Е.

{\ displaystyle \ operatorname {logit} \ operatorname {\ mathcal {E}} (Y) = \ beta _ {0} + \ beta _ {1} x}

$Y$ - переменная отклика, распределенная по Бернулли, а $x$ - переменная-предиктор; в $& beta$ ; значения являются линейными параметрами.

Затем $логит$ вероятности успеха подгоняется к предикторам. Прогнозируемое значение $логита$ преобразуется обратно в прогнозируемые шансы с помощью функции, обратной натуральному логарифму - экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в бинарной логистической регрессии является переменной 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях все, что нужно, - это ставки. В других случаях требуется конкретный прогноз типа «да» или «нет» для определения того, является ли зависимая переменная «успешной»; это категориальное предсказание может быть основано на вычисленных шансах на успех, причем предсказанные шансы выше некоторого выбранного значения отсечения переводятся в предсказание успеха.

Предположение о линейных предсказательных эффектах можно легко ослабить с помощью таких методов, как сплайн-функции . ^[16]

Логистическая регрессия против других подходов

Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной и одной или несколькими независимыми переменными путем оценки вероятностей с помощью логистической функции , которая является кумулятивной функцией распределения логистического распределения . Таким образом, он рассматривает тот же набор проблем, что и пробит-регрессия, с использованием аналогичных методов, при этом последний использует вместо этого кумулятивную кривую нормального распределения. Точно так же в интерпретациях скрытых переменных этих двух методов первый предполагает стандартное логистическое распределение ошибок, а второй - стандартное нормальное распределение ошибок. ^[17]

Логистическую регрессию можно рассматривать как частный случай обобщенной линейной модели и, следовательно, аналог линейной регрессии . Однако модель логистической регрессии основана на совершенно иных предположениях (о взаимосвязи между зависимыми и независимыми переменными) от предположений линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение ${\ displaystyle y \ mid x}$ является распределением Бернулли, а не распределением Гаусса , поскольку зависимая переменная является двоичной. Во-вторых, прогнозируемые значения являются вероятностями и поэтому ограничиваются (0,1) с помощью функции логистического распределения, поскольку логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.

Логистическая регрессия является альтернативой методу Фишера 1936 года, линейному дискриминантному анализу . ^[18] Если допущения линейного дискриминантного анализа верны, обусловленность может быть отменена, чтобы произвести логистическую регрессию. Однако обратное неверно, потому что логистическая регрессия не требует многомерного нормального допущения дискриминантного анализа. ^[19]

Скрытая интерпретация переменных

Логистическую регрессию можно понять просто как нахождение ${\ displaystyle \ beta}$ параметры, которые лучше всего подходят:

{\ displaystyle y = {\ begin {cases} 1 & \ beta _ {0} + \ beta _ {1} x + \ varepsilon> 0 \\ 0 & {\ text {else}} \ end {cases}}}

где ${\ displaystyle \ varepsilon}$ это ошибка, распространяемая стандартным логистическим распределением . (Если вместо этого используется стандартное нормальное распределение, это пробит-модель .)

Связанная скрытая переменная ${\ displaystyle y '= \ beta _ {0} + \ beta _ {1} x + \ varepsilon}$ . Срок погрешности ${\ displaystyle \ varepsilon}$ не соблюдается, и поэтому ${\ displaystyle y '}$ также ненаблюдаемый, поэтому называется «скрытым» (наблюдаемые данные представляют собой значения ${\ displaystyle y}$ а также ${\ displaystyle x}$ ). Однако в отличие от обычной регрессии ${\ displaystyle \ beta}$ параметры не могут быть выражены какой-либо прямой формулой ${\ displaystyle y}$ а также ${\ displaystyle x}$ значения в наблюдаемых данных. Вместо этого они должны быть найдены с помощью итеративного процесса поиска, обычно реализуемого программой, которая находит максимум сложного «выражения вероятности», которое является функцией всех наблюдаемых ${\ displaystyle y}$ а также ${\ displaystyle x}$ значения. Подход к оценке объясняется ниже.

Логистическая функция, шансы, отношение шансов и логит

Рисунок 1. Стандартная логистическая функция.

{\ Displaystyle \ sigma (т)}

; Обратите внимание, что

{\ Displaystyle \ сигма (т) \ в (0,1)}

для всех

{\ displaystyle t}

.

Определение логистической функции

Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция - это сигмовидная функция , которая принимает любые реальные входные данные. ${\ displaystyle t}$ , и выводит значение от нуля до единицы. ^[15] Для логита это интерпретируется как получение логарифмических шансов на входе и вероятность выхода . Стандартная логистическая функция ${\ Displaystyle \ sigma: \ mathbb {R} \ rightarrow (0,1)}$ определяется следующим образом:

{\ displaystyle \ sigma (t) = {\ frac {e ^ {t}} {e ^ {t} +1}} = {\ frac {1} {1 + e ^ {- t}}}}

График логистической функции на t- интервале (−6,6) показан на рисунке 1.

Предположим, что ${\ displaystyle t}$ является линейной функцией одной объясняющей переменной ${\ displaystyle x}$ (случай, когда ${\ displaystyle t}$ является линейной комбинацией нескольких независимых переменных, рассматривается аналогично). Затем мы можем выразить ${\ displaystyle t}$ следующим образом:

{\ displaystyle t = \ beta _ {0} + \ beta _ {1} x}

И общая логистическая функция ${\ Displaystyle p: \ mathbb {R} \ rightarrow (0,1)}$ теперь можно записать как:

{\ displaystyle p (x) = \ sigma (t) = {\ frac {1} {1 + e ^ {- (\ beta _ {0} + \ beta _ {1} x)}}}}

В логистической модели ${\ displaystyle p (x)}$ интерпретируется как вероятность зависимой переменной ${\ displaystyle Y}$ приравнивается к успеху / случаю, а не к провалу / отсутствию дела. Понятно, что переменные ответа ${\ displaystyle Y_ {i}}$ не одинаково распределены: ${\ Displaystyle P (Y_ {я} = 1 \ середина X)}$ отличается от одной точки данных ${\ displaystyle X_ {i}}$ к другому, хотя они независимы от матрицы дизайна ${\ displaystyle X}$ и общие параметры ${\ displaystyle \ beta}$ . ^[9]

Определение обратной логистической функции

Теперь мы можем определить функцию logit (логарифм шансов) как обратную ${\ displaystyle g = \ sigma ^ {- 1}}$ стандартной логистической функции. Легко видеть, что он удовлетворяет:

{\ displaystyle g (p (x)) = \ sigma ^ {- 1} (p (x)) = \ operatorname {logit} p (x) = \ ln \ left ({\ frac {p (x)} { 1-p (x)}} \ right) = \ beta _ {0} + \ beta _ {1} x,}

и то же самое, после возведения в степень обе стороны, у нас есть шансы:

{\ displaystyle {\ frac {p (x)} {1-p (x)}} = e ^ {\ beta _ {0} + \ beta _ {1} x}.}

Толкование этих терминов

В приведенных выше уравнениях используются следующие члены:

${\ displaystyle g}$ это функция логита. Уравнение для ${\ Displaystyle г (п (х))}$ иллюстрирует, что логит (т.е. логарифм шансов или натуральный логарифм шансов) эквивалентен выражению линейной регрессии.
${\ displaystyle \ ln}$ обозначает натуральный логарифм .
${\ displaystyle p (x)}$ - это вероятность того, что зависимая переменная соответствует случаю при некоторой линейной комбинации предикторов. Формула для ${\ displaystyle p (x)}$ иллюстрирует, что вероятность того, что зависимая переменная приравнивается к случаю, равна значению логистической функции выражения линейной регрессии. Это важно, поскольку показывает, что значение выражения линейной регрессии может изменяться от отрицательной до положительной бесконечности, и все же после преобразования результирующее выражение для вероятности ${\ displaystyle p (x)}$ колеблется от 0 до 1.
${\ displaystyle \ beta _ {0}}$ является отрезком от уравнения линейной регрессии (значение критерия, когда предиктор равен нулю).
${\ displaystyle \ beta _ {1} х}$ - коэффициент регрессии, умноженный на некоторое значение предиктора.
база ${\ displaystyle e}$ обозначает экспоненциальную функцию.

Определение шансов

Шансы зависимой переменной равняются случаю (при некоторой линейной комбинации ${\ displaystyle x}$ предикторов) эквивалентна экспоненциальной функции выражения линейной регрессии. Это показывает, как логит служит связующей функцией между вероятностью и выражением линейной регрессии. Учитывая, что логит находится в диапазоне от отрицательной до положительной бесконечности, он обеспечивает адекватный критерий для проведения линейной регрессии, а логит легко конвертируется обратно в шансы. ^[15]

Итак, мы определяем шансы зависимой переменной на случай (при некоторой линейной комбинации ${\ displaystyle x}$ предикторов) следующим образом:

{\ displaystyle {\ text {odds}} = e ^ {\ beta _ {0} + \ beta _ {1} x}.}

Отношение шансов

Для непрерывной независимой переменной отношение шансов можно определить как:

{\ displaystyle \ mathrm {OR} = {\ frac {\ operatorname {odds} (x + 1)} {\ operatorname {odds} (x)}} = {\ frac {\ left ({\ frac {F (x +1)} {1-F (x + 1)}} \ right)} {\ left ({\ frac {F (x)} {1-F (x)}} \ right)}} = {\ frac {e ^ {\ beta _ {0} + \ beta _ {1} (x + 1)}} {e ^ {\ beta _ {0} + \ beta _ {1} x}}} = e ^ {\ бета _ {1}}}

Эта экспоненциальная зависимость дает интерпретацию ${\ displaystyle \ beta _ {1}}$ : Шансы умножаются на ${\ displaystyle e ^ {\ beta _ {1}}}$ на каждую единицу увеличения x. ^[20]

Для двоичной независимой переменной отношение шансов определяется как ${\ displaystyle {\ frac {ad} {bc}}}$ где a , b , c и d - ячейки в таблице непредвиденных обстоятельств 2 × 2 . ^[21]

Множественные независимые переменные

Если есть несколько независимых переменных, приведенное выше выражение ${\ displaystyle \ beta _ {0} + \ beta _ {1} x}$ может быть изменен на ${\ displaystyle \ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2} + \ cdots + \ beta _ {m} x_ {m} = \ beta _ { 0} + \ sum _ {i = 1} ^ {m} \ beta _ {i} x_ {i}}$ . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m пояснителями; параметры ${\ displaystyle \ beta _ {j}}$ для всех j = 0, 1, 2, ..., m все оцениваются.

Опять же, более традиционные уравнения:

{\ displaystyle \ log {\ frac {p} {1-p}} = \ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2} + \ cdots + \ beta _ {m} x_ {m}}

а также

{\ displaystyle p = {\ frac {1} {1 + b ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1} + \ beta _ {2} x_ {2} + \ cdots + \ beta _ {m} x_ {m})}}}}

где обычно ${\ displaystyle b = e}$ .

Подгонка модели

Логистическая регрессия - важный алгоритм машинного обучения . Цель состоит в том, чтобы смоделировать вероятность случайной величины. ${\ displaystyle Y}$ 0 или 1 с учетом экспериментальных данных. ^[22]

Рассмотрим обобщенную функцию линейной модели, параметризованную следующим образом: ${\ displaystyle \ theta}$ ,

{\ displaystyle h _ {\ theta} (X) = {\ frac {1} {1 + e ^ {- \ theta ^ {T} X}}} = \ Pr (Y = 1 \ mid X; \ theta)}

Следовательно,

{\ Displaystyle \ Pr (Y = 0 \ середина X; \ theta) = 1-час _ {\ theta} (X)}

и с тех пор ${\ displaystyle Y \ in \ {0,1 \}}$ , Мы видим, что ${\ Displaystyle \ Pr (у \ середина X; \ тета)}$ дан кем-то ${\ displaystyle \ Pr (y \ mid X; \ theta) = h _ {\ theta} (X) ^ {y} (1-h _ {\ theta} (X)) ^ {(1-y)}.}$ Теперь вычислим функцию правдоподобия, предполагая, что все наблюдения в выборке независимо распределены по Бернулли,

{\ Displaystyle {\ begin {align} L (\ theta \ mid y; x) & = \ Pr (Y \ mid X; \ theta) \\ & = \ prod _ {i} \ Pr (y_ {i} \ середина x_ {i}; \ theta) \\ & = \ prod _ {i} h _ {\ theta} (x_ {i}) ^ {y_ {i}} (1-h _ {\ theta} (x_ {i} )) ^ {(1-год_ {i})} \ end {выравнивается}}}

Как правило, логарифмическая вероятность максимальна,

{\ Displaystyle N ^ {- 1} \ log L (\ theta \ mid y; x) = N ^ {- 1} \ sum _ {i = 1} ^ {N} \ log \ Pr (y_ {i} \ середина x_ {i}; \ theta)}

который максимизируется с помощью методов оптимизации, таких как градиентный спуск .

Если предположить ${\ Displaystyle (х, у)}$ пары тянутся равномерно от лежащего в основе распределения, то в пределе больших N ,

{\ displaystyle {\ begin {align} & \ lim \ limits _ {N \ rightarrow + \ infty} N ^ {- 1} \ sum _ {i = 1} ^ {N} \ log \ Pr (y_ {i} \ mid x_ {i}; \ theta) = \ sum _ {x \ in {\ mathcal {X}}} \ sum _ {y \ in {\ mathcal {Y}}} \ Pr (X = x, Y = y) \ log \ Pr (Y = y \ mid X = x; \ theta) \\ [6pt] = {} & \ sum _ {x \ in {\ mathcal {X}}} \ sum _ {y \ in {\ mathcal {Y}}} \ Pr (X = x, Y = y) \ left (- \ log {\ frac {\ Pr (Y = y \ mid X = x)} {\ Pr (Y = y \ mid X = x; \ theta)}} + \ log \ Pr (Y = y \ mid X = x) \ right) \\ [6pt] = {} & - D _ {\ text {KL}} (Y \ parallel Y _ {\ theta}) - H (Y \ mid X) \ end {align}}}

где ${\ Displaystyle H (Y \ середина X)}$ это условная энтропия и ${\ displaystyle D _ {\ text {KL}}}$ - расхождение Кульбака – Лейблера . Это приводит к интуиции, что, максимизируя логарифмическую вероятность модели, вы сводите к минимуму отклонение KL вашей модели от максимального распределения энтропии. Интуитивный поиск модели, которая делает наименьшее количество предположений в своих параметрах.

«Правило десяти»

Широко используемое эмпирическое правило, « правило одного из десяти », гласит, что модели логистической регрессии дают стабильные значения для независимых переменных, если они основаны как минимум на примерно 10 событиях на каждую объясняющую переменную (EPV); где событие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Таким образом, исследование, предназначенное для использования ${\ displaystyle k}$ объясняющие переменные для события (например, инфаркта миокарда ), которое ожидается в определенной пропорции ${\ displaystyle p}$ участников исследования потребуется в общей сложности ${\ displaystyle 10k / p}$ участников. Однако есть серьезные споры о надежности этого правила, которое основано на исследованиях моделирования и не имеет надежного теоретического обоснования. ^[23] По мнению некоторых авторов ^[24] правило слишком консервативно, некоторые обстоятельства; при этом авторы заявляют: «Если мы (несколько субъективно) считаем охват доверительного интервала менее 93 процентов, ошибку типа I более 7 процентов или относительную систематическую ошибку более 15 процентов как проблемные, наши результаты показывают, что проблемы довольно часты с 2–4 EPV, редко встречается при 5–9 EPV и все еще наблюдается при 10–16 EPV. Наихудшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сравнимы с таковыми при 10–16 EPV ». ^[25]

Другие получили результаты, которые не согласуются с вышеизложенным, с использованием других критериев. Полезный критерий заключается в том, будет ли подобранная модель, как ожидается, достигнуть той же прогностической дискриминации в новой выборке, которую она, по-видимому, достигла в образце разработки модели. Для этого критерия может потребоваться 20 событий для каждой переменной-кандидата. ^[26] Кроме того, можно утверждать, что 96 наблюдений необходимы только для оценки точки пересечения модели с достаточной точностью, чтобы предел ошибки в предсказанных вероятностях составлял ± 0,1 при уровне достоверности 0,95. ^[16]

Оценка максимального правдоподобия (MLE)

Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия . ^[27]^[28] В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого следует использовать итерационный процесс; например метод Ньютона . Этот процесс начинается с предварительного решения, его немного изменяют, чтобы посмотреть, можно ли его улучшить, и повторяют это изменение до тех пор, пока улучшения не прекратятся, после чего процесс считается сходимым. ^[27]

В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, потому что итерационный процесс не смог найти подходящие решения. Неспособность сойтись может произойти по ряду причин: большое отношение предикторов к случаям, мультиколлинеарность , разреженность или полное разделение .

Наличие большого отношения переменных к наблюдениям приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости. Регуляризованная логистическая регрессия специально предназначена для использования в этой ситуации.
Мультиколлинеарность означает недопустимо высокие корреляции между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но увеличиваются стандартные ошибки и уменьшается вероятность сходимости модели. ^[27] Чтобы обнаружить мультиколлинеарность среди предикторов, можно провести линейный регрессионный анализ с интересующими предикторами с единственной целью изучения статистики толерантности ^[27], используемой для оценки того, является ли мультиколлинеарность неприемлемо высокой.
Редкость данных означает наличие большой доли пустых ячеек (ячеек с нулевым счетчиком). Нулевое количество ячеек особенно проблематично с категориальными предикторами. С непрерывными предикторами модель может вывести значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Модель не будет сходиться с нулевым количеством ячеек для категориальных предикторов, потому что натуральный логарифм нуля является неопределенным значением, поэтому окончательное решение модели не может быть достигнуто. Чтобы решить эту проблему, исследователи могут свернуть категории теоретически значимым образом или добавить константу ко всем ячейкам. ^[27]
Другой числовой проблемой, которая может привести к отсутствию сходимости, является полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий - все случаи точно классифицируются. В таких случаях следует повторно проверить данные, поскольку, вероятно, есть какая-то ошибка. ^[15]^{[ требуется дальнейшее объяснение ]}
Можно также использовать полупараметрический или непараметрический подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают предположений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит). ^[29]

Функция потери кросс-энтропии

В приложениях машинного обучения, где для двоичной классификации используется логистическая регрессия, MLE минимизирует функцию перекрестных потерь энтропии .

Метод наименьших квадратов с итеративным перевесом (IRLS)

Бинарная логистическая регрессия ( ${\ displaystyle y = 0}$ или же ${\ displaystyle y = 1}$ ) Может, например, быть рассчитаны с использованием итеративного reweighted наименьших квадратов (IRLS), что эквивалентно максимизации журнала правдоподобия в виде распределенного Бернулли процесса с использованием метода Ньютона . Если задача записана в векторной матричной форме, с параметрами ${\ displaystyle \ mathbf {w} ^ {T} = [\ beta _ {0}, \ beta _ {1}, \ beta _ {2}, \ ldots]}$ , объясняющие переменные ${\ displaystyle \ mathbf {x} (i) = [1, x_ {1} (i), x_ {2} (i), \ ldots] ^ {T}}$ и математическое ожидание распределения Бернулли ${\ Displaystyle \ му (я) = {\ гидроразрыва {1} {1 + е ^ {- \ mathbf {w} ^ {T} \ mathbf {x} (я)}}}}$ , параметры ${\ displaystyle \ mathbf {w}}$ можно найти с помощью следующего итеративного алгоритма:

{\ displaystyle \ mathbf {w} _ {k + 1} = \ left (\ mathbf {X} ^ {T} \ mathbf {S} _ {k} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {T} \ left (\ mathbf {S} _ {k} \ mathbf {X} \ mathbf {w} _ {k} + \ mathbf {y} - \ mathbf {\ boldsymbol {\ mu} } _ {k} \ right)}

где ${\ Displaystyle \ mathbf {S} = \ OperatorName {diag} (\ му (я) (1- \ му (я)))}$ диагональная матрица весов, ${\ Displaystyle {\ boldsymbol {\ mu}} = [\ mu (1), \ mu (2), \ ldots]}$ вектор ожидаемых значений,

{\ Displaystyle \ mathbf {X} = {\ begin {bmatrix} 1 & x_ {1} (1) & x_ {2} (1) & \ ldots \\ 1 & x_ {1} (2) & x_ {2} (2) & \ ldots \\\ vdots & \ vdots & \ vdots \ end {bmatrix}}}

Матрица регрессора и ${\ Displaystyle \ mathbf {y} (я) = [y (1), y (2), \ ldots] ^ {T}}$ вектор переменных ответа. Более подробную информацию можно найти в литературе. ^[30]

Оценка степени соответствия

Степень соответствия в моделях линейной регрессии обычно измеряется с помощью R 2 . Поскольку у этого нет прямого аналога в логистической регрессии, вместо него можно использовать различные методы ^[31]^{: глава 21,} включая следующие.

Тесты на отклонение и отношение правдоподобия

В линейном регрессионном анализе речь идет о разделении дисперсии посредством вычислений суммы квадратов - дисперсия в критерии по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В логистическом регрессионном анализе отклонение используется вместо вычисления суммы квадратов. ^[32] Отклонение аналогично вычислению суммы квадратов в линейной регрессии ^[15] и является мерой отсутствия соответствия данным в модели логистической регрессии. ^[32] Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение рассчитывается путем сравнения данной модели с насыщенной моделью. ^[15] Это вычисление дает тест отношения правдоподобия : ^[15]

{\ displaystyle D = -2 \ ln {\ frac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}}.}

В приведенном выше уравнении $D$ представляет собой отклонение, а ln представляет собой натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, следовательно, потребуется отрицательный знак. Можно показать, что $D$ следует приблизительному распределению хи-квадрат . ^[15] Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, таким образом, хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная величина дисперсии необъяснима.

Когда насыщенная модель недоступна (общий случай), отклонение рассчитывается просто как −2 · (логарифмическая вероятность подобранной модели), и ссылка на логарифмическую вероятность насыщенной модели может быть удалена из всего, что следует, без вреда.

В логистической регрессии особенно важны два показателя отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения (что означает «без предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью с хотя бы одним предиктором и насыщенной моделью. ^[32] В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Учитывая, что отклонение является мерой разницы между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу на ${\ displaystyle \ chi _ {sp} ^ {2},}$ Распределение хи-квадрат со степенями свободы ^[15], равное разнице в количестве оцениваемых параметров.

Позволять

{\ displaystyle {\ begin {align} D _ {\ text {null}} & = - 2 \ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}}} \\ [6pt] D _ {\ text {fit}} & = - 2 \ ln {\ frac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}}. \ End {align}}}

Тогда разница обоих:

{\ displaystyle {\ begin {align} D _ {\ text {null}} - D _ {\ text {fit}} & = - 2 \ left (\ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}}} - \ ln {\ frac {\ text {вероятность соответствия модели}} {\ text {вероятность насыщенной модели}}} \ right) \\ [6pt] & = - 2 \ ln {\ frac {\ left ({\ dfrac {\ text {вероятность нулевой модели}} {\ text {вероятность насыщенной модели}}} \ right)} {\ left ({\ dfrac {\ text {вероятность подобранной модели}} {\ text {вероятность насыщенной модели}}} \ right)}} \\ [6pt] & = - 2 \ ln {\ frac {\ text {вероятность нулевой модели}} {\ text {вероятность подобранной модели}}}. \ end {align}}}

Если отклонение модели значительно меньше, чем нулевое отклонение, то можно сделать вывод, что предиктор или набор предикторов значительно улучшили соответствие модели. Это аналогично $F-$ критерию, используемому в линейном регрессионном анализе для оценки значимости прогноза. ^[32]

Псевдо-R-квадрат

В линейной регрессии квадрата множественная корреляция, $R$ ² используется для оценить степень согласия , поскольку он представляет долю дисперсии в критерии , что объясняется предсказателями. ^[32] В логистическом регрессионном анализе нет согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет ограничения. ^[32]^[33]

На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:

Отношение правдоподобия $R$ ² _L
Кокс и Снелл $R$ ² _CS
Nagelkerke $R$ ² _N
Макфэдден $R$ ² _McF
Тюр $Р$ ² _Т

$R$ ² _L дан Коэном: ^[32]

{\ displaystyle R _ {\ text {L}} ^ {2} = {\ frac {D _ {\ text {null}} - D _ {\ text {fit}}} {D _ {\ text {null}}}}. }

Это наиболее аналогичный показатель квадрату множественных корреляций в линейной регрессии. ^[27] Он представляет собой пропорциональное уменьшение отклонения, при котором отклонение рассматривается как мера отклонения, аналогичная, но не идентичная дисперсии в линейном регрессионном анализе. ^[27] Одним из ограничений отношения правдоподобия $R$ ² является то , что она не монотонно связана с отношением шансов, ^[32] означает , что она не обязательно возрастает по мере увеличения отношения шансов и не обязательно уменьшается по мере шансы соотношение уменьшается.

$R$ ² _CS является альтернативным показателем СОГЛАСИЯ , связанным с $¨R$ ² значения от линейной регрессии. ^[33] Это дается:

{\ displaystyle {\ begin {align} R _ {\ text {CS}} ^ {2} & = 1- \ left ({\ frac {L_ {0}} {L_ {M}}} \ right) ^ {2 / n} \\ [5pt] & = 1-e ^ {2 (\ ln (L_ {0}) - \ ln (L_ {M})) / n} \ end {выровнено}}}

где $L M$ и $L 0$ - вероятности для аппроксимируемой модели и нулевой модели соответственно. Индекс Кокса и Снелла проблематичен, поскольку его максимальное значение составляет ${\ displaystyle 1-L_ {0} ^ {2 / n}}$ . Максимальное значение этого верхнего предела может составлять 0,75, но оно может легко достигать 0,48, когда предельная доля случаев мала. ^[33]

$R$ ² _N обеспечивает поправку к $R$ ² Кокса и Снеллиуса, так что максимальное значение равно 1. Тем не менее, отношения Кокса и Снелла и отношение правдоподобия $R$ ²s показывают большее соответствие друг с другом, чем любой из них с $R$ ² Нагелькерке . ^[32] Конечно, это может быть не так для значений, превышающих 0,75, поскольку индекс Кокса и Снелла ограничен этим значением. Отношение правдоподобия $R$ ² часто предпочитают альтернативы , как это наиболее аналогично $R$ ² в линейной регрессии , не зависит от базовой скорости (как Кокс и Снелл и Nagelkerke $R$ ²s увеличение как доля случаев увеличится от 0 до 0,5) и варьируется от 0 до 1.

$R$ ² _McF определяется как

{\ displaystyle R _ {\ text {McF}} ^ {2} = 1 - {\ frac {\ ln (L_ {M})} {\ ln (L_ {0})}},}

и предпочтительнее , чем $R$ ² _CS по Allison. ^[33] Два выражения $R$ ² _McF и $R$ ² _CS связаны соответственно соотношением

{\ displaystyle {\ begin {matrix} R _ {\ text {CS}} ^ {2} = 1- \ left ({\ dfrac {1} {L_ {0}}} \ right) ^ {\ frac {2 ( R _ {\ text {McF}} ^ {2})} {n}} \\ [1.5em] R _ {\ text {McF}} ^ {2} = - {\ dfrac {n} {2}} \ cdot {\ dfrac {\ ln (1-R _ {\ text {CS}} ^ {2})} {\ ln L_ {0}}} \ end {matrix}}}

Тем не менее, в настоящее время Эллисон предпочитает $R$ ² _Т , которая является относительно новой мерой , разработанная Tjur. ^[34] Его можно рассчитать в два этапа: ^[33]

Для каждого уровня зависимой переменной найдите среднее значение прогнозируемых вероятностей события.
Возьмите абсолютное значение разницы между этими средними значениями.

Слово предостережения в порядке при интерпретации псев- $R$ ² статистики. Причина этих индексы приступа называют псевдо $R$ ² является то , что они не представляют собой снижение пропорционального по ошибке как $R$ ² в линейной регрессия делает. ^[32] Линейная регрессия предполагает гомоскедастичность , то есть дисперсия ошибки одинакова для всех значений критерия. Логистическая регрессия всегда будет гетероскедастической - дисперсии ошибок различаются для каждого значения прогнозируемой оценки. Для каждого значения прогнозируемой оценки будет свое значение пропорционального уменьшения ошибки. Поэтому нецелесообразно думать о $R$ ² как пропорциональное уменьшение ошибки в универсальном смысле , в логистической регрессии. ^[32]

Тест Хосмера – Лемешоу

В тесте Хосмера – Лемешоу используется тестовая статистика, которая асимптотически соответствует χ 2 {\ displaystyle \ chi ^ {2}} распределения, чтобы оценить, соответствует ли наблюдаемая частота событий ожидаемой частоте событий в подгруппах модельной популяции. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного объединения предсказанных вероятностей и относительно низкой мощности. ^[35]

Коэффициенты

После подбора модели вполне вероятно, что исследователи захотят изучить вклад отдельных предикторов. Для этого они захотят изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют изменение критерия для каждого изменения единицы в предикторе. ^[32] Однако в логистической регрессии коэффициенты регрессии представляют изменение логита для каждого изменения единицы в предикторе. Учитывая, что логит не является интуитивно понятным, исследователи, вероятно, сосредоточат внимание на влиянии предсказателя на экспоненциальную функцию коэффициента регрессии - отношения шансов (см. Определение ). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления t- критерия. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в первую очередь тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия

Рассмотренный выше тест отношения правдоподобия для оценки соответствия модели также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель. ^[15]^[27]^[32] В случае модели с одним предиктором, просто сравнивается отклонение модели предиктора с отклонением нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (ср. Хи-квадрат с использованием разницы в степенях свободы двух моделей), то можно сделать вывод, что существует значительная связь между "предиктором" и результатом. Хотя некоторые общие статистические пакеты (например, SPSS) действительно предоставляют статистику теста отношения правдоподобия, без этого требовательного к вычислениям теста было бы труднее оценить вклад отдельных предикторов в случае множественной логистической регрессии. ^{[ необходима цитата ]} Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. ^[32] Статистики спорят о целесообразности так называемых «пошаговых» процедур. ^{[ ласковые слова ]} Есть опасения, что они могут не сохранить номинальные статистические свойства и могут ввести в заблуждение. ^[36]

Статистика Вальда

В качестве альтернативы, при оценке вклада отдельных предикторов в данную модель, можно исследовать значимость статистики Вальда . Статистика Вальда, аналогичная t- критерию линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат. ^[27]

{\ displaystyle W_ {j} = {\ frac {\ beta _ {j} ^ {2}} {SE _ {\ beta _ {j}} ^ {2}}}}

Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки типа II . Статистика Вальда также имеет тенденцию быть необъективной, когда данные немногочисленны. ^[32]

Выборка случай-контроль

Допустим, случаи редкие. Тогда мы могли бы пожелать отбирать их чаще, чем их распространенность в популяции. Например, предположим, что есть болезнь, которой страдает 1 человек из 10 000, и для сбора данных нам необходимо провести полное обследование. Проведение тысяч медицинских осмотров здоровых людей может оказаться слишком дорогостоящим, чтобы получить данные только для нескольких больных. Таким образом, мы можем оценить большее количество больных, возможно, все редкие исходы. Это также ретроспективная выборка или, что то же самое, несбалансированные данные. Как показывает опыт, выборка элементов управления, в пять раз превышающих количество наблюдений, дает достаточные данные управления. ^[37]

Логистическая регрессия уникальна тем, что ее можно оценивать на несбалансированных данных, а не на случайно выбранных данных, и все же давать правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы сформируем логистическую модель из таких данных, если модель верна в общей популяции, ${\ displaystyle \ beta _ {j}}$ все параметры верны, кроме ${\ displaystyle \ beta _ {0}}$ . Мы можем исправить ${\ displaystyle \ beta _ {0}}$ если мы знаем истинную распространенность следующим образом: ^[37]

{\ displaystyle {\ widehat {\ beta}} _ {0} ^ {*} = {\ widehat {\ beta}} _ {0} + \ log {\ frac {\ pi} {1- \ pi}} - \ log {{\ tilde {\ pi}} \ over {1 - {\ tilde {\ pi}}}}}

где ${\ displaystyle \ pi}$ истинная распространенность и ${\ Displaystyle {\ тильда {\ pi}}}$ - распространенность в выборке.

Формальная математическая спецификация

Существуют различные эквивалентные спецификации логистической регрессии, которые подходят для различных типов более общих моделей. Эти разные спецификации позволяют делать разные полезные обобщения.

Настраивать

Базовая настройка логистической регрессии выглядит следующим образом. Нам дан набор данных, содержащий N точек. Каждая точка i состоит из набора из m входных переменных x _{1, i} ... x _{m, i} (также называемых независимыми переменными , переменными-предикторами, функциями или атрибутами) и двоичной выходной переменной Y _i (также известной как зависимая переменная). переменная , переменная ответа, выходная переменная или класс), то есть он может принимать только два возможных значения: 0 (часто означает «нет» или «сбой») или 1 (часто означает «да» или «успех»). Цель логистической регрессии - использовать набор данных для создания прогнозной модели переменной результата.

Как и в линейной регрессии, предполагается , что переменные результата Y _i зависят от объясняющих переменных x _{1, i} ... x _{m, i} .

Объясняющие переменные

Объясняющие переменные могут быть любого типа : действительные , двоичные , категориальные и т. Д. Основное различие заключается между непрерывными и дискретными переменными .

(Дискретные переменные, относящиеся к более чем двум возможным вариантам выбора, обычно кодируются с использованием фиктивных переменных (или индикаторных переменных ), то есть отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значения дискретной переменной со значением 1 " переменная имеет заданное значение », а 0 означает, что« переменная не имеет этого значения ».)

Переменные результата

Формально результаты Y _i описываются как данные, распределенные по Бернулли , где каждый результат определяется ненаблюдаемой вероятностью p _i, которая специфична для данного результата, но связана с независимыми переменными. Это может быть выражено в любой из следующих эквивалентных форм:

{\ displaystyle {\ begin {align} Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i} \ & \ sim \ operatorname {Bernoulli} (p_ {i}) \\\ имя оператора {\ mathcal {E}} [Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i}] & = p_ {i} \\\ Pr (Y_ {i} = y \ mid x_ {1, i}, \ ldots, x_ {m, i}) & = {\ begin {cases} p_ {i} & {\ text {if}} y = 1 \\ 1-p_ {i} & { \ text {if}} y = 0 \ end {cases}} \\\ Pr (Y_ {i} = y \ mid x_ {1, i}, \ ldots, x_ {m, i}) & = p_ {i } ^ {y} (1-p_ {i}) ^ {(1-y)} \ конец {выровнено}}}

Значения этих четырех строк:

Первая строка выражает распределение вероятностей каждого Y _i : при условии независимых переменных, оно следует распределению Бернулли с параметрами p _i , вероятностью результата 1 для испытания i . Как отмечалось выше, каждое отдельное испытание имеет свою вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха p _i не наблюдается, только результат отдельного испытания Бернулли, использующего эту вероятность.
Вторая строка выражает тот факт, что ожидаемое значение каждого Y _i равно вероятности успеха p _i , что является общим свойством распределения Бернулли. Другими словами, если мы проведем большое количество испытаний Бернулли с одинаковой вероятностью успеха p _i , а затем возьмем среднее значение для всех исходов 1 и 0, то результат будет близок к p _i . Это связано с тем, что при вычислении среднего таким образом просто вычисляется доля увиденных успехов, которые, как мы ожидаем, сойдутся с основной вероятностью успеха.
В третьей строке записана функция массы вероятности распределения Бернулли с указанием вероятности увидеть каждый из двух возможных результатов.
Четвертая строка - это еще один способ записи функции массы вероятности, который позволяет избежать написания отдельных случаев и более удобен для определенных типов вычислений. Это основано на том факте, что Y _i может принимать только значение 0 или 1. В каждом случае один из показателей будет равен 1, «выбирая» значение под ним, а другой - 0, «отменяя» значение под ним. Это. Следовательно, результат будет либо p _i, либо 1 - p _i , как в предыдущей строке.

Линейная функция предиктора

Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейной регрессии, путем моделирования вероятности p _i с использованием функции линейного предиктора , то есть линейной комбинации объясняющих переменных и набора коэффициентов регрессии , специфичных для данной модели. но то же самое для всех испытаний. Линейная функция предиктора ${\ Displaystyle f (я)}$ для конкретной точки данных i записывается как:

{\ displaystyle f (i) = \ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {m} x_ {m, i},}

где ${\ displaystyle \ beta _ {0}, \ ldots, \ beta _ {m}}$ - коэффициенты регрессии, показывающие относительное влияние конкретной объясняющей переменной на результат.

Модель обычно оформляют в более компактном виде:

Коэффициенты регрессии β ₀ , β ₁ , ..., β _m сгруппированы в один вектор β размера m + 1.
Для каждой точки данных I , дополнительный пояснительный псевдо-переменную х _{0, я} добавляется, с фиксированным значением 1, что соответствует перехватывают коэффициента & beta ; ₀ .
Результирующие объясняющие переменные x _{0, i} , x _{1, i} , ..., x _{m, i} затем группируются в один вектор X _i размера m + 1.

Это позволяет записать функцию линейного предсказания следующим образом:

{\ Displaystyle е (я) = {\ boldsymbol {\ бета}} \ cdot \ mathbf {X} _ {я},}

используя обозначение для скалярного произведения между двумя векторами.

Как обобщенная линейная модель

Конкретная модель, используемая логистической регрессией, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемых для бинарных результатов, - это способ связи вероятности конкретного результата с функцией линейного предиктора:

{\ displaystyle \ operatorname {logit} (\ operatorname {\ mathcal {E}} [Y_ {i} \ mid x_ {1, i}, \ ldots, x_ {m, i}]) = \ operatorname {logit} ( p_ {i}) = \ ln \ left ({\ frac {p_ {i}} {1-p_ {i}}} \ right) = \ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {m} x_ {m, i}}

Написано с использованием более компактных обозначений, описанных выше, это:

{\ displaystyle \ operatorname {logit} (\ operatorname {\ mathcal {E}} [Y_ {i} \ mid \ mathbf {X} _ {i}]) = \ operatorname {logit} (p_ {i}) = \ ln \ left ({\ frac {p_ {i}} {1-p_ {i}}} \ right) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}

Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели , которая прогнозирует переменные с различными типами распределений вероятностей путем подгонки линейной функции-предиктора вышеуказанной формы к некоторому произвольному преобразованию ожидаемого значения переменной.

Интуиция для преобразования с использованием функции логита (натуральный логарифм шансов) была объяснена выше. Это также имеет практический эффект преобразования вероятности (которая ограничена между 0 и 1) в переменную, которая находится в диапазоне ${\ Displaystyle (- \ infty, + \ infty)}$ - тем самым согласовывая потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

Обратите внимание, что и вероятности p _i, и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Обычно они определяются с помощью какой-либо процедуры оптимизации, например, оценки максимального правдоподобия , которая находит значения, которые лучше всего соответствуют наблюдаемым данным (т. Е. Дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом условий регуляризации, которые стремятся исключить маловероятные данные. значения, например чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно максимальной апостериорной оценке (MAP), расширению максимального правдоподобия. (Регуляризация чаще всего выполняется с помощью возведенной в квадрат регуляризующей функции , что эквивалентно помещению гауссовского априорного распределения с нулевым средним для коэффициентов, но также возможны другие регуляризаторы.) Независимо от того, используется ли регуляризация, обычно невозможно найти решение в закрытом виде; вместо этого необходимо использовать итеративный численный метод, такой как метод наименьших квадратов с итеративным пересмотром взвешенных значений (IRLS) или, что чаще в наши дни, квазиньютоновский метод, такой как метод L-BFGS . ^[38]

Интерпретация оценок параметра β _j заключается в аддитивном влиянии на логарифм шансов для единичного изменения объясняющей переменной j . В случае дихотомической объясняющей переменной, например, пол ${\ displaystyle e ^ {\ beta}}$ это оценка шансов получить результат, скажем, для мужчин по сравнению с женщинами.

Эквивалентная формула использует функцию, обратную логит-функции, которая является логистической функцией , то есть:

{\ displaystyle \ operatorname {\ mathcal {E}} [Y_ {i} \ mid \ mathbf {X} _ {i}] = p_ {i} = \ operatorname {logit} ^ {- 1} ({\ boldsymbol { \ beta}} \ cdot \ mathbf {X} _ {i}) = {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}} }}}

Формулу также можно записать как распределение вероятностей (в частности, с использованием функции массы вероятности ):

{\ Displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {p_ {i}} ^ {y} (1-p_ {i}) ^ {1-y} = \ left ({\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf { X} _ {i}}}} \ right) ^ {y} \ left (1 - {\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} { 1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ right) ^ {1-y} = {\ frac {e ^ {{\ boldsymbol {\ beta }} \ cdot \ mathbf {X} _ {i} \ cdot y}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}}}}

Как модель со скрытыми переменными

Вышеупомянутая модель имеет эквивалентную формулировку как модель со скрытыми переменными . Эта формулировка является общей в теории моделей дискретного выбора и упрощает ее распространение на некоторые более сложные модели с множественными коррелированными вариантами выбора, а также сравнение логистической регрессии с тесно связанной пробит-моделью .

Представьте, что для каждого испытания i существует непрерывная скрытая переменная Y _i^* (т.е. ненаблюдаемая случайная величина ), которая распределяется следующим образом:

{\ displaystyle Y_ {i} ^ {\ ast} = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon \,}

где

{\ Displaystyle \ varepsilon \ sim \ operatorname {Logistic} (0,1) \,}

т.е. скрытая переменная может быть записана непосредственно в терминах функции линейного предсказания и переменной случайной аддитивной ошибки, которая распределяется согласно стандартному логистическому распределению .

Тогда Y _i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

{\ displaystyle Y_ {i} = {\ begin {cases} 1 & {\ text {if}} Y_ {i} ^ {\ ast}> 0 \ {\ text {ie}} - \ varepsilon <{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}, \\ 0 & {\ text {в противном случае.}} \ end {case}}}

Выбор моделирования переменной ошибки специально со стандартным логистическим распределением, а не с общим логистическим распределением с произвольными значениями местоположения и масштаба, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, распределение переменных логистической ошибки с ненулевым параметром местоположения μ (который устанавливает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ добавлен к коэффициенту пересечения. Обе ситуации дают одно и то же значение для Y _i^* независимо от настроек независимых переменных. Точно так же произвольный параметр масштаба s эквивалентен установке параметра масштаба на 1 и последующему делению всех коэффициентов регрессии на s . В последнем случае результирующее значение Y _i^* будет в s раз меньше, чем в первом случае, для всех наборов объясняющих переменных, но, что критически важно, оно всегда будет оставаться на той же стороне от 0 и, следовательно, приведет к к тому же Y _я выбор.

(Обратите внимание, что это предсказывает, что несоответствие параметра масштаба не может быть перенесено на более сложные модели, где доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированная в терминах обобщенной линейной модели и без каких-либо скрытых переменных . Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения является логистической функцией , которая является обратной функцией логита , т. Е.

{\ Displaystyle \ Pr (\ varepsilon <х) = \ OperatorName {logit} ^ {- 1} (х)}

Потом:

{\ Displaystyle {\ begin {align} \ Pr (Y_ {i} = 1 \ mid \ mathbf {X} _ {i}) & = \ Pr (Y_ {i} ^ {\ ast}> 0 \ mid \ mathbf {X} _ {i}) \\ [5pt] & = \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon> 0) \\ [5pt] & = \ Pr (\ varepsilon> - {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) \\ [5pt] & = \ Pr (\ varepsilon <{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) && {\ text {(поскольку логистическое распределение симметрично)}} \\ [5pt] & = \ operatorname {logit} ^ {- 1} ({\ boldsymbol {\ beta} } \ cdot \ mathbf {X} _ {i}) & \\ [5pt] & = p_ {i} && {\ text {(см. выше)}} \ end {выровнено}}}

Эта формулировка - стандартная для моделей дискретного выбора - проясняет взаимосвязь между логистической регрессией («логит-модель») и пробит-моделью , в которой вместо стандартного логистического распределения используется переменная ошибки, распределенная согласно стандартному нормальному распределению. Как логистическое, так и нормальное распределения симметричны базовой унимодальной форме «колоколообразной кривой». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты , что означает, что оно менее чувствительно к внешним данным (и, следовательно, несколько более устойчиво к моделированию неверных спецификаций или ошибочных данных).

Двусторонняя модель со скрытыми переменными

Еще одна формулировка использует две отдельные скрытые переменные:

{\ displaystyle {\ begin {align} Y_ {i} ^ {0 \ ast} & = {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {0 } \, \\ Y_ {i} ^ {1 \ ast} & = {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {1} \, \ конец {выровнен}}}

где

{\ displaystyle {\ begin {align} \ varepsilon _ {0} & \ sim \ operatorname {EV} _ {1} (0,1) \\\ varepsilon _ {1} & \ sim \ operatorname {EV} _ { 1} (0,1) \ конец {выровнено}}}

где EV ₁ (0,1) - стандартное распределение экстремальных значений типа 1 : т.е.

{\ Displaystyle \ Pr (\ varepsilon _ {0} = x) = \ Pr (\ varepsilon _ {1} = x) = e ^ {- x} e ^ {- e ^ {- x}}}

потом

{\ displaystyle Y_ {i} = {\ begin {cases} 1 & {\ text {if}} Y_ {i} ^ {1 \ ast}> Y_ {i} ^ {0 \ ast}, \\ 0 & {\ text {в противном случае.}} \ end {case}}}

Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина такого разделения заключается в том, что это позволяет легко расширить логистическую регрессию на многозначные категориальные переменные, как в полиномиальной логит- модели. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также можно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность, связанную с соответствующим выбором, и таким образом мотивировать логистическую регрессию с точки зрения теории полезности . (С точки зрения теории полезности, рациональный субъект всегда выбирает вариант с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора , поскольку он обеспечивает теоретически прочную основу и облегчает интуитивное понимание модели, что в свою очередь, упрощает рассмотрение различных видов расширений. (См. Пример ниже.)

Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он заставляет математику работать, и его использование может быть оправдано с помощью теории рационального выбора .

Оказывается, эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь существует два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют другое распределение. Фактически, эта модель непосредственно сводится к предыдущей со следующими заменами:

{\ displaystyle {\ boldsymbol {\ beta}} = {\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}}

{\ displaystyle \ varepsilon = \ varepsilon _ {1} - \ varepsilon _ {0}}

Интуиция для этого исходит из того факта, что, поскольку мы выбираем на основе максимального из двух значений, имеет значение только их разница, а не точные значения - и это эффективно устраняет одну степень свободы . Другой важный факт заключается в том, что разница двух переменных типа 1 с распределением экстремальных значений - это логистическое распределение, т. Е. ${\ displaystyle \ varepsilon = \ varepsilon _ {1} - \ varepsilon _ {0} \ sim \ operatorname {Logistic} (0,1).}$ Мы можем продемонстрировать эквивалент следующим образом:

{\ displaystyle {\ begin {align} \ Pr (Y_ {i} = 1 \ mid \ mathbf {X} _ {i}) = {} & \ Pr \ left (Y_ {i} ^ {1 \ ast}> Y_ {i} ^ {0 \ ast} \ mid \ mathbf {X} _ {i} \ right) & \\ [5pt] = {} & \ Pr \ left (Y_ {i} ^ {1 \ ast} - Y_ {i} ^ {0 \ ast}> 0 \ mid \ mathbf {X} _ {i} \ right) & \\ [5pt] = {} & \ Pr \ left ({\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {1} - \ left ({\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} + \ varepsilon _ {0} \ right)> 0 \ right) & \\ [5pt] = {} & \ Pr \ left (({\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ { i} - {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}) + (\ varepsilon _ {1} - \ varepsilon _ {0})> 0 \ right) & \ \ [5pt] = {} & \ Pr (({\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}) \ cdot \ mathbf {X} _ {i} + (\ varepsilon _ {1} - \ varepsilon _ {0})> 0) & \\ [5pt] = {} & \ Pr (({\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}) \ cdot \ mathbf {X} _ {i} + \ varepsilon> 0) && {\ text {(replace}} \ varepsilon {\ text {как указано выше)}} \\ [5pt] = {} & \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon> 0) && {\ text {(replace}} {\ boldsymbol {\ beta}} { \ text {как указано выше)}} \\ [5pt] = { } & \ Pr (\ varepsilon> - {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) && {\ text {(теперь, как в модели выше)}} \\ [5pt] = {} & \ Pr (\ varepsilon <{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) & \\ [5pt] = {} & \ operatorname {logit} ^ {- 1} ( {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) \\ [5pt] = {} & p_ {i} \ end {выровнено}}}

Пример

В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Parti Québécois , которая требует отделения Квебека от Канады ). Затем мы использовали бы три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности , мы можем интерпретировать скрытые переменные как выражающие полезность , возникающую в результате принятия каждого из вариантов выбора. Мы также можем интерпретировать коэффициенты регрессии как показывающие силу, которую связанный фактор (т. Е. Объясняющая переменная) имеет в содействии полезности, или, точнее, величину, на которую изменение единицы в объясняющей переменной изменяет полезность данного выбора. Избиратель мог ожидать, что правоцентристская партия снизит налоги, особенно для богатых. Это не дало бы людям с низкими доходами никакой выгоды, то есть никаких изменений в полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (т. е. несколько больше денег или умеренное повышение полезности) для людей со средним уровнем дохода; принесет значительные выгоды людям с высоким доходом. С другой стороны, от левоцентристской партии можно ожидать повышения налогов и компенсации их повышением благосостояния и другой помощи нижнему и среднему классам. Это принесет значительную положительную пользу людям с низким доходом, возможно, слабую пользу людям со средним доходом и значительную отрицательную пользу людям с высокими доходами. Наконец, сепаратистская партия не будет предпринимать прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытков, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будут владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.

Эти интуиции можно выразить следующим образом:

Расчетная сила коэффициента регрессии для различных результатов (выбор стороны) и различных значений независимых переменных
	Центр-право	Левоцентристский	Сепаратист
Высокий доход	сильный +	сильный -	сильный -
Средний доход	умеренный +	слабый +	никто
Низкий уровень дохода	никто	сильный +	никто

Это ясно показывает, что

Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. С точки зрения полезности это можно увидеть очень легко. Различные варианты по-разному влияют на чистую полезность; кроме того, эффекты различаются сложным образом, что зависит от характеристик каждого человека, поэтому должны быть отдельные наборы коэффициентов для каждой характеристики, а не просто одна дополнительная характеристика для каждого выбора.
Несмотря на то, что доход является непрерывной переменной, его влияние на полезность слишком сложно, чтобы его можно было рассматривать как единственную переменную. Либо его необходимо напрямую разделить на диапазоны, либо нужно добавить более высокие степени дохода, чтобы эффективно выполнить полиномиальную регрессию дохода.

Как "лог-линейная" модель

Еще одна формулировка сочетает описанную выше формулировку двусторонних скрытых переменных с исходной формулировкой выше без скрытых переменных и в процессе обеспечивает связь с одной из стандартных формулировок полиномиального логита .

Здесь, вместо того, чтобы записывать логит вероятностей p _i в качестве линейного предиктора, мы разделяем линейный предиктор на два, по одному для каждого из двух результатов:

{\ displaystyle {\ begin {align} \ ln \ Pr (Y_ {i} = 0) & = {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} - \ ln Z \\\ ln \ Pr (Y_ {i} = 1) & = {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} - \ ln Z \ end {выровнено}}}

Обратите внимание, что были введены два отдельных набора коэффициентов регрессии, как и в модели с двусторонней скрытой переменной, и эти два уравнения представляют собой форму, которая записывает логарифм связанной вероятности в качестве линейного предиктора с дополнительным членом ${\ displaystyle - \ ln Z}$ в конце. Этот член, как оказалось, служит нормирующим фактором, гарантирующим, что результат является распределением. Это можно увидеть, возведя в степень обе стороны:

{\ displaystyle {\ begin {align} \ Pr (Y_ {i} = 0) & = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} \\ [5pt] \ Pr (Y_ {i} = 1) & = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} \ конец {выровнено}}}

В этой форме ясно, что цель Z - гарантировать, что результирующее распределение по Y _i на самом деле является распределением вероятностей , т. Е. Суммируется с 1. Это означает, что Z - это просто сумма всех ненормированных вероятностей, и путем деления каждой вероятности на Z , вероятности становятся « нормализованными ». Это:

{\ displaystyle Z = e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}

и результирующие уравнения

{\ displaystyle {\ begin {align} \ Pr (Y_ {i} = 0) & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i }}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] \ Pr (Y_ {i} = 1) & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ End {выравнивается}}}

Или вообще:

{\ displaystyle \ Pr (Y_ {i} = c) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {c} \ cdot \ mathbf {X} _ {i}}} {\ sum _ {h} e ^ {{\ boldsymbol {\ beta}} _ {h} \ cdot \ mathbf {X} _ {i}}}}}

Это ясно показывает, как обобщить эту формулировку более чем на два результата, как в полиномиальном логите . Обратите внимание, что эта общая формулировка является в точности функцией softmax, как в

{\ displaystyle \ Pr (Y_ {i} = c) = \ operatorname {softmax} (c, {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}, {\ boldsymbol { \ beta}} _ {1} \ cdot \ mathbf {X} _ {i}, \ dots).}

Чтобы доказать, что это эквивалентно предыдущей модели, обратите внимание, что указанная выше модель является завышенной, в том смысле, что ${\ Displaystyle \ Pr (Y_ {я} = 0)}$ а также ${\ Displaystyle \ Pr (Y_ {я} = 1)}$ не может быть отдельно указан: скорее ${\ Displaystyle \ Pr (Y_ {i} = 0) + \ Pr (Y_ {i} = 1) = 1}$ поэтому знание одного автоматически определяет другое. В результате модель не идентифицируема , поскольку несколько комбинаций β₀ и β₁ будут давать одинаковые вероятности для всех возможных независимых переменных. Фактически, можно видеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

{\ displaystyle {\ begin {align} \ Pr (Y_ {i} = 1) & = {\ frac {e ^ {({\ boldsymbol {\ beta}} _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}} {e ^ {({\ boldsymbol {\ beta}} _ {0} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}} + e ^ {({\ boldsymbol {\ beta}} _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] & = {\ frac {e ^ {{ \ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol { \ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] & = { \ frac {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} } {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} (e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}})}} \\ [5pt] & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ end {выравнивается}} }

В результате мы можем упростить ситуацию и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы выбираем установить ${\ displaystyle {\ boldsymbol {\ beta}} _ {0} = \ mathbf {0}.}$ Потом,

{\ displaystyle e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} = e ^ {\ mathbf {0} \ cdot \ mathbf {X} _ {i} } = 1}

и другие

{\ displaystyle \ Pr (Y_ {i} = 1) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} = {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} = p_ {i}}

что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке двусторонней скрытой переменной, любые настройки, в которых ${\ displaystyle {\ boldsymbol {\ beta}} = {\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}}$ даст эквивалентные результаты.)

Обратите внимание, что большинство трактовок полиномиальной логит- модели начинается либо с расширения «лог-линейной» формулировки, представленной здесь, либо с формулировки двусторонней скрытой переменной, представленной выше, поскольку оба ясно показывают, как модель может быть расширена до многофакторной результаты. В общем, представление со скрытыми переменными более распространено в эконометрике и политологии , где господствуют модели дискретного выбора и теория полезности , тогда как «лог-линейная» формулировка здесь более распространена в информатике , например, в машинном обучении и обработке естественного языка .

Как однослойный перцептрон

Модель имеет эквивалентную формулировку

{\ displaystyle p_ {i} = {\ frac {1} {1 + e ^ {- (\ beta _ {0} + \ beta _ {1} x_ {1, i} + \ cdots + \ beta _ {k } x_ {k, i})}}}. \,}

Эта функциональная форма обычно называется однослойным персептроном или однослойной искусственной нейронной сетью . Однослойная нейронная сеть вычисляет непрерывный результат вместо пошаговой функции . Производная p _i по X = ( x ₁ , ..., x _k ) вычисляется из общей формы:

{\ displaystyle y = {\ frac {1} {1 + e ^ {- f (X)}}}}

где F ( X ) является аналитической функцией в X . При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее для обратного распространения ошибки . Эта функция также является предпочтительной, потому что ее производная легко вычисляется:

{\ displaystyle {\ frac {\ mathrm {d} y} {\ mathrm {d} X}} = y (1-y) {\ frac {\ mathrm {d} f} {\ mathrm {d} X}} . \,}

С точки зрения биномиальных данных

Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n _i независимыми одинаково распределенными испытаниями, где наблюдение Y _i - это количество наблюдаемых успехов (сумма отдельных случайных величин, распределенных по Бернулли), и отсюда следует биномиальное распределение :

{\ displaystyle Y_ {i} \, \ sim \ operatorname {Bin} (n_ {i}, p_ {i}), {\ text {for}} i = 1, \ dots, n}

Примером этого распределения является доля семян ( p _i ), прорастающих после посадки n _i .

С точки зрения ожидаемых значений эта модель выражается следующим образом:

{\ displaystyle p_ {i} = \ operatorname {\ mathcal {E}} \ left [\ left. {\ frac {Y_ {i}} {n_ {i}}} \, \ right | \, \ mathbf {X } _{Я прав]\,,}

чтобы

{\ displaystyle \ operatorname {logit} \ left (\ operatorname {\ mathcal {E}} \ left [\ left. {\ frac {Y_ {i}} {n_ {i}}} \, \ right | \, \ mathbf {X} _ {i} \ right] \ right) = \ operatorname {logit} (p_ {i}) = \ ln \ left ({\ frac {p_ {i}} {1-p_ {i}}} \ right) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} \ ,,}

Или, что эквивалентно:

{\ displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {n_ {i} \ select y} p_ {i} ^ {y} (1-p_ {i}) ^ {n_ {i} -y} = {n_ {i} \ choose y} \ left ({\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X}) _ {i}}}} \ right) ^ {y} \ left (1 - {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i }}}} \ right) ^ {n_ {i} -y} \ ,.}

Эта модель может быть адаптирована с использованием тех же методов, что и описанная выше более базовая модель.

Байесовский

Сравнение логистической функции с масштабированной обратной функцией пробиты (т.е. КОР от нормального распределения ), сравнивая

{\ Displaystyle \ sigma (х)}

против.

{\ Displaystyle \ Phi ({\ sqrt {\ frac {\ pi} {8}}} х)}

, что делает уклоны одинаковыми в начале координат. Это показывает более тяжелые хвосты логистического распределения.

В контексте байесовской статистики априорные распределения обычно помещаются на коэффициенты регрессии, обычно в форме гауссовых распределений . В логистической регрессии нет сопряженного априорного значения функции правдоподобия . Когда байесовский вывод выполнялся аналитически, это затрудняло вычисление апостериорного распределения, за исключением очень малых измерений. Однако теперь автоматическое программное обеспечение, такое как OpenBUGS , JAGS , PyMC3 , Stan или Turing.jl, позволяет вычислять эти апостериорные данные с помощью моделирования, поэтому отсутствие сопряжения не вызывает беспокойства. Однако, когда размер выборки или количество параметров велико, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и математическое ожидание .

История

Подробная история логистической регрессии приведена в Cramer (2002) . Логистическая функция была разработана как модель роста населения и названа «логистической» Пьером Франсуа Верхюльстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; см. раздел «Логистическая функция» § История . ^[39] В своей самой ранней статье (1838 г.) Ферхюльст не указывал, как он подгоняет кривые к данным. ^[40]^[41] В своей более подробной статье (1845 г.) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы. ^[42]^[43]

Логистическая функция была независимо разработана в химии как модель автокатализа ( Wilhelm Ostwald , 1883). ^[44] Автокаталитическая реакция - это реакция, в которой один из продуктов сам по себе является катализатором той же реакции, в то время как подача одного из реагентов является фиксированной. Это естественным образом порождает логистическое уравнение по той же причине, что и рост населения: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо заново открыта Раймондом Перлом и Лоуэллом Ридом как модель роста населения в 1920 году , опубликованная как Pearl & Reed (1920)., что привело к его использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, предположительно, узнали о ней от Л. Гюстава дю Паскье , но они не поверили ему и не приняли его терминологию. ^[45] Приоритет Verhulst был признан, и термин «логистический» был возрожден Удным Юлом в 1925 году и с тех пор используется. ^[46] Перл и Рид сначала применили модель к населению Соединенных Штатов, а также сначала подогнали кривую, проведя ее через три точки; как и в случае с Verhulst, это снова дало плохие результаты. ^[47]

В 1930-х годах пробит-модель была разработана и систематизирована Честером Иттнером Блиссом , который ввел термин «пробит» в книге « Блисс» (1934).и Джоном Гэддумом в Gaddum (1933)И модель подходит по оценке максимального правдоподобия по Рональду А. Фишеру в Фишер (1935), как дополнение к работе Блисс. Модель пробит в основном использовалась в биотестах , и ей предшествовали более ранние работы, датированные 1860 годом; см. Пробит модель § История . Пробит-модель повлияла на последующее развитие логит-модели, и эти модели конкурировали друг с другом. ^[48]

Логистическая модель, вероятно, впервые была использована в качестве альтернативы пробит-модели в биопробах Эдвином Бидвеллом Уилсоном и его ученицей Джейн Вустер в Wilson & Worcester (1943) . ^[49] Однако разработка логистической модели как общей альтернативы пробит-модели была в основном связана с работой Джозефа Берксона на протяжении многих десятилетий, начиная с Берксона (1944)., где он придумал «логит» по аналогии с «пробит» и продолжил через Berkson (1951)и последующие годы. ^[50] Первоначально логит-модель была отклонена как худшая по сравнению с пробит-моделью, но «постепенно достигла равенства с логит-моделью» ^[51], особенно в период с 1960 по 1970 г. К 1970 году логит-модель достигла паритета с пробит-моделью в использование в статистических журналах и впоследствии превзошло его. Эта относительная популярность была обусловлена принятием логита за пределами биотеста, а не заменой пробита в биотесте, и его неформальным использованием на практике; Популярность logit объясняется вычислительной простотой, математическими свойствами и универсальностью модели logit, что позволяет использовать ее в различных областях. ^[52]

За это время произошли различные уточнения, в частности, Дэвид Кокс , например, Кокс (1958) . ^[2]

Полиномиальная логит-модель была независимо представлена Коксом (1966) и Тилем (1969) , что значительно увеличило область применения и популярность логит-модели. ^[53] В 1973 году Дэниел Макфадден связал полиномиальный логит с теорией дискретного выбора , в частности с аксиомой выбора Люса , показав, что полиномиальный логит следует из предположения о независимости нерелевантных альтернатив и интерпретации шансов альтернатив как относительных предпочтений; ^[54] это дало теоретическую основу логистической регрессии. ^[53]

Расширения

Есть большое количество расширений:

Полиномиальная логистическая регрессия (или полиномиальный логит ) обрабатывает случай многосторонней категориальной зависимой переменной (с неупорядоченными значениями, также называемой «классификацией»). Обратите внимание, что общий случай наличия зависимых переменных с более чем двумя значениями называется политомической регрессией .
Упорядоченная логистическая регрессия (или упорядоченный логит ) обрабатывает порядковые зависимые переменные (упорядоченные значения).
Смешанный логит - это расширение полиномиального логита, которое учитывает корреляции между вариантами выбора зависимой переменной.
Расширением логистической модели на наборы взаимозависимых переменных является условное случайное поле .
Условная логистическая регрессия обрабатывает совпадающие или стратифицированные данные, когда страты небольшие. В основном он используется при анализе наблюдательных исследований .

Программное обеспечение

Большинство статистических программ могут выполнять бинарную логистическую регрессию.

SPSS
- [1] для базовой логистической регрессии.
Stata
SAS
- PROC LOGISTIC для базовой логистической регрессии.
- PROC CATMOD, когда все переменные категоричны.
- PROC GLIMMIX для многоуровневой модели логистической регрессии.
р
- glmв пакете статистики (с использованием family = binomial) ^[55]
- lrmв пакете rms
- Пакет GLMNET для эффективной реализации регуляризованной логистической регрессии
- lmer для логистической регрессии со смешанными эффектами
- Пакетная команда Rfast gm_logisticдля быстрых и тяжелых вычислений с крупномасштабными данными.
- пакет arm для байесовской логистической регрессии
Python
- Logitв модуле Statsmodels .
- LogisticRegressionв модуле Scikit-learn .
- LogisticRegressorв модуле TensorFlow .
- Полный пример логистической регрессии в учебнике Theano [2]
- Байесовская логистическая регрессия с предварительным кодом ARD , учебное пособие
- Вариационная байесовская логистическая регрессия с предыдущим кодом ARD , учебное пособие
- Код байесовской логистической регрессии , учебное пособие
NCSS
- Логистическая регрессия в NCSS
Matlab
- mnrfitв панели инструментов статистики и машинного обучения (с ошибкой, закодированной как 2 вместо 0)
- fminunc/fmincon, fitglm, mnrfit, fitclinear, mle могут все сделать логистическую регрессию.
Java ( JVM )
- LibLinear
- Apache Flink
- Apache Spark
  - SparkML поддерживает логистическую регрессию
ПЛИС
- Logistic Regresesion IP coreв HLS для FPGA .

Примечательно, что пакет расширения статистики Microsoft Excel не включает его.

Смотрите также

Логистическая функция
Дискретный выбор
Модель Ярроу – Тернбулла
Ограниченная зависимая переменная
Полиномиальная логит-модель
Заказал логит
Тест Хосмера – Лемешоу
Оценка по Бриеру
mlpack - содержит реализацию логистической регрессии на C ++
Выборка для местного контроля
Дерево логистической модели

дальнейшее чтение

Кокс, Дэвид Р. (1958). «Регрессионный анализ двоичных последовательностей (с обсуждением)». JR Stat Soc Б . 20 (2): 215–242. JSTOR 2983890 .
Кокс, Дэвид Р. (1966). «Некоторые процедуры, связанные с логистической качественной кривой ответа». В FN David (1966) (ред.). Исследования по вероятности и статистике (Festschrift для Дж. Неймана) . Лондон: Вайли. С. 55–71.
Крамер, JS (2002). Истоки логистической регрессии (PDF) (Технический отчет). 119 . Институт Тинбергена. С. 167–178. DOI : 10.2139 / ssrn.360300 .
- Опубликовано в: Крамер, JS (2004). «Ранние истоки логит-модели». Исследования по истории и философии науки Часть C: Исследования по истории и философии биологических и биомедицинских наук . 35 (4): 613–626. DOI : 10.1016 / j.shpsc.2004.09.003 .
Тиль, Анри (1969). «Мультиномиальное расширение линейной логитовой модели». Международное экономическое обозрение . 10 (3): 251–59. DOI : 10.2307 / 2525642 . JSTOR 2525642 .

Wilson, EB ; Вустер Дж. (1943). «Определение LD50 и его ошибка отбора проб в биопробе» . Труды Национальной академии наук Соединенных Штатов Америки . 29 (2): 79–85. Bibcode : 1943PNAS ... 29 ... 79W . DOI : 10.1073 / pnas.29.2.79 . PMC 1078563 . PMID 16588606 .

Агрести, Алан. (2002). Категориальный анализ данных . Нью-Йорк: Wiley-Interscience. ISBN 978-0-471-36093-3.
Амемия, Такеши (1985). «Модели качественного ответа» . Продвинутая эконометрика . Оксфорд: Бэзил Блэквелл. С. 267–359. ISBN 978-0-631-13345-2.
Балакришнан, Н. (1991). Справочник по логистической дистрибуции . Марсель Деккер, Inc. ISBN 978-0-8247-8587-1.
Гурье, Кристиан (2000). «Простая дихотомия» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. С. 6–37. ISBN 978-0-521-58985-7.
Грин, Уильям Х. (2003). Эконометрический анализ, пятое издание . Прентис Холл. ISBN 978-0-13-066189-0.
Хильбе, Джозеф М. (2009). Модели логистической регрессии . Чепмен и Холл / CRC Press. ISBN 978-1-4200-7575-5.
Хосмер, Дэвид (2013). Прикладная логистическая регрессия . Хобокен, Нью-Джерси: Wiley. ISBN 978-0470582473.
Хауэлл, Дэвид С. (2010). Статистические методы психологии, 7-е изд . Бельмонт, Калифорния; Томсон Уодсворт. ISBN 978-0-495-59786-5.
Peduzzi, P .; Дж. Конкато; Э. Кемпер; Т. Р. Холфорд; А. Р. Файнштейн (1996). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–1379. DOI : 10.1016 / s0895-4356 (96) 00236-3 . PMID 8970487 .
Берри, Майкл JA; Линофф, Гордон (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Вайли.

Внешние ссылки

СМИ, связанные с логистической регрессией на Викискладе?
Лекция по эконометрике (тема: модель Logit) на YouTube от Марка Тома
Учебник по логистической регрессии
mlelr : программное обеспечение на C для учебных целей

[1] Толлес, Джулиана; Мерер, Уильям Дж (2016). «Логистическая регрессия, связывающая характеристики пациента с результатами». ДЖАМА . 316 (5): 533–4. DOI : 10,1001 / jama.2016.7653 . ISSN 0098-7484 . OCLC 6823603312 . PMID 27483067 .

[wal67est-2] а б Уокер, SH; Дункан, Д. Б. (1967). «Оценка вероятности события как функции нескольких независимых переменных». Биометрика . 54 (1/2): 167–178. DOI : 10.2307 / 2333860 . JSTOR 2333860 .

[FOOTNOTECramer20028-3] Перейти ↑ Cramer 2002 , p. 8.

[4] Бойд, CR; Толсон, Массачусетс; Копс, WS (1987). «Оценка помощи при травмах: метод TRISS. Оценка травмы и оценка тяжести травмы». Журнал травм . 27 (4): 370–378. DOI : 10.1097 / 00005373-198704000-00005 . PMID 3106646 .

[5] Кологлу, М .; Elker, D .; Алтун, Х .; Сайек, И. (2001). «Валидация MPI и PIA II в двух разных группах пациентов со вторичным перитонитом». Гепатогастроэнтерология . 48 (37): 147–51. PMID 11268952 .

[6] Biondo, S .; Ramos, E .; Deiros, M .; Ragué, JM; De Oca, J .; Moreno, P .; Farran, L .; Джаурриета, Э. (2000). «Прогностические факторы смертности при перитоните левой толстой кишки: новая система баллов». Журнал Американского колледжа хирургов . 191 (6): 635–42. DOI : 10.1016 / S1072-7515 (00) 00758-4 . PMID 11129812 .

[7] Marshall, JC; Повар, диджей; Christou, NV; Бернар, GR; Подрессоренный, CL; Сиббальд, WJ (1995). «Оценка множественной дисфункции органов: надежный дескриптор сложного клинического исхода». Реанимационная медицина . 23 (10): 1638–52. DOI : 10.1097 / 00003246-199510000-00007 . PMID 7587228 .

[8] Ле Галл, младший; Lemeshow, S .; Saulnier, F. (1993). «Новая упрощенная оценка острой физиологии (SAPS II) на основе многоцентрового исследования в Европе и Северной Америке». ДЖАМА . 270 (24): 2957–63. DOI : 10,1001 / jama.1993.03510240069035 . PMID 8254858 .

[Freedman09-9] а б Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 128.

[10] Truett, J; Кукурузное поле, Дж; Каннел, W. (1967). «Многомерный анализ риска ишемической болезни сердца во Фрамингеме». Журнал хронических болезней . 20 (7): 511–24. DOI : 10.1016 / 0021-9681 (67) 90082-3 . PMID 6028270 .

[Harrell-11] Харрелл, Фрэнк Э. (2001). Стратегии регрессионного моделирования (2-е изд.). Springer-Verlag. ISBN 978-0-387-95232-1.

[strano05-12] М. Страно; Б.М. Колозимо (2006). «Логистический регрессионный анализ для экспериментального определения построения предельных диаграмм». Международный журнал станков и производства . 46 (6): 673–682. DOI : 10.1016 / j.ijmachtools.2005.07.005 .

[safety-13] Палей, СК; Дас, СК (2009). «Модель логистической регрессии для прогнозирования рисков обрушения кровли при выработках бортов и колонн угольных шахт: подход». Наука о безопасности . 47 : 88–96. DOI : 10.1016 / j.ssci.2008.01.002 .

[14] Берри, Майкл Дж. А. (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Вайли. п. 10.

[Hosmer-15] Б с д е е г ч я J K Хосмер, Дэвид В .; Лемешоу, Стэнли (2000). Прикладная логистическая регрессия (2-е изд.). Вайли. ISBN 978-0-471-35632-5.^{[ требуется страница ]}

[rms-16] а б Харрелл, Фрэнк Э. (2015). Стратегии регрессионного моделирования . Серия Спрингера в статистике (2-е изд.). Нью-Йорк; Springer. DOI : 10.1007 / 978-3-319-19425-7 . ISBN 978-3-319-19424-0.

[17] Родригес, Г. (2007). Конспект лекций по обобщенным линейным моделям . стр. Глава 3, стр. 45 - через http://data.princeton.edu/wws509/notes/ .

[18] Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение . Springer. п. 6.

[19] Похар, Майя; Блас, Матея; Терк, Сандра (2004). «Сравнение логистической регрессии и линейного дискриминантного анализа: имитационное исследование» . Методолошки Звездки . 1 (1).

[20] «Как интерпретировать отношение шансов в логистической регрессии?» . Институт цифровых исследований и образования.

[21] Эверит, Брайан (1998). Кембриджский статистический словарь . Кембридж, Великобритания Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0521593465.

[22] Нг, Эндрю (2000). «Лекционные заметки CS229» (PDF) . CS229 Конспект лекции : 16–19.

[23] Ван Смеден, М .; Де Гроот, JA; Луны, кг; Коллинз, GS; Альтман, Д.Г.; Эйкеманс, MJ; Рейцма, JB (2016). «Нет обоснования для критерия 1 переменная на 10 событий для бинарного логистического регрессионного анализа» . BMC Medical Research Methodology . 16 (1): 163. DOI : 10,1186 / s12874-016-0267-3 . PMC 5122171 . PMID 27881078 .

[24] Peduzzi, P; Конкато, Дж; Кемпер, Э; Холфорд, TR; Файнштейн, АР (декабрь 1996 г.). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–9. DOI : 10.1016 / s0895-4356 (96) 00236-3 . PMID 8970487 .

[25] Vittinghoff, E .; Маккаллох, CE (12 января 2007 г.). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса» . Американский журнал эпидемиологии . 165 (6): 710–718. DOI : 10.1093 / AJE / kwk052 . PMID 17182981 .

[plo14mod-26] ван дер Плоег, Тьерд; Остин, Питер С .; Стейерберг, Эуут В. (2014). «Современные методы моделирования требуют данных: имитационное моделирование для прогнозирования дихотомических конечных точек» . BMC Medical Research Methodology . 14 : 137. DOI : 10,1186 / 1471-2288-14-137 . PMC 4289553 . PMID 25532820 .

[Menard-27] Б с д е е г ч I Менард, Скотт В. (2002). Прикладная логистическая регрессия (2-е изд.). МУДРЕЦ. ISBN 978-0-7619-2208-7.^{[ требуется страница ]}

[28] Гурье, Кристиан; Монфорт, Ален (1981). «Асимптотические свойства оценки максимального правдоподобия в дихотомических логит-моделях». Журнал эконометрики . 17 (1): 83–97. DOI : 10.1016 / 0304-4076 (81) 90060-9 .

[sciencedirect.com-29] Park, Byeong U .; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. DOI : 10.1016 / j.csda.2016.10.024 .

[30] См. Например . Мерфи, Кевин П. (2012). Машинное обучение - вероятностная перспектива . MIT Press. с. 245 с. ISBN 978-0-262-01802-9.

[Greene-31] Грин, Уильям Н. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. ISBN 978-0-13-066189-0.

[Cohen-32] Б с д е е г ч я J к л м п о Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Дж .; Айкен, Леона С. (2002). Прикладная множественная регрессия / корреляционный анализ для поведенческих наук (3-е изд.). Рутледж. ISBN 978-0-8058-2223-6.^{[ требуется страница ]}

[:0-33] а б в г д Эллисон, Пол Д. «Меры соответствия логистической регрессии» (PDF) . Statistical Horizons LLC и Пенсильванский университет.

[34] Тюрь, Вт (2009). «Коэффициенты детерминации в моделях логистической регрессии». Американский статистик : 366–372. DOI : 10.1198 / tast.2009.08210 .^{[ требуется полная ссылка ]}

[35] Хосмер, DW (1997). «Сравнение критериев согласия для модели логистической регрессии». Stat Med . 16 (9): 965–980. DOI : 10.1002 / (sici) 1097-0258 (19970515) 16: 9 <965 :: aid-sim509> 3.3.co; 2-ф .

[36] Харрелл, Фрэнк Э. (2010). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживаемости . Нью-Йорк: Спрингер. ISBN 978-1-4419-2918-1.^{[ требуется страница ]}

[islr-37] ttps://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf слайд 16

[38] Малуф, Роберт (2002). «Сравнение алгоритмов оценки максимального энтропийного параметра» . Труды Шестой конференции по изучению естественного языка (CoNLL-2002) . С. 49–55. DOI : 10.3115 / 1118853.1118871 .

[FOOTNOTECramer20023–5-39] Перейти ↑ Cramer 2002 , pp. 3–5.

[40] Верхюльст, Пьер-Франсуа (1838). "Notice sur la loi que la population poursuit dans son accroissement" (PDF) . Соответствие Mathématique et Physique . 10 : 113–121 . Проверено 3 декабря 2014 .

[41] Перейти ↑ Cramer 2002 , p. 4, «Он не сказал, как он подогнал кривые».

[42] Верхюльст, Пьер-Франсуа (1845). "Recherches mathématiques sur la loi d'accroissement de la Population" [Математические исследования закона увеличения роста населения]. Nouveaux Mémoires de l'Académie Royale des Sciences et Belles-Lettres de Bruxelles . 18 . Проверено 18 февраля 2013 .

[FOOTNOTECramer20024-43] Перейти ↑ Cramer 2002 , p. 4.

[FOOTNOTECramer20027-44] Перейти ↑ Cramer 2002 , p. 7.

[FOOTNOTECramer20026-45] Перейти ↑ Cramer 2002 , p. 6.

[FOOTNOTECramer20026–7-46] Перейти ↑ Cramer 2002 , p. 6–7.

[FOOTNOTECramer20025-47] Перейти ↑ Cramer 2002 , p. 5.

[FOOTNOTECramer20027–9-48] Перейти ↑ Cramer 2002 , p. 7–9.

[FOOTNOTECramer20029-49] Перейти ↑ Cramer 2002 , p. 9.

[50] Перейти ↑ Cramer 2002 , p. 8: «Насколько я понимаю, введение логистики в качестве альтернативы нормальной функции вероятности - это работа одного человека, Джозефа Берксона (1899–1982), ...»

[FOOTNOTECramer200211-51] Перейти ↑ Cramer 2002 , p. 11.

[FOOTNOTECramer200210–11-52] Перейти ↑ Cramer 2002 , p. 10–11.

[FOOTNOTECramer13-53] Крамер , стр. 13.

[54] Макфадден, Дэниел (1973). «Условный логит-анализ качественного выбора поведения» (PDF) . В П. Зарембке (ред.). Границы в эконометрике . Нью-Йорк: Academic Press. С. 105–142. Архивировано из оригинального (PDF) 27 ноября 2018 года . Проверено 20 апреля 2019 .

[55] Гельман, Андрей; Хилл, Дженнифер (2007). Анализ данных с использованием регрессии и многоуровневых / иерархических моделей . Нью-Йорк: Издательство Кембриджского университета. С. 79–108. ISBN 978-0-521-68689-1.

[1]