Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , то логистическая модель (или логит модели ) используется для моделирования вероятности определенного класса или события , такие как существующие годен / не годен, выигрыш / проигрыш, живой / мертвый или здоровый / больной. Это может быть расширено для моделирования нескольких классов событий, таких как определение наличия на изображении кошки, собаки, льва и т. Д. Каждому обнаруживаемому на изображении объекту будет присвоена вероятность от 0 до 1 с суммой, равной единице.

Логистическая регрессия - это статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования двоичной зависимой переменной , хотя существует множество более сложных расширений . В регрессионном анализе , логистическая регрессия [1] (или логит регрессия ) является оценка параметров логистической модели (форма двоичной регрессии ). Математически бинарная логистическая модель имеет зависимую переменную с двумя возможными значениями, например, прошел / не прошел, которая представлена индикаторной переменной , где два значения помечены как «0» и «1». В логистической моделилог-коэффициенты (The логарифм из шансов ) для значения с надписью «1» представляет собой линейную комбинацию из одного или нескольких независимых переменных ( «предсказателей»); каждая независимая переменная может быть двоичной переменной (два класса, кодируемых индикаторной переменной) или непрерывной переменной (любое действительное значение). Соответствующая вероятность значения, помеченного «1», может варьироваться от 0 (безусловно, значение «0») до 1 (безусловно, значение «1»), отсюда и маркировка; функция, которая преобразует логарифмические шансы в вероятность, является логистической функцией, отсюда и название. Единица измерения для шкалы лог-фор называется логит ,из журналаistic un it , отсюда и альтернативные названия. Можно также использовать аналогичные модели с другой сигмоидной функцией вместо логистической, например пробит-модель ; определяющей характеристикой логистической модели является то, что увеличение одной из независимых переменных мультипликативно увеличивает шансы данного результата с постоянной скоростью, при этом каждая независимая переменная имеет свой собственный параметр; для двоичной зависимой переменной это обобщает отношение шансов .

В модели бинарной логистической регрессии зависимая переменная имеет два уровня ( категориальный ). Выходы с более чем двумя значениями моделируются с помощью полиномиальной логистической регрессии и, если несколько категорий упорядочены , с помощью порядковой логистической регрессии (например, порядковая логистическая модель пропорциональных шансов [2] ). Сама модель логистической регрессии просто моделирует вероятность выхода с точки зрения затрат и не выполняет статистическую классификацию.(это не классификатор), хотя его можно использовать для создания классификатора, например, путем выбора порогового значения и классификации входных данных с вероятностью больше порогового значения как один класс, ниже порогового значения как другой; это обычный способ сделать двоичный классификатор . Коэффициенты обычно не вычисляются с помощью выражения в замкнутой форме, в отличие от линейного метода наименьших квадратов ; см. § Подгонка модели . Логистической регрессии в качестве общей статистической модели была первоначально разработана и популяризировал в первую очередь Джозефа Berkson , [3] , начиная с Berkson (1944) , где он придуман «логит»; см. § История .

Приложения [ править ]

Логистическая регрессия используется в различных областях, включая машинное обучение, большинство областей медицины и социальных наук. Например, Шкала тяжести травм и травм ( TRISS ), которая широко используется для прогнозирования смертности травмированных пациентов, была первоначально разработана Boyd et al. с помощью логистической регрессии. [4] Многие другие медицинские шкалы, используемые для оценки степени тяжести состояния пациента, были разработаны с использованием логистической регрессии. [5] [6] [7] [8] Логистическая регрессия может использоваться для прогнозирования риска развития данного заболевания (например, диабета ; ишемической болезни сердца ) на основе наблюдаемых характеристик пациента (возраст, пол, индекс массы тела., результаты различных анализов крови и др.). [9] [10] Другим примером может быть предсказание того, проголосует ли непальский избиратель за Конгресс Непала, Коммунистическую партию Непала или любую другую партию, на основании возраста, дохода, пола, расы, государства проживания, голосов на предыдущих выборах и т. Д. . [11] Этот метод также может использоваться в инженерии , особенно для прогнозирования вероятности отказа данного процесса, системы или продукта. [12] [13] Он также используется в маркетинговых приложениях, таких как прогнозирование склонности клиента к покупке продукта или прекращению подписки и т. Д. [14] В экономикеего можно использовать для прогнозирования вероятности того, что человек выберет свою рабочую силу, а бизнес-приложение может использоваться для прогнозирования вероятности невыполнения домовладельцем обязательств по ипотеке . Условные случайные поля , расширение логистической регрессии до последовательных данных, используются при обработке естественного языка .

Примеры [ править ]

Логистическая модель [ править ]

Давайте попробуем понять логистическую регрессию, рассмотрев логистическую модель с заданными параметрами, а затем посмотрим, как можно оценить коэффициенты на основе данных. Рассмотрим модель с двумя предикторами, и , и одной двоичной (Бернулли) переменной отклика , которую мы обозначаем . Мы предполагаем линейную зависимость между переменными-предикторами и логарифмическими шансами (также называемыми логит) события, которое . Это линейное соотношение может быть записано в следующей математической форме (где - логарифм шансов, является основанием логарифма и являются параметрами модели):

Мы можем восстановить шансы , возведя в степень логарифм шансов:

.

Путь простой алгебраической манипуляции (и разделив числитель и знаменатель на ), вероятность того, что является

.

Где это сигмовидной функция с основанием . Приведенная выше формула показывает, что после того, как они зафиксированы, мы можем легко вычислить либо логарифмические шансы для данного наблюдения, либо вероятность для данного наблюдения. Основным вариантом использования логистической модели является получение наблюдения и оценка вероятности этого . В большинстве приложений основание логарифма обычно принимается равным e . Однако в некоторых случаях проще сообщить результаты, работая с основанием 2 или основанием 10.

Рассмотрим пример с , и коэффициенты , и . Чтобы быть конкретным, модель

где - вероятность того, что событие .

Это можно интерпретировать так:

  • это y- перехват . Это логарифм шансов события , когда предикторы . Возведя в степень, мы можем увидеть, что когда шансы события равны 1 к 1000, или . Точно так же вероятность события, когда может быть вычислена как .
  • означает, что увеличение на 1 увеличивает логарифмические шансы на . Таким образом, если увеличивается на 1, шансы увеличиваются в раз . Следует отметить , что вероятность из также увеличилась, но она не увеличивается так же , как шансы увеличились.
  • означает, что увеличение на 1 увеличивает логарифмические шансы на . Таким образом, если увеличивается на 1, шансы увеличиваются в раз. Обратите внимание, что влияние на логарифм шансов вдвое больше, чем влияние , но влияние на шансы в 10 раз больше. Но эффект на вероятность из не так много , как 10 раз больше, это только эффект на вероятность того, что в 10 раз больше.

Чтобы оценить параметры на основе данных, необходимо выполнить логистическую регрессию.

Вероятность сдачи экзамена по сравнению с часами обучения [ править ]

Чтобы ответить на следующий вопрос:

Группа из 20 студентов тратит от 0 до 6 часов на подготовку к экзамену. Как количество часов, потраченных на обучение, влияет на вероятность сдачи студентом экзамена?

Причина использования логистической регрессии для этой проблемы заключается в том, что значения зависимой переменной, пройден и не пройден, хотя и представлены «1» и «0», не являются количественными числами . Если проблема была изменена таким образом, что результат «прошел / не прошел» был заменен оценкой 0–100 (количественные числа), то можно было бы использовать простой регрессионный анализ .

В таблице показано количество часов, проведенных каждым учащимся, и указано, прошли ли они (1) или не прошли (0).

График показывает вероятность сдачи экзамена в зависимости от количества часов обучения, с кривой логистической регрессии, подобранной к данным.

График кривой логистической регрессии, показывающий вероятность сдачи экзамена в зависимости от количества часов обучения

Логистический регрессионный анализ дает следующий результат.

Вывод показывает, что количество часов обучения в значительной степени связано с вероятностью сдачи экзамена ( , тест Вальда ). В выходных данных также представлены коэффициенты для и . Эти коэффициенты вводятся в уравнение логистической регрессии для оценки шансов (вероятности) сдачи экзамена:

Один дополнительный час обучения, по оценкам, увеличит логарифмические шансы прохождения на 1,5046, поэтому умножение шансов прохождения через Форму с перехватом x (2,71) показывает, что это оценивает четные шансы (логарифм шансов 0, шансы 1, вероятность 1 / 2) для обучающегося 2,71 часа.

Например, для студента, который учится 2 часа, ввод значения в уравнение дает оценочную вероятность сдачи экзамена 0,26:

Точно так же для студента, который учится 4 часа, оценочная вероятность сдачи экзамена составляет 0,87:

В этой таблице показана вероятность сдачи экзамена для нескольких значений часов обучения.

Результат анализа логистической регрессии дает p-значение , которое основано на z-балле Вальда. Вместо метода Wald, рекомендуемый метод [ править ] , чтобы вычислить значение р для логистической регрессии является тест отношения правдоподобия (ЛРТ), которая для этого данные дают .

Обсуждение [ править ]

Логистическая регрессия может быть биномиальной, порядковой или полиномиальной. Биномиальная или двоичная логистическая регрессия имеет дело с ситуациями, в которых наблюдаемый результат для зависимой переменной может иметь только два возможных типа: «0» и «1» (которые могут представлять, например, «мертвый» против «живого» или «выигрышный». "против" потери "). Полиномиальная логистическая регрессия имеет дело с ситуациями, в которых результат может иметь три или более возможных типа (например, «болезнь A» против «болезни B» против «болезни C»), которые не упорядочены. Порядковая логистическая регрессия имеет дело с упорядоченными зависимыми переменными.

В бинарной логистической регрессии результат обычно кодируется как «0» или «1», поскольку это приводит к наиболее простой интерпретации. [15] Если конкретный наблюдаемый результат для зависимой переменной является заслуживающим внимания возможным результатом (называемым «успехом», «экземпляром» или «случаем»), он обычно кодируется как «1», а противоположный результат (упоминается как как «сбой», «неэкземпляр» или «неслучай») как «0». Бинарная логистическая регрессия используется для прогнозирования вероятности возникновения случая на основе значений независимых переменных (предикторов). Шансы определяются как вероятность того, что конкретный исход является случаем, деленный на вероятность того, что это не случай.

Как и другие формы регрессионного анализа , логистическая регрессия использует одну или несколько переменных-предикторов, которые могут быть непрерывными или категориальными. Однако, в отличие от обычной линейной регрессии, логистическая регрессия используется для прогнозирования зависимых переменных, которые принимают участие в одной из ограниченного числа категорий (рассматривая зависимую переменную в биномиальном случае как результат испытания Бернулли).), а не непрерывный результат. Учитывая эту разницу, предположения линейной регрессии нарушаются. В частности, остатки не могут быть нормально распределены. Кроме того, линейная регрессия может делать бессмысленные прогнозы для двоичной зависимой переменной. Что необходимо, так это способ преобразования двоичной переменной в непрерывную, которая может принимать любое реальное значение (отрицательное или положительное). Для этого биномиальная логистическая регрессия сначала вычисляет шансы того, что событие произойдет для разных уровней каждой независимой переменной, а затем использует свой логарифм для создания непрерывного критерия как преобразованной версии зависимой переменной. Логарифм шансов - это логит вероятности, логит определяется следующим образом:

Хотя зависимой переменной в логистической регрессии является Бернулли, логит имеет неограниченный масштаб. [15] Логит-функция является функцией связи в обобщенной линейной модели такого рода, т. Е.

Y - распределенная по Бернулли переменная отклика, а x - переменная-предиктор; в & beta ; значения являются линейными параметрами.

Затем логит вероятности успеха подбирается для предикторов. Прогнозируемое значение логита преобразуется обратно в прогнозируемые шансы с помощью функции, обратной натуральному логарифму - экспоненциальной функции . Таким образом, хотя наблюдаемая зависимая переменная в двоичной логистической регрессии представляет собой переменную 0 или 1, логистическая регрессия оценивает шансы, как непрерывную переменную, того, что зависимая переменная является «успехом». В некоторых приложениях все, что нужно, - это ставки. В других случаях требуется конкретный прогноз типа «да» или «нет» для определения того, является ли зависимая переменная «успешной»; это категориальное предсказание может быть основано на вычисленных шансах на успех, при этом предсказанные шансы выше некоторого выбранного значения отсечения переводятся в предсказание успеха.

Предположение о линейных предсказательных эффектах может быть легко ослаблено с помощью таких методов, как сплайн-функции . [16]

Логистическая регрессия по сравнению с другими подходами [ править ]

Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной и одной или несколькими независимыми переменными путем оценки вероятностей с использованием логистической функции , которая является кумулятивной функцией распределения логистического распределения . Таким образом, он обрабатывает тот же набор проблем, что и пробит-регрессия, с использованием аналогичных методов, причем последний использует вместо этого кумулятивную кривую нормального распределения. Эквивалентно, в интерпретации скрытых переменных этих двух методов, первый предполагает стандартное логистическое распределение ошибок, а второй - стандартное нормальное распределение ошибок. [17]

Логистическую регрессию можно рассматривать как частный случай обобщенной линейной модели и, следовательно, аналог линейной регрессии . Однако модель логистической регрессии основана на совершенно иных предположениях (о взаимосвязи между зависимыми и независимыми переменными) от предположений линейной регрессии. В частности, ключевые различия между этими двумя моделями можно увидеть в следующих двух особенностях логистической регрессии. Во-первых, условное распределение - это распределение Бернулли, а не гауссово распределение , поскольку зависимая переменная является двоичной. Во-вторых, прогнозируемые значения являются вероятностями и поэтому ограничиваются (0,1) с помощью функции логистического распределения.потому что логистическая регрессия предсказывает вероятность конкретных результатов, а не сами результаты.

Логистическая регрессия является альтернативой методу Фишера 1936 года, линейному дискриминантному анализу . [18] Если допущения линейного дискриминантного анализа верны, то условия могут быть отменены, чтобы произвести логистическую регрессию. Однако обратное неверно, потому что логистическая регрессия не требует многомерного нормального допущения дискриминантного анализа. [19]

Скрытая интерпретация переменных [ править ]

Логистическую регрессию можно понять просто как поиск наиболее подходящих параметров:

где - ошибка, распределенная стандартным логистическим распределением . (Если вместо этого используется стандартное нормальное распределение, это пробит-модель .)

Связанная скрытая переменная . Член ошибки не наблюдается, и поэтому он также является ненаблюдаемым, поэтому называется «скрытым» (наблюдаемые данные являются значениями и ). В отличие от обычной регрессии, однако, параметры не могут быть выражены с помощью какой - либо прямой формулой из и значений в наблюдаемых данных. Вместо этого они должны быть найдены с помощью итеративного процесса поиска, обычно реализуемого программой, которая находит максимум сложного «выражения вероятности», которое является функцией всех наблюдаемых и значений. Подход к оценке объясняется ниже.

Логистическая функция, шансы, отношение шансов и логит [ править ]

Рисунок 1. Стандартная логистическая функция ; обратите внимание, что для всех .

Определение логистической функции [ править ]

Объяснение логистической регрессии можно начать с объяснения стандартной логистической функции . Логистическая функция - это сигмовидная функция , которая принимает любой реальный ввод и выводит значение от нуля до единицы. [15] Для логита это интерпретируется как получение входных логарифмических шансов и вероятность выхода . Стандартная логистическая функция определяется следующим образом :

График логистической функции на t- интервале (−6,6) показан на рисунке 1.

Предположим, что это линейная функция одной независимой переменной (случай, когда является линейной комбинацией нескольких независимых переменных, рассматривается аналогично). Тогда мы можем выразить это следующим образом:

А общую логистическую функцию теперь можно записать как:

В логистической модели интерпретируется как вероятность того, что зависимая переменная будет равна успеху / случаю, а не неудаче / отсутствию случая. Ясно, что переменные ответа не распределены одинаково: различаются от одной точки данных к другой, хотя они независимы с учетом матрицы проектирования и общих параметров . [9]

Определение обратной логистической функции [ править ]

Теперь мы можем определить функцию logit (логарифм шансов) как обратную стандартной логистической функции. Легко видеть, что он удовлетворяет:

и, что то же самое, после возведения в степень обе стороны имеем шансы:

Толкование этих условий [ править ]

В приведенных выше уравнениях используются следующие члены:

  • это функция логита. Уравнение для показывает, что логит (т. Е. Логарифм шансов или натуральный логарифм шансов) эквивалентен выражению линейной регрессии.
  • обозначает натуральный логарифм .
  • - вероятность того, что зависимая переменная соответствует случаю, при некоторой линейной комбинации предикторов. Формула для показывает, что вероятность того, что зависимая переменная приравнивается к случаю, равна значению логистической функции выражения линейной регрессии. Это важно, поскольку показывает, что значение выражения линейной регрессии может изменяться от отрицательной до положительной бесконечности, и все же после преобразования результирующее выражение для вероятности находится в диапазоне от 0 до 1.
  • является отрезком от уравнения линейной регрессии (значение критерия, когда предиктор равен нулю).
  • - коэффициент регрессии, умноженный на некоторое значение предиктора.
  • база обозначает экспоненциальную функцию.

Определение шансов [ править ]

Шансы зависимой переменной, равной случаю (при некоторой линейной комбинации предикторов), эквивалентны экспоненциальной функции выражения линейной регрессии. Это показывает, как логит служит связующей функцией между вероятностью и выражением линейной регрессии. Учитывая, что логит находится в диапазоне от отрицательной до положительной бесконечности, он обеспечивает адекватный критерий для проведения линейной регрессии, а логит легко конвертируется обратно в шансы. [15]

Итак, мы определяем шансы зависимой переменной, равной случаю (при некоторой линейной комбинации предикторов), следующим образом:

Отношение шансов [ править ]

Для непрерывной независимой переменной отношение шансов можно определить как:

Эта экспоненциальная взаимосвязь дает интерпретацию : Шансы умножаются на каждую единицу увеличения x. [20]

Для двоичной независимой переменной отношение шансов определяется как где a , b , c и d - ячейки в таблице непредвиденных обстоятельств 2 × 2 . [21]

Несколько независимых переменных [ править ]

Если имеется несколько независимых переменных, приведенное выше выражение можно изменить на . Затем, когда это используется в уравнении, связывающем логарифм шансов успеха со значениями предикторов, линейная регрессия будет множественной регрессией с m пояснителями; все параметры для всех j = 0, 1, 2, ..., m оцениваются.

Опять же, более традиционные уравнения:

и

где обычно .

Подгонка модели [ править ]

Логистическая регрессия - важный алгоритм машинного обучения . Цель состоит в том, чтобы смоделировать вероятность того, что случайная величина будет равна 0 или 1 с учетом экспериментальных данных. [22]

Рассмотрим функцию обобщенной линейной модели, параметризованную следующим образом :

Следовательно,

и поскольку мы видим, что это дается формулой. Теперь вычисляем функцию правдоподобия, предполагая, что все наблюдения в выборке независимо распределены по Бернулли,

Обычно логарифмическая вероятность максимальна,

который максимизируется с помощью методов оптимизации, таких как градиентный спуск .

Если предположить, что пары равномерно взяты из основного распределения, то в пределе большого  N ,

где это условная энтропия и является Кульбак-Либлер дивергенции . Это приводит к интуиции, что, максимизируя логарифмическую вероятность модели, вы сводите к минимуму отклонение KL вашей модели от максимального распределения энтропии. Интуитивно ищите модель, которая делает наименьшее количество предположений в своих параметрах.

«Правило десяти» [ править ]

Широко используемое эмпирическое правило, « правило одного из десяти », гласит, что модели логистической регрессии дают стабильные значения для независимых переменных, если они основаны как минимум на примерно 10 событиях на объясняющую переменную (EPV); где событие обозначает случаи, относящиеся к менее частой категории в зависимой переменной. Таким образом, исследование, предназначенное для использования объясняющих переменных для события (например, инфаркта миокарда ), которое, как ожидается, произойдет у части участников исследования, потребует всего участников. Тем не менее, есть серьезные споры о надежности этого правила, которое основано на исследованиях моделирования и не имеет надежного теоретического обоснования. [23] По мнению некоторых авторов[24] правило слишком консервативное, некоторые обстоятельства; при этом авторы заявляют: «Если мы (несколько субъективно) считаем охват доверительного интервала менее 93 процентов, ошибку типа I более 7 процентов или относительную систематическую ошибку более 15 процентов как проблемные, наши результаты показывают, что проблемы довольно часты с 2–4 EPV, редко встречается при 5–9 EPV и все еще наблюдается при 10–16 EPV. Наихудшие случаи каждой проблемы не были серьезными при 5–9 EPV и обычно сопоставимы с таковыми при 10–16 EPV ». [25]

Другие получили результаты, которые не согласуются с вышеизложенным, с использованием других критериев. Полезный критерий заключается в том, будет ли подобранная модель обеспечивать в новой выборке ту же прогностическую дискриминацию, которую она достигла в образце для разработки модели. Для этого критерия может потребоваться 20 событий для каждой переменной-кандидата. [26] Кроме того, можно утверждать, что 96 наблюдений необходимы только для оценки точки пересечения модели с достаточной точностью, чтобы предел ошибки в предсказанных вероятностях составлял ± 0,1 при уровне достоверности 0,95. [16]

Оценка максимального правдоподобия (MLE) [ править ]

Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия . [27] [28] В отличие от линейной регрессии с нормально распределенными остатками, невозможно найти выражение в замкнутой форме для значений коэффициентов, которые максимизируют функцию правдоподобия, поэтому вместо этого следует использовать итерационный процесс; например метод Ньютона . Этот процесс начинается с предварительного решения, его немного изменяют, чтобы посмотреть, можно ли его улучшить, и повторяют это изменение до тех пор, пока улучшения не прекратятся, после чего процесс считается сходимым. [27]

В некоторых случаях модель может не достичь сходимости. Несходимость модели указывает на то, что коэффициенты не имеют смысла, поскольку итерационный процесс не смог найти подходящие решения. Неспособность сойтись может произойти по ряду причин: большое отношение предикторов к случаям, мультиколлинеарность , разреженность или полное разделение .

  • Большое отношение переменных к наблюдениям приводит к чрезмерно консервативной статистике Вальда (обсуждается ниже) и может привести к несходимости. Регуляризованная логистическая регрессия специально предназначена для использования в этой ситуации.
  • Мультиколлинеарность означает недопустимо высокие корреляции между предикторами. По мере увеличения мультиколлинеарности коэффициенты остаются несмещенными, но увеличиваются стандартные ошибки и уменьшается вероятность сходимости модели. [27] Чтобы обнаружить мультиколлинеарность среди предикторов, можно провести линейный регрессионный анализ с интересующими предикторами с единственной целью изучения статистики толерантности [27], используемой для оценки того, является ли мультиколлинеарность неприемлемо высокой.
  • Разреженность данных означает наличие большой доли пустых ячеек (ячеек с нулевым счетчиком). Нулевое количество ячеек особенно проблематично для категориальных предикторов. С непрерывными предикторами модель может вывести значения для нулевого количества ячеек, но это не относится к категориальным предикторам. Модель не будет сходиться с нулевым числом ячеек для категориальных предикторов, потому что натуральный логарифм нуля является неопределенным значением, поэтому окончательное решение модели не может быть достигнуто. Чтобы решить эту проблему, исследователи могут свернуть категории теоретически значимым образом или добавить константу ко всем ячейкам. [27]
  • Другой числовой проблемой, которая может привести к отсутствию сходимости, является полное разделение, которое относится к случаю, когда предикторы идеально предсказывают критерий - все случаи точно классифицируются. В таких случаях следует повторно проверить данные, поскольку, вероятно, есть какая-то ошибка. [15] [ требуется дальнейшее объяснение ]
  • Можно также использовать полупараметрический или непараметрический подходы, например, с помощью методов локального правдоподобия или непараметрических методов квази-правдоподобия, которые избегают предположений о параметрической форме для индексной функции и устойчивы к выбору функции связи (например, пробит или логит). [29]

Функция потери кросс-энтропии [ править ]

В приложениях машинного обучения, где для двоичной классификации используется логистическая регрессия, MLE минимизирует функцию кросс-энтропийных потерь.

Метод наименьших квадратов с итеративным перевесом (IRLS) [ править ]

Двоичный логистической регрессии ( или ) может, например, быть рассчитаны с использованием итеративного reweighted наименьших квадратов (IRLS), что эквивалентно максимизации журнала правдоподобия в виде распределенного Бернулли процесса с использованием метода Ньютона . Если задача записана в форме векторной матрицы с параметрами , независимыми переменными и математическим ожиданием распределения Бернулли , параметры можно найти с помощью следующего итерационного алгоритма:

где - диагональная матрица весов, вектор ожидаемых значений,

Матрица регрессора и вектор переменных ответа. Более подробную информацию можно найти в литературе. [30]

Оценка степени соответствия [ править ]

Степень соответствия в моделях линейной регрессии обычно измеряется с помощью R 2 . Поскольку у этого нет прямого аналога в логистической регрессии, вместо него можно использовать различные методы [31] : глава 21, включая следующие.

Тесты на отклонение и отношение правдоподобия [ править ]

В линейном регрессионном анализе речь идет о разделении дисперсии посредством вычислений суммы квадратов - дисперсия критерия по существу делится на дисперсию, учитываемую предикторами, и остаточную дисперсию. В анализе логистической регрессии вместо вычисления суммы квадратов используется отклонение . [32] Отклонение аналогично вычислению суммы квадратов в линейной регрессии [15] и является мерой отсутствия соответствия данным в модели логистической регрессии. [32] Когда доступна «насыщенная» модель (модель с теоретически идеальным соответствием), отклонение рассчитывается путем сравнения данной модели с насыщенной моделью. [15] Это вычисление даеткритерий отношения правдоподобия : [15]

В приведенном выше уравнении D представляет отклонение, а ln представляет собой натуральный логарифм. Логарифм этого отношения правдоподобия (отношение подобранной модели к насыщенной модели) даст отрицательное значение, следовательно, потребуется отрицательный знак. Можно показать, что D следует приблизительному распределению хи-квадрат . [15] Меньшие значения указывают на лучшее соответствие, поскольку подобранная модель меньше отклоняется от насыщенной модели. При оценке по распределению хи-квадрат незначительные значения хи-квадрат указывают на очень небольшую необъяснимую дисперсию и, следовательно, на хорошее соответствие модели. И наоборот, значительное значение хи-квадрат указывает на то, что значительная величина дисперсии необъяснима.

Когда насыщенная модель недоступна (общий случай), отклонение рассчитывается просто как −2 · (логарифмическая вероятность подобранной модели), и ссылка на логарифмическую вероятность насыщенной модели может быть без вреда для всех последующих.

В логистической регрессии особенно важны два показателя отклонения: нулевое отклонение и отклонение модели. Нулевое отклонение представляет собой разницу между моделью только с точкой пересечения (что означает «без предикторов») и насыщенной моделью. Отклонение модели представляет собой разницу между моделью с хотя бы одним предиктором и насыщенной моделью. [32] В этом отношении нулевая модель обеспечивает основу для сравнения моделей предикторов. Учитывая, что отклонение является мерой разницы между данной моделью и насыщенной моделью, меньшие значения указывают на лучшее соответствие. Таким образом, чтобы оценить вклад предиктора или набора предикторов, можно вычесть отклонение модели из нулевого отклонения и оценить разницу в распределении хи-квадрат с помощьюстепеней свободы [15], равных разнице в количестве оцениваемых параметров.

Позволять

Тогда разница обоих:

Если отклонение модели значительно меньше нулевого отклонения, то можно сделать вывод, что предиктор или набор предикторов значительно улучшили соответствие модели. Это аналогично F- критерию, используемому в линейном регрессионном анализе для оценки значимости прогноза. [32]

Псевдо-R-квадрат [ править ]

В линейной регрессии квадрата множественная корреляция, R ² используется для оценить степень согласия , поскольку он представляет долю дисперсии в критерии , что объясняется предсказателями. [32] В логистическом регрессионном анализе нет согласованной аналогичной меры, но есть несколько конкурирующих мер, каждая из которых имеет ограничения. [32] [33]

На этой странице рассматриваются четыре наиболее часто используемых индекса и один менее часто используемый:

  • Отношение правдоподобия R ² L
  • Кокс и Снелл R ² CS
  • Nagelkerke R ² N
  • Макфэдден R ² McF
  • Тюр Р ² Т

R ² L дан Коэном: [32]

Это наиболее аналогичный показатель квадрату множественных корреляций в линейной регрессии. [27] Он представляет собой пропорциональное уменьшение отклонения, при этом отклонение рассматривается как мера отклонения, аналогичная, но не идентичная дисперсии в линейном регрессионном анализе. [27] Одним из ограничений отношения правдоподобия R ² является то , что она не монотонно связана с отношением шансов, [32] означает , что она не обязательно возрастает по мере увеличения отношения шансов и не обязательно уменьшается по мере шансы соотношение уменьшается.

R ² CS является альтернативным показателем СОГЛАСИЯ , связанным с ¨R ² значения от линейной регрессии. [33] Это дает:

где L M и {{mvar | L 0 } - вероятности для аппроксимируемой модели и нулевой модели соответственно. Индекс Кокса и Снелла проблематичен из-за его максимального значения . Максимальное значение этого верхнего предела может составлять 0,75, но оно может легко достигать 0,48, когда предельная доля случаев мала. [33]

R ² N обеспечивает поправку к R ² Кокса и Снеллиуса, так что максимальное значение равно 1. Тем не менее, отношения Кокса и Снеллиуса и отношение правдоподобия R ²s показывают большее соответствие друг с другом, чем любой из них с R ² Нагелькерке . [32] Конечно, это может быть не так для значений, превышающих 0,75, поскольку индекс Кокса и Снелла ограничен этим значением. Отношение правдоподобия R ² часто предпочитают альтернативы , как это наиболее аналогично R ² в линейной регрессии , не зависит от базовой скорости (как Кокс и Снелл и Nagelkerke R²s увеличивается при увеличении доли случаев от 0 до 0,5) и изменяется от 0 до 1.

R ² McF определяется как

и предпочтительнее , чем R ² CS по Allison. [33] Два выражения R ² McF и R ² CS связаны соответственно соотношением

Тем не менее, в настоящее время Эллисон предпочитает R ² Т , которая является относительно новой мерой , разработанная Tjur. [34] Его можно рассчитать в два этапа: [33]

  1. Для каждого уровня зависимой переменной найдите среднее значение прогнозируемых вероятностей события.
  2. Возьмите абсолютное значение разности этих средних значений.

Слово предостережения в порядке при интерпретации псев- R ² статистики. Причина этих индексы приступа называют псевдо R ² является то , что они не представляют собой снижение пропорционального по ошибке как R ² в линейной регрессия делает. [32] Линейная регрессия предполагает гомоскедастичность , то есть дисперсия ошибки одинакова для всех значений критерия. Логистическая регрессия всегда будет гетероскедастической - дисперсия ошибок различается для каждого значения прогнозируемой оценки. Для каждого значения прогнозируемой оценки будет свое значение пропорционального уменьшения ошибки. Поэтому думать о R² как пропорциональное уменьшение ошибки в универсальном смысле логистической регрессии. [32]

Тест Хосмера – Лемешоу [ править ]

Тест Хосмер-Lemeshow использует тестовую статистику , что асимптотически следует за распределением , чтобы оценить , является ли или не соответствовать ожидаемым темпам событий в подгруппах модельной популяции наблюдаемая частоты событий. Некоторые статистики считают этот тест устаревшим из-за его зависимости от произвольного объединения предсказанных вероятностей и относительно низкой мощности. [35] χ 2 {\displaystyle \chi ^{2}}

Коэффициенты [ править ]

После подбора модели вполне вероятно, что исследователи захотят изучить вклад отдельных предикторов. Для этого они захотят изучить коэффициенты регрессии. В линейной регрессии коэффициенты регрессии представляют собой изменение критерия для каждого изменения единицы в предикторе. [32] В логистической регрессии, однако, коэффициенты регрессии представляют изменение логита для каждого изменения единицы в предикторе. Учитывая, что логит не является интуитивно понятным, исследователи, вероятно, сосредоточатся на влиянии предсказателя на экспоненциальную функцию коэффициента регрессии - отношения шансов (см. Определение ). В линейной регрессии значимость коэффициента регрессии оценивается путем вычисления tтест. В логистической регрессии существует несколько различных тестов, предназначенных для оценки значимости отдельного предиктора, в первую очередь тест отношения правдоподобия и статистика Вальда.

Тест отношения правдоподобия [ править ]

Рассмотренный выше тест отношения правдоподобия для оценки соответствия модели также является рекомендуемой процедурой для оценки вклада отдельных «предикторов» в данную модель. [15] [27] [32]В случае модели с одним предиктором, просто сравнивают отклонение модели предиктора с отклонением от нулевой модели на распределении хи-квадрат с одной степенью свободы. Если модель предиктора имеет значительно меньшее отклонение (ср. Хи-квадрат с использованием разницы в степенях свободы двух моделей), то можно сделать вывод, что существует значительная связь между "предиктором" и результатом. Хотя некоторые общие статистические пакеты (например, SPSS) предоставляют статистику теста отношения правдоподобия, без этого требовательного к вычислительным ресурсам теста было бы труднее оценить вклад отдельных предикторов в случае множественной логистической регрессии. [ необходима цитата ]Чтобы оценить вклад отдельных предикторов, можно ввести предикторы иерархически, сравнивая каждую новую модель с предыдущей, чтобы определить вклад каждого предиктора. [32] Статистики спорят о целесообразности так называемых «пошаговых» процедур. [ ласковые слова ] Есть опасения, что они могут не сохранить номинальные статистические свойства и могут ввести в заблуждение. [36]

Статистика Вальда [ править ]

В качестве альтернативы, при оценке вклада отдельных предикторов в данную модель, можно исследовать значимость статистики Вальда . Статистика Вальда, аналогичная t- критерию линейной регрессии, используется для оценки значимости коэффициентов. Статистика Вальда представляет собой отношение квадрата коэффициента регрессии к квадрату стандартной ошибки коэффициента и асимптотически распределяется как распределение хи-квадрат. [27]

Хотя несколько статистических пакетов (например, SPSS, SAS) сообщают статистику Вальда для оценки вклада отдельных предикторов, статистика Вальда имеет ограничения. Когда коэффициент регрессии велик, стандартная ошибка коэффициента регрессии также имеет тенденцию быть больше, увеличивая вероятность ошибки типа II . Статистика Вальда также имеет тенденцию быть необъективной, когда данные скудны. [32]

Выборка случай-контроль [ править ]

Допустим, случаи редкие. Тогда мы могли бы пожелать отбирать их чаще, чем их распространенность в популяции. Например, предположим, что есть заболевание, которым страдает 1 человек из 10 000, и для сбора данных нам необходимо пройти полное обследование. Проведение тысяч медицинских осмотров здоровых людей для получения данных только по нескольким больным может оказаться слишком дорогостоящим. Таким образом, мы можем оценить большее количество больных, возможно, все редкие исходы. Это тоже ретроспективная выборка или, что то же самое, несбалансированные данные. Как показывает практика, выборка элементов управления, в пять раз превышающих количество наблюдений, дает достаточные данные управления. [37]

Логистическая регрессия уникальна тем, что она может быть оценена на несбалансированных данных, а не на случайно выбранных данных, и при этом дает правильные оценки коэффициентов влияния каждой независимой переменной на результат. То есть, если мы сформируем логистическую модель из таких данных, если модель верна в общей популяции, все параметры верны, за исключением . Мы можем исправить это, если знаем истинную распространенность следующим образом: [37]

где - истинная распространенность, а - распространенность в выборке.

Формальная математическая спецификация [ править ]

Существуют различные эквивалентные спецификации логистической регрессии, которые вписываются в различные типы более общих моделей. Эти разные спецификации позволяют делать разные полезные обобщения.

Настройка [ править ]

Базовая настройка логистической регрессии выглядит следующим образом. Нам дан набор данных, содержащий N точек. Каждая точка i состоит из набора из m входных переменных x 1, i ... x m, i (также называемых независимыми переменными , переменными-предикторами, функциями или атрибутами) и двоичной выходной переменной Y i (также известной как зависимая переменная). Переменная, переменная ответа, выходная переменная или класс), то есть он может принимать только два возможных значения: 0 (часто означает «нет» или «сбой») или 1 (часто означает «да» или «успех»). Целью логистической регрессии является использование набора данных для создания модели прогнозирования переменной результата.

Некоторые примеры:

  • Наблюдаемые результаты - это наличие или отсутствие данного заболевания (например, диабета) у группы пациентов, а объясняющими переменными могут быть характеристики пациентов, которые считаются подходящими (пол, раса, возраст, артериальное давление , индекс массы тела. , так далее.).
  • Наблюдаемые результаты - это голоса (например, демократов или республиканцев ) группы людей на выборах, а объясняющие переменные - демографические характеристики каждого человека (например, пол, раса, возраст, доход и т. Д.). В таком случае один из двух результатов произвольно кодируется как 1, а другой как 0.

Как и в линейной регрессии, предполагается , что переменные результата Y i зависят от объясняющих переменных x 1, i ... x m, i .

Объясняющие переменные

Как показано выше в приведенных выше примерах, объясняющие переменные могут быть любого типа : действительные , бинарные , категориальные и т. Д. Основное различие заключается между непрерывными переменными (такими как доход, возраст и артериальное давление ) и дискретными переменными (такими как пол или раса). Дискретные переменные, относящиеся к более чем двум возможным вариантам выбора, обычно кодируются с использованием фиктивных переменных (или индикаторных переменных).), то есть отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значения дискретной переменной, где 1 означает «переменная имеет данное значение», а 0 означает «переменная не имеет этого значения».

Например, четырехсторонняя дискретная переменная группы крови с возможными значениями «A, B, AB, O» может быть преобразована в четыре отдельных двусторонних фиктивных переменных «is-A, is-B, is-AB, is-O ", где только один из них имеет значение 1, а все остальные имеют значение 0. Это позволяет сопоставить отдельные коэффициенты регрессии для каждого возможного значения дискретной переменной. (В таком случае только три из четырех фиктивных переменных независимы друг от друга в том смысле, что, как только значения трех переменных известны, четвертая определяется автоматически. Таким образом, необходимо кодировать только три из четырех возможностей в качестве фиктивных переменных. Это также означает, что когда все четыре возможности закодированы, общая модель не поддается идентификациипри отсутствии дополнительных ограничений, таких как ограничение регуляризации. Теоретически это может вызвать проблемы, но на самом деле почти все модели логистической регрессии имеют ограничения регуляризации.)

Переменные результата

Формально результаты Y i описываются как данные, распределенные по Бернулли , где каждый результат определяется ненаблюдаемой вероятностью p i, которая специфична для данного результата, но связана с независимыми переменными. Это может быть выражено в любой из следующих эквивалентных форм:

Значения этих четырех строк:

  1. Первая строка выражает распределение вероятностей каждого Y i : при условии независимых переменных, оно следует распределению Бернулли с параметрами p i , вероятностью результата 1 для испытания i . Как отмечалось выше, каждое отдельное испытание имеет собственную вероятность успеха, так же как каждое испытание имеет свои собственные объясняющие переменные. Вероятность успеха p i не наблюдается, только результат отдельного испытания Бернулли с использованием этой вероятности.
  2. Вторая строка выражает тот факт, что ожидаемое значение каждого Y i равно вероятности успеха p i , что является общим свойством распределения Бернулли. Другими словами, если мы проведем большое количество испытаний Бернулли с одинаковой вероятностью успеха p i , а затем возьмем среднее значение для всех исходов 1 и 0, то результат будет близок к p i . Это связано с тем, что вычисление среднего таким образом просто вычисляет долю увиденных успехов, которые, как мы ожидаем, сойдутся с основной вероятностью успеха.
  3. В третьей строке записана функция массы вероятности распределения Бернулли с указанием вероятности увидеть каждый из двух возможных результатов.
  4. Четвертая строка - это еще один способ записи функции массы вероятности, который позволяет избежать написания отдельных случаев и более удобен для определенных типов вычислений. Это основано на том факте, что Y i может принимать только значение 0 или 1. В каждом случае один из показателей будет равен 1, «выбирая» значение под ним, а другой - 0, «отменяя» значение под Это. Следовательно, результат будет либо p i, либо 1 -  p i , как в предыдущей строке.
Линейная функция предиктора

Основная идея логистической регрессии заключается в использовании механизма, уже разработанного для линейной регрессии, путем моделирования вероятности p i с использованием функции линейного предиктора , то есть линейной комбинации независимых переменных и набора коэффициентов регрессии , специфичных для данной модели. но то же самое для всех испытаний. Функция линейного предсказания для конкретной точки данных i записывается как:

где - коэффициенты регрессии, показывающие относительное влияние конкретной объясняющей переменной на результат.

Модель обычно принимают в более компактном виде:

  • Коэффициенты регрессии β 0 , β 1 , ..., β m сгруппированы в один вектор β размера m  + 1.
  • Для каждой точки данных I , дополнительный пояснительный псевдо-переменную х 0, я добавляется, с фиксированным значением 1, что соответствует перехватывают коэффициента & beta ; 0 .
  • Результирующие объясняющие переменные x 0, i , x 1, i , ..., x m, i затем группируются в один вектор X i размера m  + 1.

Это позволяет записать функцию линейного предсказания следующим образом:

с использованием обозначения для скалярного произведения между двумя векторами.

Как обобщенная линейная модель [ править ]

Конкретная модель, используемая логистической регрессией, которая отличает ее от стандартной линейной регрессии и от других типов регрессионного анализа, используемых для бинарных результатов, - это способ, которым вероятность конкретного результата связана с функцией линейного предиктора:

Написано с использованием более компактных обозначений, описанных выше, это:

Эта формулировка выражает логистическую регрессию как тип обобщенной линейной модели , которая предсказывает переменные с различными типами распределений вероятностей путем подгонки линейной функции-предиктора указанной выше формы к некоторому произвольному преобразованию ожидаемого значения переменной.

Интуиция для преобразования с использованием функции логита (натуральный логарифм шансов) объяснялась выше. Он также имеет практический эффект преобразования вероятности (которая ограничена значением от 0 до 1) в переменную, которая находится в пределах диапазона, тем самым согласовывая потенциальный диапазон функции линейного прогнозирования в правой части уравнения.

Обратите внимание, что как вероятности p i, так и коэффициенты регрессии не наблюдаются, и средства их определения не являются частью самой модели. Как правило, они определяются с помощью какой-либо процедуры оптимизации, например, оценки максимального правдоподобия , которая находит значения, которые лучше всего соответствуют наблюдаемым данным (т. Е. Дают наиболее точные прогнозы для уже наблюдаемых данных), обычно с учетом условий регуляризации, которые стремятся исключить маловероятные данные. значения, например чрезвычайно большие значения для любого из коэффициентов регрессии. Использование условия регуляризации эквивалентно максимальной апостериорной оценке (MAP), расширению максимального правдоподобия. (Регуляризация чаще всего выполняется с помощьювозведенная в квадрат регуляризирующая функция , которая эквивалентна помещению гауссовского априорного распределения с нулевым средним для коэффициентов, но также возможны другие регуляризаторы.) Независимо от того, используется ли регуляризация, обычно невозможно найти решение в замкнутой форме; вместо этого должен использоваться итерационный численный метод, такой как метод наименьших квадратов с итеративным пересмотром взвешенных значений (IRLS) или, что чаще в наши дни, квазиньютоновский метод, такой как метод L-BFGS . [38]

Интерпретация оценок параметра β j заключается в аддитивном влиянии на логарифм шансов для единичного изменения объясняющей переменной j . В случае дихотомической объясняющей переменной, например, пол - это оценка шансов получить результат, скажем, для мужчин по сравнению с женщинами.

Эквивалентная формула использует обратную функцию логита, которая является логистической функцией , то есть:

Формулу также можно записать как распределение вероятностей (в частности, используя функцию массы вероятностей ):

Как модель со скрытыми переменными [ править ]

Вышеупомянутая модель имеет эквивалентную формулировку как модель со скрытыми переменными . Эта формулировка является общей в теории моделей дискретного выбора и упрощает ее распространение на определенные более сложные модели с множественными коррелированными вариантами выбора, а также сравнение логистической регрессии с тесно связанной пробит-моделью .

Представьте, что для каждого испытания i существует непрерывная скрытая переменная Y i * (т. Е. Ненаблюдаемая случайная величина ), которая распределяется следующим образом:

куда

т.е. скрытая переменная может быть записана непосредственно в терминах функции линейного предсказания и переменной случайной аддитивной ошибки, которая распределяется согласно стандартному логистическому распределению .

Тогда Y i можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Выбор моделирования переменной ошибки специально со стандартным логистическим распределением, а не с общим логистическим распределением с местоположением и масштабом, установленными на произвольные значения, кажется ограничительным, но на самом деле это не так. Следует иметь в виду, что мы можем сами выбирать коэффициенты регрессии и очень часто можем использовать их для компенсации изменений параметров распределения переменной ошибки. Например, распределение переменной логистической ошибки с ненулевым параметром местоположения μ (который устанавливает среднее значение) эквивалентно распределению с нулевым параметром местоположения, где μ добавлен к коэффициенту пересечения. Обе ситуации дают одинаковое значение для Y i *независимо от настроек объясняющих переменных. Точно так же произвольный параметр масштабирования s эквивалентен установке параметра масштабирования на 1 и последующему делению всех коэффициентов регрессии на s . В последнем случае результирующее значение Y i * будет в s раз меньше, чем в первом случае, для всех наборов объясняющих переменных, но, что важно, оно всегда будет оставаться на той же стороне от 0 и, следовательно, приведет к к тому же Y я выбор.

(Обратите внимание, что это предсказывает, что несоответствие параметра масштаба не может быть перенесено на более сложные модели, где доступно более двух вариантов.)

Оказывается, эта формулировка в точности эквивалентна предыдущей, сформулированная в терминах обобщенной линейной модели и без каких-либо скрытых переменных . Это можно показать следующим образом, используя тот факт, что кумулятивная функция распределения (CDF) стандартного логистического распределения является логистической функцией , которая является обратной функцией логита , т. Е.

Потом:

Эта формулировка - стандартная для моделей дискретного выбора - проясняет взаимосвязь между логистической регрессией («логит-модель») и пробит-моделью , которая использует переменную ошибки, распределенную согласно стандартному нормальному распределению вместо стандартного логистического распределения. Как логистическое, так и нормальное распределения симметричны базовой унимодальной форме «колоколообразной кривой». Единственное отличие состоит в том, что логистическое распределение имеет несколько более тяжелые хвосты , что означает, что оно менее чувствительно к внешним данным (и, следовательно, несколько более устойчиво к моделированию неверных спецификаций или ошибочных данных).

Двусторонняя модель скрытых переменных [ править ]

Еще одна формулировка использует две отдельные скрытые переменные:

куда

где EV 1 (0,1) - стандартное распределение экстремальных значений типа 1 : т.е.

потом

Эта модель имеет отдельную скрытую переменную и отдельный набор коэффициентов регрессии для каждого возможного результата зависимой переменной. Причина этого разделения заключается в том, что это позволяет легко расширить логистическую регрессию на многозначные категориальные переменные, как в полиномиальной логит- модели. В такой модели естественно моделировать каждый возможный результат, используя другой набор коэффициентов регрессии. Также можно мотивировать каждую из отдельных скрытых переменных как теоретическую полезность, связанную с соответствующим выбором, и, таким образом, мотивировать логистическую регрессию с точки зрения теории полезности.. (С точки зрения теории полезности, рациональный субъект всегда выбирает вариант с наибольшей связанной полезностью.) Это подход, используемый экономистами при формулировании моделей дискретного выбора , поскольку он обеспечивает теоретически прочную основу и облегчает интуитивное понимание модели, что в свою очередь, позволяет легко рассматривать различные виды расширений. (См. Пример ниже.)

Выбор распределения экстремальных значений типа 1 кажется довольно произвольным, но он заставляет математику работать, и его использование может быть оправдано с помощью теории рационального выбора .

Оказывается, эта модель эквивалентна предыдущей модели, хотя это кажется неочевидным, поскольку теперь есть два набора коэффициентов регрессии и переменных ошибок, а переменные ошибок имеют другое распределение. Фактически, эта модель непосредственно сводится к предыдущей со следующими заменами:

Интуиция к этому исходит из того факта, что, поскольку мы выбираем на основе максимального из двух значений, имеет значение только их разница, а не точные значения - и это эффективно устраняет одну степень свободы . Другой важный факт заключается в том, что разница двух переменных с распределением экстремальных значений типа 1 является логистическим распределением, т.е. мы можем продемонстрировать эквивалент следующим образом:

Пример [ править ]

В качестве примера рассмотрим выборы на уровне провинции, где выбор делается между правоцентристской партией, левоцентристской партией и сепаратистской партией (например, Parti Québécois , которая хочет отделения Квебека от Канады ). Затем мы использовали бы три скрытые переменные, по одной для каждого выбора. Затем, в соответствии с теорией полезности , мы можем интерпретировать скрытые переменные как выражающие полезность.это результат каждого выбора. Мы также можем интерпретировать коэффициенты регрессии как показывающие силу, которую связанный фактор (т. Е. Объясняющая переменная) имеет в содействии полезности, или, точнее, количество, на которое изменение единицы в объясняющей переменной изменяет полезность данного выбора. Избиратель может ожидать, что правоцентристская партия снизит налоги, особенно для богатых. Это не дало бы людям с низкими доходами никакой выгоды, то есть никаких изменений в полезности (поскольку они обычно не платят налоги); принесет умеренную выгоду (то есть несколько больше денег или умеренное повышение полезности) для людей среднего уровня; принесет значительные выгоды людям с высоким доходом. С другой стороны,можно ожидать, что левоцентристская партия повысит налоги и компенсирует их повышением благосостояния и другой помощью для нижних и средних классов. Это принесет значительную положительную пользу людям с низким доходом, возможно, слабую пользу людям со средним доходом и значительную отрицательную пользу людям с высокими доходами. Наконец, сепаратистская партия не будет предпринимать никаких прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытка от полезности, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будет владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.и значительная отрицательная выгода для людей с высокими доходами. Наконец, сепаратистская партия не будет предпринимать никаких прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытка от полезности, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будет владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.и значительная отрицательная выгода для людей с высокими доходами. Наконец, сепаратистская партия не будет предпринимать никаких прямых действий в отношении экономики, а просто отделится. Избиратель с низким или средним доходом может в основном не ожидать от этого явной выгоды или убытка от полезности, но избиратель с высоким доходом может ожидать отрицательной полезности, поскольку он / она, вероятно, будет владеть компаниями, которым будет труднее вести бизнес. такая среда и, вероятно, потеряете деньги.которым будет труднее вести бизнес в такой среде и, вероятно, потерять деньги.которым будет труднее вести бизнес в такой среде и, вероятно, потерять деньги.

Эти интуиции можно выразить следующим образом:

Это ясно показывает, что

  1. Для каждого выбора должны существовать отдельные наборы коэффициентов регрессии. Если сформулировать это с точки зрения полезности, это очень легко увидеть. Разные варианты по-разному влияют на чистую полезность; кроме того, эффекты различаются сложным образом, что зависит от характеристик каждого человека, поэтому должны быть отдельные наборы коэффициентов для каждой характеристики, а не просто одна дополнительная характеристика для каждого выбора.
  2. Несмотря на то, что доход является непрерывной переменной, его влияние на полезность слишком сложно, чтобы его можно было рассматривать как единственную переменную. Либо его необходимо напрямую разделить на диапазоны, либо необходимо добавить более высокие степени дохода, чтобы эффективно выполнить полиномиальную регрессию дохода.

Как "лог-линейная" модель [ править ]

Еще одна формулировка сочетает описанную выше формулировку двусторонних латентных переменных с исходной формулировкой выше без скрытых переменных и в процессе обеспечивает связь с одной из стандартных формулировок полиномиального логита .

Здесь, вместо того, чтобы записывать логит вероятностей p i в качестве линейного предиктора, мы разделяем линейный предиктор на два, по одному для каждого из двух результатов:

Обратите внимание, что были введены два отдельных набора коэффициентов регрессии, как и в модели двусторонних скрытых переменных, и эти два уравнения представляют собой форму, которая записывает логарифм связанной вероятности в качестве линейного предиктора с дополнительным членом в конце . Этот член, как оказалось, служит нормирующим фактором, гарантирующим, что результат является распределением. Это можно увидеть, возведя в степень обе стороны:

В этой форме ясно, что цель Z - гарантировать, что результирующее распределение по Y i на самом деле является распределением вероятностей , т. Е. Суммируется с 1. Это означает, что Z - это просто сумма всех ненормированных вероятностей, и путем деления каждой вероятности на Z , вероятности становятся « нормализованными ». То есть:

и результирующие уравнения

Или вообще:

Это ясно показывает, как обобщить эту формулировку более чем на два результата, как в полиномиальном логите . Обратите внимание, что эта общая формулировка является в точности функцией softmax, как в

Чтобы доказать, что это эквивалентно предыдущей модели, обратите внимание, что указанная выше модель является завышенной и не может быть определена независимо: скорее, знание одной автоматически определяет другую. В результате модель не идентифицируема , поскольку несколько комбинаций β 0 и β 1 будут давать одинаковые вероятности для всех возможных объясняющих переменных. Фактически, можно видеть, что добавление любого постоянного вектора к ним обоим даст одинаковые вероятности:

В результате мы можем упростить ситуацию и восстановить идентифицируемость, выбрав произвольное значение для одного из двух векторов. Мы выбираем установить Затем,

и так

что показывает, что эта формулировка действительно эквивалентна предыдущей формулировке. (Как и в формулировке двусторонней скрытой переменной, любые настройки, при которых будут давать эквивалентные результаты.)

Обратите внимание, что большинство трактовок полиномиальной логит- модели начинается либо с расширения «лог-линейной» формулировки, представленной здесь, либо с формулировки двухсторонней латентной переменной, представленной выше, поскольку оба ясно показывают способ расширения модели до многофакторной результаты. В целом представление со скрытыми переменными более распространено в эконометрике и политологии , где господствуют модели дискретного выбора и теория полезности , тогда как «лог-линейная» формулировка здесь более распространена в информатике , например, в машинном обучении и обработке естественного языка .

Как однослойный перцептрон [ править ]

Модель имеет эквивалентную формулировку

Эта функциональная форма обычно называется однослойным персептроном или однослойной искусственной нейронной сетью . Однослойная нейронная сеть вычисляет непрерывный вывод вместо пошаговой функции . Производная p i по X  = ( x 1 , ..., x k ) вычисляется из общей формы:

где F ( X ) является аналитической функцией в X . При таком выборе однослойная нейронная сеть идентична модели логистической регрессии. Эта функция имеет непрерывную производную, что позволяет использовать ее при обратном распространении . Эта функция также предпочтительна, потому что ее производная легко вычисляется:

Что касается биномиальных данных [ править ]

Тесно связанная модель предполагает, что каждое i связано не с одним испытанием Бернулли, а с n i независимыми одинаково распределенными испытаниями, где наблюдение Y i - это количество наблюдаемых успехов (сумма отдельных случайных величин, распределенных по Бернулли), и отсюда следует биномиальное распределение :

Примером этого распределения является доля семян ( p i ), прорастающих после посадки n i .

С точки зрения ожидаемых значений эта модель выражается следующим образом:

так что

Или эквивалентно:

Эта модель может быть подобрана с использованием тех же методов, что и описанная выше более базовая модель.

Байесовский [ править ]

Сравнение логистической функции с масштабированной обратной функцией пробиты (т.е. CDF от нормального распределения ), по сравнению VS. , что делает склоны и то же в начале координат. Это показывает более тяжелые хвосты логистического распределения.

В контексте байесовской статистики априорные распределения обычно помещаются в коэффициенты регрессии, обычно в форме гауссовых распределений . В логистической регрессии нет сопряженного априорного значения функции правдоподобия . Когда байесовский вывод выполнялся аналитически, это затрудняло вычисление апостериорного распределения, за исключением очень малых измерений. Однако теперь автоматическое программное обеспечение, такое как OpenBUGS , JAGS , PyMC3 , Stan или Turing.jlпозволяет вычислить эти апостериорные данные с помощью моделирования, поэтому отсутствие сопряженности не является проблемой. Однако, когда размер выборки или количество параметров велико, полное байесовское моделирование может быть медленным, и люди часто используют приближенные методы, такие как вариационные байесовские методы и математическое ожидание .

История [ править ]

Подробная история логистической регрессии приведена в Cramer (2002) . Логистическая функция была разработана как модель роста населения и названа «логистической» Пьером Франсуа Верхюльстом в 1830-х и 1840-х годах под руководством Адольфа Кетле ; см. раздел «Логистическая функция» § История . [39] В своей самой ранней статье (1838 г.) Ферхюльст не уточнил, как он подгоняет кривые к данным. [40] [41] В своей более подробной статье (1845 г.) Ферхюльст определил три параметра модели, заставив кривую проходить через три наблюдаемые точки, что дало плохие прогнозы. [42] [43]

Логистическая функция была независимо разработана в химии как модель автокатализа ( Wilhelm Ostwald , 1883). [44] Автокаталитическая реакция - это реакция, в которой один из продуктов сам по себе является катализатором той же реакции, а подача одного из реагентов является фиксированной. Это естественным образом приводит к логистическому уравнению по той же причине, что и рост населения: реакция является самоусиливающейся, но ограниченной.

Логистическая функция была независимо вновь открыта как модель роста населения в 1920 году Раймондом Перлом и Лоуэллом Ридом , опубликованная как Pearl & Reed (1920) , что привело к ее использованию в современной статистике. Первоначально они не знали о работе Ферхюльста и, предположительно, узнали о ней от Л. Гюстава дю Паскье , но не поверили ему и не приняли его терминологию. [45] Приоритет Verhulst был признан, и термин «логистический» был возрожден Удным Юлом в 1925 году и с тех пор используется. [46]Перл и Рид сначала применили модель к населению Соединенных Штатов, а также сначала подогнали кривую, проведя ее через три точки; как и в случае с Verhulst, это снова дало плохие результаты. [47]

В 1930 году модель пробит была разработана и систематизирована Честер Итнер Блисс , который ввел термин «пробит» в Bliss (1934) , и Джон Гаддум в Gaddum (1933) , а модель подходит по оценке максимального правдоподобия по Рональда A Фишер у Фишера (1935) , как приложение к работе Блисс. Модель пробит в основном использовалась в биотестах , и ей предшествовали более ранние работы, датированные 1860 годом; см. Пробит модель § История . Пробит-модель повлияла на последующее развитие логит-модели, и эти модели конкурировали друг с другом. [48]

Логистическая модель, вероятно, впервые была использована в качестве альтернативы пробит-модели в биопробах Эдвином Бидвеллом Уилсоном и его ученицей Джейн Вустер в Wilson & Worcester (1943) . [49] Однако разработка логистической модели в качестве общей альтернативы пробит-модели была в основном связана с работой Джозефа Берксона на протяжении многих десятилетий, начиная с Берксона (1944) , где он придумал «логит» по аналогии с « пробит », и продолжалось в Берксоне (1951) и в последующие годы. [50] Логит-модель изначально была отклонена как уступающая пробит-модели, но «постепенно достигла равенства с логит-моделью» [51]особенно между 1960 и 1970 годами. К 1970 году логит-модель достигла паритета с пробит-моделью, используемой в статистических журналах, и впоследствии превзошла ее. Эта относительная популярность объяснялась принятием логита за пределами биотеста, а не вытеснением пробита в биотесте, и его неформальным использованием на практике; Популярность логита объясняется вычислительной простотой, математическими свойствами и универсальностью модели логита, что позволяет использовать ее в различных областях. [52]

За это время произошли различные уточнения, в частности, Дэвид Кокс , например, Кокс (1958) . [2]

Модель полиномиального логита была введена независимо Коксом (1966) и Тилем (1969) , что значительно увеличило сферу применения и популярность логит модели. [53] В 1973 году Дэниел Макфадден связал полиномиальный логит с теорией дискретного выбора , в частности аксиомой выбора Люса , показав, что полиномиальный логит следует из предположения о независимости нерелевантных альтернатив и интерпретации шансов альтернатив как относительных предпочтений; [54] это дало теоретическую основу логистической регрессии. [53]

Расширения [ править ]

Есть большое количество расширений:

  • Полиномиальная логистическая регрессия (или полиномиальный логит ) обрабатывает случай многосторонней категориальной зависимой переменной (с неупорядоченными значениями, также называемой «классификацией»). Обратите внимание, что общий случай наличия зависимых переменных с более чем двумя значениями называется политомической регрессией .
  • Упорядоченная логистическая регрессия (или упорядоченный логит ) обрабатывает порядковые зависимые переменные (упорядоченные значения).
  • Смешанный логит - это расширение полиномиального логита, которое учитывает корреляции между вариантами выбора зависимой переменной.
  • Расширением логистической модели на наборы взаимозависимых переменных является условное случайное поле .
  • Условная логистическая регрессия обрабатывает совпадающие или стратифицированные данные, когда страты небольшие. В основном он используется при анализе наблюдательных исследований .

Программное обеспечение [ править ]

Большинство статистических программ могут выполнять бинарную логистическую регрессию.

  • SPSS
    • [1] для базовой логистической регрессии.
  • Stata
  • SAS
    • PROC LOGISTIC для базовой логистической регрессии.
    • PROC CATMOD, когда все переменные категоричны.
    • PROC GLIMMIX для многоуровневой модели логистической регрессии.
  • р
    • glmв пакете статистики (с использованием family = binomial) [55]
    • lrmв пакете rms
    • Пакет GLMNET для эффективной реализации регуляризованной логистической регрессии
    • lmer для логистической регрессии со смешанными эффектами
    • Команда пакета Rfast gm_logisticдля быстрых и тяжелых вычислений с крупномасштабными данными.
    • пакет arm для байесовской логистической регрессии
  • Python
    • Logitв модуле Statsmodels .
    • LogisticRegressionв модуле Scikit-learn .
    • LogisticRegressorв модуле TensorFlow .
    • Полный пример логистической регрессии в учебнике Theano [2]
    • Байесовская логистическая регрессия с предварительным кодом ARD , учебник
    • Вариационная байесовская логистическая регрессия с предыдущим кодом ARD , учебник
    • Код байесовской логистической регрессии , учебное пособие
  • NCSS
    • Логистическая регрессия в NCSS
  • Matlab
    • mnrfitв панели инструментов статистики и машинного обучения (с ошибкой, закодированной как 2 вместо 0)
    • fminunc/fmincon, fitglm, mnrfit, fitclinear, mle могут все сделать логистическую регрессию.
  • Java ( JVM )
    • LibLinear
    • Apache Flink
    • Apache Spark
      • SparkML поддерживает логистическую регрессию
  • FPGA
    • Logistic Regresesion IP coreв HLS для FPGA .

Примечательно, что пакет расширения статистики Microsoft Excel не включает его.

См. Также [ править ]

  • Логистическая функция
  • Дискретный выбор
  • Модель Ярроу – Тернбулла
  • Ограниченная зависимая переменная
  • Полиномиальная логит-модель
  • Заказал логит
  • Тест Хосмера – Лемешоу
  • Оценка Бриера
  • mlpack - содержит реализацию логистической регрессии на C ++
  • Выборка для местного контроля
  • Дерево логистической модели

Ссылки [ править ]

  1. ^ Толлес, Джулиана; Мерер, Уильям Дж (2016). «Логистическая регрессия, связывающая характеристики пациентов с результатами». JAMA . 316 (5): 533–4. DOI : 10,1001 / jama.2016.7653 . ISSN  0098-7484 . OCLC  6823603312 . PMID  27483067 .
  2. ^ a b Уокер, SH; Дункан, ДБ (1967). «Оценка вероятности события как функции нескольких независимых переменных». Биометрика . 54 (1/2): 167–178. DOI : 10.2307 / 2333860 . JSTOR 2333860 . 
  3. Перейти ↑ Cramer 2002 , p. 8.
  4. ^ Бойд, CR; Толсон, Массачусетс; Копс, WS (1987). «Оценка помощи при травмах: метод TRISS. Оценка травмы и оценка тяжести травмы». Журнал травм . 27 (4): 370–378. DOI : 10.1097 / 00005373-198704000-00005 . PMID 3106646 . 
  5. ^ Кологлу, М .; Elker, D .; Алтун, Х .; Сайек, И. (2001). «Валидация MPI и PIA II в двух разных группах пациентов со вторичным перитонитом». Гепато-гастроэнтерология . 48 (37): 147–51. PMID 11268952 . 
  6. ^ Biondo, S .; Ramos, E .; Deiros, M .; Ragué, JM; De Oca, J .; Moreno, P .; Farran, L .; Джаурриета, Э. (2000). «Прогностические факторы смертности при перитоните левой толстой кишки: новая система баллов». Журнал Американского колледжа хирургов . 191 (6): 635–42. DOI : 10.1016 / S1072-7515 (00) 00758-4 . PMID 11129812 . 
  7. ^ Маршалл, JC; Повар, диджей; Christou, NV; Бернар, GR; Подрессоренный, CL; Сиббальд, WJ (1995). «Оценка множественной дисфункции органов: надежный дескриптор сложного клинического исхода». Реанимационная медицина . 23 (10): 1638–52. DOI : 10.1097 / 00003246-199510000-00007 . PMID 7587228 . 
  8. ^ Ле Галл, младший; Lemeshow, S .; Saulnier, F. (1993). «Новая упрощенная оценка острой физиологии (SAPS II) на основе многоцентрового исследования в Европе и Северной Америке». JAMA . 270 (24): 2957–63. DOI : 10,1001 / jama.1993.03510240069035 . PMID 8254858 . 
  9. ^ а б Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 128.
  10. ^ Truett, J; Кукурузное поле, Дж; Каннел, W. (1967). «Многомерный анализ риска ишемической болезни сердца во Фрамингеме». Журнал хронических болезней . 20 (7): 511–24. DOI : 10.1016 / 0021-9681 (67) 90082-3 . PMID 6028270 . 
  11. ^ Харрелл, Фрэнк Э. (2001). Стратегии регрессионного моделирования (2-е изд.). Springer-Verlag. ISBN 978-0-387-95232-1.
  12. ^ М. Strano; Б.М. Колозимо (2006). «Логистический регрессионный анализ для экспериментального определения построения предельных диаграмм». Международный журнал станков и производства . 46 (6): 673–682. DOI : 10.1016 / j.ijmachtools.2005.07.005 .
  13. ^ Палей, СК; Дас, СК (2009). «Модель логистической регрессии для прогнозирования рисков обрушения кровли при выработках бортов и колонн в угольных шахтах: подход». Наука о безопасности . 47 : 88–96. DOI : 10.1016 / j.ssci.2008.01.002 .
  14. ^ Берри, Майкл JA (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Вайли. п. 10.
  15. ^ a b c d e f g h i j k Хосмер, Дэвид В .; Лемешоу, Стэнли (2000). Прикладная логистическая регрессия (2-е изд.). Вайли. ISBN 978-0-471-35632-5.[ требуется страница ]
  16. ^ a b Харрелл, Фрэнк Э. (2015). Стратегии регрессионного моделирования . Серия Спрингера в статистике (2-е изд.). Нью-Йорк; Springer. DOI : 10.1007 / 978-3-319-19425-7 . ISBN 978-3-319-19424-0.
  17. ^ Родригес, Г. (2007). Конспект лекций по обобщенным линейным моделям . стр. Глава 3, стр. 45 - через http://data.princeton.edu/wws509/notes/ .
  18. Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение . Springer. п. 6.
  19. ^ Похар, Майя; Блас, Матея; Терк, Сандра (2004). «Сравнение логистической регрессии и линейного дискриминантного анализа: имитационное исследование» . Методолошки Звездки . 1 (1).
  20. ^ "Как интерпретировать отношение шансов в логистической регрессии?" . Институт цифровых исследований и образования.
  21. ^ Everitt, Brian (1998). Кембриджский статистический словарь . Кембридж, Великобритания Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0521593465.
  22. Перейти ↑ Ng, Andrew (2000). «Конспект лекции CS229» (PDF) . CS229 Конспект лекции : 16–19.
  23. ^ Ван Смеден, М .; Де Гроот, JA; Луны, кг; Коллинз, GS; Альтман, Д.Г.; Эйкеманс, MJ; Рейцма, JB (2016). «Нет обоснования для критерия 1 переменная на 10 событий для бинарного логистического регрессионного анализа» . BMC Medical Research Methodology . 16 (1): 163. DOI : 10,1186 / s12874-016-0267-3 . PMC 5122171 . PMID 27881078 .  
  24. ^ Peduzzi, P; Конкато, Дж; Кемпер, Э; Холфорд, TR; Файнштейн, АР (декабрь 1996 г.). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–9. DOI : 10.1016 / s0895-4356 (96) 00236-3 . PMID 8970487 . 
  25. ^ Vittinghoff, E .; Маккалок, CE (12 января 2007 г.). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса» . Американский журнал эпидемиологии . 165 (6): 710–718. DOI : 10.1093 / AJE / kwk052 . PMID 17182981 . 
  26. ^ ван дер Плоег, Тьерд; Остин, Питер С .; Стейерберг, Юут В. (2014). «Современные методы моделирования требуют данных: имитационное моделирование для прогнозирования дихотомических конечных точек» . BMC Medical Research Methodology . 14 : 137. DOI : 10,1186 / 1471-2288-14-137 . PMC 4289553 . PMID 25532820 .  
  27. ^ a b c d e f g h я Menard, Scott W. (2002). Прикладная логистическая регрессия (2-е изд.). МУДРЕЦ. ISBN 978-0-7619-2208-7.[ требуется страница ]
  28. ^ Гурье, Кристиан; Монфор, Ален (1981). «Асимптотические свойства оценки максимального правдоподобия в дихотомических логит-моделях». Журнал эконометрики . 17 (1): 83–97. DOI : 10.1016 / 0304-4076 (81) 90060-9 .
  29. ^ Парк, Byeong U .; Симар, Леопольд; Зеленюк, Валентин (2017). «Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов» (PDF) . Вычислительная статистика и анализ данных . 108 : 97–120. DOI : 10.1016 / j.csda.2016.10.024 .
  30. ^ См. Например . Мерфи, Кевин П. (2012). Машинное обучение - вероятностная перспектива . MIT Press. стр. 245с. ISBN 978-0-262-01802-9.
  31. ^ Грин, Уильям Н. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. ISBN 978-0-13-066189-0.
  32. ^ Б с д е е г ч я J к л м п о Cohen, Иакова; Коэн, Патрисия; Уэст, Стивен Дж .; Айкен, Леона С. (2002). Прикладная множественная регрессия / корреляционный анализ для поведенческих наук (3-е изд.). Рутледж. ISBN 978-0-8058-2223-6.[ требуется страница ]
  33. ^ a b c d e Эллисон, Пол Д. «Меры соответствия логистической регрессии» (PDF) . Statistical Horizons LLC и Пенсильванский университет.
  34. ^ Tjur, Вт (2009). «Коэффициенты детерминации в моделях логистической регрессии». Американский статистик : 366–372. DOI : 10.1198 / tast.2009.08210 .[ требуется полная ссылка ]
  35. ^ Хосмер, DW (1997). «Сравнение критериев согласия для модели логистической регрессии». Stat Med . 16 (9): 965–980. DOI : 10.1002 / (sici) 1097-0258 (19970515) 16: 9 <965 :: aid-sim509> 3.3.co; 2-ф .
  36. ^ Харрелл, Фрэнк Э. (2010). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической регрессии и анализу выживаемости . Нью-Йорк: Спрингер. ISBN 978-1-4419-2918-1.[ требуется страница ]
  37. ^ a b https://class.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/classification.pdf слайд 16
  38. ^ Malouf, Роберт (2002). «Сравнение алгоритмов оценки максимального энтропийного параметра» . Труды Шестой конференции по изучению естественного языка (CoNLL-2002) . С. 49–55. DOI : 10.3115 / 1118853.1118871 .
  39. Перейти ↑ Cramer 2002 , pp. 3–5.
  40. Verhulst, Пьер-Франсуа (1838). "Notice sur la loi que la population poursuit dans son accroissement" (PDF) . Соответствие Mathématique et Physique . 10 : 113–121 . Дата обращения 3 декабря 2014 .
  41. Перейти ↑ Cramer 2002 , p. 4, «Он не сказал, как он подогнал кривые».
  42. Verhulst, Пьер-Франсуа (1845). "Recherches mathématiques sur la loi d'accroissement de la Population" [Математические исследования закона увеличения роста населения]. Nouveaux Mémoires de l'Académie Royale des Sciences et Belles-Lettres de Bruxelles . 18 . Проверено 18 февраля 2013 .
  43. Перейти ↑ Cramer 2002 , p. 4.
  44. Перейти ↑ Cramer 2002 , p. 7.
  45. Перейти ↑ Cramer 2002 , p. 6.
  46. Перейти ↑ Cramer 2002 , p. 6–7.
  47. Перейти ↑ Cramer 2002 , p. 5.
  48. Перейти ↑ Cramer 2002 , p. 7–9.
  49. Перейти ↑ Cramer 2002 , p. 9.
  50. Перейти ↑ Cramer 2002 , p. 8: «Насколько я понимаю, введение логистики в качестве альтернативы нормальной функции вероятности - это работа одного человека, Джозефа Берксона (1899–1982), ...»
  51. Перейти ↑ Cramer 2002 , p. 11.
  52. Перейти ↑ Cramer 2002 , p. 10–11.
  53. ^ a b Крамер , стр. 13.
  54. ^ Макфадден, Дэниел (1973). «Условный логит-анализ качественного выбора поведения» (PDF) . В П. Зарембке (ред.). Границы в эконометрике . Нью-Йорк: Academic Press. С. 105–142. Архивировано из оригинального (PDF) 27 ноября 2018 года . Проверено 20 апреля 2019 .
  55. ^ Гельман, Андрей; Хилл, Дженнифер (2007). Анализ данных с использованием регрессии и многоуровневых / иерархических моделей . Нью-Йорк: Издательство Кембриджского университета. С. 79–108. ISBN 978-0-521-68689-1.

Дальнейшее чтение [ править ]

  • Кокс, Дэвид Р. (1958). «Регрессионный анализ двоичных последовательностей (с обсуждением)». JR Stat Soc Б . 20 (2): 215–242. JSTOR  2983890 .
  • Кокс, Дэвид Р. (1966). «Некоторые процедуры, связанные с логистической качественной кривой ответа». В FN David (1966) (ред.). Исследования по вероятности и статистике (Festschrift для Дж. Неймана) . Лондон: Уайли. С. 55–71.
  • Крамер, JS (2002). Истоки логистической регрессии (PDF) (Технический отчет). 119 . Институт Тинбергена. С. 167–178. DOI : 10.2139 / ssrn.360300 .
    • Опубликовано в: Cramer, JS (2004). «Ранние истоки логит-модели». Исследования по истории и философии науки Часть C: Исследования по истории и философии биологических и биомедицинских наук . 35 (4): 613–626. DOI : 10.1016 / j.shpsc.2004.09.003 .
  • Тиль, Анри (1969). «Мультиномиальное расширение линейной логитовой модели». Международное экономическое обозрение . 10 (3): 251–59. DOI : 10.2307 / 2525642 . JSTOR  2525642 .
  • Wilson, EB ; Вустер Дж. (1943). «Определение LD50 и его ошибка отбора проб в биопробе» . Труды Национальной академии наук Соединенных Штатов Америки . 29 (2): 79–85. Bibcode : 1943PNAS ... 29 ... 79W . DOI : 10.1073 / pnas.29.2.79 . PMC  1078563 . PMID  16588606 .
  • Агрести, Алан. (2002). Категориальный анализ данных . Нью-Йорк: Wiley-Interscience. ISBN 978-0-471-36093-3.
  • Амемия, Такеши (1985). «Модели качественного ответа» . Продвинутая эконометрика . Оксфорд: Бэзил Блэквелл. С. 267–359. ISBN 978-0-631-13345-2.
  • Балакришнан, Н. (1991). Справочник по логистике . Марсель Деккер, Inc. ISBN 978-0-8247-8587-1.
  • Гурье, Кристиан (2000). «Простая дихотомия» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. С. 6–37. ISBN 978-0-521-58985-7.
  • Грин, Уильям Х. (2003). Эконометрический анализ, пятое издание . Прентис Холл. ISBN 978-0-13-066189-0.
  • Хильбе, Джозеф М. (2009). Модели логистической регрессии . Чепмен и Холл / CRC Press. ISBN 978-1-4200-7575-5.
  • Хосмер, Дэвид (2013). Прикладная логистическая регрессия . Хобокен, Нью-Джерси: Wiley. ISBN 978-0470582473.
  • Хауэлл, Дэвид С. (2010). Статистические методы психологии, 7-е изд . Бельмонт, Калифорния; Томсон Уодсворт. ISBN 978-0-495-59786-5.
  • Peduzzi, P .; Дж. Конкато; Э. Кемпер; Т. Р. Холфорд; А. Р. Файнштейн (1996). «Имитационное исследование количества событий на переменную в логистическом регрессионном анализе». Журнал клинической эпидемиологии . 49 (12): 1373–1379. DOI : 10.1016 / s0895-4356 (96) 00236-3 . PMID  8970487 .
  • Берри, Майкл JA; Линофф, Гордон (1997). Методы интеллектуального анализа данных для маркетинга, продаж и поддержки клиентов . Вайли.

Внешние ссылки [ править ]

  • СМИ, связанные с логистической регрессией на Викискладе?
  • Лекция по эконометрике (тема: модель Logit) на YouTube от Марка Тома
  • Учебник по логистической регрессии
  • mlelr : программное обеспечение на C для обучающих целей