Из Википедии, бесплатной энциклопедии
  (Перенаправлено с максимального правдоподобия )
Перейти к навигации Перейти к поиску

В статистике, оценка максимального правдоподобия ( MLE ) представляет собой метод оценки на параметры о наличии распределения вероятностей по максимизации а функция правдоподобия , так что в соответствии с предполагаемой статистической модели наблюдаемых данных является наиболее вероятным. Точки в пространстве параметров , который максимизирует функцию правдоподобия называются оценкой максимального правдоподобия. [1] Логика максимального правдоподобия интуитивно понятна и гибка, и как таковой метод стал доминирующим средством статистического вывода .[2] [3] [4]

Если функция правдоподобия дифференцируема , можно применить тест производной для определения максимумов. В некоторых случаях условия первого порядка функции правдоподобия могут быть решены явно; например, обычная оценка методом наименьших квадратов максимизирует вероятность модели линейной регрессии . [5] Однако в большинстве случаев для нахождения максимума функции правдоподобия необходимы численные методы.

С точки зрения байесовского вывода , MLE является частным случаем максимальной апостериорной оценки (MAP), которая предполагает однородное априорное распределение параметров. В частотном выводе MLE - это частный случай оценки экстремума , целевая функция которого - вероятность.

Принципы [ править ]

Со статистической точки зрения данный набор наблюдений представляет собой случайную выборку из неизвестной совокупности . Цель оценки максимального правдоподобия состоит в том, чтобы сделать выводы о совокупности, которая с наибольшей вероятностью сгенерировала выборку [6], в частности, о совместном распределении вероятностей случайных величин , не обязательно независимых и одинаково распределенных. С каждым распределением вероятностей связан уникальный вектор параметров, который индексирует распределение вероятностей в параметрическом семействе , которое называется пространством параметров , конечномерным подмножеством евклидова пространства. . Оценка совместной плотности в наблюдаемой выборке данных дает действительную функцию,

которая называется функцией правдоподобия . Для независимых и одинаково распределенных случайных величин , будет произведение одномерных функций плотности .

Цель оценки максимального правдоподобия состоит в том, чтобы найти значения параметров модели, которые максимизируют функцию правдоподобия по пространству параметров [6], т. Е.

Интуитивно это выбирает значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение, которое максимизирует функцию правдоподобия, называется оценкой максимального правдоподобия. Кроме того, если определенная таким образом функция является измеримой , то она называется оценщиком максимального правдоподобия . Обычно это функция, определенная в пространстве выборки , т. Е. Принимающая данную выборку в качестве аргумента. Достаточное , но не необходимое условие его существование для функции правдоподобия быть непрерывной по параметру пространства , которое компактно . [7] Для открытого функция правдоподобия может увеличиваться, даже не достигнув супремум-значения.

На практике часто бывает удобно работать с натуральным логарифмом функции правдоподобия, называемым логарифмом правдоподобия :

Поскольку логарифм является монотонной функцией , максимум происходит при том же значении, что и максимум . [8] Если это дифференцируемое в , то необходимые условия для возникновения максимума (или минимума) являются

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения могут быть решены в явном виде , но в целом решение задачи максимизации в замкнутой форме неизвестно или доступно, а MLE можно найти только с помощью численной оптимизации . Другая проблема заключается в том, что в конечных выборках может существовать несколько корней для уравнений правдоподобия. [9] Является ли идентифицированный корень уравнений правдоподобия (локальным) максимумом, зависит от того, является ли матрица частных и кросс-частных производных второго порядка, так называемая матрица Гессе

является отрицательным полуопределенным при , поскольку это указывает на локальную вогнутость . Удобно, что наиболее распространенные распределения вероятностей - в частности, экспоненциальное семейство - логарифмически вогнуты . [10] [11]

Ограниченное пространство параметров [ править ]

Хотя область определения функции правдоподобия - пространство параметров - обычно является конечномерным подмножеством евклидова пространства , иногда в процесс оценки необходимо включать дополнительные ограничения . Пространство параметров может быть выражено как

,

где - вектор-функция, отображаемая в . Оценка истинного параметра, принадлежащего тогда, на практике означает найти максимум функции правдоподобия с учетом ограничения .

Теоретически наиболее естественным подходом к этой задаче оптимизации с ограничениями является метод подстановки, то есть «заполнение» ограничений для набора таким образом, что оно является взаимно однозначной функцией от самого себя, и повторная параметризация функции правдоподобия установив . [12] Из-за инвариантности оценки максимального правдоподобия свойства MLE также применимы к ограниченным оценкам. [13] Например, в многомерном нормальном распределении ковариационной матрица должна быть положительно определена ; это ограничение можно наложить заменой , где является вещественной верхнетреугольной матрицей и является ее транспонированной . [14]

На практике ограничения обычно вводятся с использованием метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия

и ,

где - вектор-столбец множителей Лагранжа, а - матрица Якоби частных производных размера k × r . [12] Естественно, если ограничения не являются обязательными на максимум, множители Лагранжа должны быть равны нулю. [15] Это, в свою очередь, позволяет провести статистический тест «достоверности» ограничения, известный как тест множителя Лагранжа .

Свойства [ править ]

Блок оценка максимального правдоподобия является экстремум оценки , полученной путем максимизации, в зависимости от & thetas , в целевой функции . Если данные независимы и одинаково распределены , то мы имеем

это примерный аналог ожидаемой логарифмической вероятности , где это ожидание берется относительно истинной плотности.

Оценщики максимального правдоподобия не имеют оптимальных свойств для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценщики могут иметь большую концентрацию вокруг истинного значения параметра. [16] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : по мере увеличения размера выборки до бесконечности последовательности оценок максимального правдоподобия обладают следующими свойствами:

  • Согласованность : последовательность MLE сходится по вероятности к оцениваемому значению.
  • Функциональная инвариантность: Если максимальная оценка правдоподобия , и если это любое преобразование , то оценка максимального правдоподобия является .
  • Эффективность , т. Е. Достигается нижняя граница Крамера – Рао, когда размер выборки стремится к бесконечности. Это означает, что ни одна последовательная оценка не имеет более низкой асимптотической среднеквадратической ошибки, чем MLE (или другие оценки, достигающие этой границы), что также означает, что MLE имеет асимптотическую нормальность .
  • Эффективность второго порядка после коррекции смещения.

Последовательность [ править ]

В условиях, описанных ниже, оценка максимального правдоподобия является согласованной . Согласованность означает, что если данные были сгенерированы и у нас есть достаточно большое количество наблюдений n , то можно найти значение θ 0 с произвольной точностью. С математической точки зрения это означает, что, когда n стремится к бесконечности, оценщик сходится по вероятности к своему истинному значению:

При немного более сильных условиях оценка почти наверняка (или сильно ) сходится :

В практических приложениях данные никогда не генерируются . Скорее, это модель, часто в идеализированной форме, процесса, порождаемого данными. В статистике распространен афоризм о том, что все модели ошибочны . Таким образом, в практических приложениях истинной согласованности не происходит. Тем не менее, согласованность часто считается желательным свойством для оценщика.

Для согласования достаточно следующих условий. [17]

  1. Идентификация модели:

    Другими словами, разные значения параметра θ соответствуют разным распределениям в модели. Если бы это условие не выполнялось, было бы некоторое значение θ 1, такое, что θ 0 и θ 1 генерировали идентичное распределение наблюдаемых данных. Тогда мы не сможем различить эти два параметра даже при бесконечном количестве данных - эти параметры были бы эквивалентны с точки зрения наблюдений .

    Условие идентификации абсолютно необходимо для согласованности оценки ML. Когда это условие выполняется, предельная функция правдоподобия ( θ | ·) имеет единственный глобальный максимум при θ 0 .
  2. Компактность: пространство параметров модели Θ компактно .

    Условие идентификации устанавливает, что логарифм правдоподобия имеет уникальный глобальный максимум. Компактность означает, что вероятность не может приблизиться к максимальному значению произвольно близко в какой-то другой точке (как показано, например, на рисунке справа).

    Компактность - это только достаточное, но не необходимое условие. Компактность можно заменить некоторыми другими условиями, например:

    • как вогнутость логарифмической функции правдоподобия, так и компактность некоторых (непустых) множеств верхнего уровня логарифмической функции правдоподобия, или
    • Существование компактной окрестности N от & thetas ; 0 , что вне N функция правдоподобия журнала меньше , чем максимум , по крайней мере , некоторого е > 0 .
  3. Непрерывность: функция ln f ( x  |  θ ) непрерывна по θ почти для всех значений x :
    Непрерывность здесь можно заменить несколько более слабым условием полунепрерывности сверху .
  4. Доминирование: существует D ( x ), интегрируемая по распределению f ( x  |  θ 0 ) такая, что
    По единому закону больших чисел условие доминирования вместе с непрерывностью устанавливает равномерную сходимость по вероятности логарифмического правдоподобия:

Условие доминирования можно использовать в случае iid- наблюдений. В не н.о.р. случае, равномерная сходимость по вероятности можно проверить, показав , что последовательность является стохастически эквинепрерывно . Если кто-то хочет продемонстрировать, что оценка ML почти наверняка сходится к θ 0 , то почти наверняка должно быть наложено более сильное условие равномерной сходимости:

Кроме того, если (как предполагалось выше) данные были сгенерированы , то при определенных условиях также может быть показано, что оценщик максимального правдоподобия сходится по распределению к нормальному распределению. В частности, [18]

где I - информационная матрица Фишера .

Функциональная инвариантность [ править ]

Оценщик максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если является MLE для , и если есть любое преобразование , то MLE для по определению [19]

Это максимизирует так называемую вероятность профиля :

MLE также инвариантен по отношению к некоторым преобразованиям данных. Если где равно один к одному и не зависит от оцениваемых параметров, то функции плотности удовлетворяют

и, следовательно, функции правдоподобия для и отличаются только фактором, не зависящим от параметров модели.

Например, параметры MLE логарифмически нормального распределения такие же, как параметры нормального распределения, подогнанного к логарифму данных.

Эффективность [ править ]

Как предполагалось выше, данные были сгенерированы к тому времени при определенных условиях, также можно показать, что оценщик максимального правдоподобия сходится по распределению к нормальному распределению. Он n -согласован и асимптотически эффективен, что означает, что он достигает границы Крамера – Рао . В частности, [18] 

где - информационная матрица Фишера :

В частности, это означает, что смещение оценщика максимального правдоподобия равно нулю с точностью до порядка1/п .

Эффективность второго порядка после коррекции смещения [ править ]

Однако, когда мы рассматриваем члены более высокого порядка в разложении распределения этой оценки, то получается, что θ MLE имеет смещение порядка 1 / п . Это смещение равно (покомпонентно) [20]

где (с надстрочными индексами) обозначает ( j, k ) -й компонент обратной информационной матрицы Фишера , а

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и скорректировать это смещение путем его вычитания:

Этот оценщик объективен с точки зрения условий заказа. 1/п, и называется оценщиком максимального правдоподобия с поправкой на смещение.

Эта скорректированная на смещение оценщика эффективна второго порядка (по крайней мере, в пределах изогнутого экспоненциального семейства), что означает, что она имеет минимальную среднеквадратичную ошибку среди всех оценщиков с поправкой на смещение второго порядка, вплоть до членов порядка1/п 2 . Можно продолжить этот процесс, то есть получить член коррекции смещения третьего порядка и так далее. Однако оценщик максимального правдоподобия не эффективен для третьего порядка. [21]

Связь с байесовским выводом [ править ]

Оценщик максимального правдоподобия совпадает с наиболее вероятным байесовским оценщиком при условии равномерного априорного распределения по параметрам . Действительно, максимальная апостериорная оценка - это параметр θ, который максимизирует вероятность θ с учетом данных, заданных теоремой Байеса:

где - априорное распределение для параметра θ, а где - вероятность усреднения данных по всем параметрам. Поскольку знаменатель не зависит от θ , байесовская оценка получается максимизацией по θ . Если мы дополнительно предположим, что априорное распределение является равномерным, байесовская оценка получается путем максимизации функции правдоподобия . Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения .

Применение оценки максимального правдоподобия в теории принятия решений Байеса [ править ]

Во многих практических приложениях машинного обучения оценка максимального правдоподобия используется в качестве модели для оценки параметров.

Теория байесовских решений заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению. [22]

Таким образом, правило принятия решений Байеса формулируется как

"решите, если решите иначе "

где находятся прогнозы разных классов. С точки зрения минимизации ошибки это также можно сформулировать как

где

если мы решим и если мы решим

Применяя теорему Байеса

,

и если мы дополнительно предположим функцию потерь ноль или один, которая является одинаковой потерей для всех ошибок, правило принятия решения Байеса можно переформулировать следующим образом:

где - прогноз, а - априорная вероятность .

Связь с минимизацией расхождения Кульбака – Лейблера и кросс-энтропии [ править ]

Нахождение, которое максимизирует вероятность, асимптотически эквивалентно нахождению, которое определяет распределение вероятностей ( ), которое имеет минимальное расстояние, в терминах расхождения Кульбака – Лейблера , до реального распределения вероятностей, из которого были сгенерированы наши данные (т. Е. Сгенерированы ). [23] В идеальном мире P и Q одинаковы (и единственное, что неизвестно, это то, что определяет P), но даже если это не так и модель, которую мы используем, неверно указана, все же MLE даст нам «ближайший» распределение (в пределах ограничения модели Q, которая зависит от ) к реальному распределению . [24]

Поскольку кросс-энтропия - это просто энтропия Шеннона плюс расхождение KL, и поскольку энтропия постоянна, то MLE также асимптотически минимизирует кросс-энтропию. [25]

Примеры [ править ]

Дискретное равномерное распределение [ править ]

Рассмотрим случай, когда n билетов с номерами от 1 до n помещены в коробку и один выбран случайным образом ( см. Равномерное распределение ); Таким образом, размер выборки равен 1. Если п неизвестна, то оценке максимального правдоподобия по п есть число м на нарисованном билете. (Вероятность равно 0 для п  <  м , 1 / п для п  ≥  м , и это является наибольшей , когда п  =  т . Заметим , что оценка максимального правдоподобия по пвстречается на нижнем пределе возможных значений { mm  + 1, ...}, а не где-то в «середине» диапазона возможных значений, что привело бы к меньшему смещению.) Ожидаемое значение числа m на выписанном билете, и, следовательно, ожидаемое значение равно ( n  + 1) / 2. В результате при размере выборки 1 оценка максимального правдоподобия для n будет систематически занижать n на ( n  - 1) / 2.

Дискретное распределение, пространство с конечными параметрами [ править ]

Предположим, кто-то хочет определить, насколько пристрастна несправедливая монета . Назовем вероятность подбрасывания « головы » р . Затем цель состоит в том, чтобы определить p .

Предположим, монета подбрасывается 80 раз: т.е. выборка может быть чем-то вроде x 1  = H, x 2  = T, ..., x 80  = T, и наблюдается подсчет количества голов «H».

Вероятность подбрасывания решки равна 1 -  p (так что здесь p равно θ ). Предположим , что результат 49 голов и 31  хвосты , и предположим , что монета была взята из коробки , содержащей три монеты: один , который дает головки с вероятностью р  = 1 / 3 , один , который дает головки с вероятностью р  = 1 / 2 , а другой который дает головку с вероятностью р  = 2 / 3. Монеты потеряли свои этикетки, поэтому неизвестно, какая именно. Используя оценку максимального правдоподобия, можно найти монету с наибольшим правдоподобием, учитывая наблюдаемые данные. Используя функцию вероятности массовой из биномиального распределения с образцом размером , равный 80, число успехов , равными 49 , но при разных значениях р ( «вероятности успеха»), функция правдоподобия ( как определено ниже) принимает одно из трех значений:

Правдоподобия достигает максимума при р  = 2 / 3 , и таким образом это является оценка максимального правдоподобия для  р .

Дискретное распределение, непрерывное пространство параметров [ править ]

Теперь предположим, что была только одна монета, но ее p могло быть любым значением 0 ≤ p ≤ 1. Максимизируемая функция правдоподобия:

и максимизация осуществляется по всем возможным значениям 0 ≤ p ≤ 1.

функция правдоподобия для значения пропорции биномиального процесса ( n  = 10)

Один из способов максимизировать эту функцию - дифференцировать по p и установить на ноль:

Это продукт трех терминов. Первое слагаемое равно 0 , когда р  = 0. второй равен 0 , когда р  = 1. третий равен нулю , когда р  = 49 / 80 . Решение , которое максимизирует вероятность того , очевидно , р  = 49 / 80 (так как р  = 0 и р  = 1 , в результате вероятности 0). Таким образом, оценка максимального правдоподобия для р является 49 / 80 .

Этот результат легко обобщить, заменив букву s вместо 49, чтобы обозначить наблюдаемое количество «успехов» наших испытаний Бернулли , и букву, такую ​​как n, вместо 80, чтобы обозначить количество испытаний Бернулли. Точно такой же расчет дает ы / п , который является оценкой максимального правдоподобия для любой последовательности п испытаний Бернулли , приводящих к ев «успехам».

Непрерывное распределение, непрерывное пространство параметров [ править ]

Для нормального распределения, имеющего функцию плотности вероятности

соответствующая функция плотности вероятности для выборки из n независимых одинаково распределенных нормальных случайных величин (вероятность) равна

Это семейство распределений имеет два параметра: θ  = ( μσ ) ; поэтому мы максимизируем вероятность по обоим параметрам одновременно или, если возможно, по отдельности.

Поскольку сама функция логарифма является непрерывной строго возрастающей функцией в диапазоне правдоподобия, значения, которые максимизируют вероятность, также будут максимизировать ее логарифм (сама логарифм правдоподобия не обязательно строго возрастает). Логарифм правдоподобия можно записать следующим образом:

(Примечание: логарифмическая вероятность тесно связана с информационной энтропией и информацией Фишера .)

Теперь мы вычисляем производные этого логарифмического правдоподобия следующим образом.

где - выборочное среднее . Это решается

Это действительно максимум функции, поскольку это единственная точка поворота в μ, а вторая производная строго меньше нуля. Его математическое ожидание равно параметру μ данного распределения,

что означает, что оценка максимального правдоподобия несмещена.

Аналогично продифференцируем логарифмическую вероятность по σ и приравняем нулю:

который решается

Подставляя оценку, получаем

Чтобы вычислить его математическое ожидание, удобно переписать выражение в терминах случайных величин с нулевым средним ( статистическая ошибка ) . Выражение оценки в этих переменных дает

Упрощая приведенное выше выражение, используя факты, которые и , позволяют нам получить

Это означает, что оценка смещена. Однако последовательна.

Формально мы говорим , что оценка максимального правдоподобия для является

В этом случае MLE могут быть получены индивидуально. Как правило, это может быть не так, и MLE должны быть получены одновременно.

Нормальная логарифмическая вероятность в максимуме принимает особенно простую форму:

Можно показать, что это максимальное логарифмическое правдоподобие одинаково для более общих наименьших квадратов , даже для нелинейных наименьших квадратов . Это часто используется при определении правдоподобия на основе приблизительных доверительных интервалов и доверительные областей , которые обычно более точным , чем те , которые используют асимптотическую нормальность описанную выше.

Несамостоятельные переменные [ править ]

Может случиться так, что переменные коррелированы, то есть не независимы. Две случайные величины и независимы только в том случае, если их совместная функция плотности вероятности является произведением отдельных функций плотности вероятности, т. Е.

Предположим, кто-то строит гауссовский вектор порядка n из случайных величин , где каждая переменная имеет средние значения, равные . Кроме того, пусть ковариационная матрица обозначается . Совместная функция плотности вероятности этих n случайных величин следует многомерному нормальному распределению, задаваемому формулой:

В двумерном случае совместная функция плотности вероятности определяется выражением:

В этом и других случаях, когда существует совместная функция плотности, функция правдоподобия определяется, как указано выше, в разделе « Принципы », с использованием этой плотности.

Пример [ править ]

- счета в ячейках / ящиках от 1 до m; каждая коробка имеет различную вероятность (думаю , из коробки быть больше или меньше) и фиксируем количество шаров , которые падают быть : . Вероятность каждой коробки , с ограничением: . В этом случае s не являются независимыми, совместная вероятность вектора называется полиномиальной и имеет вид:

Каждый ящик, взятый отдельно от всех остальных, является биномом и является его продолжением.

Логарифмическая вероятность этого:

Необходимо принять во внимание ограничение и использовать множители Лагранжа:

Приравнивая все производные к нулю, получается наиболее естественная оценка

Максимальное увеличение вероятности журнала с ограничениями и без них может быть неразрешимой проблемой в закрытой форме, тогда мы должны использовать итерационные процедуры.

Итерационные процедуры [ править ]

За исключением особых случаев, уравнения правдоподобия

не может быть решена явно для оценщика . Вместо этого их нужно решать итеративно : начиная с первоначального предположения (скажем ), нужно получить сходящуюся последовательность . Доступно множество методов для такого рода задач оптимизации , [26] [27], но наиболее часто используемые из них - это алгоритмы, основанные на формуле обновления вида

где вектор указывает направление спуска в г - м «шаг» и скалярные захватывает «длина шага,» [28] [29] , также известный как скорости обучения . [30]

Метод градиентного спуска [ править ]

(Примечание: здесь проблема максимизации, поэтому знак перед градиентом переворачивается)

это достаточно мало для сходимости и

Метод градиентного спуска требует вычисления градиента на r-й итерации, но не требует вычисления обратной производной второго порядка, то есть матрицы Гессе. Следовательно, он в вычислительном отношении быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона – Рафсона [ править ]

а также

где это оценка и является обратным из матрицы Гессе функции логарифмического правдоподобия, и оценивали г - й итерации. [31] [32] Но поскольку вычисление матрицы Гессе требует больших вычислительных ресурсов , было предложено множество альтернатив. Популярный алгоритм Берндта – Холла – Холла – Хаусмана аппроксимирует гессиан внешним произведением ожидаемого градиента, так что

Квазиньютоновские методы [ править ]

В других квазиньютоновских методах используются более сложные обновления секущей для аппроксимации матрицы Гессе.

Формула Дэвидона – Флетчера – Пауэлла [ править ]

Формула DFP находит симметричное, положительно определенное решение, наиболее близкое к текущему приблизительному значению производной второго порядка:

где

Алгоритм Бройдена – Флетчера – Гольдфарба – Шанно [ править ]

BFGS также дает решение, которое является симметричным и положительно определенным:

где

Сходимость метода BFGS не гарантируется, если функция не имеет квадратичного разложения Тейлора вблизи оптимума. Тем не менее, BFGS может иметь приемлемую производительность даже для экземпляров неплавной оптимизации.

Оценка Фишера [ править ]

Другой популярный метод - замена гессиана информационной матрицей Фишера , что дает нам алгоритм оценки Фишера. Эта процедура является стандартной при оценке многих методов, таких как обобщенные линейные модели .

Несмотря на свою популярность, квазиньютоновские методы могут сходиться к стационарной точке, которая не обязательно является локальным или глобальным максимумом [33], а скорее является локальным минимумом или седловой точкой . Следовательно, важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, вычисленный в решении, является как отрицательно определенным, так и хорошо обусловленным . [34]

История [ править ]

Рональд Фишер в 1913 году

Первыми пользователями с максимальной вероятностью были Карл Фридрих Гаусс , Пьер-Симон Лаплас , Торвальд Н. Тиле и Фрэнсис Исидро Эджворт . [35] [36] Однако его широкое распространение возросло между 1912 и 1922 годами, когда Рональд Фишер рекомендовал, широко популяризировал и тщательно проанализировал оценку максимального правдоподобия (с бесплодными попытками доказательства ). [37]

Оценка максимального правдоподобия наконец вышла за рамки эвристического обоснования в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году, теперь называемом теоремой Уилкса . [38] Теорема показывает, что ошибка логарифма значений правдоподобия для оценок из нескольких независимых наблюдений асимптотически χ  2 -распределена , что позволяет удобно определять доверительную область вокруг любой оценки параметров. Единственная сложная часть доказательства Уилкса зависит от ожидаемого значения информационной матрицы Фишера , которое обеспечивается теоремой, доказанной Фишером . [39]Уилкс продолжал улучшать общность теоремы на протяжении всей своей жизни, и его наиболее общее доказательство было опубликовано в 1962 году [40].

Обзоры разработки метода оценки максимального правдоподобия были предоставлены рядом авторов. [41] [42] [43] [44] [45] [46] [47] [48]

См. Также [ править ]

Понятия, связанные с данным [ править ]

  • Информационный критерий Акаике , критерий сравнения статистических моделей, основанный на MLE.
  • Экстремальная оценка , более общий класс оценок, к которому принадлежит MLE.
  • Информация Фишера , информационная матрица, ее связь с ковариационной матрицей оценок ML
  • Среднеквадратичная ошибка , мера того, насколько `` хороша '' оценка параметра распределения (будь то оценка максимального правдоподобия или какая-либо другая оценка)
  • RANSAC , метод оценки параметров математической модели по данным, которые содержат выбросы.
  • Теорема Рао – Блэквелла , которая дает процесс нахождения наилучшей возможной несмещенной оценки (в смысле наличия минимальной среднеквадратичной ошибки ); MLE часто является хорошей отправной точкой для процесса
  • Теорема Уилкса предоставляет средства для оценки размера и формы области примерно равновероятных оценок значений параметров совокупности, используя информацию из одной выборки, с использованием распределения хи-квадрат.

Другие методы оценки [ править ]

  • Обобщенный метод моментов - это методы, относящиеся к уравнению правдоподобия при оценке максимального правдоподобия.
  • M-оценка , подход, используемый в надежной статистике
  • Максимальная апостериорная оценка (MAP) для контраста в способе вычисления оценок, когда постулируется априорное знание.
  • Оценка максимального интервала , связанный метод, который во многих ситуациях более надежен.
  • Оценка максимальной энтропии
  • Метод моментов (статистика) , еще один популярный метод нахождения параметров распределений.
  • Метод опоры , разновидность техники максимального правдоподобия
  • Оценка минимального расстояния
  • Методы частичного правдоподобия для панельных данных
  • Квазимаксимальная оценка правдоподобия, оценка MLE, которая неверно указана, но все же согласована
  • Ограниченная максимальная вероятность , вариация с использованием функции правдоподобия, рассчитанной на основе преобразованного набора данных.

Ссылки [ править ]

  1. ^ Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии . Нью-Йорк: Джон Вили и сыновья. п. 227. ISBN. 978-1-118-77104-4.
  2. ^ Хендри, Дэвид Ф .; Нильсен, Бент (2007). Эконометрическое моделирование: подход вероятности . Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3.
  3. ^ Chambers, Raymond L .; Сталь, Дэвид Дж .; Ван, Суджин; Валлийский, Алан (2012). Оценка максимального правдоподобия для выборочных обследований . Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7.
  4. ^ Уорд, Майкл Дон ; Алквист, Джон С. (2018). Максимальная вероятность социальных наук: стратегии анализа . Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1.
  5. ^ Нажмите, WH; Фланнери, ВР; Теукольский, С.А. Феттерлинг, WT (1992). «Наименьшие квадраты как оценщик максимального правдоподобия» . Числовые рецепты в FORTRAN: Искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. С. 651–655. ISBN 0-521-43064-X.
  6. ^ a b Myung, IJ (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. DOI : 10.1016 / S0022-2496 (02) 00028-7 .
  7. ^ Гурье, Кристиан; Монфор, Ален (1995). Статистические и эконометрические модели . Издательство Кембриджского университета. п. 161 . ISBN 0-521-40551-3.
  8. ^ Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью-Йорк: Харпер и Роу. п. 179 .
  9. ^ Маленький, Christoper G .; Ван, Цзиньфан (2003). «Работа с корнями» . Численные методы для нелинейных оценочных уравнений . Издательство Оксфордского университета. С. 74–124. ISBN 0-19-850688-0.
  10. ^ Касс, Роберт Э .; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк, штат Нью-Йорк: John Wiley & Sons. п. 14. ISBN 0-471-82668-5.
  11. ^ Пападопулос, Алекос (25 сентября 2013). «Почему мы всегда помещаем log () перед объединенным PDF-файлом, когда мы используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .
  12. ^ а б Сильви, SD (1975). Статистический вывод . Лондон: Чепмен и Холл. п. 79. ISBN 0-412-13820-4.
  13. ^ Олив, Дэвид (2004). "Максимизирует ли MLE вероятность?" (PDF) . Cite journal requires |journal= (help)
  14. ^ Швалли, Дэниел П. (1985). "Положительно определенные оценки ковариации максимального правдоподобия". Письма по экономике . 17 (1–2): 115–117. DOI : 10.1016 / 0165-1765 (85) 90139-9 .
  15. ^ Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: Издательство VU University Press. С. 64–65. ISBN 978-90-8659-766-6.
  16. ^ Pfanzagl (1994 , стр. 206)
  17. ^ По теореме 2.5 в Newey, Whitney K .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref duplicates default (link)
  18. ^ a b По теореме 3.3 в Newey, Whitney K .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref duplicates default (link)
  19. ^ Закс, Шелемяху (1971). Теория статистического вывода . Нью-Йорк: Джон Вили и сыновья. п. 223. ISBN 0-471-98103-6.
  20. ^ См. Формулу 20 в Cox, David R .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, Series B . 30 (2): 248–275. JSTOR 2984505 . CS1 maint: ref duplicates default (link)
  21. ^ Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка» . Журнал Японского статистического общества . 26 : 101–117. DOI : 10.14490 / jjss1995.26.101 .
  22. ^ Кристенсен, Хенрик I. "Распознавание образов" (PDF) (лекция). Байесовская теория принятия решений - CS 7616. Georgia Tech.
  23. ^ cmplx96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), расхождение Кульбака – Лейблера, URL (версия: 2017-11-18): https://stats.stackexchange.com/q/314472 ( на видео на youtube смотрите минуты с 13 по 25)
  24. ^ Введение в статистический вывод | Стэнфорд (Лекция 16 - MLE при неправильной спецификации модели)
  25. ^ Сикоракс говорит: «Восстановите Монику» ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11- 06): https://stats.stackexchange.com/q/364237
  26. Перейти ↑ Fletcher, R. (1987). Практические методы оптимизации (2-е изд.). Нью-Йорк, штат Нью-Йорк: John Wiley & Sons. ISBN 0-471-91547-5.
  27. ^ Нокедаль, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (Второе изд.). Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 0-387-30303-0.
  28. ^ Daganzo, Carlos (1979). Полиномиальный пробит: теория и ее применение для прогнозирования спроса . Нью-Йорк: Academic Press. С. 61–78. ISBN 0-12-201150-3.
  29. ^ Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. С. 13–20. ISBN 978-1-59718-078-8.
  30. ^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива . Кембридж: MIT Press. п. 247. ISBN. 978-0-262-01802-9.
  31. ^ Amemiya, Такеши (1985). Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. С.  137–138 . ISBN 0-674-00560-0.
  32. ^ Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории . Оксфорд: Бэзил Блэквелл. С. 161–169. ISBN 0-631-14956-2.
  33. ^ См. Теорему 10.1 в Avriel, Mordecai (1976). Нелинейное программирование: анализ и методы . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. С. 293–294. ISBN 9780486432274.
  34. ^ Гилл, Филип Э .; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: Academic Press. стр.  312 -313. ISBN 0-12-283950-1.
  35. Эджворт, Фрэнсис Ю. (сентябрь 1908 г.). «О возможных ошибках частотных постоянных» . Журнал Королевского статистического общества . 71 (3): 499–512. DOI : 10.2307 / 2339293 . JSTOR 2339293 . 
  36. Перейти ↑ Edgeworth, Francis Y. (декабрь 1908 г.). «О возможных ошибках частотных постоянных» . Журнал Королевского статистического общества . 71 (4): 651–678. DOI : 10.2307 / 2339378 . JSTOR 2339378 . 
  37. ^ Pfanzagl, Johann; Хамбёкер, Р. (1994). Параметрическая статистическая теория . Вальтер де Грюйтер . С. 207–208. ISBN 978-3-11-013863-4.
  38. Перейти ↑ Wilks, SS (1938). «Распределение большой выборки отношения правдоподобия для проверки сложных гипотез» . Анналы математической статистики . 9 : 60–62. DOI : 10.1214 / АОМ / 1177732360 .
  39. Перейти ↑ Owen, Art B. (2001). Эмпирическое правдоподобие . Лондон, Великобритания; Бока-Ратон, Флорида: Чепмен и Холл; CRC Press. ISBN 978-1584880714.
  40. ^ Уилкс, Сэмюэл С. (1962). Математическая статистика . Нью-Йорк, штат Нью-Йорк: John Wiley & Sons. ISBN 978-0471946502.
  41. ^ Сэвидж, Леонард Дж. (1976). «О перечитывании Р.А. Фишера» . Летопись статистики . 4 (3): 441–500. DOI : 10.1214 / AOS / 1176343456 . JSTOR 2958221 . CS1 maint: ref duplicates default (link)
  42. ^ Пратт, Джон В. (1976). «Ф. Я. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия» . Летопись статистики . 4 (3): 501–514. DOI : 10.1214 / AOS / 1176343457 . JSTOR 2958222 . CS1 maint: ref duplicates default (link)
  43. ^ Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, Series A . 141 (3): 287–322. DOI : 10.2307 / 2344804 . JSTOR 2344804 . CS1 maint: ref duplicates default (link)
  44. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 978-0-674-40340-6.CS1 maint: ref duplicates default (link)
  45. ^ Стиглер, Стивен М. (1999). Статистика по таблице: история статистических понятий и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3.CS1 maint: ref duplicates default (link)
  46. ^ Hald Андерс (1998). История математической статистики с 1750 по 1930 год . Нью-Йорк, штат Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.CS1 maint: ref duplicates default (link)
  47. ^ Hald Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. DOI : 10,1214 / сс / 1009212248 . JSTOR 2676741 . CS1 maint: ref duplicates default (link)
  48. ^ Олдрич, Джон (1997). «Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.» . Статистическая наука . 12 (3): 162–176. DOI : 10,1214 / сс / 1030037906 . Руководство по ремонту 1617519 . CS1 maint: ref duplicates default (link)

Дальнейшее чтение [ править ]

  • Крамер, JS (1986). Эконометрические приложения методов максимального правдоподобия . Нью-Йорк, Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-25317-9.
  • Элиасон, Скотт Р. (1993). Оценка максимального правдоподобия: логика и практика . Парк Ньюбери: Сейдж. ISBN 0-8039-4107-2.
  • Кинг, Гэри (1989). Объединяющая политическая методология: теория вероятности статистического вывода . Издательство Кембриджского университета. ISBN 0-521-36697-6.
  • Ле Кам, Люсьен (1990). «Максимальная вероятность: Введение». Обзор ISI . 58 (2): 153–171. JSTOR  1403464 .
  • Магнус, Ян Р. (2017). «Максимальное правдоподобие». Введение в теорию эконометрики . Амстердам, Нидерланды: VU University Press. С. 53–68. ISBN 978-90-8659-766-6.
  • Миллар, Рассел Б. (2011). Оценка и вывод максимального правдоподобия . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-09482-2.
  • Пиклз, Эндрю (1986). Введение в анализ правдоподобия . Норидж: WH Hutchins & Sons. ISBN 0-86094-190-6.
  • Северини, Томас А. (2000). Методы правдоподобия в статистике . Нью-Йорк, Нью-Йорк: Издательство Оксфордского университета. ISBN 0-19-850650-3.
  • Уорд, Майкл Д .; Алквист, Джон С. (2018). Максимальная вероятность социальных наук: стратегии анализа . Издательство Кембриджского университета. ISBN 978-1-316-63682-4.

Внешние ссылки [ править ]

  • Меньший, Лоуренс М. (2007). « Текст песни ' MLE'» . Математические науки / Научный колледж. math.utep.edu . Эль-Пасо, Техас: Техасский университет . Проверено 6 марта 2021 .
  • "Метод максимального правдоподобия" , Математическая энциклопедия , EMS Press , 2001 [1994]
  • Перселл, С. "Оценка максимального правдоподобия" .
  • Сарджент, Томас ; Стахурский, Джон. «Оценка максимального правдоподобия» . Количественная экономика с Python .
  • Тумет, Отт; Хеннингсен, Арне (19 мая 2019 г.). «maxLik: Пакет для оценки максимального правдоподобия в R» .