Оценка максимального правдоподобия

В статистике, оценка максимального правдоподобия ( MLE ) представляет собой метод оценки на параметры о наличии распределения вероятностей по максимизации а функция правдоподобия , так что в соответствии с предполагаемой статистической модели наблюдаемых данных является наиболее вероятным. Точки в пространстве параметров , который максимизирует функцию правдоподобия называются оценкой максимального правдоподобия. ^[1] Логика максимального правдоподобия интуитивно понятна и гибка, и как таковой метод стал доминирующим средством статистического вывода .^[2]^[3]^[4]

Если функция правдоподобия дифференцируема , можно применить тест производной для определения максимумов. В некоторых случаях условия первого порядка функции правдоподобия могут быть решены явно; например, обычная оценка методом наименьших квадратов максимизирует вероятность модели линейной регрессии . ^{[5] Однако в} большинстве случаев для нахождения максимума функции правдоподобия необходимы численные методы.

С точки зрения байесовского вывода , MLE является частным случаем максимальной апостериорной оценки (MAP), которая предполагает однородное априорное распределение параметров. В частотном выводе MLE - это частный случай оценки экстремума , целевая функция которого - вероятность.

Принципы

Со статистической точки зрения данный набор наблюдений представляет собой случайную выборку из неизвестной совокупности . Цель оценки максимального правдоподобия состоит в том, чтобы сделать выводы о совокупности, которая с наибольшей вероятностью сформировала выборку ^{[6], в} частности, о совместном распределении вероятностей случайных величин. ${\ displaystyle \ left \ {y_ {1}, y_ {2}, \ ldots \ right \}}$ , не обязательно независимые и одинаково распределенные. С каждым распределением вероятностей связан уникальный вектор ${\ displaystyle \ theta = \ left [\ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {k} \ right] ^ {\ mathsf {T}}}$ параметров, которые индексируют распределение вероятностей в параметрическом семействе ${\ Displaystyle \ {е (\ cdot \,; \ theta) \ mid \ theta \ in \ Theta \}}$ , где ${\ displaystyle \ Theta}$ называется пространством параметров , конечномерным подмножеством евклидова пространства . Оценка плотности стыков на наблюдаемой выборке данных ${\ Displaystyle \ mathbf {y} = (y_ {1}, y_ {2}, \ ldots, y_ {n})}$ дает действительную функцию,

{\ displaystyle L_ {n} (\ theta) = L_ {n} (\ theta; \ mathbf {y}) = f_ {n} (\ mathbf {y}; \ theta)}

которая называется функцией правдоподобия . Для независимых и одинаково распределенных случайных величин , ${\ displaystyle f_ {n} (\ mathbf {y}; \ theta)}$ будет произведением одномерных функций плотности .

Цель оценки максимального правдоподобия состоит в том, чтобы найти значения параметров модели, которые максимизируют функцию правдоподобия по пространству параметров ^[6], т. Е.

{\ displaystyle {\ hat {\ theta}} = {\ underset {\ theta \ in \ Theta} {\ operatorname {arg \; max}}} \, {\ widehat {L}} _ {n} (\ theta \,; \ mathbf {y})}

Интуитивно это выбирает значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение ${\ displaystyle {\ hat {\ theta}} = {\ hat {\ theta}} _ {n} (\ mathbf {y}) \ in \ Theta}$ который максимизирует функцию правдоподобия ${\ displaystyle L_ {n}}$ называется оценкой максимального правдоподобия. Далее, если функция ${\ displaystyle {\ hat {\ theta}} _ {n}: \ mathbb {R} ^ {n} \ to \ Theta}$ определенная таким образом является измеримой , тогда она называется оценкой максимального правдоподобия . Обычно это функция, определенная в пространстве выборки , т. Е. Принимающая данную выборку в качестве аргумента. Достаточное , но не необходимое условие его существование для функции правдоподобия , чтобы быть непрерывной в течение пространства параметров ${\ displaystyle \ Theta}$ это компактно . ^[7] Для открытого ${\ displaystyle \ Theta}$ функция правдоподобия может увеличиваться, даже не достигнув супремум-значения.

На практике часто бывает удобно работать с натуральным логарифмом функции правдоподобия, называемым логарифмом правдоподобия :

{\ displaystyle \ ell (\ theta \,; \ mathbf {y}) = \ ln L_ {n} (\ theta \,; \ mathbf {y}).}

Поскольку логарифм является монотонной функцией , максимум ${\ displaystyle \ ell (\ theta \,; \ mathbf {y})}$ происходит при том же значении ${\ displaystyle \ theta}$ как и максимум ${\ displaystyle L_ {n}}$ . ^[8] Если ${\ displaystyle \ ell (\ theta \,; \ mathbf {y})}$ является дифференцируемой в ${\ displaystyle \ theta}$ , необходимые условия возникновения максимума (или минимума) таковы:

{\ displaystyle {\ frac {\ partial \ ell} {\ partial \ theta _ {1}}} = 0, \ quad {\ frac {\ partial \ ell} {\ partial \ theta _ {2}}} = 0 , \ quad \ ldots, \ quad {\ frac {\ partial \ ell} {\ partial \ theta _ {k}}} = 0,}

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения могут быть явно решены относительно ${\ displaystyle {\ widehat {\ theta \,}}}$ , но в целом решение задачи максимизации в закрытой форме неизвестно или доступно, а MLE можно найти только с помощью численной оптимизации . Другая проблема заключается в том, что в конечных выборках может существовать несколько корней для уравнений правдоподобия. ^[9] Был ли идентифицированный корень ${\ displaystyle {\ widehat {\ theta \,}}}$ уравнения правдоподобия действительно является (локальным) максимумом, который зависит от того, является ли матрица частных и перекрестных производных второго порядка, так называемая матрица Гессе

{\ Displaystyle \ mathbf {H} \ left ({\ widehat {\ theta \,}} \ right) = {\ begin {bmatrix} \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} ^ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} \, \ partial \ theta _ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ dots & \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {1} \, \ partial \ theta _ {k}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \\ \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {2} \, \ partial \ theta _ {1}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {2} ^ {2}}} \ right | _ {\ theta = {\ widehat { \ theta \,}}} & \ dots & \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {2} \, \ partial \ theta _ {k}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \\\ vdots & \ vdots & \ ddots & \ vdots \\\ left. {\ frac {\ partial ^ {2} \ ell} {\ частичный \ theta _ {k} \, \ partial \ theta _ {1}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ left. {\ frac {\ partial ^ { 2} \ ell} {\ partial \ theta _ {k} \, \ partial \ theta _ {2 }}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} & \ dots & \ left. {\ frac {\ partial ^ {2} \ ell} {\ partial \ theta _ {k } ^ {2}}} \ right | _ {\ theta = {\ widehat {\ theta \,}}} \ end {bmatrix}},}

является отрицательным полуопределенным в ${\ displaystyle {\ widehat {\ theta \,}}}$ , поскольку это указывает на локальную вогнутость . Удобно, что наиболее распространенные распределения вероятностей - в частности, экспоненциальное семейство - логарифмически вогнуты . ^[10]^[11]

Ограниченное пространство параметров

Хотя область определения функции правдоподобия - пространство параметров - обычно является конечномерным подмножеством евклидова пространства , иногда в процесс оценки необходимо включать дополнительные ограничения . Пространство параметров может быть выражено как

{\ Displaystyle \ Theta = \ left \ {\ theta: \ theta \ in \ mathbb {R} ^ {k}, \; h (\ theta) = 0 \ right \}}

,

где ${\ displaystyle h (\ theta) = \ left [h_ {1} (\ theta), h_ {2} (\ theta), \ ldots, h_ {r} (\ theta) \ right]}$ является вектор-функция отображения ${\ Displaystyle \ mathbb {R} ^ {k}}$ в ${\ Displaystyle \ mathbb {R} ^ {r}}$ . Оценка истинного параметра ${\ displaystyle \ theta}$ принадлежащий ${\ displaystyle \ Theta}$ затем, с практической точки зрения, означает найти максимум функции правдоподобия с учетом ограничения ${\ Displaystyle ч (\ тета) = 0}$ .

Теоретически наиболее естественным подходом к этой задаче ограниченной оптимизации является метод подстановки, то есть «заполнение» ограничений ${\ displaystyle h_ {1}, h_ {2}, \ ldots, h_ {r}}$ к набору ${\ displaystyle h_ {1}, h_ {2}, \ ldots, h_ {r}, h_ {r + 1}, \ ldots, h_ {k}}$ таким образом, что ${\ displaystyle h ^ {\ ast} = \ left [h_ {1}, h_ {2}, \ ldots, h_ {k} \ right]}$ является взаимно однозначной функцией из ${\ Displaystyle \ mathbb {R} ^ {k}}$ самому себе и повторно параметризуйте функцию правдоподобия, установив ${\ displaystyle \ phi _ {i} = h_ {i} (\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {k})}$ . ^[12] Из-за инвариантности оценки максимального правдоподобия свойства MLE также применимы к ограниченным оценкам. ^[13] Например, в многомерном нормальном распределении ковариационной матрицы ${\ displaystyle \ Sigma}$ должно быть положительно определенным ; это ограничение может быть наложено заменой ${\ Displaystyle \ Sigma = \ Gamma ^ {\ mathsf {T}} \ Gamma}$ , где ${\ displaystyle \ Gamma}$ - вещественная верхнетреугольная матрица и ${\ Displaystyle \ Gamma ^ {\ mathsf {T}}}$ это его транспонирование . ^[14]

На практике ограничения обычно вводятся с использованием метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия

{\ displaystyle {\ frac {\ partial \ ell} {\ partial \ theta}} - {\ frac {\ partial h (\ theta) ^ {\ mathsf {T}}} {\ partial \ theta}} \ lambda = 0}

а также

{\ Displaystyle ч (\ тета) = 0}

,

где ${\ displaystyle \ lambda = \ left [\ lambda _ {1}, \ lambda _ {2}, \ ldots, \ lambda _ {r} \ right] ^ {\ mathsf {T}}}$ вектор-столбец множителей Лагранжа и ${\ displaystyle {\ frac {\ partial h (\ theta) ^ {\ mathsf {T}}} {\ partial \ theta}}}$ - матрица Якоби частных производных размера k × r . ^[12] Естественно, если ограничения не являются обязательными на максимум, множители Лагранжа должны быть равны нулю. ^[15] Это, в свою очередь, позволяет провести статистический тест «достоверности» ограничения, известный как тест множителя Лагранжа .

Характеристики

Оценщик максимального правдоподобия - это оценщик экстремума, полученный путем максимизации, как функции θ , целевой функции ${\ Displaystyle {\ widehat {\ ell \,}} (\ theta \ ,; х)}$ . Если данные независимы и одинаково распределены , то мы имеем

{\ displaystyle {\ widehat {\ ell \,}} (\ theta \ ,; x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ ln f (x_ { i} \ mid \ theta),}

это примерный аналог ожидаемой логарифмической вероятности ${\ Displaystyle \ ell (\ theta) = \ OperatorName {\ mathbb {E}} [\, \ ln f (x_ {i} \ mid \ theta) \,]}$ , где это ожидание берется относительно истинной плотности.

Оценщики максимального правдоподобия не имеют оптимальных свойств для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценщики могут иметь большую концентрацию вокруг истинного значения параметра. ^[16] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающих свойств : по мере увеличения размера выборки до бесконечности последовательности оценок максимального правдоподобия обладают следующими свойствами:

Согласованность : последовательность MLE сходится по вероятности к оцениваемому значению.
Функциональная инвариантность: если ${\ displaystyle {\ hat {\ theta}}}$ оценка максимального правдоподобия для ${\ displaystyle \ theta}$ , и если ${\ Displaystyle г (\ тета)}$ любое преобразование ${\ displaystyle \ theta}$ , то оценка максимального правдоподобия для ${\ Displaystyle \ альфа = г (\ тета)}$ является ${\ displaystyle {\ hat {\ alpha}} = g ({\ hat {\ theta}})}$ .
Эффективность , т. Е. Достигается нижняя граница Крамера – Рао, когда размер выборки стремится к бесконечности. Это означает, что ни одна последовательная оценка не имеет более низкой асимптотической среднеквадратической ошибки, чем MLE (или другие оценки, достигающие этой границы), что также означает, что MLE имеет асимптотическую нормальность .
Эффективность второго порядка после коррекции смещения.

Последовательность

В условиях, описанных ниже, оценка максимального правдоподобия является согласованной . Согласованность означает, что если данные были сгенерированы ${\ Displaystyle е (\ cdot \,; \ theta _ {0})}$ а у нас достаточно большое количество наблюдений n , то можно найти значение θ ₀ с произвольной точностью. С математической точки зрения это означает, что при стремлении n к бесконечности оценка ${\ displaystyle {\ widehat {\ theta \,}}}$ сходится по вероятности к своему истинному значению:

{\ displaystyle {\ widehat {\ theta \,}} _ {\ mathrm {mle}} \ {\ xrightarrow {\ text {p}}} \ \ theta _ {0}.}

При немного более сильных условиях оценка почти наверняка (или сильно ) сходится :

{\ displaystyle {\ widehat {\ theta \,}} _ {\ mathrm {mle}} \ {\ xrightarrow {\ text {as}}} \ \ theta _ {0}.}

В практических приложениях данные никогда не генерируются ${\ Displaystyle е (\ cdot \,; \ theta _ {0})}$ . Скорее, ${\ Displaystyle е (\ cdot \,; \ theta _ {0})}$ представляет собой модель, часто в идеализированной форме, процесса, порождаемого данными. В статистике распространен афоризм о том, что все модели ошибочны . Таким образом, в практических приложениях истинной согласованности не происходит. Тем не менее, согласованность часто считается желательным свойством для оценщика.

Для согласования достаточно следующих условий. ^[17]

Идентификация модели:
${\ displaystyle \ theta \ neq \ theta _ {0} \ quad \ Leftrightarrow \ quad f (\ cdot \ mid \ theta) \ neq f (\ cdot \ mid \ theta _ {0}).}$
Другими словами, разные значения параметра θ соответствуют разным распределениям в модели. Если бы это условие не выполнялось, было бы некоторое значение θ _1, такое, что θ ₀ и θ ₁ генерировали идентичное распределение наблюдаемых данных. Тогда мы не сможем различить эти два параметра даже при бесконечном количестве данных - эти параметры были бы эквивалентны с точки зрения наблюдений .
Условие идентификации абсолютно необходимо для согласованности оценки ML. Когда это условие выполняется, предельная функция правдоподобия ℓ ( θ | ·) имеет единственный глобальный максимум при θ ₀ .
Компактность: пространство параметров модели Θ компактно .

Условие идентификации устанавливает, что логарифм правдоподобия имеет уникальный глобальный максимум. Компактность означает, что вероятность не может приблизиться к максимальному значению произвольно близко в какой-то другой точке (как показано, например, на рисунке справа).
Компактность - это только достаточное, но не необходимое условие. Компактность можно заменить некоторыми другими условиями, например:
- как вогнутость логарифмической функции правдоподобия, так и компактность некоторых (непустых) множеств верхнего уровня логарифмической функции правдоподобия, или
- Существование компактной окрестности $N$ от & $thetas ;$ ₀ , что вне $N$ функция правдоподобия журнала меньше , чем максимум , по крайней мере , некоторого $е$ > 0 .
Непрерывность: функция $ln f (x | θ)$ непрерывна по $θ$ почти для всех значений $x$ :
${\ Displaystyle \ OperatorName {\ mathbb {P}} {\ Bigl [} \; \ ln f (x \ mid \ theta) \; \ in \; C ^ {0} (\ Theta) \; {\ Bigr] } = 1.}$
Непрерывность здесь можно заменить несколько более слабым условием полунепрерывности сверху .
Доминирование: существует $D (x),$ интегрируемая по распределению $f (x | θ 0)$ такая, что
${\ displaystyle {\ Bigl |} \ ln f (x \ mid \ theta) {\ Bigr |}$
По единому закону больших чисел условие доминирования вместе с непрерывностью устанавливает равномерную сходимость по вероятности логарифмического правдоподобия:
${\ Displaystyle \ sup _ {\ theta \ in \ Theta} \ left | {\ widehat {\ ell \,}} (\ theta \ mid x) - \ ell (\ theta) \, \ right | \ {\ xrightarrow {\ text {p}}} \ 0.}$

Условие доминирования можно использовать в случае iid- наблюдений. В неидентификационном случае равномерную сходимость по вероятности можно проверить, показав, что последовательность ${\ displaystyle {\ widehat {\ ell \,}} (\ theta \ mid x)}$ является стохастический эквинепрерывно . Если кто-то хочет продемонстрировать, что оценщик ML ${\ displaystyle {\ widehat {\ theta \,}}}$ почти наверное сходится к θ ₀ , то почти наверняка нужно наложить более сильное условие равномерной сходимости:

{\ displaystyle \ sup _ {\ theta \ in \ Theta} \ left \ | \; {\ widehat {\ ell \,}} (\ theta \ mid x) - \ ell (\ theta) \; \ right \ | \ \ xrightarrow {\ text {as}} \ 0.}

Кроме того, если (как предполагалось выше) данные были сгенерированы ${\ Displaystyle е (\ cdot \,; \ theta _ {0})}$ , то при определенных условиях также можно показать, что оценщик максимального правдоподобия сходится по распределению к нормальному распределению. В частности, ^[18]

{\ displaystyle {\ sqrt {n}} \ left ({\ widehat {\ theta \,}} _ {\ mathrm {mle}} - \ theta _ {0} \ right) \ \ xrightarrow {d} \ {\ mathcal {N}} \ left (0, \, I ^ {- 1} \ right)}

где $I$ - информационная матрица Фишера .

Функциональная инвариантность

Оценщик максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если ${\ displaystyle {\ widehat {\ theta \,}}}$ это MLE для ${\ displaystyle \ theta}$ , и если ${\ Displaystyle г (\ тета)}$ любое преобразование ${\ displaystyle \ theta}$ , то MLE для ${\ Displaystyle \ альфа = г (\ тета)}$ по определению ^[19]

{\ displaystyle {\ widehat {\ alpha}} = g (\, {\ widehat {\ theta \,}} \,). \,}

Это максимизирует так называемую вероятность профиля :

{\ displaystyle {\ bar {L}} (\ alpha) = \ sup _ {\ theta: \ alpha = g (\ theta)} L (\ theta). \,}

MLE также инвариантен по отношению к некоторым преобразованиям данных. Если ${\ Displaystyle у = г (х)}$ где ${\ displaystyle g}$ один к одному и не зависит от оцениваемых параметров, то функции плотности удовлетворяют

{\ Displaystyle f_ {Y} (y) = {\ frac {f_ {X} (x)} {| g '(x) |}}}

и, следовательно, функции правдоподобия для ${\ displaystyle X}$ а также ${\ displaystyle Y}$ отличаются только фактором, не зависящим от параметров модели.

Например, параметры MLE логарифмически нормального распределения такие же, как параметры нормального распределения, подогнанного к логарифму данных.

Эффективность

Как предполагалось выше, данные были сгенерированы ${\ Displaystyle ~ е (\ cdot \,; \ theta _ {0}) ~,}$ затем при определенных условиях можно также показать, что оценщик максимального правдоподобия сходится по распределению к нормальному распределению. Он √ n -согласован и асимптотически эффективен, что означает, что он достигает границы Крамера – Рао . В частности, ^[18]

{\ displaystyle {\ sqrt {n \,}} \, \ left ({\ widehat {\ theta \,}} _ {\ text {mle}} - \ theta _ {0} \ right) \ \ \ xrightarrow { d} \ \ {\ mathcal {N}} \ left (0, \ {\ mathcal {I}} ^ {- 1} \ right) ~,}

где ${\ Displaystyle ~ {\ mathcal {I}} ~}$ это информационная матрица Фишера :

{\ displaystyle {\ mathcal {I}} _ {jk} = \ operatorname {\ mathbb {E}} \, {\ biggl [} \; - {\ frac {\ partial ^ {2} \ ln f _ {\ theta _ {0}} (X_ {t})} {\ partial \ theta _ {j} \, \ partial \ theta _ {k}}} \; {\ biggr]} ~.}

В частности, это означает, что смещение оценщика максимального правдоподобия равно нулю с точностью до порядка1/√ $п$ .

Эффективность второго порядка после коррекции смещения

Однако, когда мы рассматриваем члены более высокого порядка в разложении распределения этой оценки, оказывается, что $θ mle$ имеет смещение порядка 1 / $n$ . Это смещение равно (покомпонентно) ^[20]

{\ displaystyle b_ {h} \; \ Equiv \; \ operatorname {\ mathbb {E}} {\ biggl [} \; \ left ({\ widehat {\ theta}} _ {\ mathrm {mle}} - \ theta _ {0} \ right) _ {h} \; {\ biggr]} \; = \; {\ frac {1} {\, n \,}} \, \ sum _ {i, j, k = 1} ^ {m} \; {\ mathcal {I}} ^ {hi} \; {\ mathcal {I}} ^ {jk} \ left ({\ frac {1} {\, 2 \,}} \ , K_ {ijk} \; + \; J_ {j, ik} \ right)}

где ${\ displaystyle {\ mathcal {I}} ^ {jk}}$ (с надстрочными индексами) обозначает ( j, k ) -й компонент обратной информационной матрицы Фишера. ${\ displaystyle {\ mathcal {I}} ^ {- 1}}$ , а также

{\ displaystyle {\ frac {1} {\, 2 \,}} \, K_ {ijk} \; + \; J_ {j, ik} \; = \; \ operatorname {\ mathbb {E}} \, {\ biggl [} \; {\ frac {1} {2}} {\ frac {\ partial ^ {3} \ ln f _ {\ theta _ {0}} (X_ {t})} {\ partial \ theta _ {i} \; \ partial \ theta _ {j} \; \ partial \ theta _ {k}}} + {\ frac {\; \ partial \ ln f _ {\ theta _ {0}} (X_ {t }) \;} {\ partial \ theta _ {j}}} \, {\ frac {\; \ partial ^ {2} \ ln f _ {\ theta _ {0}} (X_ {t}) \;} {\ partial \ theta _ {i} \, \ partial \ theta _ {k}}} \; {\ biggr]} ~.}

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия и скорректировать это смещение путем его вычитания:

{\ displaystyle {\ widehat {\ theta \,}} _ {\ text {mle}} ^ {*} = {\ widehat {\ theta \,}} _ {\ text {mle}} - {\ widehat {b \,}} ~.}

Этот оценщик объективен с точки зрения условий заказа. 1/ $п$ , и называется оценщиком максимального правдоподобия с поправкой на смещение.

Эта скорректированная на смещение оценщика эффективна второго порядка (по крайней мере, в пределах изогнутого экспоненциального семейства), что означает, что она имеет минимальную среднеквадратичную ошибку среди всех оценщиков с поправкой на смещение второго порядка, вплоть до членов порядка 1/ $п$ ² . Можно продолжить этот процесс, то есть получить член коррекции смещения третьего порядка и так далее. Однако оценщик максимального правдоподобия не эффективен для третьего порядка. ^[21]

Связь с байесовским выводом

Оценщик максимального правдоподобия совпадает с наиболее вероятным байесовским оценщиком при условии равномерного априорного распределения по параметрам . Действительно, максимальная апостериорная оценка - это параметр $θ,$ который максимизирует вероятность $θ с$ учетом данных, заданных теоремой Байеса:

{\ displaystyle \ operatorname {\ mathbb {P}} (\ theta \ mid x_ {1}, x_ {2}, \ ldots, x_ {n}) = {\ frac {f (x_ {1}, x_ {2) }, \ ldots, x_ {n} \ mid \ theta) \ operatorname {\ mathbb {P}} (\ theta)} {\ operatorname {\ mathbb {P}} (x_ {1}, x_ {2}, \ ldots, x_ {n})}}}

где ${\ Displaystyle \ OperatorName {\ mathbb {P}} (\ theta)}$ - априорное распределение для параметра $θ$ и где ${\ Displaystyle \ OperatorName {\ mathbb {P}} (x_ {1}, x_ {2}, \ ldots, x_ {n})}$ - вероятность усреднения данных по всем параметрам. Поскольку знаменатель не зависит от $θ$ , байесовская оценка получается максимизацией ${\ displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {n} \ mid \ theta) \ operatorname {\ mathbb {P}} (\ theta)}$ относительно $θ$ . Если далее предположить, что предыдущие ${\ Displaystyle \ OperatorName {\ mathbb {P}} (\ theta)}$ является равномерным распределением, байесовская оценка получается максимизацией функции правдоподобия ${\ Displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {n} \ mid \ theta)}$ . Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения. ${\ Displaystyle \ OperatorName {\ mathbb {P}} (\ theta)}$ .

Применение оценки максимального правдоподобия в теории принятия решений Байеса

Во многих практических приложениях машинного обучения оценка максимального правдоподобия используется в качестве модели для оценки параметров.

Теория байесовских решений заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению. ^[22]

Таким образом, правило принятия решений Байеса формулируется как

"решать

{\ Displaystyle \; ш_ {1} \;}

если

{\ Displaystyle ~ \ OperatorName {\ mathbb {P}} (w_ {1} | x) \;> \; \ operatorname {\ mathbb {P}} (w_ {2} | x) ~; ~}

иначе решить

{\ Displaystyle \; ш_ {2} \;}

"

где ${\ Displaystyle \; w_ {1} \ ,, w_ {2} \;}$ предсказания разных классов. С точки зрения минимизации ошибки это также можно сформулировать как

{\ displaystyle w = {\ underset {w} {\ operatorname {arg \; max}}} \; \ int _ {- \ infty} ^ {\ infty} \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) \ operatorname {\ mathbb {P}} (x) \, \ operatorname {d} x ~}

где

{\ displaystyle \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) = \ operatorname {\ mathbb {P}} (w_ {1} \ mid x) ~}

если мы решим ${\ Displaystyle \; ш_ {2} \;}$ а также ${\ displaystyle \; \ operatorname {\ mathbb {P}} ({\ text {error}} \ mid x) = \ operatorname {\ mathbb {P}} (w_ {2} | x) \;}$ если мы решим ${\ Displaystyle \; ш_ {1} \;}$

Применяя теорему Байеса

{\ displaystyle \ operatorname {\ mathbb {P}} (w_ {i} \ mid x) = {\ frac {\ operatorname {\ mathbb {P}} (x \ mid w_ {i}) \ operatorname {\ mathbb { P}} (w_ {i})} {\ operatorname {\ mathbb {P}} (x)}}}

,

и если мы дополнительно предположим функцию потерь ноль или один, которая является одинаковой потерей для всех ошибок, правило принятия решения Байеса можно переформулировать следующим образом:

{\ displaystyle h _ {\ text {Bayes}} = {\ underset {w} {\ operatorname {arg \; max}}} \, {\ bigl [} \, \ operatorname {\ mathbb {P}} (x \ середина ш) \, \ OperatorName {\ mathbb {P}} (ш) \, {\ bigr]} \ ;,}

где ${\ displaystyle h _ {\ text {Байесовский}}}$ это предсказание и ${\ Displaystyle \; \ OperatorName {\ mathbb {P}} (ш) \;}$ - априорная вероятность .

Связь с минимизацией расходимости Кульбака – Лейблера и кросс-энтропии

Находка ${\ displaystyle {\ hat {\ theta}}}$ который максимизирует вероятность, асимптотически эквивалентен нахождению ${\ displaystyle {\ hat {\ theta}}}$ который определяет распределение вероятностей ( ${\ displaystyle Q _ {\ hat {\ theta}}}$ ), который имеет минимальное расстояние, с точки зрения расхождения Кульбака – Лейблера , до реального распределения вероятностей, из которого были сгенерированы наши данные (т. е. ${\ displaystyle P _ {\ theta _ {0}}}$ ). ^[23] В идеальном мире P и Q одинаковы (и единственное, что неизвестно, - это ${\ displaystyle \ theta}$ который определяет P), но даже если это не так и модель, которую мы используем, неверно указана, MLE все равно даст нам «ближайшее» распределение (в пределах ограничения модели Q, которое зависит от ${\ displaystyle {\ hat {\ theta}}}$ ) к реальному распределению ${\ displaystyle P _ {\ theta _ {0}}}$ . ^[24]

Доказательство.

Для простоты обозначений предположим, что P = Q. Пусть будет n i.id выборки данных ${\ Displaystyle \ mathbf {y} = (y_ {1}, y_ {2}, \ ldots, y_ {n})}$ с некоторой вероятностью ${\ displaystyle y \ sim P _ {\ theta _ {0}}}$ , которую мы пытаемся оценить, найдя ${\ displaystyle {\ hat {\ theta}}}$ это увеличит вероятность использования ${\ displaystyle P _ {\ theta}}$ , тогда:

{\ displaystyle {\ begin {align} {\ hat {\ theta}} & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, L_ {P _ {\ theta}} (\ mathbf {y}) = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, P _ {\ theta} (\ mathbf {y}) = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, P (\ mathbf {y} | \ theta) \\ & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ prod _ {i = 1 } ^ {n} P (y_ {i} | \ theta) = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ sum _ {i = 1} ^ {n} \ log P (y_ {i} | \ theta) \\ & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ left (\ sum _ {i = 1} ^ {n} \ log P (y_ {i} | \ theta) - \ sum _ {i = 1} ^ {n} \ log P (y_ {i} | \ theta _ {0}) \ right) = {\ underset {\ theta } {\ operatorname {arg \, max}}} \, \ sum _ {i = 1} ^ {n} \ left (\ log P (y_ {i} | \ theta) - \ log P (y_ {i} | \ theta _ {0}) \ right) \\ & = {\ underset {\ theta} {\ operatorname {arg \, max}}} \, \ sum _ {i = 1} ^ {n} \ log { \ frac {P (y_ {i} | \ theta)} {P (y_ {i} | \ theta _ {0})}} = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, \ sum _ {i = 1} ^ {n} \ log {\ frac {P (y_ {i} | \ theta _ {0})} {P (y_ {i} | \ theta)}} = { \ underset {\ theta} {\ operatorname {а rg \, min}}} \, {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ log {\ frac {P (y_ {i} | \ theta _ {0}) )} {P (y_ {i} | \ theta)}} \\ & = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} h _ {\ theta} (y_ {i}) \ quad {\ underset {n \ to \ infty} {\ longrightarrow}} \ quad {\ underset {\ theta} {\ OperatorName {arg \, min}}} \, E [h _ {\ theta} (y)] \\ & = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, \ int P_ { \ theta _ {0}} (y) h (y) dy = {\ underset {\ theta} {\ operatorname {arg \, min}}} \, \ int P _ {\ theta _ {0}} (y) \ log {\ frac {P (y | \ theta _ {0})} {P (y | \ theta)}} dy \\ & = {\ underset {\ theta} {\ operatorname {arg \, min}} } \, D _ {\ text {KL}} (P _ {\ theta _ {0}} \ parallel P _ {\ theta}) \ end {align}}}

Где ${\ displaystyle h _ {\ theta} (x) = \ log {\ frac {P (x | \ theta _ {0})} {P (x | \ theta)}}}$ . Использование h помогает увидеть, как мы используем закон больших чисел для перехода от среднего значения h (x) к его ожидаемому с помощью закона бессознательного статистика . Первые несколько переходов связаны с законами логарифма и этим выводом. ${\ displaystyle {\ hat {\ theta}}}$ которая максимизирует некоторую функцию, также будет той, которая максимизирует некоторое монотонное преобразование этой функции (то есть: сложение / умножение на константу).

Поскольку кросс-энтропия - это просто энтропия Шеннона плюс расхождение KL, и поскольку энтропия ${\ displaystyle P _ {\ theta _ {0}}}$ постоянна, то MLE также асимптотически минимизирует кросс-энтропию. ^[25]

Примеры

Дискретное равномерное распределение

Рассмотрим случай, когда n билетов с номерами от 1 до n помещены в коробку и один выбран случайным образом ( см. Равномерное распределение ); таким образом, размер выборки равен 1. Если n неизвестно, то оценка максимального правдоподобия ${\ displaystyle {\ widehat {n}}}$ of n - это номер m на выписанном билете. (Вероятность равна 0 для n < m , 1 ⁄ n для n ≥ m , и это максимальное значение, когда n = m . Обратите внимание, что оценка максимального правдоподобия n происходит на нижнем пределе возможных значений { m , m + 1, ...}, а не где-то в «середине» диапазона возможных значений, что приведет к меньшему смещению. ) Ожидаемое значение числа m на выписанном билете и, следовательно, ожидаемое значение числа ${\ displaystyle {\ widehat {n}}}$ , равно ( n + 1) / 2. В результате при размере выборки 1 оценка максимального правдоподобия для n будет систематически занижать n на ( n - 1) / 2.

Дискретное распределение, пространство с конечными параметрами

Предположим, кто-то хочет определить, насколько пристрастна несправедливая монета . Назовем вероятность подбрасывания « головы » р . Затем цель состоит в том, чтобы определить p .

Предположим, монета подбрасывается 80 раз: т.е. выборка может быть чем-то вроде x ₁ = H, x ₂ = T, ..., x ₈₀ = T, и наблюдается подсчет количества голов «H».

Вероятность подбрасывания решки равна 1 - p (так что здесь p равно θ ). Предположим, что результат - 49 орлов и 31 решка , и предположим, что монета была взята из коробки, содержащей три монеты: одна из них дает орел с вероятностью p = 1 ⁄ 3 , что дает выпад с вероятностью p = 1 ⁄ 2 и другой, который дает выпад с вероятностью p = 2 ⁄ 3 . Монеты потеряли свои этикетки, поэтому неизвестно, какая именно. Используя оценку максимального правдоподобия, можно найти монету с наибольшим правдоподобием, учитывая наблюдаемые данные. Используя функцию вероятности массовой из биномиального распределения с образцом размеромравный 80, число успеховравными 49но при разных значениях р ( «вероятности успеха»), функция правдоподобия (определено ниже) принимает одно из трех значений:

{\ displaystyle {\ begin {align} \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {1} {3}} \; {\ bigr]} & = {\ binom {80} {49}} ({\ tfrac {1} {3}}) ^ {49} (1 - {\ tfrac {1} {3}}) ^ {31} \ приблизительно 0,000, \\ [6pt] \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {1} {2}} \; {\ bigr ]} & = {\ binom {80} {49}} ({\ tfrac {1} {2}}) ^ {49} (1 - {\ tfrac {1} {2}}) ^ {31} \ приблизительно 0,012, \\ [6pt] \ operatorname {\ mathbb {P}} {\ bigl [} \; \ mathrm {H} = 49 \ mid p = {\ tfrac {2} {3}} \; {\ bigr] } & = {\ binom {80} {49}} ({\ tfrac {2} {3}}) ^ {49} (1 - {\ tfrac {2} {3}}) ^ {31} \ приблизительно 0,054 ~. \ end {выровнено}}}

Вероятность максимальна, когда $p$ = 2 ⁄ 3 , так что это оценка максимального правдоподобия для $p$ .

Дискретное распределение, непрерывное пространство параметров

Теперь предположим, что была только одна монета, но ее $p$ могло быть любым значением 0 ≤ $p$ ≤ 1. Максимизируемая функция правдоподобия:

{\ displaystyle L (p) = f_ {D} (\ mathrm {H} = 49 \ mid p) = {\ binom {80} {49}} p ^ {49} (1-p) ^ {31} ~ ,}

и максимизация осуществляется по всем возможным значениям 0 ≤ $p$ ≤ 1.

функция правдоподобия для значения пропорции биномиального процесса (

n

= 10)

Один из способов максимизировать эту функцию - дифференцировать по $p$ и установить на ноль:

{\ displaystyle {\ begin {align} 0 & = {\ frac {\ partial} {\ partial p}} \ left ({\ binom {80} {49}} p ^ {49} (1-p) ^ {31 } \ right) ~, \\ [8pt] 0 & = 49p ^ {48} (1-p) ^ {31} -31p ^ {49} (1-p) ^ {30} \\ [8pt] & = p ^ {48} (1-p) ^ {30} \ left [49 (1-p) -31p \ right] \\ [8pt] & = p ^ {48} (1-p) ^ {30} \ left [49-80p \ right] ~. \ End {align}}}

Это продукт трех терминов. Первое слагаемое равно 0 , когда $р$ = 0. второй равен 0 , когда $р$ = 1. третий равен нулю , когда $р$ = 49 ⁄ 80 . Решение, которое максимизирует вероятность, очевидно, $p$ = 49 ⁄ 80 (поскольку $p$ = 0 и $p$ = 1 дают вероятность 0). Таким образом, оценка максимального правдоподобия для $p$ равна 49 ⁄ 80 .

Этот результат легко обобщить, заменив букву $s$ вместо 49, чтобы обозначить наблюдаемое количество «успехов» наших испытаний Бернулли , и букву, такую как $n,$ вместо 80, чтобы обозначить количество испытаний Бернулли. Точно такой же расчет дает $s$ ⁄ $n,$ которая является оценкой максимального правдоподобия для любой последовательности из $n$ испытаний Бернулли, приведших к $s$ 'успехам'.

Непрерывное распределение, непрерывное пространство параметров

Для нормального распределения ${\ Displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}$ который имеет функцию плотности вероятности

{\ displaystyle f (x \ mid \ mu, \ sigma ^ {2}) = {\ frac {1} {{\ sqrt {2 \ pi \ sigma ^ {2}}} \}} \ exp \ left (- {\ frac {(x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right),}

соответствующая функция плотности вероятности для выборки из $n$ независимых одинаково распределенных нормальных случайных величин (вероятность) равна

{\ Displaystyle f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma ^ {2}) = \ prod _ {i = 1} ^ {n} f (x_ {i} \ mid \ mu, \ sigma ^ {2}) = \ left ({\ frac {1} {2 \ pi \ sigma ^ {2}}} \ right) ^ {n / 2} \ exp \ left (- {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right).}

Это семейство распределений имеет два параметра: $θ = (μ, σ)$ ; поэтому мы увеличиваем вероятность, ${\ displaystyle {\ mathcal {L}} (\ mu, \ sigma) = f (x_ {1}, \ ldots, x_ {n} \ mid \ mu, \ sigma)}$ , по обоим параметрам одновременно или, если возможно, по отдельности.

Поскольку сама функция логарифма является непрерывной строго возрастающей функцией в диапазоне правдоподобия, значения, которые максимизируют вероятность, также будут максимизировать ее логарифм (сама логарифм правдоподобия не обязательно строго возрастает). Логарифм правдоподобия можно записать следующим образом:

{\ displaystyle \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr)} = - {\ frac {\, n \,} {2}} \ log (2 \ pi \ sigma ^ {2}) - {\ frac {1} {2 \ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} (\, x_ {i} - \ mu \,) ^ {2}}

(Примечание: логарифмическая вероятность тесно связана с информационной энтропией и информацией Фишера .)

Теперь мы вычисляем производные этого логарифмического правдоподобия следующим образом.

{\ Displaystyle {\ begin {align} 0 & = {\ frac {\ partial} {\ partial \ mu}} \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr) } = 0 - {\ frac {\; - 2 \! N ({\ bar {x}} - \ mu) \;} {2 \ sigma ^ {2}}}. \ End {align}}}

где ${\ displaystyle {\ bar {x}}}$ - выборочное среднее . Это решается

{\ displaystyle {\ widehat {\ mu}} = {\ bar {x}} = \ sum _ {i = 1} ^ {n} {\ frac {\, x_ {i} \,} {n}}. }

Это действительно максимум функции, поскольку это единственная точка поворота в $μ,$ а вторая производная строго меньше нуля. Его математическое ожидание равно параметру $μ$ данного распределения,

{\ Displaystyle \ OperatorName {\ mathbb {E}} {\ bigl [} \; {\ widehat {\ mu}} \; {\ bigr]} = \ mu, \,}

что означает, что оценка максимального правдоподобия ${\ displaystyle {\ widehat {\ mu}}}$ беспристрастен.

Аналогично продифференцируем логарифмическую вероятность по $σ$ и приравняем нулю:

{\ Displaystyle {\ begin {align} 0 & = {\ frac {\ partial} {\ partial \ sigma}} \ log {\ Bigl (} {\ mathcal {L}} (\ mu, \ sigma) {\ Bigr) } = - {\ frac {\, n \,} {\ sigma}} + {\ frac {1} {\ sigma ^ {3}}} \ sum _ {i = 1} ^ {n} (\, x_ {i} - \ mu \,) ^ {2}. \ end {align}}}

который решается

{\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2 }.}

Вставка сметы ${\ displaystyle \ mu = {\ widehat {\ mu}}}$ мы получаем

{\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}) }) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ frac {1} {n ^ {2} }} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} x_ {i} x_ {j}.}

Чтобы вычислить его математическое ожидание, удобно переписать выражение в терминах случайных величин с нулевым средним ( статистическая ошибка ) ${\ Displaystyle \ дельта _ {я} \ эквив \ му -x_ {я}}$ . Выражение оценки в этих переменных дает

{\ displaystyle {\ widehat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (\ mu - \ delta _ {i}) ^ {2} - {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} (\ mu - \ delta _ { i}) (\ mu - \ delta _ {j}).}

Упрощая приведенное выше выражение, используя факты, которые ${\ Displaystyle \ OperatorName {\ mathbb {E}} {\ bigl [} \; \ delta _ {i} \; {\ bigr]} = 0}$ а также ${\ Displaystyle \ OperatorName {E} {\ bigl [} \; \ delta _ {я} ^ {2} \; {\ bigr]} = \ sigma ^ {2}}$ , позволяет получить

{\ displaystyle \ operatorname {\ mathbb {E}} {\ bigl [} \; {\ widehat {\ sigma}} ^ {2} \; {\ bigr]} = {\ frac {\, n-1 \, } {n}} \ sigma ^ {2}.}

Это означает, что оценщик ${\ Displaystyle {\ widehat {\ sigma}} ^ {2}}$ предвзято относится к ${\ displaystyle \ sigma ^ {2}}$ . Также можно показать, что ${\ displaystyle {\ widehat {\ sigma}}}$ предвзято относится к ${\ displaystyle \ sigma}$ , но оба ${\ Displaystyle {\ widehat {\ sigma}} ^ {2}}$ а также ${\ displaystyle {\ widehat {\ sigma}}}$ согласуются.

Формально мы говорим, что оценка максимального правдоподобия для ${\ Displaystyle \ theta = (\ му, \ sigma ^ {2})}$ является

{\ displaystyle {\ widehat {\ theta \,}} = \ left ({\ widehat {\ mu}}, {\ widehat {\ sigma}} ^ {2} \ right).}

В этом случае MLE могут быть получены индивидуально. Как правило, это может быть не так, и MLE должны быть получены одновременно.

Нормальная логарифмическая вероятность в максимуме принимает особенно простую форму:

{\ displaystyle \ log {\ Bigl (} {\ mathcal {L}} ({\ widehat {\ mu}}, {\ widehat {\ sigma}}) {\ Bigr)} = {\ frac {\, - п \; \;} {2}} {\ bigl (} \, \ log (2 \ pi {\ widehat {\ sigma}} ^ {2}) + 1 \, {\ bigr)}}

Можно показать, что это максимальное логарифмическое правдоподобие одинаково для более общих наименьших квадратов , даже для нелинейных наименьших квадратов . Это часто используется при определении правдоподобия на основе приблизительных доверительных интервалов и доверительные областей , которые обычно более точным , чем те , которые используют асимптотическую нормальность описанную выше.

Несамостоятельные переменные

Может случиться так, что переменные коррелированы, то есть не независимы. Две случайные величины ${\ displaystyle y_ {1}}$ а также ${\ displaystyle y_ {2}}$ независимы только в том случае, если их совместная функция плотности вероятности является произведением отдельных функций плотности вероятности, т. е.

{\ Displaystyle f (y_ {1}, y_ {2}) = f (y_ {1}) f (y_ {2}) \,}

Предположим, что кто-то строит гауссовский вектор порядка n из случайных величин. ${\ displaystyle (y_ {1}, \ ldots, y_ {n})}$ , где каждая переменная имеет средние значения ${\ Displaystyle (\ му _ {1}, \ ldots, \ му _ {п})}$ . Кроме того, пусть ковариационная матрица обозначается через ${\ Displaystyle {\ mathit {\ Sigma}}}$ . Совместная функция плотности вероятности этих n случайных величин следует многомерному нормальному распределению, задаваемому формулой:

{\ displaystyle f (y_ {1}, \ ldots, y_ {n}) = {\ frac {1} {(2 \ pi) ^ {n / 2} {\ sqrt {\ det ({\ mathit {\ Sigma }})}}}} \ exp \ left (- {\ frac {1} {2}} \ left [y_ {1} - \ mu _ {1}, \ ldots, y_ {n} - \ mu _ { n} \ right] {\ mathit {\ Sigma}} ^ {- 1} \ left [y_ {1} - \ mu _ {1}, \ ldots, y_ {n} - \ mu _ {n} \ right] ^ {\ mathrm {T}} \ right)}

В двумерном случае совместная функция плотности вероятности определяется выражением:

{\ displaystyle f (y_ {1}, y_ {2}) = {\ frac {1} {2 \ pi \ sigma _ {1} \ sigma _ {2} {\ sqrt {1- \ rho ^ {2} }}}} \ exp \ left [- {\ frac {1} {2 (1- \ rho ^ {2})}} \ left ({\ frac {(y_ {1} - \ mu _ {1}) ^ {2}} {\ sigma _ {1} ^ {2}}} - {\ frac {2 \ rho (y_ {1} - \ mu _ {1}) (y_ {2} - \ mu _ {2 })} {\ sigma _ {1} \ sigma _ {2}}} + {\ frac {(y_ {2} - \ mu _ {2}) ^ {2}} {\ sigma _ {2} ^ { 2}}} \ right) \ right]}

В этом и других случаях, когда существует совместная функция плотности, функция правдоподобия определяется, как указано выше, в разделе « Принципы », с использованием этой плотности.

Пример

${\ Displaystyle X_ {1}, \ X_ {2}, \ ldots, \ X_ {m}}$ - счета в ячейках / ящиках от 1 до m; каждая коробка имеет разную вероятность (представьте, что коробки больше или меньше), и мы фиксируем количество падающих шариков ${\ displaystyle n}$ : ${\ displaystyle x_ {1} + x_ {2} + \ cdots + x_ {m} = n}$ . Вероятность каждого ящика равна ${\ displaystyle p_ {i}}$ , с ограничением: ${\ displaystyle p_ {1} + p_ {2} + \ cdots + p_ {m} = 1}$ . Это тот случай, когда ${\ displaystyle X_ {i}}$ s не являются независимыми, совместная вероятность вектора ${\ Displaystyle x_ {1}, \ x_ {2}, \ ldots, x_ {m}}$ называется полиномом и имеет вид:

{\ displaystyle f (x_ {1}, x_ {2}, \ ldots, x_ {m} \ mid p_ {1}, p_ {2}, \ ldots, p_ {m}) = {\ frac {n!} {\ Pi x_ {i}!}} \ Pi p_ {i} ^ {x_ {i}} = {\ binom {n} {x_ {1}, x_ {2}, \ ldots, x_ {m}}} p_ {1} ^ {x_ {1}} p_ {2} ^ {x_ {2}} \ cdots p_ {m} ^ {x_ {m}}}

Каждый ящик, взятый отдельно от всех остальных, является биномом и является его продолжением.

Логарифмическая вероятность этого:

{\ displaystyle \ ell (p_ {1}, p_ {2}, \ ldots, p_ {m}) = \ log n! - \ sum _ {i = 1} ^ {m} \ log x_ {i}! + \ sum _ {i = 1} ^ {m} x_ {i} \ log p_ {i}}

Необходимо принять во внимание ограничение и использовать множители Лагранжа:

{\ displaystyle L (p_ {1}, p_ {2}, \ ldots, p_ {m}, \ lambda) = \ ell (p_ {1}, p_ {2}, \ ldots, p_ {m}) + \ лямбда \ left (1- \ sum _ {i = 1} ^ {m} p_ {i} \ right)}

Приравнивая все производные к нулю, получается наиболее естественная оценка

{\ displaystyle {\ hat {p}} _ {i} = {\ frac {x_ {i}} {n}}}

Максимальное увеличение вероятности журнала с ограничениями и без них может быть неразрешимой проблемой в закрытой форме, тогда мы должны использовать итерационные процедуры.

Итерационные процедуры

За исключением особых случаев, уравнения правдоподобия

{\ displaystyle {\ frac {\ partial \ ell (\ theta; \ mathbf {y})} {\ partial \ theta}} = 0}

не может быть решена явно для оценки ${\ displaystyle {\ widehat {\ theta}} = {\ widehat {\ theta}} (\ mathbf {y})}$ . Вместо этого их нужно решать итеративно : начиная с первоначального предположения ${\ displaystyle \ theta}$ (сказать ${\ displaystyle {\ widehat {\ theta}} _ {1}}$ ) стремятся получить сходящуюся последовательность ${\ displaystyle \ left \ {{\ widehat {\ theta}} _ {r} \ right \}}$ . Доступно множество методов для такого рода задач оптимизации , ^[26]^[27], но наиболее часто используемые из них - это алгоритмы, основанные на формуле обновления вида

{\ displaystyle {\ widehat {\ theta}} _ {r + 1} = {\ widehat {\ theta}} _ {r} + \ eta _ {r} \ mathbf {d} _ {r} \ left ({ \ widehat {\ theta}} \ right)}

где вектор ${\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right)}$ указывает направление спуска в г - м «шаг» и скаляр ${\ displaystyle \ eta _ {r}}$ фиксирует «длину шага» ^[28]^[29], также известную как скорость обучения . ^[30]

Метод градиентного спуска

(Примечание: здесь проблема максимизации, поэтому знак перед градиентом переворачивается)

{\ displaystyle \ eta _ {r} \ in \ mathbb {R} ^ {+}}

это достаточно мало для сходимости и

{\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = \ nabla \ ell \ left ({\ widehat {\ theta}} _ {r}; \ mathbf { y} \ right)}

Метод градиентного спуска требует вычисления градиента на r-й итерации, но не требует вычисления обратной производной второго порядка, то есть матрицы Гессе. Следовательно, он в вычислительном отношении быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона – Рафсона

{\ displaystyle \ eta _ {r} = 1}

а также

{\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = - \ mathbf {H} _ {r} ^ {- 1} \ left ({\ widehat {\ theta}} \ right) \ mathbf {s} _ {r} \ left ({\ widehat {\ theta}} \ right)}

где ${\ displaystyle \ mathbf {s} _ {r} ({\ widehat {\ theta}})}$ это оценка и ${\ displaystyle \ mathbf {H} _ {r} ^ {- 1} \ left ({\ widehat {\ theta}} \ right)}$ является обратным из матрицы Гессе функции логарифмического правдоподобия, и оценивали г - й итерации. ^[31]^[32] Но поскольку вычисление матрицы Гессе требует больших вычислительных ресурсов , было предложено множество альтернатив. Популярный алгоритм Берндта – Холла – Холла – Хаусмана аппроксимирует гессиан внешним произведением ожидаемого градиента, так что

{\ displaystyle \ mathbf {d} _ {r} \ left ({\ widehat {\ theta}} \ right) = - \ left [{\ frac {1} {n}} \ sum _ {t = 1} ^ {n} {\ frac {\ partial \ ell (\ theta; \ mathbf {y})} {\ partial \ theta}} \ left ({\ frac {\ partial \ ell (\ theta; \ mathbf {y}) } {\ partial \ theta}} \ right) ^ {\ mathsf {T}} \ right] ^ {- 1} \ mathbf {s} _ {r} \ left ({\ widehat {\ theta}} \ right) }

Квазиньютоновские методы

В других квазиньютоновских методах используются более сложные обновления секущей для аппроксимации матрицы Гессе.

Формула Дэвидона – Флетчера – Пауэлла

Формула DFP находит симметричное, положительно определенное решение, наиболее близкое к текущему приблизительному значению производной второго порядка:

{\ displaystyle \ mathbf {H} _ {k + 1} = \ left (I- \ gamma _ {k} y_ {k} s_ {k} ^ {\ mathsf {T}} \ right) \ mathbf {H} _ {k} \ left (I- \ gamma _ {k} s_ {k} y_ {k} ^ {\ mathsf {T}} \ right) + \ gamma _ {k} y_ {k} y_ {k} ^ {\ mathsf {T}},}

где

{\ displaystyle y_ {k} = \ nabla \ ell (x_ {k} + s_ {k}) - \ nabla \ ell (x_ {k}),}

{\ displaystyle \ gamma _ {k} = {\ frac {1} {y_ {k} ^ {T} s_ {k}}},}

{\ displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Алгоритм Бройдена – Флетчера – Гольдфарба – Шенно

BFGS также дает решение, которое является симметричным и положительно определенным:

{\ displaystyle B_ {k + 1} = B_ {k} + {\ frac {y_ {k} y_ {k} ^ {\ mathsf {T}}} {y_ {k} ^ {\ mathsf {T}} s_ {k}}} - {\ frac {B_ {k} s_ {k} s_ {k} ^ {\ mathsf {T}} B_ {k} ^ {\ mathsf {T}}} {s_ {k} ^ { \ mathsf {T}} B_ {k} s_ {k}}} \,}

где

{\ displaystyle y_ {k} = \ nabla \ ell (x_ {k} + s_ {k}) - \ nabla \ ell (x_ {k}),}

{\ displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Сходимость метода BFGS не гарантируется, если функция не имеет квадратичного разложения Тейлора вблизи оптимума. Тем не менее, BFGS может иметь приемлемую производительность даже для экземпляров неплавной оптимизации.

Оценка Фишера

Другой популярный метод - замена гессиана информационной матрицей Фишера , ${\ displaystyle {\ mathcal {I}} (\ theta) = \ operatorname {\ mathbb {E}} \ left [\ mathbf {H} _ {r} \ left ({\ widehat {\ theta}} \ right) \верно]}$ , давая нам алгоритм оценки Фишера. Эта процедура является стандартной при оценке многих методов, таких как обобщенные линейные модели .

Несмотря на свою популярность, квазиньютоновские методы могут сходиться к стационарной точке, которая не обязательно является локальным или глобальным максимумом ^[33], а скорее является локальным минимумом или седловой точкой . Следовательно, важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, вычисленный в решении, является как отрицательно определенным, так и хорошо обусловленным . ^[34]

История

Рональд Фишер в 1913 году

Первыми пользователями с максимальной вероятностью были Карл Фридрих Гаусс , Пьер-Симон Лаплас , Торвальд Н. Тиле и Фрэнсис Исидро Эджворт . ^[35]^[36] Однако его широкое распространение возросло между 1912 и 1922 годами, когда Рональд Фишер рекомендовал, широко популяризировал и тщательно проанализировал оценку максимального правдоподобия (с бесплодными попытками доказательства ). ^[37]

Оценка максимального правдоподобия наконец вышла за рамки эвристического обоснования в доказательстве, опубликованном Сэмюэлем С. Уилксом в 1938 году, теперь называемом теоремой Уилкса . ^[38] Теорема показывает, что ошибка логарифма значений правдоподобия для оценок из нескольких независимых наблюдений асимптотически χ 2 -распределена , что позволяет удобно определять доверительную область вокруг любой оценки параметров. Единственная сложная часть доказательства Уилкса зависит от ожидаемого значения информационной матрицы Фишера , которое обеспечивается теоремой, доказанной Фишером . ^[39] Уилкс продолжал улучшать общность теоремы на протяжении всей своей жизни, и его наиболее общее доказательство было опубликовано в 1962 году. ^[40]

Обзоры разработки метода оценки максимального правдоподобия были предоставлены рядом авторов. ^[41]^[42]^[43]^[44]^[45]^[46]^[47]^[48]

Смотрите также

Связанные понятия

Информационный критерий Акаике , критерий сравнения статистических моделей, основанный на MLE.
Экстремальная оценка , более общий класс оценок, к которому принадлежит MLE.
Информация Фишера , информационная матрица, ее связь с ковариационной матрицей оценок ML
Среднеквадратичная ошибка , мера того, насколько `` хороша '' оценка параметра распределения (будь то оценка максимального правдоподобия или какая-либо другая оценка)
RANSAC , метод оценки параметров математической модели по данным, которые содержат выбросы.
Теорема Рао – Блэквелла , которая дает процесс нахождения наилучшей возможной несмещенной оценки (в смысле наличия минимальной среднеквадратичной ошибки ); MLE часто является хорошей отправной точкой для процесса
Теорема Уилкса предоставляет средства для оценки размера и формы области примерно равновероятных оценок значений параметров совокупности, используя информацию из одной выборки, с использованием распределения хи-квадрат.

Другие методы оценки

Обобщенный метод моментов - это методы, относящиеся к уравнению правдоподобия при оценке максимального правдоподобия.
M-оценка , подход, используемый в надежной статистике
Максимальная апостериорная оценка (MAP) для контраста в способе вычисления оценок, когда постулируется априорное знание.
Оценка максимального интервала , связанный метод, который во многих ситуациях более надежен.
Оценка максимальной энтропии
Метод моментов (статистика) , еще один популярный метод нахождения параметров распределений.
Метод опоры , разновидность техники максимального правдоподобия
Оценка минимального расстояния
Методы частичного правдоподобия для панельных данных
Квазимаксимальная оценка правдоподобия, оценка MLE, которая неверно указана, но все же согласована
Ограниченная максимальная вероятность , вариация с использованием функции правдоподобия, рассчитанной на основе преобразованного набора данных.

дальнейшее чтение

Крамер, JS (1986). Эконометрические приложения методов максимального правдоподобия . Нью-Йорк, Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-25317-9.
Элиасон, Скотт Р. (1993). Оценка максимального правдоподобия: логика и практика . Парк Ньюбери: Сейдж. ISBN 0-8039-4107-2.
Кинг, Гэри (1989). Объединяющая политическая методология: теория вероятности статистического вывода . Издательство Кембриджского университета. ISBN 0-521-36697-6.
Ле Кам, Люсьен (1990). «Максимальная вероятность: Введение». Обзор ISI . 58 (2): 153–171. JSTOR 1403464 .
Магнус, Ян Р. (2017). «Максимальное правдоподобие». Введение в теорию эконометрики . Амстердам, Нидерланды: VU University Press. С. 53–68. ISBN 978-90-8659-766-6.
Миллар, Рассел Б. (2011). Оценка и вывод максимального правдоподобия . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-09482-2.
Пиклз, Эндрю (1986). Введение в анализ правдоподобия . Норидж: WH Hutchins & Sons. ISBN 0-86094-190-6.
Северини, Томас А. (2000). Методы правдоподобия в статистике . Нью-Йорк, Нью-Йорк: Издательство Оксфордского университета. ISBN 0-19-850650-3.
Уорд, Майкл Д .; Алквист, Джон С. (2018). Максимальная вероятность социальных наук: стратегии анализа . Издательство Кембриджского университета. ISBN 978-1-316-63682-4.

Внешние ссылки

Меньший, Лоуренс М. (2007). « Текст песни ' MLE'» . Математические науки / Научный колледж. math.utep.edu . Эль-Пасо, Техас: Техасский университет . Проверено 6 марта 2021 .
"Метод максимального правдоподобия" , Математическая энциклопедия , EMS Press , 2001 [1994]
Перселл, С. "Оценка максимального правдоподобия" .
Сарджент, Томас ; Стахурский, Джон. «Оценка максимального правдоподобия» . Количественная экономика с Python .
Тумет, Отт; Хеннингсен, Арне (19 мая 2019 г.). «maxLik: Пакет для оценки максимального правдоподобия в R» .

[1] Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии . Нью-Йорк: Джон Вили и сыновья. п. 227. ISBN. 978-1-118-77104-4.

[2] Хендри, Дэвид Ф .; Нильсен, Бент (2007). Эконометрическое моделирование: подход вероятности . Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3.

[3] Chambers, Raymond L .; Сталь, Дэвид Дж .; Ван, Суджин; Валлийский, Алан (2012). Оценка максимального правдоподобия для выборочных обследований . Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7.

[4] Уорд, Майкл Дон ; Алквист, Джон С. (2018). Максимальная вероятность социальных наук: стратегии анализа . Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1.

[5] Нажмите, WH; Фланнери, ВР; Теукольский, С.А. Феттерлинг, WT (1992). «Наименьшие квадраты как оценщик максимального правдоподобия» . Числовые рецепты в FORTRAN: Искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. С. 651–655. ISBN 0-521-43064-X.

[:0-6] а б Мён, Ай Джей (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. DOI : 10.1016 / S0022-2496 (02) 00028-7 .

[7] Гурье, Кристиан; Монфор, Ален (1995). Статистические и эконометрические модели . Издательство Кембриджского университета. п. 161 . ISBN 0-521-40551-3.

[8] Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика . Нью-Йорк: Харпер и Роу. п. 179 .

[9] Смолл, Кристопер Дж .; Ван, Цзиньфан (2003). «Работа с корнями» . Численные методы для нелинейных оценочных уравнений . Издательство Оксфордского университета. С. 74–124. ISBN 0-19-850688-0.

[10] Касс, Роберт Э .; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк, штат Нью-Йорк: John Wiley & Sons. п. 14. ISBN 0-471-82668-5.

[11] Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log () перед объединенным PDF-файлом, когда мы используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .

[Silvey_p79-12] а б Сильви, SD (1975). Статистический вывод . Лондон: Чепмен и Холл. п. 79. ISBN 0-412-13820-4.

[13] Олив, Дэвид (2004). "Максимизирует ли MLE вероятность?" (PDF) . Цитировать журнал требует |journal=( помощь )

[14] Швалли, Дэниел П. (1985). "Положительно определенные оценки ковариации максимального правдоподобия". Письма по экономике . 17 (1–2): 115–117. DOI : 10.1016 / 0165-1765 (85) 90139-9 .

[15] Магнус, Ян Р. (2017). Введение в теорию эконометрики . Амстердам: Издательство VU University Press. С. 64–65. ISBN 978-90-8659-766-6.

[16] Pfanzagl (1994 , стр. 206)

[17] По теореме 2.5 в Ньюи, Уитни К .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[:1-18] По теореме 3.3 в Ньюи, Уитни К .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, Том 4 . Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[19] Закс, Шелемяху (1971). Теория статистического вывода . Нью-Йорк: Джон Вили и сыновья. п. 223. ISBN 0-471-98103-6.

[20] См. Формулу 20 в Кокс, Дэвид Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, Series B . 30 (2): 248–275. JSTOR 2984505 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[21] Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка» . Журнал Японского статистического общества . 26 : 101–117. DOI : 10.14490 / jjss1995.26.101 .

[22] Кристенсен, Хенрик И. "Распознавание образов" (PDF) (лекция). Байесовская теория принятия решений - CS 7616. Georgia Tech.

[23] x96 ( https://stats.stackexchange.com/users/177679/cmplx96 ), расхождение Кульбака – Лейблера, URL (версия: 2017-11-18): https://stats.stackexchange.com/q/314472 ( на видео на youtube смотрите минуты с 13 по 25)

[24] Введение в статистический вывод | Стэнфорд (Лекция 16 - MLE при неправильной спецификации модели)

[25] Сикоракс говорит: «Восстановите Монику» ( https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica ), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11- 06): https://stats.stackexchange.com/q/364237

[26] Флетчер Р. (1987). Практические методы оптимизации (2-е изд.). Нью-Йорк, штат Нью-Йорк: John Wiley & Sons. ISBN 0-471-91547-5.

[27] Нокедаль, Хорхе ; Райт, Стивен Дж. (2006). Численная оптимизация (Второе изд.). Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 0-387-30303-0.

[28] Даганзо, Карлос (1979). Полиномиальный пробит: теория и ее применение для прогнозирования спроса . Нью-Йорк: Academic Press. С. 61–78. ISBN 0-12-201150-3.

[29] Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. С. 13–20. ISBN 978-1-59718-078-8.

[30] Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива . Кембридж: MIT Press. п. 247. ISBN. 978-0-262-01802-9.

[31] Амемия, Такеши (1985). Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. С. 137–138 . ISBN 0-674-00560-0.

[32] Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории . Оксфорд: Бэзил Блэквелл. С. 161–169. ISBN 0-631-14956-2.

[33] См. Теорему 10.1 в Авриэль, Мардохей (1976). Нелинейное программирование: анализ и методы . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. С. 293–294. ISBN 9780486432274.

[34] Гилл, Филип Э .; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация . Лондон, Великобритания: Academic Press. стр. 312 -313. ISBN 0-12-283950-1.

[35] Эджворт, Фрэнсис Ю. (сентябрь 1908 г.). «О возможных ошибках частотных постоянных» . Журнал Королевского статистического общества . 71 (3): 499–512. DOI : 10.2307 / 2339293 . JSTOR 2339293 .

[36] Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О возможных ошибках частотных постоянных» . Журнал Королевского статистического общества . 71 (4): 651–678. DOI : 10.2307 / 2339378 . JSTOR 2339378 .

[Pfanzagl-37] Пфанцагль, Иоганн; Хамбёкер, Р. (1994). Параметрическая статистическая теория . Вальтер де Грюйтер . С. 207–208. ISBN 978-3-11-013863-4.

[38] Уилкс, СС (1938). «Распределение большой выборки отношения правдоподобия для проверки сложных гипотез» . Анналы математической статистики . 9 : 60–62. DOI : 10.1214 / АОМ / 1177732360 .

[39] Оуэн, Арт Б. (2001). Эмпирическое правдоподобие . Лондон, Великобритания; Бока-Ратон, Флорида: Чепмен и Холл; CRC Press. ISBN 978-1584880714.

[40] Уилкс, Сэмюэл С. (1962). Математическая статистика . Нью-Йорк, штат Нью-Йорк: John Wiley & Sons. ISBN 978-0471946502.

[41] Сэвидж, Леонард Дж. (1976). «О перечитывании Р.А. Фишера» . Летопись статистики . 4 (3): 441–500. DOI : 10.1214 / AOS / 1176343456 . JSTOR 2958221 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[42] Пратт, Джон В. (1976). «Ф. Я. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия» . Летопись статистики . 4 (3): 501–514. DOI : 10.1214 / AOS / 1176343457 . JSTOR 2958222 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[43] Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, Series A . 141 (3): 287–322. DOI : 10.2307 / 2344804 . JSTOR 2344804 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[44] Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 978-0-674-40340-6.CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[45] Стиглер, Стивен М. (1999). Статистика по таблице: история статистических понятий и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3.CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[46] Халд, Андерс (1998). История математической статистики с 1750 по 1930 год . Нью-Йорк, штат Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[47] Халд, Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. DOI : 10,1214 / сс / 1009212248 . JSTOR 2676741 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[48] Олдрич, Джон (1997). «Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.» . Статистическая наука . 12 (3): 162–176. DOI : 10,1214 / сс / 1030037906 . Руководство по ремонту 1617519 .CS1 maint: ref дублирует значение по умолчанию ( ссылка )

[1]