Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , то функция правдоподобия (часто называют просто вероятность ) измеряет степень согласия в виде статистической модели для выборки данных для заданных значений искомых параметров . Он формируется из совместного распределения вероятностей выборки, но рассматривается и используется только как функция параметров, таким образом обрабатывая случайные величины как фиксированные на наблюдаемых значениях. [а]

Функция правдоподобия описывает гиперповерхность , пик которой, если он существует, представляет собой комбинацию значений параметров модели, которые максимизируют вероятность получения полученной выборки. [1] Процедура получения этих аргументов максимума функции правдоподобия известна как оценка максимального правдоподобия , которая для удобства вычислений обычно выполняется с использованием натурального логарифма правдоподобия, известного как функция логарифма правдоподобия . Кроме того, форма и кривизна поверхности вероятности представляют информацию об устойчивости.оценок, поэтому функция правдоподобия часто строится как часть статистического анализа. [2]

Случай использования вероятности впервые был сделан Р. А. Фишер , [3] , который считал , что это будет самодостаточной основой для статистического моделирования и вывода. Позже Барнард и Бирнбаум возглавили школу мысли, которая отстаивала принцип правдоподобия , постулируя, что вся соответствующая информация для вывода содержится в функции правдоподобия. [4] [5] Но как в частотной, так и в байесовской статистике функция правдоподобия играет фундаментальную роль. [6]

Определение [ править ]

Функция правдоподобия обычно определяется по-разному для дискретных и непрерывных распределений вероятностей. Также возможно общее определение, как обсуждается ниже.

Дискретное распределение вероятностей [ править ]

Позвольте быть дискретной случайной величиной с функцией массы вероятности, зависящей от параметра . Тогда функция

рассматривается как функция от , является функцией правдоподобия , учитывая результат случайной величины . Иногда вероятность «значения из для значения параметра » записывается в виде Р ( Х = х | & thetas ; ) или Р ( Х = х ; θ ) . не следует путать с ; вероятность равна вероятности того, что конкретный результат наблюдается, когда истинное значение параметра равно , и, следовательно, она равна плотности вероятности по исходу  , а не над параметром .

Пример [ править ]

Рисунок 1. Функция правдоподобия ( ) для вероятности выпадения монеты один на один (без предварительного знания честности монеты), учитывая, что мы наблюдали HH.
Рис. 2. Функция правдоподобия ( ) для вероятности выпадения монеты один на один (без предварительного знания честности монеты), учитывая, что мы наблюдали HHT.

Рассмотрим простую статистическую модель подбрасывания монеты: единственный параметр, который выражает «честность» монеты. Параметр - это вероятность того, что монета упадет орлом («H») при подбрасывании. может принимать любое значение в диапазоне от 0,0 до 1,0. Для совершенно справедливой монеты , .

Представьте, что вы дважды подбрасываете честную монету и наблюдаете следующие данные: две решки за два подбрасывания («HH»). Если предположить, что каждый последующий подбрасывание монеты iid , то вероятность наблюдения HH равна

Следовательно, учитывая наблюдаемые данные HH, вероятность того, что параметр модели будет равен 0,5, составляет 0,25. Математически это записывается как

Это не то же самое, что сказать, что вероятность того , что с учетом наблюдения HH, равна 0,25. (Для этого мы могли бы применить теорему Байеса , которая подразумевает, что апостериорная вероятность пропорциональна правдоподобию, умноженному на априорную вероятность.)

Предположим, что монета не честная, но вместо этого она есть . Тогда вероятность выпадения двух орлов равна

Следовательно

В более общем плане для каждого значения мы можем вычислить соответствующую вероятность. Результат таких расчетов показан на рисунке 1.

На рисунке 1 интеграл правдоподобия на интервале [0, 1] равен 1/3. Это иллюстрирует важный аспект вероятностей: вероятности не должны интегрироваться (или суммироваться) до 1, в отличие от вероятностей.

Непрерывное распределение вероятностей [ править ]

Позвольте быть случайной величиной с абсолютно непрерывным распределением вероятностей с функцией плотности, зависящей от параметра . Тогда функция

рассматривается как функция , является функция правдоподобия (из , учитывая исход из ). Иногда функция плотности для «значения из для значения параметра » записывается в виде . не следует путать с ; правдоподобие равно плотности вероятности для конкретного исхода, когда истинное значение параметра равно , и, следовательно, оно равно плотности вероятности по исходу , а не по параметру .  

В общем [ править ]

В теоретико-мерной теории вероятности , то функция плотности определяются как производная Радона-Никодим распределения вероятностей по отношению к общим мерам доминирующих. [7] Функция правдоподобия состоит в том, что плотность интерпретируется как функция параметра (возможно, вектора), а не возможных результатов. [8] Это обеспечивает функцию правдоподобия для любой статистической модели со всеми распределениями, будь то дискретное, абсолютно непрерывное, смешанное или что-то еще. (Вероятности будут сопоставимы, например, для оценки параметров, только если они являются производными Радона – Никодима по одной и той же доминирующей мере.)

Вышеупомянутое обсуждение вероятности с дискретными вероятностями является частным случаем этого с использованием счетной меры , которая делает вероятность любого отдельного результата равной плотности вероятности для этого результата.

Если нет события (нет данных), вероятность и, следовательно, правдоподобие равны 1; [ необходима цитата ] у любого нетривиального события будет меньшая вероятность.

Функция правдоподобия параметризованной модели [ править ]

Среди множества приложений мы рассматриваем здесь одно, имеющее большое теоретическое и практическое значение. Учитывая параметризованное семейство из функций плотности вероятности (или массовые функций вероятности в случае дискретных распределений)

где - параметр, функция правдоподобия имеет вид

написано

где - наблюдаемый результат эксперимента. Другими словами, если рассматривать как функцию с фиксированным, это функция плотности вероятности, а если рассматривать как функцию с фиксированным, это функция правдоподобия.

Это не то же самое, что вероятность того, что эти параметры являются правильными для наблюдаемой выборки. Попытка интерпретировать вероятность гипотезы с учетом наблюдаемых свидетельств как вероятность гипотезы - обычная ошибка с потенциально катастрофическими последствиями. См. Пример этого в заблуждении прокурора .

С геометрической точки зрения, если мы рассматриваем как функцию двух переменных, то семейство вероятностных распределений можно рассматривать как семейство кривых, параллельных оси -оси, а семейство функций правдоподобия - это ортогональные кривые, параллельные оси -оси.

Вероятность непрерывного распределения [ править ]

Использование плотности вероятности при указании функции правдоподобия выше оправдано следующим образом. Для данного наблюдения вероятность для интервала , где - константа, дается выражением . Заметьте, что

,

так как положительный и постоянный. Потому что

где - функция плотности вероятности, отсюда следует, что

.

Первая фундаментальная теорема исчисления и правило Лопиталя вместе обеспечивают, что

потом

Следовательно,

и, таким образом, максимизация плотности вероятности в сумме максимизирует вероятность конкретного наблюдения .

Вероятности для смешанных непрерывно-дискретных распределений [ править ]

Вышеизложенное можно расширить простым способом, чтобы можно было рассматривать распределения, содержащие как дискретные, так и непрерывные компоненты. Предположим, что распределение состоит из ряда дискретных вероятностных масс и плотности , где сумма всех 's, добавленных к интегралу от , всегда равна единице. Предполагая, что можно отличить наблюдение, соответствующее одной из дискретных масс вероятности, от наблюдения, соответствующего компоненту плотности, функция правдоподобия для наблюдения непрерывного компонента может быть обработана способом, показанным выше. Для наблюдения от дискретного компонента функция правдоподобия для наблюдения от дискретного компонента просто

где - индекс дискретной вероятностной массы, соответствующей наблюдению , поскольку максимизация вероятностной массы (или вероятности) в сумме максимизирует вероятность конкретного наблюдения.

Тот факт, что функция правдоподобия может быть определена способом, включающим несоизмеримые вклады (плотность и вероятностная масса), возникает из способа определения функции правдоподобия с точностью до константы пропорциональности, где эта «константа» может изменяться с наблюдением , но не с параметром .

Условия регулярности [ править ]

В контексте оценки параметров обычно предполагается, что функция правдоподобия подчиняется определенным условиям, известным как условия регулярности. Эти условия предполагаются в различных доказательствах, включающих функции правдоподобия, и их необходимо проверять в каждом конкретном приложении. Для оценки максимального правдоподобия крайне важно наличие глобального максимума функции правдоподобия. По теореме экстремальных значений , в непрерывной функции правдоподобия на через компактные пространства параметров достаточно для существования оценки максимального правдоподобия. [9]В то время как предположение о непрерывности обычно выполняется, предположение о компактности пространства параметров часто не выполняется, поскольку границы истинных значений параметров неизвестны. В этом случае ключевую роль играет вогнутость функции правдоподобия.

Более конкретно, если функция правдоподобия дважды непрерывно дифференцируема на k -мерном пространстве параметров, которое предполагается открытым связным подмножеством , существует уникальный максимум, если

является отрицательно определенной на каждый , для которых градиент равен нулю, и
, то есть функция правдоподобия приближается к константе на границе пространства параметров, которое может включать бесконечно удаленные точки, если не ограничено.

Mäkeläinen et al. докажите этот результат, используя теорию Морса , неформально обращаясь к собственности горного перевала. [10] Маскареньяс повторяет свое доказательство, используя теорему о горном перевале . [11]

В доказательствах непротиворечивости и асимптотической нормальности оценки максимального правдоподобия делаются дополнительные предположения относительно плотностей вероятностей, которые составляют основу конкретной функции правдоподобия. Эти условия были впервые установлены Чандой. [12] В частности, почти для всех и для всех ,

существуют для всех , чтобы гарантировать существование расширения Тейлора . Во-вторых, почти для всех и для всех должно быть, что

где такое что . Эта ограниченность производных необходима для дифференцирования под знаком интеграла . И, наконец, предполагается, что информационная матрица ,

является положительно определенным и конечно. Это гарантирует, что оценка имеет конечную дисперсию. [13]

Вышеуказанных условий достаточно, но не обязательно. То есть модель, которая не удовлетворяет этим условиям регулярности, может иметь или не иметь оценку максимального правдоподобия упомянутых выше свойств. Кроме того, в случае неодинаково или неодинаково распределенных наблюдений может потребоваться допустить дополнительные свойства.

Отношение правдоподобия и относительное правдоподобие [ править ]

Отношение правдоподобия [ править ]

Отношение правдоподобия представляет собой отношение любых два заданных вероятностей, часто записываются в виде:

Отношение правдоподобия занимает центральное место в статистике правдоподобия : закон правдоподобия утверждает, что степень, в которой данные (рассматриваемые как свидетельства) подтверждают одно значение параметра по сравнению с другим, измеряется отношением правдоподобия.

В частотном выводе отношение правдоподобия является основой для статистического теста , так называемого теста отношения правдоподобия . Согласно лемме Неймана – Пирсона , это самый мощный тест для сравнения двух простых гипотез на заданном уровне значимости . Многие другие тесты можно рассматривать как тесты отношения правдоподобия или их приближения. [14] Асимптотическое распределение логарифмического отношения правдоподобия, рассматриваемого как тестовая статистика, дается теоремой Уилкса .

Отношение правдоподобия также имеет центральное значение в байесовском выводе , где оно известно как байесовский фактор и используется в правиле Байеса . С точки зрения шансов , правило Байеса состоит в том, что апостериорные шансы двух альтернатив, а для данного события - это априорные шансы, умноженные на отношение правдоподобия. В виде уравнения:

Отношение правдоподобия не используется напрямую в статистике на основе AIC. Вместо этого используется относительная вероятность моделей (см. Ниже).

Различие к соотношению шансов [ править ]

Отношение правдоподобия двух моделей для одного и того же события можно сравнить с вероятностью двух событий для одной и той же модели. В терминах параметризованной функции массы вероятности отношение правдоподобия двух значений параметра и при заданном исходе равно:

в то время как вероятность двух исходов и , учитывая значение параметра , составляет:

Это подчеркивает разницу между вероятностью и вероятностью: по вероятности сравниваются модели (параметры), фиксируя данные; в то время как в шансах сравниваются события (результаты, данные), придерживаясь фиксированной модели.

Отношение шансов - это отношение двух условных шансов (события при наличии или отсутствии другого события). Однако отношение шансов также можно интерпретировать как отношение двух отношений правдоподобия, если одно из событий считает более наблюдаемым, чем другое. См. Соотношение шансов диагностики , где результат диагностического теста легче увидеть, чем наличие или отсутствие основного заболевания .

Функция относительного правдоподобия [ править ]

Поскольку фактическое значение функции правдоподобия зависит от выборки, часто бывает удобно работать со стандартизированной мерой. Предположим, что оценка максимального правдоподобия для параметра θ равна . Относительные вероятности других значений θ могут быть найдены путем сравнения вероятностей этих других значений с вероятностью . Относительная вероятность того, из & thetas определяется как [15] [16] [17] [18] [19]

Таким образом, относительное правдоподобие - это отношение правдоподобия (обсуждавшееся выше) с фиксированным знаменателем . Это соответствует стандартизации вероятности иметь максимум 1.

Область вероятности [ править ]

Область правдоподобия является множество всех значений & thetas , относительная вероятность того, больше или равно заданному порогу. С точки зрения процентов, область правдоподобия p % для θ определяется как [15] [17] [20]

Если θ - единственный действительный параметр, область правдоподобия p % обычно будет включать интервал реальных значений. Если область действительно содержит интервал, то он называется интервалом правдоподобия . [15] [17] [21]

Интервалы правдоподобия и, в более общем смысле, области правдоподобия используются для оценки интервалов в статистике правдоподобия: они аналогичны доверительным интервалам в частотной статистике и достоверным интервалам в байесовской статистике. Интервалы правдоподобия интерпретируются непосредственно с точки зрения относительного правдоподобия, а не с точки зрения вероятности охвата (частотность) или апостериорной вероятности (байесовство).

Для данной модели интервалы правдоподобия можно сравнить с доверительными интервалами. Если θ - единственный действительный параметр, то при определенных условиях интервал правдоподобия 14,65% (примерно 1: 7 правдоподобия) для θ будет таким же, как доверительный интервал 95% (вероятность охвата 19/20). [15] [20] В несколько иной формулировке, подходящей для использования логарифма правдоподобия (см. Теорему Уилкса ), тестовая статистика вдвое превышает разницу логарифмических правдоподобий, а распределение вероятностей тестовой статистики приблизительно равно хи. квадрат распределения со степенями свободы (df), равный разнице df между двумя моделями (следовательно, e −2интервал правдоподобия такой же, как и доверительный интервал 0,954; предполагая, что разница в df равна 1). [20] [21]

Вероятность устранения мешающих параметров [ править ]

Во многих случаях вероятность является функцией более чем одного параметра, но интерес фокусируется на оценке только одного или, в лучшем случае, нескольких из них, а остальные рассматриваются как мешающие параметры . Было разработано несколько альтернативных подходов для устранения таких мешающих параметров, так что вероятность может быть записана как функция только интересующего параметра (или параметров): основными подходами являются профильная, условная и предельная вероятность. [22] [23] Эти подходы также полезны, когда поверхность правдоподобия высокой размерности необходимо уменьшить до одного или двух интересующих параметров, чтобы получить график .

Вероятность профиля [ править ]

Можно уменьшить размеры, сконцентрировав функцию правдоподобия для подмножества параметров, выразив мешающие параметры как функции интересующих параметров и заменив их в функции правдоподобия. [24] [25] В общем, для функции правдоподобия, зависящей от вектора параметров, на который можно разделить , и где соответствие может быть определено явно, концентрация снижает вычислительную нагрузку на исходную задачу максимизации. [26]

Например, в линейной регрессии с нормально распределенными ошибками , вектор коэффициентов может быть разделен на (и, следовательно, матрицу плана ). Максимизация по дает функцию оптимального значения . Используя этот результат, оценка максимального правдоподобия для может быть получена как

где есть проекция матрица из . Этот результат известен как теорема Фриша – Во – Ловелла .

Поскольку графически процедура концентрации эквивалентна срезанию поверхности правдоподобия по гребню значений мешающего параметра, который максимизирует функцию правдоподобия, создавая изометрический профиль функции правдоподобия для данного , результат этой процедуры также известен как профиль вероятность . [27] [28] Помимо построения графика, вероятность профиля также может использоваться для вычисления доверительных интервалов, которые часто имеют лучшие свойства для малых выборок, чем те, которые основаны на асимптотических стандартных ошибках, рассчитанных на основе полного правдоподобия. [29] [30]

Условная вероятность [ править ]

Иногда можно найти достаточную статистику для мешающих параметров, и обусловливание этой статистики приводит к вероятности, которая не зависит от мешающих параметров. [31]

Один пример встречается в таблицах 2 × 2, где обусловленность всех четырех предельных итогов приводит к условному правдоподобию, основанному на нецентральном гипергеометрическом распределении . Эта форма кондиционирования также является основой точного теста Фишера .

Предельная вероятность [ править ]

Иногда мы можем удалить мешающие параметры, рассматривая вероятность, основанную только на части информации в данных, например, используя набор рангов, а не числовые значения. Другой пример встречается в линейных смешанных моделях , где рассмотрение вероятности остатков только после подгонки фиксированных эффектов приводит к оценке максимального правдоподобия остатков компонентов дисперсии.

Частичная вероятность [ править ]

Частичное правдоподобие - это адаптация полного правдоподобия, при которой только часть параметров (интересующие параметры) встречается в нем. [32] Это ключевой компонент модели пропорциональных опасностей : при использовании ограничения функции риска вероятность не отражает форму опасности во времени.

Продукты вероятности [ править ]

Вероятность, заданная двумя или более независимыми событиями , является продуктом вероятностей каждого из отдельных событий:

Это следует из определения независимости в вероятности: вероятности двух независимых событий, произошедших с учетом модели, являются произведением вероятностей.

Это особенно важно, когда события происходят от независимых и одинаково распределенных случайных величин , таких как независимые наблюдения или выборка с заменой . В такой ситуации функция правдоподобия превращается в продукт индивидуальных функций правдоподобия.

Пустой продукт имеет значение 1, которое соответствует правдоподобию при отсутствии события, равному 1: перед любыми данными вероятность всегда равна 1. Это похоже на единообразный априор в байесовской статистике, но в статистике правдоподобия это не является неправильным. ранее, потому что вероятности не интегрированы.

Журнал правдоподобия [ править ]

Функция логарифмического правдоподобия - это логарифмическое преобразование функции правдоподобия, часто обозначаемое строчной буквой l или , в отличие от прописной L, или правдоподобия. Поскольку логарифмы являются строго возрастающими функциями, максимизация правдоподобия эквивалентна максимизации логарифма правдоподобия. Но для практических целей удобнее работать с функцией логарифмического правдоподобия в оценке максимального правдоподобия , в частности , так как большинство распространенных распределения вероятностей -notably экспоненциального семейство -Ести только логарифмический вогнутым , [33] [34] и вогнутостиот целевой функции играет роль ключа в максимизации .

Учитывая независимость каждого события, общая логарифмическая вероятность пересечения равна сумме логарифмических правдоподобий отдельных событий. Это аналогично тому факту, что общая логарифмическая вероятность является суммой логарифмических вероятностей отдельных событий. Помимо математического удобства, процесс добавления логарифма правдоподобия имеет интуитивно понятную интерпретацию, которая часто выражается как «поддержка» данных. Когда параметры оцениваются с использованием логарифма правдоподобия для оценки максимального правдоподобия , каждая точка данных используется путем добавления к общей логарифмической вероятности. Поскольку данные можно рассматривать как свидетельство, подтверждающее оценочные параметры, этот процесс можно интерпретировать как « добавление дополнительных свидетельств в пользу подтверждения »,а логарифм правдоподобия - это «вес доказательств». Интерпретируя отрицательную логарифмическую вероятность как информационное содержание или неожиданность , поддержка (логарифмическая вероятность) модели при данном событии является негативом неожиданности события при данной модели: модель поддерживается событием в той мере, в какой что событие неудивительно, учитывая модель.

Логарифм отношения правдоподобия равен разности логарифма правдоподобия:

Точно так же, как вероятность без события, равная 1, логарифмическая вероятность без события равна 0, что соответствует значению пустой суммы: без каких-либо данных нет поддержки для каких-либо моделей.

Уравнения правдоподобия [ править ]

Если функция логарифмического правдоподобия является гладкой , ее градиент по отношению к параметру, известному как оценка и записанному , существует и позволяет применять дифференциальное исчисление . Основной способ максимизировать дифференцируемую функцию - найти стационарные точки (точки, в которых производная равна нулю); поскольку производная суммы - это просто сумма производных, но производная продукта требует правила произведения , легче вычислить стационарные точки логарифмической вероятности независимых событий, чем вероятности независимых событий.

Уравнения, определяемые стационарной точкой функции оценки, служат в качестве оценочных уравнений для оценщика максимального правдоподобия.

В этом смысле, блок оценки максимального правдоподобия неявно определяется значением при от обратной функции , где является d - мерное евклидово пространство . Используя теорему об обратной функции , можно показать, что она хорошо определена в открытой окрестности около с вероятностью, приближающейся к единице, и является непротиворечивой оценкой . Как следствие, существует такая последовательность , что асимптотически почти наверняка , и . [35] Аналогичный результат можно получить с помощью теоремы Ролля . [36] [37]

Вторая производная, вычисленная в , известная как информация Фишера , определяет кривизну поверхности правдоподобия [38] и, таким образом, указывает точность оценки. [39]

Экспоненциальные семейства [ править ]

Логарифм правдоподобия также особенно полезен для экспоненциальных семейств распределений, которые включают многие из общих параметрических распределений вероятностей . Функция распределения вероятностей (и, следовательно, функция правдоподобия) для экспоненциальных семейств содержит произведения факторов, включающих возведение в степень . Логарифм такой функции представляет собой сумму произведений, которую снова легче дифференцировать, чем исходную функцию.

Экспоненциальное семейство - это семейство, функция плотности вероятности которого имеет вид (для некоторых функций запись для внутреннего продукта ):

Каждый из этих терминов имеет интерпретацию, [b] но простой переход от вероятности к правдоподобию и логарифм дает сумму:

Каждый и соответствует изменению координат , поэтому в этих координатах логарифмическая вероятность экспоненциального семейства определяется простой формулой:

Другими словами, логарифмическая вероятность экспоненциального семейства - это внутреннее произведение натурального параметра и достаточной статистики за вычетом коэффициента нормализации ( логарифмической функции распределения ) . Так, например, оценка максимального правдоподобия может быть вычислена, принимая производные достаточной статистики T и лог-разбиение функции A .

Пример: гамма-распределение [ править ]

Гамма - распределение является экспоненциальной семья с двумя параметрами, и . Функция правдоподобия

Нахождение оценки максимального правдоподобия для одного наблюдаемого значения выглядит довольно сложной задачей. С его логарифмом работать намного проще:

Чтобы максимизировать логарифмическую вероятность, мы сначала берем частную производную по :

Если имеется несколько независимых наблюдений , то совместное логарифмическое правдоподобие будет суммой индивидуальных логарифмических правдоподобий, а производная этой суммы будет суммой производных каждой индивидуальной логарифмической вероятности:

Чтобы завершить процедуру максимизации совместной логарифмической вероятности, уравнение устанавливается на ноль и решается для :

Здесь обозначает оценку максимального правдоподобия, а - выборочное среднее значение наблюдений.

Предпосылки и интерпретация [ править ]

Исторические заметки [ править ]

Термин «вероятность» используется в английском языке, по крайней мере, с позднего среднеанглийского языка . [40] Его формальное использование для обозначения конкретной функции в математической статистике было предложено Рональдом Фишером , [41] в двух научно - исследовательских работах , опубликованных в 1921 г. [42] и 1922 г. [43] В 1921 году документ представил то , что сегодня называется " интервал правдоподобия »; в статье 1922 г. был введен термин « метод максимального правдоподобия ». Цитата Фишера:

[В] в 1922 году я предложил термин «вероятность» ввиду того факта, что в отношении [параметра] это не вероятность и не подчиняется законам вероятности, хотя в то же время имеет отношение к проблеме рационального выбора среди возможных значений [параметра], аналогичное тому, которое вероятность имеет к проблеме предсказания событий в азартных играх. . . Однако в то время как в отношении психологического суждения вероятность имеет некоторое сходство с вероятностью, эти два понятия полностью различны. . . . » [44]

Понятие вероятности не следует путать с вероятностью, как упомянул сэр Рональд Фишер.

Я подчеркиваю это, потому что, несмотря на то, что я всегда делал акцент на различии между вероятностью и правдоподобием, все же существует тенденция рассматривать вероятность как своего рода вероятность. Таким образом, первый результат состоит в том, что существуют две разные меры рациональной веры, подходящие для разных случаев. Зная совокупность, мы можем выразить наше неполное знание или ожидание выборки в терминах вероятности; зная выборку, мы можем выразить наши неполные знания о совокупности с точки зрения вероятности. [45]

Изобретение Фишером статистического правдоподобия было реакцией на более раннюю форму рассуждений, называемую обратной вероятностью . [46] Использование им термина «вероятность» зафиксировало значение этого термина в математической статистике.

AWF Edwards (1972) установил аксиоматическую основу для использования логарифмического отношения правдоподобия в качестве меры относительной поддержки одной гипотезы по сравнению с другой. Тогда опорная функция - это натуральный логарифм функции правдоподобия. Оба термина используются в филогенетике , но не были приняты в общей трактовке темы статистических данных. [47]

Интерпретации при разных основаниях [ править ]

Среди статистиков нет единого мнения о том, что должно лежать в основе статистики . Для основания были предложены четыре основные парадигмы: частотный , байесовский , правдоподобный и основанный на AIC . [6] Для каждого из предложенных оснований интерпретация вероятности различна. Четыре интерпретации описаны в подразделах ниже.

Частичная интерпретация [ править ]

Байесовская интерпретация [ править ]

В байесовском выводе , хотя можно говорить о вероятности любого утверждения или случайной величины при наличии другой случайной величины: например, вероятности значения параметра или статистической модели (см. Предельное правдоподобие ) при определенных данных или других доказательствах, [48 ] [49] [50] [51] функция правдоподобия остается той же самой сущностью с дополнительными интерпретациями (i) условной плотности данных с учетом параметра (поскольку параметр в этом случае является случайной величиной) и (ii) a мера или количество информации, приносимой данными о значении параметра или даже модели. [48] [49] [50][51] [52] Из-за введения структуры вероятности в пространстве параметров или в наборе моделей возможно, что значение параметра или статистическая модель имеют большое значение правдоподобия для заданных данных, но все же имеют низкое вероятность или наоборот. [50] [52] Это часто имеет место в медицине. [53] Следуя правилу Байеса , вероятность, рассматриваемая как условная плотность, может быть умножена на априорную плотность вероятности параметра, а затем нормализована, чтобы получить апостериорную плотность вероятности . [48] [49] [50] [51] [52]В более общем смысле вероятность неизвестной величины при наличии другой неизвестной величины пропорциональна вероятности данной . [48] [49] [50] [51] [52]

Правдоподобная интерпретация [ править ]

В частотной статистике функция правдоподобия сама по себе является статистикой, которая суммирует одну выборку из совокупности, расчетное значение которой зависит от выбора нескольких параметров θ 1 ... θ p , где p - количество параметров в некоторых уже выбранных статистическая модель . Значение правдоподобия служит показателем качества для выбора, используемого для параметров, и набор параметров с максимальной вероятностью является лучшим выбором с учетом имеющихся данных.

Конкретный расчет правдоподобия - это вероятность того, что наблюдаемая выборка будет присвоена, при условии, что выбранная модель и значения нескольких параметров θ дают точное приближение частотного распределения популяции, из которой была взята наблюдаемая выборка. С эвристической точки зрения логично, что хороший выбор параметров - это те, которые делают выборку фактически наблюдаемой максимально возможной апостериорной вероятностью того, что произошло. Теорема Уилкса количественно определяет эвристическое правило, показывая, что разница в логарифме правдоподобия, порожденного значениями параметров оценки, и логарифмом правдоподобия, порожденного "истинными" (но неизвестными) значениями параметров совокупности, равнаχ² распределено .

Оценка максимального правдоподобия каждой независимой выборки - это отдельная оценка «истинного» набора параметров, описывающего выбранную совокупность. Последовательные оценки из многих независимых выборок будут сгруппированы вместе с «истинным» набором значений параметров, скрытых где-то среди них. Разница в логарифмах правдоподобия максимального правдоподобия и смежных наборов параметров может использоваться для построения доверительной области на графике, координатами которого являются параметры θ 1 ... θ p . Область окружает оценку максимального правдоподобия, и все точки (наборы параметров) в этой области отличаются по логарифмической вероятности не более чем на некоторое фиксированное значение. Распределение χ², данное Уилксомтеоремапреобразует региональные различия логарифма правдоподобия в «уверенность» в том, что «истинный» набор параметров популяции находится внутри. Искусство выбора фиксированной разницы логарифмического правдоподобия состоит в том, чтобы сделать достоверность приемлемо высокой, сохраняя при этом приемлемо малую область (узкий диапазон оценок).

По мере того, как наблюдается больше данных, вместо того, чтобы использоваться для независимых оценок, они могут быть объединены с предыдущими выборками для создания единой объединенной выборки, и эта большая выборка может использоваться для новой оценки максимального правдоподобия. По мере увеличения размера объединенной выборки размер области правдоподобия с той же степенью достоверности уменьшается. В конце концов, либо размер доверительной области почти равен единице, либо была отобрана вся генеральная совокупность; в обоих случаях набор оцениваемых параметров по существу совпадает с набором параметров совокупности.

Интерпретация на основе AIC [ править ]

В парадигме AIC вероятность интерпретируется в контексте теории информации . [54] [55] [56]

См. Также [ править ]

  • Байесовский фактор
  • Условная энтропия
  • Условная возможность
  • Эмпирическая вероятность
  • Принцип правдоподобия
  • Тест отношения правдоподобия
  • Статистика правдоподобия
  • Максимальная вероятность
  • Принцип максимальной энтропии
  • Псевдобытность
  • Оценка (статистика)

Заметки [ править ]

  1. ^ Хотя в обиходе термины « вероятность » и « вероятность »часто используются как синонимы,в статистике они имеют разные значения. Вероятность - это свойство выборки, в частности, насколько вероятно получение конкретной выборки для данного значения параметров распределения; вероятность - это свойство значений параметров. См. Валаванис, Стефан (1959). «Вероятность и правдоподобие». Эконометрика: введение в методы максимального правдоподобия . Нью-Йорк: Макгроу-Хилл. С. 24–28. OCLC  6257066 .
  2. ^ См. Экспоненциальное семейство § Интерпретация

Ссылки [ править ]

  1. Перейти ↑ Myung, In Jae (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии . 47 (1): 90–100. DOI : 10.1016 / S0022-2496 (02) 00028-7 .
  2. ^ Коробка, Джордж EP ; Дженкинс, Гвилим М. (1976), Анализ временных рядов: прогнозирование и контроль , Сан-Франциско: Holden-Day, стр. 224, ISBN 0-8162-1104-3
  3. ^ Фишер, Р. А. Статистические методы для научных работников . §1.2.
  4. ^ Эдвардс, AWF (1992). Вероятность . Издательство Университета Джона Хопкинса . ISBN 9780521318716.
  5. ^ Бергер, Джеймс О .; Вольперт, Роберт Л. (1988). Принцип правдоподобия . Хейворд: Институт математической статистики. п. 19. ISBN 0-940600-13-7.
  6. ^ а б Bandyopadhyay, PS; Форстер, М. Р., ред. (2011). Философия статистики . Издательство Северной Голландии .
  7. ^ Биллингсли, Патрик (1995). Вероятность и мера (Третье изд.). Джон Вили и сыновья . С. 422–423.
  8. Перейти ↑ Shao, Jun (2003). Математическая статистика (2-е изд.). Springer. §4.4.1.
  9. ^ Gourieroux, христианин ; Монфор, Ален (1995). Статистика и эконометрические модели . Нью-Йорк: Издательство Кембриджского университета. п. 161. ISBN. 0-521-40551-3.
  10. ^ Мякеляйнен, Тимо; Шмидт, Клаус; Стьян, Джордж PH (1981). «О существовании и единственности оценки максимального правдоподобия векторного параметра в выборках фиксированного размера» . Анналы статистики . 9 (4): 758–767. DOI : 10.1214 / AOS / 1176345516 . JSTOR 2240844 . 
  11. Перейти ↑ Mascarenhas, WF (2011). «Лемма о горном перевале и ее последствия относительно уникальности ограниченных минимизаторов». Оптимизация . 60 (8–9): 1121–1159. DOI : 10.1080 / 02331934.2010.527973 . S2CID 15896597 . 
  12. ^ Чанда, KC (1954). «Заметка о согласованности и максимумах корней уравнений правдоподобия». Биометрика . 41 (1–2): 56–61. DOI : 10.2307 / 2333005 . JSTOR 2333005 . 
  13. ^ Гринберг, Эдвард; Вебстер, Чарльз Э. младший (1983). Продвинутая эконометрика: мост к литературе . Нью-Йорк: Джон Вили и сыновья. С. 24–25. ISBN 0-471-09077-8.
  14. ^ Запально, A. (1982). «Отношение правдоподобия, тесты множителей Вальда и Лагранжа: пояснительная записка». Американский статистик . 36 (3a): 153–157. DOI : 10.1080 / 00031305.1982.10482817 .
  15. ^ a b c d Kalbfleisch, JG (1985), Вероятность и статистический вывод , Springer (§9.3).
  16. ^ Azzalini, A. (1996), статистические методы, на основе вероятности , Chapman & Hall , ISBN 9780412606502 (§1.4.2).
  17. ^ a b c Спротт, Д.А. (2000), Статистический вывод в науке , Springer (глава 2).
  18. ^ Дэвисон, AC (2008), Статистические модели , Cambridge University Press (§4.1.2).
  19. ^ Held, L .; Сабанес Бове, DS (2014), Прикладной статистический вывод - вероятность и Байес , Springer (§2.1).
  20. ^ a b c Росси, RJ (2018), Математическая статистика , Wiley , стр. 267.
  21. ^ a b Хадсон, DJ (1971), «Интервальная оценка на основе функции правдоподобия», Журнал Королевского статистического общества, серия B , 33 (2): 256–262.
  22. ^ Pawitan, Yudi (2001). По всей вероятности: статистическое моделирование и вывод с использованием правдоподобия . Издательство Оксфордского университета .
  23. ^ Вэнь Сян Вэй. «Обобщенная линейная модель - примечания к курсу» . Тайчжун, Тайвань: Университет Дунхай . С. Глава 5 . Проверено 1 октября 2017 .
  24. ^ Amemiya, Такеши (1985). «Концентрированная функция правдоподобия» . Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. С.  125–127 . ISBN 978-0-674-00560-0.
  25. ^ Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). «Концентрация функции логического правдоподобия». Оценка и вывод в эконометрике . Нью-Йорк: Издательство Оксфордского университета. С. 267–269. ISBN 978-0-19-506011-9.
  26. ^ Гурье, Кристиан; Монфор, Ален (1995). «Концентрированная функция правдоподобия» . Статистика и эконометрические модели . Нью-Йорк: Издательство Кембриджского университета. С. 170–175. ISBN 978-0-521-40551-5.
  27. ^ Пиклз, Эндрю (1985). Введение в анализ правдоподобия . Норидж: WH Hutchins & Sons. С.  21–24 . ISBN 0-86094-190-6.
  28. ^ Болкер, Бенджамин М. (2008). Экологические модели и данные в R . Издательство Принстонского университета. С. 187–189. ISBN 978-0-691-12522-0.
  29. ^ Aitkin, Мюррей (1982). «Прямой вывод правдоподобия». GLIM 82: Труды Международной конференции по обобщенным линейным моделям . Springer. С. 76–86. ISBN 0-387-90777-7.
  30. ^ Venzon, DJ; Мулгавкар, Ш. (1988). «Метод расчета доверительных интервалов на основе профиля правдоподобия». Журнал Королевского статистического общества . Серия C (Прикладная статистика). 37 (1): 87–94. DOI : 10.2307 / 2347496 . JSTOR 2347496 . 
  31. ^ Kalbfleisch, JD; Спротт, Д.А. (1973). «Маргинальные и условные вероятности». Санкхья: Индийский статистический журнал . Series A. 35 (3): 311–328. JSTOR 25049882 . 
  32. Перейти ↑ Cox, DR (1975). «Частичная вероятность». Биометрика . 62 (2): 269–276. DOI : 10.1093 / Biomet / 62.2.269 . Руководство по ремонту 0400509 . 
  33. ^ Касс, Роберт Э .; Вос, Пол В. (1997). Геометрические основы асимптотического вывода . Нью-Йорк: Джон Вили и сыновья. п. 14. ISBN 0-471-82668-5.
  34. ^ Пападопулос, Алекос (25 сентября 2013). «Почему мы всегда помещаем log () перед объединенным PDF-файлом, когда мы используем MLE (оценка максимального правдоподобия)?» . Обмен стеками .
  35. ^ Foutz, Роберт В. (1977). «Об единственном непротиворечивом решении уравнений правдоподобия». Журнал Американской статистической ассоциации . 72 (357): 147–148. DOI : 10.1080 / 01621459.1977.10479926 .
  36. ^ Тарон, Роберт Э .; Грюнхаге, Гэри (1975). «Замечание об однозначности корней уравнений правдоподобия для векторных параметров». Журнал Американской статистической ассоциации . 70 (352): 903–904. DOI : 10.1080 / 01621459.1975.10480321 .
  37. ^ Рай, Камта; Ван Ризин, Джон (1982). «Заметка о многомерной версии теоремы Ролля и единственности корней максимального правдоподобия». Коммуникации в статистике . Теория и методы. 11 (13): 1505–1510. DOI : 10.1080 / 03610928208828325 .
  38. ^ Рао, Б. Раджа (1960). «Формула кривизны поверхности правдоподобия образца, взятого из распределения, допускающего достаточную статистику». Биометрика . 47 (1-2): 203-207. DOI : 10.1093 / Biomet / 47.1-2.203 .
  39. ^ Уорд, Майкл Д .; Алквист, Джон С. (2018). Максимальная вероятность социальных наук: стратегии анализа . Издательство Кембриджского университета . С. 25–27.
  40. ^ «Вероятность», Краткий Оксфордский словарь английского языка (2007).
  41. ^ Hald, A. (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. DOI : 10,1214 / сс / 1009212248 . JSTOR 2676741 . 
  42. Перейти ↑ Fisher, RA (1921). «О« вероятной ошибке »коэффициента корреляции, выведенной из небольшой выборки». Метрон . 1 : 3–32.
  43. Перейти ↑ Fisher, RA (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А . 222 (594–604): 309–368. Bibcode : 1922RSPTA.222..309F . DOI : 10,1098 / rsta.1922.0009 . JFM 48.1280.02 . JSTOR 91208 .  
  44. ^ Клеменс, Бен (2008). Моделирование с данными: инструменты и методы для научных вычислений . Издательство Принстонского университета . п. 329.
  45. ^ Фишер, Рональд (1930). «Обратная вероятность». Математические труды Кембриджского философского общества . 26 (4): 528–535. Bibcode : 1930PCPS ... 26..528F . DOI : 10.1017 / S0305004100016297 .
  46. ^ Финберг, Стивен E (1997). «Введение в Р. А. Фишера об обратной вероятности и правдоподобии». Статистическая наука . 12 (3): 161. DOI : 10,1214 / сс / 1030037905 .
  47. ^ Royall, R. (1997). Статистические данные . Чепмен и Холл .
  48. ^ a b c d I. Дж. Гуд: вероятность и взвешивание доказательств (Гриффин, 1950), §6.1
  49. ^ a b c d Х. Джеффрис: Теория вероятностей (3-е изд., Oxford University Press, 1983), §1.22
  50. ^ а б в г д Э. Т. Джейнс: Теория вероятностей: логика науки (Cambridge University Press, 2003), §4.1
  51. ^ a b c d Д. В. Линдли: Введение в вероятность и статистику с байесовской точки зрения. Часть 1: Вероятность (Cambridge University Press, 1980), §1.6
  52. ^ a b c d А. Гельман, Дж. Б. Карлин, Х. С. Стерн, Д. Б. Дансон, А. Вехтари, Д. Б. Рубин: Байесовский анализ данных (3-е изд., Chapman & Hall / CRC 2014), §1.3
  53. ^ Sox, HC; Хиггинс, MC; Оуэнс, Д.К. (2013), Принятие медицинских решений (2-е изд.), Wiley, главы 3–4, DOI : 10.1002 / 9781118341544 , ISBN 9781118341544
  54. ^ Akaike, H. (1985). «Предсказание и энтропия». В Аткинсоне, AC; Финберг, С.Е. (ред.). Праздник статистики . Springer. С. 1–24.
  55. ^ Сакамото, Ю.; Исигуро, М .; Китагава, Г. (1986). Статистика критериев информации Акаике . Д. Рейдел . Часть I.
  56. ^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.). Springer-Verlag . глава 7.

Дальнейшее чтение [ править ]

  • Аззалини, Адельчи (1996). "Вероятность". Статистический вывод, основанный на правдоподобии . Чепмен и Холл. С. 17–50. ISBN 0-412-60650-X.
  • Боос, Деннис Д .; Стефанский, Л.А. (2013). «Построение и оценка правдоподобия». Основные статистические выводы: теория и методы . Нью-Йорк: Спрингер. С. 27–124. DOI : 10.1007 / 978-1-4614-4818-1_2 . ISBN 978-1-4614-4817-4.
  • Эдвардс, AWF (1992) [1972]. Вероятность (Расширенная ред.). Издательство Университета Джона Хопкинса . ISBN 0-8018-4443-6.
  • Кинг, Гэри (1989). «Модель правдоподобия вывода» . Объединяющая политическая методология: теория вероятности статистического вывода . Издательство Кембриджского университета. С. 59–94. ISBN 0-521-36697-6.
  • Линдси, Дж. К. (1996). «Вероятность» . Параметрический статистический вывод . Издательство Оксфордского университета. С. 69–139. ISBN 0-19-852359-9.
  • Роде, Чарльз А. (2014). Вводный статистический вывод с функцией правдоподобия . Берлин: Springer. ISBN 978-3-319-10460-7.
  • Ройалл, Ричард (1997). Статистические данные: парадигма вероятности . Лондон: Чепмен и Холл. ISBN 0-412-04411-0.
  • Уорд, Майкл Д .; Алквист, Джон С. (2018). «Функция правдоподобия: более глубокое погружение» . Максимальная вероятность социальных наук: стратегии анализа . Издательство Кембриджского университета . С. 21–28. ISBN 978-1-316-63682-4.

Внешние ссылки [ править ]

  • Функция правдоподобия в Planetmath
  • «Лог-вероятность» . Statlect .