Информация Fisher

В математической статистики , то информация Фишера (иногда называется просто информация ^[1] ) представляет собой способ измерения количества информации , что наблюдаемая случайная величина Х несет около неизвестного параметра & thetas из распределения этой модели X . Формально, это дисперсия в счете , или ожидаемое значение из наблюдаемой информации . В байесовской статистике , то асимптотическое распределение в заднем режимезависит от информации Фишера, а не от априорной (согласно теореме Бернштейна – фон Мизеса , которую ожидал Лаплас для экспоненциальных семейств ). ^[2] Роль информации Фишера в асимптотической теории оценки максимального правдоподобия была подчеркнута статистиком Рональдом Фишером (после некоторых первоначальных результатов Фрэнсиса Исидро Эджворта ). Информация Фишера также используется при вычислении априорной оценки Джеффри , которая используется в байесовской статистике.

Информационная матрица Фишера используется для вычисления ковариационных матриц, связанных с оценками максимального правдоподобия . Его также можно использовать при формулировании тестовой статистики, например, теста Вальда .

Было показано, что статистические системы научного характера (физические, биологические и т. Д.), Функции правдоподобия которых подчиняются инвариантности сдвига , подчиняются максимальной информации Фишера. ^[3] Уровень максимума зависит от характера ограничений системы.

Определение [ править ]

Информация Фишера - это способ измерения количества информации, которую несет наблюдаемая случайная величина X, о неизвестном параметре θ, от которого зависит вероятность X. Пусть f ( X ; θ ) будет функцией плотности вероятности (или функцией массы вероятности ) для X, обусловленной значением θ . Он описывает вероятность того, что мы наблюдаем заданный исход X , учитывая известное значение & thetas . Если f имеет резкий пик по отношению к изменениям θ, легко указать «правильное» значение θ из данных, или, что то же самое, данные X предоставляют много информации о параметре θ . Если вероятность f является плоской и распределенной, то потребуется много выборок X, чтобы оценить фактическое «истинное» значение θ, которое было бы получено с использованием всей выборки из выборки. Это предлагает изучить некоторую дисперсию по θ .

Формально частная производная по θ от натурального логарифма функции правдоподобия называется оценкой . При определенных условиях регулярности, если θ является истинным параметром (т.е. X фактически распределяется как f ( X ; θ )), можно показать, что ожидаемое значение (первый момент ) оценки, оцененное при истинном значении параметра , равно 0: ^[4] ${\ displaystyle \ theta}$

{\ displaystyle {\ begin {align} & \ operatorname {E} \ left [\ left. {\ frac {\ partial} {\ partial \ theta}} \ log f (X; \ theta) \ right | \ theta \ справа] \\ [3pt] = {} & \ int {\ frac {{\ frac {\ partial} {\ partial \ theta}} f (x; \ theta)} {f (x; \ theta)}} f (x; \ theta) \, dx \\ [3pt] = {} & {\ frac {\ partial} {\ partial \ theta}} \ int f (x; \ theta) \, dx \\ [3pt] = {} & {\ frac {\ partial} {\ partial \ theta}} 1 = 0. \ end {align}}}

Дисперсия от балла определяется как информация Фишера : ^[5]

{\ displaystyle {\ mathcal {I}} (\ theta) = \ operatorname {E} \ left [\ left. \ left ({\ frac {\ partial} {\ partial \ theta}} \ log f (X; \ theta) \ right) ^ {2} \ right | \ theta \ right] = \ int \ left ({\ frac {\ partial} {\ partial \ theta}} \ log f (x; \ theta) \ right) ^ {2} f (x; \ theta) \, dx,}

Обратите внимание на это . Случайная величина, несущая высокую информацию Фишера, означает, что абсолютное значение оценки часто бывает высоким. Информация Фишера не является функцией конкретного наблюдения, поскольку случайная величина X была усреднена. ${\ Displaystyle 0 \ Leq {\ mathcal {I}} (\ theta)}$

Если log f ( x ; θ ) дважды дифференцируем по θ и при определенных условиях регулярности, ^[4], то информация Фишера также может быть записана как ^[6]

{\mathcal {I}}(\theta )=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )\right|\theta \right],

поскольку

{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {{\frac {\partial }{\partial \theta }}f(X;\theta )}{f(X;\theta )}}\right)^{2}={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}

и

\operatorname {E} \left[\left.{\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}\right|\theta \right]={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int f(x;\theta )\,dx=0.

Таким образом, информация Фишера может рассматриваться как кривизна кривой поддержки (график логарифмической вероятности). Таким образом, вблизи оценки максимального правдоподобия низкая информация Фишера указывает на то, что максимум кажется «тупым», то есть максимум неглубоким и имеется много близких значений с аналогичной логарифмической вероятностью. И наоборот, высокая информация Фишера указывает на резкость максимума.

С точки зрения вероятности [ править ]

Поскольку вероятность того, из & thetas дается Х всегда пропорциональна вероятности F ( X ; & thetas ; ), их логарифмы обязательно отличаются на константу , которая не зависит от & thetas , и производные этих логарифмов по отношению к & thetas обязательно равны. Таким образом, в определениях информации Фишера можно подставить логарифм правдоподобия l ( θ ; X ) вместо $log f (X; θ)$ .

Образцы любого размера [ править ]

Значение X может представлять одну выборку, взятую из одного распределения, или может представлять коллекцию выборок, взятых из коллекции распределений. Если имеется n выборок и соответствующие n распределений статистически независимы, то информация Фишера обязательно будет суммой значений информации Фишера для одной выборки, по одному для каждой отдельной выборки из своего распределения. В частности, если n распределений независимы и одинаково распределены, то информация Фишера обязательно будет в n раз больше информации Фишера одной выборки из общего распределения.

Неформальный вывод границы Крамера – Рао [ править ]

Крамера-Рао ^[7]^[8] утверждает , что обратная к информации Фишера представляет собой нижнюю границу дисперсии любой несмещенной оценки в & thetas . HL Van Trees (1968) и B. Roy Frieden (2004) предлагают следующий метод получения границы Крамера – Рао , результат, который описывает использование информации Фишера.

Неформально мы начнем с рассмотрения объективной оценки . Математически «беспристрастный» означает, что ${\hat {\theta }}(X)$

\operatorname {E} \left[\left.{\hat {\theta }}(X)-\theta \right|\theta \right]=\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=0{\text{ regardless of the value of }}\theta .

Это выражение не зависит от θ , поэтому его частная производная по θ также должна быть равна нулю. По правилу произведения эта частная производная также равна

0={\frac {\partial }{\partial \theta }}\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=\int \left({\hat {\theta }}(x)-\theta \right){\frac {\partial f}{\partial \theta }}\,dx-\int f\,dx.

Для каждого & thetas , функция правдоподобия является функцией плотности вероятности, и , следовательно . Базовое вычисление подразумевает, что $\int f\,dx=1$

{\frac {\partial f}{\partial \theta }}=f\,{\frac {\partial \log f}{\partial \theta }}.

Используя эти два факта выше, мы получаем

\int \left({\hat {\theta }}-\theta \right)f\,{\frac {\partial \log f}{\partial \theta }}\,dx=1.

Факторизация подынтегрального выражения дает

\int \left(\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right)\left({\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right)\,dx=1.

Возводя выражение в интеграл в квадрат, неравенство Коши – Шварца дает

1={\biggl (}\int \left[\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right]\cdot \left[{\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right]\,dx{\biggr )}^{2}\leq \left[\int \left({\hat {\theta }}-\theta \right)^{2}f\,dx\right]\cdot \left[\int \left({\frac {\partial \log f}{\partial \theta }}\right)^{2}f\,dx\right].

Второй фактор в квадратных скобках определяется как информация Фишера, а первый фактор в квадратных скобках - это ожидаемая среднеквадратическая ошибка оценки . Переставляя, неравенство говорит нам, что ${\hat {\theta }}$

\operatorname {Var} \left({\hat {\theta }}\right)\geq {\frac {1}{{\mathcal {I}}\left(\theta \right)}}.

Другими словами, точность, с которой мы можем оценить θ, в основном ограничена информацией Фишера функции правдоподобия.

Однопараметрический эксперимент Бернулли [ править ]

Бернулли суд является случайной величиной с двумя возможными исходами, «успехом» и «неудачей», с успехом имея вероятность & thetas . Результат можно представить как результат подбрасывания монеты с вероятностью выпадения орла θ и вероятностью выпадения решки 1 - θ .

Пусть X - испытание Бернулли. Информация Фишера, содержащаяся в X, может быть рассчитана как

{\begin{aligned}{\mathcal {I}}(\theta )&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(\theta ^{X}(1-\theta )^{1-X}\right)\right|\theta \right]\\[5pt]&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\left(X\log \theta +(1-X)\log(1-\theta )\right)\right|\theta \right]\\[5pt]&=\operatorname {E} \left[\left.{\frac {X}{\theta ^{2}}}+{\frac {1-X}{(1-\theta )^{2}}}\right|\theta \right]\\[5pt]&={\frac {\theta }{\theta ^{2}}}+{\frac {1-\theta }{(1-\theta )^{2}}}\\[5pt]&={\frac {1}{\theta (1-\theta )}}.\end{aligned}}

Поскольку информация Фишера является аддитивной, информация Фишера, содержащаяся в n независимых испытаниях Бернулли, поэтому

{\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}}.

Это величина, обратная дисперсии среднего числа успехов в n испытаниях Бернулли , поэтому в этом случае граница Крамера – Рао является равенством.

Матричная форма [ править ]

При наличии N параметров, так что θ представляет собой N × 1 вектор , то информация Фишера принимает форму N × N матрицы . Эта матрица называется информационной матрицей Фишера (FIM) и имеет типичный элемент $\theta ={\begin{bmatrix}\theta _{1}&\theta _{2}&\dots &\theta _{N}\end{bmatrix}}^{\textsf {T}},$

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=\operatorname {E} \left[\left.\left({\frac {\partial }{\partial \theta _{i}}}\log f(X;\theta )\right)\left({\frac {\partial }{\partial \theta _{j}}}\log f(X;\theta )\right)\right|\theta \right].

ФИМЫ являются N × N неотрицательна матрицей . Если оно положительно определенно, то она определяет риманову метрику на N - мерное пространство параметров . Геометрия информации темы использует это, чтобы связать информацию Фишера с дифференциальной геометрией , и в этом контексте эта метрика известна как метрика информации Фишера .

При определенных условиях регулярности информационная матрица Фишера также может быть записана как

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta _{i}\,\partial \theta _{j}}}\log f(X;\theta )\right|\theta \right]\,.

Результат интересен в нескольких отношениях:

Он может быть получен как гессианом от относительной энтропии .
Ее можно использовать как риманову метрику для определения геометрии Фишера-Рао, когда она положительно определена. ^[9]
Его можно понимать как метрику, индуцированную евклидовой метрикой после соответствующей замены переменной.
В своей комплекснозначной форме это метрика Фубини – Штуди .
Это ключевая часть доказательства теоремы Уилкса , которая позволяет оценивать доверительные интервалы для оценки максимального правдоподобия (для тех условий, для которых он применяется) без использования принципа правдоподобия .
В случаях, когда аналитические расчеты FIM выше затруднены, можно сформировать среднее из простых Монте-Карло оценок гессиана отрицательной функции логарифмического правдоподобия в качестве оценки FIM. ^[10]^[11]^[12] Оценки могут быть основаны на значениях функции отрицательного логарифмического правдоподобия или градиента функции отрицательного логарифма правдоподобия; Аналитический расчет гессиана отрицательной функции логарифмического правдоподобия не требуется.

Ортогональные параметры [ править ]

Мы говорим, что два параметра θ _i и θ _j ортогональны, если элемент i- й строки и j- го столбца информационной матрицы Фишера равен нулю. С ортогональными параметрами легко работать в том смысле, что их оценки максимального правдоподобия независимы и могут быть рассчитаны отдельно. При решении исследовательских задач исследователь часто тратит некоторое время на поиск ортогональной параметризации плотностей, задействованных в проблеме. ^{[ необходима цитата ]}

Сингулярная статистическая модель [ править ]

Если информационная матрица Фишера положительно определена для всех $θ$ , то соответствующая статистическая модель называется регулярной ; в противном случае статистическая модель называется особой . ^[13] Примеры сингулярных статистических моделей включают следующее: нормальные смеси, биномиальные смеси, полиномиальные смеси, байесовские сети, нейронные сети, радиальные базисные функции, скрытые марковские модели, стохастические контекстно-свободные грамматики, регрессии с пониженным рангом, машины Больцмана.

В машинном обучении , если статистическая модель разработана так, что она извлекает скрытую структуру из случайного явления, то она, естественно, становится сингулярной. ^[14]

Многомерное нормальное распределение [ править ]

ФИМЫ For A N -мерного многомерного нормального распределения , имеют специальную форму. Пусть K -мерный вектор параметров равен, а вектор случайных нормальных величин равен . Предположим, что средние значения этих случайных величин равны , и пусть будет ковариационной матрицей . Тогда для ( m , n ) запись в FIM: ^[15] $\,X\sim N\left(\mu (\theta ),\,\Sigma (\theta )\right)$ $\theta ={\begin{bmatrix}\theta _{1}&\dots &\theta _{K}\end{bmatrix}}^{\textsf {T}}$ $X={\begin{bmatrix}X_{1}&\dots &X_{N}\end{bmatrix}}^{\textsf {T}}$ $\,\mu (\theta )={\begin{bmatrix}\mu _{1}(\theta )&\dots &\mu _{N}(\theta )\end{bmatrix}}^{\textsf {T}}$ $\,\Sigma (\theta )$ $1\leq m,\,n\leq K$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}+{\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),

где обозначает транспонирование вектора, обозначает след в виде квадратной матрицы , а также : $(\cdot )^{\textsf {T}}$ $\operatorname {tr} (\cdot )$

{\begin{aligned}{\frac {\partial \mu }{\partial \theta _{m}}}&={\begin{bmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}}&{\frac {\partial \mu _{2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\end{bmatrix}}^{\textsf {T}};\\{\frac {\partial \Sigma }{\partial \theta _{m}}}&={\begin{bmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\[5pt]{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{bmatrix}}.\end{aligned}}

Обратите внимание, что особый, но очень распространенный случай - это константа. потом $\Sigma (\theta )=\Sigma$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}.\

В этом случае информационная матрица Фишера может быть идентифицирована с коэффициентом матрицы нормальных уравнений из наименьших квадратов теории оценивания.

Другой частный случай возникает, когда среднее значение и ковариация зависят от двух различных векторных параметров, например β и θ . Это особенно популярно при анализе пространственных данных, который часто использует линейную модель с коррелированными остатками. В этом случае ^[16]

{\mathcal {I}}(\beta ,\theta )=\operatorname {diag} \left({\mathcal {I}}(\beta ),{\mathcal {I}}(\theta )\right)

куда

{\begin{aligned}{\mathcal {I}}{(\beta )_{m,n}}&={\frac {\partial \mu ^{\textsf {T}}}{\partial \beta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \beta _{n}}},\\[5pt]{\mathcal {I}}{(\theta )_{m,n}}&={\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}{\Sigma ^{-1}}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right)\end{aligned}}

Свойства [ править ]

Цепное правило [ править ]

Подобно энтропии или взаимной информации , информация Фишера также имеет разложение по цепному правилу . В частности, если X и Y являются совместно распределенными случайными величинами, из этого следует, что: ^[17]

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y\mid X}(\theta ),

где и - информация Фишера для Y относительно вычисленной относительно условной плотности Y при конкретном значении X = x . ${\mathcal {I}}_{Y\mid X}(\theta )=\operatorname {E} _{X}\left[{\mathcal {I}}_{Y\mid X=x}(\theta )\right]$ ${\mathcal {I}}_{Y\mid X=x}(\theta )$ $\theta$

В качестве особого случая, если две случайные величины независимы , информация, полученная от двух случайных величин, представляет собой сумму информации от каждой случайной величины отдельно:

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta ).

Следовательно, информация в случайной выборке из n независимых и одинаково распределенных наблюдений в n раз больше информации в выборке размером 1.

Достаточная статистика [ править ]

Информация , представленная в достаточных статистиках такой же , как у образца X . Это можно увидеть, используя критерий факторизации Неймана для получения достаточной статистики. Если T ( X ) достаточно для θ , то

f(X;\theta )=g(T(X),\theta )h(X)

для некоторых функций g и h . Независимость h ( X ) от θ влечет

{\frac {\partial }{\partial \theta }}\log \left[f(X;\theta )\right]={\frac {\partial }{\partial \theta }}\log \left[g(T(X);\theta )\right],

тогда равенство информации следует из определения информации Фишера. В более общем смысле, если T = t ( X ) - статистика , то

{\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )

с равенством тогда и только тогда, когда T - достаточная статистика . ^[18]

Репараметризация [ править ]

Информация Фишера зависит от параметризации проблемы. Если θ и η - две скалярные параметризации задачи оценивания, а θ - непрерывно дифференцируемая функция от η , то

{\mathcal {I}}_{\eta }(\eta )={\mathcal {I}}_{\theta }(\theta (\eta ))\left({\frac {d\theta }{d\eta }}\right)^{2}

где и - информационные меры Фишера для η и θ соответственно. ^[19] ${\mathcal {I}}_{\eta }$ ${\mathcal {I}}_{\theta }$

В векторном случае предположим, что и являются k -векторами, которые параметризуют задачу оценивания, и предположим, что это непрерывно дифференцируемая функция , тогда, ^[20] ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$

{\mathcal {I}}_{\boldsymbol {\eta }}({\boldsymbol {\eta }})={\boldsymbol {J}}^{\textsf {T}}{\mathcal {I}}_{\boldsymbol {\theta }}({\boldsymbol {\theta }}({\boldsymbol {\eta }})){\boldsymbol {J}}

где ( i , j ) -й элемент матрицы Якоби размера k × k определяется формулой ${\boldsymbol {J}}$

J_{ij}={\frac {\partial \theta _{i}}{\partial \eta _{j}}},

и где - матрица, транспонированная ${\boldsymbol {J}}^{\textsf {T}}$ ${\boldsymbol {J}}.$

В информационной геометрии это рассматривается как изменение координат на римановом многообразии , а внутренние свойства кривизны не меняются при другой параметризации. В общем случае информационная матрица Фишера обеспечивает риманову метрику (точнее, метрику Фишера – Рао) для многообразия термодинамических состояний и может использоваться в качестве меры информационно-геометрической сложности для классификации фазовых переходов , например скалярной кривизна термодинамического метрического тензора расходится в (и только в) точке фазового перехода. ^[21]

В термодинамическом контексте информационная матрица Фишера напрямую связана со скоростью изменения соответствующих параметров порядка . ^[22] В частности, такие отношения идентифицируют фазовые переходы второго рода через расхождения отдельных элементов информационной матрицы Фишера.

Приложения [ править ]

Оптимальный план экспериментов [ править ]

Информация Фишера широко используется при оптимальном дизайне экспериментов . Из-за взаимности оценивани-дисперсии и информации Фишера, сводя к минимуму в дисперсии соответствует максимизации на информацию .

Когда линейная (или линеаризованная ) статистическая модель имеет несколько параметров , среднее значение параметра оценки является вектором, а его дисперсия - матрицей . Обратная матрица дисперсии называется «информационной матрицей». Поскольку дисперсия оценщика вектора параметров представляет собой матрицу, проблема «минимизации дисперсии» усложняется. Используя статистическую теорию , статистики сжимают информационную матрицу, используя сводную статистику с действительными значениями ; будучи функциями с действительным знаком, эти «информационные критерии» могут быть максимизированы.

Традиционно статистики оценивают оценки и планы, рассматривая некоторую сводную статистику ковариационной матрицы (несмещенной оценки), обычно с положительными действительными значениями (например, определитель или след матрицы ). Работа с положительными действительными числами дает несколько преимуществ: если оценка одного параметра имеет положительную дисперсию, тогда и дисперсия, и информация Фишера являются положительными действительными числами; следовательно, они являются членами выпуклого конуса неотрицательных действительных чисел (ненулевые члены которого имеют обратные значения в этом же конусе).

Для нескольких параметров ковариационные матрицы и информационные матрицы являются элементами выпуклого конуса неотрицательно-определенных симметричных матриц в частично упорядоченном векторном пространстве в порядке Лёвнера ( Лёвнера ). Этот конус замкнут при сложении и обращении матриц, а также при умножении положительных действительных чисел и матриц. Изложение теории матриц и порядка Лёвнера появляется в Пукельсхайме. ^[23]

Традиционными критериями оптимальности являются инварианты информационной матрицы в смысле теории инвариантов ; С алгебраической точки зрения традиционные критерии оптимальности являются функционалами собственных значений информационной матрицы (Фишера) (см. оптимальный дизайн ).

Джеффрис априор в байесовской статистике [ править ]

В байесовской статистике информация Фишера используется для вычисления априорного значения Джеффриса , которое является стандартным, неинформативным априорным значением для параметров непрерывного распределения. ^[24]

Вычислительная неврология [ править ]

Информация Фишера использовалась для определения границ точности нейронных кодов. В этом случае X обычно представляет собой совместные ответы многих нейронов, представляющих низкоразмерную переменную θ (например, параметр стимула). В частности, была изучена роль корреляций в шуме нервных реакций. ^[25]

Вывод физических законов [ править ]

Информация Фишера играет центральную роль в противоречивом принципе, выдвинутом Фриденом в качестве основы физических законов, утверждении, которое оспаривается. ^[26]

Машинное обучение [ править ]

Информация Фишера используется в методах машинного обучения , такие как упругая консолидация веса , ^[27] , который уменьшает катастрофическое забывание в искусственных нейронных сетях .

Отношение к относительной энтропии [ править ]

Информация Фишера связана с относительной энтропией . ^[28] Относительная энтропия, или Кульбак-Либлер расхождение между двумя распределениями и может быть записана в виде $p$ $q$

KL(p:q)=\int p(x)\log {\frac {p(x)}{q(x)}}dx.

Теперь рассмотрим семейство вероятностных распределений, параметризованных с помощью . Тогда расхождение Кульбака – Лейблера между двумя распределениями в семействе можно записать как $f(x;\theta )$ $\theta \in \Theta$

D(\theta ,\theta ')=KL(p(.;\theta ):p(.;\theta '))=\int f(x;\theta )\log {\frac {f(x;\theta )}{f(x;\theta ')}}dx.

Если фиксировано, то относительная энтропия между двумя распределениями одного и того же семейства минимизируется при . Для близкого к , можно расширить предыдущее выражение в ряду до второго порядка: $\theta$ $\theta '=\theta$ $\theta '$ $\theta$

D(\theta ,\theta ')={\frac {1}{2}}(\theta '-\theta )^{\textsf {T}}\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }(\theta '-\theta )+o\left((\theta '-\theta )^{2}\right)

Но производную второго порядка можно записать как

\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }=-\int f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}\log(f(x;\theta '))\right)_{\theta '=\theta }dx=[{\mathcal {I}}(\theta )]_{i,j}.

Таким образом, информация Фишера представляет собой кривизну относительной энтропии.

История [ править ]

Информация Фишера обсуждалась несколькими ранними статистиками, в частности Ф. Я. Эджвортом . ^[29] Например, Сэвидж ^[30] говорит: «В нем [информация о Фишере] он [Фишер] был в некоторой степени предвиден (Эджворт 1908–1909, особенно 502, 507–8, 662, 677–8, 82– 5 и ссылки, которые он [Эджворт] цитирует, включая Пирсона и Филона 1898 [...]) ». Есть ряд ранних исторических источников ^[31] и ряд обзоров этой ранней работы. ^[32]^[33]^[34]

См. Также [ править ]

Эффективность (статистика)
Наблюдаемая информация
Информационная метрика Fisher
Матрица формирования
Информационная геометрия
Джеффрис приор
Граница Крамера – Рао
Минимальная информация Фишера

Другие меры, используемые в теории информации :

Энтропия (теория информации)
Дивергенция Кульбака – Лейблера.
Самоинформация

Заметки [ править ]

^ Lehmann & Casella, стр. 115
^ Люсьен Ле Кам (1986) Асимптотические методы в статистической теории принятия решений : страницы 336 и 618–621 (фон Мизес и Бернштейн).
^ Frieden & Gatenby (2013)
^ а б Суба Рао. «Лекции по статистическому выводу» (PDF) .
^ Фишер (1922)
^ Lehmann & Casella, ур. (2.5.16), лемма 5.3, с.116.
^ Крамер (1946)
↑ Рао (1945)
^ Нильсен, Франк (2010). «Нижняя граница Крамера-Рао и информационная геометрия» . Connected at Infinity II : 18–37.
Перейти ↑ Spall, JC (2005). «Вычисление Монте-Карло информационной матрицы Фишера в нестандартных условиях». Журнал вычислительной и графической статистики . 14 (4): 889–909. DOI : 10.1198 / 106186005X78800 .
^ Сполл, Дж. К. (2008), «Улучшенные методы оценки информационной матрицы Фишера методом Монте-Карло», Труды Американской конференции по контролю , Сиэтл, Вашингтон, 11–13 июня 2008 г., стр. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
^ Das, S .; Spall, JC; Ганем, Р. (2010). «Эффективное вычисление Монте-Карло информационной матрицы Фишера с использованием априорной информации». Вычислительная статистика и анализ данных . 54 (2): 272–289. DOI : 10.1016 / j.csda.2009.09.018 .
^ Watanabe, S. (2008), Accardi, L .; Freudenberg, W .; Охя, М. (ред.), «Алгебраико-геометрический метод в сингулярной статистической оценке», Квантовая биоинформатика , World Scientific : 325–336, Bibcode : 2008qbi..conf..325W , doi : 10.1142 / 9789812793171_0024 , ISBN 978-981-279-316-4.
Перейти ↑ Watanabe, S (2013). «Широко применимый байесовский информационный критерий». Журнал исследований в области машинного обучения . 14 : 867–897.
^ Малаго, Луиджи; Пистоне, Джованни (2015). Информационная геометрия гауссова распределения с учетом стохастической оптимизации . Материалы конференции ACM 2015 г. по основам генетических алгоритмов XIII . С. 150–162. DOI : 10.1145 / 2725494.2725510 . ISBN 9781450334341.
^ Мардия, К.В. Маршалл, Р.Дж. (1984). «Оценка максимального правдоподобия моделей остаточной ковариации в пространственной регрессии». Биометрика . 71 (1): 135–46. DOI : 10.1093 / Biomet / 71.1.135 .
Перейти ↑ Zamir, R. (1998). «Доказательство информационного неравенства Фишера с помощью аргумента обработки данных». IEEE Transactions по теории информации . 44 (3): 1246–1250. CiteSeerX 10.1.1.49.6628 . DOI : 10.1109 / 18.669301 .
^ Schervish, Mark J. (1995). Теоретическая статистика . Springer-Verlag. п. 113.
^ Lehmann & Casella, ур. (2.5.11).
^ Lehmann & Casella, ур. (2.6.16)
^ Janke, W .; Джонстон, Округ Колумбия; Кенна, Р. (2004). «Информационная геометрия и фазовые переходы». Physica . 336 (1-2): 181. arXiv : cond-mat / 0401092 . Bibcode : 2004PhyA..336..181J . DOI : 10.1016 / j.physa.2004.01.023 .
^ Прокопенко, М .; Lizier, Joseph T .; Lizier, JT; Обст, О .; Ван, XR (2011). «Связь информации Fisher с параметрами заказа». Physical Review E . 84 (4): 041116. Bibcode : 2011PhRvE..84d1116P . DOI : 10.1103 / PhysRevE.84.041116 . PMID 22181096 . S2CID 18366894 .
^ Pukelsheim, Friedrick (1993). Оптимальный план экспериментов . Нью-Йорк: Вили. ISBN 978-0-471-61971-0.
^ Бернардо, Хосе М .; Смит, Адриан FM (1994). Байесовская теория . Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-471-92416-6.
^ Эбботт, Ларри Ф .; Даян, Питер (1999). «Влияние коррелированной изменчивости на точность кода популяции». Нейронные вычисления . 11 (1): 91–101. DOI : 10.1162 / 089976699300016827 . PMID 9950724 .
^ Стритера РФ (2007). Утраченные причины в физике и за ее пределами . Springer. п. 69. ISBN. 978-3-540-36581-5.
^ Киркпатрик, Джеймс; Паскану, Разван; Рабиновиц, Нил; Венесс, Джоэл; Дежарден, Гийом; Русу, Андрей А .; Милан, Киран; Куан, Джон; Рамальо, Тьяго (28 марта 2017 г.). «Преодоление катастрофического забывания в нейронных сетях» . Труды Национальной академии наук . 114 (13): 3521–3526. DOI : 10.1073 / pnas.1611835114 . ISSN 0027-8424 . PMC 5380101 . PMID 28292907 .
^ Gourieroux & Монфор (1995), стр 87
^ Дикарь (1976)
↑ Savage (1976), стр. 156
↑ Эджворт (сентябрь 1908 г., декабрь 1908 г.)
^ Пратт (1976)
↑ Стиглер (1978, 1986, 1999)
^ Hald (1998, 1999)

Ссылки [ править ]

Крамер, Харальд (1946). Математические методы статистики . Математический ряд Принстона. Принстон: Издательство Принстонского университета. ISBN 0691080046.

Эджворт, FY (июнь 1908 г.). «О вероятных ошибках частотных постоянных» . Журнал Королевского статистического общества . 71 (2): 381–397. DOI : 10.2307 / 2339461 . JSTOR 2339461 .
Эджворт, FY (сентябрь 1908 г.). "О вероятных ошибках частотных постоянных (продолжение)" . Журнал Королевского статистического общества . 71 (3): 499–512. DOI : 10.2307 / 2339293 . JSTOR 2339293 .
Эджворт, FY (декабрь 1908 г.). "О вероятных ошибках частотных постоянных (продолжение)" . Журнал Королевского статистического общества . 71 (4): 651–678. DOI : 10.2307 / 2339378 . JSTOR 2339378 .

Фишер, Р.А. (1922-01-01). «О математических основах теоретической статистики» . Философские труды Лондонского королевского общества . А. 222 (594–604): 309–368. DOI : 10,1098 / rsta.1922.0009 . Проверено 12 августа 2020 .

Frieden, BR (2004) Science from Fisher Information: A Unification . Cambridge Univ. Нажмите. ISBN 0-521-00911-1 .
Frieden, B. Roy; Гейтенби, Роберт А. (2013). «Принцип максимума информации Фишера из аксиом Харди применительно к статистическим системам» . Physical Review E . 88 (4): 042144. arXiv : 1405.0007 . Bibcode : 2013PhRvE..88d2144F . DOI : 10.1103 / PhysRevE.88.042144 . PMC 4010149 . PMID 24229152 .
Халд, А. (май 1999 г.). «К истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам» . Статистическая наука . 14 (2): 214–222. DOI : 10,1214 / сс / 1009212248 . JSTOR 2676741 .
Халд, А. (1998). История математической статистики с 1750 по 1930 год . Нью-Йорк: Вили. ISBN 978-0-471-17912-2.
Lehmann, EL ; Казелла, Г. (1998). Теория точечного оценивания (2-е изд.). Springer. ISBN 978-0-387-98502-2.
Ле Кам, Люсьен (1986). Асимптотические методы в статистической теории принятия решений . Springer-Verlag. ISBN 978-0-387-96307-5.
Пратт, Джон В. (май 1976 г.). "Ф. Я. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия" . Анналы статистики . 4 (3): 501–514. DOI : 10.1214 / AOS / 1176343457 . JSTOR 2958222 .

Рао, К. Радхакришна (1945). «Информация и достижимая точность при оценке статистических параметров». Бюллетень математического общества Калькутты . 37 : 81–91. DOI : 10.1007 / 978-1-4612-0919-5_16 .

Сэвидж, LJ (май 1976 г.). «О перечитывании Р. А. Фишера» . Анналы статистики . 4 (3): 441–500. DOI : 10.1214 / AOS / 1176343456 . JSTOR 2958221 .
Шервиш, Марк Дж. (1995). Теория статистики . Нью-Йорк: Спрингер. ISBN 978-0-387-94546-0.
Стиглер, С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 978-0-674-40340-6.^{[ требуется страница ]}
Стиглер, С.М. (1978). «Фрэнсис Исидро Эджворт, статистик» . Журнал Королевского статистического общества, Series A . 141 (3): 287–322. DOI : 10.2307 / 2344804 . JSTOR 2344804 .
Стиглер, С.М. (1999). Статистика на столе: История статистических концепций и методов . Издательство Гарвардского университета. ISBN 978-0-674-83601-3.^{[ требуется страница ]}
Ван Trees, HL (1968). Выявление, оценка и теория модуляции, часть I . Нью-Йорк: Вили. ISBN 978-0-471-09517-0.

[1] Lehmann & Casella, стр. 115

[2] Люсьен Ле Кам (1986) Асимптотические методы в статистической теории принятия решений : страницы 336 и 618–621 (фон Мизес и Бернштейн).

[3] Frieden & Gatenby (2013)

[SubaRao-4] а б Суба Рао. «Лекции по статистическому выводу» (PDF) .

[5] Фишер (1922)

[6] Lehmann & Casella, ур. (2.5.16), лемма 5.3, с.116.

[7] Крамер (1946)

[8] Рао (1945)

[9] Нильсен, Франк (2010). «Нижняя граница Крамера-Рао и информационная геометрия» . Connected at Infinity II : 18–37.

[10] Перейти ↑ Spall, JC (2005). «Вычисление Монте-Карло информационной матрицы Фишера в нестандартных условиях». Журнал вычислительной и графической статистики . 14 (4): 889–909. DOI : 10.1198 / 106186005X78800 .

[11] Сполл, Дж. К. (2008), «Улучшенные методы оценки информационной матрицы Фишера методом Монте-Карло», Труды Американской конференции по контролю , Сиэтл, Вашингтон, 11–13 июня 2008 г., стр. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850

[12] Das, S .; Spall, JC; Ганем, Р. (2010). «Эффективное вычисление Монте-Карло информационной матрицы Фишера с использованием априорной информации». Вычислительная статистика и анализ данных . 54 (2): 272–289. DOI : 10.1016 / j.csda.2009.09.018 .

[13] Watanabe, S. (2008), Accardi, L .; Freudenberg, W .; Охя, М. (ред.), «Алгебраико-геометрический метод в сингулярной статистической оценке», Квантовая биоинформатика , World Scientific : 325–336, Bibcode : 2008qbi..conf..325W , doi : 10.1142 / 9789812793171_0024 , ISBN 978-981-279-316-4.

[14] Перейти ↑ Watanabe, S (2013). «Широко применимый байесовский информационный критерий». Журнал исследований в области машинного обучения . 14 : 867–897.

[15] Малаго, Луиджи; Пистоне, Джованни (2015). Информационная геометрия гауссова распределения с учетом стохастической оптимизации . Материалы конференции ACM 2015 г. по основам генетических алгоритмов XIII . С. 150–162. DOI : 10.1145 / 2725494.2725510 . ISBN 9781450334341.

[16] Мардия, К.В. Маршалл, Р.Дж. (1984). «Оценка максимального правдоподобия моделей остаточной ковариации в пространственной регрессии». Биометрика . 71 (1): 135–46. DOI : 10.1093 / Biomet / 71.1.135 .

[17] Перейти ↑ Zamir, R. (1998). «Доказательство информационного неравенства Фишера с помощью аргумента обработки данных». IEEE Transactions по теории информации . 44 (3): 1246–1250. CiteSeerX 10.1.1.49.6628 . DOI : 10.1109 / 18.669301 .

[Schervish-18] Schervish, Mark J. (1995). Теоретическая статистика . Springer-Verlag. п. 113.

[19] Lehmann & Casella, ур. (2.5.11).

[20] Lehmann & Casella, ур. (2.6.16)

[21] Janke, W .; Джонстон, Округ Колумбия; Кенна, Р. (2004). «Информационная геометрия и фазовые переходы». Physica . 336 (1-2): 181. arXiv : cond-mat / 0401092 . Bibcode : 2004PhyA..336..181J . DOI : 10.1016 / j.physa.2004.01.023 .

[22] Прокопенко, М .; Lizier, Joseph T .; Lizier, JT; Обст, О .; Ван, XR (2011). «Связь информации Fisher с параметрами заказа». Physical Review E . 84 (4): 041116. Bibcode : 2011PhRvE..84d1116P . DOI : 10.1103 / PhysRevE.84.041116 . PMID 22181096 . S2CID 18366894 .

[23] Pukelsheim, Friedrick (1993). Оптимальный план экспериментов . Нью-Йорк: Вили. ISBN 978-0-471-61971-0.

[24] Бернардо, Хосе М .; Смит, Адриан FM (1994). Байесовская теория . Нью-Йорк: Джон Вили и сыновья. ISBN 978-0-471-92416-6.

[25] Эбботт, Ларри Ф .; Даян, Питер (1999). «Влияние коррелированной изменчивости на точность кода популяции». Нейронные вычисления . 11 (1): 91–101. DOI : 10.1162 / 089976699300016827 . PMID 9950724 .

[26] Стритера РФ (2007). Утраченные причины в физике и за ее пределами . Springer. п. 69. ISBN. 978-3-540-36581-5.

[27] Киркпатрик, Джеймс; Паскану, Разван; Рабиновиц, Нил; Венесс, Джоэл; Дежарден, Гийом; Русу, Андрей А .; Милан, Киран; Куан, Джон; Рамальо, Тьяго (28 марта 2017 г.). «Преодоление катастрофического забывания в нейронных сетях» . Труды Национальной академии наук . 114 (13): 3521–3526. DOI : 10.1073 / pnas.1611835114 . ISSN 0027-8424 . PMC 5380101 . PMID 28292907 .

[28] Gourieroux & Монфор (1995), стр 87

[29] Дикарь (1976)

[30] Savage (1976), стр. 156

[31] Эджворт (сентябрь 1908 г., декабрь 1908 г.)

[32] Пратт (1976)

[33] Стиглер (1978, 1986, 1999)

[34] Hald (1998, 1999)

[1]