Идентифицируемость

В статистике , идентифицируемости является свойством которого модель должна удовлетворять для того , чтобы точного вывода возможным. Модель поддается идентификации, если теоретически возможно узнать истинные значения основных параметров этой модели после получения из нее бесконечного числа наблюдений. Математически это эквивалентно утверждению, что разные значения параметров должны генерировать разные распределения вероятностей наблюдаемых переменных. Обычно модель идентифицируема только при определенных технических ограничениях, и в этом случае набор этих требований называется условиями идентификации .

Модель , которая не может быть идентифицированы , как говорят, не идентифицирующая или неясный : два или более параметризация являются наблюдаемо эквивалентны . В некоторых случаях, даже если модель не идентифицируема, все же возможно узнать истинные значения определенного подмножества параметров модели. В этом случае мы говорим, что модель частично идентифицируема . В других случаях можно узнать местоположение истинного параметра до определенной конечной области пространства параметров, и в этом случае модель устанавливается идентифицируемой .

Помимо строго теоретического исследования свойств модели, идентифицируемость может рассматриваться в более широком контексте, когда модель тестируется с экспериментальными наборами данных с использованием анализа идентифицируемости . ^[1]

Определение

Позволять ${\ Displaystyle {\ mathcal {P}} = \ {P _ {\ theta}: \ theta \ in \ Theta \}}$ - статистическая модель, в которой пространство параметров ${\ displaystyle \ Theta}$ либо конечномерна, либо бесконечномерна. Мы говорим что ${\ Displaystyle {\ mathcal {P}}}$ является идентифицируемым , если отображение ${\ displaystyle \ theta \ mapsto P _ {\ theta}}$ это один-к-одному : ^[2]

{\ Displaystyle P _ {\ theta _ {1}} = P _ {\ theta _ {2}} \ quad \ Rightarrow \ quad \ theta _ {1} = \ theta _ {2} \ quad \ {\ text {для всех }} \ theta _ {1}, \ theta _ {2} \ in \ Theta.}

Это определение означает, что различные значения θ должны соответствовать различным распределениям вероятностей: если θ ₁ ≠ θ ₂ , то также P _{θ ₁} ≠ P _{θ ₂} . ^[3] Если распределения определены в терминах функций плотности вероятности (PDF), то два PDF-файла следует считать различными, только если они различаются по набору ненулевой меры (например, две функции ƒ ₁ ( x ) = 1 _{0 ≤ x <1} и ƒ ₂ ( x ) = 1 _{0 ≤ x ≤ 1} отличаются только в одной точке x = 1 - наборе с нулевой мерой - и поэтому не могут рассматриваться как отдельные PDF-файлы).

Идентифицируемость модели в смысле обратимости карты ${\ displaystyle \ theta \ mapsto P _ {\ theta}}$ эквивалентно возможности узнать истинный параметр модели, если модель можно наблюдать бесконечно долго. Действительно, если { X _т } ⊆ S представляет собой последовательность наблюдений из модели, то по усиленному закону больших чисел ,

{\ displaystyle {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} \ mathbf {1} _ {\ {X_ {t} \ in A \}} \ {\ xrightarrow {\ текст {as}}} \ \ Pr [X_ {t} \ in A],}

для любого измеримого множества A ⊆ S (здесь 1 _{...} - индикаторная функция ). Таким образом, с бесконечным числом наблюдений мы сможем найти истинное распределение вероятностей P ₀ в модели, и поскольку условие идентифицируемости выше требует, чтобы карта ${\ displaystyle \ theta \ mapsto P _ {\ theta}}$ быть обратимым, мы также сможем найти истинное значение параметра, который сгенерировал данное распределение P ₀ .

Примеры

Пример 1

Позволять ${\ Displaystyle {\ mathcal {P}}}$ быть нормальным семейством масштаба местоположения :

{\ displaystyle {\ mathcal {P}} = {\ Big \ {} \ f _ {\ theta} (x) = {\ tfrac {1} {{\ sqrt {2 \ pi}} \ sigma}} e ^ { - {\ frac {1} {2 \ sigma ^ {2}}} (x- \ mu) ^ {2}} \ {\ Big |} \ \ theta = (\ mu, \ sigma): \ mu \ in \ mathbb {R}, \, \ sigma \!> 0 \ {\ Big \}}.}

потом

{\ displaystyle {\ begin {align} & f _ {\ theta _ {1}} = f _ {\ theta _ {2}} \\ [6pt] \ Longleftrightarrow {} & {\ frac {1} {{\ sqrt {2} \ pi}} \ sigma _ {1}}} \ exp \ left (- {\ frac {1} {2 \ sigma _ {1} ^ {2}}} (x- \ mu _ {1}) ^ { 2} \ right) = {\ frac {1} {{\ sqrt {2 \ pi}} \ sigma _ {2}}} \ exp \ left (- {\ frac {1} {2 \ sigma _ {2} ^ {2}}} (x- \ mu _ {2}) ^ {2} \ right) \\ [6pt] \ Longleftrightarrow {} & {\ frac {1} {\ sigma _ {1} ^ {2} }} (x- \ mu _ {1}) ^ {2} + \ ln \ sigma _ {1} = {\ frac {1} {\ sigma _ {2} ^ {2}}} (x- \ mu _ {2}) ^ {2} + \ ln \ sigma _ {2} \\ [6pt] \ Longleftrightarrow {} & x ^ {2} \ left ({\ frac {1} {\ sigma _ {1} ^ { 2}}} - {\ frac {1} {\ sigma _ {2} ^ {2}}} \ right) -2x \ left ({\ frac {\ mu _ {1}} {\ sigma _ {1} ^ {2}}} - {\ frac {\ mu _ {2}} {\ sigma _ {2} ^ {2}}} \ right) + \ left ({\ frac {\ mu _ {1} ^ { 2}} {\ sigma _ {1} ^ {2}}} - {\ frac {\ mu _ {2} ^ {2}} {\ sigma _ {2} ^ {2}}} + \ ln \ sigma _ {1} - \ ln \ sigma _ {2} \ right) = 0 \ end {align}}}

Это выражение равно нулю для почти всех x только тогда, когда все его коэффициенты равны нулю, что возможно только при | σ ₁ | = | σ ₂ | и μ ₁ = μ ₂ . Поскольку в параметре масштаба σ ограничивается значением больше нуля, мы заключаем, что модель идентифицируема: ƒ _{θ ₁} = ƒ _{θ ₂} ⇔ θ ₁ = θ ₂ .

Пример 2

Позволять ${\ Displaystyle {\ mathcal {P}}}$ быть стандартной моделью линейной регрессии :

{\ displaystyle y = \ beta 'x + \ varepsilon, \ quad \ mathrm {E} [\, \ varepsilon \ mid x \,] = 0}

(где 'означает транспонирование матрицы ). Тогда параметр β идентифицируем тогда и только тогда, когда матрица ${\ Displaystyle \ mathrm {E} [хх ']}$ обратимо. Таким образом, это условие идентификации в модели.

Пример 3

Предполагать ${\ Displaystyle {\ mathcal {P}}}$ - классическая линейная модель ошибок в переменных :

{\ displaystyle {\ begin {case} y = \ beta x ^ {*} + \ varepsilon, \\ x = x ^ {*} + \ eta, \ end {cases}}}

где ( ε , η , x * ) - совместно нормальные независимые случайные величины с нулевым математическим ожиданием и неизвестными дисперсиями, и наблюдаются только переменные ( x , y ). Тогда эту модель невозможно идентифицировать ^[4], только произведение βσ² _∗ (где σ² _∗ - дисперсия скрытого регрессора x * ). Это также пример модели, идентифицируемой по множеству : хотя точное значение β невозможно узнать, мы можем гарантировать, что оно должно лежать где-то в интервале ( β _yx , 1 ÷ β _xy ), где β _yx - коэффициент в OLS. регрессия y на x , а β _xy - коэффициент регрессии x на y в OLS . ^[5]

Если отказаться от предположения нормальности и потребовать , чтобы х * были не распределены нормально, сохранив только условие независимости & epsi ; ⊥ п ⊥ х * , то модель становится идентифицируемой. ^[4]

Программное обеспечение

В случае оценки параметров в частично наблюдаемых динамических системах вероятность профиля также может использоваться для структурного и практического анализа идентифицируемости. ^[6] Реализация [1] доступна в PottersWheel MATLAB Toolbox .

Смотрите также

дальнейшее чтение

Вальтер, Э. ; Пронзато, Л. (1997), Идентификация параметрических моделей по экспериментальным данным , Springer.

Эконометрика

Левбель, Артур (01.12.2019). «Зоопарк идентификации: значения идентификации в эконометрике» . Журнал экономической литературы . Американская экономическая ассоциация. 57 (4): 835–903. DOI : 10,1257 / jel.20181361 . ISSN 0022-0515 .
Мацкин, Роза Л. (2013). «Непараметрическая идентификация в структурных экономических моделях». Ежегодный обзор экономики . 5 (1): 457–486. DOI : 10.1146 / Annurev-Economics-082912-110231 .
Ротенберг, Томас Дж. (1971). «Идентификация в параметрических моделях». Econometrica . 39 (3): 577–591. DOI : 10.2307 / 1913267 . ISSN 0012-9682 . JSTOR 1913267 .

[1] Raue, A .; Kreutz, C .; Maiwald, T .; Bachmann, J .; Шиллинг, М .; Klingmuller, U .; Тиммер, Дж. (1 августа 2009 г.). «Структурный и практический анализ идентифицируемости частично наблюдаемых динамических моделей с использованием вероятности профиля» . Биоинформатика . 25 (15): 1923–1929. DOI : 10.1093 / биоинформатики / btp358 . PMID 19505944 .

[2] Lehmann & Casella 1998 , Определение 1.5.2.

[3] van der Vaart 1998 , p. 62

[riersol-4] Рейерсол 1950

[5] Перейти ↑ Casella & Berger 2001 , p. 583

[6] Рауэ, А; Kreutz, C; Майвальд, Т; Бахманн, Дж; Шиллинг, М; Klingmüller, U; Тиммер, J (2009), "Структурные и практический анализ идентифицируемости частично наблюдаемых динамических моделей за счет использования профилей вероятности" , биоинформатики , 25 (15): 1923-9, DOI : 10,1093 / биоинформатики / btp358 , PMID 19505944 , заархивированы из оригинал от 13 января 2013 г.

[1]