Статистическая модель

Статистическая модель представляет собой математическая модель , которая воплощает в себе набор статистических предположений относительно генерации выборок данных (и аналогичных данных из большего населения ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных. ^[1]

Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. По сути , статистическая модель - это «формальное представление теории» ( Герман Адер цитирует Кеннета Боллена ). ^[2]

Все статистические проверки гипотез и все статистические оценки выводятся с помощью статистических моделей. В более общем плане статистические модели являются частью основы статистического вывода .

Введение [ править ]

Неформально статистическую модель можно рассматривать как статистическое допущение (или набор статистических допущений) с определенным свойством: допущение позволяет нам рассчитать вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения о кубиках.

Первое статистическое предположение таково: для каждого кубика вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна 1/6. Исходя из этого предположения, мы можем вычислить вероятность выпадения обоих кубиков 5: 1/6 × 1/6 знак равно 1/36. В более общем плане мы можем рассчитать вероятность любого события: например, (1 и 2) или (3 и 3) или (5 и 6).

Альтернативное статистическое предположение таково: для каждого кубика вероятность выпадения лица 5 равна 1/8(потому что игральные кости взвешены ). Исходя из этого предположения, мы можем вычислить вероятность выпадения обоих кубиков 5: 1/8 × 1/8 знак равно 1/64. Однако мы не можем рассчитать вероятность любого другого нетривиального события, поскольку вероятности других лиц неизвестны.

Первое статистическое допущение составляет статистическую модель: потому что с его помощью мы можем рассчитать вероятность любого события. Альтернатива статистическое предположение вовсе не представляет собой статистическую модель: потому что с одной только предположением, мы не можем вычислить вероятность каждого события.

В приведенном выше примере с первым предположением вычислить вероятность события несложно. Однако с некоторыми другими примерами расчет может быть трудным или даже непрактичным (например, для этого могут потребоваться миллионы лет вычислений). Для предположения, составляющего статистическую модель, такая сложность приемлема: выполнение расчетов не обязательно должно быть практически осуществимым, возможно только теоретически.

Формальное определение [ править ]

С математической точки зрения статистическая модель обычно рассматривается как пара ( ), где - набор возможных наблюдений, то есть пространство выборки , и набор распределений вероятностей на . ^[3] ${\ Displaystyle S, {\ mathcal {P}}}$ ${\ displaystyle S}$ ${\ Displaystyle {\ mathcal {P}}}$ ${\ displaystyle S}$

Интуиция, лежащая в основе этого определения, заключается в следующем. Предполагается, что существует «истинное» распределение вероятностей, вызванное процессом, генерирующим наблюдаемые данные. Мы решили представить набор (распределений), который содержит распределение, адекватно аппроксимирующее истинное распределение. ${\ Displaystyle {\ mathcal {P}}}$

Обратите внимание, что мы не требуем, чтобы он содержал истинное распределение, и на практике это бывает редко. В самом деле, как утверждают Бернхэм и Андерсон: «Модель - это упрощение или приближение реальности и, следовательно, не будет отражать всю реальность» ^{[4] -} отсюда и высказывание « все модели неверны ». ${\ Displaystyle {\ mathcal {P}}}$

Множество почти всегда параметрироваться: . Набор определяет параметры модели. Параметризация обычно требуется для того, чтобы различные значения параметров приводили к различным распределениям, то есть должны выполняться (другими словами, она должна быть инъективной ). Параметризация, отвечающая требованиям, называется идентифицируемой . ^[3] ${\ Displaystyle {\ mathcal {P}}}$ ${\ Displaystyle {\ mathcal {P}} = \ {P _ {\ theta}: \ theta \ in \ Theta \}}$ ${\ displaystyle \ Theta}$ ${\ Displaystyle P _ {\ theta _ {1}} = P _ {\ theta _ {2}} \ Rightarrow \ theta _ {1} = \ theta _ {2}}$

Пример [ править ]

Предположим, что у нас есть совокупность школьников с равномерно распределенными по возрасту детьми . Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 1,5 метра. Мы могли бы формализовать эту взаимосвязь в модели линейной регрессии , например: рост _i = b ₀ + b ₁ age _i + ε _i , где b ₀ - точка пересечения, b ₁ - параметр, на который возраст умножается, чтобы получить прогноз высота, ε _i- термин ошибки, а я идентифицирует ребенка. Это означает, что рост определяется возрастом с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (высота _i = b ₀ + b ₁ возраст _i ) не может быть уравнением для модели данных - если она точно не соответствует всем точкам данных, т.е. все точки данных точно лежат на линии. Член ошибки ε _i должен быть включен в уравнение, чтобы модель согласовывалась со всеми точками данных.

Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε _i . Например, мы могли бы предположить, что распределения ε _i являются iid гауссовыми с нулевым средним. В этом случае модель будет иметь 3 параметра: b ₀ , b ₁ и дисперсию гауссова распределения.

Мы можем формально указать модель в форме ( ) следующим образом. Пространство выборки, нашей модели включает в себя набор всех возможных пар (возраст, рост). Каждое возможное значение = ( b ₀ , b ₁ , σ ² ) определяет распределение на ; обозначим это распределение через . Если - множество всех возможных значений , то . (Параметризация идентифицируема, и это легко проверить.) ${\ Displaystyle S, {\ mathcal {P}}}$ ${\ displaystyle S}$ ${\ displaystyle \ theta}$ ${\ displaystyle S}$ ${\ displaystyle P _ {\ theta}}$ ${\ displaystyle \ Theta}$ ${\ displaystyle \ theta}$ ${\ Displaystyle {\ mathcal {P}} = \ {P _ {\ theta}: \ theta \ in \ Theta \}}$

В этом примере модель определяется путем (1) определения и (2) некоторых допущений, относящихся к . Есть два допущения: рост можно аппроксимировать линейной функцией возраста; что ошибки аппроксимации распределены как iid Gaussian. Предположений достаточно, чтобы указать - как они и должны. ${\ displaystyle S}$ ${\ Displaystyle {\ mathcal {P}}}$ ${\ Displaystyle {\ mathcal {P}}}$

Общие замечания [ править ]

Статистическая модель - это особый класс математических моделей . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель не является детерминированной . Таким образом, в статистической модели, задаваемой математическими уравнениями, некоторые переменные не имеют конкретных значений, а вместо этого имеют распределения вероятностей; т.е. некоторые из переменных являются стохастическими . В приведенном выше примере с ростом детей ε - стохастическая переменная; без этой стохастической переменной модель была бы детерминированной.

Статистические модели часто используются, даже если моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты в принципе является детерминированным процессом; тем не менее, он обычно моделируется как стохастический (через процесс Бернулли ).

Выбор подходящей статистической модели для представления данного процесса генерации данных иногда бывает чрезвычайно трудным и может потребовать знания как самого процесса, так и соответствующего статистического анализа. В этой связи статистик сэр Дэвид Кокс сказал: «Как [] перевод предметной проблемы в статистическую модель часто является наиболее важной частью анализа». ^[5]

Согласно Кониси и Китагава, статистическая модель преследует три цели. ^[6]

Прогнозы
Извлечение информации
Описание стохастических структур

Эти три цели по сути совпадают с тремя целями, указанными Friendly & Meyer: предсказание, оценка, описание. ^[7] Три цели соответствуют трем видам логического рассуждения : дедуктивное рассуждение , индуктивное рассуждение , абдуктивное рассуждение .

Размер модели [ править ]

Предположим, что у нас есть статистическая модель ( ) с . Модель называется параметрической, если она имеет конечную размерность. В обозначениях мы пишем, что где $k$ - положительное целое число ( обозначает действительные числа ; в принципе могут использоваться другие множества). Здесь $k$ называется размерностью модели. ${\ Displaystyle S, {\ mathcal {P}}}$ ${\ Displaystyle {\ mathcal {P}} = \ {P _ {\ theta}: \ theta \ in \ Theta \}}$ ${\ displaystyle \ Theta}$ ${\ Displaystyle \ Theta \ substeq \ mathbb {R} ^ {k}}$ ${\ Displaystyle \ mathbb {R}}$

В качестве примера, если мы предполагаем, что данные возникают из одномерного гауссовского распределения , то мы предполагаем, что

{\mathcal {P}}=\left\{P_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

.

В этом примере размер $k$ равен 2.

В качестве другого примера предположим, что данные состоят из точек ( $x$ , $y$ ), которые, как мы предполагаем, распределены в соответствии с прямой линией с iid гауссовыми остатками (с нулевым средним): это приводит к той же статистической модели, которая использовалась в примере с детские высоты. Размерность статистической модели составляет 3: пересечение линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что в геометрии прямая линия имеет размер 1.)

Хотя формально это единственный параметр, имеющий размерность $k$ , иногда его рассматривают как состоящий из $k$ отдельных параметров. Например, с одномерным распределением Гаусса формально это единственный параметр с размерностью 2, но иногда считается, что он состоит из двух отдельных параметров - среднего и стандартного отклонения. $\theta \in \Theta$ $\theta$

Статистическая модель является непараметрической, если набор параметров бесконечен. Статистическая модель является полупараметрической, если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если $k$ - размерность, а $n$ - количество выборок, и полупараметрическая, и непараметрическая модели имеют as . Если as , то модель полупараметрическая; в противном случае модель непараметрическая. $\Theta$ $\Theta$ $k\rightarrow \infty$ $n\rightarrow \infty$ $k/n\rightarrow 0$ $n\rightarrow \infty$

Параметрические модели являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Обычно они включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». ^[8]

Вложенные модели [ править ]

Две статистические модели являются вложенными, если первая модель может быть преобразована во вторую модель путем наложения ограничений на параметры первой модели. В качестве примера, набор всех гауссовских распределений содержит вложенный в него набор гауссовых распределений с нулевым средним: мы ограничиваем среднее значение в наборе всех гауссовых распределений, чтобы получить распределения с нулевым средним. В качестве второго примера квадратичная модель

y = b 0 + b 1 x + b 2 x 2 + ε, ε ~ 𝒩 (0, σ 2)

имеет вложенную в него линейную модель

y = b 0 + b 1 x + ε, ε ~ 𝒩 (0, σ 2)

- ограничиваем параметр $b 2$ равным 0.

В обоих этих примерах первая модель имеет более высокую размерность, чем вторая модель (для первого примера модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве другого примера, набор положительно-средних гауссовских распределений, имеющий размерность 2, вложен в набор всех гауссовых распределений.

Сравнение моделей [ править ]

Сравнение статистических моделей имеет основополагающее значение для большинства статистических выводов . Действительно, Кониси и Китагава (2008 , стр. 75) заявляют: «Большинство проблем статистического вывода можно рассматривать как проблемы, связанные со статистическим моделированием. Обычно они формулируются как сравнения нескольких статистических моделей».

Общие критерии для сравнения моделей включают в себя следующее: R 2 , Байес фактор , и тест отношения правдоподобия вместе с его обобщением, по относительной вероятности .

См. Также [ править ]

Все модели неправильные
Концептуальная модель
Дизайн экспериментов
Детерминированная модель
Эффективная теория
Прогнозная модель
Научная модель
Статистические выводы
Спецификация статистической модели
Проверка статистической модели
Статистическая теория
Стохастический процесс

Примечания [ править ]

Перейти ↑ Cox 2006 , p. 178
^ Адер 2008 , стр. 280
^ а б Маккаллах 2002
^ Burnham & Anderson 2002 , §1.2.5
Перейти ↑ Cox 2006 , p. 197
↑ Кониси и Китагава 2008 , §1.1
^ Дружественные & Meyer 2016 , §11.6
Перейти ↑ Cox 2006 , p. 2

Эта статья включает в себя список общих ссылок , но он остается в основном непроверенным, поскольку в нем отсутствуют соответствующие встроенные ссылки . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Сентябрь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Ссылки [ править ]

Адер, HJ (2008), «Моделирование», в Adèr, HJ; Мелленберг, Г.Дж. (ред.), Консультации по методам исследования: напарник консультанта , Huizen, Нидерланды: Johannes van Kessel Publishing, стр. 271–304.
Бернем, КП; Андерсон, Д. Р. (2002), Выбор модели и многомодельный вывод (2-е изд.), Springer-Verlag.
Кокс, Д.Р. (2006), Принципы статистического вывода , Cambridge University Press.
Дружелюбный, М .; Мейер, Д. (2016), Анализ дискретных данных с помощью R , Chapman & Hall.
Konishi, S .; Китагава, Г. (2008), Информационные критерии и статистическое моделирование , Springer.
McCullagh, P. (2002), "Что такое статистическая модель?" (PDF) , Летопись статистики , 30 (5): 1225-1310, DOI : 10,1214 / AOS / 1035844977.

Дальнейшее чтение [ править ]

Дэвисон, AC (2008), Статистические модели , Cambridge University Press
Drton, M .; Салливант, С. (2007), "Алгебраические статистические модели" (PDF) , Statistica Sinica , 17 : 1273–1297
Фридман, Д.А. (2009), Статистические модели , Cambridge University Press
Хелланд, И.С. (2010), Шаги к единой основе для научных моделей и методов , World Scientific
Крезе, Д.П . ; Чан, JCC (2014), Статистическое моделирование и вычисления , Springer
Шмуэли, Г. (2010), «Объяснить или предсказать?», Статистическая наука , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214 / 10-STS330

[1] Перейти ↑ Cox 2006 , p. 178

[2] Адер 2008 , стр. 280

[McCullagh-3] а б Маккаллах 2002

[4] Burnham & Anderson 2002 , §1.2.5

[5] Перейти ↑ Cox 2006 , p. 197

[6] Кониси и Китагава 2008 , §1.1

[7] Дружественные & Meyer 2016 , §11.6

[8] Перейти ↑ Cox 2006 , p. 2

[1]