Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Статистического моделирования )
Перейти к навигации Перейти к поиску

Статистическая модель представляет собой математическая модель , которая воплощает в себе набор статистических предположений относительно генерации выборок данных (и аналогичных данных из большего населения ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных. [1]

Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. Таким образом, статистическая модель является «формальным представлением теории» ( Герман Адер цитирует Кеннета Боллена ). [2]

Все статистические проверки гипотез и все статистические оценки выводятся с помощью статистических моделей. В более общем плане статистические модели являются частью основы статистического вывода .

Введение [ править ]

Неформально статистическую модель можно рассматривать как статистическое допущение (или набор статистических допущений) с определенным свойством: допущение позволяет нам вычислить вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения о кубиках.

Первое статистическое предположение таково: для каждой кости вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна 1/6. Исходя из этого предположения, мы можем рассчитать вероятность выпадения обоих кубиков 5:  1/6 × 1/6 знак равно1/36. В более общем плане мы можем вычислить вероятность любого события: например, (1 и 2), или (3 и 3), или (5 и 6).

Альтернативное статистическое предположение таково: для каждого кубика вероятность выпадения лица 5 равна 1/8(потому что игральные кости взвешены ). Исходя из этого предположения, мы можем рассчитать вероятность выпадения обоих кубиков 5:  1/8 × 1/8 знак равно1/64. Однако мы не можем вычислить вероятность любого другого нетривиального события, поскольку вероятности других лиц неизвестны.

Первое статистическое допущение составляет статистическую модель: потому что с его помощью мы можем рассчитать вероятность любого события. Альтернатива статистическое предположение вовсе не представляет собой статистическую модель: потому что с одной только предположением, мы не можем вычислить вероятность каждого события.

В приведенном выше примере с первым предположением вычислить вероятность события несложно. Однако с некоторыми другими примерами расчет может быть трудным или даже непрактичным (например, для этого могут потребоваться миллионы лет вычислений). Для предположения, составляющего статистическую модель, такая сложность приемлема: выполнение расчетов не обязательно должно быть практически осуществимым, это возможно только теоретически.

Формальное определение [ править ]

С математической точки зрения, статистическая модель обычно рассматривается как пара ( ), где - набор возможных наблюдений, то есть пространство выборки , и набор распределений вероятностей на . [3]

Интуиция, лежащая в основе этого определения, заключается в следующем. Предполагается, что существует «истинное» распределение вероятностей, вызванное процессом, генерирующим наблюдаемые данные. Мы решили представить набор (распределений), который содержит распределение, адекватно аппроксимирующее истинное распределение.

Обратите внимание, что мы не требуем, чтобы он содержал истинное распределение, и на практике это бывает редко. В самом деле, как утверждают Бернхэм и Андерсон: «Модель - это упрощение или приближение реальности и, следовательно, не будет отражать всю реальность» [4] - отсюда и поговорка « все модели ошибочны ».

Множество почти всегда параметрироваться: . Набор определяет параметры модели. Параметризация обычно требуется для того, чтобы различные значения параметров приводили к различным распределениям, то есть должны выполняться (другими словами, она должна быть инъективной ). Параметризация, отвечающая требованиям, называется идентифицируемой . [3]

Пример [ править ]

Предположим, что у нас есть группа школьников с равномерно распределенными по возрасту детьми . Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 1,5 метра. Мы могли бы формализовать эту взаимосвязь в модели линейной регрессии , например: рост i  = b 0  + b 1 age i  + ε i , где b 0 - точка пересечения, b 1 - параметр, на который умножается возраст, чтобы получить прогноз высота, ε i- термин ошибки, а я идентифицирует ребенка. Это означает, что рост определяется возрастом с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (высота i  = b 0  + b 1 возраст i ) не может быть уравнением для модели данных - если она точно не соответствует всем точкам данных, то есть все точки данных точно лежат на линии. Член ошибки, ε i , должен быть включен в уравнение, чтобы модель согласовывалась со всеми точками данных.

Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε i . Например, мы могли бы предположить , что е я распределение IID Гаусса с нулевым средним. В этом случае модель будет иметь 3 параметра: b 0 , b 1 и дисперсию гауссова распределения.

Мы можем формально указать модель в форме ( ) следующим образом. Пространство выборки, нашей модели включает набор всех возможных пар (возраст, рост). Каждое возможное значение  = ( b 0 , b 1 , σ 2 ) определяет распределение на ; обозначим это распределение через . Если - множество всех возможных значений , то . (Параметризация идентифицируема, и это легко проверить.)

В этом примере модель определяется путем (1) определения и (2) некоторых допущений, относящихся к . Есть два допущения: рост можно аппроксимировать линейной функцией возраста; что ошибки аппроксимации распределены как iid Gaussian. Предположений достаточно, чтобы указать - как они и должны.

Общие замечания [ править ]

Статистическая модель - это особый класс математических моделей . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель не является детерминированной . Таким образом, в статистической модели, заданной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а вместо этого имеют распределения вероятностей; т.е. некоторые из переменных являются стохастическими . В приведенном выше примере с ростом детей ε - стохастическая переменная; без этой стохастической переменной модель была бы детерминированной.

Статистические модели часто используются даже тогда, когда моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты в принципе является детерминированным процессом; тем не менее, он обычно моделируется как стохастический (через процесс Бернулли ).

Выбор подходящей статистической модели для представления данного процесса генерации данных иногда бывает чрезвычайно трудным и может потребовать знания как самого процесса, так и соответствующего статистического анализа. В связи с этим статистик сэр Дэвид Кокс сказал: «Как [] перевод от предметной проблемы к статистической модели часто является наиболее важной частью анализа». [5]

Согласно Кониси и Китагава, статистическая модель преследует три цели. [6]

  • Прогнозы
  • Извлечение информации
  • Описание стохастических структур

Эти три цели по сути совпадают с тремя целями, указанными Friendly & Meyer: предсказание, оценка, описание. [7] Эти три цели соответствуют трем видам логических рассуждений : дедуктивным рассуждениям , индуктивным рассуждениям , абдуктивным рассуждениям .

Размер модели [ править ]

Предположим, что у нас есть статистическая модель ( ) с . Модель называется параметрической, если имеет конечную размерность. В обозначениях мы пишем, что где k - положительное целое число ( обозначает действительные числа ; в принципе могут использоваться другие множества). Здесь k называется размерностью модели.

Например, если мы предполагаем, что данные возникают из одномерного распределения Гаусса , то мы предполагаем, что

.

В этом примере размер k равен 2.

В качестве другого примера предположим, что данные состоят из точек ( x , y ), которые, как мы предполагаем, распределены в соответствии с прямой линией с гауссовыми невязками iid (с нулевым средним): это приводит к той же статистической модели, которая использовалась в примере с детские высоты. Размерность статистической модели составляет 3: пересечение линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что в геометрии прямая линия имеет размер 1.)

Хотя формально это единственный параметр, имеющий размерность k , иногда его рассматривают как состоящий из k отдельных параметров. Например, с одномерным распределением Гаусса формально является одним параметром с размерностью 2, но иногда считается, что он состоит из двух отдельных параметров - среднего и стандартного отклонения.

Статистическая модель является непараметрической, если набор параметров бесконечномерен. Статистическая модель является полупараметрической, если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если k - размерность, а n - количество выборок, как полупараметрическая, так и непараметрическая модели имеют as . Если as , то модель полупараметрическая; в противном случае модель непараметрическая.

Параметрические модели являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Обычно они включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». [8]

Вложенные модели [ править ]

Две статистические модели являются вложенными, если первая модель может быть преобразована во вторую модель путем наложения ограничений на параметры первой модели. Например, набор всех гауссовских распределений содержит вложенный в него набор гауссовых распределений с нулевым средним: мы ограничиваем среднее значение в наборе всех гауссовых распределений, чтобы получить распределения с нулевым средним. В качестве второго примера квадратичная модель

y  = b 0  + b 1 x  + b 2 x 2  + ε, ε ~ 𝒩 (0, σ 2 )

имеет вложенную в него линейную модель

y  = b 0  + b 1 x  + ε, ε ~ (0, σ 2 )

- ограничиваем параметр b 2 равным 0.

В обоих этих примерах первая модель имеет более высокую размерность, чем вторая модель (для первого примера модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве другого примера, набор гауссовых распределений с положительным средним размером 2 вложен в набор всех гауссовых распределений.

Сравнение моделей [ править ]

Сравнение статистических моделей имеет основополагающее значение для большинства статистических выводов . Действительно, Кониси и Китагава (2008 , стр. 75) заявляют: «Большинство проблем статистического вывода можно рассматривать как проблемы, связанные со статистическим моделированием. Обычно они формулируются как сравнения нескольких статистических моделей».

Общие критерии для сравнения моделей включают в себя следующее: R 2 , Байес фактор , и тест отношения правдоподобия вместе с его обобщением, по относительной вероятности .

См. Также [ править ]

  • Все модели неправильные
  • Концептуальная модель
  • Дизайн экспериментов
  • Детерминированная модель
  • Эффективная теория
  • Прогнозирующая модель
  • Научная модель
  • Статистические выводы
  • Спецификация статистической модели
  • Статистическая проверка модели
  • Статистическая теория
  • Стохастический процесс

Заметки [ править ]

  1. Перейти ↑ Cox 2006 , p. 178
  2. ^ Адер 2008 , стр. 280
  3. ^ а б Маккаллах 2002
  4. ^ Burnham & Anderson 2002 , §1.2.5
  5. Перейти ↑ Cox 2006 , p. 197
  6. Кониси и Китагава, 2008 , §1.1.
  7. ^ Friendly & Meyer 2016 , §11.6
  8. Перейти ↑ Cox 2006 , p. 2

Ссылки [ править ]

  • Адер, HJ (2008), «Моделирование», в Adèr, HJ; Мелленберг, Г.Дж. (ред.), Консультации по методам исследования: напарник консультанта , Huizen, Нидерланды: Johannes van Kessel Publishing, стр. 271–304.
  • Бернем, КП; Андерсон, Д. Р. (2002), Выбор модели и многомодельный вывод (2-е изд.), Springer-Verlag.
  • Кокс, Д.Р. (2006), Принципы статистического вывода , Cambridge University Press.
  • Дружелюбный, М .; Мейер, Д. (2016), Анализ дискретных данных с помощью R , Chapman & Hall.
  • Konishi, S .; Китагава, Г. (2008), Информационные критерии и статистическое моделирование , Springer.
  • Маккаллах, П. (2002), "Что такое статистическая модель?" (PDF) , Летопись статистики , 30 (5): 1225-1310, DOI : 10,1214 / AOS / 1035844977.

Дальнейшее чтение [ править ]

  • Дэвисон, AC (2008), Статистические модели , Cambridge University Press
  • Drton, M .; Салливант, С. (2007), "Алгебраические статистические модели" (PDF) , Statistica Sinica , 17 : 1273–1297
  • Фридман, Д.А. (2009), Статистические модели , Cambridge University Press
  • Хелланд, И.С. (2010), Шаги к единой основе для научных моделей и методов , World Scientific
  • Крозе, Д.П . ; Чан, JCC (2014), Статистическое моделирование и вычисления , Springer
  • Шмуэли, Г. (2010), «Объяснить или предсказать?», Статистическая наука , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214 / 10-STS330