Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Статистическая модель представляет собой математическая модель , которая воплощает в себе набор статистических предположений относительно генерации выборок данных (и аналогичных данных из большего населения ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных. [1]

Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. По сути , статистическая модель - это «формальное представление теории» ( Герман Адер цитирует Кеннета Боллена ). [2]

Все статистические проверки гипотез и все статистические оценки выводятся с помощью статистических моделей. В более общем плане статистические модели являются частью основы статистического вывода .

Введение [ править ]

Неформально статистическую модель можно рассматривать как статистическое допущение (или набор статистических допущений) с определенным свойством: допущение позволяет нам рассчитать вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения о кубиках.

Первое статистическое предположение таково: для каждого кубика вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна 1/6. Исходя из этого предположения, мы можем вычислить вероятность выпадения обоих кубиков 5:  1/6 × 1/6 знак равно1/36. В более общем плане мы можем рассчитать вероятность любого события: например, (1 и 2) или (3 и 3) или (5 и 6).

Альтернативное статистическое предположение таково: для каждого кубика вероятность выпадения лица 5 равна 1/8(потому что игральные кости взвешены ). Исходя из этого предположения, мы можем вычислить вероятность выпадения обоих кубиков 5:  1/8 × 1/8 знак равно1/64. Однако мы не можем рассчитать вероятность любого другого нетривиального события, поскольку вероятности других лиц неизвестны.

Первое статистическое допущение составляет статистическую модель: потому что с его помощью мы можем рассчитать вероятность любого события. Альтернатива статистическое предположение вовсе не представляет собой статистическую модель: потому что с одной только предположением, мы не можем вычислить вероятность каждого события.

В приведенном выше примере с первым предположением вычислить вероятность события несложно. Однако с некоторыми другими примерами расчет может быть трудным или даже непрактичным (например, для этого могут потребоваться миллионы лет вычислений). Для предположения, составляющего статистическую модель, такая сложность приемлема: выполнение расчетов не обязательно должно быть практически осуществимым, возможно только теоретически.

Формальное определение [ править ]

С математической точки зрения статистическая модель обычно рассматривается как пара ( ), где - набор возможных наблюдений, то есть пространство выборки , и набор распределений вероятностей на . [3]

Интуиция, лежащая в основе этого определения, заключается в следующем. Предполагается, что существует «истинное» распределение вероятностей, вызванное процессом, генерирующим наблюдаемые данные. Мы решили представить набор (распределений), который содержит распределение, адекватно аппроксимирующее истинное распределение.

Обратите внимание, что мы не требуем, чтобы он содержал истинное распределение, и на практике это бывает редко. В самом деле, как утверждают Бернхэм и Андерсон: «Модель - это упрощение или приближение реальности и, следовательно, не будет отражать всю реальность» [4] - отсюда и высказывание « все модели неверны ».

Множество почти всегда параметрироваться: . Набор определяет параметры модели. Параметризация обычно требуется для того, чтобы различные значения параметров приводили к различным распределениям, то есть должны выполняться (другими словами, она должна быть инъективной ). Параметризация, отвечающая требованиям, называется идентифицируемой . [3]

Пример [ править ]

Предположим, что у нас есть совокупность школьников с равномерно распределенными по возрасту детьми . Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 1,5 метра. Мы могли бы формализовать эту взаимосвязь в модели линейной регрессии , например: рост i  = b 0  + b 1 age i  + ε i , где b 0 - точка пересечения, b 1 - параметр, на который возраст умножается, чтобы получить прогноз высота, ε i- термин ошибки, а я идентифицирует ребенка. Это означает, что рост определяется возрастом с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (высота i  = b 0  + b 1 возраст i ) не может быть уравнением для модели данных - если она точно не соответствует всем точкам данных, т.е. все точки данных точно лежат на линии. Член ошибки ε i должен быть включен в уравнение, чтобы модель согласовывалась со всеми точками данных.

Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε i . Например, мы могли бы предположить, что распределения ε i являются iid гауссовыми с нулевым средним. В этом случае модель будет иметь 3 параметра: b 0 , b 1 и дисперсию гауссова распределения.

Мы можем формально указать модель в форме ( ) следующим образом. Пространство выборки, нашей модели включает в себя набор всех возможных пар (возраст, рост). Каждое возможное значение  = ( b 0 , b 1 , σ 2 ) определяет распределение на ; обозначим это распределение через . Если - множество всех возможных значений , то . (Параметризация идентифицируема, и это легко проверить.)

В этом примере модель определяется путем (1) определения и (2) некоторых допущений, относящихся к . Есть два допущения: рост можно аппроксимировать линейной функцией возраста; что ошибки аппроксимации распределены как iid Gaussian. Предположений достаточно, чтобы указать - как они и должны.

Общие замечания [ править ]

Статистическая модель - это особый класс математических моделей . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель не является детерминированной . Таким образом, в статистической модели, задаваемой математическими уравнениями, некоторые переменные не имеют конкретных значений, а вместо этого имеют распределения вероятностей; т.е. некоторые из переменных являются стохастическими . В приведенном выше примере с ростом детей ε - стохастическая переменная; без этой стохастической переменной модель была бы детерминированной.

Статистические модели часто используются, даже если моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты в принципе является детерминированным процессом; тем не менее, он обычно моделируется как стохастический (через процесс Бернулли ).

Выбор подходящей статистической модели для представления данного процесса генерации данных иногда бывает чрезвычайно трудным и может потребовать знания как самого процесса, так и соответствующего статистического анализа. В этой связи статистик сэр Дэвид Кокс сказал: «Как [] перевод предметной проблемы в статистическую модель часто является наиболее важной частью анализа». [5]

Согласно Кониси и Китагава, статистическая модель преследует три цели. [6]

  • Прогнозы
  • Извлечение информации
  • Описание стохастических структур

Эти три цели по сути совпадают с тремя целями, указанными Friendly & Meyer: предсказание, оценка, описание. [7] Три цели соответствуют трем видам логического рассуждения : дедуктивное рассуждение , индуктивное рассуждение , абдуктивное рассуждение .

Размер модели [ править ]

Предположим, что у нас есть статистическая модель ( ) с . Модель называется параметрической, если она имеет конечную размерность. В обозначениях мы пишем, что где k - положительное целое число ( обозначает действительные числа ; в принципе могут использоваться другие множества). Здесь k называется размерностью модели.

В качестве примера, если мы предполагаем, что данные возникают из одномерного гауссовского распределения , то мы предполагаем, что

.

В этом примере размер k равен 2.

В качестве другого примера предположим, что данные состоят из точек ( x , y ), которые, как мы предполагаем, распределены в соответствии с прямой линией с iid гауссовыми остатками (с нулевым средним): это приводит к той же статистической модели, которая использовалась в примере с детские высоты. Размерность статистической модели составляет 3: пересечение линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что в геометрии прямая линия имеет размер 1.)

Хотя формально это единственный параметр, имеющий размерность k , иногда его рассматривают как состоящий из k отдельных параметров. Например, с одномерным распределением Гаусса формально это единственный параметр с размерностью 2, но иногда считается, что он состоит из двух отдельных параметров - среднего и стандартного отклонения.

Статистическая модель является непараметрической, если набор параметров бесконечен. Статистическая модель является полупараметрической, если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если k - размерность, а n - количество выборок, и полупараметрическая, и непараметрическая модели имеют as . Если as , то модель полупараметрическая; в противном случае модель непараметрическая.

Параметрические модели являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Обычно они включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». [8]

Вложенные модели [ править ]

Две статистические модели являются вложенными, если первая модель может быть преобразована во вторую модель путем наложения ограничений на параметры первой модели. В качестве примера, набор всех гауссовских распределений содержит вложенный в него набор гауссовых распределений с нулевым средним: мы ограничиваем среднее значение в наборе всех гауссовых распределений, чтобы получить распределения с нулевым средним. В качестве второго примера квадратичная модель

y  = b 0  + b 1 x  + b 2 x 2  + ε, ε ~ 𝒩 (0, σ 2 )

имеет вложенную в него линейную модель

y  = b 0  + b 1 x  + ε, ε ~ 𝒩 (0, σ 2 )

- ограничиваем параметр b 2 равным 0.

В обоих этих примерах первая модель имеет более высокую размерность, чем вторая модель (для первого примера модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве другого примера, набор положительно-средних гауссовских распределений, имеющий размерность 2, вложен в набор всех гауссовых распределений.

Сравнение моделей [ править ]

Сравнение статистических моделей имеет основополагающее значение для большинства статистических выводов . Действительно, Кониси и Китагава (2008 , стр. 75) заявляют: «Большинство проблем статистического вывода можно рассматривать как проблемы, связанные со статистическим моделированием. Обычно они формулируются как сравнения нескольких статистических моделей».

Общие критерии для сравнения моделей включают в себя следующее: R 2 , Байес фактор , и тест отношения правдоподобия вместе с его обобщением, по относительной вероятности .

См. Также [ править ]

  • Все модели неправильные
  • Концептуальная модель
  • Дизайн экспериментов
  • Детерминированная модель
  • Эффективная теория
  • Прогнозная модель
  • Научная модель
  • Статистические выводы
  • Спецификация статистической модели
  • Проверка статистической модели
  • Статистическая теория
  • Стохастический процесс

Примечания [ править ]

  1. Перейти ↑ Cox 2006 , p. 178
  2. ^ Адер 2008 , стр. 280
  3. ^ а б Маккаллах 2002
  4. ^ Burnham & Anderson 2002 , §1.2.5
  5. Перейти ↑ Cox 2006 , p. 197
  6. Кониси и Китагава 2008 , §1.1
  7. ^ Дружественные & Meyer 2016 , §11.6
  8. Перейти ↑ Cox 2006 , p. 2

Ссылки [ править ]

  • Адер, HJ (2008), «Моделирование», в Adèr, HJ; Мелленберг, Г.Дж. (ред.), Консультации по методам исследования: напарник консультанта , Huizen, Нидерланды: Johannes van Kessel Publishing, стр. 271–304.
  • Бернем, КП; Андерсон, Д. Р. (2002), Выбор модели и многомодельный вывод (2-е изд.), Springer-Verlag.
  • Кокс, Д.Р. (2006), Принципы статистического вывода , Cambridge University Press.
  • Дружелюбный, М .; Мейер, Д. (2016), Анализ дискретных данных с помощью R , Chapman & Hall.
  • Konishi, S .; Китагава, Г. (2008), Информационные критерии и статистическое моделирование , Springer.
  • McCullagh, P. (2002), "Что такое статистическая модель?" (PDF) , Летопись статистики , 30 (5): 1225-1310, DOI : 10,1214 / AOS / 1035844977.

Дальнейшее чтение [ править ]

  • Дэвисон, AC (2008), Статистические модели , Cambridge University Press
  • Drton, M .; Салливант, С. (2007), "Алгебраические статистические модели" (PDF) , Statistica Sinica , 17 : 1273–1297
  • Фридман, Д.А. (2009), Статистические модели , Cambridge University Press
  • Хелланд, И.С. (2010), Шаги к единой основе для научных моделей и методов , World Scientific
  • Крезе, Д.П . ; Чан, JCC (2014), Статистическое моделирование и вычисления , Springer
  • Шмуэли, Г. (2010), «Объяснить или предсказать?», Статистическая наука , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214 / 10-STS330