Из Википедии, бесплатной энциклопедии
  (Перенаправлено из математической статистики )
Перейти к навигации Перейти к поиску
Иллюстрация линейной регрессии на наборе данных. Регрессионный анализ - важная часть математической статистики.

Математическая статистика - это применение теории вероятностей , раздела математики , к статистике , в отличие от методов сбора статистических данных. Для этого используются специальные математические методы, включая математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теорию меры . [1] [2]

Введение [ править ]

Сбор статистических данных связан с планированием исследований, особенно с планом рандомизированных экспериментов и планированием обследований с использованием случайной выборки . Первоначальный анализ данных часто следует протоколу исследования, указанному до его проведения. Данные исследования также можно анализировать, чтобы рассмотреть вторичные гипотезы, основанные на первоначальных результатах, или предложить новые исследования. Для вторичного анализа данных запланированного исследования используются инструменты анализа данных , и процесс его выполнения - математическая статистика.

Анализ данных делится на:

  • описательная статистика - часть статистики, которая описывает данные, то есть суммирует данные и их типичные свойства.
  • логическая статистика - часть статистики, которая делает выводы из данных (с использованием некоторой модели для данных): например, логическая статистика включает в себя выбор модели для данных, проверку того, соответствуют ли данные условиям конкретной модели, и с количественной оценкой вовлеченная неопределенность (например, с использованием доверительных интервалов ).

Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований, они также применяются к другим типам данных. Например, из естественных экспериментов и наблюдательных исследований , и в этом случае вывод зависит от модели, выбранной статистиком, и поэтому субъективен. [3]

Темы [ править ]

Ниже приведены некоторые из важных тем математической статистики: [4] [5]

Распределения вероятностей [ править ]

Распределение вероятности является функцией , которая присваивает вероятности для каждого измеримого подмножества возможных исходов случайного эксперимента , обследования , или процедур статистического вывода . Примеры можно найти в экспериментах, в которых выборка не является числовой, где распределение было бы категориальным распределением ; эксперименты, пространство выборки которых кодируется дискретными случайными величинами , где распределение может быть задано функцией массы вероятности; и эксперименты с выборочными пространствами, кодируемыми непрерывными случайными величинами, где распределение может быть задано функцией плотности вероятности . Более сложные эксперименты, например, с участием случайных процессов, определенных в непрерывном времени , могут потребовать использования более общих вероятностных мер .

Распределение вероятностей может быть одномерным или многомерным . Одномерное распределение дает вероятности того, что одна случайная величина принимает различные альтернативные значения; многомерное распределение ( совместное распределение вероятностей ) дает вероятности случайного вектора - набора из двух или более случайных величин - принимающего различные комбинации значений. Важные и часто встречающиеся одномерные распределения вероятностей включают биномиальное распределение , гипергеометрическое распределение и нормальное распределение . Многомерное нормальное распределение - часто встречающееся многомерное распределение.

Специальные распределения [ править ]

  • Нормальное распределение , наиболее распространенное непрерывное распределение
  • Распределение Бернулли для результата одного испытания Бернулли (например, успех / неудача, да / нет)
  • Биномиальное распределение количества «положительных событий» (например, успехов, голосов «да» и т. Д.) При фиксированном общем количестве независимых случаев.
  • Отрицательное биномиальное распределение для наблюдений биномиального типа, но где интересующее количество - это количество неудач до того, как произойдет заданное количество успехов
  • Геометрическое распределение для наблюдений биномиального типа, но где интересующей величиной является количество неудач до первого успеха; частный случай отрицательного биномиального распределения, когда количество успехов равно одному.
  • Дискретное равномерное распределение для конечного набора значений (например, результат честной игры)
  • Непрерывное равномерное распределение для непрерывно распределенных значений
  • Распределение Пуассона для числа появлений события типа Пуассона в заданный период времени
  • Экспоненциальное распределение для времени до следующего события пуассоновского типа
  • Гамма-распределение для времени до следующих k событий пуассоновского типа
  • Распределение хи-квадрат , распределение суммы квадратов стандартных нормальных переменных; полезно, например, для вывода относительно выборочной дисперсии нормально распределенных выборок (см. критерий хи-квадрат )
  • T-распределение Стьюдента , распределение отношения стандартной нормальной переменной и квадратного корня из масштабированной переменной хи-квадрат ; полезно для вывода относительно среднего значения нормально распределенных выборок с неизвестной дисперсией (см . t-критерий Стьюдента )
  • Бета-распределение для единственной вероятности (действительное число от 0 до 1); сопряжены с распределением Бернулли и биномиальным распределением

Статистический вывод [ править ]

Статистический вывод - это процесс вывода на основании данных, которые подвержены случайным изменениям, например ошибкам наблюдений или вариациям выборки. [6] Первоначальные требования к такой системе процедур для вывода и индукции заключаются в том, что система должна давать разумные ответы, когда применяется к четко определенным ситуациям, и что она должна быть достаточно общей для применения в целом ряде ситуаций. Статистические данные используются для проверки гипотез и выполнения оценок с использованием выборочных данных. В то время как описательная статистика описывает выборку, выводная статистика делает выводы относительно большей совокупности, которую представляет выборка.

Результат статистического вывода может быть ответом на вопрос «что делать дальше?», Где это может быть решение о проведении дальнейших экспериментов или опросов, или о том, чтобы сделать вывод перед реализацией какой-либо организационной или государственной политики. По большей части, статистический вывод делает предположения о популяциях, используя данные, полученные от интересующей совокупности с помощью некоторой формы случайной выборки. В более общем смысле данные о случайном процессе получают из его наблюдаемого поведения в течение конечного периода времени. Учитывая параметр или гипотезу, о которой нужно сделать вывод, статистический вывод чаще всего использует:

  • статистическую модель случайного процесса , который должен генерировать данные, которые , как известно , когда была использована рандомизация, и
  • конкретная реализация случайного процесса; т.е. набор данных.

Регресс [ править ]

В статистике , регрессионный анализ представляет собой статистический процесс для оценки взаимосвязи между переменными. Он включает множество способов моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными . В частности, регрессионный анализ помогает понять, как изменяется типичное значение зависимой переменной (или «критериальной переменной»), когда изменяется одна из независимых переменных, в то время как другие независимые переменные остаются неизменными. Чаще всего регрессионный анализ оценивает условное ожидание зависимой переменной с учетом независимых переменных, то есть среднего значения.зависимой переменной, когда независимые переменные фиксированы. Реже акцент делается на квантиле или другом параметре местоположения условного распределения зависимой переменной с учетом независимых переменных. Во всех случаях цель оценки является функцией независимых переменных, называемой функцией регрессии . В регрессионном анализе также представляет интерес охарактеризовать изменение зависимой переменной вокруг функции регрессии, которая может быть описана распределением вероятностей .

Разработано множество методов проведения регрессионного анализа. Знакомые методы, такие как линейная регрессия , являются параметрическими , так как функция регрессии определяется в терминах конечного числа неизвестных параметров , которые оцениваются на основе данных (например, с использованием обычных наименьших квадратов ). Непараметрическая регрессия относится к методам, которые позволяют функции регрессии находиться в заданном наборе функций , который может быть бесконечномерным .

Непараметрическая статистика [ править ]

Непараметрическая статистика - это значения, рассчитанные на основе данных способом, который не основан на параметризованных семействах распределений вероятностей . Они включают как описательную, так и логическую статистику. Типичными параметрами являются среднее значение, дисперсия и т. Д. В отличие от параметрической статистики , непараметрическая статистика не делает никаких предположений о распределении вероятностей оцениваемых переменных [ необходима цитата ] .

Непараметрические методы широко используются для изучения популяций, которые занимают ранжированный порядок (например, обзоры фильмов, получившие от одной до четырех звезд). Использование непараметрических методов может быть необходимо, когда данные имеют ранжирование, но не имеют четкой числовой интерпретации, например, при оценке предпочтений . Что касается уровней измерения , то непараметрические методы приводят к «порядковым» данным.

Поскольку непараметрические методы делают меньше предположений, их применимость намного шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за использования меньшего числа предположений непараметрические методы более надежны .

Еще одно оправдание использования непараметрических методов - простота. В некоторых случаях, даже когда использование параметрических методов оправдано, непараметрические методы могут быть проще в использовании. Как из-за этой простоты, так и из-за их большей надежности, непараметрические методы рассматриваются некоторыми статистиками как оставляющие меньше места для неправильного использования и недопонимания.

Статистика, математика и математическая статистика [ править ]

Математическая статистика - это ключевое подразделение статистической дисциплины . Статистические теоретики изучают и улучшают статистические процедуры с помощью математики, а статистические исследования часто поднимают математические вопросы. Статистическая теория опирается на теорию вероятностей и решений .

Математики и статистики, такие как Гаусс , Лаплас и К.С. Пирс, использовали теорию принятия решений с распределениями вероятностей и функциями потерь (или функциями полезности ). Теоретико-решающий подход к статистическому выводу был вновь активизирован Абрахамом Вальдом и его преемниками [7] [8] [9] [10] [11] [12] [13] » и широко использует научные вычисления , анализ и оптимизацию. ; для планирования экспериментов статистики используюталгебра и комбинаторика .

См. Также [ править ]

  • Асимптотическая теория (статистика)

Ссылки [ править ]

  1. ^ Лакшмикантам, изд. Д. Каннан, ... В. (2002). Справочник по стохастическому анализу и приложениям . Нью-Йорк: М. Деккер. ISBN 0824706609.CS1 maint: дополнительный текст: список авторов ( ссылка )
  2. ^ Schervish, Mark J. (1995). Теория статистики (Корр. 2-е изд. Ред.). Нью-Йорк: Спрингер. ISBN 0387945466.
  3. ^ Фридман, Д. А. (2005) Статистические модели: теория и практика , Cambridge University Press. ISBN 978-0-521-67105-7 
  4. Перейти ↑ Hogg, RV, A. Craig, and JW McKean. «Введение в математическую статистику». (2005).
  5. ^ Ларсен, Ричард Дж. И Маркс, Моррис Л. «Введение в математическую статистику и ее приложения» (2012). Прентис Холл.
  6. ^ Аптон, Г., Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4 
  7. ^ Вальд, Авраам (1947). Последовательный анализ . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-91806-7. См. Перепечатку Dover, 2004 г .: ISBN 0-486-43912-7 
  8. ^ Уолд, Абрахам (1950). Статистические функции принятия решений . Джон Уайли и сыновья, Нью-Йорк.
  9. Перейти ↑ Lehmann, Erich (1997). Проверка статистических гипотез (2-е изд.). ISBN 0-387-94919-4.
  10. ^ Леманн, Эрих ; Касселла, Джордж (1998). Теория точечного оценивания (2-е изд.). ISBN 0-387-98502-6.
  11. ^ Бикель, Питер Дж ; Доксум, Челл А. (2001). Математическая статистика: основные и избранные темы . 1 (Второе (обновленное издание 2007 г.) изд.). Пирсон Прентис-Холл.
  12. ^ Ле Кам, Люсьен (1986). Асимптотические методы в статистической теории принятия решений . Springer-Verlag. ISBN 0-387-96307-3.
  13. ^ Liese, Фридрих & Miescke, Клаус-J. (2008). Статистическая теория принятия решений: оценка, тестирование и выбор . Springer.

Дальнейшее чтение [ править ]

  • Боровков, А.А. (1999). Математическая статистика . CRC Press. ISBN 90-5699-018-7 
  • Виртуальные лаборатории теории вероятностей и статистики (Университет Ала-Хантсвилл)
  • StatiBot , интерактивная онлайн-экспертная система по статистическим тестам.
  • Математическая статистика [1] ISBN 978-9383385188 Манохар Рэй, Хар Сваруп Шарма, опубликованный Рам Прасад Агра 
  1. ^ Рэй, М .; Шарма, HS (1966). Математическая статистика . Рам Прасад и сыновья.