Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Направленная статистика (также круговая статистика или сферическая статистика ) - это подраздел статистики, который имеет дело с направлениями ( единичные векторы в R n ), осями ( линии через начало координат в R n ) или вращениями в R n . В более общем смысле направленная статистика имеет дело с наблюдениями на компактных римановых многообразиях .

Общая форма белка может быть параметризована как последовательность точек на единичной сфере . Показаны два вида сферической гистограммы таких точек для большого набора белковых структур. Статистическая обработка таких данных относится к сфере направленной статистики. [1]

Тот факт, что 0 градусов и 360 градусов являются идентичными углами, так что, например, 180 градусов не является разумным средним для 2 градусов и 358 градусов, служит одной иллюстрацией того, что для анализа некоторых типов данных требуются специальные статистические методы (в данном случае корпус, угловые данные). Другие примеры данных, которые можно рассматривать как направленные, включают статистику, включающую временные периоды (например, время дня, неделю, месяц, год и т. Д.), Направления по компасу, двугранные углы в молекулах, ориентации, вращения и так далее.

Круговые и многомерные распределения[ редактировать ]

Любую функцию плотности вероятности (pdf) на линии можно «обернуть» по окружности круга единичного радиуса. [2] То есть PDF-файл обернутой переменной

является

Эта концепция может быть расширена до многомерного контекста путем расширения простой суммы до ряда сумм, охватывающих все измерения в пространстве признаков:

где - евклидов базисный вектор.

В следующих разделах показаны некоторые соответствующие круговые распределения.

круговое распределение фон Мизеса [ править ]

Распределение фон Мизеса - это круговое распределение, которое, как и любое другое круговое распределение, можно рассматривать как обертывание определенного линейного распределения вероятностей по кругу. Основное линейное распределение вероятностей для распределения фон Мизеса математически трудноразрешимо; однако для статистических целей нет необходимости иметь дело с лежащим в основе линейным распределением. Распределение фон Мизеса имеет двоякую ценность: оно является наиболее математически управляемым из всех круговых распределений, позволяющим более простой статистический анализ, и является близким приближением к обернутой нормали.распределение, которое, как и линейное нормальное распределение, важно, потому что оно является предельным случаем для суммы большого количества малых угловых отклонений. Фактически, распределение фон Мизеса часто называют «круговым нормальным» распределением из-за его простоты использования и его тесной связи с обернутым нормальным распределением (Fisher, 1993).

PDF-файл распределения фон Мизеса:

где - модифицированная функция Бесселя порядка 0.

Круговое равномерное распределение [ править ]

Функция плотности вероятности (pdf) кругового равномерного распределения определяется выражением

Его также можно рассматривать как вышеприведенного фон Мизеса.

Обернутое нормальное распределение [ править ]

PDF-файл обернутого нормального распределения (WN):

где μ и σ - среднее и стандартное отклонение развернутого распределения, соответственно, и - тета-функция Якоби :
где и

Обернутое распределение Коши [ править ]

PDF-файл обернутого распределения Коши (WC):

где - масштабный коэффициент, а - положение пика.

Распределение Леви в оболочке [ править ]

PDF-файл обернутого распределения Леви (WL):

где значение слагаемого принимается равным нулю , когда , является масштабный коэффициент и является параметром расположения.

Распределения на многомерных многообразиях [ править ]

Наборы из трех точек, взятые из различных распределений Кента на сфере.

Также существуют распределения на двумерной сфере (например, распределение Кента [3] ), N- мерной сфере ( распределение фон Мизеса – Фишера [4] ) или торе ( двумерное распределение фон Мизеса [5] ). .

Матрица распределение Мизеса-Фишер является распределением на многообразии Штифеля , и может быть использована для построения распределения вероятностей над матрицами вращения . [6]

Распределение Бингема - это распределение по осям в N измерениях или, что то же самое, по точкам на ( N  - 1) -мерной сфере с идентифицированными антиподами. [7] Например, если N  = 2, оси представляют собой ненаправленные линии, проходящие через начало координат на плоскости. В этом случае каждая ось разрезает единичный круг на плоскости (которая является одномерной сферой) в двух точках, которые являются антиподами друг друга. Для N  = 4 распределение Бингема является распределением по пространству единичных кватернионов . Поскольку единичный кватернион соответствует матрице вращения, распределение Бингема для N = 4 можно использовать для построения вероятностных распределений в пространстве вращений, как и матричное распределение фон Мизеса – Фишера.

Эти распределения, например , используется в геологии , [8] кристаллографии [9] и биоинформатики . [1] [10] [11]

Моменты [ править ]

Исходные векторные (или тригонометрические) моменты кругового распределения определяются как

где - любой интервал длины , - PDF кругового распределения, и . Поскольку интеграл равен единице, а интервал интегрирования конечен, отсюда следует, что моменты любого кругового распределения всегда конечны и хорошо определены.

Аналогично определяются примерные моменты:

Результирующий вектор генеральной совокупности, длина и средний угол определяются по аналогии с соответствующими параметрами выборки.

Кроме того, длины высших моментов определяются как:

а угловые части высших моментов справедливы . Длина всех моментов будет находиться в диапазоне от 0 до 1.

Меры местоположения и распространения [ править ]

Различные меры местоположения и распространения могут быть определены как для совокупности, так и для выборки, взятой из этой совокупности. [12] Наиболее распространенной мерой местоположения является круговое среднее. Круговое среднее по генеральной совокупности - это просто первый момент распределения, а среднее по выборке - это первый момент выборки. Среднее значение выборки будет служить объективной оценкой среднего значения генеральной совокупности.

Когда данные сконцентрированы, медиана и мода могут быть определены по аналогии с линейным случаем, но для более разрозненных или многомодальных данных эти концепции бесполезны.

Наиболее распространенные меры кругового распространения:

  • Круговая дисперсия . Для выборки круговая дисперсия определяется как:
и для населения
Оба будут иметь значения от 0 до 1.
  • Круглое стандартное отклонение
со значениями от 0 до бесконечности. Это определение стандартного отклонения (а не квадратного корня из дисперсии) полезно, потому что для обернутого нормального распределения оно является оценкой стандартного отклонения основного нормального распределения. Следовательно, это позволит стандартизировать круговое распределение, как и в линейном случае, для малых значений стандартного отклонения. Это также относится к распределению фон Мизеса, которое близко аппроксимирует свернутое нормальное распределение. Обратите внимание, что для маленьких у нас есть .
  • Круговая дисперсия
со значениями от 0 до бесконечности. Эта мера разброса полезна при статистическом анализе дисперсии.

Распределение среднего [ править ]

Учитывая набор из N измерений, среднее значение z определяется как:

что может быть выражено как

куда

или, альтернативно, как:

куда

Распределение среднего ( ) для круглого PDF-файла P ( θ ) будет определяться следующим образом:

где находится на любом интервале длины, а на интеграл накладывается ограничение, что и являются постоянными, или, альтернативно, и являются постоянными.

Расчет среднего для большинства круговых распределений аналитически невозможен, и для проведения дисперсионного анализа необходимы численные или математические приближения. [13]

Центральная предельная теорема может быть применена к распределению средств выборки. (основная статья: Центральная предельная теорема для направленной статистики ). Можно показать [13], что распределение приближается к двумерному нормальному распределению в пределе большого размера выборки.

Проверка согласия и значимости [ править ]

Для циклических данных - (например, равномерно ли они распределены):

  • Тест Рэлея для унимодального кластера
  • Тест Койпера для возможных мультимодальных данных.

См. Также [ править ]

  • Комплексное нормальное распределение
  • Ямартино метод
  • Распространение в оболочке

Ссылки [ править ]

  1. ^ a b Hamelryck, Томас; Кент, Джон Т .; Крог, Андерс (2006). "Hamelryck, T., Kent, J., Krogh, A. (2006) Выборка реалистичных конформаций белков с использованием локального структурного отклонения. PLoS Comput. Biol., 2 (9): e131" . PLOS Вычислительная биология . 2 (9): e131. Bibcode : 2006PLSCB ... 2..131H . DOI : 10.1371 / journal.pcbi.0020131 . PMC  1570370 . PMID  17002495 .
  2. ^ Bahlmann, C., (2006), Направленные функции в онлайн-распознавании рукописного ввода , Распознавание образов, 39
  3. ^ Кент, Дж. (1982) Распределение Фишера – Бингема на сфере . J Royal Stat Soc, 44, 71–80.
  4. ^ Фишер, Р. А. (1953) Дисперсия на сфере. Proc. Рой. Soc. Лондон сер. А., 217, 295–305
  5. ^ Mardia, KM. Тейлор; CC; Subramaniam, GK. (2007). "Белковая биоинформатика и смеси двумерных распределений фон Мизеса для угловых данных". Биометрия . 63 (2): 505–512. DOI : 10.1111 / j.1541-0420.2006.00682.x . PMID 17688502 . 
  6. ^ Даунс (1972). «Ориентационная статистика». Биометрика . 59 (3): 665–676. DOI : 10.1093 / Biomet / 59.3.665 .
  7. Перейти ↑ Bingham, C. (1974). «Антиподально-симметричное распределение на сфере» . Анна. Стат . 2 (6): 1201–1225. DOI : 10.1214 / AOS / 1176342874 .
  8. ^ Пил, D .; Whiten, WJ .; McLachlan, GJ. (2001). «Подгонка смесей распределений Кента для помощи в идентификации набора стыков» (PDF) . Варенье. Стат. Доц . 96 (453): 56–63. DOI : 10.1198 / 016214501750332974 . S2CID 11667311 .  
  9. ^ Кригер Лассен, Северная Каролина; Juul Jensen, D .; Конрадсен, К. (1994). «О статистическом анализе ориентировочных данных». Acta Crystallogr . А50 (6): 741–748. DOI : 10.1107 / S010876739400437X .
  10. ^ Кент, JT, Hamelryck, Т. (2005). Использование распределения Фишера – Бингема в стохастических моделях структуры белка . В С. Барбер, П. Д. Бакстер, К. В. Мардиа и Р. Р. Уоллс (ред.), Количественная биология, анализ формы и всплески, стр. 57–60. Лидс, издательство Leeds University Press
  11. ^ Бумсма, Воутер; Mardia, Kanti V .; Тейлор, Чарльз С.; Феркингхофф-Борг, Джеспер; Крог, Андерс; Хамелрик, Томас (2008). «Генеративная, вероятностная модель локальной структуры белка» . Труды Национальной академии наук . 105 (26): 8932–8937. Bibcode : 2008PNAS..105.8932B . DOI : 10.1073 / pnas.0801715105 . PMC 2440424 . PMID 18579771 .  
  12. ^ Фишер, Н. И., Статистический анализ циркулярных данных , Cambridge University Press, 1993. ISBN 0-521-35018-2 
  13. ^ а б Джаммаламадака, С. Рао; Сенгупта, А. (2001). Темы в круговой статистике . Нью-Джерси: World Scientific. ISBN 978-981-02-3778-3. Проверено 15 мая 2011 .

Книги по направленной статистике [ править ]

  • Батчелет, Э. Циркулярная статистика в биологии, Academic Press, Лондон, 1981. ISBN 0-12-081050-6 . 
  • Фишер, Н.И., Статистический анализ циркулярных данных , Cambridge University Press, 1993. ISBN 0-521-35018-2 
  • Фишер, Н.И., Льюис, Т., Эмблтон, Б.Дж. Статистический анализ сферических данных , Cambridge University Press, 1993. ISBN 0-521-45699-1 
  • Джаммаламадака С. Рао и СенГупта А. Темы циркулярной статистики , World Scientific, 2001. ISBN 981-02-3778-2 
  • Мардия, К.В. и Джапп П., Направленная статистика (2-е издание) , John Wiley and Sons Ltd., 2000. ISBN 0-471-95333-4 
  • Лей, К. и Вердебу, Т., Современная направленная статистика , CRC Press Taylor & Francis Group, 2017. ISBN 978-1-4987-0664-3