Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Лоза представляет собой графический инструмент для маркировки ограничений в многомерных вероятностных распределений . Обычная виноградная лоза - это особый случай, когда все ограничения двумерны или условно двумерны. Обычные виноградные лозы являются обобщением деревьев и сами являются специализациями дерева Кантора . [1]

В сочетании с двумерными связками обычные лозы оказались гибким инструментом для моделирования многомерных зависимостей. Копулы [2] [3] - многомерные распределения с однородными одномерными границами. Представление совместного распределения в виде одномерных полей плюс копул позволяет отделить проблемы оценки одномерных распределений от проблем оценки зависимости. Это удобно, поскольку во многих случаях одномерные распределения можно адекватно оценить на основе данных, в то время как информация о зависимости известна приблизительно, включая сводные показатели и суждения. [4] [5]Хотя количество параметрических многомерных семейств связок с гибкой зависимостью ограничено, существует много параметрических семейств двумерных связок. Обычные лозы своей растущей популярностью обязаны тому факту, что они опираются на двумерные связки и позволяют расширяться до произвольных размеров. Теория выборки и теория оценки для обычных виноградных лоз хорошо развиты [6] [7], и вывод модели оставил пост. [8] [9] [7] Обычные виноградные лозы оказались полезными в других задачах, таких как (ограниченная) выборка корреляционных матриц, [10] [11] построение непараметрических непрерывных байесовских сетей . [12] [13]

Например, в финансах было показано, что связки виноградной лозы эффективно моделируют хвостовой риск в приложениях по оптимизации портфеля. [14]

Историческое происхождение [ править ]

Первый регулярный виноград, avant la lettre, был представлен Гарри Джо. [15] Мотив состоял в том, чтобы расширить параметрические двумерные семейства копул экстремальных значений до более высоких измерений. С этой целью он ввел то, что позже назовут D-лозой . Джо [16] интересовался классом n-мерных распределений с заданными одномерными границами и параметрами зависимости n ( n - 1), где n - 1 параметр соответствует двумерным границам, а остальные соответствуют условным двумерным границам. В случае многомерных нормальных распределений параметрами будут n - 1 корреляции и ( n - 1) ( n - 2) / 2частные корреляции , которые были отмечены как алгебраически независимые в (-1, 1).

Совершенно иная мотивация лежала в основе первого формального определения виноградной лозы у Кука. [17] Анализ неопределенности больших моделей риска, например, предпринятых Европейским союзом и Комиссией по ядерному регулированию США для аварий на атомных электростанциях, включает количественную оценку и распространение неопределенности по сотням переменных.[18] [19] [20] Информация о зависимостях для таких исследований была получена с помощью деревьев Маркова , [21] которые представляют собой деревья, построенные с узлами как одномерные случайные величины и ребрами как двумерные связки. Для n переменных существует не более n- 1 ребро, для которого можно указать зависимость. Новые методы в то время включали получение распределений неопределенностей по параметрам моделирования путем выявления неопределенностей экспертов по другим переменным, которые предсказываются моделями. Эти распределения неопределенности возвращаются к параметрам модели с помощью процесса, известного как вероятностная инверсия. [8] [18] Полученные распределения часто отображали структуру зависимости, которую невозможно было зафиксировать в виде дерева Маркова.

Графические модели, называемые виноградными лозами, были представлены в [1] [8] [17]. Важной особенностью виноградных лоз является то, что они могут добавлять условные зависимости между переменными поверх дерева Маркова, что обычно слишком экономно, чтобы суммировать зависимость между переменными.

Обычные лозы (R-лозы) [ править ]

C-Vine от 4 переменных
D-вайна от 4 переменных
R-Vine по 5 переменным

Виноградная лоза V от n переменных - это вложенный набор связанных деревьев, где ребра в первом дереве являются узлами второго дерева, ребра второго дерева - узлами третьего дерева и т. Д. Обычная виноградная лоза или R- Виноградная лоза на n переменных - это виноградная лоза, в которой два ребра в дереве j соединены ребром в дереве j + 1, только если эти ребра имеют общий узел, j = 1, ..., n - 2. Узлы в первом tree - одномерные случайные величины. Ребра - это ограничения или условные ограничения, которые объясняются следующим образом.

Напомним, что ребро в дереве - это неупорядоченный набор из двух узлов. Каждое ребро в виноградной лозе связано с набором ограничений., являющийся набором переменных (узлов в первом дереве), достижимых заданным отношением принадлежности. Для каждого ребра набор ограничений представляет собой объединение наборов ограничений двух элементов ребра, называемых его наборами компонентных ограничений (для ребра в первом дереве наборы компонентных ограничений пусты). Ограничение, связанное с каждым ребром, теперь является симметричной разностью его наборов ограничений компонентов, обусловленных пересечением его наборов ограничений. Можно показать, что для обычной виноградной лозы симметричная разность наборов ограничений компонентов всегда является дублетом и что каждая пара переменных встречается ровно один раз как ограниченные переменные. Другими словами, все ограничения являются двумерными или условно-двумерными.

Степень узла - это количество ребер, прикрепленных к нему. Простейшие регулярные лозы имеют простейшую ступенчатую структуру; D-Vine присваивает каждому узлу степень 1 или 2, C-Vine назначает максимальную степень одному узлу в каждом дереве. Для больших лоз понятнее рисовать каждое деревце отдельно.

Число регулярных виноградных лоз на n переменных быстро растет за n : существует 2 n −3 способа расширить обычную виноградную лозу с помощью одной дополнительной переменной, и есть n ( n - 1) ( n - 2)! 2 ( n - 2 ) ( n - 3) / 2/2 помечены регулярными виноградными лозами от n переменных [22] . [23]

Ограничения на обычную лозу могут быть связаны с частичными корреляциями или с условной двумерной связкой . В первом случае мы говорим о частичной корреляционной лозе , а во втором - о связке лозы .

Частичная корреляция виноградных лоз [ править ]

Бедфорд и Кук [1] показывают, что любое присвоение значений в открытом интервале (−1, 1) ребрам в любой частичной корреляционной лозе непротиворечиво, присвоения алгебраически независимы и существует взаимно однозначное отношение между все такие назначения и набор корреляционных матриц. Другими словами, частичные корреляционные лозы обеспечивают алгебраически независимую параметризацию набора корреляционных матриц, члены которых имеют интуитивную интерпретацию. Более того, определитель корреляционной матрицы - это произведение по ребрам (1 - ρ 2 ik ; D ( ik ) ), где ρ ik ; D ( ik )- частичная корреляция, присвоенная ребру с условными переменными i , k и условными переменными D ( ik ). Подобное разложение характеризует взаимную информацию , которая обобщает определитель корреляционной матрицы. [17] Эти функции использовались в ограниченном отборе корреляционных матриц, [10] построении непараметрических непрерывных байесовских сетей [12] [13] и решении проблемы расширения частично заданных матриц до положительно определенных матриц [24] . [25]

Связки лозы или построение пары-связки [ править ]

При подходящих условиях дифференцируемости любая многомерная плотность f 1 ... n от n переменных с одномерными плотностями f 1 , ..., f n может быть представлена ​​в замкнутой форме как произведение одномерных плотностей и (условных) плотностей копул на любая R-лоза V

[26]

f 1 ... n = f 1 ... f n Π e∈E ( V ) C e 1 , e 2 | D e (F e 1 | D e , F e 2 | D e )

где ребра е = (е 1 , е 2 ) с множеством кондиционирования D е в множестве ребер E ( V ) любая регулярной лозе V . Плотности условных копул C e 1 , e 2 | D e в этом представлении зависят от кумулятивных функций условного распределения условных переменных, F e 1 | D e , F e 2 | D e, и, возможно, от значений обусловливающих переменных. Когда условные связки не зависят от значений обусловливающих переменных, говорят об упрощающем предположении постоянных условных связок. Хотя большинство приложений используют это предположение, исследование свободы моделирования, полученной в результате выполнения этого предположения, началось [27] [28] . [29] Когда двумерные гауссовские связки назначаются краям виноградной лозы, то результирующая многомерная плотность является гауссовой плотностью, параметризованной частичной корреляционной виноградной лозой, а не корреляционной матрицей.

Конструкция пара-связки виноградной лозы, основанная на последовательном смешивании условных распределений, была адаптирована к дискретным переменным и смешанному дискретному / непрерывному отклику [30] . [31] Также были предложены факторные связки, в которых к виноградной лозе были добавлены скрытые переменные (например, [32] ).

Исследователи виноградных лоз разработали алгоритмы для оценки максимального правдоподобия и моделирования связок лоз, поиска усеченных лоз, суммирующих зависимости в данных, подсчета по лозам и т. Д. В главе 6 « Моделирование зависимости с копулами» [33] эти алгоритмы суммированы в псевдокоде.

Оценка параметров [ править ]

Для параметрических связок виноградной лозы с двумерным семейством связок на каждом краю виноградной лозы доступны алгоритмы и программное обеспечение для оценки параметров связки с максимальной вероятностью, предполагая, что данные были преобразованы в единые баллы после подбора одномерных полей. Существуют также доступные алгоритмы (например, [34] ) для выбора хороших усеченных регулярных виноградных лоз, в которых ребра высокоуровневых деревьев рассматриваются как условная независимость. Эти алгоритмы присваивают переменные с сильной зависимостью или сильной условной зависимостью деревьям низкого порядка, чтобы деревья более высокого порядка имели слабую условную зависимость или условную независимость. Следовательно, экономные усеченные лозы получаются по большому количеству переменных. Доступно программное обеспечение с пользовательским интерфейсом на языке R (например, [35] ).

Выборка и условность [ править ]

Порядок выборки для n переменных - это последовательность условных плотностей, в которой первая плотность является безусловной, а плотности для других переменных обусловлены предыдущими переменными в порядке. Порядок выборки подразумевается представлением плотности регулярной виноградной лозы, если каждая условная плотность может быть записана как произведение плотностей связки в виноградной лозе и одномерных полей. [23]

Подразумеваемый порядок выборки генерируется вложенной последовательностью подчиненных веток, где каждая подчиненная виноградная лоза в последовательности содержит одну новую переменную, отсутствующую в предыдущей подчиненной виноградной лозе. Для любой регулярной виноградной лозы с n переменными подразумевается 2 n − 1 порядка выборки. Подразумеваемые порядки выборки - это небольшое подмножество всех n! заказы, но они значительно облегчают выборку. Приведение регулярной виноградной лозы к значениям произвольного подмножества переменных - сложная операция. Однако условное обозначение исходной последовательности подразумеваемого порядка выборки тривиально, достаточно просто вставить исходные условные значения и продолжить выборку. В настоящее время общей теории обусловленности не существует.

Дальнейшее чтение [ править ]

  • Kurowicka, D .; Джо, Х., ред. (2010). Моделирование зависимости: Справочник по Vine Copula . Сингапур: World Scientific. С. 43–84. ISBN 978-981-4299-87-9.

Внешние ссылки [ править ]

  • "Модели копул лозы" . Lehrstuhl für Mathematische Statistik . - Программное обеспечение для оценки и отбора образцов обычных виноградных лоз, литературы и объявлений о мероприятиях
  • http://vine-copula.org
  • http://www.birs.ca/events/2013/5-day-workshops/13w5146
  • http://www.cias-cufe.org/dependence/
  • http://rogermcooke.net/
  • http://www.ewi.tudelft.nl/en/the-faculty/departments/applied-mat Mathematics/applied-probability/education/risk-analysis/

Ссылки [ править ]

  1. ^ a b c Бедфорд, TJ; Кук, Р.М. (2002). «Виноградные лозы - новая графическая модель зависимых случайных величин». Анналы статистики . 30 (4): 1031–1068. CiteSeerX 10.1.1.26.8965 . DOI : 10.1214 / AOS / 1031689016 . 
  2. ^ Джо, Х. (1997). Многомерные модели и концепции зависимости . Лондон: Чепмен и Холл.
  3. ^ Nelsen, RB (2006). Введение в копулы, 2-е изд . Нью-Йорк: Спрингер.
  4. ^ Краан, BCP; Кук, RM (2000). «Обработка экспертных заключений при моделировании последствий аварий». Дозиметрия радиационной защиты . 90 (3): 311–315. DOI : 10.1093 / oxfordjournals.rpd.a033153 .
  5. ^ Эль, BJM; Беллами, LJ; van der Boom, R .; Купер, Дж .; Кук, РМ; Goossens, LHJ; Хейл, Арканзас; Kurowicka, D .; Morales, O .; Roelen, ALC; Спуг, Дж. (2009). «Дальнейшее развитие причинно-следственной модели безопасности воздушного транспорта (CATS): создание математического сердца». Журнал надежности и безопасности систем . 94 (9): 1433–1441. DOI : 10.1016 / j.ress.2009.02.024 .
  6. ^ Kurowicka, D .; Кук, RM (2007). «Алгоритмы выборки для создания совместных равномерных распределений с использованием метода виноградной связки». Вычислительная статистика и анализ данных . 51 (6): 2889–2906. DOI : 10.1016 / j.csda.2006.11.043 .
  7. ^ a b Aas, K .; Czado, C .; Frigessi, A .; Баккен, Х. (2009). «Парно-связочные конструкции множественной зависимости». Страхование: математика и экономика . 44 (2): 182–198. CiteSeerX 10.1.1.61.3984 . DOI : 10.1016 / j.insmatheco.2007.02.001 . 
  8. ^ a b c Kurowicka, D .; Кук, RM (2006). Анализ неопределенности с помощью моделирования многомерной зависимости . Вайли.
  9. ^ Kurowicka, D .; Кук, РМ; Каллис, У. (2007). «Вывод виноградных лоз». Бразильский журнал вероятностей и статистики .
  10. ^ a b Lewandowski, D .; Kurowicka, D .; Джо, Х. (2009). «Создание матриц случайной корреляции на основе метода лоз и расширенного лука». Журнал многомерного анализа . 100 (9): 1989–2001. DOI : 10.1016 / j.jmva.2009.04.008 .
  11. ^ Kurowicka, D. (2014). «Создание матриц случайной корреляции на основе метода лоз и расширенного лука» . Совместная плотность корреляций в корреляционной матрице с паттернами разреженности хорд . 129 (С): 160–170. DOI : 10.1016 / j.jmva.2014.04.006 .
  12. ^ а б Ханея, AM (2008). Алгоритмы для непараметрических байесовских сетей доверия (Ph.D.). Делфтский институт прикладной математики, Делфтский технологический университет.
  13. ^ а б Ханея, AM; Kurowicka, D .; Кук, РМ; Абабей, Д.А. (2010). «Извлечение и визуализация порядковых данных с помощью непараметрических непрерывных BBN». Вычислительная статистика и анализ данных . 54 (3): 668–687. DOI : 10.1016 / j.csda.2008.09.032 .
  14. ^ Низкий, RKY; Alcock, J .; Faff, R .; Брейлсфорд, Т. (2013). «Канонические связки виноградной лозы в контексте современного управления портфелем: стоят ли они того?». Журнал "Банковское дело и финансы" . 37 (8): 3085–3099. DOI : 10.1016 / j.jbankfin.2013.02.036 .
  15. ^ Джо, Х. (1994). «Многомерные распределения экстремальных значений с приложениями в экологических данных». Канадский статистический журнал . 22 (1): 47–64. DOI : 10.2307 / 3315822 . JSTOR 3315822 . 
  16. ^ Джо, Х. (1996), «Семейства m-переменных распределений с заданными полями и параметрами двумерной зависимости m (m-1) / 2», в Rüschendorf, L .; Schweizer, B .; Тейлор, доктор медицины (ред.), Распределения с фиксированными маржинальными номерами и смежными темами , 28 , стр. 120–141.
  17. ^ а б в Кук, RM (1997). «Марковские и энтропийные свойства переменных, зависящих от деревьев и лиан». Proc. Секция байесовской статистической науки ASA .
  18. ^ а б Гуссенс, LHJ; Харпер, FT; Краан, BCP; Метивье, Х. (2000). «Экспертное заключение для вероятностного анализа неопределенности последствий аварии». Дозиметрия радиационной защиты . 90 (3): 295–301. DOI : 10.1093 / oxfordjournals.rpd.a033151 .
  19. ^ Харпер, Ф .; Goossens, LHJ; Кук, РМ; Hora, S .; Янг, М .; Pasler-Ssauer, J .; Miller, L .; Краан, BCP; Луи, С .; McKay, M .; Helton, J .; Джонс, А. (1994), Совместное исследование неопределенности последствий USNRC CEC: Краткое изложение целей, подхода, применения и результатов оценки неопределенности дисперсии и осаждения , III , NUREG / CR-6244, EUR 15755 EN, SAND94-1453
  20. ^ Guégan, D .; Хасани, BK (2013), "Многомерные VARS для оперативного расчета рискового капитала: структура винограда подход", Международный журнал по оценке и управлению рисками , 17 (2): 148-170, CiteSeerX 10.1.1.686.4277 , DOI : 10,1504 / IJRAM.2013.057104 
  21. Перейти ↑ Whittaker, J. (1990). Графические модели в прикладной многомерной статистике . Чичестер: Вайли.
  22. ^ Morales Napoles, O .; Кук, РМ; Куровицка, Д. (2008), Количество лоз и обычных лоз на n узлах , Технический отчет, Делфтский институт прикладной математики, Делфтский технологический университет
  23. ^ а б Кук, РМ; Kurowicka, D .; Уилсон, К. (2015). «Выборка, условность, подсчет, объединение, поиск обычных виноградных лоз» . Журнал многомерного анализа . 138 : 4–18. DOI : 10.1016 / j.jmva.2015.02.001 .
  24. ^ Kurowicka, D .; Кук, RM (2003). «Параметризация положительно определенных матриц в терминах частичной корреляции лоз» . Линейная алгебра и ее приложения . 372 : 225–251. DOI : 10.1016 / s0024-3795 (03) 00507-х .
  25. ^ Kurowicka, D .; Кук, RM (2006). «Проблема комплектации с частичной корреляцией лоз» . Линейная алгебра и ее приложения . 418 (1): 188–200. DOI : 10.1016 / j.laa.2006.01.031 .
  26. ^ Бефорд, TJ; Кук, RM (2001). «Вероятностная плотностная декомпозиция для условно зависимых случайных величин, смоделированных виноградными лозами». Анналы математики и искусственного интеллекта . 32 : 245–268. DOI : 10,1023 / A: 1016725902970 .
  27. ^ Hobaek Haff, I .; Aas, K .; Фригесси, А. (2010). «Об упрощенном построении пары-связки - просто полезно или слишком упрощенно?». Журнал многомерного анализа . 101 (5): 1296–1310. DOI : 10.1016 / j.jmva.2009.12.001 . ЛВП : 10852/34736 .
  28. ^ Акар, EF; Genest, C .; Nešlehová, J. (2012). «За пределами упрощенных парно-связочных конструкций» . Журнал многомерного анализа . 110 : 74–90. DOI : 10.1016 / j.jmva.2012.02.001 .
  29. ^ Stoeber, J .; Джо, H .; Чадо, К. (2013). «Упрощенные конструкции парных связок, ограничения и расширения». Журнал многомерного анализа . 119 : 101–118. DOI : 10.1016 / j.jmva.2013.04.014 .
  30. ^ Panagiotelis, A .; Czado, C .; Джо, Х. (2012). «Регулярные распределения виноградных лоз для дискретных данных». Журнал Американской статистической ассоциации . 105 (499): 1063–1072. DOI : 10.1080 / 01621459.2012.682850 .
  31. ^ Stoeber, J .; Hong, HG; Czado, C .; Гош, П. (2015). «Коморбидность хронических заболеваний у пожилых людей: закономерности, выявленные с помощью дизайна связки для смешанных ответов». Вычислительная статистика и анализ данных . 88 : 28–39. DOI : 10.1016 / j.csda.2015.02.001 .
  32. ^ Крупский, П .; Джо, Х. (2013). «Факторные копулы модели для многомерных данных» . Журнал многомерного анализа . 120 : 85–101. DOI : 10.1016 / j.jmva.2013.05.001 .
  33. ^ Джо, Х. (2014). Моделирование зависимости с копулами . Чепмен Холл. ISBN 978-1-4665-8322-1.
  34. ^ Брехманн, ЕС; Czado, C .; Аас, К. (2012). «Усеченные обычные лозы в больших размерах с приложением к финансовым данным». Канадский статистический журнал . 40 (1): 68–85. CiteSeerX 10.1.1.185.2933 . DOI : 10.1002 / cjs.10141 . 
  35. ^ Schepsmeier, U .; Stoeber, J .; Брехманн, ЕС; Грэлер, Б. (2014). «Связки виноградных лоз: статистический вывод связок виноградных лоз, пакет R версии 1.3» .