Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистических данных , выборки значения является общей методикой для оценки свойств конкретного распределения , в то время как только имея образцы , полученных от другого распределения , чем распределение интереса. Это связано с зонтичной выборкой в вычислительной физике . В зависимости от приложения этот термин может относиться к процессу выборки из этого альтернативного распределения, процессу вывода или тому и другому.

Основная теория [ править ]

Позвольте быть случайной величиной в некотором вероятностном пространстве . Мы хотели бы оценить ожидаемое значение из X при Р , обозначается E [ X, P ]. Если у нас есть статистически независимые случайные выборки , сгенерированные в соответствии с P , то эмпирическая оценка E [ X; P ] будет

и точность этой оценки зависит от дисперсии X :

Основная идея выборки по важности состоит в том, чтобы выбрать состояния из другого распределения, чтобы снизить дисперсию оценки E [ X; P ], или когда выборка из P затруднена. Для этого сначала выбирается такая случайная величина , что E [ L ; P ] = 1 и что P - почти всюду . С помощью переменной L мы определяем вероятность, которая удовлетворяет

Таким образом, переменная X / L будет выбрана под P ( L ) для оценки E [ X; P ], как указано выше, и эта оценка улучшается, когда .

Когда X имеет постоянный знак над Ω, очевидно , что наилучшей переменной будет L , так что X / L * является искомой константой E [ X; P ], и одной выборки под P ( L *) достаточно, чтобы дать ее значение. К сожалению, мы не можем сделать этот выбор, потому что E [ X; P ] - это именно то значение, которое мы ищем! Однако этот теоретический лучший случай L * дает нам представление о том, что делает выборка по важности:

справа - один из бесконечно малых элементов, суммирующих E [ X ; P ]:

следовательно, хорошее изменение вероятности P ( L ) в выборке важности перераспределит закон X, так что частоты его выборок будут отсортированы непосредственно в соответствии с их весами в E [ X ; P ]. Отсюда и название «выборка по важности».

Выборка по важности часто используется в качестве интегратора Монте-Карло . Когда - равномерное распределение и , E [ X; P ] соответствует интегралу действительной функции .

Применение к вероятностному выводу [ править ]

Такие методы часто используются для оценки апостериорных плотностей или ожиданий в задачах оценки состояния и / или параметров в вероятностных моделях, которые слишком сложно обрабатывать аналитически, например, в байесовских сетях .

Приложение к моделированию [ править ]

Выборка по важности - это метод уменьшения дисперсии , который можно использовать в методе Монте-Карло . Идея выборки по важности заключается в том, что определенные значения входных случайных величин в моделировании оказывают большее влияние на оцениваемый параметр, чем другие. Если эти "важные" ценности подчеркиваются путем более частой выборки, то оценщикдисперсия может быть уменьшена. Следовательно, основная методология выборки по важности заключается в выборе распределения, которое «поощряет» важные ценности. Такое использование «смещенного» распределения приведет к смещению оценки, если оно применяется непосредственно в моделировании. Однако выходные данные моделирования взвешиваются, чтобы исправить использование смещенного распределения, и это гарантирует, что новая оценка выборки важности будет несмещенной. Вес задается отношением правдоподобия , то есть производной Радона – Никодима истинного основного распределения по отношению к смещенному распределению моделирования.

Фундаментальным вопросом при реализации моделирования выборки по важности является выбор смещенного распределения, которое поощряет важные области входных переменных. Выбор или разработка хорошего предвзятого распределения - это «искусство» выборки по важности. Наградой за хорошее распространение может быть огромная экономия времени выполнения; Наказанием за плохое распределение может быть более длительное время выполнения, чем при обычном моделировании Монте-Карло без выборки по важности.

Считайте выборкой и отношением правдоподобия, где - функция плотности (массы) вероятности желаемого распределения и - функция плотности (массы) вероятности смещенного / предложенного / выборочного распределения. Тогда проблема может быть охарактеризована путем выбора распределения выборки, которое минимизирует дисперсию масштабированной выборки:

Можно показать, что следующее распределение минимизирует указанную выше дисперсию: [1]

Обратите внимание, что когда эта дисперсия становится равной 0.

Математический подход [ править ]

Рассмотрите возможность оценки с помощью моделирования вероятности события , где - случайная величина с распределением и функцией плотности вероятности , где штрих обозначает производную . -Длина независимыми и одинаково распределенными (IID) последовательность генерируется из распределения , а число случайных величин , которые лежат выше порога подсчитываются. Случайная величина характеризуется биномиальным распределением

Можно показать, что и , значит, в пределе мы можем получить . Обратите внимание, что дисперсия мала, если . Выборка по важности связана с определением и использованием альтернативной функции плотности (для ), обычно называемой плотностью смещения, для имитационного эксперимента. Эта плотность позволяет событию происходить чаще, поэтому длина последовательности становится меньше для данной дисперсии оценки . В качестве альтернативы, для данного случая использование плотности смещения приводит к меньшей дисперсии, чем обычная оценка Монте-Карло. Исходя из определения , мы можем ввести, как показано ниже.

где

является отношением правдоподобия и называется весовой функцией. Последнее равенство в приведенном выше уравнении мотивирует оценку

Это беспристрастная выборочная оценка важности . То есть процедура оценки состоит в том, чтобы сгенерировать выборки iid из и для каждой выборки, которая превышает , оценка увеличивается на вес, оцененный на значении выборки. Результаты усреднены по испытаниям. Легко показать, что дисперсия оценщика выборки важности равна

Теперь задача выборки по важности фокусируется на нахождении такой плотности смещения , чтобы дисперсия оценки выборки по важности была меньше дисперсии общей оценки Монте-Карло. Для некоторой функции плотности смещения, которая минимизирует дисперсию и при определенных условиях уменьшает ее до нуля, она называется оптимальной функцией плотности смещения.

Обычные методы смещения [ править ]

Хотя существует много видов методов смещения, следующие два метода наиболее широко используются в приложениях выборки по важности.

Масштабирование [ править ]

Сдвиг вероятностной массы в область события путем положительного масштабирования случайной величины с числом больше единицы приводит к увеличению дисперсии (также среднего) функции плотности. Это приводит к более тяжелому хвосту плотности, что приводит к увеличению вероятности события. Масштабирование, вероятно, является одним из первых известных методов смещения, широко использовавшимся на практике. Он прост в реализации и обычно обеспечивает консервативный выигрыш от моделирования по сравнению с другими методами.

При выборке по важности с помощью масштабирования плотность моделирования выбирается как функция плотности масштабированной случайной величины , обычно для оценки вероятности хвоста. Путем трансформации

а весовая функция

Масштабирование сдвигает вероятностную массу в желаемую область события, но также толкает массу в дополнительную область, что нежелательно. Если - сумма случайных величин, распространение массы происходит в размерном пространстве. Следствием этого является уменьшение важности выборки для увеличения, и называется эффектом размерности. Современная версия выборки по важности с помощью масштабирования - это, например, так называемая сигма-масштабированная выборка (SSS), при которой выполняется множественный анализ Монте-Карло (MC) с различными коэффициентами масштабирования. В отличие от многих других высокодоходных методов оценки (таких как WCD для наихудшего случая) SSS не сильно страдает от проблемы размерности. Кроме того, адресация нескольких выходов MC не приводит к снижению эффективности. С другой стороны, как и WCD, SSS разработан только для гауссовых статистических переменных, и в отличие от WCD, метод SSS не предназначен для получения точных статистических углов. Другой недостаток SSS состоит в том, что работа MC с большими масштабными коэффициентами может стать затруднительной, например, из-за проблем сходимости модели и симулятора. Кроме того, в SSS мы сталкиваемся с сильным компромиссом смещения и дисперсии: использование крупномасштабных коэффициентов,мы получаем довольно стабильные результаты по урожайности, но чем больше масштабные коэффициенты, тем больше ошибка смещения. Если преимущества SSS не имеют большого значения для интересующего приложения, то часто другие методы более эффективны.

Перевод [ править ]

Другой простой и эффективный метод смещения использует преобразование функции плотности (и, следовательно, случайной величины), чтобы поместить большую часть ее вероятностной массы в область редких событий. Трансляция не страдает эффектом размерности и успешно используется в нескольких приложениях, связанных с моделированием цифровых систем связи . Часто это дает лучший выигрыш от моделирования, чем от масштабирования. При смещении путем перевода плотность моделирования определяется выражением

где - величина сдвига, которую следует выбрать, чтобы минимизировать дисперсию оценщика выборки важности.

Влияние сложности системы [ править ]

Основная проблема с выборкой по важности состоит в том, что проектирование хороших смещенных распределений усложняется по мере увеличения сложности системы. Сложные системы - это системы с большой памятью, поскольку сложная обработка нескольких входных данных намного проще. Эта размерность или память могут вызывать проблемы по трем причинам:

  • долгая память (серьезная межсимвольная интерференция (ISI))
  • неизвестная память ( декодеры Витерби )
  • возможно бесконечная память (адаптивные эквалайзеры)

В принципе, идеи выборки по важности остаются неизменными в этих ситуациях, но дизайн становится намного сложнее. Успешный подход к борьбе с этой проблемой состоит в том, чтобы разбить моделирование на несколько более мелких, более четко определенных подзадач. Затем стратегии выборки важности используются для решения каждой из более простых подзадач. Примерами методов для прерывания моделирования являются моделирование условий и событий ошибки (EES) и регенеративное моделирование.

Оценка выборки важности [ править ]

Чтобы определить успешные методы выборки по важности, полезно иметь возможность количественно оценить экономию времени выполнения за счет использования подхода выборки по важности. Обычно используется мера производительности , и это можно интерпретировать как коэффициент ускорения, с помощью которого оценщик выборки важности достигает той же точности, что и оценщик MC. Это должно быть вычислено эмпирически, поскольку отклонения оценки вряд ли будут аналитически возможны, если их среднее значение трудно поддается обработке. Другими полезными концепциями при количественной оценке оценки выборки важности являются границы дисперсии и понятие асимптотической эффективности. Одной из связанных мер является так называемый эффективный размер выборки (ESS) . [2]

Функция дисперсионной стоимости [ править ]

Дисперсия - не единственная возможная функция стоимости для моделирования, и другие функции стоимости, такие как среднее абсолютное отклонение, используются в различных статистических приложениях. Тем не менее, дисперсия является основной функцией затрат, рассматриваемой в литературе, вероятно, из-за использования дисперсии в доверительных интервалах и в показателе эффективности .

Связанная проблема заключается в том, что коэффициент переоценивает экономию времени выполнения из-за выборки важности, поскольку он не включает дополнительное время вычислений, необходимое для вычисления весовой функции. Следовательно, некоторые люди оценивают чистое улучшение времени выполнения различными способами. Возможно, более серьезные накладные расходы на выборку важности связаны со временем, затрачиваемым на разработку и программирование техники и аналитическое получение желаемой весовой функции.

Множественная и адаптивная выборка важности [ править ]

Когда различные распределения предложений ,, используются совместно для построения выборок , могут использоваться различные надлежащие весовые функции (например, см. [3] [4] [5] [6] ). В адаптивной настройке распределения предложений , и обновляются каждую итерацию алгоритма выборки адаптивной важности. Следовательно, поскольку используется совокупность плотностей предложений, можно использовать несколько подходящих комбинаций схем выборки и взвешивания. [7] [8] [9] [10] [11] [12] [13]

См. Также [ править ]

  • Метод Монте-Карло
  • Снижение дисперсии
  • Стратифицированная выборка
  • Рекурсивная стратифицированная выборка
  • Алгоритм VEGAS
  • Фильтр частиц - последовательный метод Монте-Карло, использующий выборку по важности.
  • Вспомогательное поле Монте-Карло
  • Отбор проб отбраковки
  • Переменный битрейт - обычное звуковое приложение с важностью дискретизации

Заметки [ править ]

  1. ^ Rubinstein, RY и Kroese, DP (2011). Моделирование и метод Монте-Карло (Том 707). Джон Вили и сыновья.
  2. ^ Мартино, Лука; Эльвира, Виктор; Лузада, Франциско (2017). «Эффективный размер выборки для выборки по важности на основе мер несоответствия». Обработка сигналов . 131 : 386–401. arXiv : 1602.03572 . DOI : 10.1016 / j.sigpro.2016.08.025 .
  3. ^ Вич, Эрик; Гибас, Леонидас Дж. (1 января 1995 г.). Оптимальное сочетание методов дискретизации для рендеринга Монте-Карло . Материалы 22-й Ежегодной конференции по компьютерной графике и интерактивным методам . СИГГРАФ '95. Нью-Йорк, Нью-Йорк, США: ACM. С.  419–428 . CiteSeerX 10.1.1.127.8105 . DOI : 10.1145 / 218380.218498 . ISBN  978-0-89791-701-8.
  4. ^ Оуэн, Искусство; Юрист И Чжоу (1 марта 2000 г.). «Безопасная и эффективная выборка по важности». Журнал Американской статистической ассоциации . 95 (449): 135–143. CiteSeerX 10.1.1.36.4536 . DOI : 10.1080 / 01621459.2000.10473909 . ISSN 0162-1459 .  
  5. ^ Эльвира, В .; Мартино, Л .; Luengo, D .; Бугалло, MF (2015-10-01). "Эффективные оценщики множественной важности выборки". Письма об обработке сигналов IEEE . 22 (10): 1757–1761. arXiv : 1505.05391 . Bibcode : 2015ISPL ... 22.1757E . DOI : 10,1109 / LSP.2015.2432078 . ISSN 1070-9908 . 
  6. Эльвира, Виктор; Мартино, Лука; Луенго, Дэвид; Бугалло, Моника Ф. (2017). «Улучшение населения Монте-Карло: альтернативные схемы взвешивания и повторной выборки». Обработка сигналов . 131 : 77–91. arXiv : 1607.02758 . DOI : 10.1016 / j.sigpro.2016.07.012 .
  7. ^ Cappé, O .; Guillin, A .; Марин, JM; Роберт, КП (2004-12-01). «Население Монте-Карло». Журнал вычислительной и графической статистики . 13 (4): 907–929. DOI : 10.1198 / 106186004X12803 . ISSN 1061-8600 . 
  8. ^ Мартино, L .; Эльвира, В .; Luengo, D .; Корандер, Дж. (2017-05-01). «Многоуровневая адаптивная выборка важности». Статистика и вычисления . 27 (3): 599–623. arXiv : 1505.04732 . DOI : 10.1007 / s11222-016-9642-5 . ISSN 0960-3174 . 
  9. ^ Каппе, Оливье; Дук, Рэндал; Гийен, Арно; Марин, Жан-Мишель; Роберт, Кристиан П. (25 апреля 2008 г.). «Адаптивная выборка по значимости в общих классах смеси». Статистика и вычисления . 18 (4): 447–459. arXiv : 0710.4242 . DOI : 10.1007 / s11222-008-9059-х . ISSN 0960-3174 . 
  10. ^ Корню, Жан-Мари; Марин, Жан-Мишель; Мира, Антониетта; Роберт, Кристиан П. (2012-12-01). «Адаптивная множественная выборка по важности». Скандинавский статистический журнал . 39 (4): 798–812. arXiv : 0907.1254 . DOI : 10.1111 / j.1467-9469.2011.00756.x . ISSN 1467-9469 . 
  11. ^ Мартино, L .; Эльвира, В .; Luengo, D .; Корандер, Дж. (1 августа 2015 г.). «Адаптивная выборка важности населения: уроки неопределенности». Транзакции IEEE по обработке сигналов . 63 (16): 4422–4437. Bibcode : 2015ITSP ... 63.4422M . CiteSeerX 10.1.1.464.9395 . DOI : 10.1109 / TSP.2015.2440215 . ISSN 1053-587X .  
  12. ^ Bugallo, Mónica F .; Мартино, Лука; Корандер, Юкка (01.12.2015). «Адаптивная выборка важности при обработке сигналов» . Цифровая обработка сигналов . Специальный выпуск в честь Уильяма Дж. (Билла) Фицджеральда. 47 : 36–49. DOI : 10.1016 / j.dsp.2015.05.014 .
  13. ^ Бугалло, MF; Эльвира, В .; Мартино, Л .; Luengo, D .; Miguez, J .; Джурич, П.М. (июль 2017 г.). «Адаптивная выборка по важности: прошлое, настоящее и будущее». Журнал обработки сигналов IEEE . 34 (4): 60–79. Bibcode : 2017ISPM ... 34 ... 60В . DOI : 10.1109 / msp.2017.2699226 . ISSN 1053-5888 . 

Ссылки [ править ]

  • Аруна, Бухари (2004). «Адаптивный метод Монте-Карло, метод уменьшения дисперсии». Методы Монте-Карло и их приложения . 10 (1): 1–24. DOI : 10.1515 / 156939604323091180 .
  • Баклью, Джеймс Антонио (2004). Введение в моделирование редких событий . Нью-Йорк: Springer-Verlag.
  • Doucet, A .; de Freitas, N .; Гордон, Н. (2001). Последовательные методы Монте-Карло на практике . Springer. ISBN 978-0-387-95146-1.
  • Феррари, М .; Беллини, С. (2001). Имитация выборки кодов турбо-продуктов . Международная конференция IEEE по коммуникациям . 9 . С. 2773–2777. DOI : 10.1109 / ICC.2001.936655 . ISBN 978-0-7803-7097-5.
  • Мазонка, Олег (2016). «Просто как Пи: метод выборки по важности» (PDF) . Справочный журнал . 16 .
  • Оберг, Томми (2001). Модуляция, обнаружение и кодирование . Нью-Йорк: Джон Вили и сыновья.
  • Нажмите, WH; Теукольский, С.А. Феттерлинг, Вашингтон; Фланнери, ВР (2007). «Раздел 7.9.1 Выборка по важности» . Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
  • Рипли, Б.Д. (1987). Стохастическое моделирование . Wiley & Sons.
  • Смит, П.Дж.; Шафи, М .; Гао, Х. (1997). «Быстрое моделирование: обзор методов выборки важности в системах связи». Журнал IEEE по избранным областям коммуникаций . 15 (4): 597–613. DOI : 10.1109 / 49.585771 .
  • Шринивасан, Р. (2002). Выборка по важности - Приложения в коммуникациях и обнаружении . Берлин: Springer-Verlag.

Внешние ссылки [ править ]

  • Домашняя страница последовательных методов Монте-Карло (фильтрация частиц) Кембриджского университета
  • Введение в выборку важности при моделировании редких событий European Journal of Physics. PDF-документ.
  • Адаптивные методы Монте-Карло для моделирования редких событий: адаптивные методы Монте-Карло для моделирования редких событий Winter Simulation Conference