Это хорошая статья. Для получения дополнительной информации нажмите здесь.
Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Метод максимального интервала пытается найти такую ​​функцию распределения, чтобы интервалы D ( i ) были примерно одинаковой длины. Это достигается за счет максимизации их среднего геометрического .

В статистических данных , оценка максимального расстояния ( СКО или ССП ), или максимальное произведение интервал оценки (MPS) , представляет собой способ оценки параметров одномерной статистической модели . [1] Способ требует максимизации среднего геометрического от расстояний в данных, которые являются различия между значениями интегральной функции распределения на соседних точек данных.

Концепция, лежащая в основе метода, основана на интегральном преобразовании вероятностей , в котором набор независимых случайных выборок, полученных из любой случайной величины, должен в среднем быть равномерно распределен относительно кумулятивной функции распределения случайной величины. Метод MPS выбирает значения параметров, которые делают наблюдаемые данные как можно более однородными, в соответствии с конкретной количественной мерой однородности.

Один из наиболее распространенных методов оценки параметров распределения на основе данных, метод максимального правдоподобия (MLE), может давать сбой в различных случаях, например при использовании определенных смесей непрерывных распределений. [2] В этих случаях может оказаться успешным метод оценки максимального интервала.

Помимо его использования в чистых математиках и статистике, пробные применения метода были сообщены с использованием данных из таких областей, как гидрология , [3] эконометрика , [4] магнитно - резонансной томографии , [5] и других. [6]

История и использование [ править ]

Метод MSE был разработан независимо Расселом Ченгом и Ником Амином из Института науки и технологий Уэльского университета и Бо Раннеби из Шведского университета сельскохозяйственных наук . [2] Авторы объяснили, что из-за интегрального преобразования вероятности при истинном параметре «интервал» между каждым наблюдением должен быть равномерно распределен. Это означало бы, что разница между значениями кумулятивной функции распределения при последовательных наблюдениях должна быть одинаковой. Это тот случай, который максимизирует среднее геометрическое таких интервалов, поэтому решение для параметров, которые максимизируют среднее геометрическое, приведет к достижению «наилучшего» соответствия, как определено таким образом.Раннеби (1984) обосновал этот метод, продемонстрировав, что это оценка дивергенции Кульбака – Лейблера , аналогичная оценке максимального правдоподобия , но с более надежными свойствами для некоторых классов задач.

Существуют определенные распределения, особенно с тремя или более параметрами, чьи вероятности могут стать бесконечными на определенных путях в пространстве параметров . Использование максимальной вероятности для оценки этих параметров часто не работает, когда один параметр стремится к определенному значению, которое приводит к бесконечности вероятности, что делает другие параметры несовместимыми. Однако метод максимальных интервалов, зависящий от разницы между точками кумулятивной функции распределения, а не индивидуальных точек правдоподобия, не имеет этой проблемы и будет возвращать достоверные результаты по гораздо более широкому набору распределений. [1]

Распределения, которые имеют тенденцию к проблемам правдоподобия, часто используются для моделирования физических явлений. Холл и др. (2004) стремятся проанализировать методы борьбы с наводнениями, для чего требуются точные модели воздействия наводнений на реки. Распределения, которые лучше моделируют эти эффекты, представляют собой трехпараметрические модели, которые страдают от проблемы бесконечного правдоподобия, описанной выше, что привело к исследованию Холлом процедуры максимального разнесения. Вонг и Ли (2006) , сравнивая метод с максимальной вероятностью, использовали различные наборы данных, начиная от набора самых старых возрастов смерти в Швеции между 1905 и 1958 годами до набора, содержащего максимальные годовые скорости ветра.

Определение [ править ]

Для iid случайной выборки { x 1 , ..., x n } размера n из одномерного распределения с непрерывной кумулятивной функцией распределения F ( x ; θ 0 ), где θ 0 ∈ Θ - неизвестный параметр, который необходимо оценить , пусть { x (1) , ..., x ( n ) } - соответствующая упорядоченная выборка, которая является результатом сортировки всех наблюдений от наименьшего к наибольшему. Для удобства обозначим также x (0)= −∞ и x ( n +1) = + ∞.

Определите интервалы как «промежутки» между значениями функции распределения в соседних упорядоченных точках: [7]

Тогда максимальное расстояние между оценщик от & thetas ; 0 определяется как значение , которое максимизирует логарифм от среднего геометрического выборочных расстояний:

В силу неравенства среднего арифметического и геометрического , функция S n ( θ ) ограничена сверху величиной −ln ( n +1), поэтому максимум должен существовать, по крайней мере, в смысле супремума .

Отметим, что некоторые авторы определяют функцию S n ( θ ) несколько иначе. В частности, Ranneby (1984) умножает каждый D я на коэффициенте ( п + 1), тогда как Ченг и Стивенс (1989) опускает 1 / п +1 фактора в передней части суммы и добавить - знак в «» чтобы превратить максимизацию в минимизацию. Поскольку это константы по отношению к θ , модификации не изменяют положение максимума функции S n .

Примеры [ править ]

В этом разделе представлены два примера расчета оценки максимального интервала.

Пример 1 [ править ]

Графики логарифмического значения λ для упрощенного примера при оценке правдоподобия и интервала. Идентифицируются значения, для которых максимизируются и вероятность, и интервал, оценки максимального правдоподобия и максимального интервала.

Предположим, что два значения x (1) = 2, x (2) = 4 были взяты из экспоненциального распределения F ( x ; λ ) = 1 - e - , x ≥ 0 с неизвестным параметром λ > 0. Для построения MSE мы должны сначала найти интервалы:

Процесс продолжается путем нахождения λ, которое максимизирует среднее геометрическое значение столбца «разность». Используя соглашение, игнорирующее получение корня ( n +1) -го, это превращается в максимизацию следующего произведения: (1 - e −2 λ ) · (e −2 λ - e −4 λ ) · (e −4 λ ). Полагая μ = e −2 λ , задача сводится к нахождению максимума μ 5 −2 μ 4 + μ 3 . Дифференцируя, μ должно удовлетворять 5 μ 4 −8 μ3 +3 μ 2 = 0. Это уравнение имеет корни 0, 0,6 и 1. Поскольку μ на самом деле является e −2 λ , оно должно быть больше нуля, но меньше единицы. Поэтому единственное приемлемое решение -

что соответствует экспоненциальному распределению со средним значением 1 / Л ≈ 3.915. Для сравнения: оценка максимального правдоподобия λ является обратной величиной выборочного среднего, 3, поэтому λ MLE = ⅓ ≈ 0,333.

Пример 2 [ править ]

Предположим, что { x (1) , ..., x ( n ) } - это упорядоченная выборка из равномерного распределения U ( a , b ) с неизвестными конечными точками a и b . Кумулятивная функция распределения равна F ( x ; a , b ) = ( x - a ) / ( b - a ), когда x ∈ [ a , b ]. Таким образом, индивидуальные интервалы задаются выражением

Вычисляя среднее геометрическое и затем логарифмируя, статистика S n будет равна

Здесь только три члена зависят от параметров a и b . Дифференцируя по этим параметрам и решая полученную линейную систему, максимальные оценки интервалов будут

Это, как известно, несмещенные оценки с равномерно минимальной дисперсией (UMVU) для непрерывного равномерного распределения. [1] Для сравнения, оценки максимального правдоподобия для этой проблемы и подпружинены и имеют более высокий средний квадрат ошибки .

Свойства [ править ]

Последовательность и эффективность [ править ]

Распределение
График J-образной функции плотности и соответствующего ей распределения. Сдвинуты Вейбулла с масштабного параметра 15, в параметре формы 0,5, и параметра сдвига 10. Плотность асимптотически стремится к бесконечности при х приближается к 10, что делает оценки непоследовательной других параметров. Обратите внимание, что на графике распределения нет точки перегиба .

Оценщик максимального интервала является последовательным оценщиком в том смысле, что он сходится по вероятности к истинному значению параметра θ 0 , когда размер выборки увеличивается до бесконечности. [2] Согласованность оценки максимального интервала сохраняется при гораздо более общих условиях, чем для оценок максимального правдоподобия . В частности, в случаях, когда базовое распределение имеет J-образную форму, максимальная вероятность не удастся, если MSE будет успешным. [1] Примером J-образной плотности является распределение Вейбулла , в частности, сдвинутый Вейбулл , с параметром формы меньше 1. Плотность будет стремиться к бесконечности, посколькуx приближается к параметру местоположения, делая оценки других параметров несовместимыми.

Оценщики максимального интервала также, по крайней мере, асимптотически эффективны, как и оценщики максимального правдоподобия, если последние существуют. Однако MSE могут существовать в тех случаях, когда MLE отсутствуют. [1]

Чувствительность [ править ]

Оценщики максимального разнесения чувствительны к близко разнесенным наблюдениям, особенно к привязкам. [8] Учитывая

мы получили

Когда связи происходят из-за нескольких наблюдений, повторяющиеся интервалы (те, которые в противном случае были бы нулевыми) должны быть заменены соответствующей вероятностью. [1] То есть, следует заменить на , как и

с тех пор .

Когда связи возникают из-за ошибки округления, Cheng & Stephens (1989) предлагают другой метод устранения эффектов. [примечание 1] Учитывая r связанных наблюдений от x i до x i + r −1 , пусть δ представляет ошибку округления . Тогда все истинные значения должны попадать в диапазон . Соответствующие точки распределения должны теперь находиться между и . Ченг и Стивенс предлагают предположить, что округленные значения равномерно распределены в этом интервале, определяя

Метод MSE также чувствителен к вторичной кластеризации. [8] Одним из примеров этого явления является случай, когда считается, что набор наблюдений исходит из одного нормального распределения , но на самом деле происходит из смеси нормалей с разными средними значениями. Второй пример - это когда считается, что данные получены из экспоненциального распределения , но на самом деле получены из гамма-распределения . В последнем случае в нижней части хвоста могут быть меньшие расстояния. Высокое значение M ( θ ) указывало бы на этот вторичный эффект кластеризации и предполагало бы необходимость более внимательного изучения данных. [8]

Тест Морана [ править ]

Статистика S n ( θ ) также является формой статистики Морана или Морана-Дарлинга, M ( θ ), которую можно использовать для проверки согласия . [примечание 2] Было показано, что статистика, определяемая как

является асимптотически нормальным , и что существует хи-квадрат приближение для малых выборок. [8] В случае, когда мы знаем истинный параметр , Cheng & Stephens (1989) показывают, что статистика имеет нормальное распределение с

где γ - постоянная Эйлера – Маскерони , приблизительно равная 0,57722. [заметка 3]

Распределение также можно аппроксимировать распределением , где

,

в котором

и где следует распределение хи-квадрат со степенями свободы . Следовательно, чтобы проверить гипотезу о том, что случайная выборка значений происходит из распределения , можно вычислить статистику . Затем следует отклонить со значимостью, если значение больше критического значения соответствующего распределения хи-квадрат. [8]

Где θ 0 оценивается , Cheng & Stephens (1989) показали, что оно имеет такое же асимптотическое среднее значение и дисперсию, что и в известном случае. Однако используемый тестовый статистический показатель требует добавления поправочного члена смещения и составляет:

где - количество параметров в оценке.

Обобщенный максимальный интервал [ править ]

Альтернативные меры и интервалы [ править ]

Раннеби и Экстрём (1997) обобщили метод MSE для аппроксимации других мер, помимо меры Кульбака – Лейблера. Экстрём (1997) дополнительно расширил этот метод, чтобы исследовать свойства оценок с использованием интервалов более высокого порядка, где интервал m- порядка будет определяться как .

Многовариантные распределения [ править ]

Раннеби и др. (2005) обсуждают расширенные методы максимального интервала для многомерного случая. Поскольку нет естественного порядка для , они обсуждают два альтернативных подхода: геометрический подход, основанный на ячейках Дирихле, и вероятностный подход, основанный на метрике «шар ближайшего соседа».

См. Также [ править ]

  • Дивергенция Кульбака – Лейблера.
  • Максимальная вероятность
  • Распределение вероятностей

Заметки [ править ]

  1. ^ Похоже, что в статье допущены незначительные опечатки. Например, в разделе 4.2 уравнение (4.1), заменяющее округление, не должно иметь логарифмического члена. В разделе 1 уравнение (1.2)определяется как сам интервал ипредставляет собой отрицательную сумму логарифмов. Еслина этом шаге регистрируется, результат всегда ≤ 0, так как разница между двумя соседними точками на кумулятивном распределении всегда ≤ 1, и строго <1, если только две точки на подставках. Кроме того, в разделе 4.3 на стр. 392 расчет показывает, чтооценка MPS составляет 6,87, а не стандартное отклонение. - редактор
  2. ^ Литература называет соответствующую статистику статистикой Морана или Морана-Дарлинга. Например, Cheng & Stephens (1989) анализируют форму, вкоторойопределено, как указано выше. Вонг и Ли (2006) также используют ту же форму. Однако Beirlant & al. (2001) использует формус дополнительным множителемвнутри записанного суммирования. Дополнительные факторы будут иметь значение с точки зрения ожидаемого среднего и дисперсии статистики. Для единообразия в этой статье будет по-прежнему использоваться форма Cheng & Amin / Wong & Li. - редактор
  3. ^ Вонг и Ли (2006) не учитывают постоянную Эйлера – Маскерони в своем описании. - редактор

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Б с д е е Cheng & Амин (1983)
  2. ^ a b c Раннеби (1984)
  3. ^ Холл и др. (2004)
  4. ^ Анатолья & Косенки (2004)
  5. ^ Pieciak (2014)
  6. ^ Вонг и Ли (2006)
  7. ^ Пайк (1965)
  8. ^ а б в г д Ченг и Стивенс (1989)

Процитированные работы [ править ]

  • Анатольев, Станислав; Косенок, Григорий (2005). «Альтернатива максимальной вероятности на основе расстояний» (PDF) . Эконометрическая теория . 21 (2): 472–476. CiteSeerX  10.1.1.494.7340 . DOI : 10.1017 / S0266466605050255 . Проверено 21 января 2009 .
  • Beirlant, J .; Dudewicz, EJ; Györfi, L .; ван дер Меулен, EC (1997). «Непараметрическая оценка энтропии: обзор» (PDF) . Международный журнал математических и статистических наук . 6 (1): 17–40. ISSN  1055-7490 . Архивировано из оригинального (PDF) 5 мая 2005 года . Проверено 31 декабря 2008 . Примечание: связанный документ является обновленной версией 2001 года.
  • Cheng, RCH; Амин, НАК (1983). «Оценка параметров в непрерывных одномерных распределениях со смещенным началом координат». Журнал Королевского статистического общества, Series B . 45 (3): 394–403. DOI : 10.1111 / j.2517-6161.1983.tb01268.x . ISSN  0035-9246 . JSTOR  2345411 .CS1 maint: ref=harv (link)
  • Cheng, RCH; Стивенс, Массачусетс (1989). «Тест согласия с использованием статистики Морана с оценочными параметрами». Биометрика . 76 (2): 386–392. DOI : 10.1093 / Biomet / 76.2.385 .CS1 maint: ref=harv (link)
  • Экстрём, Магнус (1997). «Обобщенные оценки максимального интервала» . Университет Умео, факультет математики . 6 . ISSN  0345-3928 . Архивировано из оригинального 14 февраля 2007 года . Проверено 30 декабря 2008 .CS1 maint: ref=harv (link)
  • Холл, MJ; ван ден Богаард, HFP; Фернандо, RC; Mynett, AE (2004). «Построение доверительных интервалов для частотного анализа с использованием методов передискретизации» . Гидрология и науки о Земле . 8 (2): 235–246. DOI : 10.5194 / Hess-8-235-2004 . ISSN  1027-5606 .
  • Печак, Томаш (2014). Оценка максимального интервала шума в данных МРТ с одиночной катушкой (PDF) . Международная конференция IEEE по обработке изображений. Париж. С. 1743–1747 . Проверено 7 июля 2015 .
  • Пайк, Рональд (1965). «Промежутки». Журнал Королевского статистического общества, Series B . 27 (3): 395–449. DOI : 10.1111 / j.2517-6161.1965.tb00602.x . ISSN  0035-9246 . JSTOR  2345793 .CS1 maint: ref=harv (link)
  • Раннеби, Бо (1984). «Метод максимального интервала. Метод оценки, относящийся к методу максимального правдоподобия». Скандинавский статистический журнал . 11 (2): 93–112. ISSN  0303-6898 . JSTOR  4615946 .CS1 maint: ref=harv (link)
  • Раннеби, Бо; Экстрём, Магнус (1997). «Максимальные оценки интервалов на основе различных показателей» . Университет Умео, факультет математики . 5 . ISSN  0345-3928 . Архивировано из оригинального 14 февраля 2007 года . Проверено 30 декабря 2008 .CS1 maint: ref=harv (link)
  • Раннеби, Бо; Джаммаламадакаб, С. Рао; Тетеруковский, Алексей (2005). «Оценка максимального интервала для многомерных наблюдений» (PDF) . Журнал статистического планирования и вывода . 129 (1-2): 427–446. DOI : 10.1016 / j.jspi.2004.06.059 . Проверено 31 декабря 2008 .
  • Вонг, TST; Ли, В.К. (2006). «Примечание об оценке распределений экстремальных значений с использованием максимального произведения расстояний». Временные ряды и смежные темы: памяти Чинг-Цзун Вэя . Конспект лекций Института математической статистики - Серия монографий. Бичвуд, Огайо: Институт математической статистики. С. 272–283. arXiv : math / 0702830v1 . DOI : 10.1214 / 074921706000001102 . ISBN 978-0-940600-68-3.CS1 maint: ref=harv (link)