Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В прикладной статистики , регрессионного-Кригинг (РК) представляет собой метод пространственного прогнозирования , который сочетает в регрессии зависимой переменной на вспомогательных переменных (например, параметров , полученных из цифрового моделирования высот, дистанционного зондирования / изображений и тематических карт) с Кригинг регрессии остатки. Математически он эквивалентен методу интерполяции, который по-разному называется универсальным кригингом и кригингом с внешним дрейфом , где вспомогательные предикторы используются непосредственно для вычисления весов кригинга. [1]

BLUP для пространственных данных [ править ]

Универсальная модель пространственной вариационной схемы.

Регрессия-кригинг - это реализация лучшего линейного несмещенного предсказателя (BLUP) для пространственных данных, то есть лучшего линейного интерполятора, предполагающего универсальную модель пространственной вариации . Matheron (1969) предположил, что значение целевой переменной в некотором месте может быть смоделировано как сумма детерминированных и стохастических компонентов: [2]

которую он назвал универсальной моделью пространственного изменения . Как детерминированные, так и стохастические компоненты пространственной вариации можно моделировать отдельно. Комбинируя два подхода, получаем:

где - подобранная детерминированная часть, - интерполированный остаток, - оцененные коэффициенты детерминированной модели ( это оцененная точка пересечения ), - веса кригинга, определенные структурой пространственной зависимости остатка, и где - остаток в местоположении . Коэффициенты регрессии можно оценить по выборке с помощью некоторого метода подбора, например, обычного наименьших квадратов (OLS) или, оптимально, с использованием обобщенного метода наименьших квадратов (GLS): [3]

где - вектор оцененных коэффициентов регрессии, - ковариационная матрица остатков, - это матрица предикторов в точках выборки, и - это вектор измеренных значений целевой переменной. Оценка коэффициентов регрессии GLS фактически является частным случаем географически взвешенной регрессии. В этом случае веса определяются объективно, чтобы учесть пространственную автокорреляцию между остатками.

После того, как детерминированная часть вариации была оценена (часть регрессии), остаток можно интерполировать с помощью кригинга и добавить к оцененному тренду. Оценка остатков - это итеративный процесс: сначала детерминированная часть вариации оценивается с использованием OLS, затем функция ковариации остатков используется для получения коэффициентов GLS. Затем они используются для повторного вычисления остатков, на основании которых вычисляется обновленная ковариационная функция, и так далее. Хотя многие геостатисты рекомендуют эту процедуру в качестве надлежащей, Китанидис (1994) показал, что использование ковариационной функции, полученной из остатков МНК (т.е. одной итерации), часто бывает удовлетворительным, поскольку она недостаточно отличается от функции, полученной после нескольких итерации; т.е. это не сильно влияет на окончательные прогнозы.Minasny и McBratney (2007) сообщают о схожих результатах - кажется, что использование более качественных данных более важно, чем использование более сложных статистических методов.[4]

В матричной записи регрессионный кригинг обычно записывается так: [5]

где - прогнозируемое значение в местоположении , - вектор предикторов и - вектор весов кригинга, используемых для интерполяции остатков. Модель РК считается лучшим линейным предсказателем пространственных данных . [5] [6] Он имеет дисперсию прогноза, которая отражает положение новых местоположений (экстраполяция) как в географическом, так и в пространственном пространстве:

где - вариация порога, - вектор ковариаций остатков в непосещаемом местоположении.

Дерево решений для выбора подходящей модели пространственного прогнозирования.

Многие (гео) статистики считают, что существует только одна модель наилучшего линейного несмещенного прогнозирования для пространственных данных (например, регрессионно-кригинг), а все другие методы, такие как обычный кригинг, корреляция с окружающей средой, усреднение значений по полигонам или обратная интерполяция расстояний, можно рассматривать как его частные случаи. Если остатки не показывают пространственной автокорреляции (чистый эффект самородка), регрессионно-кригинг сходится к чистой множественной линейной регрессии, поскольку ковариационная матрица () становится единичной матрицей. Аналогичным образом, если целевая переменная не показывает корреляции с вспомогательными предикторами, модель регрессии-кригинга сводится к обычной модели кригинга, поскольку детерминированная часть равна (глобальному) среднему значению. Следовательно, чистый кригинг и чистую регрессию следует рассматривать только как частные случаи регрессионного кригинга (см. Рисунок).

РК и Великобритания / КЕД [ править ]

В геостатистической литературе используется много разных терминов для обозначения одинаковых или, по крайней мере, очень похожих методов. Это сбивает пользователей с толку и отвлекает их от использования правильной техники для своих картографических проектов. Фактически, универсальный кригинг, кригинг с внешним дрейфом и регрессионный кригинг - это в основном одна и та же техника.

Matheron (1969) первоначально назвал технику Le krigeage universel , однако эта техника была задумана как обобщенный случай кригинга, когда тренд моделируется как функция координат. Таким образом, многие авторы оставляют за собой термин универсальный кригинг (UK) для случая, когда в качестве предикторов используются только координаты. Если детерминированная часть вариации ( дрейф ) определяется извне как линейная функция некоторых вспомогательных переменных, а не координат, термин кригинг с внешним дрейфом(KED) является предпочтительным (согласно Hengl 2007, «О регрессионном кригинге: от уравнений к тематическим исследованиям»). В случае UK или KED прогнозы делаются так же, как и в случае кригинга, с той разницей, что ковариационная матрица остатков расширяется вспомогательными предикторами. Однако дрейф и невязки также можно оценить отдельно, а затем суммировать. Эта процедура была предложена Ахмедом и др. (1987) и Odeh et al. (1995) позже назвал его регрессионным кригингом, в то время как Goovaerts (1997) использует термин кригинг с моделью тренда для обозначения семейства интерполяторов и называет РК простым кригингом с различными локальными средними . Минасни и Макбратни (2007) просто называют эту технику эмпирическим наилучшим линейным непредвзятым предсказателем, т.е. E-BLUP.. [7] [8] [9] [4]

В случае KED прогнозы в новых местоположениях делаются:

за

для или в матричной записи:

где - целевая переменная, s - переменные-предикторы, т. е. значения в новом местоположении , - это вектор весов KED ( ), - количество предикторов и - это вектор наблюдений в основных местоположениях. Веса KED решаются с использованием расширенных матриц:

где - вектор решенных весов, - множители Лагранжа, - это расширенная ковариационная матрица остатков и - это расширенный вектор ковариаций в новом месте.

В случае KED расширенная ковариационная матрица остатков выглядит следующим образом (Webster and Oliver, 2007; стр. 183): [10]

и вот так:

Следовательно, KED выглядит точно так же, как обычный кригинг, за исключением того, что ковариационная матрица / вектор расширяются значениями вспомогательных предикторов.

Хотя на первый взгляд KED кажется более простым в вычислительном отношении, чем RK, параметры вариограммы для KED также должны оцениваться по остаткам регрессии, что требует отдельного этапа моделирования регрессии. Эта регрессия должна быть GLS из-за вероятной пространственной корреляции между остатками. Обратите внимание, что многие аналитики вместо этого используют остатки OLS, которые могут не слишком отличаться от остатков GLS. Однако они не являются оптимальными, если существует какая-либо пространственная корреляция, и на самом деле они могут сильно отличаться для точек сгруппированных выборок или если количество выборок относительно невелико ( ).

Ограничением KED является неустойчивость расширенной матрицы в случае, если ковариата не изменяется плавно в пространстве. RK имеет то преимущество, что он явно отделяет оценку тренда от пространственного прогнозирования остатков, позволяя использовать произвольно сложные формы регрессии, а не простые линейные методы, которые можно использовать с KED. Кроме того, это позволяет раздельную интерпретацию двух интерполированных компонентов. Акцент на регрессии важен еще и потому, что подгонка детерминированной части вариации (регрессии) часто более выгодна для качества окончательных карт, чем подгонка стохастической части (остатки).

Программное обеспечение для запуска регрессионного кригинга [ править ]

Пример общей основы для пространственного прогнозирования переменных почвы на основе регрессионного кригинга. [9]

Регрессион-кригинг может быть автоматизирован, например, в среде статистических вычислений R , с использованием пакета gstat и / или geoR. Типичные входы / выходы включают:

ВХОДЫ:

  • Набор интерполяции (точечная карта) - в исходных точках;
  • Минимальные и максимальные ожидаемые значения и точность измерения ( );
  • Непрерывные предикторы (растровая карта) - ; в новых непосещаемых местах
  • Дискретные предикторы (полигональная карта);
  • Набор проверки (точечная карта) - (необязательно);
  • Шаг запаздывания и предельное расстояние (требуется для соответствия вариограмме);

ВЫХОДЫ:

  • Карта прогнозов и относительных ошибок прогнозов;
  • Лучшее подмножество предикторов и значимость корреляции (скорректированный R-квадрат);
  • Параметры модели вариограммных (например , , )
  • Коэффициенты модели дрейфа GLS;
  • Точность предсказания в точках проверки: средняя ошибка предсказания (MPE) и среднеквадратичная ошибка предсказания (RMSPE);

Применение регрессионного кригинга [ править ]

Регрессионный кригинг используется в различных прикладных областях, от метеорологии, климатологии, картирования почв, геологического картирования, моделирования распределения видов и т. Д. Единственным требованием для использования регрессионного кригинга по сравнению, например, с обычным кригингом, является наличие одного или нескольких ковариатных слоев, которые в значительной степени коррелируют с интересующей характеристикой. Некоторые общие применения регрессионного кригинга:

  • Геостатистическое картирование: регрессионно-кригинг позволяет использовать гибридные геостатистические методы для моделирования, например, пространственного распределения свойств почвы.
  • Уменьшение масштаба карт: регрессионный кригинг может использоваться в качестве основы для уменьшения масштаба различных существующих карт с координатной сеткой. В этом случае ковариантные слои должны быть доступны с лучшим разрешением (которое соответствует интенсивности выборки), чем исходные точечные данные. [11]
  • Распространение ошибок : смоделированные карты, созданные с использованием модели регрессии-кригинга, могут использоваться для тестирования сценариев и для оценки распространяемой неопределенности.
Моделирование концентраций цинка, полученных с использованием регрессионной модели Кригинга. В этой модели используется одна непрерывная (расстояние до реки) и одна категориальная (частота наводнений) ковариаты. Код, использованный для создания этих карт, доступен здесь .

Алгоритмы на основе регрессии-кригинга играют все более важную роль в геостатистике, потому что количество возможных ковариат увеличивается с каждым днем. [1] Например, ЦМР теперь доступны из ряда источников. Подробные и точные изображения топографии теперь можно заказать в таких системах дистанционного зондирования, как SPOT и ASTER ; SPOT5 предлагает стереоскопический сканер высокого разрешения (HRS), который можно использовать для создания ЦМР с разрешением до 5 м. [12] Более мелкие перепады высот также можно получить с помощью бортовых лазерных сканеров. Стоимость данных либо бесплатна, либо снижается по мере развития технологий. НАСА записало большую часть топографии мира вМиссия Shuttle Radar Topographic в 2000 г. [13] С лета 2004 г. эти данные стали доступны (например, через ftp USGS ) почти для всего земного шара с разрешением около 90 м (для североамериканского континента с разрешением около 30 м). Аналогичным образом, мультиспектральные изображения MODIS доступны для бесплатного скачивания с разрешением 250 м. Большой бесплатный репозиторий изображений Landsat также доступен для загрузки через Global Land Cover Facility (GLCF).

Ссылки [ править ]

  1. ^ a b Pebesma, Edzer J (1 июля 2006 г.). «Роль внешних переменных и баз данных ГИС в геостатистическом анализе» (PDF) . Сделки в ГИС . 10 (4): 615–632. DOI : 10.1111 / j.1467-9671.2006.01015.x .
  2. ^ Matheron, Жорж (1969). "Часть 1 Cahiers du Centre de morphologie mathématique de Fontainebleau". Le krigeage universel . Высшая национальная школа шахт Парижа.
  3. ^ Кресси, Ноэль (2012). Статистика для пространственно-временных данных . Хобокен, Нью-Джерси: Уайли. ISBN 9780471692744.
  4. ^ а б Минасный, Будиман; Макбрэтни, Алекс Б. (31 июля 2007 г.). «Пространственное прогнозирование свойств почвы с использованием EBLUP с ковариационной функцией Матерна». Геодермия . 140 (4): 324–336. DOI : 10.1016 / j.geoderma.2007.04.028 .
  5. ^ a b Кристенсен, Рональд (2001). Расширенное линейное моделирование: многомерные, временные ряды и пространственные данные; непараметрическая регрессия и максимизация поверхности отклика (2-е изд.). Нью-Йорк, NY [ua]: Springer. ISBN 9780387952963.
  6. Перейти ↑ Goldberger, AS (1962). «Лучший линейный объективный прогноз в модели обобщенной линейной регрессии». Журнал Американской статистической ассоциации . 57 (298): 369–375. DOI : 10.1080 / 01621459.1962.10480665 . JSTOR 2281645 . 
  7. ^ Ахмед, Шакил; Де Марсили, Гислен (1 января 1987 г.). «Сравнение геостатистических методов оценки проницаемости с использованием данных о проницаемости и удельной емкости». Исследование водных ресурсов . 23 (9): 1717. DOI : 10,1029 / WR023i009p01717 .
  8. ^ Odeh, IOA; McBratney, AB; Читлборо, ди-джей (31 июля 1995 г.). «Дальнейшие результаты по прогнозированию свойств почвы по атрибутам местности: гетеротопный кокригинг и регрессионный кригинг». Геодермия . 67 (3–4): 215–226. DOI : 10.1016 / 0016-7061 (95) 00007-B .
  9. ^ a b Хенгл, Томислав; Heuvelink, Джерард Б.М.; Штейн, Альфред (30 апреля 2004 г.). «Общая основа для пространственного прогнозирования переменных почвы на основе регрессионного кригинга» (PDF) . Геодермия . 120 (1–2): 75–93. DOI : 10.1016 / j.geoderma.2003.08.018 .
  10. ^ Вебстер, Ричард; Оливер, Маргарет А. (2007). Геостатистика для ученых-экологов (2-е изд.). Чичестер: Вайли. ISBN 9780470028582.
  11. ^ Хенгл, Томислав; Баят, Бранислав; Благоевич, Драган; Рейтер, Ханнес И. (1 декабря 2008 г.). «Геостатистическое моделирование рельефа с использованием вспомогательных карт» (PDF) . Компьютеры и науки о Земле . 34 (12): 1886–1899. DOI : 10.1016 / j.cageo.2008.01.005 .
  12. ^ Toutin, Thierry (30 апреля 2006). «Генерация DSM из SPOT-5 в треке HRS и поперечных стереоданных HRG с использованием пространственной триангуляции и автокалибровки». Журнал ISPRS по фотограмметрии и дистанционному зондированию . 60 (3): 170–181. DOI : 10.1016 / j.isprsjprs.2006.02.003 .
  13. ^ Rabus, Бернхард; Эйнедер, Майкл; Рот, Ахим; Бамлер, Ричард (31 января 2003 г.). «Миссия по исследованию топографии радара шаттла - новый класс цифровых моделей рельефа, полученных с помощью космических радаров». Журнал ISPRS по фотограмметрии и дистанционному зондированию . 57 (4): 241–262. DOI : 10.1016 / S0924-2716 (02) 00124-7 .

Дальнейшее чтение [ править ]

  • Глава 2, Регрессионный кригинг , Томислав Хенгл (2009), Практическое руководство по геостатистическому картированию , 291 стр., ISBN 978-90-9024981-0 . [1] 
  • Хенгл Т., Хевелинк ГБМ, Росситер Д.Г. (2007). «О регрессии-кригинге: от уравнений к тематическим исследованиям». Компьютеры и науки о Земле . 33 (10): 1301–1315. DOI : 10.1016 / j.cageo.2007.05.001 .CS1 maint: uses authors parameter (link)

Внешние ссылки [ править ]

  • Пакет Gstat (реализует KED)
  • Пакет GeoR (реализует KED)