Сегментированная регрессия

Регрессивный анализ
Часть серии по

Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общий Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовский многомерный
Фон
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброту соответствия Студентизованный остаток Теорема Гаусса – Маркова
Математический портал
v т е

Сегментированная регрессия , также известная как кусочная регрессия или регрессия с ломаной палкой , представляет собой метод регрессионного анализа, в котором независимая переменная разбивается на интервалы, а отдельный отрезок линии соответствует каждому интервалу. Сегментированный регрессионный анализ также может выполняться на многомерных данных путем разделения различных независимых переменных. Сегментированная регрессия полезна, когда независимые переменные, сгруппированные в разные группы, демонстрируют разные отношения между переменными в этих регионах. Границы между сегментами - это точки останова .

Сегментированная линейная регрессия - это сегментированная регрессия, при которой отношения в интервалах получают с помощью линейной регрессии .

Сегментированная линейная регрессия, два сегмента [ править ]

1-я конечность горизонтальная

1-я конечность наклонена вверх

1-я конечность наклонена вниз

Сегментированная линейная регрессия с двумя сегментами, разделенными точкой останова, может быть полезна для количественной оценки резкого изменения функции отклика (Yr) изменяющегося влияющего фактора ( x ). Точка останова может интерпретироваться как критическое , безопасное или пороговое значение, выше или ниже которого возникают (нежелательные) эффекты. Точка останова может быть важна при принятии решения ^[1]

На рисунках показаны некоторые из полученных результатов и типов регрессии.

Сегментированный регрессионный анализ основан на наличии набора данных ( y, x ), в котором y является зависимой переменной, а x - независимой переменной .

Метод наименьших квадратов, применяемый отдельно к каждому сегменту, с помощью которого две линии регрессии строятся таким образом, чтобы они максимально соответствовали набору данных, при этом сводя к минимуму сумму квадратов различий (SSD) между наблюдаемыми ( y ) и вычисленными (Yr) значениями. зависимой переменной приводит к следующим двум уравнениям:

Yr = A ₁ . x + K ₁ для x <BP (точка останова)
Yr = A ₂ . x + K ₂ для x > BP (точка останова)

куда:

Yr - ожидаемое (прогнозируемое) значение y для определенного значения x ;

A ₁ и A ₂ - коэффициенты регрессии (указывающие наклон отрезков линии);

K ₁ и K ₂ - константы регрессии (обозначающие точку пересечения по оси y ).

Данные могут отображать множество типов или тенденций ^[2], см. Рисунки.

Метод также дает два коэффициента корреляции (R):

${\ displaystyle R_ {1} ^ {2} = 1 - {\ frac {\ sum (y-Y_ {r}) ^ {2}} {\ sum (y-Y_ {a1}) ^ {2}}} }$ для x <BP (точка останова)

и

${\ displaystyle R_ {2} ^ {2} = 1 - {\ frac {\ sum (y-Y_ {r}) ^ {2}} {\ sum (y-Y_ {a2}) ^ {2}}} }$ для x > BP (точка останова)

куда:

{\ Displaystyle \ сумма (у-Y_ {г}) ^ {2}}

это минимизированный SSD на сегмент

и

Y _a1 и Y _a2 - средние значения y в соответствующих сегментах.

При определении наиболее подходящей тенденции необходимо провести статистические тесты , чтобы убедиться, что эта тенденция является надежной (значимой).

Когда не может быть обнаружена никакая значимая точка останова, необходимо вернуться к регрессии без точки останова.

Пример [ править ]

Сегментированная линейная регрессия, тип 3b

Для синего рисунка справа, который показывает соотношение между урожайностью горчицы (Yr = Ym, т / га) и засолением почвы ( x = Ss, выраженной как электропроводность почвенного раствора EC в дСм / м), найдено, что : ^[3]

BP = 4,93, A ₁ = 0, K ₁ = 1,74, A ₂ = -0,129, K ₂ = 2,38, R ₁² = 0,0035 (незначительно), R ₂² = 0,395 (значимо) и:

Ym = 1,74 т / га для Ss <4,93 (контрольная точка)
Ym = −0,129 Ss + 2,38 т / га для Ss> 4,93 (контрольная точка)

Это указывает на то, что засоление почвы <4,93 дСм / м является безопасным, а засоление почвы> 4,93 дСм / м снижает урожайность при 0,129 т / га на единицу увеличения засоления почвы.

На рисунке также показаны доверительные интервалы и неопределенность, подробно описанные ниже.

Процедуры тестирования [ править ]

Пример временного ряда, тип 5

Пример таблицы ANOVA: в этом случае введение точки разрыва очень важно.

Для определения типа тренда используются следующие статистические тесты :

значимость точки останова (BP) путем выражения BP как функции коэффициентов регрессии A ₁ и A ₂ и средних Y ₁ и Y ₂ данных y и средних X ₁ и X ₂ данных x (слева и справа of BP), используя законы распространения ошибок при сложении и умножении для вычисления стандартной ошибки (SE) BP, и применяя t-критерий Стьюдента
значимость A ₁ и A _{2 с} применением t-распределения Стьюдента и стандартной ошибки SE для A ₁ и A ₂
значимость разницы A ₁ и A _{2 с} применением t-распределения Стьюдента с использованием SE их разности.
значимость разницы Y ₁ и Y _{2 с} применением t-распределения Стьюдента с использованием SE их разности.
Более формальный статистический подход к проверке наличия точки останова - это проверка псевдо-оценки, которая не требует оценки сегментированной линии. ^[4]

Кроме того, используются коэффициент корреляции всех данных (Ra), коэффициент детерминации или коэффициент объяснения, доверительные интервалы функций регрессии и анализ ANOVA . ^[5]

Коэффициент детерминации для всех данных (Cd), который должен быть максимальным в условиях, установленных тестами значимости, находится из:

$C_{d}=1-{\sum (y-Y_{r})^{2} \over \sum (y-Y_{a})^{2}}$

где Yr - ожидаемое (прогнозируемое) значение y в соответствии с предыдущими уравнениями регрессии, а Ya - среднее значение всех значений y .

Коэффициент Cd колеблется от 0 (без объяснения) до 1 (полное объяснение, идеальное совпадение).
В чистой несегментированной линейной регрессии значения Cd и Ra ² равны. В сегментированной регрессии Cd должен быть значительно больше, чем Ra ^2, чтобы оправдать сегментацию.

Оптимальное значение останова может быть найдено , например , что коэффициент Cd составляет максимум .

Диапазон без эффекта [ править ]

Иллюстрация диапазона от X = 0 до X = 7,85, выше которого нет эффекта.

Сегментированная регрессия часто используется для определения того, в каком диапазоне объясняющая переменная (X) не влияет на зависимую переменную (Y), в то время как за пределами досягаемости есть четкий ответ, будь то положительный или отрицательный. Достижение отсутствия эффекта может быть найдено в начальной части домена X или, наоборот, в его последней части. Для анализа «без эффекта» применение метода наименьших квадратов для сегментированного регрессионного анализа ^[6]может быть не самым подходящим методом, потому что цель скорее состоит в том, чтобы найти самый длинный участок, на котором отношение YX может считаться имеющим нулевой наклон, в то время как за пределами досягаемости наклон значительно отличается от нуля, но знание о наилучшем значении этого наклона не материал. Методом определения диапазона отсутствия эффекта является прогрессивная частичная регрессия ^[7] по всему диапазону, расширяющая диапазон небольшими шагами до тех пор, пока коэффициент регрессии не станет значительно отличаться от нуля.

На следующем рисунке точка разрыва находится при X = 7,9, тогда как для тех же данных (см. Синий рисунок выше для урожайности горчицы) метод наименьших квадратов дает точку разрыва только при X = 4,9. Последнее значение ниже, но соответствие данных за точкой разрыва лучше. Следовательно, какой метод необходимо использовать, будет зависеть от цели анализа.

См. Также [ править ]

Чау-тест
Простая регрессия
Линейная регрессия
Обычный метод наименьших квадратов
Многомерные сплайны адаптивной регрессии
Локальная регрессия
Дизайн разрывов регрессии
Пошаговая регрессия
SegReg (программное обеспечение) для сегментированной регрессии

Ссылки [ править ]

^ Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175-224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] , под номером. 20 или напрямую в формате PDF: [2]
^ Исследования дренажа на полях фермеров: анализ данных . Часть проекта «Жидкое золото» Международного института мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать как PDF: [3]
^ RJOosterbaan, DPSharma, KNSingh и KVGKRao, 1990, Растениеводство и засоленность почвы: оценка полевых данных из Индии с помощью сегментированной линейной регрессии . В: Материалы симпозиума по осушению земель для контроля засоления в засушливых и полузасушливых регионах, 25 февраля - 2 марта 1990 г., Каир, Египет, Vol. 3, Сессия V, с. 373 - 383.
^ Muggeo, VMR (2016). «Тестирование с нежелательным параметром присутствует только в качестве альтернативы: подход на основе баллов с применением к сегментированному моделированию». Журнал статистических вычислений и моделирования . 86 (15): 3059–3067. DOI : 10.1080 / 00949655.2016.1149855 .
^ Статистическая значимость сегментированной линейной регрессии с контрольной точкой с использованием дисперсионного анализа и F-тестов . Загрузите из [4] под номером. 13 или напрямую в формате PDF: [5]
^ Сегментированный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [6]
^ Частичный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [7]

[1] Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175-224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] , под номером. 20 или напрямую в формате PDF: [2]

[2] Исследования дренажа на полях фермеров: анализ данных . Часть проекта «Жидкое золото» Международного института мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать как PDF: [3]

[3] RJOosterbaan, DPSharma, KNSingh и KVGKRao, 1990, Растениеводство и засоленность почвы: оценка полевых данных из Индии с помощью сегментированной линейной регрессии . В: Материалы симпозиума по осушению земель для контроля засоления в засушливых и полузасушливых регионах, 25 февраля - 2 марта 1990 г., Каир, Египет, Vol. 3, Сессия V, с. 373 - 383.

[4] Muggeo, VMR (2016). «Тестирование с нежелательным параметром присутствует только в качестве альтернативы: подход на основе баллов с применением к сегментированному моделированию». Журнал статистических вычислений и моделирования . 86 (15): 3059–3067. DOI : 10.1080 / 00949655.2016.1149855 .

[5] Статистическая значимость сегментированной линейной регрессии с контрольной точкой с использованием дисперсионного анализа и F-тестов . Загрузите из [4] под номером. 13 или напрямую в формате PDF: [5]

[6] Сегментированный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [6]

[7] Частичный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [7]