Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Сегментированная регрессия , также известная как кусочная регрессия или регрессия с ломаной палкой , представляет собой метод регрессионного анализа, в котором независимая переменная разбивается на интервалы, а отдельный отрезок линии соответствует каждому интервалу. Сегментированный регрессионный анализ также может выполняться на многомерных данных путем разделения различных независимых переменных. Сегментированная регрессия полезна, когда независимые переменные, сгруппированные в разные группы, демонстрируют разные отношения между переменными в этих регионах. Границы между сегментами - это точки останова .

Сегментированная линейная регрессия - это сегментированная регрессия, при которой отношения в интервалах получают с помощью линейной регрессии .

Сегментированная линейная регрессия, два сегмента [ править ]

1-я конечность горизонтальная
1-я конечность наклонена вверх
1-я конечность наклонена вниз

Сегментированная линейная регрессия с двумя сегментами, разделенными точкой останова, может быть полезна для количественной оценки резкого изменения функции отклика (Yr) изменяющегося влияющего фактора ( x ). Точка останова может интерпретироваться как критическое , безопасное или пороговое значение, выше или ниже которого возникают (нежелательные) эффекты. Точка останова может быть важна при принятии решения [1]

На рисунках показаны некоторые из полученных результатов и типов регрессии.

Сегментированный регрессионный анализ основан на наличии набора данных ( y, x ), в котором y является зависимой переменной, а x - независимой переменной .

Метод наименьших квадратов, применяемый отдельно к каждому сегменту, с помощью которого две линии регрессии строятся таким образом, чтобы они максимально соответствовали набору данных, при этом сводя к минимуму сумму квадратов различий (SSD) между наблюдаемыми ( y ) и вычисленными (Yr) значениями. зависимой переменной приводит к следующим двум уравнениям:

  • Yr = A 1 . x + K 1     для x <BP (точка останова)
  • Yr = A 2 . x + K 2     для x > BP (точка останова)

куда:

Yr - ожидаемое (прогнозируемое) значение y для определенного значения x ;
A 1 и A 2 - коэффициенты регрессии (указывающие наклон отрезков линии);
K 1 и K 2 - константы регрессии (обозначающие точку пересечения по оси y ).

Данные могут отображать множество типов или тенденций [2], см. Рисунки.

Метод также дает два коэффициента корреляции (R):

  •     для x <BP (точка останова)

и

  •     для x > BP (точка останова)

куда:

это минимизированный SSD на сегмент

и

Y a1 и Y a2 - средние значения y в соответствующих сегментах.

При определении наиболее подходящей тенденции необходимо провести статистические тесты , чтобы убедиться, что эта тенденция является надежной (значимой).

Когда не может быть обнаружена никакая значимая точка останова, необходимо вернуться к регрессии без точки останова.

Пример [ править ]

Сегментированная линейная регрессия, тип 3b

Для синего рисунка справа, который показывает соотношение между урожайностью горчицы (Yr = Ym, т / га) и засолением почвы ( x = Ss, выраженной как электропроводность почвенного раствора EC в дСм / м), найдено, что : [3]

BP = 4,93, A 1 = 0, K 1 = 1,74, A 2 = -0,129, K 2 = 2,38, R 1 2 = 0,0035 (незначительно), R 2 2 = 0,395 (значимо) и:

  • Ym = 1,74 т / га для Ss <4,93 (контрольная точка)
  • Ym = −0,129 Ss + 2,38 т / га для Ss> 4,93 (контрольная точка)

Это указывает на то, что засоление почвы <4,93 дСм / м является безопасным, а засоление почвы> 4,93 дСм / м снижает урожайность при 0,129 т / га на единицу увеличения засоления почвы.

На рисунке также показаны доверительные интервалы и неопределенность, подробно описанные ниже.

Процедуры тестирования [ править ]

Пример временного ряда, тип 5
Пример таблицы ANOVA: в этом случае введение точки разрыва очень важно.

Для определения типа тренда используются следующие статистические тесты :

  1. значимость точки останова (BP) путем выражения BP как функции коэффициентов регрессии A 1 и A 2 и средних Y 1 и Y 2 данных y и средних X 1 и X 2 данных x (слева и справа of BP), используя законы распространения ошибок при сложении и умножении для вычисления стандартной ошибки (SE) BP, и применяя t-критерий Стьюдента
  2. значимость A 1 и A 2 с применением t-распределения Стьюдента и стандартной ошибки SE для A 1 и A 2
  3. значимость разницы A 1 и A 2 с применением t-распределения Стьюдента с использованием SE их разности.
  4. значимость разницы Y 1 и Y 2 с применением t-распределения Стьюдента с использованием SE их разности.
  5. Более формальный статистический подход к проверке наличия точки останова - это проверка псевдо-оценки, которая не требует оценки сегментированной линии. [4]

Кроме того, используются коэффициент корреляции всех данных (Ra), коэффициент детерминации или коэффициент объяснения, доверительные интервалы функций регрессии и анализ ANOVA . [5]

Коэффициент детерминации для всех данных (Cd), который должен быть максимальным в условиях, установленных тестами значимости, находится из:

где Yr - ожидаемое (прогнозируемое) значение y в соответствии с предыдущими уравнениями регрессии, а Ya - среднее значение всех значений y .

Коэффициент Cd колеблется от 0 (без объяснения) до 1 (полное объяснение, идеальное совпадение).
В чистой несегментированной линейной регрессии значения Cd и Ra 2 равны. В сегментированной регрессии Cd должен быть значительно больше, чем Ra 2, чтобы оправдать сегментацию.

Оптимальное значение останова может быть найдено , например , что коэффициент Cd составляет максимум .

Диапазон без эффекта [ править ]

Иллюстрация диапазона от X = 0 до X = 7,85, выше которого нет эффекта.

Сегментированная регрессия часто используется для определения того, в каком диапазоне объясняющая переменная (X) не влияет на зависимую переменную (Y), в то время как за пределами досягаемости есть четкий ответ, будь то положительный или отрицательный. Достижение отсутствия эффекта может быть найдено в начальной части домена X или, наоборот, в его последней части. Для анализа «без эффекта» применение метода наименьших квадратов для сегментированного регрессионного анализа [6]может быть не самым подходящим методом, потому что цель скорее состоит в том, чтобы найти самый длинный участок, на котором отношение YX может считаться имеющим нулевой наклон, в то время как за пределами досягаемости наклон значительно отличается от нуля, но знание о наилучшем значении этого наклона не материал. Методом определения диапазона отсутствия эффекта является прогрессивная частичная регрессия [7] по всему диапазону, расширяющая диапазон небольшими шагами до тех пор, пока коэффициент регрессии не станет значительно отличаться от нуля.

На следующем рисунке точка разрыва находится при X = 7,9, тогда как для тех же данных (см. Синий рисунок выше для урожайности горчицы) метод наименьших квадратов дает точку разрыва только при X = 4,9. Последнее значение ниже, но соответствие данных за точкой разрыва лучше. Следовательно, какой метод необходимо использовать, будет зависеть от цели анализа.

См. Также [ править ]

  • Чау-тест
  • Простая регрессия
  • Линейная регрессия
  • Обычный метод наименьших квадратов
  • Многомерные сплайны адаптивной регрессии
  • Локальная регрессия
  • Дизайн разрывов регрессии
  • Пошаговая регрессия
  • SegReg (программное обеспечение) для сегментированной регрессии

Ссылки [ править ]

  1. ^ Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175-224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] , под номером. 20 или напрямую в формате PDF: [2]
  2. ^ Исследования дренажа на полях фермеров: анализ данных . Часть проекта «Жидкое золото» Международного института мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать как PDF: [3]
  3. ^ RJOosterbaan, DPSharma, KNSingh и KVGKRao, 1990, Растениеводство и засоленность почвы: оценка полевых данных из Индии с помощью сегментированной линейной регрессии . В: Материалы симпозиума по осушению земель для контроля засоления в засушливых и полузасушливых регионах, 25 февраля - 2 марта 1990 г., Каир, Египет, Vol. 3, Сессия V, с. 373 - 383.
  4. ^ Muggeo, VMR (2016). «Тестирование с нежелательным параметром присутствует только в качестве альтернативы: подход на основе баллов с применением к сегментированному моделированию». Журнал статистических вычислений и моделирования . 86 (15): 3059–3067. DOI : 10.1080 / 00949655.2016.1149855 .
  5. ^ Статистическая значимость сегментированной линейной регрессии с контрольной точкой с использованием дисперсионного анализа и F-тестов . Загрузите из [4] под номером. 13 или напрямую в формате PDF: [5]
  6. ^ Сегментированный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [6]
  7. ^ Частичный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [7]