Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В статистике и анализу данных прикладного программного обеспечения SegReg является свободным и удобным инструментом для линейного сегментированного регрессионного анализа для определения точки останова , где связь между зависимой переменной и независимой переменной резко меняется. [1]

Особенности [ править ]

Отпечаток экрана таблицы ввода
Сегментированная регрессия остатков по количеству поливов. Показаны доверительные интервалы .
Отпечаток стола Anova

SegReg позволяет вводить одну или две независимые переменные. Когда используются две переменные, он сначала определяет связь между зависимой переменной и наиболее влиятельной независимой переменной, а затем находит связь между остатками и второй независимой переменной. Остатки - это отклонения наблюдаемых значений зависимой переменной от значений, полученных с помощью сегментированной регрессии по первой независимой переменной.

Точка останова находится численно путем принятия ряда предварительных точек останова и выполнения линейной регрессии с обеих сторон от них. Предварительная точка останова, которая обеспечивает наибольший коэффициент детерминации (как параметр для подгонки линий регрессии к наблюдаемым значениям данных), выбирается в качестве истинной точки останова. Чтобы гарантировать, что линии по обе стороны от точки останова пересекаются друг с другом точно в точке останова, SegReg использует два метода и выбирает метод, наиболее подходящий.

SegReg распознает многие типы отношений и выбирает окончательный тип на основе статистических критериев, таких как значимость коэффициентов регрессии. Выходные данные SegReg предоставляют пояса статистической достоверности линий регрессии и блок достоверности для точки останова. [2] Можно выбрать уровень достоверности 90%, 95% и 98% достоверности.

Чтобы завершить заявления о достоверности, SegReg предоставляет дисперсионный анализ и таблицу Anova . [3]

На этапе ввода пользователь может указать предпочтение или исключение определенного типа. Предпочтение определенного типа принимается только в том случае, если оно статистически значимо, даже если значимость другого типа выше.

ILRI [4] предоставляет примеры применения для таких величин, как урожайность , глубина залегания и засоленность почвы .

Со списком публикаций, в которых используется SegReg, можно ознакомиться. [5]

Уравнения [ править ]

Когда присутствует только одна независимая переменная, результаты могут выглядеть так:

  • X <BP ==> Y = A 1 .X + B 1 + R Y
  • X> BP ==> Y = А 2. Х + В 2 + R Y

где BP - точка останова, Y - зависимая переменная, X - независимая переменная, A - коэффициент регрессии , B - константа регрессии, а R Y - остаток Y. Когда присутствуют две независимые переменные, результаты могут выглядеть следующим образом:

  • X <BP X   ==> Y = A 1 .X + B 1 + R Y
  • X> BP X   ==> Y = А 2. Х + В 2 + R Y
  • Z <BP Z   ==> R Y = C 1 .Z + D 1
  • Z> ВР Z   ==> R Y = C 2 .Z + D 2

где, кроме того, BP X - это BP X, BP Z - BP Z, Z - вторая независимая переменная, C - коэффициент регрессии , а D - константа регрессии для регрессии R Y на Z.

Подставляя выражения R Y из второй системы уравнений в первую, получаем:

  • X <BP X и Z <BP Z   ==> Y = A 1 .X + C 1 .Z + E 1
  • X <BP X и Z> BP Z   ==> Y = A 1 .X + C 2 .Z + E 2
  • X> BP X и Z <BP Z   ==> Y = A 2 .X + C 1 .Z + E 3
  • X> BP X и Z> BP Z   ==> Y = A 2 .X + C 2 .Z + E 4

где E 1 = B 1 + D 1 , E 2 = B 1 + D 2 , E 3 = B 2 + D 1 и E 4 = B 2 + D 2 .

Альтернатива [ править ]

Отпечаток экрана, данные, показывающие уровень толерантности (порог) урожая пшеницы к засолению почвы, выраженный в электропроводности как ECe = 7,1 дСм / м.

В качестве альтернативы регрессии по обе стороны от контрольной точки (порога) метод частичной регрессии может использоваться для поиска максимально возможного горизонтального участка с незначительным коэффициентом регрессии, за пределами которого имеется определенный наклон со значительным коэффициентом регрессии. Альтернативный метод может использоваться для сегментированных регрессий Типа 3 и Типа 4, когда есть намерение определить уровень допуска зависимой переменной для различных количеств независимой, объясняющей переменной (также называемой предиктором). [6]

Прилагаемый рисунок относится к тем же данным, которые показаны на синем графике в информационном окне вверху этой страницы. Здесь пшеница имеет толерантность к засолению почвы до уровня EC = 7,1 дСм / м вместо 4,6 на синем рисунке. Однако соответствие данных за порогом не так хорошо, как на синем рисунке, который был сделан с использованием принципа минимизации суммы квадратов отклонений наблюдаемых значений от линий регрессии по всей области объясняющей переменной. X (т.е. максимизация коэффициента детерминации), тогда как частичная регрессия предназначена только для поиска точки, в которой горизонтальный тренд переходит в наклонный.

См. Также [ править ]

  • Сегментированная регрессия

Ссылки [ править ]

  1. ^ Статистические принципы сегментированной регрессии с точкой разрыва
  2. ^ определение доверительного интервала точки излома
  3. ^ F-тесты в дисперсионном анализе для сегментированной линейной регрессии
  4. ^ Исследования дренажа на фермерских полях: анализ данных , 2002. Вклад в проект «Жидкое золото» Международного института мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. [1]
  5. ^ Список публикаций с использованием SegReg
  6. ^ Бесплатное программное обеспечение для частичной регрессии