Регрессия Деминга

Регрессия Деминга. Красные линии показывают ошибку как по x, так и по y . Это отличается от традиционного метода наименьших квадратов, который измеряет ошибку параллельно оси y . Показанный случай с отклонениями, измеренными перпендикулярно, возникает, когда ошибки в x и y имеют одинаковую дисперсию.

В статистике , Деминг регрессии , названный в честь У. Эдвардс Деминг , является модель ошибок в-переменных , которая пытается найти линию наилучшего соответствия для двумерного массива данных. Он отличается от простой линейной регрессии тем, что учитывает ошибки наблюдений как по оси x, так и по оси y . Это частный случай метода наименьших квадратов , который позволяет использовать любое количество предикторов и более сложную структуру ошибок.

Регрессия Деминга эквивалентна оценке максимального правдоподобия модели ошибок в переменных, в которой ошибки для двух переменных считаются независимыми и нормально распределенными , а отношение их дисперсий, обозначаемое δ , известно. ^[1] На практике это соотношение можно оценить из соответствующих источников данных; однако процедура регрессии не учитывает возможные ошибки при оценке этого отношения.

Регрессия Деминга лишь немного сложнее вычислить по сравнению с простой линейной регрессией . Большинство пакетов статистических программ, используемых в клинической химии, предлагают регрессию Деминга.

Модель была первоначально введена Адкоком (1878 г.), который рассматривал случай δ = 1, а затем, в более общем смысле, Куммеллом (1879 г.) с произвольным δ . Однако их идеи оставались в значительной степени незамеченными более 50 лет, пока они не были возрождены Купманом (1937), а затем еще больше распространены Демингом (1943) . Последняя книга стала настолько популярной в клинической химии и смежных областях, что в этих областях метод даже получил название регрессии Деминга . ^[2]

Спецификация [ править ]

Предположим, что доступные данные ( y _i , x _i ) - это измеренные наблюдения «истинных» значений ( y _i * , x _i * ), которые лежат на линии регрессии:

{\ displaystyle {\ begin {align} y_ {i} & = y_ {i} ^ {*} + \ varepsilon _ {i}, \\ x_ {i} & = x_ {i} ^ {*} + \ eta _ {я}, \ end {выровнено}}}

где ошибки ε и η независимы и отношение их дисперсий предполагается известным:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

На практике, Дисперсия и параметры зачастую неизвестны, что усложняет оценку . Обратите внимание, что если метод измерения и является одинаковым, эти отклонения, вероятно, будут равны, так в данном случае. $x$ $y$ $\delta$ $x$ $y$ $\delta =1$

Мы стремимся найти линейку «наиболее подходящих»

y^{*}=\beta _{0}+\beta _{1}x^{*},

таким образом, чтобы взвешенная сумма квадратов остатков модели была минимизирована: ^[3]

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\varepsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

См. Полный вывод в Jensen (2007) ^[4] .

Решение [ править ]

Решение может быть выражено через выборочные моменты второй степени. То есть сначала мы вычисляем следующие величины (все суммы идут от i = 1 до n ):

{\begin{aligned}&{\overline {x}}={\frac {1}{n}}\sum x_{i},\quad {\overline {y}}={\frac {1}{n}}\sum y_{i},\\&s_{xx}={\tfrac {1}{n-1}}\sum (x_{i}-{\overline {x}})^{2},\\&s_{xy}={\tfrac {1}{n-1}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}}),\\&s_{yy}={\tfrac {1}{n-1}}\sum (y_{i}-{\overline {y}})^{2}.\end{aligned}}

Наконец, оценки параметров модели методом наименьших квадратов будут ^[5]

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

Ортогональная регрессия [ править ]

Для случая равных дисперсий ошибок, т. Е. Когда регрессия Деминга становится ортогональной регрессией : она минимизирует сумму квадратов перпендикулярных расстояний от точек данных до линии регрессии . В этом случае обозначьте каждое наблюдение как точку z _j на комплексной плоскости (т. Е. Точка ( x _j , y _j ) записывается как z _j = x _j + iy _j, где i - мнимая единица ). Обозначим как Z сумму квадратов разностей точек данных от центроида. $\delta =1$ (также обозначается в комплексных координатах), это точка, горизонтальное и вертикальное положение которой являются средними значениями точек данных. Тогда: ^[6]

Если Z = 0, то каждая линия, проходящая через центроид, является линией наилучшего ортогонального соответствия [это неверно - возьмите прямоугольник с центром в начале координат, представляющий четыре точки данных и выровненный по горизонтальной и вертикальной осям. Если ширина больше высоты, то лучше подходит ось x, чем ось y].
Если Z ≠ 0, ортогональная линия регрессии проходит через центроид и параллельна вектору от начала координат до . ${\sqrt {Z}}$

Тригонометрические представление ортогональной линии регрессии было дано Кулидж в 1913 году ^[7]

Заявление [ править ]

В случае трех неколлинеарных точек на плоскости треугольник с этими точками в качестве вершин имеет уникальный эллипс Штейнера, который касается сторон треугольника в их серединах. Большая ось этого эллипса падает на ортогональной линии регрессии для трех вершин. ^[8]

См. Также [ править ]

Линия фитинга

Заметки [ править ]

^ ( Линнет 1993 )
^ Корнблит, Гохман (1979)
^ Фуллер, глава 1.3.3
^ Дженсен, Андерс Кристиан (2007)
^ Glaister (2001)
^ Минда и Фелпс (2008), теорема 2.3.
^ Кулидж, JL (1913).
^ Минда и Фелпс (2008), следствие 2.4.

Ссылки [ править ]

Адкок, Р. Дж. (1878). «Проблема наименьших квадратов». Аналитик . Анналы математики. 5 (2): 53–54. DOI : 10.2307 / 2635758 . JSTOR 2635758 .
Кулидж, JL (1913). «Два геометрических приложения математики наименьших квадратов». American Mathematical Monthly . 20 (6): 187–190. DOI : 10.2307 / 2973072 .
Корнблит, П.Дж.; Гохман, Н. (1979). «Неправильные коэффициенты регрессии методом наименьших квадратов». Clin. Chem . 25 (3): 432–438. PMID 262186 .
Деминг, WE (1943). Статистическая корректировка данных . Wiley, NY (издание Dover Publications, 1985). ISBN 0-486-64685-8.
Фуллер, Уэйн А. (1987). Модели ошибок измерения . ISBN компании John Wiley & Sons, Inc. 0-471-86187-1.
Глэйстер, П. (2001). «Повторное посещение наименьших квадратов». Математический вестник . 85 : 104–107. DOI : 10.2307 / 3620485 .
Дженсен, Андерс Кристиан (2007). «Регрессия Деминга, пакет MethComp» (PDF) .
Купманс, TC (1937). Линейный регрессионный анализ экономических временных рядов . ДеЭрвен Ф. Бон, Харлем, Нидерланды.
Kummell, CH (1879). «Редукция уравнений наблюдения, которые содержат более одной наблюдаемой величины». Аналитик . Анналы математики. 6 (4): 97–105. DOI : 10.2307 / 2635646 . JSTOR 2635646 .
Линнет, К. (1993). «Оценка регрессионных процедур для сравнительных исследований методов» . Клиническая химия . 39 (3): 424–432. PMID 8448852 .
Минда, Д .; Фелпс, С. (2008). «Треугольники, эллипсы и кубические многочлены» (PDF) . Американский математический ежемесячник . 115 (8): 679–689. Руководство по ремонту 2456092 .^{[ постоянная мертвая ссылка ]}

[1] ( Линнет 1993 )

[2] Корнблит, Гохман (1979)

[3] Фуллер, глава 1.3.3

[4] Дженсен, Андерс Кристиан (2007)

[5] Glaister (2001)

[6] Минда и Фелпс (2008), теорема 2.3.

[7] Кулидж, JL (1913).

[8] Минда и Фелпс (2008), следствие 2.4.

[1]