Мультиколлинеарность

В статистике , мультиколлинеарность (также коллинеарность ) представляет собой явление , при котором один предикторе переменных в множественной регрессии модели может быть линейно предсказан от другихов с существенной степенью точности. В этой ситуации оценки коэффициентов множественной регрессии могут изменяться беспорядочно в ответ на небольшие изменения в модели или данных. Мультиколлинеарность не снижает предсказательную силу или надежность модели в целом, по крайней мере, в пределах выборки данных; это влияет только на вычисления относительно отдельных предикторов. То есть многомерная регрессионная модель с коллинеарными предикторами может указывать, насколько хорошо весь набор предикторов предсказывает переменную результата , но она может не давать достоверных результатов о каком-либо отдельном предикторе или о том, какие предикторы являются избыточными по отношению к другим.

Обратите внимание, что в формулировках предположений, лежащих в основе регрессионного анализа, таких как обычный метод наименьших квадратов , фраза «нет мультиколлинеарности» обычно относится к отсутствию идеальной мультиколлинеарности, которая является точной (нестохастической) линейной зависимостью между предикторами. В таком случае матрица данных имеет менее полный ранг , и поэтому матрицу моментов нельзя инвертировать . В этих обстоятельствах для общей линейной модели обычной оценки методом наименьших квадратов не существует. ${\ displaystyle X}$ ${\ Displaystyle X ^ {\ mathsf {T}} X}$ $y=X\beta +\epsilon$ ${\hat {\beta }}_{OLS}=(X^{\mathsf {T}}X)^{-1}X^{\mathsf {T}}y$

В любом случае мультиколлинеарность является характеристикой матрицы данных, а не базовой статистической модели .

Определение [ править ]

Коллинеарность - это линейная связь между двумя независимыми переменными . Две переменные идеально коллинеарны, если между ними существует точная линейная зависимость. Например, и идеально коллинеарны, если существуют параметры и такие, что для всех наблюдений i мы имеем $X_{1}$ $X_{2}$ $\lambda _{0}$ $\lambda _{1}$

X_{2i}=\lambda _{0}+\lambda _{1}X_{1i}.

Мультиколлинеарность относится к ситуации, в которой более двух независимых переменных в модели множественной регрессии сильно линейно связаны. У нас есть идеальная мультиколлинеарность, если, например, как в приведенном выше уравнении, корреляция между двумя независимыми переменными равна 1 или -1. На практике мы редко сталкиваемся с идеальной мультиколлинеарностью в наборе данных. Чаще проблема мультиколлинеарности возникает, когда существует приблизительная линейная зависимость между двумя или более независимыми переменными.

Математически набор переменных является полностью мультиколлинеарным, если между некоторыми переменными существует одно или несколько точных линейных отношений. Например, у нас может быть

\lambda _{0}+\lambda _{1}X_{1i}+\lambda _{2}X_{2i}+\cdots +\lambda _{k}X_{ki}=0

выполняется для всех наблюдений i , где - константы, а это i- ^е наблюдение по k- ^й объясняющей переменной. Мы можем изучить одну проблему, вызванную мультиколлинеарностью, исследуя процесс попытки получить оценки для параметров уравнения множественной регрессии. $\lambda _{k}$ $X_{ki}$

Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\cdots +\beta _{k}X_{ki}+\varepsilon _{i}.

В обычных наименьших квадратов оценки вовлекают обращения матрицы

X^{T}X

куда

X={\begin{bmatrix}1&X_{11}&\cdots &X_{k1}\\\vdots &\vdots &&\vdots \\1&X_{1N}&\cdots &X_{kN}\end{bmatrix}}

представляет собой матрицу размером N × ( k +1), где N - количество наблюдений, а k - количество независимых переменных (при этом N должно быть больше или равно k +1). Если между независимыми переменными существует точная линейная связь (совершенная мультиколлинеарность), по крайней мере, один из столбцов X является линейной комбинацией других, и поэтому ранг X (и, следовательно, X ^T X) меньше k +1, и матрица X ^T X не будет обратимой.

Идеальная мультиколлинеарность довольно часто встречается при работе с необработанными наборами данных, которые часто содержат избыточную информацию. Однако после выявления и устранения избыточностей часто остаются почти мультиколлинеарные переменные из-за корреляций, присущих изучаемой системе. В таком случае, вместо приведенного выше уравнения, у нас есть это уравнение в модифицированной форме с ошибкой : $v_{i}$

\lambda _{0}+\lambda _{1}X_{1i}+\lambda _{2}X_{2i}+\cdots +\lambda _{k}X_{ki}+v_{i}=0.

В этом случае нет точной линейной связи между переменными, но переменные почти полностью мультиколлинеарны, если дисперсия мала для некоторого набора значений для 's. В этом случае матрица X ^T X имеет инверсию, но плохо обусловлена, так что данный компьютерный алгоритм может или не может быть в состоянии вычислить приближенное обратное, и если это так, полученная вычисленная обратная величина может быть очень чувствительной к незначительные отклонения в данных (из-за увеличенного эффекта либо ошибки округления, либо незначительных изменений в точках выборки данных) и поэтому могут быть очень неточными или сильно зависеть от выборки. $X_{j}$ $v_{i}$ $\lambda$

Обнаружение [ править ]

Признаки того, что в модели может присутствовать мультиколлинеарность, включают следующее:

Значительные изменения в оценочных коэффициентах регрессии при добавлении или удалении переменной-предиктора
Незначительные коэффициенты регрессии для затронутых переменных в множественной регрессии, но отклонение совместной гипотезы о том, что все эти коэффициенты равны нулю (с использованием F- теста )
Если многомерная регрессия обнаруживает незначительный коэффициент конкретного объяснителя, но простая линейная регрессия объясняемой переменной по этой объясняющей переменной показывает, что ее коэффициент значительно отличается от нуля, эта ситуация указывает на мультиколлинеарность в многомерной регрессии.
Некоторые авторы предложили формальную толерантность к обнаружению или коэффициент инфляции дисперсии (VIF) для мультиколлинеарности: где - коэффициент детерминации регрессии объяснителя j для всех других объяснителей. Допуск менее 0,20 или 0,10 и / или VIF 5 или 10 и выше указывает на проблему мультиколлинеарности. ^[1]
$\mathrm {tolerance} =1-R_{j}^{2},\quad \mathrm {VIF} ={\frac {1}{\mathrm {tolerance} }},$
$R_{j}^{2}$
Тест Фаррара – Глаубера : ^[2] Если оказывается, что переменные ортогональны, мультиколлинеарность отсутствует; если переменные не ортогональны, то есть хотя бы некоторая степень мультиколлинеарности. С. Роберт Уичерс утверждал, что тест частичной корреляции Фаррара – Глаубера неэффективен в том смысле, что данная частичная корреляция может быть совместима с различными паттернами мультиколлинеарности. ^[3] Тест Фаррара – Глаубера также подвергался критике со стороны других исследователей. ^[4]^[5]
Проверка числа условий : стандартным показателем плохой обусловленности в матрице является индекс состояния. Это будет означать, что инверсия матрицы численно нестабильна с числами конечной точности (стандартные компьютерные числа с плавающей запятой и двойные ). Это указывает на потенциальную чувствительность вычисленной обратной величины к небольшим изменениям исходной матрицы. Число обусловленности вычисляется путем нахождения квадратного корня из максимального собственного значения, деленного на минимальное собственное значение матрицы плана.. Если число условий больше 30, регресс может иметь серьезную мультиколлинеарность; мультиколлинеарность существует, если, кроме того, две или более переменных, связанных с высоким числом обусловленности, имеют объясненную высокую долю дисперсии. Одним из преимуществ этого метода является то, что он также показывает, какие переменные вызывают проблему. ^[6]
Нарушение данных . ^[7] Мультиколлинеарность можно обнаружить, добавив к данным случайный шум и повторно запустив регрессию много раз и наблюдая, насколько изменяются коэффициенты.
Построение корреляционной матрицы между независимыми переменными даст указания относительно вероятности того, что любая заданная пара переменных с правой частью создает проблемы мультиколлинеарности. Значения корреляции (недиагональные элементы) не менее 0,4 иногда интерпретируются как указывающие на проблему мультиколлинеарности. Однако эта процедура очень проблематична и не может быть рекомендована. Интуитивно корреляция описывает двумерные отношения, тогда как коллинеарность - многомерное явление.

Последствия [ править ]

Одним из следствий высокой степени мультиколлинеарности является то, что, даже если матрица является обратимой, компьютерный алгоритм может оказаться неудачным в получении приблизительного обратного значения, а если он его получит, он может оказаться неточным в числовом отношении. Но даже при наличии точной матрицы возникают следующие последствия. $X^{\top }X$ $X^{\top }X$

При наличии мультиколлинеарности оценка воздействия одной переменной на зависимую переменную при контроле над другими имеет тенденцию быть менее точной, чем если бы предикторы не коррелировали друг с другом. Обычная интерпретация коэффициента регрессии заключается в том, что он дает оценку влияния изменения на одну единицу независимой переменной, при сохранении постоянных других переменных. Если он сильно коррелирует с другой независимой переменной в данном наборе данных, то у нас есть набор наблюдений, для которых и имеется конкретная линейная стохастическая связь. У нас нет набора наблюдений, для которого все изменения не зависят от изменений $Y$ $X_{1}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$ , поэтому мы имеем неточную оценку влияния независимых изменений . $X_{1}$

В некотором смысле коллинеарные переменные содержат одинаковую информацию о зависимой переменной. Если номинально «разные» меры фактически дают количественную оценку одного и того же явления, то они излишни. В качестве альтернативы, если переменным присвоены разные имена и, возможно, используются разные числовые шкалы измерения, но они сильно коррелированы друг с другом, то они страдают от избыточности.

Одной из особенностей мультиколлинеарности является то, что стандартные ошибки затронутых коэффициентов имеют тенденцию быть большими. В этом случае проверка гипотезы о том, что коэффициент равен нулю, может привести к неспособности отвергнуть ложную нулевую гипотезу об отсутствии эффекта объяснителя, ошибку типа II .

Еще одна проблема с мультиколлинеарностью заключается в том, что небольшие изменения входных данных могут привести к большим изменениям в модели, даже к изменению знака оценок параметров. ^[6]

Основная опасность такого резервирования данных является то , что переобучения в регрессионном анализе моделях. Лучшие регрессионные модели - это те, в которых каждая из переменных-предикторов сильно коррелирует с зависимой (исходной) переменной, но в лучшем случае лишь минимально коррелирует между собой. Такую модель часто называют «малошумной», и она будет статистически устойчивой (то есть надежно предсказывать многочисленные выборки наборов переменных, взятых из одной и той же статистической совокупности).

Пока базовая спецификация верна, мультиколлинеарность фактически не влияет на результаты; он просто производит большие стандартные ошибки в связанных независимых переменных. Что еще более важно, обычное использование регрессии состоит в том, чтобы взять коэффициенты из модели и затем применить их к другим данным. Поскольку мультиколлинеарность вызывает неточные оценки значений коэффициентов, результирующие прогнозы вне выборки также будут неточными. И если картина мультиколлинеарности в новых данных отличается от таковой в данных, которые были подогнаны, такая экстраполяция может внести большие ошибки в прогнозы. ^[8]

Средства правовой защиты [ править ]

Убедитесь, что вы не попали в ловушку фиктивной переменной ; включение фиктивной переменной для каждой категории (например, лето, осень, зима и весна) и включение постоянного члена в регрессию вместе гарантируют идеальную мультиколлинеарность.
Попробуйте посмотреть, что произойдет, если вы будете использовать независимые подмножества данных для оценки и применить эти оценки ко всему набору данных. Теоретически вы должны получить несколько более высокую дисперсию от меньших наборов данных, используемых для оценки, но ожидаемые значения коэффициентов должны быть такими же. Естественно, наблюдаемые значения коэффициентов будут различаться, но посмотрите, насколько они варьируются.
Оставьте модель как есть, несмотря на мультиколлинеарность. Наличие мультиколлинеарности не влияет на эффективность экстраполяции подобранной модели на новые данные при условии, что переменные-предикторы следуют тому же шаблону мультиколлинеарности в новых данных, что и в данных, на которых основана регрессионная модель. ^[9]
Отбросьте одну из переменных. Объясняющая переменная может быть опущена для создания модели со значимыми коэффициентами. Однако вы теряете информацию (потому что вы потеряли переменную). Пропуск соответствующей переменной приводит к смещению оценок коэффициентов для остальных независимых переменных, которые коррелируют с опущенной переменной.
Если возможно, получите больше данных. Это предпочтительное решение. Больше данных может дать более точные оценки параметров (с более низкими стандартными ошибками), как видно из формулы коэффициента инфляции дисперсии для дисперсии оценки коэффициента регрессии с точки зрения размера выборки и степени мультиколлинеарности.
Центрируйте переменные-предикторы. Создание полиномиальных условий (то есть, для , , и т.д.) или условий взаимодействия (то есть, и т.д.) может вызвать некоторые мультиколлинеарности , если рассматриваемые переменные имеет ограниченный диапазон (например, [2,4]). Среднее центрирование устранит этот особый вид мультиколлинеарности. ^[10] Однако в целом это не действует. Это может быть полезно для преодоления проблем, возникающих при округлении и других этапах вычислений, если не используется тщательно разработанная компьютерная программа. $x_{1}$ $x_{1}^{2}$ $x_{1}^{3}$ $x_{1}\times x_{2}$
Стандартизируйте свои независимые переменные. Это может помочь уменьшить количество ложных отметок индекса состояния выше 30.
Также было высказано предположение, что, используя значение Шепли , инструмент теории игр , модель могла бы учесть эффекты мультиколлинеарности. Значение Шепли присваивает значение каждому предиктору и оценивает все возможные комбинации важности. ^[11]
Ридж регрессии или основной компонент регрессии или частичной регрессии по методу наименьших квадратов может быть использован.
Если коррелированные объяснители являются разными значениями запаздывания одного и того же основного объяснителя, то может использоваться метод распределенного запаздывания , налагающий общую структуру на относительные значения коэффициентов, которые необходимо оценить.

Возникновение [ править ]

Анализ выживаемости [ править ]

Мультиколлинеарность может представлять серьезную проблему при анализе выживаемости . Проблема в том, что изменяющиеся во времени ковариаты могут изменять свое значение на временной шкале исследования. Для оценки влияния мультиколлинеарности на результаты рекомендуется специальная процедура. ^[12]

Процентные ставки на разные сроки до погашения [ править ]

В различных ситуациях можно предположить, что несколько процентных ставок с разными сроками до погашения влияют на какое-либо экономическое решение, такое как сумма денег или другого финансового актива, который нужно держать, или сумма инвестиций в основной капитал, которые необходимо задействовать. В этом случае включение этих различных процентных ставок, как правило, создает существенную проблему мультиколлинеарности, поскольку процентные ставки имеют тенденцию меняться вместе. Если на самом деле каждая из процентных ставок оказывает свое собственное отдельное влияние на зависимую переменную, может быть чрезвычайно трудно разделить их влияние.

Расширение [ править ]

Концепция латеральной коллинеарности расширяет традиционный взгляд на мультиколлинеарность, включая также коллинеарность между объясняющими и критериальными (т. Е. Объясненными) переменными в том смысле, что они могут измерять почти то же самое, что и друг друга. ^[13]

См. Также [ править ]

Плохо кондиционированная матрица
Линейная независимость

Ссылки [ править ]

Перейти ↑ O'Brien, RM (2007). «Предостережение относительно практических правил для факторов дисперсии инфляции». Качество и количество . 41 (5): 673–690. DOI : 10.1007 / s11135-006-9018-6 .
^ Фаррар, Дональд Э .; Глаубер, Роберт Р. (1967). «Мультиколлинеарность в регрессионном анализе: новый взгляд на проблему» (PDF) . Обзор экономики и статистики . 49 (1): 92–107. DOI : 10.2307 / 1937887 . ЛВП : 1721,1 / 48530 . JSTOR 1937887 .
^ Wichers, C. Роберт (1975). «Обнаружение мультиколлинеарности: комментарий». Обзор экономики и статистики . 57 (3): 366–368. DOI : 10.2307 / 1923926 . JSTOR 1923926 .
^ Кумар, Т. Кришна (1975). «Мультиколлинеарность в регрессионном анализе». Обзор экономики и статистики . 57 (3): 365–366. DOI : 10.2307 / 1923925 . JSTOR 1923925 .
^ О'Хаган, Джон; Маккейб, Брендан (1975). «Тесты на серьезность мультиколинейности в регрессионном анализе: комментарий». Обзор экономики и статистики . 57 (3): 368–370. DOI : 10.2307 / 1923927 . JSTOR 1923927 .
^ a b Белсли, Дэвид (1991). Условная диагностика: коллинеарность и слабые данные в регрессии . Нью-Йорк: Вили. ISBN 978-0-471-52889-0.
^ Доступенпакет для R : "perturb: Инструменты для оценки коллинеарности" . R проект .
^ Chatterjee, S .; Hadi, AS; Прайс, Б. (2000). Регрессионный анализ на примере (Третье изд.). Джон Уайли и сыновья. ISBN 978-0-471-31946-7.
^ Гуджарати, Дамодар (2009). «Мультиколлинеарность: что произойдет, если регрессоры коррелируют?». Основы эконометрики (4-е изд.). Макгроу-Хилл. С. 363 .
^ «12.6 - Снижение структурной мультиколлинеарности | STAT 501» . newonlinecourses.science.psu.edu . Проверено 16 марта 2019 .
^ Липовесткий; Конклин (2001). "Анализ регрессии в подходе теории игр". Прикладные стохастические модели в бизнесе и промышленности . 17 (4): 319–330. DOI : 10.1002 / asmb.446 .
^ Для подробного обсуждения см. Van Den Poel, D .; Ларивьер, Б. (2004). «Анализ потери клиентов финансовых услуг с использованием моделей пропорциональных рисков». Европейский журнал операционных исследований . 157 : 196–217. CiteSeerX 10.1.1.62.8919 . DOI : 10.1016 / S0377-2217 (03) 00069-9 .
^ Kock, N .; Линн, GS (2012). «Боковая коллинеарность и вводящие в заблуждение результаты в SEM на основе дисперсии: иллюстрация и рекомендации» (PDF) . Журнал Ассоциации информационных систем . 13 (7): 546–580. DOI : 10.17705 / 1jais.00302 .

Дальнейшее чтение [ править ]

Белсли, Дэвид А .; Кух, Эдвин ; Велш, Рой Э. (1980). Регрессионная диагностика: определение важных данных и источников коллинеарности . Нью-Йорк: Вили. ISBN 978-0-471-05856-4.
Гольдбергер, Артур С. (1991). «Мультиколлинеарность» . Курс эконометрики . Кембридж: Издательство Гарвардского университета. С. 245–53.
Хилл, Р. Картер; Адкинс, Ли К. (2001). «Коллинеарность». В Балтаги, Бади Х. (ред.). Компаньон теоретической эконометрики . Блэквелл. С. 256–278. DOI : 10.1002 / 9780470996249.ch13 . ISBN 978-0-631-21254-6.
Джонстон, Джон (1972). Эконометрические методы (второе изд.). Нью-Йорк: Макгроу-Хилл. стр. 159 -168.
Кмента, Ян (1986). Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. С. 430–442 . ISBN 978-0-02-365070-3.
Маддала, GS ; Лахири, Каджал (2009). Введение в эконометрику (Четвертое изд.). Чичестер: Вайли. С. 279–312. ISBN 978-0-470-01512-4.
Томашек, Фабиан; Хендрикс, Питер; Баайен, Р. Харальд (2018). «Стратегии решения проблемы коллинеарности в многомерных лингвистических данных». Журнал фонетики . 71 : 249–267.

Внешние ссылки [ править ]

Тома, Марк (2 марта 2011 г.). «Лекция по эконометрике (тема: мультиколлинеарность)» . Университет Орегона - через YouTube .
Самое раннее использование: статья о мультиколлинеарности содержит некоторую историческую информацию.

[1] Перейти ↑ O'Brien, RM (2007). «Предостережение относительно практических правил для факторов дисперсии инфляции». Качество и количество . 41 (5): 673–690. DOI : 10.1007 / s11135-006-9018-6 .

[2] Фаррар, Дональд Э .; Глаубер, Роберт Р. (1967). «Мультиколлинеарность в регрессионном анализе: новый взгляд на проблему» (PDF) . Обзор экономики и статистики . 49 (1): 92–107. DOI : 10.2307 / 1937887 . ЛВП : 1721,1 / 48530 . JSTOR 1937887 .

[3] Wichers, C. Роберт (1975). «Обнаружение мультиколлинеарности: комментарий». Обзор экономики и статистики . 57 (3): 366–368. DOI : 10.2307 / 1923926 . JSTOR 1923926 .

[4] Кумар, Т. Кришна (1975). «Мультиколлинеарность в регрессионном анализе». Обзор экономики и статистики . 57 (3): 365–366. DOI : 10.2307 / 1923925 . JSTOR 1923925 .

[5] О'Хаган, Джон; Маккейб, Брендан (1975). «Тесты на серьезность мультиколинейности в регрессионном анализе: комментарий». Обзор экономики и статистики . 57 (3): 368–370. DOI : 10.2307 / 1923927 . JSTOR 1923927 .

[Belsley1991-6] Белсли, Дэвид (1991). Условная диагностика: коллинеарность и слабые данные в регрессии . Нью-Йорк: Вили. ISBN 978-0-471-52889-0.

[7] Доступенпакет для R : "perturb: Инструменты для оценки коллинеарности" . R проект .

[8] Chatterjee, S .; Hadi, AS; Прайс, Б. (2000). Регрессионный анализ на примере (Третье изд.). Джон Уайли и сыновья. ISBN 978-0-471-31946-7.

[9] Гуджарати, Дамодар (2009). «Мультиколлинеарность: что произойдет, если регрессоры коррелируют?». Основы эконометрики (4-е изд.). Макгроу-Хилл. С. 363 .

[10] «12.6 - Снижение структурной мультиколлинеарности | STAT 501» . newonlinecourses.science.psu.edu . Проверено 16 марта 2019 .

[11] Липовесткий; Конклин (2001). "Анализ регрессии в подходе теории игр". Прикладные стохастические модели в бизнесе и промышленности . 17 (4): 319–330. DOI : 10.1002 / asmb.446 .

[12] Для подробного обсуждения см. Van Den Poel, D .; Ларивьер, Б. (2004). «Анализ потери клиентов финансовых услуг с использованием моделей пропорциональных рисков». Европейский журнал операционных исследований . 157 : 196–217. CiteSeerX 10.1.1.62.8919 . DOI : 10.1016 / S0377-2217 (03) 00069-9 .

[13] Kock, N .; Линн, GS (2012). «Боковая коллинеарность и вводящие в заблуждение результаты в SEM на основе дисперсии: иллюстрация и рекомендации» (PDF) . Журнал Ассоциации информационных систем . 13 (7): 546–580. DOI : 10.17705 / 1jais.00302 .

[1]