Нарезанная обратная регрессия

Нарезанная обратная регрессия (SIR) - это инструмент для уменьшения размерности в области многомерной статистики .

В статистике , регрессионный анализ является популярным способом изучения взаимосвязи между переменной отклика у и ее объясняющей переменной ${\ displaystyle {\ underline {x}}}$ , который является p -мерным вектором. Есть несколько подходов, которые подпадают под понятие регрессии. Например, параметрические методы включают множественную линейную регрессию; непараметрические методы включают локальное сглаживание .

С данными большой размерности (по мере роста p ) количество наблюдений, необходимых для использования методов локального сглаживания, увеличивается экспоненциально. Уменьшение количества измерений делает операцию вычислимой. Сокращение размеров направлено на отображение только наиболее важных направлений данных. SIR использует кривую обратной регрессии, ${\ displaystyle E ({\ underline {x}} \, | \, y)}$ для выполнения взвешенного анализа главных компонентов, с помощью которого можно определить эффективные направления уменьшения размерности.

Эта статья сначала знакомит читателя с предметом уменьшения размерности и с тем, как это выполняется с использованием модели, представленной здесь. Затем следует краткий обзор обратной регрессии, который позже объединяет эти части.

Модель

Учитывая переменную ответа ${\ displaystyle \, Y}$ и (случайный) вектор ${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ независимых переменных, SIR основан на модели

{\ Displaystyle Y = е (\ бета _ {1} ^ {\ top} X, \ ldots, \ beta _ {k} ^ {\ top} X, \ varepsilon) \ quad \ quad \ quad \ quad \ quad ( 1)}

где ${\ displaystyle \ beta _ {1}, \ ldots, \ beta _ {k}}$ - неизвестные векторы проекции. ${\ Displaystyle \, к}$ - неизвестное число (размерность пространства, до которого мы пытаемся уменьшить наши данные) и, конечно, поскольку мы хотим уменьшить размерность, меньше, чем ${\ displaystyle \, p}$ . ${\ displaystyle \; f}$ неизвестная функция на ${\ Displaystyle \ mathbb {R} ^ {к + 1}}$ , поскольку это зависит только от ${\ Displaystyle \, к}$ аргументы и ${\ displaystyle \ varepsilon}$ ошибка с ${\ Displaystyle E [\ varepsilon | X] = 0}$ и конечная дисперсия ${\ displaystyle \ sigma ^ {2}}$ . Модель описывает идеальное решение, где ${\ displaystyle \, Y}$ зависит от ${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ только через ${\ Displaystyle \, к}$ размерное подпространство; т.е. можно уменьшить размерность независимых переменных от ${\ displaystyle \, p}$ к меньшему количеству ${\ Displaystyle \, к}$ без потери информации.

Эквивалентная версия ${\ Displaystyle \, (1)}$ есть: условное распределение ${\ displaystyle \, Y}$ дано ${\ displaystyle \, X}$ зависит от ${\ displaystyle \, X}$ только через ${\ Displaystyle \, к}$ размерный случайный вектор ${\ displaystyle (\ beta _ {1} ^ {\ top} X, \ ldots, \ beta _ {k} ^ {\ top} X)}$ . Предполагается, что этот приведенный вектор так же информативен, как и исходный ${\ displaystyle \, X}$ в объяснении ${\ displaystyle \, Y}$ .

Неизвестный ${\ displaystyle \, \ beta _ {i} 's}$ называются эффективными направлениями уменьшения размеров (EDR-направлениями). Пространство, натянутое на эти векторы, обозначается как пространство, уменьшающее эффективную размерность (EDR-пространство).

Соответствующий фон линейной алгебры

Чтобы иметь возможность визуализировать модель, обратите внимание на небольшой обзор векторных пространств:

Для определения векторного пространства и некоторых других свойств я буду ссылаться на статью Линейная алгебра и ортогонализация Грама-Шмидта или любой учебник по линейной алгебре и упомяну только самые важные факты для понимания модели.

Поскольку EDR-пространство является ${\ Displaystyle \, к}$ -мерное подпространство, нам нужно знать, что такое подпространство. Подпространство ${\ Displaystyle \ mathbb {R} ^ {п}}$ определяется как подмножество ${\ Displaystyle U \ in \ mathbb {R} ^ {n}}$ , если он считает, что

{\ displaystyle {\ underline {a}}, {\ underline {b}} \ in U \ Rightarrow {\ underline {a}} + {\ underline {b}} \ in U}

{\ displaystyle {\ underline {a}} \ in U, \ lambda \ in \ mathbb {R} \ Rightarrow \ lambda {\ underline {a}} \ in U}

Дано ${\ displaystyle {\ underline {a}} _ {1}, \ ldots, {\ underline {a}} _ {r} \ in \ mathbb {R} ^ {n}}$ , тогда ${\ displaystyle V: = L ({\ underline {a}} _ {1}, \ ldots, {\ underline {a}} _ {r})}$ , набор всех линейных комбинаций этих векторов, называется линейным подпространством и, следовательно, векторным пространством. Говорят, векторы ${\ displaystyle {\ underline {a}} _ {1}, \ ldots, {\ underline {a}} _ {r}}$ охватывать ${\ displaystyle \, V}$ . Но векторы, охватывающие пространство ${\ displaystyle \, V}$ не уникальны. Это приводит нас к концепции базиса и размерности векторного пространства:

Множество ${\ displaystyle B = \ {{\ underline {b}} _ {1}, \ ldots, {\ underline {b}} _ {r} \}}$ линейно независимых векторов векторного пространства ${\ displaystyle \, V}$ называется базисом из ${\ displaystyle \, V}$ , если он считает, что

{\ displaystyle V: = L ({\ underline {b}} _ {1}, \ ldots, {\ underline {b}} _ {r})}

Размер ${\ Displaystyle \, В (\ в \ mathbb {R} ^ {п})}$ равно максимальному количеству линейно независимых векторов в ${\ displaystyle \, V}$ . Набор из ${\ Displaystyle \, п}$ линейно независимые векторы ${\ Displaystyle \ mathbb {R} ^ {п}}$ создать основу ${\ Displaystyle \ mathbb {R} ^ {п}}$ . Размерность векторного пространства уникальна, как и сама основа. Несколько баз могут занимать одно и то же пространство. Конечно, также зависимые векторы охватывают пространство, но их линейные комбинации могут дать только набор векторов, лежащих на прямой. Поскольку мы ищем ${\ Displaystyle \, к}$ размерное подпространство, мы заинтересованы в нахождении ${\ Displaystyle \, к}$ линейно независимые векторы, охватывающие ${\ Displaystyle \, к}$ размерное подпространство, на которое мы хотим проецировать наши данные.

Проклятие размерности

Причина, по которой мы хотим уменьшить размерность данных, связана с « проклятием размерности » и, конечно же, с графическими целями. Проклятие размерности происходит из-за быстрого увеличения объема, добавляющего больше измерений в (математическое) пространство. Например, рассмотрим 100 наблюдений от службы поддержки. ${\ displaystyle [0,1]}$ , которые достаточно хорошо покрывают интервал, и сравнить его со 100 наблюдениями из соответствующих ${\ displaystyle 10}$ единичный гиперквадрат, представляющий собой изолированные точки в огромном пустом пространстве. В первом случае легко сделать выводы о свойствах, лежащих в основе данных, а во втором - нет.

Обратная регрессия

Вычисление кривой обратной регрессии (IR) означает вместо поиска

${\ Displaystyle \, Е [Y | X = х]}$ , которая представляет собой кривую в ${\ Displaystyle \ mathbb {R} ^ {p}}$

мы рассчитываем

${\ Displaystyle \, Е [Х | Y = у]}$ , которая также является кривой в ${\ Displaystyle \ mathbb {R} ^ {p}}$ , но состоящий из ${\ displaystyle \, p}$ одномерные регрессии.

Центр кривой обратной регрессии расположен в точке ${\ Displaystyle \, E [E [X | Y]] = E [X]}$ . Следовательно, центрированная кривая обратной регрессии имеет вид

${\ Displaystyle \, Е [X | Y = y] -E [X]}$

который является ${\ displaystyle \, p}$ размерная кривая в ${\ Displaystyle \ mathbb {R} ^ {p}}$ . Далее мы рассмотрим эту центральную кривую обратной регрессии и увидим, что она лежит на ${\ Displaystyle \, к}$ -мерное подпространство, натянутое на ${\ displaystyle \, \ Sigma _ {xx} \ beta _ {i} \, 's}$ .

Но прежде чем убедиться в этом, мы посмотрим, как вычисляется кривая обратной регрессии в рамках SIR-алгоритма, который будет подробно представлен позже. Получается "нарезанная" часть SIR. Оценим кривую обратной регрессии, разделив диапазон значений ${\ displaystyle \, Y}$ в ${\ displaystyle \, H}$ неперекрывающиеся интервалы (срезы), чтобы впоследствии вычислить средние значения выборки ${\ displaystyle \, {\ hat {m}} _ {h}}$ каждого ломтика. Эти выборочные средние используются в качестве приблизительной оценки ИК-кривой , обозначенной как ${\ Displaystyle \, м (у)}$ . Есть несколько способов определить срезы: либо таким образом, чтобы в каждом срезе было одинаковое количество наблюдений, либо мы определяем фиксированный диапазон для каждого среза, чтобы затем мы получали разные пропорции ${\ displaystyle \, y_ {i} \, 's}$ которые попадают в каждый кусочек.

Обратная регрессия против уменьшения размерности

Как уже упоминалось, центральная кривая обратной регрессии лежит на ${\ Displaystyle \, к}$ -мерное подпространство, натянутое на ${\ displaystyle \, \ Sigma _ {xx} \ beta _ {i} \, 's}$ (и, следовательно, также грубая оценка, которую мы вычисляем). Это связь между нашей моделью и обратной регрессией. Мы увидим, что это правда, с единственным условием на расчетное распределение, которое должно выполняться. Это условие заключается в том, что:

{\ displaystyle \ forall \, {\ underline {b}} \ in \ mathbb {R} ^ {p}: \, E [b ^ {\ top} X | \ beta _ {1} ^ {\ top} X = \ beta _ {1} ^ {\ top} x, \ ldots, \ beta _ {k} ^ {\ top} X = \ beta _ {k} ^ {\ top} x) = c_ {0} + \ сумма _ {i = 1} ^ {k} c_ {i} \ beta _ {i} ^ {\ top} x}

Т.е. условное ожидание линейно по ${\ displaystyle \ beta _ {1} X, \ ldots, \ beta _ {k} X}$ , то есть для некоторых констант ${\ displaystyle c_ {0}, \ ldots, c_ {K}}$ . Это условие выполняется, когда распределение ${\ displaystyle \, X}$ эллиптически симметрично (например, нормальное распределение). Это кажется довольно сильным требованием. Это может помочь, например, более внимательно изучить распределение данных, чтобы можно было удалить выбросы или разделить кластеры перед анализом.

Учитывая это условие и ${\ Displaystyle \, (1)}$ , действительно, центрированная кривая обратной регрессии ${\ Displaystyle \, Е [X | Y = y] -E [X]}$ содержится в линейном подпространстве, натянутом на ${\ displaystyle \, \ Sigma _ {xx} \ beta _ {k} (k = 1, \ ldots, K)}$ , где ${\ Displaystyle \, \ Sigma _ {xx} = Cov (X)}$ . Доказательство предоставлено Дуаном и Ли в журнале Американской статистической ассоциации (1991).

Оценка EDR-направлений

После ознакомления со всеми теоретическими свойствами, наша цель - оценить EDR-направления. Для этого мы проводим (взвешенный) анализ главных компонент для выборочных средних. ${\ displaystyle \, {\ hat {m}} _ {h} \, 's}$ , после стандартизации ${\ displaystyle \, X}$ к ${\ Displaystyle \, Z = \ Sigma _ {хх} ^ {- 1/2} \ {XE (X) \}}$ . В соответствии с приведенной выше теоремой ИК-кривая ${\ Displaystyle \, m_ {1} (y) = E [Z | Y = y]}$ лежит в пространстве, охватываемом ${\ Displaystyle \, (\ eta _ {1}, \ ldots, \ eta _ {k})}$ , где ${\ displaystyle \, \ eta _ {i} = \ Sigma _ {xx} ^ {1/2} \ beta _ {i}}$ . (Из-за введенной ранее терминологии ${\ Displaystyle \, \ eta _ {я} \, 's}$ называются стандартизованными направлениями уменьшения эффективных размерностей .) Как следствие, ковариационная матрица ${\ Displaystyle \, cov [Е [Z | Y]]}$ вырожден в любом направлении, ортогональном ${\ Displaystyle \, \ eta _ {я} \, 's}$ . Следовательно, собственные векторы ${\ Displaystyle \, \ eta _ {к} (к = 1, \ ldots, K)}$ связанный с ${\ displaystyle \, K}$ наибольшие собственные значения - это стандартизированные EDR-направления.

Вернемся к СПС. То есть вычисляем оценку для ${\ displaystyle \, Cov \ {m_ {1} (y) \}}$ :

{\ displaystyle {\ hat {V}} = n ^ {- 1} \ sum _ {i = 1} ^ {S} n_ {s} {\ bar {z}} _ {s} {\ bar {z} } _ {s} ^ {\ top}}

и определить собственные значения ${\ displaystyle {\ hat {\ lambda}} _ {i}}$ и собственные векторы ${\ displaystyle {\ hat {\ eta}} _ {i}}$ из ${\ displaystyle {\ hat {V}}}$ , которые являются стандартизированными EDR-направлениями. (Подробнее об этом см. Следующий раздел: Алгоритм.) Помните, что основная идея преобразования ПК - найти наиболее информативные прогнозы, которые максимизируют дисперсию!

Обратите внимание, что в некоторых случаях SIR не находит EDR-направления. Эту трудность можно преодолеть, рассматривая условную ковариацию ${\ Displaystyle \, Cov (X | Y)}$ . Принцип остается таким же, как и раньше, но исследуется IR-кривая с условной ковариацией вместо условного ожидания. Дополнительные подробности и пример отказа SIR см. В Härdle and Simar (2003).

Алгоритм

Алгоритм оценки EDR-направлений через SIR следующий. Это взято из учебника « Прикладной многомерный статистический анализ» (Härdle and Simar 2003).

1. Пусть ${\ displaystyle \, \ Sigma _ {xx}}$ - ковариационная матрица ${\ displaystyle \, X}$ . Стандартизировать ${\ displaystyle \, X}$ к

{\ Displaystyle \, Z = \ Sigma _ {хх} ^ {- 1/2} \ {XE (X) \}}

(Следовательно, мы можем переписать ${\ Displaystyle \, (1)}$ в виде

{\ Displaystyle Y = е (\ eta _ {1} ^ {\ top} Z, \ ldots, \ eta _ {k} ^ {\ top} Z, \ varepsilon)}

где ${\ displaystyle \, \ eta _ {k} = \ beta _ {k} \ Sigma _ {xx} ^ {1/2} \ quad \ forall \; k}$ Для стандартизованной переменной Z справедливо, что ${\ Displaystyle \, Е [Z] = 0}$ а также ${\ Displaystyle \, Cov (Z) = I}$ .)

2. Разделите диапазон ${\ displaystyle \, y_ {i}}$ в ${\ displaystyle \, S}$ неперекрывающиеся срезы ${\ displaystyle \, H_ {s} (s = 1, \ ldots, S). \; n_ {s}}$ количество наблюдений в каждом срезе и ${\ displaystyle \, I_ {H_ {s}}}$ индикаторная функция для этого среза:

{\ displaystyle n_ {s} = \ sum _ {i = 1} ^ {n} I_ {H_ {s}} (y_ {i})}

3. Вычислить среднее значение ${\ displaystyle \, z_ {i}}$ по всем срезам, что является приблизительной оценкой ${\ displaystyle \, {\ hat {m}} _ {1}}$ кривой обратной регрессии ${\ Displaystyle \, м_ {1}}$ :

{\ displaystyle \, {\ bar {z}} _ {s} = n_ {s} ^ {- 1} \ sum _ {i = 1} ^ {n} z_ {i} I_ {H_ {s}} ( y_ {i})}

4. Рассчитайте оценку для ${\ displaystyle \, Cov \ {m_ {1} (y) \}}$ :

{\ displaystyle \, {\ hat {V}} = n ^ {- 1} \ sum _ {i = 1} ^ {S} n_ {s} {\ bar {z}} _ {s} {\ bar { z}} _ {s} ^ {\ top}}

5. Определите собственные значения. ${\ displaystyle \, {\ hat {\ lambda}} _ {i}}$ и собственные векторы ${\ displaystyle \, {\ hat {\ eta}} _ {i}}$ из ${\ displaystyle \, {\ hat {V}}}$ , которые являются стандартизированными EDR-направлениями.

6. Преобразуйте стандартизированные EDR-направления обратно к исходному масштабу. Оценки для EDR-направлений даются:

{\ displaystyle \, {\ hat {\ beta}} _ {i} = {\ hat {\ Sigma}} _ {xx} ^ {- 1/2} {\ hat {\ eta}} _ {i}}

(которые не обязательно ортогональны)

Примеры см. В книге Härdle and Simar (2003).