Линейная функция предиктора

В статистике и машинного обучения , А линейная функция предсказателем является линейной функцией ( линейная комбинация ) множества коэффициентов и объясняющих переменных ( независимых переменных ), значение которого используется для прогнозирования исход зависимой переменной . ^[1] Такие функции обычно используются в линейной регрессии , где коэффициенты называются коэффициентами регрессии . Однако они также встречаются в различных типах линейных классификаторов (например, логистическая регрессия , ^[2] перцептроны , ^[3] вспомогательные векторные машины , ^[4] и линейный дискриминантный анализ ^[5] ), а также в различных других моделях, такие как основной компонент анализ ^[6] и факторный анализ . Во многих из этих моделей коэффициенты называются «весами».

Определение

Базовая форма линейной функции-предиктора ${\ Displaystyle f (я)}$ для точки данных i (состоящей из p объясняющих переменных ), для i = 1, ..., n , равно

{\ displaystyle f (i) = \ beta _ {0} + \ beta _ {1} x_ {i1} + \ cdots + \ beta _ {p} x_ {ip},}

где ${\ displaystyle x_ {ik}}$ , для k = 1, ..., p - значение k -й объясняющей переменной для точки данных i , и ${\ displaystyle \ beta _ {0}, \ ldots, \ beta _ {p}}$ - это коэффициенты ( коэффициенты регрессии, веса и т. д.), указывающие на относительное влияние конкретной объясняющей переменной на результат .

Обозначения

Обычно функцию-предиктор записывают в более компактной форме следующим образом:

Коэффициенты β ₀ , β ₁ , ..., β _p сгруппированы в один вектор β размера p + 1.
Для каждых точки данных I , дополнительная пояснительная псевдопеременная х _{я 0} добавляется, с фиксированным значением 1, что соответствую перехватывает коэффициент & beta ; ₀ .
Результирующие объясняющие переменные x _i0 (= 1), x _{i 1} , ..., x _ip затем группируются в один вектор x _i размера p + 1.

Векторное обозначение

Это позволяет записать функцию линейного предсказания следующим образом:

{\ Displaystyle е (я) = {\ boldsymbol {\ бета}} \ cdot \ mathbf {x} _ {я}}

используя обозначение для скалярного произведения между двумя векторами.

Матричная запись

Эквивалентная форма с использованием матричной записи выглядит следующим образом:

{\ displaystyle f (i) = {\ boldsymbol {\ beta}} ^ {\ mathrm {T}} \ mathbf {x} _ {i} = \ mathbf {x} _ {i} ^ {\ mathrm {T} } {\ boldsymbol {\ beta}}}

где ${\ displaystyle {\ boldsymbol {\ beta}}}$ а также ${\ Displaystyle \ mathbf {х} _ {я}}$ считаются векторами - столбцами размером (p + 1) на 1 , ${\ displaystyle {\ boldsymbol {\ beta}} ^ {\ mathrm {T}}}$ это транспонированная матрица из ${\ displaystyle {\ boldsymbol {\ beta}}}$ (так ${\ displaystyle {\ boldsymbol {\ beta}} ^ {\ mathrm {T}}}$ является вектор-строкой размером 1 на (p + 1) ), и ${\ displaystyle {\ boldsymbol {\ beta}} ^ {\ mathrm {T}} \ mathbf {x} _ {i}}$ указывает умножение матрицы между вектором-строкой 1 на (p + 1) и вектором-столбцом (p + 1) на 1, создавая матрицу 1 на 1, которая считается скаляром .

Линейная регрессия

Пример использования функции линейного предиктора находится в линейной регрессии , где каждая точка данных связана с непрерывным результатом y _i , а отношение записано

{\ displaystyle y_ {i} = f (i) + \ varepsilon _ {i} = {\ boldsymbol {\ beta}} ^ {\ mathrm {T}} \ mathbf {x} _ {i} \ + \ varepsilon _ {я},}

где ${\ Displaystyle \ varepsilon _ {я}}$ является фактором возмущения или ошибочной переменной - ненаблюдаемой случайной величиной, которая добавляет шум к линейной зависимости между зависимой переменной и функцией прогнозирования.

Штабелирование

В некоторых моделях (в частности, стандартной линейной регрессии) уравнения для каждой из точек данных i = 1, ..., n складываются вместе и записываются в векторной форме как

{\ displaystyle \ mathbf {y} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}}, \,}

где

{\ Displaystyle \ mathbf {y} = {\ begin {pmatrix} y_ {1} \\ y_ {2} \\\ vdots \\ y_ {n} \ end {pmatrix}}, \ quad \ mathbf {X} = {\ begin {pmatrix} \ mathbf {x} '_ {1} \\\ mathbf {x}' _ {2} \\\ vdots \\\ mathbf {x} '_ {n} \ end {pmatrix}} = {\ begin {pmatrix} x_ {11} & \ cdots & x_ {1p} \\ x_ {21} & \ cdots & x_ {2p} \\\ vdots & \ ddots & \ vdots \\ x_ {n1} & \ cdots & x_ {np} \ end {pmatrix}}, \ quad {\ boldsymbol {\ beta}} = {\ begin {pmatrix} \ beta _ {1} \\\ vdots \\\ beta _ {p} \ end {pmatrix }}, \ quad {\ boldsymbol {\ varepsilon}} = {\ begin {pmatrix} \ varepsilon _ {1} \\\ varepsilon _ {2} \\\ vdots \\\ varepsilon _ {n} \ end {pmatrix }}.}

Матрица X известна как матрица проекта и кодирует всю известную информацию о независимых переменных . Переменные ${\ Displaystyle \ varepsilon _ {я}}$ являются случайными величинами , которые в стандартной линейной регрессии распределены согласно стандартному нормальному распределению ; они выражают влияние каких-либо неизвестных факторов на результат.

Это позволяет находить оптимальные коэффициенты методом наименьших квадратов с использованием простых матричных операций. В частности, оптимальные коэффициенты ${\ displaystyle {\ boldsymbol {\ hat {\ beta}}}}$ по методу наименьших квадратов можно записать следующим образом:

{\ displaystyle {\ boldsymbol {\ hat {\ beta}}} = (X ^ {\ mathrm {T}} X) ^ {- 1} X ^ {\ mathrm {T}} \ mathbf {y}.}

Матрица ${\ displaystyle (X ^ {\ mathrm {T}} X) ^ {- 1} X ^ {\ mathrm {T}}}$ известен как псевдообратная матрица из X . Использование матрицы , обратной в этой формуле требует , чтобы X имеет полный ранг , то есть не является совершенной мультиколлинеарности среди различных объясняющих переменных (т.е. не объясняющая переменная не может быть полностью предсказаны от других). В таких случаях разложение по сингулярным числам может использоваться для вычисления псевдообратной формулы.

Объясняющие переменные

Хотя предполагаемые результаты (зависимые переменные) являются случайными величинами , сами объясняющие переменные обычно не считаются случайными ^{[ необходима цитата ]} . Вместо этого, они считаются фиксированными значениями, и любые случайные величины (например, результаты) предполагаются условно на них ^{[ править ]} . В результате аналитик данных может преобразовывать независимые переменные произвольными способами, включая создание нескольких копий данной независимой переменной, каждая из которых преобразована с использованием другой функции. Другими распространенными методами являются создание новых объясняющих переменных в форме переменных взаимодействия путем взятия произведений двух (или иногда более) существующих независимых переменных.

Когда фиксированный набор нелинейных функций используется для преобразования значения (значений) точки данных, эти функции известны как базисные функции . Примером является полиномиальная регрессия , в которой используется функция линейного предиктора для соответствия полиномиальной связи произвольной степени (до заданного порядка) между двумя наборами точек данных (то есть одной действительной независимой переменной и связанной действительной зависимой переменной). путем добавления нескольких объясняющих переменных, соответствующих различным степеням существующей объясняющей переменной. Математически форма выглядит так:

{\ displaystyle y_ {i} = \ beta _ {0} + \ beta _ {1} x_ {i} + \ beta _ {2} x_ {i} ^ {2} + \ cdots + \ beta _ {p} x_ {i} ^ {p}.}

В этом случае для каждой точки данных i создается набор независимых переменных следующим образом:

{\ displaystyle (x_ {i1} = x_ {i}, \ quad x_ {i2} = x_ {i} ^ {2}, \ quad \ ldots, \ quad x_ {ip} = x_ {i} ^ {p}) )}

а затем выполняется стандартная линейная регрессия . Базовые функции в этом примере будут

{\ displaystyle {\ boldsymbol {\ phi}} (x) = (\ phi _ {1} (x), \ phi _ {2} (x), \ ldots, \ phi _ {p} (x)) = (x, x ^ {2}, \ ldots, x ^ {p}).}

Этот пример показывает, что функция линейного предсказания на самом деле может быть гораздо более мощной, чем кажется на первый взгляд: она действительно должна быть линейной только по коэффициентам . Модель может соответствовать всевозможным нелинейным функциям независимых переменных.

Нет особой необходимости в том, чтобы входные данные для базисных функций были одномерными или одномерными (или их выходами, если на то пошло, хотя в таком случае K -мерное выходное значение, вероятно, будет рассматриваться как K отдельных скалярных выходных данных). базисные функции). Примером этого являются радиальные базисные функции (RBF), которые вычисляют некоторую преобразованную версию расстояния до некоторой фиксированной точки:

{\ displaystyle \ phi (\ mathbf {x}; \ mathbf {c}) = \ phi (|| \ mathbf {x} - \ mathbf {c} ||) = \ phi ({\ sqrt {(x_ {1 } -c_ {1}) ^ {2} + \ ldots + (x_ {K} -c_ {K}) ^ {2}}})}

Примером является гауссовский RBF, который имеет ту же функциональную форму, что и нормальное распределение :

{\ displaystyle \ phi (\ mathbf {x}; \ mathbf {c}) = e ^ {- b || \ mathbf {x} - \ mathbf {c} || ^ {2}}}

которая быстро спадает с увеличением расстояния от c .

Возможное использование RBF - создание одной для каждой наблюдаемой точки данных. Это означает, что результат применения RBF к новой точке данных будет близок к 0, если только новая точка не окажется рядом с точкой, вокруг которой был применен RBF. То есть применение радиальных базисных функций выберет ближайшую точку, и ее коэффициент регрессии будет преобладать. Результатом будет форма интерполяции ближайшего соседа , где прогнозы делаются путем простого использования прогноза ближайшей наблюдаемой точки данных, возможно, интерполяции между несколькими ближайшими точками данных, когда все они находятся на одинаковом расстоянии. Этот тип метода ближайшего соседа для прогнозирования часто считается диаметрально противоположным типу прогнозирования, используемому в стандартной линейной регрессии: но на самом деле преобразования, которые могут быть применены к независимым переменным в линейной функции-предикторе, настолько мощны, что даже ближайший Метод соседа может быть реализован как разновидность линейной регрессии.

Можно даже подобрать некоторые функции, которые кажутся нелинейными в коэффициентах, путем преобразования коэффициентов в новые коэффициенты, которые действительно кажутся линейными. Например, функция вида ${\ displaystyle a + b ^ {2} x_ {i1} + {\ sqrt {c}} x_ {i2}}$ для коэффициентов ${\ displaystyle a, b, c}$ можно преобразовать в соответствующую линейную функцию, применив замены ${\ displaystyle b '= b ^ {2}, c' = {\ sqrt {c}},}$ ведущий к ${\ displaystyle a + b'x_ {i1} + c'x_ {i2},}$ который является линейным. Можно применить линейную регрессию и аналогичные методы, и они часто по-прежнему будут находить оптимальные коэффициенты, но их оценки ошибок и тому подобное будут неверными.

Объясняющие переменные могут быть любого типа : действительные , бинарные , категориальные и т. Д. Основное различие заключается между непрерывными переменными (например, доход, возраст, артериальное давление и т. Д.) И дискретными переменными (например, пол, раса, политическая партия, так далее.). Дискретные переменные, относящиеся к более чем двум возможным вариантам выбора, обычно кодируются с использованием фиктивных переменных (или индикаторных переменных ), т. Е. Отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значения дискретной переменной, причем 1 означает, что «переменная действительно имеет заданное значение "и 0 означает, что" переменная не имеет заданного значения ". Например, четырехсторонняя дискретная переменная группы крови с возможными значениями «A, B, AB, O» будет преобразована в отдельные двусторонние фиктивные переменные: is-A, is-B, is-AB, is -O ", где только один из них имеет значение 1, а все остальные имеют значение 0. Это позволяет сопоставить отдельные коэффициенты регрессии для каждого возможного значения дискретной переменной.

Обратите внимание, что для категорий K не все фиктивные переменные K независимы друг от друга. Например, в приведенном выше примере группы крови только три из четырех фиктивных переменных являются независимыми в том смысле, что после того, как значения трех переменных известны, четвертая определяется автоматически. Таким образом, это действительно необходимо только для кодирования три из четырех возможностей как фиктивные переменные, и в самом деле , если все четыре варианты закодирована, общая модель становится не- идентифицируемой . Это вызывает проблемы для ряда методов, таких как простое решение в замкнутой форме, используемое в линейной регрессии. Решение состоит в том, чтобы избежать таких случаев, исключив одну из фиктивных переменных, и / или ввести ограничение регуляризации (что требует более мощного, обычно итеративного метода поиска оптимальных коэффициентов).

Смотрите также

Линейная модель
Линейная регрессия