Линейный дискриминантный анализ

Линейный дискриминантный анализ ( LDA ), нормальный дискриминантный анализ ( NDA ) или анализ дискриминантной функции - это обобщение линейного дискриминанта Фишера , метода, используемого в статистике и других областях, для поиска линейной комбинации признаков, которая характеризует или разделяет два или более классов. объектов или событий. Полученная комбинация может использоваться в качестве линейного классификатора или, чаще, для уменьшения размерности перед последующей классификацией .

LDA тесно связана с дисперсионным анализом (ANOVA) и регрессионным анализом , которые также пытаются выразить одну зависимую переменную как линейную комбинацию других функций или измерений. ^[1]^[2] Однако ANOVA использует категориальные независимые переменные и непрерывную зависимую переменную , тогда как дискриминантный анализ имеет непрерывные независимые переменные и категориальную зависимую переменную ( т. Е. Метку класса). ^[3] Логистическая регрессия и пробит-регрессия больше похожи на LDA, чем на ANOVA, поскольку они также объясняют категориальную переменную значениями непрерывных независимых переменных. Эти другие методы предпочтительны в приложениях, где неразумно предполагать, что независимые переменные имеют нормальное распределение, что является фундаментальным предположением метода LDA.

LDA также тесно связана с анализом главных компонентов (PCA) и факторным анализом, поскольку оба они ищут линейные комбинации переменных, которые лучше всего объясняют данные. ^[4] LDA явно пытается смоделировать разницу между классами данных. PCA, напротив, не принимает во внимание различие в классе, а факторный анализ строит комбинации признаков на основе различий, а не сходства. Дискриминантный анализ также отличается от факторного анализа тем, что это не метод взаимозависимости: необходимо проводить различие между независимыми переменными и зависимыми переменными (также называемыми критериальными переменными).

LDA работает, когда измерения независимых переменных для каждого наблюдения являются непрерывными величинами. При работе с категориальными независимыми переменными эквивалентным методом является дискриминантный анализ соответствия. ^[5]^[6]

Дискриминантный анализ используется, когда группы известны априори (в отличие от кластерного анализа ). Каждый случай должен иметь балл по одному или нескольким количественным прогнозирующим показателям и балл по групповому показателю. ^[7] Проще говоря, анализ дискриминантной функции - это классификация - акт распределения вещей на группы, классы или категории одного типа.

История

Первоначальный дихотомический дискриминантный анализ был разработан сэром Рональдом Фишером в 1936 году. ^[8] Он отличается от ANOVA или MANOVA , которые используются для прогнозирования одной (ANOVA) или нескольких (MANOVA) непрерывных зависимых переменных с помощью одной или нескольких независимых категориальных переменных. . Анализ дискриминантной функции полезен для определения того, эффективен ли набор переменных для прогнозирования принадлежности к категории. ^[9]

LDA для двух классов

Рассмотрим набор наблюдений ${\ displaystyle {\ vec {x}}}$ (также называемые функциями, атрибутами, переменными или измерениями) для каждого образца объекта или события с известным классом ${\ displaystyle y}$ . Этот набор образцов называется обучающим набором . Тогда проблема классификации состоит в том, чтобы найти хороший предиктор для класса ${\ displaystyle y}$ любой выборки того же распределения (не обязательно из обучающей выборки) с учетом только наблюдения ${\ displaystyle {\ vec {x}}}$ . ^[10]^{: 338}

LDA подходит к проблеме, предполагая, что условные функции плотности вероятности ${\ displaystyle p ({\ vec {x}} | y = 0)}$ а также ${\ displaystyle p ({\ vec {x}} | y = 1)}$ являются нормальным распределением со средним значением и параметрами ковариации ${\ displaystyle \ left ({\ vec {\ mu}} _ {0}, \ Sigma _ {0} \ right)}$ а также ${\ displaystyle \ left ({\ vec {\ mu}} _ {1}, \ Sigma _ {1} \ right)}$ , соответственно. При этом предположении оптимальное решение Байеса состоит в том, чтобы прогнозировать точки как принадлежащие ко второму классу, если логарифм отношений правдоподобия больше некоторого порогового значения T, так что:

{\ displaystyle ({\ vec {x}} - {\ vec {\ mu}} _ {0}) ^ {T} \ Sigma _ {0} ^ {- 1} ({\ vec {x}} - { \ vec {\ mu}} _ {0}) + \ ln | \ Sigma _ {0} | - ({\ vec {x}} - {\ vec {\ mu}} _ {1}) ^ {T} \ Sigma _ {1} ^ {- 1} ({\ vec {x}} - {\ vec {\ mu}} _ {1}) - \ ln | \ Sigma _ {1} | \> \ T}

Без каких-либо дополнительных предположений полученный классификатор называется QDA ( квадратичный дискриминантный анализ ).

Вместо этого LDA делает дополнительное упрощающее предположение о гомоскедастичности ( т. Е. Что ковариации классов идентичны, поэтому ${\ Displaystyle \ Sigma _ {0} = \ Sigma _ {1} = \ Sigma}$ ) и ковариации имеют полный ранг. В этом случае отменяются несколько сроков:

{\ displaystyle {\ vec {x}} ^ {T} \ Sigma _ {0} ^ {- 1} {\ vec {x}} = {\ vec {x}} ^ {T} \ Sigma _ {1} ^ {- 1} {\ vec {x}}}

{\ displaystyle {\ vec {x}} ^ {T} {\ Sigma _ {i}} ^ {- 1} {\ vec {\ mu}} _ {i} = {{\ vec {\ mu}} _ {i}} ^ {T} {\ Sigma _ {i}} ^ {- 1} {\ vec {x}}}

так как

{\ displaystyle \ Sigma _ {i}}

является эрмитова

и вышеупомянутый критерий решения становится порогом для скалярного произведения

{\ displaystyle {\ vec {w}} \ cdot {\ vec {x}}> c}

для некоторой пороговой константы c , где

{\ displaystyle {\ vec {w}} = \ Sigma ^ {- 1} ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0})}

{\ displaystyle c = {\ vec {w}} \ cdot {\ frac {1} {2}} ({\ vec {\ mu}} _ {1} + {\ vec {\ mu}} _ {0} )}

Это означает, что критерий входа ${\ displaystyle {\ vec {x}}}$ быть в классе ${\ displaystyle y}$ является чисто функцией этой линейной комбинации известных наблюдений.

Часто бывает полезно увидеть этот вывод в геометрических терминах: критерий входа ${\ displaystyle {\ vec {x}}}$ быть в классе ${\ displaystyle y}$ является чисто функцией проекции точки многомерного пространства ${\ displaystyle {\ vec {x}}}$ на вектор ${\ displaystyle {\ vec {w}}}$ (таким образом, мы рассматриваем только его направление). Другими словами, наблюдение принадлежит ${\ displaystyle y}$ если соответствующий ${\ displaystyle {\ vec {x}}}$ находится на определенной стороне гиперплоскости перпендикулярно ${\ displaystyle {\ vec {w}}}$ . Расположение самолета определяется порогом c.

Предположения

Допущения дискриминантного анализа такие же, как и для MANOVA. Анализ довольно чувствителен к выбросам, и размер самой маленькой группы должен быть больше, чем количество переменных-предикторов. ^[7]

Многомерная нормальность : независимые переменные являются нормальными для каждого уровня группирующей переменной. ^[9]^[7]
Однородность дисперсии / ковариации ( гомоскедастичность ): Вариации между групповыми переменными одинаковы на разных уровнях предикторов. Можно проверить с помощью статистики М. Бокса . ^[9] Было предложено, однако, использовать линейный дискриминантный анализ, когда ковариации равны, и что квадратичный дискриминантный анализ может использоваться, когда ковариации не равны. ^[7]
Мультиколлинеарность : предсказательная сила может уменьшаться с увеличением корреляции между предсказывающими переменными. ^[7]
Независимость : предполагается, что участники отбираются случайным образом, и предполагается, что оценка участника по одной переменной не зависит от оценок по этой переменной для всех других участников. ^[9]^[7]

Было высказано предположение, что дискриминантный анализ относительно устойчив к незначительным нарушениям этих предположений ^[11], а также было показано, что дискриминантный анализ может быть надежным при использовании дихотомических переменных (где многомерная нормальность часто нарушается). ^[12]

Дискриминантные функции

Дискриминантный анализ работает путем создания одной или нескольких линейных комбинаций предикторов, создавая новую скрытую переменную для каждой функции. Эти функции называются дискриминантными функциями. Возможное количество функций: ${\ displaystyle N_ {g} -1}$ где ${\ displaystyle N_ {g}}$ = количество групп, или ${\ displaystyle p}$ (количество предикторов), в зависимости от того, что меньше. Первая созданная функция максимизирует различия между группами по этой функции. Вторая функция максимизирует различия в этой функции, но также не должна коррелировать с предыдущей функцией. Это продолжается с последующими функциями с требованием, чтобы новая функция не коррелировала ни с одной из предыдущих функций.

Данная группа ${\ displaystyle j}$ , с участием ${\ Displaystyle \ mathbb {R} _ {j}}$ наборов выборочного пространства, существует дискриминантное правило такое, что если ${\ Displaystyle х \ in \ mathbb {R} _ {j}}$ , тогда ${\ displaystyle x \ in j}$ . Таким образом, дискриминантный анализ находит «хорошие» регионы ${\ Displaystyle \ mathbb {R} _ {j}}$ для минимизации ошибок классификации, что приводит к высокому проценту правильных классификаций в таблице классификации. ^[13]

Каждой функции присваивается дискриминантный балл ^{[ требуется пояснение ],} чтобы определить, насколько хорошо она предсказывает размещение группы.

Коэффициенты корреляции структуры: корреляция между каждым предиктором и дискриминантной оценкой каждой функции. Это корреляция нулевого порядка (т. Е. Не скорректированная для других предикторов). ^[14]
Стандартизированные коэффициенты: вес каждого предиктора в линейной комбинации, которая является дискриминантной функцией. Как и в уравнении регрессии, эти коэффициенты являются частичными (то есть с поправкой на другие предикторы). Указывает уникальный вклад каждого предиктора в прогнозирование группового назначения.
Функции в центроидах группы: средние дискриминантные оценки для каждой группирующей переменной даны для каждой функции. Чем дальше друг от друга находятся средние значения, тем меньше будет ошибок в классификации.

Правила дискриминации

Максимальная вероятность : присваивает x группе, которая максимизирует плотность населения (группы). ^[15]
Дискриминантное правило Байеса: присваивает x группе, которая максимизирует ${\ Displaystyle \ пи _ {я} е_ {я} (х)}$ , где π _i представляет собой априорную вероятность этой классификации, а ${\ Displaystyle f_ {я} (х)}$ представляет плотность населения. ^[15]
Линейный дискриминантный правило Фишера : максимизирует соотношение между SS _между и СС в _{пределах} , и находит в виде линейной комбинации предикторов предсказать группу. ^[15]

Собственные значения

Собственное значение в дискриминантном анализе является характеристическим корнем каждой функции. ^{[ требуется пояснение ]} Это показатель того, насколько хорошо эта функция различает группы, причем чем больше собственное значение, тем лучше дифференцируется функция. ^[7] Однако это следует интерпретировать с осторожностью, поскольку собственные значения не имеют верхнего предела. ^[9]^[7] Собственное значение можно рассматривать как отношение SS _между и SS _{внутри,} как в ANOVA, когда зависимая переменная является дискриминантной функцией, а группы - уровнями IV ^{[ требуется пояснение ]} . ^[9] Это означает, что наибольшее собственное значение связано с первой функцией, второе по величине - со второй и т. Д.

Размер эффекта

Некоторые предлагают использовать собственные значения в качестве меры величины эффекта , однако, как правило, это не поддерживается. ^[9] Вместо этого каноническая корреляция является предпочтительной мерой величины эффекта. Оно похоже на собственное значение, но представляет собой квадратный корень из отношения SS _между и SS _total . Это взаимосвязь между группами и функцией. ^[9] Другой популярной мерой величины эффекта является процент отклонения ^{[ требуется пояснение ]} для каждой функции. Это вычисляется по формуле : ( λ _x / Σλ _i ) X 100, где λ _x - собственное значение функции, а Σ λ _i - сумма всех собственных значений. Это говорит нам, насколько надежен прогноз для этой конкретной функции по сравнению с другими. ^[9] Правильно классифицированный процент также может быть проанализирован как величина эффекта. Значение каппа может описать это с поправкой на случайное совпадение. ^[9] Каппа нормализуется по всем категориям, а не подвергается предвзятости из-за значительно хороших или плохо выполняемых классов. ^{[ требуется разъяснение ]}^[16]

Канонический дискриминантный анализ для k классов

Канонический дискриминантный анализ (CDA) находит оси ( k - 1 канонические координаты , k - количество классов), которые лучше всего разделяют категории. Эти линейные функции не коррелированы и, по сути, определяют оптимальное k - 1 пространство через n- мерное облако данных, которое наилучшим образом разделяет (проекции в этом пространстве) k групп. См. « Multiclass LDA » для подробностей ниже.

Линейный дискриминант Фишера

Термины линейный дискриминант Фишера и LDA часто используются как взаимозаменяемые, хотя в оригинальной статье Фишера ^[1] фактически описывается несколько иной дискриминант, который не делает некоторых допущений LDA, таких как нормально распределенные классы или ковариации равных классов .

Предположим, что два класса наблюдений имеют средства ${\ displaystyle {\ vec {\ mu}} _ {0}, {\ vec {\ mu}} _ {1}}$ и ковариации ${\ displaystyle \ Sigma _ {0}, \ Sigma _ {1}}$ . Тогда линейная комбинация признаков ${\ displaystyle {\ vec {w}} \ cdot {\ vec {x}}}$ будет иметь средства ${\ Displaystyle {\ vec {w}} \ cdot {\ vec {\ mu}} _ {я}}$ и отклонения ${\ Displaystyle {\ vec {w}} ^ {T} \ Sigma _ {я} {\ vec {w}}}$ для ${\ Displaystyle я = 0,1}$ . Фишер определил разделение между этими двумя распределениями как отношение дисперсии между классами к дисперсии внутри классов:

{\ displaystyle S = {\ frac {\ sigma _ {\ text {between}} ^ {2}} {\ sigma _ {\ text {within}} ^ {2}}} = {\ frac {({\ vec {w}} \ cdot {\ vec {\ mu}} _ {1} - {\ vec {w}} \ cdot {\ vec {\ mu}} _ {0}) ^ {2}} {{\ vec {w}} ^ {T} \ Sigma _ {1} {\ vec {w}} + {\ vec {w}} ^ {T} \ Sigma _ {0} {\ vec {w}}}} = { \ frac {({\ vec {w}} \ cdot ({\ vec {\ mu}} _ {1} - {\ vec {\ mu}} _ {0})) ^ {2}} {{\ vec {w}} ^ {T} (\ Sigma _ {0} + \ Sigma _ {1}) {\ vec {w}}}}}

Эта мера в некотором смысле является мерой отношения сигнал / шум для маркировки класса. Можно показать, что максимальное разделение происходит, когда

{\ displaystyle {\ vec {w}} \ propto (\ Sigma _ {0} + \ Sigma _ {1}) ^ {- 1} ({\ vec {\ mu}} _ {1} - {\ vec { \ mu}} _ {0})}

Когда предположения LDA выполняются, приведенное выше уравнение эквивалентно LDA.

Линейный дискриминант Фишера в виде оси

Обязательно учтите, что вектор ${\ displaystyle {\ vec {w}}}$ является нормальным дискриминантной гиперплоскости . Например, в двумерной задаче линия, которая лучше всего разделяет две группы, перпендикулярна ${\ displaystyle {\ vec {w}}}$ .

Как правило, точки данных, подлежащие различению, проецируются на ${\ displaystyle {\ vec {w}}}$ ; тогда порог, который лучше всего разделяет данные, выбирается из анализа одномерного распределения. Общего правила для порога нет. Однако, если проекции точек из обоих классов демонстрируют примерно одинаковое распределение, хорошим выбором будет гиперплоскость между проекциями двух средних, ${\ displaystyle {\ vec {w}} \ cdot {\ vec {\ mu}} _ {0}}$ а также ${\ displaystyle {\ vec {w}} \ cdot {\ vec {\ mu}} _ {1}}$ . В этом случае параметр c в пороговом условии ${\ displaystyle {\ vec {w}} \ cdot {\ vec {x}}> c}$ можно найти явно:

{\ displaystyle c = {\ vec {w}} \ cdot {\ frac {1} {2}} ({\ vec {\ mu}} _ {0} + {\ vec {\ mu}} _ {1} ) = {\ frac {1} {2}} {\ vec {\ mu}} _ {1} ^ {T} \ Sigma _ {1} ^ {- 1} {\ vec {\ mu}} _ {1 } - {\ frac {1} {2}} {\ vec {\ mu}} _ {0} ^ {T} \ Sigma _ {0} ^ {- 1} {\ vec {\ mu}} _ {0 }}

.

Метод Оцу связан с линейным дискриминантом Фишера и был создан для бинаризации гистограммы пикселей в изображении в градациях серого путем оптимального выбора порога черного / белого, который минимизирует внутриклассовую дисперсию и максимизирует межклассовую дисперсию внутри / между оттенками серого, назначенными черному и классы белых пикселей.

Мультиклассовый LDA

Визуализация для всех осей LDA для 4 классов в 3D

Проекции по линейным дискриминантным осям для 4 классов

В случае, когда имеется более двух классов, анализ, использованный при выводе дискриминанта Фишера, может быть расширен, чтобы найти подпространство, которое, по-видимому, содержит всю изменчивость класса. ^[17] Это обобщение принадлежит Ч. Р. Рао . ^[18] Предположим, что каждый из классов C имеет среднее значение ${\ Displaystyle \ mu _ {я}}$ и та же ковариация ${\ displaystyle \ Sigma}$ . Тогда разброс между изменчивостью классов можно определить с помощью выборочной ковариации средних значений класса.

{\ displaystyle \ Sigma _ {b} = {\ frac {1} {C}} \ sum _ {i = 1} ^ {C} (\ mu _ {i} - \ mu) (\ mu _ {i} - \ mu) ^ {T}}

где ${\ displaystyle \ mu}$ среднее значение класса. Разделение классов в направлении ${\ displaystyle {\ vec {w}}}$ в этом случае будет дано

{\ displaystyle S = {\ frac {{\ vec {w}} ^ {T} \ Sigma _ {b} {\ vec {w}}} {{\ vec {w}} ^ {T} \ Sigma {\ vec {w}}}}}

Это означает, что когда ${\ displaystyle {\ vec {w}}}$ является собственным вектором из ${\ Displaystyle \ Sigma ^ {- 1} \ Sigma _ {b}}$ расстояние будет равно соответствующему собственному значению .

Если ${\ Displaystyle \ Sigma ^ {- 1} \ Sigma _ {b}}$ диагонализуема, вариативность между функциями будет содержаться в подпространстве, охватываемом собственными векторами, соответствующими C - 1 наибольшим собственным значениям (поскольку ${\ displaystyle \ Sigma _ {b}}$ имеет ранг C - не более 1). Эти собственные векторы в основном используются для уменьшения признаков, как в PCA. Собственные векторы, соответствующие меньшим собственным значениям, будут очень чувствительны к точному выбору обучающих данных, и часто необходимо использовать регуляризацию, как описано в следующем разделе.

Если требуется классификация, вместо уменьшения размеров существует ряд альтернативных методов. Например, классы могут быть разделены, и для классификации каждого раздела может использоваться стандартный дискриминант Фишера или LDA. Типичный пример этого - «один против остальных», когда очки одного класса помещаются в одну группу, а все остальное - в другую, а затем применяется LDA. Это приведет к созданию классификаторов C, результаты которых будут объединены. Другой распространенный метод - это попарная классификация, при которой новый классификатор создается для каждой пары классов (всего получается C ( C - 1) / 2 классификатора), при этом отдельные классификаторы объединяются для получения окончательной классификации.

Инкрементальный LDA

Типичная реализация метода LDA требует, чтобы все образцы были доступны заранее. Однако бывают ситуации, когда весь набор данных недоступен, а входные данные наблюдаются как поток. В этом случае желательно, чтобы при извлечении признаков LDA была возможность обновлять вычисленные признаки LDA путем наблюдения за новыми выборками без запуска алгоритма для всего набора данных. Например, во многих приложениях реального времени, таких как мобильная робототехника или онлайн-распознавание лиц, важно обновлять извлеченные функции LDA, как только станут доступны новые наблюдения. Метод извлечения признаков LDA, который может обновлять особенности LDA, просто наблюдая за новыми образцами, представляет собой инкрементный алгоритм LDA , и эта идея широко изучалась в течение последних двух десятилетий. ^[19] Чаттерджи и Ройчоудхури предложили инкрементный самоорганизующийся алгоритм LDA для обновления функций LDA. ^[20] В другой работе Демир и Озмехмет предложили онлайн-алгоритмы локального обучения для постепенного обновления функций LDA с использованием исправления ошибок и правил обучения Hebbian. ^[21] Позже Алияри и др . получены быстрые инкрементные алгоритмы для обновления функций LDA путем наблюдения за новыми образцами. ^[19]

Практическое использование

На практике классовые средние и ковариации неизвестны. Однако их можно оценить по обучающей выборке. Либо оценка максимального правдоподобия или максимальная апостериорная оценка может быть использована вместо точного значения в приведенных выше уравнениях. Хотя оценки ковариации могут считаться оптимальными в некотором смысле, это не означает, что результирующий дискриминант, полученный путем подстановки этих значений, является оптимальным в любом смысле, даже если предположение о нормально распределенных классах верно.

Другая сложность в применении LDA и дискриминанта Фишера к реальным данным возникает, когда количество измерений каждой выборки (т. Е. Размерность каждого вектора данных) превышает количество выборок в каждом классе. ^[4] В этом случае оценки ковариации не имеют полного ранга и поэтому не могут быть инвертированы. Есть несколько способов справиться с этим. Один из них - использовать псевдообратную матрицу вместо обычной обратной матрицы в приведенных выше формулах. Однако лучшей числовой стабильности можно достичь, сначала спроецировав проблему на подпространство, охватываемое ${\ displaystyle \ Sigma _ {b}}$ . ^[22] Еще одна стратегия работы с малым размером выборки состоит в использовании оценки сжатия ковариационной матрицы, которую математически можно выразить как

{\ Displaystyle \ Sigma = (1- \ lambda) \ Sigma + \ lambda I \,}

где ${\ displaystyle I}$ - единичная матрица, а ${\ displaystyle \ lambda}$ - интенсивность усадки или параметр регуляризации . Это приводит к структуре регуляризованного дискриминантного анализа ^[23] или дискриминантного анализа усадки. ^[24]

Кроме того, во многих практических случаях линейные дискриминанты не подходят. Дискриминант LDA и Фишера может быть расширен для использования в нелинейной классификации с помощью трюка с ядром . Здесь исходные наблюдения эффективно отображаются в нелинейное пространство более высокой размерности. Тогда линейная классификация в этом нелинейном пространстве эквивалентна нелинейной классификации в исходном пространстве. Наиболее часто используемым примером этого является дискриминант Фишера ядра .

LDA можно обобщить на множественный дискриминантный анализ , где c становится категориальной переменной с N возможными состояниями вместо двух. Аналогично, если условные плотности классов ${\ Displaystyle р ({\ vec {x}} \ середина с = я)}$ нормальны с общими ковариациями, достаточная статистика для ${\ Displaystyle P (с \ mid {\ vec {x}})}$ являются значениями N проекций, которые представляют собой подпространство, натянутое на N средних, аффинно спроецированных обратной матрицей ковариации. Эти прогнозы могут быть найдены путем решения обобщенной задачи на собственные значения , где числитель - это ковариационная матрица, сформированная путем обработки средних значений как выборок, а знаменатель - это общая ковариационная матрица. Подробнее см. « Multiclass LDA » выше.

Приложения

В дополнение к примерам, приведенным ниже, LDA применяется в позиционировании и управлении продуктами .

Прогноз банкротства

При прогнозировании банкротства на основе бухгалтерских коэффициентов и других финансовых переменных линейный дискриминантный анализ был первым статистическим методом, применяемым для систематического объяснения того, какие фирмы вступили в банкротство, а какие выжили. Несмотря на ограничения , в то числе известных несоответствий учета коэффициентов для нормальных предположений распределения LDA, Эдвард Альтман «s 1968 модели по - прежнему является ведущей модели в практических приложениях.

Распознавание лица

В компьютеризированном распознавании лиц каждое лицо представлено большим количеством значений пикселей. Здесь в первую очередь используется линейный дискриминантный анализ, чтобы уменьшить количество признаков до более управляемого числа перед классификацией. Каждое из новых измерений представляет собой линейную комбинацию значений пикселей, образующих шаблон. Линейные комбинации, полученные с использованием линейного дискриминанта Фишера, называются гранями Фишера , а комбинации, полученные с помощью соответствующего анализа главных компонент , называются собственными гранями .

Маркетинг

В маркетинге дискриминантный анализ когда-то часто использовался для определения факторов, которые различают разные типы клиентов и / или продуктов на основе опросов или других форм собранных данных. В настоящее время чаще используются логистическая регрессия или другие методы. Использование дискриминантного анализа в маркетинге можно описать следующими этапами:

Сформулируйте проблему и соберите данные - Определите основные атрибуты, которые потребители используют для оценки продуктов в этой категории. - Используйте методы количественных маркетинговых исследований (например, опросы ) для сбора данных от выборки потенциальных клиентов относительно их оценок всех атрибутов продукта. Стадия сбора данных обычно выполняется профессионалами в области маркетинговых исследований. Вопросы опроса просят респондента оценить продукт от одного до пяти (или от 1 до 7, или от 1 до 10) по ряду атрибутов, выбранных исследователем. Выбирается от пяти до двадцати атрибутов. Они могут включать в себя такие вещи, как простота использования, вес, точность, долговечность, цветность, цена или размер. Выбранные атрибуты будут различаться в зависимости от изучаемого продукта. Тот же вопрос задается обо всех продуктах в исследовании. Данные для нескольких продуктов кодируются и вводятся в статистическую программу, такую как R , SPSS или SAS . (Этот шаг такой же, как и в факторном анализе).
Оцените коэффициенты дискриминантной функции и определите статистическую значимость и достоверность - выберите соответствующий метод дискриминантного анализа. Прямой метод включает оценку дискриминантной функции, так что все предикторы оцениваются одновременно. Пошаговый метод входит в предикторы последовательно. Метод двух групп следует использовать, когда зависимая переменная имеет две категории или состояния. Метод множественного дискриминанта используется, когда зависимая переменная имеет три или более категориальных состояния. Используйте лямбда Уилкса для проверки значимости в SPSS или F stat в SAS. Наиболее распространенный метод, используемый для проверки достоверности, - это разделение выборки на выборку для оценки или анализа и выборку для валидации или задержку. Оценочная выборка используется при построении дискриминантной функции. Проверочная выборка используется для построения классификационной матрицы, которая содержит количество правильно классифицированных и неправильно классифицированных случаев. Процент правильно классифицированных случаев называется коэффициентом успешности .
Нанесите результаты на двухмерную карту, определите размеры и интерпретируйте результаты. Статистическая программа (или связанный с ней модуль) отобразит результаты. На карте будет нанесен каждый продукт (обычно в двухмерном пространстве). Расстояние товаров друг от друга показывает, насколько они разные. Размеры должны быть промаркированы исследователем. Это требует субъективного суждения и часто очень сложно. См. Перцепционное отображение .

Биомедицинские исследования

Основное применение дискриминантного анализа в медицине - оценка тяжести состояния пациента и прогноз исхода заболевания. Например, при ретроспективном анализе пациенты делятся на группы по степени тяжести заболевания - легкая, среднетяжелая и тяжелая форма. Затем изучаются результаты клинических и лабораторных анализов с целью выявления статистически различающихся переменных в исследуемых группах. Используя эти переменные, строятся дискриминантные функции, которые помогают объективно классифицировать заболевание будущего пациента на легкую, среднюю или тяжелую форму.

В биологии аналогичные принципы используются для классификации и определения групп различных биологических объектов, например, для определения типов фагов Salmonella enteritidis на основе инфракрасных спектров с преобразованием Фурье ^[25], для обнаружения животного источника Escherichia coli, изучения факторов его вирулентности. ^[26] и т. Д.

Наука о планете Земля

Этот метод можно использовать для разделения зон изменения ^{[ требуется уточнение ]} . Например, когда доступны разные данные из разных зон, дискриминантный анализ может найти закономерность в данных и эффективно ее классифицировать. ^[27]

Сравнение с логистической регрессией

Анализ дискриминантной функции очень похож на логистическую регрессию , и оба могут использоваться для ответа на одни и те же вопросы исследования. ^[9] Логистическая регрессия не имеет такого количества допущений и ограничений, как дискриминантный анализ. Однако, когда допущения дискриминантного анализа выполняются, он оказывается более действенным, чем логистическая регрессия. ^[28] В отличие от логистической регрессии, дискриминантный анализ можно использовать с небольшими размерами выборки. Было показано, что когда размеры выборки равны и сохраняется однородность дисперсии / ковариации, дискриминантный анализ более точен. ^[7] Несмотря на все эти преимущества, логистическая регрессия, тем не менее, стала обычным выбором, поскольку допущения дискриминантного анализа выполняются редко. ^[8]^[7]

Линейный дискриминант в большой размерности

Геометрические аномалии большой размерности приводят к известному проклятию размерности . Тем не менее, правильное использование феномена концентрации меры может облегчить вычисления. ^[29] Важный случай этого благословения явлений размерности был выделен Донохо и Таннером: если выборка существенно многомерна, то каждая точка может быть отделена от остальной части выборки линейным неравенством с высокой вероятностью даже для экспоненциально большие образцы. ^[30] Эти линейные неравенства могут быть выбраны в стандартной (Фишеровской) форме линейного дискриминанта для богатого семейства вероятностных распределений. ^[31] В частности, такие теоремы доказываются для лог-вогнутых распределений, включая многомерное нормальное распределение (доказательство основано на неравенствах концентрации для лог-вогнутых мер ^[32] ) и для мер продукта на многомерном кубе (это доказывается с использованием Неравенство концентрации Талаграна для вероятностных пространств произведения). Разделимость данных с помощью классических линейных дискриминантов упрощает проблему исправления ошибок для систем искусственного интеллекта в большой размерности. ^[33]

Смотрите также

Сбор данных
Обучение дереву решений
Факторный анализ
Дискриминантный анализ ядра Фишера
Логит (для логистической регрессии )
Линейная регрессия
Множественный дискриминантный анализ
Многомерное масштабирование
Распознавание образов
Регрессия предпочтений
Квадратичный классификатор
Статистическая классификация

дальнейшее чтение

Дуда, РО; Харт, ЧП; Аист, DH (2000). Классификация паттернов (2-е изд.). Wiley Interscience. ISBN 978-0-471-05669-0. Руководство по ремонту 1802993 .
Хильбе, JM (2009). Модели логистической регрессии . Чепмен и Холл / CRC Press. ISBN 978-1-4200-7575-5.
Mika, S .; и другие. (1999). «Дискриминантный анализ Фишера с ядрами». Нейронные сети для обработки сигналов IX: Материалы семинара Общества обработки сигналов IEEE 1999 г. (Каталожный номер 98TH8468) . Конференция IEEE по нейронным сетям для обработки сигналов IX . С. 41–48. CiteSeerX 10.1.1.35.9904 . DOI : 10.1109 / NNSP.1999.788121 . ISBN 978-0-7803-5673-3. S2CID 8473401 .
Макфарланд, Х. Ричард; Дональд, Сент-П. Ричардс (2001). «Вероятности точной неправильной классификации для подключаемых нормальных квадратичных дискриминантных функций. I. Случай равных средних» . Журнал многомерного анализа . 77 (1): 21–53. DOI : 10,1006 / jmva.2000.1924 .
Макфарланд, Х. Ричард; Дональд, Сент-П. Ричардс (2002). «Вероятности точной неправильной классификации для подключаемых нормальных квадратичных дискриминантных функций. II. Гетерогенный случай» . Журнал многомерного анализа . 82 (2): 299–330. DOI : 10,1006 / jmva.2001.2034 .
Haghighat, M .; Abdel-Mottaleb, M .; Алхалаби, В. (2016). «Дискриминантный корреляционный анализ: слияние уровней функций в реальном времени для мультимодального биометрического распознавания» . IEEE Transactions по информационной криминалистике и безопасности . 11 (9): 1984–1996. DOI : 10.1109 / TIFS.2016.2569061 . S2CID 15624506 .

Внешние ссылки

Дискриминантный корреляционный анализ (DCA) статьи Haghighat (см. Выше)
ALGLIB содержит реализацию LDA с открытым исходным кодом на C # / C ++ / Pascal / VBA.
LDA в Python - реализация LDA в Python
Учебник LDA с использованием MS Excel
Биомедицинская статистика. Дискриминантный анализ
StatQuest: линейный дискриминантный анализ (LDA) четко объяснен на YouTube
Примечания к курсу, Анализ дискриминантной функции, Дж. Дэвид Гарсон, Университет штата Северная Каролина
Учебник по дискриминантному анализу в Microsoft Excel от Карди Текномо
Примечания к курсу, Анализ дискриминантной функции, Дэвид В. Стокбургер, Государственный университет Миссури.
Анализ дискриминантной функции (DA) Джона Поулсена и Аарона Френча, Государственный университет Сан-Франциско

[Fisher:1936-1] Фишер, Р.А. (1936). «Использование множественных измерений в таксономических задачах» (PDF) . Летопись евгеники . 7 (2): 179–188. DOI : 10.1111 / j.1469-1809.1936.tb02137.x . ЛВП : 2440/15227 .

[McLachlan:2004-2] Маклахлан, GJ (2004). Дискриминантный анализ и статистическое распознавание образов . Wiley Interscience. ISBN 978-0-471-69115-0. Руководство по ремонту 1190469 .

[3] Анализ количественных данных: введение для социальных исследователей, Дебра Ветчер-Хендрикс, стр.288

[Martinez:2001-4] а б Мартинес, AM; Как, AC (2001). «PCA против LDA» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 23 (= 2): 228–233. DOI : 10.1109 / 34.908974 .

[Abdi_2007-5] Абди, Х. (2007) "Дискриминантный анализ корреспонденции". В: NJ Salkind (Ed.): Encyclopedia of Measurement and Statistic . Таузенд-Оукс (Калифорния): Шалфей. С. 270–275.

[Perriere_2003-6] Perriere, G .; Тиулуза, Дж. (2003). «Использование соответствующего дискриминантного анализа для прогнозирования субклеточного расположения бактериальных белков». Компьютерные методы и программы в биомедицине . 70 (2): 99–105. DOI : 10.1016 / s0169-2607 (02) 00011-1 . PMID 12507786 .

[buy-7] ^ a b c d e f g h i j BÖKEOĞLU ÇOKLUK, Ö, & BÜYÜKÖZTÜRK, Ş. (2008). Анализ дискриминантной функции: понятие и применение . Eğitim araştırmaları dergisi, (33), 73-92.

[cohen-8] а б Коэн и др. Прикладная множественная регрессия / корреляционный анализ для поведенческих наук 3-е изд. (2003). Группа Тейлор и Фрэнсис.

[green-9] Б с д е е г ч я J K Green, SB Залкинд, NJ & AKEY, TM (2008). Использование SPSS для Windows и Macintosh: анализ и понимание данных . Нью-Джерси: Прентис-Холл.

[Venables:2002-10] Venables, WN; Рипли, Б.Д. (2002). Современная прикладная статистика с S (4-е изд.). Springer Verlag. ISBN 978-0-387-95457-8.

[11] Lachenbruch, PA (1975). Дискриминантный анализ . Нью-Йорк: Хафнер

[12] Клецка, William R. (1980). Дискриминантный анализ . Количественные применения в серии социальных наук, № 19. Таузенд-Оукс, Калифорния: Sage Publications.

[13] Härdle, W., Simar, L. (2007). Прикладной многомерный статистический анализ . Springer Berlin Heidelberg. С. 289–303.

[14] Перейти ↑ Garson, GD (2008). Анализ дискриминантной функции. https://web.archive.org/web/20080312065328/http://www2.chass.ncsu.edu/garson/pA765/discrim.htm .

[har-15] Хардл, В., Симар, Л. (2007). Прикладной многомерный статистический анализ . Springer Berlin Heidelberg. С. 289-303.

[16] Израиль, Стивен А. (июнь 2006 г.). «Показатели производительности: как и когда». Geocarto International . 21 (2): 23–32. DOI : 10.1080 / 10106040608542380 . ISSN 1010-6049 . S2CID 122376081 .

[garson-17] Перейти ↑ Garson, GD (2008). Анализ дискриминантной функции. «Архивная копия» . Архивировано из оригинала на 2008-03-12 . Проверено 4 марта 2008 .CS1 maint: заархивированная копия как заголовок ( ссылка ) .

[Rao:1948-18] Рао, Р. К. (1948). «Использование множественных измерений в задачах биологической классификации». Журнал Королевского статистического общества, Series B . 10 (2): 159–203. JSTOR 2983775 .

[:0-19] а б Алияри Гассабех, Юнесс; Рудзич, Франк; Могхаддам, Хамид Абришами (01.06.2015). «Быстрое инкрементное извлечение функций LDA». Распознавание образов . 48 (6): 1999–2012. DOI : 10.1016 / j.patcog.2014.12.012 .

[:1-20] Chatterjee, C .; Ройчоудхури, вице-президент (1 мая 1997 г.). «О самоорганизующихся алгоритмах и сетях для функций классовой разделимости». IEEE-транзакции в нейронных сетях . 8 (3): 663–678. DOI : 10.1109 / 72.572105 . ISSN 1045-9227 . PMID 18255669 .

[21] Демир, ГК; Озмехмет, К. (2005-03-01). «Алгоритмы локального онлайн-обучения для линейного дискриминантного анализа». Распознавание образов. Lett . 26 (4): 421–431. DOI : 10.1016 / j.patrec.2004.08.005 . ISSN 0167-8655 .

[22] Yu, H .; Ян, Дж. (2001). «Прямой алгоритм LDA для многомерных данных - с приложением для распознавания лиц». Распознавание образов . 34 (10): 2067–2069. CiteSeerX 10.1.1.70.3507 . DOI : 10.1016 / s0031-3203 (00) 00162-X .

[Friedman:2001-23] Фридман, JH (1989). «Регуляризованный дискриминантный анализ» (PDF) . Журнал Американской статистической ассоциации . 84 (405): 165–175. CiteSeerX 10.1.1.382.2682 . DOI : 10.2307 / 2289860 . JSTOR 2289860 . Руководство по ремонту 0999675 .

[24] Ahdesmäki, M .; Стриммер, К. (2010). «Выбор функций в задачах прогнозирования omics с использованием кошачьих баллов и контроля частоты ложных обнаружений». Анналы прикладной статистики . 4 (1): 503–519. arXiv : 0903.2003 . DOI : 10.1214 / 09-aoas277 . S2CID 2508935 .

[25] Прейснер, О; Guiomar, R; Machado, J; Menezes, JC; Лопес, Дж. А. (2010). «Применение инфракрасной спектроскопии с преобразованием Фурье и хемометрии для дифференциации типов фага Salmonella enterica serovar Enteritidis» . Appl Environ Microbiol . 76 (11): 3538–3544. DOI : 10,1128 / aem.01589-09 . PMC 2876429 . PMID 20363777 .

[26] Дэвид, Германия; Линн, AM; Хан, Дж; Фоли, SL (2010). «Оценка профиля фактора вирулентности при характеристике ветеринарных изолятов Escherichia coli» . Appl Environ Microbiol . 76 (22): 7509–7513. DOI : 10,1128 / aem.00726-10 . PMC 2976202 . PMID 20889790 .

[27] Tahmasebi, P .; Хезархани, А .; Мортазави, М. (2010). «Применение дискриминантного анализа для разделения гидротермальных изменений; месторождение меди Сунгун, Восточный Азербайджан, Иран. Австралия» (PDF) . Журнал фундаментальных и прикладных наук . 6 (4): 564–576.

[28] Тревор Хасти; Роберт Тибширани; Джером Фридман. Элементы статистического обучения. Интеллектуальный анализ данных, вывод и прогнозирование (второе изд.). Springer. п. 128.

[29] Kainen PC (1997) Использование геометрических аномалий высокой размерности: Когда сложность упрощает вычисления . В: Kárný M., Warwick K. (eds) Компьютерные интенсивные методы управления и обработки сигналов: проклятие размерности, Springer, 1997, стр. 282–294.

[30] Донохо, Д., Таннер, Дж. (2009) Наблюдаемая универсальность фазовых переходов в многомерной геометрии с последствиями для современного анализа данных и обработки сигналов , Фил. Пер. R. Soc. А 367, 4273–4293.

[31] Горбань, Александр Н .; Голубков Александр; Гречук, Богдан; Миркес, Евгений М .; Тюкин, Иван Юрьевич (2018). «Коррекция систем ИИ линейными дискриминантами: вероятностные основы». Информационные науки . 466 : 303–322. arXiv : 1811.05321 . DOI : 10.1016 / j.ins.2018.07.040 . S2CID 52876539 .

[32] Guédon, O., Milman, E. (2011) Интерполяция оценок тонкой оболочки и резких больших отклонений для изотропных логарифмически вогнутых мер , Геом. Функц. Анальный. 21 (5), 1043–1068.

[GMT2019-33] Горбань, Александр Н .; Макаров, Валерий А .; Тюкин, Иван Юрьевич (июль 2019). «Неоправданная эффективность малых нейронных ансамблей в многомерном мозге» . Обзоры физики жизни . 29 : 55–88. arXiv : 1809.07656 . DOI : 10.1016 / j.plrev.2018.09.005 . PMID 30366739 .

[1]