Анализ корреспонденции

Фактическая точность этой статьи оспаривается . Соответствующее обсуждение можно найти на странице обсуждения . Пожалуйста, помогите обеспечить надежный источник спорных заявлений . ( Апрель 2016 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Анализ переписки ( СА ) или обратное усреднение является многомерным статистическим методом предложил ^[1] по Герману Отто Хартли (Хиршфельд) ^[2] , а затем разработанный Жаном Пола Бензекри . ^[3] Он концептуально аналогичен анализу главных компонентов , но применяется к категориальным, а не непрерывным данным. Подобно анализу главных компонентов, он предоставляет средства отображения или суммирования набора данных в двухмерной графической форме. Его цель - отобразить на двумерном графикелюбая структура, скрытая в многомерной настройке таблицы данных. Таким образом, это техника из области многомерного ординации . Поскольку описанный здесь вариант CA может применяться либо с акцентом на строки, либо на столбцы, его фактически следует называть простым (симметричным) анализом соответствия . ^[4]

Это традиционно применяется к таблицам непредвиденных обстоятельств, где каждая ячейка содержит либо счетчик, либо нулевое значение. Это также может быть применено к двоичным данным, если кодирование присутствия / отсутствия представляет упрощенные данные подсчета, т.е. 1 описывает положительный счет, а 0 означает счет, равный нулю. В зависимости от используемых оценок CA сохраняет расстояние хи-квадрат ^[5]^[6] между строками или столбцами таблицы. Поскольку CA является описательной техникой, ее можно применять к таблицам независимо от значимого критерия chisquared . ^[7]^[8] Хотя статистика, используемая в выводной статистике ${\ displaystyle \ chi ^ {2}}$ и расстояние хи-квадрат связаны вычислительно, их не следует путать, поскольку последнее работает как многомерная статистическая мера расстояния в CA, в то время как статистика фактически является скаляром, а не метрикой . ${\ displaystyle \ chi ^ {2}}$

Подробности [ править ]

Как и анализ главных компонентов, анализ соответствия создает ортогональные компоненты (или оси) и для каждого элемента в таблице, то есть для каждой строки, набор оценок (иногда называемых факторными оценками, см. Факторный анализ ). Анализ соответствия выполняется для таблицы данных, представленной как матрица C размера m × n, где m - количество строк, а n - количество столбцов. В следующем математическом описании метода заглавные буквы, выделенные курсивом, относятся к матрице, а буквы, выделенные курсивом, относятся к векторам . Для понимания следующих вычислений требуется знание матричной алгебры.

Предварительная обработка [ править ]

Прежде чем перейти к центральному вычислительному шагу алгоритма, значения в матрице C должны быть преобразованы. ^[9] Сначала вычислите набор весов для столбцов и строк (иногда называемых массами ), ^[10]^[11] где веса строк и столбцов задаются векторами столбцов и строк соответственно:

{\ displaystyle w_ {m} = {\ frac {1} {n_ {C}}} C \ mathbf {1}, \ quad w_ {n} = {\ frac {1} {n_ {C}}} \ mathbf {1} ^ {T} C.}

Вот сумма всех компонентов C , или сокращенно сумма C , и вектор- столбец единиц с соответствующей размерностью. ${\ displaystyle n_ {C} = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {m} C_ {ij}}$ ${\ displaystyle \ mathbf {1}}$

Помещенный простыми словами, это просто вектор, элементы которого являются строки суммы C , деленное на сумму C , и представляет собой вектор, элементы которого являются столбец суммы C , деленное на сумму C . $w_{m}$ $w_{n}$

Веса преобразуются в диагональные матрицы

W_{m}=\operatorname {diag} (1/{\sqrt {w_{m}}})

а также

W_{n}=\operatorname {diag} (1/{\sqrt {w_{n}}})

где диагональные элементы are и элементы are соответственно, т.е. элементы вектора являются обратными квадратным корням из масс. Все недиагональные элементы равны 0. $W_{n}$ $1/sqrt(w_{n})$ $W_{m}$ $1/sqrt(w_{m})$

Затем вычислите матрицу , разделив ее на сумму $P$ $C$

P={\frac {1}{n_{C}}}C.

Проще говоря, Matrix - это просто матрица данных (таблица непредвиденных обстоятельств или двоичная таблица), преобразованная в части, т.е. каждое значение ячейки - это просто часть ячейки суммы всей таблицы. $P$

Наконец, вычислить матрицу , которую иногда называют матрицей стандартизованных остатков , ^[12] с помощью матричного умножения , как $S$

S=W_{m}(P-w_{m}w_{n})W_{n}

Обратите внимание: векторы и объединяются во внешнем произведении, в результате получается матрица тех же размеров, что и . На словах формула гласит: матрица вычитается из матрицы, а полученная матрица масштабируется (взвешивается) диагональными матрицами и . Умножение матрицы на диагональные матрицы эквивалентно умножению i-й строки (или столбца) матрицы на i-й элемент диагонали матрицы и соответственно ^[13] . $w_{m}$ $w_{n}$ $P$ $outer(w_{m},w_{n})$ $S$ $W_{m}$ $W_{n}$ $S$ $S$ $W_{m}$ $W_{n}$

Интерпретация предварительной обработки [ править ]

Векторы и - это массы строк и столбцов или предельные вероятности для строк и столбцов, соответственно. Вычитание матрицы из матрицы S является версией матричной алгебры двойного центрирования данных. Умножив эту разницу по диагонали матрицы взвешивания результатов в виде матрицы , содержащей взвешенные отклонения от происхождения в виде векторного пространства . Это происхождение определяется матрицей . $w_{m}$ $w_{n}$ $outer(w_{m},w_{n})$ $outer(w_{m},w_{n})$

Фактически матрица идентична матрице ожидаемых частот в тесте хи-квадрат . Следовательно, в вычислительном отношении это связано с моделью независимости, использованной в этом тесте. Но поскольку СА не является методом вывода, термин «модель независимости» здесь неуместен. $outer(w_{m},w_{n})$ $S$

Ортогональные компоненты [ править ]

Затем таблица разлагается ^[9] разложением по сингулярным числам как $S$

S=U\Sigma V^{*}\,

где и левый и правый сингулярные векторы и квадратная диагональная матрица с особыми значениями из по диагонали. имеет размерность, следовательно, размерность m × p и размер n × p . Сек ортонормальные векторы и выполнить $U$ $V$ $U$ $\Sigma$ $\sigma _{i}$ $S$ $\Sigma$ $p\leq (min(m,n)-1)$ $U$ $V$ $U$ $V$

U^{*}U=V^{*}V=I

.

Другими словами, многомерная информация, которая содержится как в, так и в , теперь распределяется по двум (координатным) матрицам и диагональной (масштабирующей) матрице . Определенное ими векторное пространство имеет размерность p, то есть меньшее из двух значений, количество строк и количество столбцов, минус 1. $C$ $S$ $U$ $V$ $\Sigma$

Инерция [ править ]

В то время как можно сказать, что анализ главных компонентов разлагает (со) дисперсию , и, следовательно, его мерилом успеха является величина дисперсии, охватываемая несколькими первыми осями PCA, измеряемая в собственном значении, CA работает с взвешенной дисперсией, которая называется инерция . ^[14] Сумма квадратов сингулярных значений - это полная инерция таблицы данных, вычисляемая как $\mathrm {I}$

\mathrm {I} =\sum _{i=1}^{p}\sigma _{i}^{2}.

Общая инерцию таблицы данных можно также вычислить непосредственно , как $\mathrm {I}$ $S$

\mathrm {I} =\sum _{i=1}^{n}\sum _{j=1}^{m}s_{ij}^{2}.

Сумма инерции покрыта г-го набора сингулярных векторов , то основная инерции. Чем выше доля инерции, покрываемая несколькими первыми сингулярными векторами, т.е. чем больше сумма основных инерций по сравнению с полной инерцией, тем более успешным является СА. ^[14] Следовательно, все основные значения инерции выражаются как часть общей инерции. $\iota _{i}$ $\epsilon _{i}$

\epsilon _{i}=\sigma _{i}^{2}/\sum _{i=1}^{p}\sigma _{i}^{2}

и представлены в виде осыпного участка . Фактически, осыпной график - это просто гистограмма всех основных частей инерции . $\epsilon _{i}$

Координаты [ править ]

Для преобразования сингулярных векторов в координаты, которые сохраняют квадратные расстояния между строками или столбцами, необходим дополнительный этап взвешивания. Полученные координаты в учебниках CA называют главными координатами ^[9] . Если для строк используются главные координаты, их визуализация называется изометрическим масштабированием строк ^[15] в эконометрике и масштабированием 1 ^[16] в экологии. Поскольку взвешивание включает в себя сингулярные значения этих координат, их иногда называют масштабированными сингулярными векторами , масштабированными по сингулярным значениям , или, что немного вводит в заблуждение, собственными векторами, масштабированными по собственным значениям. На самом деле нетривиальные собственные векторы являются левые сингулярные векторы из $M$ $MM^{*}$ $U$ $M$ и те из являются правыми сингулярными векторами, в то время как собственные значения любой из этих матриц являются квадратами сингулярных значений . Но поскольку все современные алгоритмы CA основаны на разложении по сингулярным значениям, этой терминологии следует избегать. В французской традиции СА координаты иногда называются (факторными) баллами . $M^{*}M$ $V$ $M$ $\Sigma$

Факторные оценки или главные координаты для строк матрицы C вычисляются с помощью

F_{m}=W_{m}U\Sigma

т.е. сингулярные левые сингулярные векторы масштабируются обратной величиной квадратных корней из масс строк и сингулярными значениями. Поскольку главные координаты вычисляются из сингулярных значений, они содержат информацию о разбросе между строками (или столбцами) в исходной таблице. Вычисление евклидовых расстояний между объектами в главных координатах приводит к их точным координатам, что является причиной того, что CA, как говорят, «сохраняет правильные квадратные расстояния».

Вычислить главные координаты столбцов по

F_{n}=W_{n}V\Sigma .

Чтобы представить результат CA в правильном двухуровневом графике , те категории, которые не отображаются в точных квадратных координатах, сохраняющих расстояние, то есть в главных координатах, должны быть нанесены на график в так называемых стандартных координатах . ^[9] При вычислении стандартных координат особые значения опускаются, что является прямым результатом применения правила двух графиков, согласно которому один из двух наборов сингулярных векторных матриц должен быть масштабирован сингулярными значениями, возведенными в степень нуля, то есть умноженными на единицу, т. Е. вычисляться путем исключения сингулярных значений, если другой набор сингулярных векторов был масштабирован по сингулярным значениям. Это подтверждает существование внутреннего продукта. между двумя наборами координат, т. е. приводит к осмысленной интерпретации их пространственных отношений на двумерном графике.

На практике стандартные координаты можно рассматривать как вершины векторного пространства, в котором «существует» набор главных координат. Стандартные координаты строк:

G_{m}=W_{m}U

а для столбцов -

G_{n}=W_{m}U

Обратите внимание, что двумерный график масштабирования 1 ^[16] в экологии подразумевает, что строки должны быть в главных координатах, а столбцы - в стандартных координатах, тогда как масштабирование 2 подразумевает, что строки должны быть в стандартных координатах, а столбцы - в главных координатах. Т.е. масштабирование 1 подразумевает двойной участок вместе с, а масштабирование 2 подразумевает двойной участок вместе с . $F_{m}$ $G_{n}$ $F_{n}$ $G_{m}$

Графическое представление результата [ править ]

Визуализация результата CA всегда начинается с отображения графика основной инерции.

Фактическое расположение представлено в виде графика, который на первый взгляд можно спутать со сложной диаграммой рассеяния . Фактически он состоит из двух точечных диаграмм, напечатанных друг на друге, одного набора точек для строк и одного для столбцов. Но, будучи двусмысленным, четкое правило интерпретации связывает две используемые матрицы координат.

Обычно первые два измерения решения CA наносятся на график, потому что они охватывают максимум информации о таблице данных, которая может быть отображена в 2D, хотя другие комбинации измерений могут быть исследованы с помощью двухмерного графика. На самом деле биплот - это низкоразмерное отображение части информации, содержащейся в исходной таблице.

Как правило, тот набор (строки или столбцы), который должен быть проанализирован с точки зрения его состава, измеренного другим набором, отображается в основных координатах, а другой набор отображается в стандартных координатах. Например, таблица, отображающая избирательные округа в строках и политические партии в столбцах с ячейками, содержащими подсчитанные голоса, может отображаться со строками в основных координатах, когда основное внимание уделяется упорядочиванию округов в соответствии с аналогичным голосованием.

Расширения и приложения [ править ]

Доступно несколько вариантов CA, включая анализ соответствия без тренда (DCA) и анализ канонического соответствия (CCA). Распространение анализа соответствий на многие категориальные переменные называется анализом множественных соответствий . Адаптация анализа соответствия к проблеме различения на основе качественных переменных (т. Е. Эквивалент дискриминантного анализа для качественных данных) называется дискриминантным анализом соответствия или барицентрическим дискриминантным анализом.

В социальных науках анализ соответствий, и особенно его расширенный анализ множественных соответствий , стал известен за пределами Франции благодаря его применению французским социологом Пьером Бурдье . ^[17]

Реализации [ править ]

В систему визуализации данных Orange входит модуль: orngCA.
Статистическая система R включает в себя пакеты: MASS, ade4, ca, vegan, ExPosition, и FactoMineRкоторые выполняют анализ соответствия и множественный анализ соответствия.

См. Также [ править ]

Анализ соответствия без тренда
Формальный анализ концепции
Анализ главных компонентов

Ссылки [ править ]

^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP ISBN 0-19-850994-4
^ Hirschfeld, HO (1935) "Связь между корреляцией и случайностью", Proc. Кембриджское философское общество , 31, 520–524.
^ Benzécri, Ж.-П. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondances . Париж, Франция: Dunod.
^ Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Вайли. п. 120. ISBN 978-1-119-95324-1.
^ Гринакр, Майкл (2007). Анализ корреспонденции на практике . Бока-Ратон: CRC Press. п. 204. ISBN 9781584886167.
^ Лежандр, Пьер; Лежандр, Луи (2012). Числовая экология . Амстердам: Эльзевир. п. 465. ISBN 978-0-444-53868-0.
^ Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Academic Press. ISBN 0-12-299050-1.
^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Chapman & Hall / CRC.
^ a b c d Гринакр, Майкл (2007). Анализ корреспонденции на практике . Бока-Ратон: CRC Press. п. 202. ISBN. 9781584886167.
^ Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Academic Press. ISBN 0-12-299050-1.
^ Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Chapman & Hall / CRC. п. 202.
^ Гринакр, Майкл (2007). Анализ корреспонденции на практике . Бока-Ратон: CRC Press. п. 202. ISBN. 9781584886167.
^ Абадир, Карим; Магнус, Ян (2005). Матричная алгебра . Кембридж: Издательство Кембриджского университета. п. 24. ISBN 9786612394256.
^ a b Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Вайли. С. 87, 129. ISBN 978-1-119-95324-1.
^ Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Вайли. С. 132–134. ISBN 978-1-119-95324-1.
^ a b Лежандр, Пьер; Лежандр, Луи (2012). Числовая экология . Амстердам: Эльзевир. п. 470. ISBN 978-0-444-53868-0.
^ Бурдье, Пьер (1984). Отличие . Рутледж . С. 41 . ISBN 0674212770.

Внешние ссылки [ править ]

Гринакр, Майкл (2008), La Práctica del Análisis de Correspondencias , BBVA Foundation, Мадрид, испанский перевод « Анализ корреспонденции на практике» , доступный для бесплатного скачивания в публикациях BBVA Foundation
Гринакр, Майкл (2010), Biplots in Practice , BBVA Foundation, Madrid, доступно для бесплатного скачивания на сайте multivariatestatistics.org

[1] Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP ISBN 0-19-850994-4

[2] Hirschfeld, HO (1935) "Связь между корреляцией и случайностью", Proc. Кембриджское философское общество , 31, 520–524.

[3] Benzécri, Ж.-П. (1973). L'Analyse des Données. Том II. L'Analyse des Correspondances . Париж, Франция: Dunod.

[4] Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Вайли. п. 120. ISBN 978-1-119-95324-1.

[5] Гринакр, Майкл (2007). Анализ корреспонденции на практике . Бока-Ратон: CRC Press. п. 204. ISBN 9781584886167.

[6] Лежандр, Пьер; Лежандр, Луи (2012). Числовая экология . Амстердам: Эльзевир. п. 465. ISBN 978-0-444-53868-0.

[7] Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Academic Press. ISBN 0-12-299050-1.

[8] Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Chapman & Hall / CRC.

[:0-9] Гринакр, Майкл (2007). Анализ корреспонденции на практике . Бока-Ратон: CRC Press. п. 202. ISBN. 9781584886167.

[10] Гринакр, Майкл (1983). Теория и приложения анализа соответствий . Лондон: Academic Press. ISBN 0-12-299050-1.

[11] Гринакр, Майкл (2007). Анализ корреспонденции на практике, второе издание . Лондон: Chapman & Hall / CRC. п. 202.

[12] Гринакр, Майкл (2007). Анализ корреспонденции на практике . Бока-Ратон: CRC Press. п. 202. ISBN. 9781584886167.

[13] Абадир, Карим; Магнус, Ян (2005). Матричная алгебра . Кембридж: Издательство Кембриджского университета. п. 24. ISBN 9786612394256.

[:2-14] Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Вайли. С. 87, 129. ISBN 978-1-119-95324-1.

[15] Бех, Эрик; Ломбардо, Розария (2014). Анализ корреспонденции. Теория, практика и новые стратегии . Чичестер: Вайли. С. 132–134. ISBN 978-1-119-95324-1.

[:1-16] Лежандр, Пьер; Лежандр, Луи (2012). Числовая экология . Амстердам: Эльзевир. п. 470. ISBN 978-0-444-53868-0.

[17] Бурдье, Пьер (1984). Отличие . Рутледж . С. 41 . ISBN 0674212770.

[1]