Таблица сопряженности

В статистике , А таблица сопряженности (также известная как кросс подведение или кросс - таблице ) представляет собой тип таблицы в матричном формате , который отображает (многомерное) распределение частот переменных. Они широко используются в опросных исследованиях, бизнес-аналитике, инженерных и научных исследованиях. Они дают общую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица непредвиденных обстоятельств» впервые был использован Карлом Пирсоном в работе «О теории непредвиденных обстоятельств и их связи с ассоциацией и нормальной корреляцией» ^{[1], которая является} частьюБиометрическая серия мемуаров компании Drapers 'Company, опубликованная в 1904 году.

Важнейшей проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если обнаружится некоторая условная независимость , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы сопряженности с помощью относительных частот.

Сводная таблица является способом создания таблицы сопряженности с использованием программного обеспечения с электронными таблицами.

Пример [ править ]

Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек были случайным образом выбраны из очень большой популяции в рамках исследования половых различий в руке. Таблица непредвиденных обстоятельств может быть создана для отображения количества людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств показана ниже.

Handed- Несс Секс	Правша	Левша	Общий
Мужской	43	9	52
женский	44	4	48
Общий	87	13	100

Количество самцов, самок, правшей и левшей называется предельным итогом . Общий итог (общее количество людей, представленных в таблице непредвиденных обстоятельств) - это число в правом нижнем углу.

Таблица позволяет пользователям сразу увидеть, что доля правшей мужчин примерно такая же, как и доля правшей женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов популяции оценивается отношением шансов выборки . Значение разности между двумя пропорциями могут быть оценены с различными статистическими тестов , включая хи-квадрат тест Пирсона , тем G -test , точный критерий Фишера , тест Boschloo в и тест Барнарда, при условии, что записи в таблице представляют людей, случайно выбранных из совокупности, о которых следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не независимы. Если нет непредвиденных обстоятельств, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .

Стандартное содержание таблицы непредвиденных обстоятельств [ править ]

Несколько столбцов (исторически они были предназначены для использования всего белого пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками заголовка или сокращениями (а строки иногда называют заглушками ).
Тесты значимости. Как правило, либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая каким-то образом выделяется.
Сети или нетты, являющиеся промежуточными итогами.
Один или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
Невзвешенные размеры выборки (количество).

Меры ассоциации [ править ]

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Для более полного обсуждения их использования см. Основные статьи, ссылки на которые есть под заголовком каждого подраздела.

Соотношение шансов [ править ]

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B или, что эквивалентно (из-за симметрии), отношения шансов из B при наличии A и шансов B при отсутствии A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

{\ displaystyle {\ begin {array} {c | cc} & B = 1 & B = 0 \\\ hline A = 1 & p_ {11} & p_ {10} \\ A = 0 & p_ {01} & p_ {00} \ end {array} }}

отношение шансов:

{\ displaystyle OR = {\ frac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}

Коэффициент фи [ править ]

Простая мера, применимая только в случае таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент phi (φ), определяемый формулой

{\ displaystyle \ phi = \ pm {\ sqrt {\ frac {\ chi ^ {2}} {N}}},}

где $χ 2$ вычисляется, как в критерии хи-квадрат Пирсона , а N - общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные ячейки пусты). ^[2]

V Крамера и коэффициент случайности C [ править ]

Две альтернативы являются коэффициент сопряженности C , а V Крамера .

Формулы для коэффициентов C и V :

{\ displaystyle C = {\ sqrt {\ frac {\ chi ^ {2}} {N + \ chi ^ {2}}}}}

и

{\ displaystyle V = {\ sqrt {\ frac {\ chi ^ {2}} {N (k-1)}}},}

k - количество строк или количество столбцов, в зависимости от того, что меньше.

Недостатком C является то, что он не достигает максимального значения 1.0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0 в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. ^[3]

C можно настроить так, чтобы он достигал максимума 1,0, когда в таблице есть полная ассоциация с любым количеством строк и столбцов, путем деления C на, где k - количество строк или столбцов, когда таблица имеет квадратную ^форму^[^{необходима ссылка}^] , или где r - количество строк, а c - количество столбцов. ^[4] ${\sqrt {\frac {k-1}{k}}}$ ${\sqrt[{\scriptstyle 4}]{{r-1 \over r}\times {c-1 \over c}}}$

Коэффициент тетрахорической корреляции [ править ]

Другой вариант - коэффициент тетрахорической корреляции, но он применим только к таблицам 2 × 2. Полихорическая корреляция - это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. ^[5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения сведены к двум категориям». ^[6]

Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона, вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда-коэффициент [ править ]

Коэффициент лямбда является мерой прочности ассоциации поперечных таблиц , когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.

Коэффициент неопределенности [ править ]

Коэффициент неопределенности или U Тейла - еще одна мера для переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или полное совпадение). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которая может быть выражена как

U(X|Y)\neq U(Y|X)

.

Это свойство асимметричности может привести к пониманию, которое не так очевидно при симметричных показателях ассоциации. ^[7]

Другое [ править ]

Гамма-тест : без корректировки ни размера стола, ни привязки.

Тау Кендалла : поправка на завязки.
- Tau-b : используется для квадратных столов.
- Tau-c : используется для прямоугольных столов.

См. Также [ править ]

Матрица путаницы
Сводная таблица в программном обеспечении для работы с электронными таблицами объединяет данные выборки с подсчетами (таблица непредвиденных обстоятельств) и / или суммами.
TPL Tables - это инструмент для создания и печати кросс- таблиц .
Пропорционально итеративный фитинг процедура существенно манипулирует случайные таблицы , чтобы соответствовать измененным совместным распределениям или предельным суммы.
В многомерной статистике в специальных многомерных распределениях дискретных вероятностных. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
Куб OLAP , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств
Панельные данные , многомерные данные во времени

Ссылки [ править ]

^ Карл Пирсон, FRS (1904). Математический вклад в теорию эволюции . Дулау и Ко.
^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу – Хилл.
^ Смит, SC, и Альбаум, GS (2004) Основы маркетинговых исследований . Sage: Thousand Oaks, CA. п. 631
^ Блейки, Н. (2003) Анализ количественных данных . Sage: Thousand Oaks, CA. п. 100
^ Фергюсон. ^{[ требуется полная ссылка ]}
↑ Фергюсон, 1966, стр. 244
^ https://towardsdatascience.com/the-search-for-categorical-correlation-a1cf7f1888c9

Дальнейшее чтение [ править ]

Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями в социальных науках . Северная Голландия, 1980 год.
Бишоп, YMM ; Fienberg, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . MIT Press. ISBN 978-0-262-02113-5. Руководство по ремонту 0381130 .
Кристенсен, Рональд (1997). Лог-линейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. С. xvi + 483. ISBN 0-387-98247-7. Руководство по ремонту 1633357 .
Лауритцен, Штеффен Л. (1979). Лекции по таблицам непредвиденных обстоятельств (Университет Ольборга) (PDF) (4-е издание (первое электронное издание), изд. 2002 г.).
Гохале, ДВ; Кульбак, Соломон (1978). Информация в таблицах непредвиденных обстоятельств . Марсель Деккер. ISBN 0-824-76698-9.

Внешние ссылки [ править ]

Викискладе есть медиафайлы, связанные с таблицами непредвиденных обстоятельств .

Он-лайн анализ таблиц непредвиденных обстоятельств: калькулятор с примерами
Интерактивная кросс-таблица, независимый тест хи-квадрат и учебное пособие
Калькулятор Фишера и хи-квадрат таблицы непредвиденных обстоятельств 2 × 2
Больше коэффициентов корреляции
Номинальная ассоциация: Phi, коэффициент непредвиденных обстоятельств, T Чупроу, V Крамера, лямбда, коэффициент неопределенности , 24 марта 2008 г., Дж. Дэвид Гарсон, Университет штата Северная Каролина
CustomInsight.com Кросс-табуляция
Проект POWERMUTT: IV. ОТОБРАЖЕНИЕ КАТЕГОРИЧЕСКИХ ДАННЫХ
СТАТИСТИКА: попытка Стивса научить статистике Отношение шансов к относительному риску (9 января 2001 г.)
Учебное пособие по оценке состояния здоровья сообщества Epi Info, Урок 5 Анализ: Создание статистики

[1] Карл Пирсон, FRS (1904). Математический вклад в теорию эволюции . Дулау и Ко.

[2] Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу – Хилл.

[3] Смит, SC, и Альбаум, GS (2004) Основы маркетинговых исследований . Sage: Thousand Oaks, CA. п. 631

[4] Блейки, Н. (2003) Анализ количественных данных . Sage: Thousand Oaks, CA. п. 100

[5] Фергюсон. ^{[ требуется полная ссылка ]}

[6] Фергюсон, 1966, стр. 244

[7] ttps://towardsdatascience.com/the-search-for-categorical-correlation-a1cf7f1888c9

[1], которая является