Таблица сопряженности

В статистике таблица непредвиденных обстоятельств (также известная как перекрестная таблица или перекрестная таблица ) представляет собой тип таблицы в матричном формате, который отображает (многомерное) частотное распределение переменных. Они широко используются в опросах, бизнес-аналитике, инженерии и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействие между ними. Термин « таблица сопряженности » впервые был использован Карлом Пирсоном в «Теории сопряженности и ее связи с ассоциацией и нормальной корреляцией», ^[1] частьСерия биометрических мемуаров компании Drapers' Company I опубликована в 1904 году.

Важнейшей проблемой многомерной статистики является нахождение структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если выявить некоторые условные независимости , то даже хранение данных можно будет сделать более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств с помощью относительных частот.

Сводная таблица — это способ создания таблиц непредвиденных обстоятельств с помощью программного обеспечения для работы с электронными таблицами.

Пример

Предположим, что есть две переменные: пол (мужской или женский) и леворукость (правша или левша). Далее предположим, что 100 человек случайным образом отобраны из очень большой популяции в рамках исследования половых различий в рукопожатии. Таблица непредвиденных обстоятельств может быть создана для отображения числа лиц, которые являются правшами и левшами мужского пола, правшой и левшой женского пола. Такая таблица непредвиденных обстоятельств показана ниже.

рукость _ Секс	Правша	Левша	Всего
Мужской	43	9	52
Женский	44	4	48
Всего	87	13	100

Количество самцов, самок, правшей и левшей называют маргинальными суммами . Общий итог (общее количество лиц, представленных в таблице непредвиденных обстоятельств) — это число в правом нижнем углу.

Таблица позволяет пользователям с первого взгляда увидеть, что доля правшей среди мужчин примерно такая же, как доля правшей среди женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов населения оценено отношением шансов выборки . Значимость разницы между двумя пропорциями можно оценить с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -критерий , точный критерий Фишера, критерий Бошлоо и критерий Барнарда ., при условии, что записи в таблице представляют лиц, случайно выбранных из совокупности, в отношении которых должны быть сделаны выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не являются независимыми. Если непредвиденных обстоятельств нет, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, может использоваться любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .

Стандартное содержание таблицы непредвиденных обстоятельств

Несколько столбцов (исторически они были предназначены для использования всего свободного места на печатной странице). Там, где каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называются баннерными точками или сокращениями (а строки иногда называются заглушками ).
Тесты значимости. Как правило, либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая выделяется каким-либо образом.
Сети или сети , которые являются промежуточными итогами.
Один или несколько из: процентов, процентов строк, процентов столбцов, индексов или средних значений.
Невзвешенные размеры выборки (количество).

Меры ассоциации

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Более полное обсуждение их использования см. в основных статьях, связанных под заголовком каждого подраздела.

Отношение шансов

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B, или, что эквивалентно (из-за симметрии), отношение шансов вероятности B в присутствии A и шансов B в отсутствие A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

{\ displaystyle {\ begin {array} {c | cc} & B = 1 & B = 0 \\\ hline A = 1 & p_ {11} & p_ {10} \\ A = 0 & p_ {01} & p_ {00} \ end {array} }}

отношение шансов:

{\ displaystyle OR = {\ frac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}

Фи-коэффициент

Простая мера, применимая только к случаю таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент фи (φ), определяемый формулой

{\ displaystyle \ phi = \ pm {\ sqrt {\ frac {\ chi ^ {2}} {N}}},}

где $χ 2$ вычисляется как критерий хи-квадрат Пирсона , а N — общая сумма наблюдений. φ варьируется от 0 (соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы на произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные клетки пусты). ^[2]

V Крамера и коэффициент непредвиденных обстоятельств C

Двумя альтернативами являются коэффициент непредвиденных обстоятельств C и V Крамера .

Формулы для коэффициентов C и V :

{\ displaystyle C = {\ sqrt {\ frac {\ chi ^ {2}} {N+ \ chi ^ {2}}}}}

и

{\ displaystyle V = {\ sqrt {\ frac {\ chi ^ {2}} {N (k-1)}}}}

k — количество строк или количество столбцов, в зависимости от того, что меньше.

C страдает от недостатка, заключающегося в том, что он не достигает максимума 1,0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707 . Он может достигать значений, близких к 1,0, в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. ^[3]

C можно отрегулировать так, чтобы оно достигало максимума 1,0, когда в таблице есть полная ассоциация любого количества строк и столбцов, путем деления C на где k - количество строк или столбцов, когда таблица квадратная ^[^{нужна ссылка}^] , или где r — количество строк, а c — количество столбцов. ^[4] ${\ displaystyle {\ sqrt {\ frac {k-1} {k}}}}$ ${\ displaystyle {\ sqrt [{\ scriptstyle 4}] {{r-1 \ over r} \ times {c-1 \ over c}}}}$

Тетрахорный коэффициент корреляции

Другим выбором является тетрахорический коэффициент корреляции, но он применим только к таблицам 2 × 2. Полихорная корреляция является расширением тетрахорной корреляции для таблиц, включающих переменные с более чем двумя уровнями.

Тетрахорная корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. ^[5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения были сведены к двум категориям». ^[6]

Коэффициент тетрахорной корреляции не следует путать с коэффициентом корреляции Пирсона, вычисленным путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда-коэффициент

Лямбда - коэффициент является мерой силы связи перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет связи) до 1,0 (максимально возможная связь).

Асимметричная лямбда измеряет процентное улучшение предсказания зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогноз делается в обоих направлениях.

Коэффициент неопределенности

Коэффициент неопределенности , или коэффициент Тейла, является еще одним показателем переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или полная инверсия) до +1,0 (100% положительная ассоциация или полное согласие). Значение 0,0 указывает на отсутствие связи.

Также коэффициент неопределенности является условной и асимметричной мерой связи, которую можно выразить как

{\ Displaystyle U (X | Y) \ neq U (Y | X)}

.

Это асимметричное свойство может привести к пониманию, не столь очевидному в симметричных измерениях ассоциации. ^[7]

Другие

Гамма-тест : никаких поправок ни на размер стола, ни на ничью.

Тау Кендалла : приспособление для галстуков.
- Tau-b : Используется для квадратных столов.
- Tau-c : Используется для прямоугольных таблиц.

Смотрите также

Матрица путаницы
Сводная таблица в программном обеспечении для работы с электронными таблицами сводит данные выборки в перекрестную таблицу с подсчетами (таблица непредвиденных обстоятельств) и/или суммами.
TPL Tables — это инструмент для создания и печати кросс-таблиц.
Процедура итеративной пропорциональной подгонки по существу манипулирует таблицами непредвиденных обстоятельств, чтобы сопоставить измененные совместные распределения или предельные суммы.
Многомерная статистика в специальных многомерных дискретных распределениях вероятностей. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
OLAP-куб , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств.
Панельные данные , многомерные данные во времени

использованная литература

^ Карл Пирсон, FRS (1904). Математические вклады в теорию эволюции . Дулау и Ко.
^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу-Хилл.
^ Смит, С.К. и Альбаум, Г.С. (2004) Основы маркетинговых исследований . Мудрец: Тысяча дубов, Калифорния. п. 631
^ Блейки, Н. (2003) Анализ количественных данных . Мудрец: Тысяча дубов, Калифорния. п. 100
^ Фергюсон. ^{[ нужна полная цитата ]}
^ Фергюсон, 1966, с. 244
^ «Поиск категориальной корреляции» . 26 декабря 2019 г.

дальнейшее чтение

Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями для социальных наук . Северная Голландия, 1980 год.
епископ, YMM ; Финберг, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . Массачусетский технологический институт Пресс. ISBN 978-0-262-02113-5. МР 0381130 .
Кристенсен, Рональд (1997). Логлинейные модели и логистическая регрессия . Тексты Springer по статистике (второе изд.). Нью-Йорк: Springer-Verlag. стр xvi+483. ISBN 0-387-98247-7. МР 1633357 .
Лауритцен, Штеффен Л. (1979). Лекции по таблицам непредвиденных обстоятельств (Ольборгский университет) (PDF) (4-е издание (первое электронное издание), изд. 2002 г.).
Гокхале, Д.В.; Кульбак, Соломон (1978). Информация в таблицах непредвиденных обстоятельств . Марсель Деккер. ISBN 0-824-76698-9.

внешняя ссылка

Викискладе есть медиафайлы, связанные с таблицами непредвиденных обстоятельств .

Он-лайн анализ таблиц непредвиденных обстоятельств: калькулятор с примерами
Интерактивная перекрестная таблица, независимый тест хи-квадрат и учебное пособие.
Калькулятор Фишера и хи-квадрат таблицы непредвиденных обстоятельств 2 × 2
Дополнительные коэффициенты корреляции
Номинальная ассоциация: Phi, коэффициент непредвиденных обстоятельств, T Шупрова, V Крамера, лямбда, коэффициент неопределенности , 24 марта 2008 г., Г. Дэвид Гарсон, Государственный университет Северной Каролины.
Перекрестная таблица CustomInsight.com
Проект POWERMUTT: IV. ОТОБРАЖЕНИЕ КАТЕГОРИЧЕСКИХ ДАННЫХ
StATS: Попытка Стива научить статистике отношение шансов к относительному риску (9 января 2001 г.)
Epi Info Community Health Assessment Учебное пособие Урок 5 Анализ: Создание статистики

[1] Карл Пирсон, FRS (1904). Математические вклады в теорию эволюции . Дулау и Ко.

[2] Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу-Хилл.

[3] Смит, С.К. и Альбаум, Г.С. (2004) Основы маркетинговых исследований . Мудрец: Тысяча дубов, Калифорния. п. 631

[4] Блейки, Н. (2003) Анализ количественных данных . Мудрец: Тысяча дубов, Калифорния. п. 100

[5] Фергюсон. ^{[ нужна полная цитата ]}

[6] Фергюсон, 1966, с. 244

[7] «Поиск категориальной корреляции» . 26 декабря 2019 г.

[1]