В статистике таблица непредвиденных обстоятельств (также известная как перекрестная таблица или перекрестная таблица ) представляет собой тип таблицы в матричном формате, который отображает (многомерное) частотное распределение переменных. Они широко используются в опросах, бизнес-аналитике, инженерии и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействие между ними. Термин « таблица сопряженности » впервые был использован Карлом Пирсоном в «Теории сопряженности и ее связи с ассоциацией и нормальной корреляцией», [1] частьСерия биометрических мемуаров компании Drapers' Company I опубликована в 1904 году.
Важнейшей проблемой многомерной статистики является нахождение структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если выявить некоторые условные независимости , то даже хранение данных можно будет сделать более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств с помощью относительных частот.
Сводная таблица — это способ создания таблиц непредвиденных обстоятельств с помощью программного обеспечения для работы с электронными таблицами.
Предположим, что есть две переменные: пол (мужской или женский) и леворукость (правша или левша). Далее предположим, что 100 человек случайным образом отобраны из очень большой популяции в рамках исследования половых различий в рукопожатии. Таблица непредвиденных обстоятельств может быть создана для отображения числа лиц, которые являются правшами и левшами мужского пола, правшой и левшой женского пола. Такая таблица непредвиденных обстоятельств показана ниже.
рукость _ Секс | Правша | Левша | Всего |
---|---|---|---|
Мужской | 43 | 9 | 52 |
Женский | 44 | 4 | 48 |
Всего | 87 | 13 | 100 |
Количество самцов, самок, правшей и левшей называют маргинальными суммами . Общий итог (общее количество лиц, представленных в таблице непредвиденных обстоятельств) — это число в правом нижнем углу.
Таблица позволяет пользователям с первого взгляда увидеть, что доля правшей среди мужчин примерно такая же, как доля правшей среди женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов населения оценено отношением шансов выборки . Значимость разницы между двумя пропорциями можно оценить с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -критерий , точный критерий Фишера, критерий Бошлоо и критерий Барнарда ., при условии, что записи в таблице представляют лиц, случайно выбранных из совокупности, в отношении которых должны быть сделаны выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не являются независимыми. Если непредвиденных обстоятельств нет, говорят, что две переменные независимы .
Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, может использоваться любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .
Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Более полное обсуждение их использования см. в основных статьях, связанных под заголовком каждого подраздела.
Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B, или, что эквивалентно (из-за симметрии), отношение шансов вероятности B в присутствии A и шансов B в отсутствие A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.
Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:
отношение шансов:
Простая мера, применимая только к случаю таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент фи (φ), определяемый формулой
где χ 2 вычисляется как критерий хи-квадрат Пирсона , а N — общая сумма наблюдений. φ варьируется от 0 (соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы на произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные клетки пусты). [2]
Двумя альтернативами являются коэффициент непредвиденных обстоятельств C и V Крамера .
Формулы для коэффициентов C и V :
k — количество строк или количество столбцов, в зависимости от того, что меньше.
C страдает от недостатка, заключающегося в том, что он не достигает максимума 1,0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707 . Он может достигать значений, близких к 1,0, в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. [3]
C можно отрегулировать так, чтобы оно достигало максимума 1,0, когда в таблице есть полная ассоциация любого количества строк и столбцов, путем деления C на где k - количество строк или столбцов, когда таблица квадратная [ нужна ссылка ] , или где r — количество строк, а c — количество столбцов. [4]
Другим выбором является тетрахорический коэффициент корреляции, но он применим только к таблицам 2 × 2. Полихорная корреляция является расширением тетрахорной корреляции для таблиц, включающих переменные с более чем двумя уровнями.
Тетрахорная корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. [5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения были сведены к двум категориям». [6]
Коэффициент тетрахорной корреляции не следует путать с коэффициентом корреляции Пирсона, вычисленным путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).
Лямбда - коэффициент является мерой силы связи перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет связи) до 1,0 (максимально возможная связь).
Асимметричная лямбда измеряет процентное улучшение предсказания зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогноз делается в обоих направлениях.
Коэффициент неопределенности , или коэффициент Тейла, является еще одним показателем переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или полная инверсия) до +1,0 (100% положительная ассоциация или полное согласие). Значение 0,0 указывает на отсутствие связи.
Также коэффициент неопределенности является условной и асимметричной мерой связи, которую можно выразить как
Это асимметричное свойство может привести к пониманию, не столь очевидному в симметричных измерениях ассоциации. [7]
Викискладе есть медиафайлы, связанные с таблицами непредвиденных обстоятельств . |