В статистике , А таблица сопряженности (также известная как кросс подведение или кросс - таблице ) представляет собой тип таблицы в матричном формате , который отображает (многомерное) распределение частот переменных. Они широко используются в опросных исследованиях, бизнес-аналитике, инженерных и научных исследованиях. Они дают общую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица непредвиденных обстоятельств» впервые был использован Карлом Пирсоном в работе «О теории непредвиденных обстоятельств и их связи с ассоциацией и нормальной корреляцией» [1], которая является частьюБиометрическая серия мемуаров компании Drapers 'Company, опубликованная в 1904 году.
Важнейшей проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если обнаружится некоторая условная независимость , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы сопряженности с помощью относительных частот.
Сводная таблица является способом создания таблицы сопряженности с использованием программного обеспечения с электронными таблицами.
Пример [ править ]
Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек были случайным образом выбраны из очень большой популяции в рамках исследования половых различий в руке. Таблица непредвиденных обстоятельств может быть создана для отображения количества людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств показана ниже.
Handed- Несс Секс | Правша | Левша | Общий |
---|---|---|---|
Мужской | 43 | 9 | 52 |
женский | 44 | 4 | 48 |
Общий | 87 | 13 | 100 |
Количество самцов, самок, правшей и левшей называется предельным итогом . Общий итог (общее количество людей, представленных в таблице непредвиденных обстоятельств) - это число в правом нижнем углу.
Таблица позволяет пользователям сразу увидеть, что доля правшей мужчин примерно такая же, как и доля правшей женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов популяции оценивается отношением шансов выборки . Значение разности между двумя пропорциями могут быть оценены с различными статистическими тестов , включая хи-квадрат тест Пирсона , тем G -test , точный критерий Фишера , тест Boschloo в и тест Барнарда, при условии, что записи в таблице представляют людей, случайно выбранных из совокупности, о которых следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не независимы. Если нет непредвиденных обстоятельств, говорят, что две переменные независимы .
Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .
Стандартное содержание таблицы непредвиденных обстоятельств [ править ]
- Несколько столбцов (исторически они были предназначены для использования всего белого пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками заголовка или сокращениями (а строки иногда называют заглушками ).
- Тесты значимости. Как правило, либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая каким-то образом выделяется.
- Сети или нетты, являющиеся промежуточными итогами.
- Один или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
- Невзвешенные размеры выборки (количество).
Меры ассоциации [ править ]
Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Для более полного обсуждения их использования см. Основные статьи, ссылки на которые есть под заголовком каждого подраздела.
Соотношение шансов [ править ]
Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B или, что эквивалентно (из-за симметрии), отношения шансов из B при наличии A и шансов B при отсутствии A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.
Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:
отношение шансов:
Коэффициент фи [ править ]
Простая мера, применимая только в случае таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент phi (φ), определяемый формулой
где χ 2 вычисляется, как в критерии хи-квадрат Пирсона , а N - общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные ячейки пусты). [2]
V Крамера и коэффициент случайности C [ править ]
Две альтернативы являются коэффициент сопряженности C , а V Крамера .
Формулы для коэффициентов C и V :
- и
k - количество строк или количество столбцов, в зависимости от того, что меньше.
Недостатком C является то, что он не достигает максимального значения 1.0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0 в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. [3]
C можно настроить так, чтобы он достигал максимума 1,0, когда в таблице есть полная ассоциация с любым количеством строк и столбцов, путем деления C на, где k - количество строк или столбцов, когда таблица имеет квадратную форму [ необходима ссылка ] , или где r - количество строк, а c - количество столбцов. [4]
Коэффициент тетрахорической корреляции [ править ]
Другой вариант - коэффициент тетрахорической корреляции, но он применим только к таблицам 2 × 2. Полихорическая корреляция - это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.
Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. [5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения сведены к двум категориям». [6]
Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона, вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).
Лямбда-коэффициент [ править ]
Коэффициент лямбда является мерой прочности ассоциации поперечных таблиц , когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).
Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.
Коэффициент неопределенности [ править ]
Коэффициент неопределенности или U Тейла - еще одна мера для переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или полное совпадение). Значение 0,0 указывает на отсутствие ассоциации.
Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которая может быть выражена как
- .
Это свойство асимметричности может привести к пониманию, которое не так очевидно при симметричных показателях ассоциации. [7]
Другое [ править ]
- Гамма-тест : без корректировки ни размера стола, ни привязки.
- Тау Кендалла : поправка на завязки.
- Tau-b : используется для квадратных столов.
- Tau-c : используется для прямоугольных столов.
См. Также [ править ]
- Матрица путаницы
- Сводная таблица в программном обеспечении для работы с электронными таблицами объединяет данные выборки с подсчетами (таблица непредвиденных обстоятельств) и / или суммами.
- TPL Tables - это инструмент для создания и печати кросс- таблиц .
- Пропорционально итеративный фитинг процедура существенно манипулирует случайные таблицы , чтобы соответствовать измененным совместным распределениям или предельным суммы.
- В многомерной статистике в специальных многомерных распределениях дискретных вероятностных. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
- Куб OLAP , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств
- Панельные данные , многомерные данные во времени
Ссылки [ править ]
- ^ Карл Пирсон, FRS (1904). Математический вклад в теорию эволюции . Дулау и Ко.
- ^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу – Хилл.
- ^ Смит, SC, и Альбаум, GS (2004) Основы маркетинговых исследований . Sage: Thousand Oaks, CA. п. 631
- ^ Блейки, Н. (2003) Анализ количественных данных . Sage: Thousand Oaks, CA. п. 100
- ^ Фергюсон. [ требуется полная ссылка ]
- ↑ Фергюсон, 1966, стр. 244
- ^ https://towardsdatascience.com/the-search-for-categorical-correlation-a1cf7f1888c9
Дальнейшее чтение [ править ]
- Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями в социальных науках . Северная Голландия, 1980 год.
- Бишоп, YMM ; Fienberg, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . MIT Press. ISBN 978-0-262-02113-5. Руководство по ремонту 0381130 .
- Кристенсен, Рональд (1997). Лог-линейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. С. xvi + 483. ISBN 0-387-98247-7. Руководство по ремонту 1633357 .
- Лауритцен, Штеффен Л. (1979). Лекции по таблицам непредвиденных обстоятельств (Университет Ольборга) (PDF) (4-е издание (первое электронное издание), изд. 2002 г.).
- Гохале, ДВ; Кульбак, Соломон (1978). Информация в таблицах непредвиденных обстоятельств . Марсель Деккер. ISBN 0-824-76698-9.
Внешние ссылки [ править ]
Викискладе есть медиафайлы, связанные с таблицами непредвиденных обстоятельств . |
- Он-лайн анализ таблиц непредвиденных обстоятельств: калькулятор с примерами
- Интерактивная кросс-таблица, независимый тест хи-квадрат и учебное пособие
- Калькулятор Фишера и хи-квадрат таблицы непредвиденных обстоятельств 2 × 2
- Больше коэффициентов корреляции
- Номинальная ассоциация: Phi, коэффициент непредвиденных обстоятельств, T Чупроу, V Крамера, лямбда, коэффициент неопределенности , 24 марта 2008 г., Дж. Дэвид Гарсон, Университет штата Северная Каролина
- CustomInsight.com Кросс-табуляция
- Проект POWERMUTT: IV. ОТОБРАЖЕНИЕ КАТЕГОРИЧЕСКИХ ДАННЫХ
- СТАТИСТИКА: попытка Стивса научить статистике Отношение шансов к относительному риску (9 января 2001 г.)
- Учебное пособие по оценке состояния здоровья сообщества Epi Info, Урок 5 Анализ: Создание статистики