Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Crosstab )
Перейти к навигации Перейти к поиску

В статистике , А таблица сопряженности (также известная как кросс подведение или кросс - таблице ) представляет собой тип таблицы в матричном формате , который отображает (многомерное) распределение частот переменных. Они широко используются в опросных исследованиях, бизнес-аналитике, инженерных и научных исследованиях. Они дают общую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица непредвиденных обстоятельств» впервые был использован Карлом Пирсоном в работе «О теории непредвиденных обстоятельств и их связи с ассоциацией и нормальной корреляцией» [1], которая является частьюБиометрическая серия мемуаров компании Drapers 'Company, опубликованная в 1904 году.

Важнейшей проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если обнаружится некоторая условная независимость , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы сопряженности с помощью относительных частот.

Сводная таблица является способом создания таблицы сопряженности с использованием программного обеспечения с электронными таблицами.

Пример [ править ]

Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек были случайным образом выбраны из очень большой популяции в рамках исследования половых различий в руке. Таблица непредвиденных обстоятельств может быть создана для отображения количества людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств показана ниже.

Количество самцов, самок, правшей и левшей называется предельным итогом . Общий итог (общее количество людей, представленных в таблице непредвиденных обстоятельств) - это число в правом нижнем углу.

Таблица позволяет пользователям сразу увидеть, что доля правшей мужчин примерно такая же, как и доля правшей женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов популяции оценивается отношением шансов выборки . Значение разности между двумя пропорциями могут быть оценены с различными статистическими тестов , включая хи-квадрат тест Пирсона , тем G -test , точный критерий Фишера , тест Boschloo в и тест Барнарда, при условии, что записи в таблице представляют людей, случайно выбранных из совокупности, о которых следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не независимы. Если нет непредвиденных обстоятельств, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена ​​в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .

Стандартное содержание таблицы непредвиденных обстоятельств [ править ]

  • Несколько столбцов (исторически они были предназначены для использования всего белого пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками заголовка или сокращениями (а строки иногда называют заглушками ).
  • Тесты значимости. Как правило, либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая каким-то образом выделяется.
  • Сети или нетты, являющиеся промежуточными итогами.
  • Один или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
  • Невзвешенные размеры выборки (количество).

Меры ассоциации [ править ]

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Для более полного обсуждения их использования см. Основные статьи, ссылки на которые есть под заголовком каждого подраздела.

Соотношение шансов [ править ]

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B или, что эквивалентно (из-за симметрии), отношения шансов из B при наличии A и шансов B при отсутствии A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

отношение шансов:

Коэффициент фи [ править ]

Простая мера, применимая только в случае таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент phi (φ), определяемый формулой

где χ 2 вычисляется, как в критерии хи-квадрат Пирсона , а N - общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные ячейки пусты). [2]

V Крамера и коэффициент случайности C [ править ]

Две альтернативы являются коэффициент сопряженности C , а V Крамера .

Формулы для коэффициентов C и V :

и

k - количество строк или количество столбцов, в зависимости от того, что меньше.

Недостатком C является то, что он не достигает максимального значения 1.0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0 в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. [3]

C можно настроить так, чтобы он достигал максимума 1,0, когда в таблице есть полная ассоциация с любым количеством строк и столбцов, путем деления C на, где k - количество строк или столбцов, когда таблица имеет квадратную форму [ необходима ссылка ] , или где r - количество строк, а c - количество столбцов. [4]

Коэффициент тетрахорической корреляции [ править ]

Другой вариант - коэффициент тетрахорической корреляции, но он применим только к таблицам 2 × 2. Полихорическая корреляция - это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. [5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения сведены к двум категориям». [6]

Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона, вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда-коэффициент [ править ]

Коэффициент лямбда является мерой прочности ассоциации поперечных таблиц , когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.

Коэффициент неопределенности [ править ]

Коэффициент неопределенности или U Тейла - еще одна мера для переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или полное совпадение). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которая может быть выражена как

.

Это свойство асимметричности может привести к пониманию, которое не так очевидно при симметричных показателях ассоциации. [7]

Другое [ править ]

  • Гамма-тест : без корректировки ни размера стола, ни привязки.
  • Тау Кендалла : поправка на завязки.
    • Tau-b : используется для квадратных столов.
    • Tau-c : используется для прямоугольных столов.

См. Также [ править ]

  • Матрица путаницы
  • Сводная таблица в программном обеспечении для работы с электронными таблицами объединяет данные выборки с подсчетами (таблица непредвиденных обстоятельств) и / или суммами.
  • TPL Tables - это инструмент для создания и печати кросс- таблиц .
  • Пропорционально итеративный фитинг процедура существенно манипулирует случайные таблицы , чтобы соответствовать измененным совместным распределениям или предельным суммы.
  • В многомерной статистике в специальных многомерных распределениях дискретных вероятностных. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
  • Куб OLAP , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств
  • Панельные данные , многомерные данные во времени

Ссылки [ править ]

  1. ^ Карл Пирсон, FRS (1904). Математический вклад в теорию эволюции . Дулау и Ко.
  2. ^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу – Хилл.
  3. ^ Смит, SC, и Альбаум, GS (2004) Основы маркетинговых исследований . Sage: Thousand Oaks, CA. п. 631
  4. ^ Блейки, Н. (2003) Анализ количественных данных . Sage: Thousand Oaks, CA. п. 100
  5. ^ Фергюсон. [ требуется полная ссылка ]
  6. Фергюсон, 1966, стр. 244
  7. ^ https://towardsdatascience.com/the-search-for-categorical-correlation-a1cf7f1888c9

Дальнейшее чтение [ править ]

  • Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями в социальных науках . Северная Голландия, 1980 год.
  • Бишоп, YMM ; Fienberg, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . MIT Press. ISBN 978-0-262-02113-5. Руководство по ремонту  0381130 .
  • Кристенсен, Рональд (1997). Лог-линейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. С. xvi + 483. ISBN 0-387-98247-7. Руководство по ремонту  1633357 .
  • Лауритцен, Штеффен Л. (1979). Лекции по таблицам непредвиденных обстоятельств (Университет Ольборга) (PDF) (4-е издание (первое электронное издание), изд. 2002 г.).
  • Гохале, ДВ; Кульбак, Соломон (1978). Информация в таблицах непредвиденных обстоятельств . Марсель Деккер. ISBN 0-824-76698-9.

Внешние ссылки [ править ]

  • Он-лайн анализ таблиц непредвиденных обстоятельств: калькулятор с примерами
  • Интерактивная кросс-таблица, независимый тест хи-квадрат и учебное пособие
  • Калькулятор Фишера и хи-квадрат таблицы непредвиденных обстоятельств 2 × 2
  • Больше коэффициентов корреляции
  • Номинальная ассоциация: Phi, коэффициент непредвиденных обстоятельств, T Чупроу, V Крамера, лямбда, коэффициент неопределенности , 24 марта 2008 г., Дж. Дэвид Гарсон, Университет штата Северная Каролина
  • CustomInsight.com Кросс-табуляция
  • Проект POWERMUTT: IV. ОТОБРАЖЕНИЕ КАТЕГОРИЧЕСКИХ ДАННЫХ
  • СТАТИСТИКА: попытка Стивса научить статистике Отношение шансов к относительному риску (9 января 2001 г.)
  • Учебное пособие по оценке состояния здоровья сообщества Epi Info, Урок 5 Анализ: Создание статистики