Таблица сопряженности


Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В статистике таблица непредвиденных обстоятельств (также известная как перекрестная таблица или перекрестная таблица ) представляет собой тип таблицы в матричном формате, который отображает (многомерное) частотное распределение переменных. Они широко используются в опросах, бизнес-аналитике, инженерии и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействие между ними. Термин « таблица сопряженности » впервые был использован Карлом Пирсоном в «Теории сопряженности и ее связи с ассоциацией и нормальной корреляцией», [1] частьСерия биометрических мемуаров компании Drapers' Company I опубликована в 1904 году.

Важнейшей проблемой многомерной статистики является нахождение структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если выявить некоторые условные независимости , то даже хранение данных можно будет сделать более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств с помощью относительных частот.

Сводная таблица — это способ создания таблиц непредвиденных обстоятельств с помощью программного обеспечения для работы с электронными таблицами.

Пример

Предположим, что есть две переменные: пол (мужской или женский) и леворукость (правша или левша). Далее предположим, что 100 человек случайным образом отобраны из очень большой популяции в рамках исследования половых различий в рукопожатии. Таблица непредвиденных обстоятельств может быть создана для отображения числа лиц, которые являются правшами и левшами мужского пола, правшой и левшой женского пола. Такая таблица непредвиденных обстоятельств показана ниже.

Количество самцов, самок, правшей и левшей называют маргинальными суммами . Общий итог (общее количество лиц, представленных в таблице непредвиденных обстоятельств) — это число в правом нижнем углу.

Таблица позволяет пользователям с первого взгляда увидеть, что доля правшей среди мужчин примерно такая же, как доля правшей среди женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов населения оценено отношением шансов выборки . Значимость разницы между двумя пропорциями можно оценить с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -критерий , точный критерий Фишера, критерий Бошлоо и критерий Барнарда ., при условии, что записи в таблице представляют лиц, случайно выбранных из совокупности, в отношении которых должны быть сделаны выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не являются независимыми. Если непредвиденных обстоятельств нет, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, может использоваться любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена ​​в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .

Стандартное содержание таблицы непредвиденных обстоятельств

  • Несколько столбцов (исторически они были предназначены для использования всего свободного места на печатной странице). Там, где каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называются баннерными точками или сокращениями (а строки иногда называются заглушками ).
  • Тесты значимости. Как правило, либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая выделяется каким-либо образом.
  • Сети или сети , которые являются промежуточными итогами.
  • Один или несколько из: процентов, процентов строк, процентов столбцов, индексов или средних значений.
  • Невзвешенные размеры выборки (количество).

Меры ассоциации

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Более полное обсуждение их использования см. в основных статьях, связанных под заголовком каждого подраздела.

Отношение шансов

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B, или, что эквивалентно (из-за симметрии), отношение шансов вероятности B в присутствии A и шансов B в отсутствие A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

отношение шансов:

Фи-коэффициент

Простая мера, применимая только к случаю таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент фи (φ), определяемый формулой

где χ 2 вычисляется как критерий хи-квадрат Пирсона , а N — общая сумма наблюдений. φ варьируется от 0 (соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы на произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные клетки пусты). [2]

V Крамера и коэффициент непредвиденных обстоятельств C

Двумя альтернативами являются коэффициент непредвиденных обстоятельств C и V Крамера .

Формулы для коэффициентов C и V :

и

k — количество строк или количество столбцов, в зависимости от того, что меньше.

C страдает от недостатка, заключающегося в том, что он не достигает максимума 1,0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707 . Он может достигать значений, близких к 1,0, в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. [3]

C можно отрегулировать так, чтобы оно достигало максимума 1,0, когда в таблице есть полная ассоциация любого количества строк и столбцов, путем деления C на где k - количество строк или столбцов, когда таблица квадратная [ нужна ссылка ] , или где r — количество строк, а c — количество столбцов. [4]

Тетрахорный коэффициент корреляции

Другим выбором является тетрахорический коэффициент корреляции, но он применим только к таблицам 2 × 2. Полихорная корреляция является расширением тетрахорной корреляции для таблиц, включающих переменные с более чем двумя уровнями.

Тетрахорная корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. [5] Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения были сведены к двум категориям». [6]

Коэффициент тетрахорной корреляции не следует путать с коэффициентом корреляции Пирсона, вычисленным путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда-коэффициент

Лямбда - коэффициент является мерой силы связи перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет связи) до 1,0 (максимально возможная связь).

Асимметричная лямбда измеряет процентное улучшение предсказания зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогноз делается в обоих направлениях.

Коэффициент неопределенности

Коэффициент неопределенности , или коэффициент Тейла, является еще одним показателем переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или полная инверсия) до +1,0 (100% положительная ассоциация или полное согласие). Значение 0,0 указывает на отсутствие связи.

Также коэффициент неопределенности является условной и асимметричной мерой связи, которую можно выразить как

.

Это асимметричное свойство может привести к пониманию, не столь очевидному в симметричных измерениях ассоциации. [7]

Другие

  • Гамма-тест : никаких поправок ни на размер стола, ни на ничью.
  • Тау Кендалла : приспособление для галстуков.
    • Tau-b : Используется для квадратных столов.
    • Tau-c : Используется для прямоугольных таблиц.

Смотрите также

  • Матрица путаницы
  • Сводная таблица в программном обеспечении для работы с электронными таблицами сводит данные выборки в перекрестную таблицу с подсчетами (таблица непредвиденных обстоятельств) и/или суммами.
  • TPL Tables — это инструмент для создания и печати кросс-таблиц.
  • Процедура итеративной пропорциональной подгонки по существу манипулирует таблицами непредвиденных обстоятельств, чтобы сопоставить измененные совместные распределения или предельные суммы.
  • Многомерная статистика в специальных многомерных дискретных распределениях вероятностей. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
  • OLAP-куб , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств.
  • Панельные данные , многомерные данные во времени

использованная литература

  1. ^ Карл Пирсон, FRS (1904). Математические вклады в теорию эволюции . Дулау и Ко.
  2. ^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: Макгроу-Хилл.
  3. ^ Смит, С.К. и Альбаум, Г.С. (2004) Основы маркетинговых исследований . Мудрец: Тысяча дубов, Калифорния. п. 631
  4. ^ Блейки, Н. (2003) Анализ количественных данных . Мудрец: Тысяча дубов, Калифорния. п. 100
  5. ^ Фергюсон. [ нужна полная цитата ]
  6. ^ Фергюсон, 1966, с. 244
  7. ^ «Поиск категориальной корреляции» . 26 декабря 2019 г.

дальнейшее чтение

  • Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями для социальных наук . Северная Голландия, 1980 год.
  • епископ, YMM ; Финберг, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . Массачусетский технологический институт Пресс. ISBN 978-0-262-02113-5. МР  0381130 .
  • Кристенсен, Рональд (1997). Логлинейные модели и логистическая регрессия . Тексты Springer по статистике (второе изд.). Нью-Йорк: Springer-Verlag. стр xvi+483. ISBN 0-387-98247-7. МР  1633357 .
  • Лауритцен, Штеффен Л. (1979). Лекции по таблицам непредвиденных обстоятельств (Ольборгский университет) (PDF) (4-е издание (первое электронное издание), изд. 2002 г.).
  • Гокхале, Д.В.; Кульбак, Соломон (1978). Информация в таблицах непредвиденных обстоятельств . Марсель Деккер. ISBN 0-824-76698-9.

внешняя ссылка

  • Он-лайн анализ таблиц непредвиденных обстоятельств: калькулятор с примерами
  • Интерактивная перекрестная таблица, независимый тест хи-квадрат и учебное пособие.
  • Калькулятор Фишера и хи-квадрат таблицы непредвиденных обстоятельств 2 × 2
  • Дополнительные коэффициенты корреляции
  • Номинальная ассоциация: Phi, коэффициент непредвиденных обстоятельств, T Шупрова, V Крамера, лямбда, коэффициент неопределенности , 24 марта 2008 г., Г. Дэвид Гарсон, Государственный университет Северной Каролины.
  • Перекрестная таблица CustomInsight.com
  • Проект POWERMUTT: IV. ОТОБРАЖЕНИЕ КАТЕГОРИЧЕСКИХ ДАННЫХ
  • StATS: Попытка Стива научить статистике отношение шансов к относительному риску (9 января 2001 г.)
  • Epi Info Community Health Assessment Учебное пособие Урок 5 Анализ: Создание статистики
Получено с " https://en.wikipedia.org/w/index.php?title=Contingency_table&oldid=1055319221 "