Логлинейный анализ

Логлинейный анализ - это метод, используемый в статистике для изучения взаимосвязи между более чем двумя категориальными переменными . Этот метод используется как для проверки гипотез, так и для построения модели. В обоих случаях модели тестируются, чтобы найти наиболее экономную (т. Е. Наименее сложную) модель, которая наилучшим образом учитывает дисперсию наблюдаемых частот. ( Вместо лог-линейного анализа можно использовать критерий хи-квадрат Пирсона , но этот метод позволяет сравнивать только две переменные одновременно. ^[1] )

Критерий подгонки [ править ]

Логлинейный анализ использует статистику отношения правдоподобия, которая имеет приблизительное распределение хи-квадрат при большом размере выборки: ^[2] ${\ Displaystyle \ mathrm {X} ^ {2}}$

\mathrm {X} ^{2}=2\sum O_{ij}\ln {\frac {O_{ij}}{E_{ij}}},

где

\ln =

натуральный логарифм ;

O_{ij}=

наблюдаемая частота в ячейке _ij ( i = строка и j = столбец);

E_{ij}=

ожидаемая частота в ячейке _ij .

\mathrm {X} ^{2}=

девиации для данной модели. ^[3]

Предположения [ править ]

В логлинейном анализе есть три допущения: ^[2]

1. Наблюдения независимы и случайны ;

2. Наблюдаемые частоты обычно распределяются относительно ожидаемых частот по повторяющимся выборкам. Это хорошее приближение, если (а) ожидаемые частоты больше или равны 5 для 80% или более категорий и (б) все ожидаемые частоты больше 1. Нарушение этого предположения приводит к значительному сокращению власть. Предлагаемые решения для этого нарушения: удалить переменную, объединить уровни одной переменной (например, объединить мужчин и женщин) или собрать больше данных.

3. Логарифм ожидаемого значения переменной ответа представляет собой линейную комбинацию независимых переменных. Это предположение настолько фундаментально, что о нем редко упоминают, но, как и большинство предположений о линейности, оно редко бывает точным и часто просто делается для получения управляемой модели.

Кроме того, данные всегда должны быть категориальными. Непрерывные данные можно сначала преобразовать в категориальные данные с некоторой потерей информации. Как для непрерывных, так и для категориальных данных лучше всего использовать логистическую регрессию . (Любые данные, которые анализируются с помощью лог-линейного анализа, также можно анализировать с помощью логистической регрессии. Выбор метода зависит от вопросов исследования.)

Переменные [ править ]

В логлинейном анализе нет четкого различия между тем, какие переменные являются независимыми или зависимыми . Переменные обрабатываются одинаково. Однако часто теоретические основы переменных приводят к тому, что переменные интерпретируются либо как независимые, либо как зависимые переменные. ^[1]

Модели [ править ]

Цель логарифмически-линейного анализа - определить, какие компоненты модели необходимо сохранить, чтобы наилучшим образом учесть данные. Компоненты модели - это количество основных эффектов и взаимодействий в модели. Например, если мы исследуем взаимосвязь между тремя переменными - переменной A, переменной B и переменной C - в насыщенной модели будет семь компонентов модели. Три основных эффекта (A, B, C), три двусторонних взаимодействия (AB, AC, BC) и одно трехстороннее взаимодействие (ABC) дают семь компонентов модели.

Логлинейные модели можно рассматривать как континуум с двумя крайностями: простейшая модель и насыщенная модель . Самая простая модель - это модель, в которой все ожидаемые частоты равны. Это верно, когда переменные не связаны. Насыщенная модель - это модель, которая включает в себя все компоненты модели. Эта модель всегда лучше всего объясняет данные, но она наименее экономична, поскольку все включено. В этой модели наблюдаемые частоты равны ожидаемым частотам, поэтому в статистике отношения правдоподобия хи-квадрат соотношение и . Это приводит к тому, что статистика хи-квадрат отношения правдоподобия равна 0, что является наилучшим соответствием модели. ^[2] ${\frac {O_{ij}}{E_{ij}}}=1$ $\ln(1)=0$ Другие возможные модели - это модель условной равновероятности и модель взаимозависимости. ^[1]

Каждая лог-линейная модель может быть представлена в виде лог-линейного уравнения. Например, с тремя переменными ( A , B , C ) насыщенная модель имеет следующее логлинейное уравнение: ^[1]

\ln(F_{ijk})=\lambda +\lambda _{i}^{A}+\lambda _{j}^{B}+\lambda _{k}^{C}+\lambda _{ij}^{AB}+\lambda _{ik}^{AC}+\lambda _{jk}^{BC}+\lambda _{ijk}^{ABC},\,

где

F_{ijk}=

ожидаемая частота в ячейке _ijk ;

\lambda =

относительный вес каждой переменной.

Иерархическая модель [ править ]

Модели логлинейного анализа могут быть иерархическими или неиерархическими. Иерархические модели являются наиболее распространенными. Эти модели содержат все взаимодействия низшего порядка и основные эффекты взаимодействия, которые необходимо изучить. ^[1]

Графическая модель [ править ]

Логлинейная модель является графической, если всякий раз, когда модель содержит все двухфакторные члены, порожденные взаимодействием более высокого порядка, модель также содержит взаимодействие более высокого порядка. ^[4] Как прямое следствие, графические модели являются иерархическими. Более того, будучи полностью определяемой двухфакторными членами, графическая модель может быть представлена неориентированным графом, где вершины представляют переменные, а ребра представляют двухфакторные члены, включенные в модель.

Разложимая модель [ править ]

Логлинейная модель разложима, если она графическая и соответствующий граф хордовый .

Подгонка модели [ править ]

Модель хорошо подходит, когда остатки (т. Е. Наблюдаемые-ожидаемые) близки к 0, то есть чем ближе наблюдаемые частоты к ожидаемым частотам, тем лучше подходит модель. Если статистика отношения правдоподобия хи-квадрат не имеет значения, то модель хорошо подходит (т. Е. Рассчитанные ожидаемые частоты близки к наблюдаемым частотам). Если статистика отношения правдоподобия хи-квадрат является значительной, то модель не подходит (т. Е. Рассчитанные ожидаемые частоты не близки к наблюдаемым частотам).

Обратное исключение используется для определения того, какие компоненты модели необходимо сохранить, чтобы наилучшим образом учесть данные. Логлинейный анализ начинается с насыщенной модели, и взаимодействия высшего порядка удаляются до тех пор, пока модель не перестанет точно соответствовать данным. В частности, на каждом этапе после удаления наиболее упорядоченного взаимодействия вычисляется статистика хи-квадрат отношения правдоподобия для измерения того, насколько хорошо модель соответствует данным. Высшие упорядоченные взаимодействия больше не удаляются, когда статистика хи-квадрат отношения правдоподобия становится значимой. ^[2]

Сравнение моделей [ править ]

Когда две модели вложены друг в друга , модели также можно сравнивать с помощью теста разности хи-квадрат. Тест разности хи-квадрат вычисляется путем вычитания статистики хи-квадрат отношения правдоподобия для двух сравниваемых моделей. Затем это значение сравнивается с критическим значением хи-квадрат при разнице степеней свободы. Если разница хи-квадрат меньше критического значения хи-квадрат, новая модель значительно лучше соответствует данным и является предпочтительной моделью. Иначе, если разница хи-квадрат больше критического значения, предпочтительнее менее экономная модель. ^[1]

Последующие тесты [ править ]

После того, как модель наилучшего соответствия определена, взаимодействие высшего порядка исследуется путем проведения анализа хи-квадрат на разных уровнях одной из переменных. Чтобы провести анализ хи-квадрат, необходимо разбить модель на таблицу непредвиденных обстоятельств 2 × 2 или 2 × 1 . ^[2]

Например, если кто-то изучает взаимосвязь между четырьмя переменными, а модель наилучшего соответствия содержит одно из трехсторонних взаимодействий, можно исследовать его простые двусторонние взаимодействия на разных уровнях третьей переменной.

Размеры эффектов [ править ]

Для сравнения величины эффекта взаимодействия между переменными используются отношения шансов . Отношения шансов предпочтительнее статистики хи-квадрат по двум основным причинам: ^[1]

1. Отношение шансов не зависит от размера выборки;

2. На отношения шансов не влияет неравное маржинальное распределение.

Программное обеспечение [ править ]

Для наборов данных с несколькими переменными - общие лог-линейные модели [ править ]

R с функцией loglm пакета MASS (см. Учебник )
IBM SPSS Statistics с процедурой GENLOG ( использование )

Для наборов данных с сотнями переменных - разложимые модели [ править ]

Хордализ ^[5]

См. Также [ править ]

Регрессия Пуассона
Лог-линейная модель

Ссылки [ править ]

^ Б с д е е г Хауэлл, DC (2009). Статистические методы психологии (7-е изд.) . Белмот, Калифорния: Cengage Learning . С. 630–655.
^ a b c d e Филд, A. (2005). Обнаружение статистики с помощью SPSS (2-е изд.) . Таузенд-Оукс, Калифорния: Sage Publications . стр. 695 -718.
^ Агрести, Алан (2007). Введение в категориальный анализ данных (2-е изд.) . Хобокен, Нью-Джерси: Wiley Inter-Science . п. 212. DOI : 10.1002 / 0470114754 . ISBN 978-0-471-22618-5.
Перейти ↑ Christensen, R. (1997). Лог-линейные модели и логистическая регрессия (2-е изд.) . Springer.
^ Petitjean, F .; Уэбб, Г.И.; Николсон, AE (2013). Масштабирование лог-линейного анализа до данных большой размерности (PDF) . Международная конференция по интеллектуальному анализу данных. Даллас, Техас, США: IEEE. С. 597–606.

Дальнейшее чтение [ править ]

Лог-линейные модели
Simkiss, D .; Ebrahim, GJ; Уотерстон, AJR (ред.) «Глава 14: Анализ категориальных данных: лог-линейный анализ». Журнал тропической педиатрии , онлайн-раздел «Методы исследования II: многомерный анализ» (стр. 144–153). Получено в мае 2012 г. с сайта http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf.
Пью, доктор медицины (1983). «Соучастник вины и осуждения за изнасилование: лог-линейные модели обвинения жертвы». Social Psychology Quarterly, 46 , 233–242. JSTOR 3033794
Табачник, Б.Г., и Фиделл, Л.С. (2007). Использование многомерной статистики (5-е изд.). Нью-Йорк, Нью-Йорк: Аллин и Бэкон. ^{[ требуется страница ]}

[Howell-1] Б с д е е г Хауэлл, DC (2009). Статистические методы психологии (7-е изд.) . Белмот, Калифорния: Cengage Learning . С. 630–655.

[Field-2] Филд, A. (2005). Обнаружение статистики с помощью SPSS (2-е изд.) . Таузенд-Оукс, Калифорния: Sage Publications . стр. 695 -718.

[Agresti-3] Агрести, Алан (2007). Введение в категориальный анализ данных (2-е изд.) . Хобокен, Нью-Джерси: Wiley Inter-Science . п. 212. DOI : 10.1002 / 0470114754 . ISBN 978-0-471-22618-5.

[Christensen-4] Перейти ↑ Christensen, R. (1997). Лог-линейные модели и логистическая регрессия (2-е изд.) . Springer.

[Petitjean-5] Petitjean, F .; Уэбб, Г.И.; Николсон, AE (2013). Масштабирование лог-линейного анализа до данных большой размерности (PDF) . Международная конференция по интеллектуальному анализу данных. Даллас, Техас, США: IEEE. С. 597–606.

[1]