Логлинейный анализ - это метод, используемый в статистике для изучения взаимосвязи между более чем двумя категориальными переменными . Этот метод используется как для проверки гипотез, так и для построения модели. В обоих случаях модели тестируются, чтобы найти наиболее экономную (т. Е. Наименее сложную) модель, которая наилучшим образом учитывает дисперсию наблюдаемых частот. ( Вместо лог-линейного анализа можно использовать критерий хи-квадрат Пирсона , но этот метод позволяет сравнивать только две переменные одновременно. [1] )
Критерий подгонки [ править ]
Логлинейный анализ использует статистику отношения правдоподобия, которая имеет приблизительное распределение хи-квадрат при большом размере выборки: [2]
где
- натуральный логарифм ;
- наблюдаемая частота в ячейке ij ( i = строка и j = столбец);
- ожидаемая частота в ячейке ij .
- девиации для данной модели. [3]
Предположения [ править ]
В логлинейном анализе есть три допущения: [2]
1. Наблюдения независимы и случайны ;
2. Наблюдаемые частоты обычно распределяются относительно ожидаемых частот по повторяющимся выборкам. Это хорошее приближение, если (а) ожидаемые частоты больше или равны 5 для 80% или более категорий и (б) все ожидаемые частоты больше 1. Нарушение этого предположения приводит к значительному сокращению власть. Предлагаемые решения для этого нарушения: удалить переменную, объединить уровни одной переменной (например, объединить мужчин и женщин) или собрать больше данных.
3. Логарифм ожидаемого значения переменной ответа представляет собой линейную комбинацию независимых переменных. Это предположение настолько фундаментально, что о нем редко упоминают, но, как и большинство предположений о линейности, оно редко бывает точным и часто просто делается для получения управляемой модели.
Кроме того, данные всегда должны быть категориальными. Непрерывные данные можно сначала преобразовать в категориальные данные с некоторой потерей информации. Как для непрерывных, так и для категориальных данных лучше всего использовать логистическую регрессию . (Любые данные, которые анализируются с помощью лог-линейного анализа, также можно анализировать с помощью логистической регрессии. Выбор метода зависит от вопросов исследования.)
Переменные [ править ]
В логлинейном анализе нет четкого различия между тем, какие переменные являются независимыми или зависимыми . Переменные обрабатываются одинаково. Однако часто теоретические основы переменных приводят к тому, что переменные интерпретируются либо как независимые, либо как зависимые переменные. [1]
Модели [ править ]
Цель логарифмически-линейного анализа - определить, какие компоненты модели необходимо сохранить, чтобы наилучшим образом учесть данные. Компоненты модели - это количество основных эффектов и взаимодействий в модели. Например, если мы исследуем взаимосвязь между тремя переменными - переменной A, переменной B и переменной C - в насыщенной модели будет семь компонентов модели. Три основных эффекта (A, B, C), три двусторонних взаимодействия (AB, AC, BC) и одно трехстороннее взаимодействие (ABC) дают семь компонентов модели.
Логлинейные модели можно рассматривать как континуум с двумя крайностями: простейшая модель и насыщенная модель . Самая простая модель - это модель, в которой все ожидаемые частоты равны. Это верно, когда переменные не связаны. Насыщенная модель - это модель, которая включает в себя все компоненты модели. Эта модель всегда лучше всего объясняет данные, но она наименее экономична, поскольку все включено. В этой модели наблюдаемые частоты равны ожидаемым частотам, поэтому в статистике отношения правдоподобия хи-квадрат соотношение и . Это приводит к тому, что статистика хи-квадрат отношения правдоподобия равна 0, что является наилучшим соответствием модели. [2]Другие возможные модели - это модель условной равновероятности и модель взаимозависимости. [1]
Каждая лог-линейная модель может быть представлена в виде лог-линейного уравнения. Например, с тремя переменными ( A , B , C ) насыщенная модель имеет следующее логлинейное уравнение: [1]
где
- ожидаемая частота в ячейке ijk ;
- относительный вес каждой переменной.
Иерархическая модель [ править ]
Модели логлинейного анализа могут быть иерархическими или неиерархическими. Иерархические модели являются наиболее распространенными. Эти модели содержат все взаимодействия низшего порядка и основные эффекты взаимодействия, которые необходимо изучить. [1]
Графическая модель [ править ]
Логлинейная модель является графической, если всякий раз, когда модель содержит все двухфакторные члены, порожденные взаимодействием более высокого порядка, модель также содержит взаимодействие более высокого порядка. [4] Как прямое следствие, графические модели являются иерархическими. Более того, будучи полностью определяемой двухфакторными членами, графическая модель может быть представлена неориентированным графом, где вершины представляют переменные, а ребра представляют двухфакторные члены, включенные в модель.
Разложимая модель [ править ]
Логлинейная модель разложима, если она графическая и соответствующий граф хордовый .
Подгонка модели [ править ]
Модель хорошо подходит, когда остатки (т. Е. Наблюдаемые-ожидаемые) близки к 0, то есть чем ближе наблюдаемые частоты к ожидаемым частотам, тем лучше подходит модель. Если статистика отношения правдоподобия хи-квадрат не имеет значения, то модель хорошо подходит (т. Е. Рассчитанные ожидаемые частоты близки к наблюдаемым частотам). Если статистика отношения правдоподобия хи-квадрат является значительной, то модель не подходит (т. Е. Рассчитанные ожидаемые частоты не близки к наблюдаемым частотам).
Обратное исключение используется для определения того, какие компоненты модели необходимо сохранить, чтобы наилучшим образом учесть данные. Логлинейный анализ начинается с насыщенной модели, и взаимодействия высшего порядка удаляются до тех пор, пока модель не перестанет точно соответствовать данным. В частности, на каждом этапе после удаления наиболее упорядоченного взаимодействия вычисляется статистика хи-квадрат отношения правдоподобия для измерения того, насколько хорошо модель соответствует данным. Высшие упорядоченные взаимодействия больше не удаляются, когда статистика хи-квадрат отношения правдоподобия становится значимой. [2]
Сравнение моделей [ править ]
Когда две модели вложены друг в друга , модели также можно сравнивать с помощью теста разности хи-квадрат. Тест разности хи-квадрат вычисляется путем вычитания статистики хи-квадрат отношения правдоподобия для двух сравниваемых моделей. Затем это значение сравнивается с критическим значением хи-квадрат при разнице степеней свободы. Если разница хи-квадрат меньше критического значения хи-квадрат, новая модель значительно лучше соответствует данным и является предпочтительной моделью. Иначе, если разница хи-квадрат больше критического значения, предпочтительнее менее экономная модель. [1]
Последующие тесты [ править ]
После того, как модель наилучшего соответствия определена, взаимодействие высшего порядка исследуется путем проведения анализа хи-квадрат на разных уровнях одной из переменных. Чтобы провести анализ хи-квадрат, необходимо разбить модель на таблицу непредвиденных обстоятельств 2 × 2 или 2 × 1 . [2]
Например, если кто-то изучает взаимосвязь между четырьмя переменными, а модель наилучшего соответствия содержит одно из трехсторонних взаимодействий, можно исследовать его простые двусторонние взаимодействия на разных уровнях третьей переменной.
Размеры эффектов [ править ]
Для сравнения величины эффекта взаимодействия между переменными используются отношения шансов . Отношения шансов предпочтительнее статистики хи-квадрат по двум основным причинам: [1]
1. Отношение шансов не зависит от размера выборки;
2. На отношения шансов не влияет неравное маржинальное распределение.
Программное обеспечение [ править ]
Для наборов данных с несколькими переменными - общие лог-линейные модели [ править ]
- R с функцией loglm пакета MASS (см. Учебник )
- IBM SPSS Statistics с процедурой GENLOG ( использование )
Для наборов данных с сотнями переменных - разложимые модели [ править ]
- Хордализ [5]
См. Также [ править ]
- Регрессия Пуассона
- Лог-линейная модель
Ссылки [ править ]
- ^ Б с д е е г Хауэлл, DC (2009). Статистические методы психологии (7-е изд.) . Белмот, Калифорния: Cengage Learning . С. 630–655.
- ^ a b c d e Филд, A. (2005). Обнаружение статистики с помощью SPSS (2-е изд.) . Таузенд-Оукс, Калифорния: Sage Publications . стр. 695 -718.
- ^ Агрести, Алан (2007). Введение в категориальный анализ данных (2-е изд.) . Хобокен, Нью-Джерси: Wiley Inter-Science . п. 212. DOI : 10.1002 / 0470114754 . ISBN 978-0-471-22618-5.
- Перейти ↑ Christensen, R. (1997). Лог-линейные модели и логистическая регрессия (2-е изд.) . Springer.
- ^ Petitjean, F .; Уэбб, Г.И.; Николсон, AE (2013). Масштабирование лог-линейного анализа до данных большой размерности (PDF) . Международная конференция по интеллектуальному анализу данных. Даллас, Техас, США: IEEE. С. 597–606.
Дальнейшее чтение [ править ]
- Лог-линейные модели
- Simkiss, D .; Ebrahim, GJ; Уотерстон, AJR (ред.) «Глава 14: Анализ категориальных данных: лог-линейный анализ». Журнал тропической педиатрии , онлайн-раздел «Методы исследования II: многомерный анализ» (стр. 144–153). Получено в мае 2012 г. с сайта http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf.
- Пью, доктор медицины (1983). «Соучастник вины и осуждения за изнасилование: лог-линейные модели обвинения жертвы». Social Psychology Quarterly, 46 , 233–242. JSTOR 3033794
- Табачник, Б.Г., и Фиделл, Л.С. (2007). Использование многомерной статистики (5-е изд.). Нью-Йорк, Нью-Йорк: Аллин и Бэкон. [ требуется страница ]