Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Модели Многоуровневые (также известные как иерархические линейные модели , линейные моделями смешанных эффектов , смешанные модели , вложенные друг в друге модели данных , случайный коэффициент , случайные эффекты модели , случайные модели параметров , или сплит-участке конструкции ) являются статистическими моделями из параметров , которые изменяются в более чем один уровень. [1] Примером может служить модель успеваемости учащихся, которая содержит показатели для отдельных учеников, а также показатели для классов, в которых они сгруппированы. Эти модели можно рассматривать как обобщения линейных моделей.(в частности, линейная регрессия ), хотя они также могут распространяться на нелинейные модели. Эти модели стали намного более популярными после того, как стали доступны достаточные вычислительные мощности и программное обеспечение. [1]

Многоуровневые модели особенно подходят для исследовательских проектов, в которых данные для участников организованы более чем на одном уровне (т. Е. Вложенные данные ). [2] Единицами анализа обычно являются индивиды (на более низком уровне), которые вложены в контекстные / агрегированные единицы (на более высоком уровне). [3] В то время как самый низкий уровень данных в многоуровневых моделях обычно относится к индивидууму, можно также изучить повторные измерения отдельных лиц. [2] В качестве таких, многоуровневые модели обеспечивают альтернативный тип анализа для однофакторного или многофакторного анализа с повторными измерениями . Можно изучить индивидуальные различия в кривых роста . [2]Кроме того, многоуровневые модели могут использоваться в качестве альтернативы ANCOVA , где оценки зависимой переменной корректируются с учетом ковариат (например, индивидуальных различий) перед проверкой различий в лечении. [4] Многоуровневые модели могут анализировать эти эксперименты без предположений об однородности наклонов регрессии, которые требуются ANCOVA. [2]

Многоуровневые модели могут использоваться для данных с множеством уровней, хотя двухуровневые модели являются наиболее распространенными, и остальная часть этой статьи посвящена только им. Зависимую переменную необходимо исследовать на самом низком уровне анализа. [1]

Уравнение регрессии уровня 1 [ править ]

Когда есть одна независимая переменная уровня 1, модель уровня 1:

  • относится к баллу зависимой переменной для индивидуального наблюдения на уровне 1 (индекс i относится к индивидуальному случаю, индекс j относится к группе).
  • относится к предсказателю уровня 1.
  • относится к перехвату зависимой переменной в группе j (уровень 2).
  • относится к наклону отношения в группе j (уровень 2) между предиктором уровня 1 и зависимой переменной.
  • относится к случайным ошибкам прогнозирования для уравнения уровня 1 (иногда его также называют ).

На уровне 1 как точки пересечения, так и уклоны в группах могут быть либо фиксированными (это означает, что все группы имеют одинаковые значения, хотя в реальном мире это было бы редко), либо изменяться неслучайно (что означает, что точки пересечения и / или наклоны предсказуемы на основе независимой переменной на уровне 2), или изменяются случайным образом (это означает, что точки пересечения и / или наклоны различны в разных группах, и что каждая имеет свое собственное общее среднее значение и дисперсию). [2]

При наличии нескольких независимых переменных уровня 1 модель может быть расширена путем замены векторов и матриц в уравнение.

Когда связь между ответом и предиктором не может быть описана линейной зависимостью, тогда можно найти некоторую нелинейную функциональную связь между ответом и предиктором и расширить модель до нелинейной модели смешанных эффектов . Например, когда ответ представляет собой кумулятивную траекторию заражения -й страны и представляет собой -й момент времени, тогда упорядоченная пара для каждой страны может иметь форму, аналогичную логистической функции . [5] [6]

Уравнение регрессии уровня 2 [ править ]

Зависимые переменные - это точки пересечения и наклоны для независимых переменных на Уровне 1 в группах Уровня 2.

  • относится к общему перехвату. Это общее среднее значение оценок зависимой переменной по всем группам, когда все предикторы равны 0.
  • относится к предсказателю уровня 2.
  • относится к общему коэффициенту регрессии или наклону между зависимой переменной и предиктором уровня 2.
  • относится к компоненту случайной ошибки для отклонения точки пересечения группы от общей точки пересечения.
  • относится к общему коэффициенту регрессии или наклону между зависимой переменной и предиктором уровня 1.
  • относится к компоненту ошибки для наклона (то есть отклонению групповых наклонов от общего наклона). [2]

Типы моделей [ править ]

Перед проведением многоуровневого анализа модели исследователь должен решить несколько аспектов, в том числе, какие предикторы должны быть включены в анализ, если таковые имеются. Во-вторых, исследователь должен решить, будут ли значения параметров (т.е. элементы, которые будут оцениваться) фиксированными или случайными. [2] [4] Фиксированные параметры состоят из константы для всех групп, тогда как случайный параметр имеет различное значение для каждой из групп. Кроме того, исследователь должен решить, использовать ли оценку максимального правдоподобия или ограниченный тип оценки максимального правдоподобия. [2]

Модель случайных перехватов [ править ]

Модель случайных перехватов - это модель, в которой перехватам разрешено изменяться, и, следовательно, оценки зависимой переменной для каждого отдельного наблюдения предсказываются перехватом, который варьируется в разных группах. [4] [7] Эта модель предполагает, что наклоны фиксированы (одинаковы в разных контекстах). Кроме того, эта модель предоставляет информацию о внутриклассовых корреляциях , которая помогает определить, нужны ли в первую очередь многоуровневые модели. [2]

Модель случайных склонов [ править ]

Модель случайных уклонов - это модель, в которой уклоны могут изменяться, и, следовательно, уклоны различны для разных групп. Эта модель предполагает, что перехваты фиксированы (одинаковы в разных контекстах). [4]

Модель случайных пересечений и наклонов [ править ]

Модель, которая включает как случайные пересечения, так и случайные наклоны, вероятно, является наиболее реалистичным типом модели, хотя она также является наиболее сложной. В этой модели и точки пересечения, и наклоны могут изменяться в разных группах, что означает, что они различны в разных контекстах. [4]

Разработка многоуровневой модели [ править ]

Чтобы провести многоуровневый анализ модели, нужно начать с фиксированных коэффициентов (наклонов и пересечений). Один аспект может изменяться за один раз (то есть может быть изменен) и сравниваться с предыдущей моделью для оценки лучшего соответствия модели. [1] Есть три разных вопроса, которые исследователь задает при оценке модели. Во-первых, это хорошая модель? Во-вторых, лучше ли более сложная модель? В-третьих, какой вклад в модель вносят отдельные предикторы?

Для оценки моделей будут изучены различные статистические данные о соответствии модели. [2] Одним из таких статистических показателей является критерий отношения правдоподобия хи-квадрат , который оценивает разницу между моделями. Тест отношения правдоподобия может использоваться для построения модели в целом, для изучения того, что происходит, когда эффекты в модели могут изменяться, и при тестировании категориальной переменной с фиктивным кодом как одного эффекта. [2] Однако тест можно использовать только тогда, когда модели вложены (это означает, что более сложная модель включает все эффекты более простой модели). При тестировании невложенных моделей сравнения между моделями можно проводить с использованием информационного критерия Акаике (AIC) или байесовского информационного критерия.(BIC) и другие. [1] [2] [4] См. Далее Выбор модели .

Предположения [ править ]

Многоуровневые модели имеют те же предположения, что и другие основные общие линейные модели (например, ANOVA , регрессия ), но некоторые из предположений модифицированы для иерархической природы дизайна (например, вложенные данные).

Линейность

Предположение о линейности утверждает, что существует прямолинейное (прямолинейное, в отличие от нелинейного или U-образного) отношения между переменными. [8] Однако модель может быть расширена до нелинейных отношений. [9]

Нормальность

Предположение о нормальности утверждает, что члены ошибки на каждом уровне модели нормально распределены. [8] [ спорный ] . Однако большинство статистических программ позволяет задавать различные распределения для членов дисперсии, такие как пуассоновское, биномиальное, логистическое. Подход многоуровневого моделирования может использоваться для всех форм обобщенных линейных моделей.

Гомоскедастичность

Предположение об гомоскедастичности , также известном как однородность дисперсии, предполагает равенство дисперсий совокупности. [8] Однако для учета этого может быть указана другая матрица дисперсии-корреляции, а неоднородность дисперсии может быть смоделирована.

Независимость наблюдений

Независимость - это допущение общих линейных моделей, в которых говорится, что случаи представляют собой случайные выборки из совокупности и что оценки по зависимой переменной не зависят друг от друга. [8] Одна из основных целей многоуровневых моделей - иметь дело со случаями, когда нарушается предположение о независимости; Однако многоуровневые модели предполагают, что 1) остатки уровня 1 и уровня 2 некоррелированы и 2) ошибки (измеряемые остатками) на самом высоком уровне не коррелированы. [10]

Статистические тесты [ править ]

Тип статистических тестов, которые используются в многоуровневых моделях, зависит от того, исследуются ли фиксированные эффекты или компоненты дисперсии. При изучении фиксированных эффектов тесты сравниваются со стандартной ошибкой фиксированного эффекта, что приводит к Z-тесту . [4] Т-тест также может быть вычислен. При вычислении t-критерия важно учитывать степени свободы, которые будут зависеть от уровня предсказателя (например, предсказателя уровня 1 или предсказателя уровня 2). [4]Для предиктора уровня 1 степени свободы основаны на количестве предикторов уровня 1, количестве групп и количестве отдельных наблюдений. Для предиктора уровня 2 степени свободы основаны на количестве предикторов уровня 2 и количестве групп. [4]

Статистическая сила [ править ]

Статистическая мощность многоуровневых моделей различается в зависимости от того, исследуются ли эффекты уровня 1 или уровня 2. Мощность эффектов уровня 1 зависит от количества отдельных наблюдений, тогда как мощность эффектов уровня 2 зависит от количества групп. [11] Для проведения исследований с достаточной мощностью в многоуровневых моделях требуются большие размеры выборки. Однако количество индивидуальных наблюдений в группах не так важно, как количество групп в исследовании. Для выявления межуровневых взаимодействий, учитывая, что размеры групп не слишком малы, были сделаны рекомендации, что необходимо как минимум 20 групп. [11]Проблема статистической мощности в многоуровневых моделях осложняется тем фактом, что мощность варьируется в зависимости от размера эффекта и внутриклассовых корреляций, она отличается для фиксированных эффектов от случайных эффектов и изменяется в зависимости от количества групп и количества отдельных наблюдений. на группу. [11]

Приложения [ править ]

Уровень [ править ]

Концепция уровня является краеугольным камнем этого подхода. В примере исследования в области образования уровни двухуровневой модели могут быть следующими:

  1. ученица
  2. учебный класс

Однако, если вы изучаете несколько школ и несколько школьных округов, четырехуровневая модель может быть:

  1. ученица
  2. учебный класс
  3. школа
  4. округ

Исследователь должен установить для каждой переменной уровень, на котором она была измерена. В этом примере «результат теста» может быть измерен на уровне ученика, «опыт учителя» на уровне класса, «финансирование школы» на уровне школы и «городское» на уровне района.

Пример [ править ]

В качестве простого примера рассмотрим базовую модель линейной регрессии, которая прогнозирует доход как функцию возраста, класса, пола и расы. Затем можно заметить, что уровни дохода также различаются в зависимости от города и штата проживания. Простой способ включить это в регрессионную модель - добавить дополнительную независимую категориальную переменную.для учета местоположения (т.е. набор дополнительных двоичных предикторов и связанных коэффициентов регрессии, по одному на местоположение). Это привело бы к сдвигу среднего дохода вверх или вниз, но при этом, например, все равно будет предполагаться, что влияние расы и пола на доход одинаково везде. В действительности это маловероятно - разные местные законы, разная политика выхода на пенсию, различия в уровне расовых предрассудков и т. Д. Могут привести к тому, что все предикторы будут иметь разные виды эффектов в разных местах.

Другими словами, простая модель линейной регрессии может, например, предсказать, что у данного случайно отобранного человека в Сиэтле будет средний годовой доход на 10 000 долларов выше, чем у аналогичного человека в Мобиле, Алабама.. Тем не менее, он также может предсказывать, например, что средний доход белого человека может быть на 7000 долларов больше, чем у черного, а 65-летний может иметь доход на 3000 долларов ниже 45-летнего, в обоих случаях независимо от место расположения. Однако многоуровневая модель допускает разные коэффициенты регрессии для каждого предиктора в каждом месте. По сути, это будет предполагать, что люди в данном месте имеют коррелированные доходы, генерируемые одним набором коэффициентов регрессии, тогда как люди в другом месте имеют доходы, полученные с помощью другого набора коэффициентов. Между тем предполагается, что сами коэффициенты коррелированы и генерируются из единого набора гиперпараметров.. Возможны дополнительные уровни: например, люди могут быть сгруппированы по городам, а коэффициенты регрессии на уровне города сгруппированы по штатам, а коэффициенты уровня штата сгенерированы из одного гипер-гиперпараметра.

Многоуровневые модели - это подкласс иерархических байесовских моделей , которые представляют собой общие модели с несколькими уровнями случайных величин и произвольными отношениями между различными переменными. Многоуровневый анализ был расширен за счет включения многоуровневого моделирования структурных уравнений , многоуровневого моделирования скрытых классов и других более общих моделей.

Использует [ редактировать ]

Многоуровневые модели использовались в исследованиях в области образования или географических исследованиях, чтобы отдельно оценить разницу между учениками в одной школе и разницу между школами. В психологических приложениях несколько уровней - это элементы инструмента, отдельных лиц и семей. В социологических приложениях многоуровневые модели используются для изучения людей, проживающих в регионах или странах. В исследованиях организационной психологии данные, полученные от отдельных лиц, часто приходится вкладывать в группы или другие функциональные подразделения.

Различные ковеременные могут иметь значение на разных уровнях. Их можно использовать для продольных исследований, как и для исследований роста, для разделения изменений в пределах одного человека и различий между людьми.

Межуровневые взаимодействия также могут представлять существенный интерес; например, когда наклон может изменяться случайным образом, предсказатель уровня 2 может быть включен в формулу наклона для ковариаты уровня 1. Например, можно оценить взаимодействие расы и соседства так, чтобы оценить взаимодействие между характеристиками человека и контекстом.

Приложения к продольным данным (повторные измерения) [ править ]

Альтернативные способы анализа иерархических данных [ править ]

Есть несколько альтернативных способов анализа иерархических данных, хотя у большинства из них есть некоторые проблемы. Во-первых, можно использовать традиционные статистические методы. Можно разделить переменные более высокого порядка на индивидуальный уровень и, таким образом, провести анализ на этом индивидуальном уровне (например, присвоить переменные класса индивидуальному уровню). Проблема с этим подходом заключается в том, что он нарушит предположение о независимости и, следовательно, может исказить наши результаты. Это известно как атомистическая ошибка. [12] Другой способ анализа данных с использованием традиционных статистических подходов - агрегирование переменных индивидуального уровня с переменными более высокого порядка, а затем проведение анализа на этом более высоком уровне. Проблема с этим подходом заключается в том, что он отбрасывает всю информацию внутри группы (потому что он принимает среднее значение переменных индивидуального уровня). До 80–90% дисперсии может быть потрачено впустую, а взаимосвязь между агрегированными переменными будет завышена и, таким образом, искажена. [13] Это известно как экологическая ошибка , и статистически этот тип анализа приводит к снижению мощности в дополнение к потере информации. [2]

Другой способ анализа иерархических данных - использовать модель случайных коэффициентов. Эта модель предполагает, что у каждой группы своя модель регрессии - со своим собственным пересечением и наклоном. [4] Поскольку выборка производится по группам, модель предполагает, что пересечения и наклоны также случайным образом выбираются из совокупности групповых пересечений и наклонов. Это позволяет провести анализ, в котором можно предположить, что уклоны фиксированы, но пересечения могут изменяться. [4]Однако это представляет проблему, поскольку отдельные компоненты независимы, а компоненты группы независимы между группами, но зависят внутри групп. Это также позволяет проводить анализ, в котором наклоны случайны; однако корреляция членов ошибок (возмущений) зависит от значений переменных индивидуального уровня. [4] Таким образом, проблема с использованием модели случайных коэффициентов для анализа иерархических данных заключается в том, что по-прежнему невозможно включить переменные более высокого порядка.

Условия ошибки [ править ]

Многоуровневые модели имеют два члена ошибок, которые также известны как возмущения. Все отдельные компоненты независимы, но есть и групповые компоненты, которые независимы между группами, но коррелируют внутри групп. Однако компоненты дисперсии могут различаться, поскольку одни группы более однородны, чем другие. [13]

См. Также [ править ]

  • Гиперпараметр
  • Смешанный дизайн дисперсионного анализа
  • Модель случайных эффектов
  • Ограниченная рандомизация

Ссылки [ править ]

  1. ^ a b c d e Брик, Стивен В. Рауденбуш, Энтони С. (2002). Иерархические линейные модели: приложения и методы анализа данных (2-е изд., [3-е д-р] изд.). Таузенд-Оукс, Калифорния [ua]: Sage Publications. ISBN 978-0-7619-1904-9.
  2. ^ Б с д е е г ч я J к л м Файделл, Барбара Г. Tabachnick, Линда С. (2007). Использование многомерной статистики (5-е изд.). Бостон; Монреаль: Pearson / A&B ISBN 978-0-205-45938-4.
  3. ^ Люк, Дуглас А. (2004). Многоуровневое моделирование (3-е изд.). Таузенд-Оукс, Калифорния: Сейдж. ISBN 978-0-7619-2879-9.
  4. ^ a b c d e f g h i j k l Коэн, Джейкоб (3 октября 2003 г.). Применил множественный регрессионный / корреляционный анализ для поведенческих наук (3-е изд.). Махва, Нью-Джерси [ua]: Эрлбаум. ISBN 978-0-8058-2223-6.
  5. Ли, Се Юн; Лей, Боуэн; Маллик, Бани (2020). «Оценка кривых распространения COVID-19 с учетом глобальных данных и информации о заимствованиях» . PLOS ONE . DOI : 10.1371 / journal.pone.0236860 .
  6. Ли, Се Юн; Маллик, Бани (2021). «Байесовское иерархическое моделирование: применение к результатам добычи на сланцах Игл Форд в Южном Техасе» . Санкхья Б . DOI : 10.1007 / s13571-020-00245-8 .
  7. ^ редактор Дж. Дэвид Гарсон (10 апреля 2012 г.). Иерархическое линейное моделирование: руководство и приложения . Таузенд-Оукс, Калифорния: Sage Publications. ISBN 978-1-4129-9885-7.CS1 maint: дополнительный текст: список авторов ( ссылка )
  8. ^ a b c d Салкинд, Сэмюэл Б. Грин, Нил Дж. (2004). Использование SPSS для Windows и Macintosh: анализ и понимание данных (4-е изд.). Река Аппер Сэдл, Нью-Джерси: Pearson Education. ISBN 978-0-13-146597-8.
  9. ^ Голдштейн, Харви (1991). «Нелинейные многоуровневые модели с приложением к дискретным данным отклика». Биометрика . 78 (1): 45–51. DOI : 10.1093 / Biomet / 78.1.45 . JSTOR 2336894 . 
  10. ^ Статистическая консалтинговая группа ATS. «Введение в многоуровневое моделирование с использованием HLM 6» (PDF) . Архивировано из оригинального (PDF) 31 декабря 2010 года.
  11. ^ a b c Леу, Ита Крефт, Ян де (1998). Введение в многоуровневое моделирование (Ред. Ред.). Лондон: ISBN компании Sage Publications Ltd. 978-0-7619-5141-4.
  12. ^ Нох, Joop (2002). Многоуровневый анализ: методы и приложения (Перепечатка. Ред.). Махва, Нью-Джерси [ua]: Эрлбаум. ISBN 978-0-8058-3219-8.
  13. ^ a b Bryk, Anthony S .; Рауденбуш, Стивен В. (1 января 1988 г.). «Неоднородность дисперсии в экспериментальных исследованиях: вызов традиционным интерпретациям». Психологический бюллетень . 104 (3): 396–404. DOI : 10.1037 / 0033-2909.104.3.396 .

Дальнейшее чтение [ править ]

  • Гельман, А .; Хилл, Дж. (2007). Анализ данных с использованием регрессии и многоуровневых / иерархических моделей . Нью-Йорк: Издательство Кембриджского университета. С. 235–299. ISBN 978-0-521-68689-1.
  • Гольдштейн, Х. (2011). Многоуровневые статистические модели (4-е изд.). Лондон: Уайли. ISBN 978-0-470-74865-7.
  • Hedeker, D .; Гиббонс, RD (2012). Продольный анализ данных (2-е изд.). Нью-Йорк: Вили. ISBN 978-0-470-88918-3.
  • Хокс, Дж. Дж. (2010). Многоуровневый анализ: методы и приложения (2-е изд.). Нью-Йорк: Рутледж. ISBN 978-1-84872-845-5.
  • Raudenbush, SW; Брык, А.С. (2002). Иерархические линейные модели: приложения и методы анализа данных (2-е изд.). Таузенд-Оукс, Калифорния: Сейдж. Это сосредоточено на образовании.
  • Snijders, TAB; Боскер, Р.Дж. (2011). Многоуровневый анализ: введение в базовое и расширенное многоуровневое моделирование (2-е изд.). Лондон: Мудрец. ISBN 9781446254332.
  • Свами, ПАВБ ; Тавлас, Джордж С. (2001). «Модели со случайными коэффициентами». В Балтаги, Бади Х. (ред.). Компаньон теоретической эконометрики . Оксфорд: Блэквелл. С. 410–429. ISBN 978-0-631-21254-6.
  • Verbeke, G .; Моленбергс, Г. (2013). Линейные смешанные модели для продольных данных . Springer.Включает код SAS

Внешние ссылки [ править ]

  • Центр многоуровневого моделирования