В статистике , то внутригрупповая корреляция , или коэффициент внутригрупповой корреляции ( ICC ), [1] является описательной статистикой , которая может быть использована , когда количественные измерения производится на объектах, которые организованы в группы. Он описывает, насколько сильно единицы в одной группе похожи друг на друга. Хотя он рассматривается как тип корреляции , в отличие от большинства других мер корреляции, он работает с данными, структурированными как группы, а не данными, структурированными как парные наблюдения.
Корреляция внутригрупповой обычно используется для определения степени , в которой люди с фиксированной степенью связанности (например , полные братьев и сестер) похожи друг на друга с точки зрения количественного признака (см наследуемость ). Еще одно важное приложение - оценка согласованности или воспроизводимости количественных измерений, сделанных разными наблюдателями, измеряющими одно и то же количество.
Раннее определение ICC: беспристрастная, но сложная формула
Самая ранняя работа по внутриклассовой корреляции была сосредоточена на случае парных измерений, и первая предложенная статистика внутриклассовой корреляции (ICC) была модификацией межклассовой корреляции (корреляция Пирсона).
Рассмотрим набор данных , состоящий из N парных значений данных ( х п , 1 , х п , 2 ), для п = 1, ..., N . Внутригрупповой корреляции г первоначально предложенный [2] с помощью Рональда Фишера [3] является
где
Более поздние версии этой статистики [3] использовали степени свободы 2 N −1 в знаменателе для вычисления s 2 и N −1 в знаменателе для вычисления r , так что s 2 становится несмещенным, а r становится несмещенным, если s известно .
Ключевое различие между этим ICC и межклассовой корреляцией (Пирсона) состоит в том, что данные объединяются для оценки среднего и дисперсии. Причина этого в том, что в настройке, где требуется внутриклассовая корреляция, пары считаются неупорядоченными. Например, если мы изучаем сходство близнецов, обычно нет значимого способа упорядочить значения для двух людей в паре близнецов. Как и межклассовая корреляция, внутриклассовая корреляция для парных данных будет ограничена интервалом [-1, +1].
Внутриклассовая корреляция также определяется для наборов данных с группами, имеющими более 2 значений. Для групп, состоящих из трех значений, он определяется как [3]
где
По мере роста количества элементов в группе растет и количество терминов, связанных с несколькими продуктами в этом выражении. Следующую эквивалентную форму вычислить проще:
где K - количество значений данных в группе, а- выборочное среднее n- й группы. [3] Эту форму обычно приписывают Харрису . [4] Левый член неотрицателен; следовательно, внутриклассовая корреляция должна удовлетворять
Для больших K этот ICC почти равен
что можно интерпретировать как долю общей дисперсии, обусловленную вариациями между группами. Рональд Фишер посвятил целую главу внутриклассовой корреляции в своей классической книге « Статистические методы для научных работников» . [3]
Для данных от совокупности, которая полностью зашумлена, формула Фишера дает значения ICC, которые распределены около 0, то есть иногда являются отрицательными. Это связано с тем, что Фишер разработал формулу так, чтобы она была беспристрастной, и поэтому ее оценки иногда завышены, а иногда занижены. Для небольших или нулевых базовых значений в генеральной совокупности ICC, рассчитанный по выборке, может быть отрицательным.
Современные определения ICC: более простая формула, но положительный уклон
Начиная с Рональда Фишера, внутриклассовая корреляция рассматривалась в рамках дисперсионного анализа (ANOVA), а в последнее время - в рамках моделей случайных эффектов . Был предложен ряд оценок ICC. Большинство оценок можно определить в рамках модели случайных эффектов.
где Y ij - i- е наблюдение в j- й группе, μ - ненаблюдаемое общее среднее значение , α j - ненаблюдаемый случайный эффект, разделяемый всеми значениями в группе j , а ε ij - ненаблюдаемый шумовой член. [5] Для модели, которую необходимо идентифицировать, предполагается, что α j и ε ij имеют нулевое ожидаемое значение и не коррелируют друг с другом. Также предполагается , что α j одинаково распределены, и предполагается , что ε ij одинаково распределены. Дисперсия α j обозначается σ2
αа дисперсия ε ij обозначается σ2
ε.
ICC населения в этой структуре: [6]
С этой структурой ICC - это корреляция двух наблюдений из одной и той же группы.
Для односторонней модели случайных эффектов:
, , песок s независимый и s не зависят от с.
Разница любого наблюдения: Ковариация двух наблюдений из одной и той же группы i (для ) это: [7]
Здесь мы использовали свойства ковариации .
В совокупности получаем:
Преимущество этой структуры ANOVA состоит в том, что разные группы могут иметь разное количество значений данных, что трудно обрабатывать, используя более раннюю статистику ICC. Этот ICC всегда неотрицателен, что позволяет интерпретировать его как долю общей дисперсии «между группами». Этот ICC можно обобщить, чтобы учесть ковариантные эффекты, и в этом случае ICC интерпретируется как фиксирование внутриклассового сходства значений данных, скорректированных по ковариате. [8]
Это выражение никогда не может быть отрицательным (в отличие от исходной формулы Фишера), и поэтому в выборках из популяции, у которой ICC равен 0, ICC в выборках будут выше, чем ICC популяции.
Было предложено несколько различных статистических данных ICC, не все из которых оценивают один и тот же параметр населения. Было много споров о том, какие статистические данные ICC подходят для конкретного использования, поскольку они могут давать заметно разные результаты для одних и тех же данных. [9] [10]
Связь с коэффициентом корреляции Пирсона
В терминах своей алгебраической формы первоначальный ICC Фишера - это ICC, который больше всего напоминает коэффициент корреляции Пирсона . Одно из ключевых различий между двумя статистическими данными заключается в том, что в ICC данные центрируются и масштабируются с использованием объединенного среднего и стандартного отклонения, тогда как в корреляции Пирсона каждая переменная центрируется и масштабируется с помощью своего собственного среднего и стандартного отклонения. Такое объединенное масштабирование для ICC имеет смысл, потому что все измерения имеют одинаковое количество (хотя и для единиц в разных группах). Например, в парном наборе данных, где каждая «пара» представляет собой одно измерение, сделанное для каждой из двух единиц (например, взвешивание каждого близнеца в паре однояйцевых близнецов), а не два разных измерения для одной единицы (например, измерение роста и вес для каждого человека), ICC - более естественная мера ассоциации, чем корреляция Пирсона.
Важным свойством корреляции Пирсона является то, что она инвариантна к применению отдельных линейных преобразований к двум сравниваемым переменным. Таким образом, если мы коррелируем X и Y , где, скажем, Y = 2 X + 1, корреляция Пирсона между X и Y равна 1 - идеальная корреляция. Это свойство не имеет смысла для ICC, поскольку нет основы для решения, какое преобразование применяется к каждому значению в группе. Однако, если все данные во всех группах подвергаются одному и тому же линейному преобразованию, ICC не изменяется.
Использование при оценке соответствия среди наблюдателей
ICC используется для оценки согласованности или соответствия измерений, выполненных несколькими наблюдателями, измеряющими одну и ту же величину. [11] Например, если нескольких врачей просят оценить результаты компьютерной томографии для выявления признаков прогрессирования рака, мы можем спросить, насколько согласованы эти оценки друг с другом. Если правда известна (например, если компьютерная томография была проведена на пациентах, которые впоследствии перенесли диагностическую операцию), то основное внимание, как правило, будет сосредоточено на том, насколько хорошо оценки врачей соответствуют истине. Если истина неизвестна, мы можем только рассмотреть сходство между оценками. Важным аспектом этой проблемы является то, что существует изменчивость как между наблюдателями, так и внутри наблюдателей. Вариабельность между наблюдателями относится к систематическим различиям между наблюдателями - например, один врач может постоянно оценивать пациентов с более высоким уровнем риска, чем другие врачи. Вариабельность внутри наблюдателя относится к отклонениям в оценке конкретного наблюдателя для конкретного пациента, которые не являются частью систематической разницы.
ICC предназначен для применения к измерениям, которые можно обменивать, то есть к сгруппированным данным, в которых нет значимого способа упорядочить измерения внутри группы. При оценке соответствия между наблюдателями, если одни и те же наблюдатели оценивают каждый изучаемый элемент, то, вероятно, существуют систематические различия между наблюдателями, что противоречит понятию взаимозаменяемости. Если ICC используется в ситуации, когда существуют систематические различия, результатом является составная мера изменчивости внутри наблюдателя и между наблюдателями. Одной из ситуаций, когда можно было бы разумно предположить, что возможность обмена имеет место, может быть ситуация, когда образец для оценки, скажем, образец крови, делится на несколько аликвот, и аликвоты измеряются отдельно на одном и том же приборе. В этом случае возможность замены будет сохраняться до тех пор, пока не будет никакого эффекта, связанного с последовательностью обработки образцов.
Поскольку коэффициент внутриклассовой корреляции представляет собой совокупность изменчивости между наблюдателями и наблюдателями, его результаты иногда считаются трудными для интерпретации, когда наблюдатели не подлежат обмену. Альтернативные меры , такие , как Коэн Каппа статистика , в Фляйссе каппа , и коэффициент корреляции конкорданса [12] были предложены в качестве более подходящих мер соглашения между не-заменяемыми наблюдателями.
Расчет в программных пакетах
МТП поддерживается в пакете программного обеспечения с открытым исходным кодом R ( с помощью функции «МДЦ» с пакетами пси или IRR , либо с помощью функции «ICC» в пакете Psych ) . В RPTR пакет [13] предложены способы оценки ICC и повторяемость для гауссовских, биномиальных и пуассоновских распределенных данных в рамках смешанной модели. Примечательно, что пакет позволяет оценивать скорректированный ICC (то есть контролировать другие переменные) и вычислять доверительные интервалы на основе параметрической начальной загрузки и значения на основе перестановки остатков. Коммерческое программное обеспечение также поддерживает ICC, например Stata или SPSS [14].
Конвенция Шраута и Флейса | Соглашение Макгроу и Вонга [15] | Имя в SPSS и Stata [16] [17] |
---|---|---|
ICC (1,1) | Односторонняя случайная, однократная оценка ICC (1) | Односторонние случайные единичные меры |
ICC (2,1) | Двусторонняя случайная, однократная оценка ICC (A, 1) | Двусторонняя случайная выборка, единичные измерения, абсолютное согласие |
ICC (3,1) | Двусторонний смешанный, единый балл ICC (C, 1) | Двустороннее смешивание, отдельные меры, консистенция |
неопределенный | Двусторонняя случайная, однократная оценка ICC (C, 1) | Двусторонняя случайная выборка, единичные измерения, согласованность |
неопределенный | Двусторонний смешанный, единый балл ICC (A, 1) | Двустороннее смешанное, единичные измерения, абсолютное согласие |
ICC (1, k) | Односторонний случайный, средний балл ICC (k) | Односторонние случайные, средние меры |
ICC (2, k) | Двусторонняя случайная выборка, средний балл ICC (A, k) | Двусторонние случайные, средние измерения, абсолютное согласие |
ICC (3, k) | Двусторонний смешанный, средний балл ICC (C, k) | Двустороннее смешивание, средние размеры, консистенция |
неопределенный | Двусторонняя случайная выборка, средний балл ICC (C, k) | Двусторонняя случайная выборка, средние измерения, согласованность |
неопределенный | Двусторонний смешанный, средний балл ICC (A, k) | Двустороннее смешанное, средние измерения, абсолютное согласие |
Эти три модели:
- Односторонние случайные эффекты: каждый объект оценивается различным набором из k случайно выбранных оценщиков;
- Двусторонняя случайность: случайным образом выбираются k оценщиков, затем каждый испытуемый оценивается одним и тем же набором k оценщиков;
- Двустороннее смешанное: определены k фиксированных рейтеров. Каждый предмет оценивается k оценщиками.
Количество измерений:
- Единичные меры: даже если в эксперименте проводится более одного измерения, надежность применяется к контексту, в котором будет выполняться одно измерение одного оценщика;
- Средние показатели: надежность применяется к контексту, в котором показатели k оценщиков будут усреднены по каждому предмету.
Последовательность или абсолютное согласие:
- Абсолютное согласие: представляет интерес согласие между двумя оценщиками, включая систематические ошибки обоих оценщиков и случайные остаточные ошибки;
- Согласованность: в контексте повторных измерений одним и тем же оценщиком систематические ошибки оценщика аннулируются, и сохраняется только случайная остаточная ошибка.
Согласованность ICC не может быть оценена в модели односторонних случайных эффектов, поскольку нет способа разделить межэкспертную и остаточную дисперсии.
Обзор и повторный анализ трех моделей для отдельных показателей ICC с альтернативным рецептом их использования также был представлен Liljequist et al (2019). [18]
Интерпретация
Cicchetti (1994) [19] дает следующие часто цитируемые рекомендации по интерпретации каппа или мер межэкспертного соглашения ICC:
- Менее 0,40 - плохо.
- Между 0,40 и 0,59 - удовлетворительно.
- Между 0,60 и 0,74 - хорошо.
- От 0,75 до 1,00 - отлично.
Другое руководство дано Ку и Ли (2016): [20]
- ниже 0,50: плохо
- от 0,50 до 0,75: умеренный
- от 0,75 до 0,90: хорошо
- выше 0,90: отлично
Смотрите также
- Коэффициент корреляции
- Эффект дизайна
Рекомендации
- Перейти ↑ Koch GG (1982). «Коэффициент внутриклассовой корреляции». В Сэмюэле Коце и Нормане Л. Джонсоне (ред.). Энциклопедия статистических наук . 4 . Нью-Йорк: Джон Вили и сыновья . С. 213–217.
- ^ Бартко Ю.Ю. (август 1966 г.). «Коэффициент внутриклассовой корреляции как показатель надежности». Психологические отчеты . 19 (1): 3–11. DOI : 10,2466 / pr0.1966.19.1.3 . PMID 5942109 . S2CID 145480729 .
- ^ а б в г д Фишер Р.А. (1954). Статистические методы для научных работников (двенадцатое изд.). Эдинбург : Оливер и Бойд . ISBN 978-0-05-002170-5.
- ^ Харрис Дж. А. (октябрь 1913 г.). «О вычислении внутриклассовых и межклассовых коэффициентов корреляции по классовым моментам при большом количестве возможных комбинаций». Биометрика . 9 (3/4): 446–472. DOI : 10.1093 / Biomet / 9.3-4.446 . JSTOR 2331901 .
- ^ Доннер А., Коваль Дж. Дж. (Март 1980 г.). «Оценка внутриклассовой корреляции при анализе семейных данных». Биометрия . 36 (1): 19–25. DOI : 10.2307 / 2530491 . JSTOR 2530491 . PMID 7370372 .
- ^ Доказательство того, что ICC в модели Anova является корреляцией двух элементов: ocram [1] , Понимание коэффициента корреляции внутри класса, URL (версия: 2012-12-05): [2]
- ^ dsaxton ( https://stats.stackexchange.com/users/78861/dsaxton ), Модель случайных эффектов: наблюдения с того же уровня имеют ковариацию $ \ sigma ^ 2 $ ?, URL (версия: 2016-03-22) ссылка
- ^ Станиш В., Тейлор Н. (1983). «Оценка коэффициента внутриклассовой корреляции для анализа модели ковариации». Американский статистик . 37 (3): 221–224. DOI : 10.2307 / 2683375 . JSTOR 2683375 .
- ^ Мюллер Р., Бюттнер П. (декабрь 1994 г.). «Критическое обсуждение коэффициентов внутриклассовой корреляции». Статистика в медицине . 13 (23–24): 2465–76. DOI : 10.1002 / sim.4780132310 . PMID 7701147 . См. Также комментарий:
- Варга П. (1997). "Письмо редактору". Статистика в медицине . 16 (7): 821–823. DOI : 10.1002 / (SICI) 1097-0258 (19970415) 16: 7 <821 :: AID-SIM558> 3.0.CO; 2-B .
- ^ Макгроу К.О., Вонг С.П. (1996). «Формирование выводов о некоторых коэффициентах внутриклассовой корреляции». Психологические методы . 1 : 30–46. DOI : 10.1037 / 1082-989X.1.1.30 . В статье есть несколько ошибок:
- Макгроу К.О., Вонг С.П. (1996). «Поправка к Макгроу и Вонгу (1996)». Психологические методы . 1 (4): 390. DOI : 10,1037 / 1082-989x.1.4.390 .
- ^ Shrout PE, Fleiss JL (март 1979 г.). «Внутриклассовые корреляции: использование при оценке надежности оценщика». Психологический бюллетень . 86 (2): 420–8. DOI : 10.1037 / 0033-2909.86.2.420 . PMID 18839484 .
- ^ Никерсон CA (декабрь 1997 г.). «Обратите внимание на„A Concordance коэффициент корреляции для оценки воспроизводимости “ ». Биометрия . 53 (4): 1503–1507. DOI : 10.2307 / 2533516 . JSTOR 2533516 .
- ^ Стоффель М.А., Накагава С., Шильцет Дж. (2017). «rptR: оценка повторяемости и разложение дисперсии с помощью обобщенных линейных моделей смешанных эффектов» . Методы экологии и эволюции . 8 (11): 1639–1644. DOI : 10.1111 / 2041-210x.12797 . ISSN 2041-210X .
- ^ МакЛеннан Р.Н. (ноябрь 1993 г.). «Надежность Interrater с SPSS для Windows 5.0». Американский статистик . 47 (4): 292–296. DOI : 10.2307 / 2685289 . JSTOR 2685289 .
- ^ Макгроу К.О., Вонг С.П. (1996). «Формирование выводов о некоторых коэффициентах внутриклассовой корреляции». Психологические методы . 1 (1): 30–40. DOI : 10.1037 / 1082-989X.1.1.30 .
- ^ Руководство пользователя Stata, выпуск 15 (PDF) . Колледж-Стейшн, Техас: Stata Press. 2017. С. 1101–1123. ISBN 978-1-59718-249-2.
- ^ Хауэлл, округ Колумбия. «Коэффициенты внутриклассовой корреляции» (PDF) .
- ^ Лильеквист Д., Эльфвинг Б., Скавберг Роальдсен К. (2019). «Внутриклассовая корреляция - обсуждение и демонстрация основных функций» . PLOS ONE . 14 (7): e0219854. DOI : 10.1371 / journal.pone.0219854 . PMC 6645485 . PMID 31329615 .
- ^ Чиккетти Д.В. (1994). «Руководящие принципы, критерии и практические правила для оценки нормированных и стандартизированных инструментов оценки в психологии». Психологическая оценка . 6 (4): 284–290. DOI : 10.1037 / 1040-3590.6.4.284 .
- ^ Ку Т.К., Ли М.Й. (июнь 2016 г.). «Руководство по выбору и сообщению коэффициентов внутриклассовой корреляции для исследования надежности» . Журнал хиропрактики . 15 (2): 155–63. DOI : 10.1016 / j.jcm.2016.02.012 . PMC 4913118 . PMID 27330520 .
Внешние ссылки
- AgreeStat 360: облачный межэкспертный анализ надежности, каппа Коэна, AC1 / AC2 Гвета, альфа Криппендорфа, обобщенная каппа Бреннана-Предигера, Флейсса, коэффициенты внутриклассовой корреляции
- Полезный онлайн-инструмент, позволяющий рассчитывать различные типы ICC.
- Пример исследования Viecelli et al. [1] , где ICC использовался для определения межэкспертной надежности с использованием коэффициента внутриклассовой корреляции (ICC 2.1).
- ^ Виецелли К., Граф Д., Агуайо Д., Хафен Е., Фюхслин Р.М. (2020-07-15). «Использование данных акселерометра смартфона для получения научных механико-биологических описаний тренировок с отягощениями» . PLOS ONE . 15 (7): e0235156. Bibcode : 2020PLoSO..1535156V . DOI : 10.1371 / journal.pone.0235156 . PMC 7363108 . PMID 32667945 .