Межэкспертная надежность

Этот раздел требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален. ( Декабрь 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В статистике, надежность между оценщик (называемый также различными подобными названиями, например, между оценщик соглашения , между оценщик согласования , надежности между наблюдателями , и так далее) , является степень согласия между оценщиками. Это оценка того, насколько однородны или единодушны оценки, выставленные разными судьями.

Напротив, внутриэкспертная надежность - это оценка согласованности оценок, выставленных одним и тем же человеком в нескольких случаях. Например, оценщик не должен позволять таким элементам, как усталость, влиять на их оценку ближе к концу, или позволять хорошей бумаге влиять на оценку следующей работы. Оценщик не должен сравнивать работы друг с другом, но он должен оценивать каждую работу на основе стандарта.

Надежность между оценщиком и внутри оценщика являются аспектами валидности теста . Их оценки полезны для уточнения инструментов, предоставляемых человеческим судьям, например, путем определения того, подходит ли конкретная шкала для измерения конкретной переменной. Если разные оценщики не согласны, значит, либо шкала неисправна, либо оценщиков необходимо переобучить.

Существует ряд статистических данных, которые можно использовать для определения надежности между экспертами. Для разных типов измерений подходят разные статистические данные. Некоторые варианты - это совместная вероятность согласия, каппа Коэна , пи Скотта и соответствующая каппа Флайсса, корреляция между экспертами, коэффициент корреляции конкордантности , внутриклассовая корреляция и альфа Криппендорфа .

Концепция [ править ]

Существует несколько рабочих определений «надежности между экспертами», отражающих разные точки зрения на то, что является надежным соглашением между экспертами. ^[1] Есть три рабочих определения соглашения:

Надежные оценщики согласны с «официальной» оценкой выступления.
Надежные оценщики соглашаются друг с другом относительно точных оценок, которые будут присуждены.
Надежные оценщики сходятся во мнении, какие показатели лучше, а какие хуже.

Они сочетаются с двумя рабочими определениями поведения:

Надежные рейтеры - это автоматы, которые ведут себя как «рейтинговые машины». В эту категорию входит рейтинг эссе на компьютере ^[2] Это поведение можно оценить с помощью теории обобщаемости .
Надежные рейтеры ведут себя как независимые свидетели. Они демонстрируют свою независимость, слегка не соглашаясь. Это поведение можно оценить с помощью модели Раша .

Статистика [ править ]

Совместная вероятность согласия [ править ]

Совместная вероятность согласия - самая простая и наименее надежная мера. Он оценивается как процент времени, в течение которого оценщики соглашаются в номинальной или категориальной рейтинговой системе. При этом не учитывается тот факт, что соглашение может быть достигнуто исключительно случайно. Возникает некоторый вопрос, есть ли необходимость «исправлять» случайное согласие; некоторые предполагают, что в любом случае любая такая корректировка должна основываться на явной модели того, как случайность и ошибка влияют на решения оценщиков. ^[3]

Когда количество используемых категорий невелико (например, 2 или 3), вероятность того, что 2 оценщика согласятся чисто случайно, резко возрастает. Это связано с тем, что оба оценщика должны ограничиваться ограниченным числом доступных вариантов, что влияет на общую степень согласия, а не обязательно на их склонность к «внутреннему» соглашению (согласие считается «внутренним», если оно не является случайным).

Таким образом, совместная вероятность согласия останется высокой даже при отсутствии какого-либо «внутреннего» согласия между оценщиками. Ожидается, что полезный коэффициент надежности между экспертами (а) будет близок к 0, когда нет «внутреннего» согласия, и (б) увеличиваться по мере улучшения «внутреннего» согласия. Большинство скорректированных по случайности коэффициентов согласования достигают первой цели. Однако вторая цель не достигается многими известными мерами, скорректированными на случай непредвиденных обстоятельств. ^[4]

Статистика каппы [ править ]

Четыре набора рекомендаций для интерпретации уровня согласия между экспертами

Каппа - это способ измерения согласия или надежности, корректировки того, насколько часто рейтинги могут совпадать случайно. Каппа Коэна ^[5], которая работает для двух оценщиков, и каппа Флейсса, ^[6] адаптация, которая работает для любого фиксированного числа оценщиков, улучшают совместную вероятность, поскольку они принимают во внимание степень согласия, которое можно было ожидать. происходить случайно. Первоначальные версии страдали той же проблемой, что и совместная вероятность, в том, что они рассматривают данные как номинальные и предполагают, что рейтинги не имеют естественного порядка; если данные действительно имеют ранг (порядковый уровень измерения), то эта информация не полностью учитывается в измерениях.

Более поздние расширения подхода включали версии, которые могли обрабатывать «частичный кредит» и порядковые шкалы. ^[7]Эти расширения сходятся с семейством внутриклассовых корреляций (ICC), поэтому существует концептуально связанный способ оценки надежности для каждого уровня измерения от номинального (каппа) до порядкового (порядковый каппа или ICC - допущения растяжения) до интервалов (ICC). , или порядковая каппа - интерпретация интервальной шкалы как порядковая) и отношения (ICC). Также существуют варианты, которые могут смотреть на согласие оценщиков по набору вопросов (например, согласны ли два интервьюера по поводу баллов депрессии по всем пунктам в одном полуструктурированном интервью для одного случая?) (например, насколько хорошо два или более оценщиков согласны относительно наличия у 30 случаев диагноза депрессии, да / нет - номинальная переменная).

Каппа похожа на коэффициент корреляции в том смысле, что он не может быть выше +1,0 или ниже -1,0. Поскольку он используется в качестве меры согласия, в большинстве ситуаций можно ожидать только положительных значений; отрицательные значения указывают на систематическое несогласие. Каппа может достигать очень высоких значений только в том случае, если оба соглашения хорошее и уровень целевого условия близок к 50% (поскольку он включает базовую ставку при вычислении совместных вероятностей). Некоторые авторитетные источники предложили «практические правила» для интерпретации уровня согласия, многие из которых согласны по существу, даже если слова не идентичны. ^[8]^[9]^[10]^[11]

Коэффициенты корреляции [ править ]

Либо Pearson «s , τ Кендалла или Спирмен » s может быть использован для измерения парной корреляции между оценщиками с использованием шкалы , который заказывал. Пирсон предполагает, что шкала оценок непрерывна; Статистика Кендалла и Спирмена предполагает только порядковый номер. Если наблюдаются более двух оценщиков, средний уровень согласия для группы может быть вычислен как среднее значением , т , или значений из каждой возможной пары оценщиков. ${\ displaystyle r}$ ${\ displaystyle \ rho}$ ${\ displaystyle r}$ ${\ displaystyle \ rho}$

Коэффициент внутриклассовой корреляции [ править ]

Другой способ выполнить тестирование надежности - использовать коэффициент внутриклассовой корреляции (ICC). ^[12] Существует несколько типов этого, и один из них определяется как «доля дисперсии наблюдения из-за вариабельности истинных оценок между субъектами». ^[13] Диапазон ICC может составлять от 0,0 до 1,0 (раннее определение ICC могло быть между -1 и +1). ICC будет высоким, когда существует небольшая разница между оценками, выставленными экспертами по каждому пункту, например, если все эксперты дают одинаковые или похожие оценки по каждому пункту. ICC является улучшением по сравнению с рейтингами Пирсона и Спирмена , поскольку он учитывает различия в рейтингах для отдельных сегментов, а также корреляцию между оценщиками. ${\ displaystyle r}$ ${\ displaystyle \ rho}$

Пределы соглашения [ править ]

График Блэнда – Альтмана

Другой подход к достижению согласия (полезный, когда есть только два оценщика и шкала непрерывна) заключается в вычислении различий между каждой парой наблюдений двух оценщиков. Среднее значение этих различий называется смещением, а референтный интервал (среднее ± 1,96 × стандартное отклонение ) называется пределами согласия . В пределах соглашения обеспечивают понимание того , сколько случайное изменение может оказывать влияние на рейтингах.

Если оценщики склонны соглашаться, разница между наблюдениями оценщиков будет близка к нулю. Если один оценщик обычно выше или ниже другого на постоянную величину, смещение будет отличным от нуля. Если оценщики склонны не соглашаться, но без последовательной схемы, согласно которой один рейтинг выше другого, среднее значение будет близким к нулю. Пределы уверенности (обычно 95%) могут быть рассчитаны как для систематической ошибки, так и для каждого из пределов согласия.

Есть несколько формул, которые можно использовать для расчета пределов согласия. Простая формула, приведенная в предыдущем абзаце и хорошо работающая для размера выборки более 60, ^[14] :

{\bar {x}}\pm 1.96s

Для меньших размеров выборки другое распространенное упрощение ^[15] :

{\bar {x}}\pm 2s

Однако наиболее точной формулой (которая применима для всех размеров выборки) ^[14] является

{\bar {x}}\pm t_{0.05,n-1}s{\sqrt {1+{\frac {1}{n}}}}

Бланд и Альтман ^[15] расширили эту идею, построив график разницы каждой точки, средней разницы и границ согласия по вертикали против среднего двух оценок по горизонтали. Полученный график Бланда – Альтмана демонстрирует не только общую степень согласия, но и то, связано ли согласие с базовой стоимостью элемента. Например, два оценщика могут прийти к единому мнению при оценке размера мелких предметов, но не согласиться с более крупными предметами.

При сравнении двух методов измерения представляет интерес не только оценка систематической ошибки и пределов согласия между двумя методами ( согласие между экспертами), но и оценка этих характеристик для каждого метода внутри себя. Вполне возможно, что согласие между двумя методами плохое просто потому, что один из методов имеет широкие пределы согласия, а другой - узкие. В этом случае метод с узкими пределами согласия будет лучше со статистической точки зрения, в то время как практические или другие соображения могут изменить эту оценку. Что составляет узкие или широкие границы согласия, а также большую или малую предвзятость в каждом случае является предметом практической оценки.

Альфа Криппендорфа [ править ]

Krippendorff в альфа ^[16]^[17] представляет собой универсальный статистика , которая оценивает соглашение , достигнутое среди наблюдателей , которые классифицировать, оценивать, или измерения заданного набора объектов в терминах значений переменной. Он обобщает несколько специализированных коэффициентов согласования, принимая любое количество наблюдателей, применим к номинальным, порядковым, интервальным и относительным уровням измерения, может обрабатывать недостающие данные и корректируется для небольших размеров выборки.

Альфа возникла в контент-анализе, где текстовые единицы классифицируются обученными кодировщиками и используются в консультационных и опросных исследованиях, когда эксперты кодируют данные открытого интервью в поддающиеся анализу термины, в психометрии, где отдельные атрибуты проверяются несколькими методами, в наблюдательных исследованиях, где неструктурированные события записываются для последующего анализа, а также в компьютерной лингвистике, где тексты аннотируются с учетом различных синтаксических и семантических качеств.

Несогласие [ править ]

Ожидается, что для любой задачи, в которой могут быть полезны несколько оценщиков, оценщики не согласятся с наблюдаемой целью. Напротив, ситуации, требующие однозначного измерения, такие как простые задачи подсчета (например, количество потенциальных клиентов, заходящих в магазин), часто не требуют выполнения измерения более чем одним человеком.

Измерение, связанное с неоднозначностью характеристик, представляющих интерес для целевого рейтинга, обычно улучшается с помощью нескольких обученных оценщиков. Такие задачи измерения часто связаны с субъективной оценкой качества. Примеры включают оценку врачебной манеры поведения у постели больного, оценку авторитета свидетеля присяжными и навыки выступления оратора.

Различия между оценщиками в процедурах измерения и вариативность в интерпретации результатов измерений являются двумя примерами источников дисперсии ошибок в оценочных измерениях. Четко сформулированные руководящие принципы для рендеринга оценок необходимы для надежности в неоднозначных или сложных сценариях измерения.

Без рекомендаций по выставлению оценок на рейтинги все больше влияет предвзятость экспериментатора , то есть тенденция дрейфа значений рейтинга к тому, что ожидает оценщик. Во время процессов, связанных с повторными измерениями, коррекцию дрейфа оценщика можно решить посредством периодической переподготовки, чтобы гарантировать, что оценщики понимают правила и цели измерения.

См. Также [ править ]

Альфа Кронбаха
Рейтинг (фармацевтическая промышленность)

Ссылки [ править ]

^ Саал, ИП, Downey, Р., & Лэхи, М. (1980). Рейтинг рейтингов: оценка психометрического качества рейтинговых данных. Психологический бюллетень, 88 (2), 413.
Перейти ↑ Page, EB, & Petersen, NS (1995). Компьютер переходит в режим оценки эссе: обновление древнего теста. Дельта Пхи Каппан, 76 (7), 561.
^ Uebersax, JS (1987). Разнообразие моделей принятия решений и измерение согласия между экспертами. Психологический бюллетень, 101 (1), 140.
^ «Корректировка надежности разных оценщиков для случайного соглашения: почему?» . www.agreestat.com . Проверено 26 декабря 2018 .
^ Коэн, Дж. (1960). Коэффициент согласования номинальных шкал. Образовательные и психологические измерения, 20 (1), 37-46.
^ Фляйсс, JL (1971). Измерение номинальной шкалы согласованности между многими оценщиками. Психологический бюллетень, 76 (5), 378.
^ Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Измерение согласия наблюдателя для категориальных данных» . Биометрия . 33 (1): 159–74. DOI : 10.2307 / 2529310 . ISSN 0006-341X . JSTOR 2529310 . PMID 843571 .
^ Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Применение иерархической статистики каппа-типа в оценке согласия большинства среди нескольких наблюдателей». Биометрия . 33 (2): 363–74. DOI : 10.2307 / 2529786 . ISSN 0006-341X . JSTOR 2529786 . PMID 884196 .
^ Cicchetti, DV; Воробей, С.А. (1981). «Разработка критериев для установления межэкспертной надежности конкретных заданий: приложения для оценки адаптивного поведения». Американский журнал умственной отсталости . 86 (2): 127–137. ISSN 0002-9351 . PMID 7315877 .
^ Фляйсс, JL (1981-04-21). Статистические методы расчета ставок и пропорций. 2-е изд . ISBN 0-471-06428-9. OCLC 926949980 .
^ Regier, Darrel A .; Narrow, William E .; Кларк, Дайана Э .; Kraemer, Helena C .; Курамото, С. Джанет; Kuhl, Emily A .; Купфер, Дэвид Дж. (2013). «Полевые испытания DSM-5 в Соединенных Штатах и Канаде, Часть II: Проверочная надежность выбранных категориальных диагнозов». Американский журнал психиатрии . 170 (1): 59–70. DOI : 10,1176 / appi.ajp.2012.12070999 . ISSN 0002-953X . PMID 23111466 .
^ Shrout, PE, и Фляйсс, JL (1979). Внутриклассовые корреляции: использование при оценке надежности оценщика. Психологический бюллетень, 86 (2), 420.
^ Everitt, BS (1996). Разбирая статистику в психологии: курс второго уровня. Нью-Йорк, Нью-Йорк: Издательство Оксфордского университета.
^ a b Людбрук, Дж. (2010). Уверенность в графиках Альтмана – Бланда: критический обзор метода различий. Клиническая и экспериментальная фармакология и физиология, 37 (2), 143-149.
^ Б Блэнд, JM, & Альтман, D. (1986). Статистические методы оценки соответствия между двумя методами клинических измерений. Ланцет, 327 (8476), 307-310.
^ Криппендорф, Клаус. Контент-анализ: введение в его методологию (Четвертое изд.). Лос-Анджелес. ISBN 9781506395661. OCLC 1019840156 .
^ Hayes, AF, и Krippendorff, К. (2007). Отвечая на призыв к стандартной мере надежности для кодирования данных. Коммуникационные методы и меры, 1 (1), 77-89.

Дальнейшее чтение [ править ]

Гвет, Килем Л. (2014) Справочник по надежности между оценщиками, четвертое издание (Гейтерсбург: Advanced Analytics, LLC) ISBN 978-0970806284
Гвет, KL (2008). « Вычисление надежности между экспертами и ее дисперсии при наличии высокой степени согласия ». Британский журнал математической и статистической психологии, 61, 29–48.
Джонсон, Р., Пенни, Дж., И Гордон, Б. (2009). Оценка производительности: разработка, оценка и проверка задач производительности. Нью-Йорк: Публикации Гилфорда. ISBN 978-1-59385-988-6
Шукри, М.М. (2010) Меры соглашения и надежности между наблюдателями (2-е издание) . Бока-Ратон, Флорида: Chapman & Hall / CRC Press, ISBN 978-1-4398-1080-4

Внешние ссылки [ править ]

Викискладе есть медиафайлы, связанные с межэкспертной надежностью .

AgreeStat 360: облачный межэкспертный анализ надежности, каппа Коэна, AC1 / AC2 Гвета, альфа Криппендорфа, обобщенная каппа Бреннана-Предигера, Флейсса, коэффициенты внутриклассовой корреляции
Статистические методы для согласования оценок, Джон Уэберсакс.
Калькулятор межэкспертной надежности от Medical Education Online
Онлайн (Multirater) Калькулятор Каппа
Онлайн-калькулятор для Соглашения Inter-Rater

[1] Саал, ИП, Downey, Р., & Лэхи, М. (1980). Рейтинг рейтингов: оценка психометрического качества рейтинговых данных. Психологический бюллетень, 88 (2), 413.

[2] Перейти ↑ Page, EB, & Petersen, NS (1995). Компьютер переходит в режим оценки эссе: обновление древнего теста. Дельта Пхи Каппан, 76 (7), 561.

[3] Uebersax, JS (1987). Разнообразие моделей принятия решений и измерение согласия между экспертами. Психологический бюллетень, 101 (1), 140.

[4] «Корректировка надежности разных оценщиков для случайного соглашения: почему?» . www.agreestat.com . Проверено 26 декабря 2018 .

[5] Коэн, Дж. (1960). Коэффициент согласования номинальных шкал. Образовательные и психологические измерения, 20 (1), 37-46.

[6] Фляйсс, JL (1971). Измерение номинальной шкалы согласованности между многими оценщиками. Психологический бюллетень, 76 (5), 378.

[7] Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Измерение согласия наблюдателя для категориальных данных» . Биометрия . 33 (1): 159–74. DOI : 10.2307 / 2529310 . ISSN 0006-341X . JSTOR 2529310 . PMID 843571 .

[8] Лэндис, Дж. Ричард; Кох, Гэри Г. (1977). «Применение иерархической статистики каппа-типа в оценке согласия большинства среди нескольких наблюдателей». Биометрия . 33 (2): 363–74. DOI : 10.2307 / 2529786 . ISSN 0006-341X . JSTOR 2529786 . PMID 884196 .

[9] Cicchetti, DV; Воробей, С.А. (1981). «Разработка критериев для установления межэкспертной надежности конкретных заданий: приложения для оценки адаптивного поведения». Американский журнал умственной отсталости . 86 (2): 127–137. ISSN 0002-9351 . PMID 7315877 .

[10] Фляйсс, JL (1981-04-21). Статистические методы расчета ставок и пропорций. 2-е изд . ISBN 0-471-06428-9. OCLC 926949980 .

[11] Regier, Darrel A .; Narrow, William E .; Кларк, Дайана Э .; Kraemer, Helena C .; Курамото, С. Джанет; Kuhl, Emily A .; Купфер, Дэвид Дж. (2013). «Полевые испытания DSM-5 в Соединенных Штатах и Канаде, Часть II: Проверочная надежность выбранных категориальных диагнозов». Американский журнал психиатрии . 170 (1): 59–70. DOI : 10,1176 / appi.ajp.2012.12070999 . ISSN 0002-953X . PMID 23111466 .

[12] Shrout, PE, и Фляйсс, JL (1979). Внутриклассовые корреляции: использование при оценке надежности оценщика. Психологический бюллетень, 86 (2), 420.

[13] Everitt, BS (1996). Разбирая статистику в психологии: курс второго уровня. Нью-Йорк, Нью-Йорк: Издательство Оксфордского университета.

[Ludbrook-14] Людбрук, Дж. (2010). Уверенность в графиках Альтмана – Бланда: критический обзор метода различий. Клиническая и экспериментальная фармакология и физиология, 37 (2), 143-149.

[Bland-15] Б Блэнд, JM, & Альтман, D. (1986). Статистические методы оценки соответствия между двумя методами клинических измерений. Ланцет, 327 (8476), 307-310.

[16] Криппендорф, Клаус. Контент-анализ: введение в его методологию (Четвертое изд.). Лос-Анджелес. ISBN 9781506395661. OCLC 1019840156 .

[17] Hayes, AF, и Krippendorff, К. (2007). Отвечая на призыв к стандартной мере надежности для кодирования данных. Коммуникационные методы и меры, 1 (1), 77-89.

[1]