Коэффициент Каппа Коэна ( κ ) - это статистика, которая используется для измерения надежности между экспертами (а также надежности внутри экспертов ) для качественных (категориальных) пунктов. [1] Обычно считается, что это более надежная мера, чем простой расчет процента согласия, поскольку κ учитывает возможность совпадения случайно. Вокруг каппы Коэна есть разногласия из-за сложности интерпретации индексов согласия. Некоторые исследователи предположили, что концептуально проще оценить несоответствие между пунктами. [2] Подробнее см. В разделе « Ограничения ».
История
Первое упоминание о статистике типа каппа приписывается Гальтону (1892); [3] см. Smeeton (1985). [4]
Основополагающая статья, представляющая каппа как новую технику, была опубликована Джейкобом Коэном в журнале « Образовательные и психологические измерения» в 1960 году [5].
Определение
Каппа Коэна измеряет согласие между двумя оценщиками, каждый из которых классифицирует N пунктов на C взаимоисключающих категорий. Определение является:
где p o - относительное наблюдаемое согласие между оценщиками, а p e - гипотетическая вероятность случайного согласия с использованием наблюдаемых данных для расчета вероятностей того, что каждый наблюдатель случайно увидит каждую категорию. Если оценщики полностью согласны, то. Если между оценщиками нет согласия, кроме того, что можно было бы ожидать случайно (как указано p e ),. Статистические данные могут быть отрицательными [6], что означает отсутствие эффективного согласия между двумя оценщиками или согласие хуже случайного.
Для k категорий, N наблюдений для категоризации иколичество раз, когда оценщик i предсказал категорию k :
Это выводится из следующей конструкции:
Где - это оценочная вероятность того, что и эксперт 1, и эксперт 2 классифицируют один и тот же элемент как k, в то время как - это оценочная вероятность того, что оценщик 1 классифицирует элемент как k (и аналогично для оценщика 2). Соотношениеоснован на предположении, что оценки двух оценщиков независимы . Термин оценивается с использованием количества пунктов, классифицированных как k оценщиком 1 () деленное на общее количество классифицируемых элементов (): (и аналогично для оценщика 2).
Примеры
Простой пример
Предположим, вы анализировали данные, относящиеся к группе из 50 человек, подавших заявку на грант. Каждое предложение о гранте было прочитано двумя читателями, и каждый из них сказал либо «Да», либо «Нет» на предложение. Предположим, что данные подсчета разногласий были следующими, где A и B - считыватели, данные на главной диагонали матрицы (a и d) подсчитывают количество соглашений, а недиагональные данные (b и c) подсчитывают количество разногласий:
B А | да | Нет |
---|---|---|
да | а | б |
Нет | c | d |
например
B А | да | Нет |
---|---|---|
да | 20 | 5 |
Нет | 10 | 15 |
Наблюдаемое пропорциональное согласие:
Чтобы вычислить p e (вероятность случайного совпадения), отметим, что:
- Читатель А сказал «Да» 25 заявителям и «Нет» 25 заявителям. Таким образом, читатель А сказал «Да» в 50% случаев.
- Читатель Б сказал «Да» 30 заявителям и «Нет» 20 заявителям. Таким образом, читатель Б сказал «Да» в 60% случаев.
Таким образом, ожидаемая вероятность того, что оба ответят «да» наугад, равна:
По аналогии:
Общая вероятность случайного согласия - это вероятность того, что они согласились либо на Да, либо на Нет, то есть
Итак, применив нашу формулу для Каппы Коэна, мы получим:
Те же проценты, но разные числа
Случай, который иногда считается проблемой с Каппа Коэна, возникает при сравнении Каппы, рассчитанной для двух пар оценщиков, с двумя оценщиками в каждой паре, имеющими одинаковое процентное согласие, но одна пара дает одинаковое количество оценок в каждом классе, а другая пара дают разное количество оценок в каждом классе. [7] (В приведенных ниже случаях в уведомлении B указано 70 «да» и 30 номеров, в первом случае, но во втором эти числа поменяны местами.) Например, в следующих двух случаях существует одинаковое согласие между A и B ( 60 из 100 в обоих случаях) с точки зрения согласия в каждом классе, поэтому мы ожидаем, что относительные значения Каппы Коэна отразят это. Однако вычисление Каппы Коэна для каждого:
B А | да | Нет |
---|---|---|
да | 45 | 15 |
Нет | 25 | 15 |
B А | да | Нет |
---|---|---|
да | 25 | 35 год |
Нет | 5 | 35 год |
мы обнаруживаем, что он показывает большее сходство между A и B во втором случае по сравнению с первым. Это связано с тем, что, хотя процентное совпадение такое же, процентное совпадение, которое могло бы произойти «случайно», значительно выше в первом случае (0,54 по сравнению с 0,46).
Характеристики
Проверка гипотез и доверительный интервал
Значение P для каппа редко сообщается, вероятно, потому, что даже относительно низкие значения каппа могут, тем не менее, значительно отличаться от нуля, но не на достаточную величину, чтобы удовлетворить исследователей. [8] : 66 Тем не менее, стандартная ошибка описана [9] и вычисляется различными компьютерными программами. [10]
Доверительные интервалы для Каппа могут быть построены для ожидаемых значений Каппа, если у нас было проверено бесконечное количество элементов, используя следующую формулу: [1]
Где это стандартный нормальный процентиль , когда, а также
Это вычисляется путем игнорирования того, что p e оценивается на основе данных, и путем обработки p o как оценочной вероятности биномиального распределения при использовании асимптотической нормальности (т. Е. При условии, что количество элементов велико и что p o не близко к либо 0, либо 1).(и CI в целом) также можно оценить с помощью методов начальной загрузки .
Интерпретация величины
Если статистическая значимость не является полезным ориентиром, какая величина каппа отражает адекватное согласие? Руководящие принципы были бы полезны, но на его величину могут влиять другие факторы, кроме согласия, что делает интерпретацию данной величины проблематичной. Как отметили Сим и Райт, двумя важными факторами являются распространенность (равновероятны ли коды или их вероятности различаются) и систематическая ошибка (предельные вероятности для двух наблюдателей схожи или разные). При прочих равных, каппа выше, когда коды равновероятны. С другой стороны, каппа выше, когда коды распределяются асимметрично двумя наблюдателями. В отличие от вариаций вероятности, влияние смещения больше, когда каппа мала, чем когда она большая. [11] : 261–262
Другой фактор - количество кодов. По мере увеличения количества кодов каппы становятся выше. Основываясь на имитационном исследовании, Бэйкман и его коллеги пришли к выводу, что для склонных к ошибкам наблюдателей значения каппа были ниже, когда кодов было меньше. И, в соответствии с утверждением Sim & Wrights относительно распространенности, каппа была выше, когда коды были примерно равновероятными. Таким образом, Bakeman et al. пришел к выводу, что «ни одно значение каппы не может считаться универсально приемлемым». [12] : 357 Они также предоставляют компьютерную программу, которая позволяет пользователям вычислять значения каппа, определяя количество кодов, их вероятность и точность наблюдателя. Например, для равновероятных кодов и наблюдателей с точностью 85% значение каппа составляет 0,49, 0,60, 0,66 и 0,69 при количестве кодов 2, 3, 5 и 10 соответственно.
Тем не менее, рекомендации по величине появились в литературе. Возможно, первыми были Ландис и Кох [13], которые охарактеризовали значения <0 как отсутствие согласия, 0–0,20 как незначительное, 0,21–0,40 как удовлетворительное, 0,41–0,60 как умеренное, 0,61–0,80 как существенное и 0,81–1 как незначительное почти идеальное совпадение. Однако этот набор руководящих принципов ни в коем случае не является общепринятым; Лэндис и Кох не представили никаких доказательств в поддержку этого, а основали это на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными. [14] Флейсс [15] : 218 одинаково произвольных рекомендаций характеризуют каппы выше 0,75 как отличные, от 0,40 до 0,75 как от удовлетворительных до хороших и ниже 0,40 как плохие.
Каппа максимум
Каппа принимает теоретическое максимальное значение 1 только тогда, когда оба наблюдателя распределяют коды одинаково, то есть когда соответствующие суммы строк и столбцов идентичны. Все, что меньше, - это не идеальное согласие. Тем не менее, максимальное значение каппа, которого может достичь при неравном распределении, помогает интерпретировать фактически полученное значение каппа. Уравнение для максимума κ : [16]
где , по-прежнему, ,
k = количество кодов, - вероятности строк, а - вероятности столбца.
Ограничения
Каппа - это индекс, который учитывает наблюдаемое согласие относительно базового соглашения. Однако исследователи должны тщательно обдумать, уместно ли исходное соглашение Каппы для конкретного вопроса исследования. Базовый уровень Каппы часто описывается как случайное согласие, что верно лишь отчасти. Базовое соглашение Kappa - это соглашение, которого можно было бы ожидать из-за случайного распределения, учитывая количества, указанные в предельных суммах квадратной таблицы непредвиденных обстоятельств. Таким образом, κ = 0, когда наблюдаемое распределение очевидно случайное, независимо от количественного несоответствия, ограниченного предельными итогами. Однако для многих приложений исследователи должны быть больше заинтересованы в количественном несогласии в предельных итоговых суммах, чем в несогласии распределения, как описано в дополнительной информации на диагонали квадратной таблицы непредвиденных обстоятельств. Таким образом, для многих приложений базовый уровень Каппы скорее отвлекает, чем разъясняет. Рассмотрим следующий пример:
Справка | |||
---|---|---|---|
грамм | р | ||
Сравнение | грамм | 1 | 14 |
р | 0 | 1 |
Доля несогласия составляет 14/16 или 0,875. Несогласие связано с количеством, потому что распределение является оптимальным. κ составляет 0,01.
Справка | |||
---|---|---|---|
грамм | р | ||
Сравнение | грамм | 0 | 1 |
р | 1 | 14 |
Доля несогласия составляет 2/16 или 0,125. Несогласие связано с распределением, поскольку количества идентичны. Каппа составляет -0,07.
Здесь несогласие по количеству и распределению отчетов является информативным, в то время как Каппа скрывает информацию. Кроме того, каппа создает некоторые проблемы при расчетах и интерпретации, поскольку каппа - это соотношение. Коэффициент Каппы может возвращать неопределенное значение из-за нуля в знаменателе. Более того, отношение не раскрывает ни числитель, ни знаменатель. Для исследователей более информативно сообщать о разногласиях по двум компонентам: количеству и распределению. Эти два компонента описывают взаимосвязь между категориями более четко, чем одна сводная статистика. Когда целью является точность прогнозов, исследователям легче начать думать о способах улучшения прогнозов, используя два компонента количества и распределения, а не одно отношение Каппа. [2]
Некоторые исследователи выразили озабоченность по поводу тенденции κ принимать частоты наблюдаемых категорий как данность, что может сделать его ненадежным для измерения согласия в таких ситуациях, как диагностика редких заболеваний. В этих ситуациях κ имеет тенденцию недооценивать согласие по редкой категории. [17] По этой причине κ считается чрезмерно консервативной мерой согласия. [18] Другие [19] [ необходима цитата ] оспаривают утверждение, что каппа «принимает во внимание» случайное соглашение. Чтобы сделать это эффективно, потребуется явная модель того, как шанс влияет на решения оценщика. Так называемая случайная корректировка статистики каппа предполагает, что, когда она не полностью уверена, оценщики просто предполагают - очень нереалистичный сценарий.
Связанная статистика
Пи Скотта
Похожая статистика, называемая пи , была предложена Скоттом (1955). Каппа Коэна и пи Скотта различаются по способу вычисления p e .
Каппа Флейса
Обратите внимание, что каппа Коэна измеряет согласие только между двумя оценщиками. Об аналогичной мере согласия ( каппа Флейсса ), используемой при наличии более двух оценщиков, см. Fleiss (1971). Каппа Флейсса, однако, является обобщением статистики Пи Скотта , а не каппа Коэна. Каппа также используется для сравнения производительности в машинном обучении , но направленная версия, известная как информированность или статистика Юдена, считается более подходящей для обучения с учителем . [20]
Взвешенная каппа
Взвешенная каппа позволяет взвешивать разногласия по-разному [21] и особенно полезна, когда коды упорядочены. [8] : 66 Используются три матрицы: матрица наблюдаемых оценок, матрица ожидаемых оценок на основе случайного совпадения и матрица весов. Ячейки матрицы весов, расположенные по диагонали (от верхнего левого угла до нижнего правого), представляют собой согласование и, следовательно, содержат нули. В недиагональных ячейках указаны веса, указывающие на серьезность разногласий. Часто ячейки, расположенные на одной диагонали, имеют вес 1, две - на 2 и т. Д.
Уравнение для взвешенного κ:
где k = количество кодов и, , а также - элементы в матрице весов, наблюдаемой и ожидаемой соответственно. Когда диагональные ячейки содержат веса 0 и веса всех недиагональных ячеек 1, эта формула дает то же значение каппа, что и расчет, приведенный выше.
Смотрите также
Рекомендации
- ^ a b МакХью, Мэри Л. (2012). «Межэкспертная надежность: статистика каппа» . Biochemia Medica . 22 (3): 276–282. DOI : 10.11613 / bm.2012.031 . PMC 3900052 . PMID 23092060 .
- ^ а б Понтий, Роберт; Миллонес, Марко (2011). «Смерть Каппе: возникновение разногласий по количеству и разногласий по распределению для оценки точности» . Международный журнал дистанционного зондирования . 32 (15): 4407–4429. Bibcode : 2011IJRS ... 32.4407P . DOI : 10.1080 / 01431161.2011.552923 . S2CID 62883674 .
- ^ Гальтон, Ф. (1892) Отпечатки пальцев Macmillan, Лондон.
- ^ Смитон, Северная Каролина (1985). «Ранняя история статистики Каппа». Биометрия . 41 (3): 795. JSTOR 2531300 .
- ^ Коэн, Джейкоб (1960). «Коэффициент согласования для номинальных шкал». Образовательные и психологические измерения . 20 (1): 37–46. DOI : 10.1177 / 001316446002000104 . hdl : 1942/28116 . S2CID 15926286 .
- ^ Сим, Юлий; Райт, Крис С. (2005). «Статистика Каппа в исследованиях надежности: требования к использованию, интерпретации и размеру выборки» . Физическая терапия . 85 (3): 257–268. DOI : 10.1093 / рц / 85.3.257 . ISSN 1538-6724 . PMID 15733050 .
- ^ Килем Гвет (май 2002 г.). «Надежность между оценщиками: зависимость от распространенности черт и предельной однородности» (PDF) . Статистические методы оценки надежности разных оценщиков . 2 : 1–10. Архивировано из оригинального (PDF) 07.07.2011 . Проверено 2 февраля 2011 .
- ^ а б Bakeman, R .; Готтман, Дж. М. (1997). Наблюдение за взаимодействием: введение в последовательный анализ (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-27593-4.
- ^ Fleiss, JL; Cohen, J .; Эверитт, Б.С. (1969). «Большая выборка стандартных ошибок каппы и взвешенной каппы». Психологический бюллетень . 72 (5): 323–327. DOI : 10.1037 / h0028106 .
- ^ Робинсон, Б.Ф .; Бакеман Р. (1998). «ComKappa: программа для Windows 95 для расчета каппа и связанной статистики» . Методы исследования поведения, приборы и компьютеры . 30 (4): 731–732. DOI : 10.3758 / BF03209495 .
- ^ Сим, Дж; Райт, C.C (2005). «Статистика Каппа в исследованиях надежности: требования к использованию, интерпретации и размеру выборки» . Физическая терапия . 85 (3): 257–268. DOI : 10.1093 / рц / 85.3.257 . PMID 15733050 .
- ^ Bakeman, R .; Quera, V .; McArthur, D .; Робинсон, Б.Ф. (1997). «Обнаружение последовательных шаблонов и определение их надежности с помощью ошибочных наблюдателей». Психологические методы . 2 (4): 357–370. DOI : 10.1037 / 1082-989X.2.4.357 .
- ^ Лэндис, младший; Кох, GG (1977). «Измерение согласия наблюдателя для категориальных данных». Биометрия . 33 (1): 159–174. DOI : 10.2307 / 2529310 . JSTOR 2529310 . PMID 843571 .
- ^ Gwet, К. (2010). " Справочник по надежности между оценщиками (второе издание) " ISBN 978-0-9708062-2-2 [ необходима страница ]
- ^ Флейсс, JL (1981). Статистические методы для ставок и пропорций (2-е изд.). Нью-Йорк: Джон Вили. ISBN 978-0-471-26370-8.
- ^ Умеш, ООН; Петерсон, РА; Заубер MH (1989). «Межсудейское соглашение и максимальное значение каппы». Образовательные и психологические измерения . 49 (4): 835–850. DOI : 10.1177 / 001316448904900407 . S2CID 123306239 .
- ^ Виера, Энтони Дж .; Гаррет, Джоан М. (2005). «Понимание соглашения между наблюдателями: статистика каппа». Семейная медицина . 37 (5): 360–363. PMID 15883903 .
- ^ Strijbos, J .; Martens, R .; Prins, F .; Йохемс, В. (2006). «Контент-анализ: о чем они говорят?». Компьютеры и образование . 46 : 29–48. CiteSeerX 10.1.1.397.5780 . DOI : 10.1016 / j.compedu.2005.04.002 .
- ^ Uebersax, JS. (1987). «Разнообразие моделей принятия решений и измерение согласия между экспертами» (PDF) . Психологический бюллетень . 101 : 140–146. CiteSeerX 10.1.1.498.4965 . DOI : 10.1037 / 0033-2909.101.1.140 . Архивировано из оригинального (PDF) 03 марта 2016 года . Проверено 16 октября 2010 .
- ^ Пауэрс, Дэвид МВ (2012). «Проблема с каппой» (PDF) . Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP . Архивировано из оригинального (PDF) 18 мая 2016 года . Проверено 20 июля 2012 .
- ^ Коэн, Дж. (1968). «Взвешенная каппа: Соглашение о номинальной шкале с резервом на масштабное несогласие или частичное зачисление». Психологический бюллетень . 70 (4): 213–220. DOI : 10.1037 / h0026256 . PMID 19673146 .
дальнейшее чтение
- Banerjee, M .; Капоццоли, Мишель; Максуини, Лаура; Синха, Дебаджьоти (1999). «За пределами Каппы: Обзор мер по соглашению между экспертами» . Канадский статистический журнал . 27 (1): 3–23. DOI : 10.2307 / 3315487 . JSTOR 3315487 .
- Коэн, Джейкоб (1960). «Коэффициент согласования для номинальных шкал». Образовательные и психологические измерения . 20 (1): 37–46. DOI : 10.1177 / 001316446002000104 . hdl : 1942/28116 . S2CID 15926286 .
- Коэн, Дж. (1968). «Взвешенная каппа: Соглашение по номинальной шкале с резервом на масштабное несогласие или частичное зачисление». Психологический бюллетень . 70 (4): 213–220. DOI : 10.1037 / h0026256 . PMID 19673146 .
- Fleiss, JL; Коэн, Дж. (1973). «Эквивалентность взвешенного каппа и коэффициента внутриклассовой корреляции как меры надежности». Образовательные и психологические измерения . 33 (3): 613–619. DOI : 10.1177 / 001316447303300309 . S2CID 145183399 .
- Sim, J .; Райт, CC (2005). «Статистика Каппа в исследованиях надежности: требования к использованию, интерпретации и размеру выборки» . Физическая терапия . 85 (3): 257–268. DOI : 10.1093 / рц / 85.3.257 . PMID 15733050 .
- Уорренс, Дж. (2011). «Каппа Коэна - это средневзвешенное значение» . Статистическая методология . 8 (6): 473–484. DOI : 10.1016 / j.stamet.2011.06.002 .
Внешние ссылки
- Каппа, ее значение, проблемы и несколько альтернатив
- Статистика каппа: плюсы и минусы
- Программные реализации
- Программа Windows для каппа, взвешенная каппа и максимальная каппа