Каппа Флейса (названная в честь Джозефа Л. Флейсса ) - это статистическая мера для оценки надежности согласия между фиксированным числом оценщиков при присвоении категориальных оценок ряду пунктов или классификации пунктов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия не более чем между двумя оценщиками или надежности внутри оценщика (для одного оценщика против них самих). Эта мера рассчитывает степень совпадения классификации по сравнению с той, которую можно было бы ожидать случайно.
Каппа Флейса может использоваться с двоичной или номинальной шкалой . Его также можно применить к порядковым данным (ранжированным данным): интерактивная документация MiniTab [1] дает пример. Однако в этом документе отмечается: «Когда у вас есть порядковые рейтинги, такие как рейтинги серьезности дефекта по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают порядок, обычно являются более подходящей статистикой для определения ассоциации, чем одна каппа». Однако имейте в виду, что коэффициенты ранга Кендалла подходят только для данных ранга.
Вступление
Каппа Фляйсс является обобщением пи Скотта статистики, [2] статистический показатель надежности между показателями . [3] Это также связано со статистикой каппа Коэна и статистикой J Юдена, которые могут быть более подходящими в определенных случаях [4] [5] . В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейсс работает с любым количеством оценщиков, дающих категориальные оценки, для фиксированного количества элементов. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики составляли свои рейтинги полностью случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор предметов, каппа Флейсс конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные предметы могут оцениваться разными людьми ( Fleiss, 1971, с. 378). То есть элемент 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F.
Согласие можно представить следующим образом: если фиксированное количество людей присваивает числовые рейтинги нескольким элементам, то каппа дает меру того, насколько согласованы рейтинги. Каппа,, можно определить как,
(1)
Фактор дает степень согласия, достижимую сверх случайности, и, дает степень согласия выше шанса. Если оценщики полностью согласны, то. Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), тогда.
Примером использования каппа Флейсса может быть следующее: Предположим, четырнадцать психиатров просят осмотреть десять пациентов. Каждый психиатр ставит каждому пациенту один из пяти возможных диагнозов. Они составляются в матрицу, и каппа Флейса может быть вычислена из этой матрицы (см. Пример ниже ), чтобы показать степень согласия между психиатрами выше уровня согласия, ожидаемого случайно.
Определение
Пусть N - общее количество предметов, пусть n - количество оценок по каждому предмету, а k - количество категорий, по которым выполняются задания. Предметы индексируются i = 1, ... N, а категории индексируются j = 1, ... k . Пусть n ij представляет количество оценщиков, отнесших i-й субъект к j-й категории.
Сначала вычислите p j , долю всех заданий, относящихся к j -й категории:
(2)
Теперь посчитайте , степень согласия оценщиков по i- му предмету (т. е. вычислить, сколько пар оценщик-оценщик согласны по отношению к количеству всех возможных пар оценщик-оценщик):
(3)
Теперь вычислите , среднее значение 'песок которые входят в формулу для :
(4)
(5)
Пример работы
1 | 2 | 3 | 4 | 5 | ||
---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 14 | 1.000 |
2 | 0 | 2 | 6 | 4 | 2 | 0,253 |
3 | 0 | 0 | 3 | 5 | 6 | 0,308 |
4 | 0 | 3 | 9 | 2 | 0 | 0,440 |
5 | 2 | 2 | 8 | 1 | 1 | 0,330 |
6 | 7 | 7 | 0 | 0 | 0 | 0,462 |
7 | 3 | 2 | 6 | 3 | 0 | 0,242 |
8 | 2 | 5 | 3 | 2 | 2 | 0,176 |
9 | 6 | 5 | 2 | 1 | 0 | 0,286 |
10 | 0 | 2 | 2 | 3 | 7 | 0,286 |
Общее | 20 | 28 год | 39 | 21 год | 32 | |
0,143 | 0.200 | 0,279 | 0,150 | 0,229 |
В следующем примере четырнадцать оценщиков () назначьте десять "предметов" () до пяти категорий (). Категории представлены в столбцах, а предметы - в строках. В каждой ячейке указано количество оценщиков, отнесших указанную (строку) к указанной категории (столбец).
Данные
См. Таблицу справа.
N = 10, n = 14, k = 5
Сумма всех ячеек = 140
Сумма P i = 3,780
Расчеты
Значение - доля всех присвоений (, здесь ), которые были внесены в я категория. Например, взяв первый столбец,
И взяв второй ряд,
Чтобы рассчитать , нам нужно знать сумму ,
По всему листу,
Интерпретация
Ландис и Кох (1977) дали следующую таблицу для интерпретации значения. [6] Однако эта таблица не является общепринятой. Они не представили никаких доказательств в поддержку этого, а основали это на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными [7], поскольку количество категорий и предметов будет влиять на величину ценности. Каппа будет выше, когда будет меньше категорий. [8]
Интерпретация | |
---|---|
<0 | Плохое согласие |
0,01 - 0,20 | Незначительное согласие |
0,21 - 0,40 | Справедливое соглашение |
0,41 - 0,60 | Умеренное согласие |
0,61 - 0,80 | Существенное соглашение |
0,81 - 1,00 | Почти идеальное согласие |
В упомянутой ранее документации MiniTab говорится, что Automotive Industry Action Group (AIAG) «предполагает, что значение каппа не менее 0,75 указывает на хорошее совпадение. Однако более высокие значения каппа, такие как 0,90, предпочтительны».
Тесты значимости
Статистические пакеты могут рассчитывать стандартную оценку (Z-оценку) для каппы Коэна или каппы Флейсса, которая может быть преобразована в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это только указывает на то, что согласие между экспертами значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.
Смотрите также
Рекомендации
- ^ Статистика Каппа MiniTab Inc. для анализа согласования атрибутов. https://support.minitab.com/en-us/minitab/18/help-and-how-to/quality-and-process-improvement/measurement-system-analysis/how-to/attribute-agreement-analysis/ атрибут-соглашение-анализ / интерпретация-результаты / все-статистика-и-графики / kappa-statistics / по состоянию на22 января 2019 г.
- ^ Флейсс, JL (1971) "Измерение номинальной шкалы согласия среди многих оценщиков". Психологический бюллетень, Vol. 76, № 5, с. 378–382
- ^ Скотт, W. (1955). «Надежность контент-анализа: пример кодирования по номинальной шкале». Общественное мнение Ежеквартально, Том. 19, № 3, с. 321–325.
- ^ Пауэрс, DMW (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения 2 (1): 37–63.
- ^ Пауэрс, Дэвид МВ (2012). «Проблема с каппой». Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP.
- ^ Ландис, JR и Кох, GG (1977) «Измерение согласия наблюдателя для категориальных данных» вбиометрии. Vol. 33. С. 159–174.
- ^ Gwet, KL (2014)Справочник Inter-Rater надежности(4е издание), глава 6 (Gaithersburg: Advanced Analytics, LLC)ISBN 978-0970806284. http://www.agreestat.com/book4/9780970806284_chap2.pdf
- ^ Сим, Дж. И Райт, CC (2005) «Каппа-статистика в исследованиях надежности: использование, интерпретация и требования к размеру выборки» вфизиотерапии. Vol. 85, № 3, с. 257–268
дальнейшее чтение
- Флейсс, Дж. Л. и Коэн, Дж. (1973) «Эквивалентность взвешенной каппа и коэффициента внутриклассовой корреляции как меры надежности» в « Образовательные и психологические измерения» , Vol. 33 с. 613–619.
- Fleiss, JL (1981) Статистические методы для ставок и пропорций . 2-е изд. (Нью-Йорк: Джон Уайли) стр. 38–46.
- Gwet, KL (2008) " Вычисление межэкспертной надежности и ее дисперсии при наличии высокого согласия ", British Journal of Mathematical and Statistical Psychology , Vol. 61, стр. 29–48.
Внешние ссылки
- AgreeStat 360: облачный межэкспертный анализ надежности, каппа Коэна, AC1 / AC2 Гвета, альфа Криппендорфа, обобщенная каппа Бреннана-Предигера, Флейсса, коэффициенты внутриклассовой корреляции
- Kappa: Pros and Cons содержит хорошую библиографию статей о коэффициенте.
- Онлайн-калькулятор каппы рассчитывает вариацию каппы Флейса.