Каппа Флейса

Каппа Флейса (названная в честь Джозефа Л. Флейсса ) - это статистическая мера для оценки надежности согласия между фиксированным числом оценщиков при присвоении категориальных оценок ряду пунктов или классификации пунктов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия не более чем между двумя оценщиками или надежности внутри оценщика (для одного оценщика против них самих). Эта мера рассчитывает степень совпадения классификации по сравнению с той, которую можно было бы ожидать случайно.

Каппа Флейса может использоваться с двоичной или номинальной шкалой . Его также можно применить к порядковым данным (ранжированным данным): интерактивная документация MiniTab ^[1] дает пример. Однако в этом документе отмечается: «Когда у вас есть порядковые рейтинги, такие как рейтинги серьезности дефекта по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают порядок, обычно являются более подходящей статистикой для определения ассоциации, чем одна каппа». Однако имейте в виду, что коэффициенты ранга Кендалла подходят только для данных ранга.

Вступление

Каппа Фляйсс является обобщением пи Скотта статистики, ^[2] статистический показатель надежности между показателями . ^[3] Это также связано со статистикой каппа Коэна и статистикой J Юдена, которые могут быть более подходящими в определенных случаях ^[4]^[5] . В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейсс работает с любым количеством оценщиков, дающих категориальные оценки, для фиксированного количества элементов. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики составляли свои рейтинги полностью случайным образом. Важно отметить, что в то время как каппа Коэна предполагает, что одни и те же два оценщика оценили набор предметов, каппа Флейсс конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные предметы могут оцениваться разными людьми ( Fleiss, 1971, с. 378). То есть элемент 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F.

Согласие можно представить следующим образом: если фиксированное количество людей присваивает числовые рейтинги нескольким элементам, то каппа дает меру того, насколько согласованы рейтинги. Каппа, ${\ Displaystyle \ каппа \,}$ , можно определить как,

(1)

{\ displaystyle \ kappa = {\ frac {{\ bar {P}} - {\ bar {P_ {e}}}} {1 - {\ bar {P_ {e}}}}}}

Фактор ${\ displaystyle 1 - {\ bar {P_ {e}}}}$ дает степень согласия, достижимую сверх случайности, и, ${\ displaystyle {\ bar {P}} - {\ bar {P_ {e}}}}$ дает степень согласия выше шанса. Если оценщики полностью согласны, то ${\ displaystyle \ kappa = 1 ~}$ . Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), тогда ${\ Displaystyle \ каппа \ leq 0}$ .

Примером использования каппа Флейсса может быть следующее: Предположим, четырнадцать психиатров просят осмотреть десять пациентов. Каждый психиатр ставит каждому пациенту один из пяти возможных диагнозов. Они составляются в матрицу, и каппа Флейса может быть вычислена из этой матрицы (см. Пример ниже ), чтобы показать степень согласия между психиатрами выше уровня согласия, ожидаемого случайно.

Определение

Пусть N - общее количество предметов, пусть n - количество оценок по каждому предмету, а k - количество категорий, по которым выполняются задания. Предметы индексируются i = 1, ... N, а категории индексируются j = 1, ... k . Пусть n _ij представляет количество оценщиков, отнесших i-й субъект к j-й категории.

Сначала вычислите p _j , долю всех заданий, относящихся к j -й категории:

(2)

{\ displaystyle p_ {j} = {\ frac {1} {Nn}} \ sum _ {i = 1} ^ {N} n_ {ij}, \ quad \ quad 1 = \ sum _ {j = 1} ^ {k} p_ {j}}

Теперь посчитайте ${\ Displaystyle P_ {я} \,}$ , степень согласия оценщиков по i- му предмету (т. е. вычислить, сколько пар оценщик-оценщик согласны по отношению к количеству всех возможных пар оценщик-оценщик):

(3)

{\ displaystyle P_ {i} = {\ frac {1} {n (n-1)}} \ sum _ {j = 1} ^ {k} n_ {ij} (n_ {ij} -1)}

{\ displaystyle = {\ frac {1} {n (n-1)}} \ sum _ {j = 1} ^ {k} (n_ {ij} ^ {2} -n_ {ij})}

{\ displaystyle = {\ frac {1} {n (n-1)}} \ left [\ left (\ sum _ {j = 1} ^ {k} n_ {ij} ^ {2} \ right) - ( n) \ right]}

Теперь вычислите ${\ displaystyle {\ bar {P}}}$ , среднее значение ${\ Displaystyle P_ {я} \,}$ 'песок ${\ displaystyle {\ bar {P_ {e}}}}$ которые входят в формулу для ${\ Displaystyle \ каппа \,}$ :

(4)

{\ displaystyle {\ bar {P}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} P_ {i}}

{\ displaystyle = {\ frac {1} {Nn (n-1)}} \ left (\ sum _ {i = 1} ^ {N} \ sum _ {j = 1} ^ {k} n_ {ij} ^ {2} -Nn \ right)}

(5)

{\ displaystyle {\ bar {P_ {e}}} = \ sum _ {j = 1} ^ {k} p_ {j} ^ {2}}

Пример работы

**Таблица значений для расчета рабочего примера**
${\ displaystyle n_ {ij}}$	1	2	3	4	5	${\ Displaystyle P_ {я} \,}$
1	0	0	0	0	14	1.000
2	0	2	6	4	2	0,253
3	0	0	3	5	6	0,308
4	0	3	9	2	0	0,440
5	2	2	8	1	1	0,330
6	7	7	0	0	0	0,462
7	3	2	6	3	0	0,242
8	2	5	3	2	2	0,176
9	6	5	2	1	0	0,286
10	0	2	2	3	7	0,286
Общее	20	28 год	39	21 год	32
${\ displaystyle p_ {j} \,}$	0,143	0.200	0,279	0,150	0,229

В следующем примере четырнадцать оценщиков ( ${\ displaystyle n}$ ) назначьте десять "предметов" ( ${\ displaystyle N}$ ) до пяти категорий ( ${\ displaystyle k}$ ). Категории представлены в столбцах, а предметы - в строках. В каждой ячейке указано количество оценщиков, отнесших указанную (строку) к указанной категории (столбец).

Данные

См. Таблицу справа.

N = 10, n = 14, k = 5

Сумма всех ячеек = 140
Сумма P _i = 3,780

Расчеты

Значение ${\ displaystyle p_ {j}}$ - доля всех присвоений ( ${\ Displaystyle N \ раз п}$ , здесь ${\ displaystyle 10 \ times 14 = 140}$ ), которые были внесены в ${\ displaystyle j}$ я категория. Например, взяв первый столбец,

{\ displaystyle p_ {1} = {\ frac {0 + 0 + 0 + 0 + 2 + 7 + 3 + 2 + 6 + 0} {140}} = 0,143}

И взяв второй ряд,

{\ displaystyle P_ {2} = {\ frac {1} {14 (14-1)}} \ left (0 ^ {2} + 2 ^ {2} + 6 ^ {2} + 4 ^ {2} + 2 ^ {2} -14 \ right) = 0,253}

Чтобы рассчитать ${\ displaystyle {\ bar {P}}}$ , нам нужно знать сумму ${\ displaystyle P_ {i}}$ ,

{\ displaystyle \ sum _ {i = 1} ^ {N} P_ {i} = 1.000 + 0.253 + \ cdots + 0.286 + 0.286 = 3.780}

По всему листу,

{\ displaystyle {\ bar {P}} = {\ frac {1} {(10)}} (3,780) = 0,378}

{\ displaystyle {\ bar {P}} _ {e} = 0,143 ^ {2} + 0.200 ^ {2} + 0,279 ^ {2} + 0,150 ^ {2} + 0,229 ^ {2} = 0,213}

{\ displaystyle \ kappa = {\ frac {0,378-0,213} {1-0,213}} = 0,210}

Интерпретация

Ландис и Кох (1977) дали следующую таблицу для интерпретации ${\ displaystyle \ kappa}$ значения. ^{[6] Однако} эта таблица не является общепринятой. Они не представили никаких доказательств в поддержку этого, а основали это на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными ^[7], поскольку количество категорий и предметов будет влиять на величину ценности. Каппа будет выше, когда будет меньше категорий. ^[8]

${\ displaystyle \ kappa}$	Интерпретация
<0	Плохое согласие
0,01 - 0,20	Незначительное согласие
0,21 - 0,40	Справедливое соглашение
0,41 - 0,60	Умеренное согласие
0,61 - 0,80	Существенное соглашение
0,81 - 1,00	Почти идеальное согласие

В упомянутой ранее документации MiniTab говорится, что Automotive Industry Action Group (AIAG) «предполагает, что значение каппа не менее 0,75 указывает на хорошее совпадение. Однако более высокие значения каппа, такие как 0,90, предпочтительны».

Тесты значимости

Статистические пакеты могут рассчитывать стандартную оценку (Z-оценку) для каппы Коэна или каппы Флейсса, которая может быть преобразована в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это только указывает на то, что согласие между экспертами значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

Смотрите также

дальнейшее чтение

Флейсс, Дж. Л. и Коэн, Дж. (1973) «Эквивалентность взвешенной каппа и коэффициента внутриклассовой корреляции как меры надежности» в « Образовательные и психологические измерения» , Vol. 33 с. 613–619.
Fleiss, JL (1981) Статистические методы для ставок и пропорций . 2-е изд. (Нью-Йорк: Джон Уайли) стр. 38–46.
Gwet, KL (2008) " Вычисление межэкспертной надежности и ее дисперсии при наличии высокого согласия ", British Journal of Mathematical and Statistical Psychology , Vol. 61, стр. 29–48.

Внешние ссылки

AgreeStat 360: облачный межэкспертный анализ надежности, каппа Коэна, AC1 / AC2 Гвета, альфа Криппендорфа, обобщенная каппа Бреннана-Предигера, Флейсса, коэффициенты внутриклассовой корреляции
Kappa: Pros and Cons содержит хорошую библиографию статей о коэффициенте.
Онлайн-калькулятор каппы рассчитывает вариацию каппы Флейса.