Cohen-féle kappa

A Cohen-féle kappa együttható (κ) egy olyan statisztikai mérőeszköz, amely két megítélő közötti (illetve egy megítélőn belüli) megbízhatóságot méri kategorikus változók esetében.[1]

Általánosságban véve robosztusabb eljárás, mint egy egyszerű százalékos megegyezésszámítás, mivel κ figyelembe veszi a megegyezések véletlenszerű bekövetkezésének lehetőségét is.

Történet

Az első kappa-féle statisztikai számítás Sir Francis Galton nevéhez fűződik (1892).[2]

A kappát mint új statisztikai eljárást, Jacob Cohen publikálta az Educational and Psychological Measurement folyóiratban 1960-ban.[3]

Definíció

A Cohen-féle kappa két értékelő közötti megegyezést (vagyis egyetértést) számítja ki, akik N tételt osztályoznak C kategóriába. A κ definíciója:

κ p o p e 1 p e = 1 1 p o 1 p e , {\displaystyle \kappa \equiv {\frac {p_{o}-p_{e}}{1-p_{e}}}=1-{\frac {1-p_{o}}{1-p_{e}}},\!}

Ahol po a relatív megfigyelt megegyezés az értékelők között (azonos a pontossággal), és pe a feltételezett valószínűsége a véletlen megegyezéseknek. Ha az értékelők teljes mértékben egyetértenek, akkor κ = 1. Ha nincs az értékelők között nagyobb egyetértés, mint amit a véletlen indokolna, akkor κ = 0. A kappa statisztikai értéke negatív is lehet, ami azt jelenti, hogy erős a nézeteltérés a két értékelő között, vagyis a megegyezések értéke rosszabb, mint ami véletlenszerűen előfordulna.[4]

Abban az esetben, ha k a kategóriák számát jelöli, N a tételek számát, nki pedig azokat az eseteket, amikor i értékelő a k kategóriát választotta, az egyenlet így néz ki:

Például:

p e = 1 N 2 k n k 1 n k 2 {\displaystyle p_{e}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}}

Ami a következő képletből származik:

p e = k p k 12 ^ = k p k 1 ^ p k 2 ^ = k n k 1 N n k 2 N = 1 N 2 k n k 1 n k 2 {\displaystyle p_{e}=\sum _{k}{\widehat {p_{k12}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}=\sum _{k}{\frac {n_{k1}}{N}}{\frac {n_{k2}}{N}}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}}

Ahol p k 12 ^ {\displaystyle {\widehat {p_{k12}}}} Pk12 annak a becsült valószínűsége, hogy mind az első, mind a második értékelő ugyanazt az elemet osztályozza k-ként, míg p k 1 ^ {\displaystyle {\widehat {p_{k1}}}} annak a becsült valószínűsége, hogy az 1-es értékelő k-ként kategorizálja az adott elemet (szintúgy a 2-es értékelő esetében is). A következő egyenlőség:

p k ^ = k p k 1 ^ p k 2 ^ {\displaystyle {\widehat {p_{k}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}}

azon a feltételezésen alapszik, hogy a két értékelő értékelése független egymástól.

Példák

Egyszerű példa

Tegyük fel, hogy Önnek egy adott támogatást megpályázó 50 személy adatait kell elemeznie. Minden javaslatot két értékelő olvasott el, és mindegyik értékelő “Igen”-nel vagy “Nem”-mel támogatta, illetve elutasította az adott pályázatot. Tegyük fel, hogy az eltérő értékelések számlálási adatai a következők voltak, ahol A és B értékelő, a mátrix főátlójára vonatkozó adatok (a és d) megegyezések száma és a fordított átlós adatok (b és c) a nézeteltérések száma:

B
Igen Nem
A Igen a b
Nem c d

A kappa egy olyan mutató, amely a megfigyelt megegyezések számát veti össze egy alapul vett megegyezési számmal. Az alapul vett megegyezési számot sok esetben úgy határozzák meg, mint a véletlen megegyezések értékét, azonban ez csak részben helyes megállapítás. Az alapul vett érték az a megegyezési mutató, amelyre a véletlenszerű osztályozás miatt számíthatunk, figyelembe véve a négyzet kontingencia táblázat határértékei által megadott mennyiségeket. Így kappa = 0, ha az osztályozások elosztása látszólag véletlenszerű, függetlenül a mennyiségi nézeteltéréstől, amelyet a marginális összegek korlátoznak. Ezért a kappa alapul vett értéke sok esetben inkább zavaró lehet, mint segítő értékű. Vegyük a következő példát:

B
Igen Nem
A Igen 20 5
Nem 10 15

A megegyezések értéke:

p o = a + d a + b + c + d = 20 + 15 50 = 0.7 {\displaystyle p_{o}={\frac {a+d}{a+b+c+d}}={\frac {20+15}{50}}=0.7}

A pe  (véletlenszerű megegyezések valószínűsége) kiszámításához:

l  “A” értékelő “Igen”-nel válaszolt 25 pályázatra és “Nem”-mel a másik 25 pályázatra. Tehát “A” 50%-ban válaszolt “Igen”-nel.

l  “B” értékelő “Igen”-nel válaszolt 30 pályázatra és “Nem”-mel 20 pályázatra. Tehát “B” 60%-ban válaszolt “Igen”-nel.

Tehát az elvárható valószínűsége annak, hogy mindkét értékelő “Igen”-nel válaszol véletlenszerűen:

p Yes = a + b a + b + c + d a + c a + b + c + d = 0.5 × 0.6 = 0.3 {\displaystyle p_{\text{Yes}}={\frac {a+b}{a+b+c+d}}\cdot {\frac {a+c}{a+b+c+d}}=0.5\times 0.6=0.3}

Illetve a “Nem” válaszok esetében:

p No = c + d a + b + c + d b + d a + b + c + d = 0.5 × 0.4 = 0.2 {\displaystyle p_{\text{No}}={\frac {c+d}{a+b+c+d}}\cdot {\frac {b+d}{a+b+c+d}}=0.5\times 0.4=0.2}

A teljes véletlenszerű megegyezések valószínűsége az a valószínűség, hogy “Igen” válaszban vagy “Nem” válaszban megegyezett a két értékelő, vagyis:

p e = p Yes + p No = 0.3 + 0.2 = 0.5 {\displaystyle p_{e}=p_{\text{Yes}}+p_{\text{No}}=0.3+0.2=0.5}

Erre a Cohen-féle kappát alkalmazva ezt kapjuk:

κ = p o p e 1 p e = 0.7 0.5 1 0.5 = 0.4 {\displaystyle \kappa ={\frac {p_{o}-p_{e}}{1-p_{e}}}={\frac {0.7-0.5}{1-0.5}}=0.4\!}

Megegyező százalékok, de eltérő értékek

A Cohen-féle kappával kapcsolatban felmerülhet az a probléma, hogy a kappa érték nem megfelelően tükrözi a megegyező értékelések százalékos arányát. Ez olyan eseteknél fordul elő, ahol két értékelőpár megegyezése azonos százalékos arányt mutat, de az egyik értékelőpár hasonló számú értékelést ad egy-egy kategóriához, míg a másik értékelőpár nagyon eltérő számú értékelést ad egy-egy kategóriához.[5] Az alábbi példákban a ”B” értékelőnek az első esetben 70 “Igen” és 30 “Nem” válasza van, de a másodikban ezek a számok megfordulnak. Például a következő két esetben egyenlő az egyetértés “A” és “B” között (60 mindkét esetben 100-ból) az egyes válaszkategóriákban való megegyezés szempontjából, ezért azt várnánk, hogy a Cohen-féle kappa relatív értékei ezt tükrözik.

Azonban a kappa értékeit kiszámítva nem ez látszik:

B
Igen Nem
A Igen 45 15
Nem 25 15
κ = 0.60 0.54 1 0.54 = 0.1304 {\displaystyle \kappa ={\frac {0.60-0.54}{1-0.54}}=0.1304}
B
Igen Nem
A Igen 25 35
Nem 5 35
κ = 0.60 0.46 1 0.46 = 0.2593 {\displaystyle \kappa ={\frac {0.60-0.46}{1-0.46}}=0.2593}

Ez azt mutatja, hogy nagyobb a hasonlóság “A” és “B” értékelő között a második esetben, mint az első esetben. Ennek oka, hogy bár a megegyezések százalékos aránya azonos, a véletlen megegyezések százaléka jóval magasabb az első esetben (0.54 a 0.46-hoz képest).

Tulajdonságok

Hipotézistesztelés és konfidenciaintervallum

A kappa p-értékéről ritkán számolnak be, valószínűleg azért, mert még a viszonylag alacsony kappa-értékek is szignifikánsnak tűnhetnek. Ez azt jelenti, hogy a megegyezések mintázata nagyobb értéket tükröz, mint amit véletlenszerű kategorizálással el lehet érni. Azonban nem elég, ha egy kappa érték nagyobb, mint a véletlenszerű kategorizáció által kapott érték; ennél általában nagyobb megegyezésre van szükség. A bevett gyakorlat szerint a 0.7 alatti kappa érték még nem tekinthető megfelelőnek, hiába szignifikáns.[6] Joseph L. Fleiss és Jacob Cohen 1969-ben meghatározta a kappa standard hibáját is[7] és ezt számos különböző számítógépes program ki is tudja számítani.[8]

A kappa konfidenciaintervallumának kiszámításához a kívánt konfidenciaszint és a standard hiba szorzatát ki kell vonni a kappa értékéből. A leggyakoribb kívánt konfidenciaszint 95%, így az egyenlet 1.96 értéket használ a standard hiba szorzójaként. A konfidenciaintervallum kiszámítására szolgáló egyenlet a következő:

k − 1.96 × SEkto  k + 1.96 × SEk

A kappa standard hibája (és a konfidenciaintervalluma) bootstrap eljárásokkal is kiszámítható.

Kappa nagyságát meghatározó tényezők

Ha a statisztikai szignifikancia nem hasznos útmutató, akkor a kappa milyen értéke tükrözi a megfelelő egyetértést?

Van néhány tényező, ami befolyásolhatja a kappa nagyságát és megnehezítheti az adott kappa-nagyság értelmezését. Mint Julius Sim és Chris C. Wright megjegyezte, két fontos tényező a prevalencia és az elfogultság. A prevalencia a kategóriák kiválasztásának relatív valószínűsége. Ha visszatérünk az első példához, az „Igen” kategória kiválasztásának valószínűségét az (a + b)/N és (a + c)/N átlagával lehet kiszámítani,  míg a „Nem” kategóriáét a (c + d)/N és (b + d)/N átlagával. A két átlag különbözete adja meg a Prevalencia Indexet (PI). A prevalencia tehát hatással van a kappa értékére, mégpedig úgy, hogy minél nagyobb a PI értéke, annál kisebb a kappa-érték. Az elfogultság arra a jelenségre vonatkozik, hogy „A” és „B” megfigyelő eltérő gyakorisággal osztályoz egyes kategóriáknál. Ha ez megtörténik, akkor a két értékelőnél megfigyelhető marginális eloszlás egyenetlen lesz. Az Elfogultság Index megegyezik az „Igen válaszok arányának különbségével. Ennek kiszámítása a következő: (a + b)/N – (a + c)/N.”[9][10]

Kappa maximum értéke

A Cohen-féle kappa akkor éri el a maximum értékét, az 1-et, amikor a két értékelő válaszai teljes mértékben megegyeznek, vagyis a sorok és oszlopok összegei azonosak. Ehhez képest bármilyen eltérés már nem tekinthető tökéletes megegyezésnek. κ maximum értékének képlete:[11]

κ max = P max P exp 1 P exp {\displaystyle \kappa _{\max }={\frac {P_{\max }-P_{\exp }}{1-P_{\exp }}}}

Korlátok

  1. Összehasonlítás
Referencia
G R
Összehasonlítás G 1 14
R 0 1

A nézeteltérések aránya 14/16 vagy 0.875. A nézeteltérés a mennyiség miatt jelentkezik, mivel az osztályozások elosztása optimális. A kappa értéke 0.01.

2. Összehasonlítás
Referencia
G R
Összehasonlítás G 0 1
R 1 14

A nézeteltérések aránya 2/16 vagy 0.125. A nézeteltérés a felosztás miatt jelentkezik, mivel a mennyiségek megegyeznek. A kappa értéke -0.07.

Ebben az esetben fontos jelenteni a mennyiséget és felosztást is, mert a kappa értéke nem ad teljesen tiszta képet számunkra. Ezenkívül a kappa néhány kihívást vet fel a számításban és az értelmezésben, mert a kappa érték egy arány. Lehetséges, hogy a kappa aránya meghatározatlan értéket ad vissza a nevezőben szereplő nulla miatt. Ezenkívül egy arány nem fedi fel sem számlálóját, sem nevezőjét. A kutatók számára informatívabb, ha a nézeteltéréseket két komponensben, a mennyiségben és az elosztásban jelentik. Ez a két komponens egyértelműbben írja le a kategóriák közötti kapcsolatot, mint egy összefoglaló statisztikai érték.[12]

Néhány kutató aggodalmát fejezte ki amiatt, hogy κ hajlamos a megfigyelt kategóriák gyakoriságát figyelmen kívül hagyni, ami megbízhatatlanná teheti az egyetértés mérését olyan helyzetekben, mint például ritka betegségek diagnosztizálása. Ezekben az esetekben a κ hajlamos alábecsülni a ritka kategóriára vonatkozó megegyezést.[13]

Kapcsolódó statisztikai eljárások

Scott-féle Pi

Scott nevéhez fűződik a pi statisztika, ami annyiban különbözik a Cohen-féle kappától, hogy a pe értéket másképp számítják.

Fleiss-féle kappa

A Cohen-féle kappával ellentétben, a Fleiss-féle kappa nem csak kettő, hanem több értékelő közötti megegyezés kiszámítására szolgál. A Feiss-séle kappa a Scott-féle pi többértékelős általánosítása, nem pedig a Cohen-féle kappáé.[14]

Súlyozott kappa

A súlyozott kappa lehetővé teszi, hogy egyes nézeteltérések más súllyal rendelkezzenek. Három mátrix játszik szerepet ennél a kappánál: a megfigyelt adatok mátrixa, a véletlenszerű megegyezések elvárt mátrixa és a súlyozott mátrix.[15]

A súlyozott κ képlete:

κ = 1 i = 1 k j = 1 k w i j x i j i = 1 k j = 1 k w i j m i j {\displaystyle \kappa =1-{\frac {\sum _{i=1}^{k}\sum _{j=1}^{k}w_{ij}x_{ij}}{\sum _{i=1}^{k}\sum _{j=1}^{k}w_{ij}m_{ij}}}}

Hivatkozások

  1. McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276–282. doi:10.11613/bm.2012.031. PMC 3900052. PMID 23092060.
  2. Galton, F. (1892) Finger Prints Macmillan, London.
  3. Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement. 20 (1): 37–46. doi:10.1177/001316446002000104
  4. Sim, Julius; Wright, Chris C. (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
  5. Kilem Gwet (May 2002). "Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity" (PDF). Statistical Methods for Inter-Rater Reliability Assessment. 2: 1–10.
  6. Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-521-27593-4.
  7. Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). "Large sample standard errors of kappa and weighted kappa". Psychological Bulletin. 72 (5): 323–327. doi:10.1037/h0028106
  8. Robinson, B.F; Bakeman, R. (1998). "ComKappa: A Windows 95 program for calculating kappa and related statistics". Behavior Research Methods, Instruments, and Computers. 30(4): 731–732. doi:10.3758/BF03209495
  9. Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin Epidemiol. 1993 May;46(5):423-9. doi: 10.1016/0895-4356(93)90018-v. PMID: 8501467.
  10. Sim, J; Wright, C. C (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements". Physical Therapy. 85 (3): 257–268. doi:10.1093/ptj/85.3.257
  11. Umesh, U. N.; Peterson, R.A.; Sauber M. H. (1989). "Interjudge agreement and the maximum value of kappa". Educational and Psychological Measurement. 49 (4): 835–850. doi:10.1177/001316448904900407
  12. Pontius, Robert; Millones, Marco (2011). "Death to Kappa: birth of quantity disagreement and allocation disagreement for accuracy assessment". International Journal of Remote Sensing. 32 (15): 4407–4429.
  13. Viera, Anthony J.; Garrett, Joanne M. (2005). "Understanding interobserver agreement: the kappa statistic". Family Medicine. 37 (5): 360–363.
  14. Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.
  15. Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit". Psychological Bulletin.

Fordítás

Ez a szócikk részben vagy egészben a Cohen's kappa című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.