Zwei Untersucher messen die Sondierungstiefe – und kommen zu unterschiedlichen Ergebnissen. Ohne statistischen Nachweis, dass diese Abweichung nicht zufällig ist, sind deine Daten wissenschaftlich wertlos. Cohen's Kappa ist der Beweis, den Gutachter verlangen.
Cohen's Kappa (κ) ist ein Maß für die Übereinstimmung zwischen zwei Untersuchern, das den zufällig erwarteten Übereinstimmungsanteil herausrechnet. Ein κ ≥ 0,61 gilt als substanziell, κ ≥ 0,81 als nahezu perfekt (Landis & Koch, 1977). In der zahnmedizinischen Forschung ist die Angabe von Kappa bei allen Studien mit zwei oder mehr Untersuchern Pflicht – z. B. bei der Parodontalstatuserhebung (Sondierungstiefe, Attachmentverlust), der radiologischen Kariesdiagnostik oder der Klassifikation von Füllungsrandspalten. Ohne Kappa-Nachweis werden Manuskripte von peer-reviewten Journals abgelehnt und Dissertationsgutachter monieren fehlende methodische Sorgfalt. Die Berechnung erfolgt in SPSS (Analysieren → Deskriptive Statistik → Kreuztabellen → Kappa) oder in R (Paket irr, Funktion kappa2()).
Stell dir folgendes Szenario vor: Du erforschst in deiner Dissertation die Wirksamkeit einer neuen Parodontitistherapie. Dein Studiendesign sieht vor, dass du und dein Betreuer – ein erfahrener Oberarzt – die Sondierungstiefen von 80 Patienten erheben. Zwei Monate nach der Therapie wird wieder gemessen. Das Ergebnis soll zeigen, ob sich die Sondierungstiefen verbessert haben.
Das Problem: Ihr sondiert nicht gleich. Du sonst mit einem Winkel von 15°, er mit 20°. Du drückst mit 25 cN an, er mit 35 cN. Deine Ablesung liegt bei 4 mm, seine bei 3 mm – am selben Zahn, am selben Tag.
Wenn die Ausgangsmessungen von Untersucher A stammen und die Verlaufsmessungen von Untersucher B, messen deine Daten nicht den Therapieeffekt – sie messen den Unterschied zwischen zwei Untersuchern. Jeder Gutachter, der das erkennt, wird die Arbeit zurückweisen. Und peer-reviewte Journals verlangen heute standardmäßig den Nachweis der Inter-Examiner-Reliabilität vor der ersten Datenerhebung.
Das Naheliegende wäre: Zählen, wie oft beide Untersucher zum gleichen Ergebnis kommen, und das als Prozentzahl angeben. „Übereinstimmung in 85 % der Fälle" klingt gut. Aber dieser Wert ist irreführend – er berücksichtigt nicht, wie oft Übereinstimmung rein durch Zufall entstanden wäre.
Stellen dir vor, beide Untersucher klassifizieren Zähne als „kariesfrei" oder „kariös". Bei einer Kariesprävalenz von 20 % würden sie allein durch Zufall in 68 % der Fälle übereinstimmen – einfach weil beide meistens „kariesfrei" sagen. Eine gemessene Übereinstimmung von 72 % wäre also kaum besser als Zufall.
Kappa zieht die zufällig erwartete Übereinstimmung (Pe) von der beobachteten Übereinstimmung (Po) ab und setzt das ins Verhältnis zum maximal möglichen Kappa. Das Ergebnis ist eine zufallsbereinigte Übereinstimmungsstatistik – und damit die einzige wissenschaftlich akzeptierte Methode.
„A kappa statistic should be routinely reported in studies involving observer agreement for categorical variables."
— Altman, D.G. (1991). Practical Statistics for Medical Research. Chapman & Hall, London.Cohen's Kappa (κ) wurde 1960 von Jacob Cohen eingeführt als Maß für die Übereinstimmung zwischen zwei Beurteilern bei nominalen oder ordinalen Daten – also überall dort, wo Kategorien vergeben werden, nicht kontinuierliche Messwerte.
Kappa bewegt sich auf einer Skala von –1 bis +1. Negative Werte zeigen systematische Gegenläufigkeit (schlechter als Zufall), 0 bedeutet reine Zufallsübereinstimmung, +1 bedeutet vollkommene Übereinstimmung.
Zwei Untersucher beurteilen 50 Approximalräume als „kariesfrei" oder „kariös". Die Ergebnisse werden in einer 2×2-Kontingenztabelle dargestellt:
| Untersucher B: kariesfrei | Untersucher B: kariös | Summe | |
|---|---|---|---|
| Untersucher A: kariesfrei | 32 | 4 | 36 |
| Untersucher A: kariös | 3 | 11 | 14 |
| Summe | 35 | 15 | 50 |
Ergebnis: κ = 0,66 → substanzielle Übereinstimmung nach Landis & Koch (1977). Für die meisten zahnmedizinischen Dissertationen akzeptabel, für Journalpublikationen sollte κ ≥ 0,70 angestrebt werden.
Die am weitesten verbreitete Interpretationstabelle stammt von Landis & Koch (1977). Sie ist de-facto-Standard in der medizinischen und zahnmedizinischen Literatur.
| Kappa-Wert (κ) | Übereinstimmung | Bewertung in der Dissertation | Empfehlung |
|---|---|---|---|
| < 0,20 | Gering (slight) | ✗ Nicht akzeptabel – Studie nicht durchführbar | Kalibrierungstraining wiederholen, Messprotokoll überarbeiten |
| 0,21 – 0,40 | Ausreichend (fair) | ✗ Kaum akzeptabel – nur mit starker Einschränkung | Diagnosekriterien schärfen, zweite Kalibrierungsrunde |
| 0,41 – 0,60 | Moderat (moderate) | ◑ Bedingt akzeptabel – abhängig vom Fach | Im Methodenteil als Limitation transparent benennen |
| 0,61 – 0,80 | Substanziell (substantial) | ✓ Akzeptabel – Standard für klinische Studien | Angabe mit Konfidenzintervall im Methodenteil |
| 0,81 – 1,00 | Nahezu perfekt (almost perfect) | ✓✓ Exzellent – Stärke der Arbeit | Als Qualitätsmerkmal hervorheben |
Kappa ist sensitiv gegenüber der Prävalenz der Kategorien: Bei sehr seltenen oder sehr häufigen Ereignissen kann Kappa niedrig sein, obwohl die prozentuale Übereinstimmung hoch ist (Prävalenz-Paradox). In solchen Fällen sollte zusätzlich der Positive Predictive Value (PPV) oder der Gwet's AC1 berichtet werden. Für die meisten zahnmedizinischen Dissertationen ist Landis & Koch jedoch ausreichend – wichtig ist, dass du die gewählte Interpretationsreferenz explizit zitierst.
Zwei Untersucher bewerten Kompositfüllungen nach den USPHS-Kriterien (United States Public Health Service) in vier Kategorien: Alpha (kein Randspalt), Bravo (leichter Spalt), Charlie (deutlicher Spalt), Delta (Fraktur). Das ist ein klassischer Anwendungsfall für Weighted Kappa – denn die Abweichung Alpha/Bravo ist klinisch weniger relevant als Alpha/Delta. Der Gewichtungsfaktor bestraft größere Abweichungen stärker.
„Die Beurteilung der Randqualität erfolgte durch zwei kalibrierte Untersucher anhand der USPHS-Kriterien (Alpha–Delta). Zur Bestimmung der Inter-Examiner-Reliabilität wurde Weighted Kappa mit linearer Gewichtung berechnet (κw = 0,74, 95%-KI: 0,62–0,86), was einer substanziellen Übereinstimmung entspricht (Landis & Koch, 1977). Abweichungen wurden konsensusbasiert gelöst."
Die neue Parodontitis-Klassifikation (Stage I–IV / Grade A–C) ist komplex und interpretationsbedürftig. Studien, die mehrere Untersucher einsetzen, müssen nachweisen, dass die Stagingergebnisse nicht von der subjektiven Einschätzung des jeweiligen Untersuchers abhängen.
Besonders relevant in Kombination mit unserem Artikel zum statistischen Vergleich von Plaque-Indizes (API, SBI, PBI): Nachdem du den passenden Index gewählt hast, musst du sicherstellen, dass verschiedene Untersucher den Index identisch erheben. Cohen's Kappa ist hierfür das methodische Rückgrat.
Besonders bei der kephalometrischen Analyse im FRS führen minimale Abweichungen bei der Landmarkenidentifikation zu systematischen Messfehlern. Obwohl die FRS-Messwerte kontinuierlich sind (mm, Grad) und damit eigentlich den ICC verlangen, wird bei der Kategorisierung von Skelettklassen (I/II/III) häufig ergänzend Kappa berichtet.
Kappa berechnen – aber nicht sicher wie?
Unsere Statistik-Experten berechnen Cohen's Kappa, ICC und Weighted Kappa für Ihre Dissertation – mit korrekter Interpretation und Konfidenzintervall.Cohen's Kappa wird nicht nur am Ende berichtet – er wird durch methodisches Kalibrierungstraining vor der Studie optimiert. Ein niedriges Kappa nach der Haupterhebung ist nicht mehr reparierbar. Deshalb ist die Kalibrierungsphase kein Bonus, sondern Pflicht.
Alle Untersuchungsmerkmale werden vor der Studie schriftlich definiert. Bei Sondierungstiefe: Sondierungsdruck (25 cN), Sondenwinkel (0° zur Zahnachse), Ablesung auf mm gerundet. Bei Kariesdiagnostik: welche ICDAS-Codes als „kariös" gelten. Kein Spielraum für Interpretation.
20–30 Trainingsfälle werden von allen Untersuchern unabhängig beurteilt. Bei radiologischer Diagnostik: Referenzbilder mit konsensusbasierter Goldeinstufung durch Experten. Bei klinischen Parametern: Beurteilung am Phantomkopf oder an Pilotpatienten (nicht Teil der Hauptstudie).
Nach dem Trainingsset wird Kappa berechnet. Liegt er unter 0,60, werden alle Abweichungen gemeinsam besprochen: Wo lagen die Unterschiede? Welche Kriterien wurden unterschiedlich ausgelegt? Diagnoseprotokoll anpassen.
Mit überarbeitetem Protokoll wird ein zweites Trainingsset beurteilt. Kappa erneut berechnen. Ziel: κ ≥ 0,70 vor Beginn der Haupterhebung. Erst dann wird mit der Datenerhebung begonnen.
Neben der Inter-Examiner-Reliabilität (zwischen Untersuchern) sollte bei längeren Studien auch die Intra-Examiner-Reliabilität (Wiederholbarkeit desselben Untersuchers) geprüft werden. Dafür werden 10–15 % der Fälle doppelt beurteilt, ohne Kenntnis der ersten Beurteilung. Auch hier: Kappa oder ICC berichten.
SPSS berechnet Kappa über die Kreuztabellen-Funktion. Die Daten müssen in zwei Spalten vorliegen: eine Spalte pro Untersucher, jede Zeile ein Fall.
Wichtig: SPSS gibt kein Konfidenzintervall aus. Das 95%-KI berechnet sich manuell: κ ± 1,96 × SE(κ).
# Paket installieren und laden install.packages("irr") library(irr) # Daten eingeben: zwei Spalten (Untersucher A und B), eine Zeile pro Fall daten <- data.frame( A = c(1,1,2,1,2,1,2,1,1,2), # 1 = kariesfrei, 2 = kariös B = c(1,1,2,2,2,1,1,1,1,2) ) # Ungewichtetes Kappa (für nominale Kategorien) kappa2(daten, weight = "unweighted") # Gewichtetes Kappa (für geordnete Kategorien, z. B. USPHS Alpha-Delta) kappa2(daten, weight = "linear") # Output enthält: κ, z-Wert, p-Wert # Konfidenzintervall: kappa2()-Ergebnis enthält SE → KI manuell: κ ± 1.96*SE
Für Sondierungstiefe in mm, DVT-Knochenmessungen oder kephalometrische Winkel: icc(daten, model = "twoway", type = "agreement") aus dem irr-Paket liefert den korrekten Intraclass-Korrelationskoeffizienten.
Ein vollständiger Kappa-Abschnitt im Methodenteil einer zahnmedizinischen Dissertation enthält vier Elemente.
Wer hat kalibriert, mit wie vielen Trainingsfällen, nach welchem Protokoll, wann (vor der Haupterhebung), und wie wurde Konsens bei Abweichungen hergestellt.
„κ = 0,74 (95%-KI: 0,62–0,86)" – nicht nur der Punktschätzer, sondern auch das Konfidenzintervall. Einige Journals verlangen zusätzlich den Standardfehler SE(κ).
„…entspricht einer substanziellen Übereinstimmung nach Landis & Koch (1977)" – immer mit Zitat, da es konkurrierende Interpretationssysteme gibt (z. B. McHugh 2012).
Beide Reliabilitätsformen getrennt berichten: Inter-Examiner (zwischen Untersuchern) und ggf. Intra-Examiner (Wiederholbarkeit desselben Untersuchers bei 10–15 % der Fälle).
„Zur Sicherstellung der Datenqualität wurden beide Untersucher (Doktorand und betreuender Oberarzt) vor Beginn der Haupterhebung anhand von 30 Trainingsröntgenaufnahmen kalibriert. Die Bewertung erfolgte nach dem ICDAS-II-System (Kategorien 0–6). Die Inter-Examiner-Reliabilität wurde mittels Cohen's Kappa berechnet (κ = 0,76, 95%-KI: 0,64–0,88), was einer substanziellen Übereinstimmung entspricht (Landis & Koch, 1977). Diskrepanzen wurden im Konsensusgespräch gelöst und die finalen Diagnosekriterien schriftlich fixiert. Die Intra-Examiner-Reliabilität des Hauptuntersuchers wurde anhand einer Doppelbeurteilung von 15 % der Fälle (n = 18) überprüft (κ = 0,81, nahezu perfekte Übereinstimmung)."
Ghostwriting für klinische Fallberichte & Methodenteile
Kappa-Berechnung, Methodenteil-Formulierung, statistische Auswertung – professionell, fachgerecht, termingerecht.Cohen's Kappa bei kategorialen Daten: Kariesstatus (ja/nein), Parodontitis-Stage (I–IV), USPHS-Kategorien (Alpha–Delta), Klassifikation von Röntgenbefunden. Intraclass-Korrelationskoeffizient (ICC) bei kontinuierlichen Daten: Sondierungstiefe in mm, Knochenniveaumessungen im DVT, kephalometrische Winkel in Grad, Messwerte in der Materialtestung. Die Wahl der falschen Statistik ist ein häufiger Gutachterkommentar – also im Methodenteil explizit begründen, warum Kappa (und nicht ICC) gewählt wurde.
Das ist kein Grund zur Panik – aber ein klares Signal zum Handeln, solange du noch in der Kalibrierungsphase bist. Analysiere die Kontingenztabelle: Wo genau liegen die Abweichungen? Oft liegt es an einer unscharf definierten Kategorie oder an unterschiedlichem Sondierungsdruck. Protokoll anpassen, Kalibrierungsrunde wiederholen. Wenn das Kappa erst nach der Haupterhebung berechnet wird und unter 0,60 liegt, muss das im Methodenteil als Limitation transparent benannt werden – nicht verschweigen.
Als Faustregel gelten mindestens 30–50 Fälle für eine stabile Kappa-Schätzung. Bei seltenen Kategorien (Prävalenz < 10 %) werden mehr Fälle benötigt, damit alle Zellen der Kontingenztabelle besetzt sind. Ein Kappa aus 10 Fällen ist methodisch wertlos – das Konfidenzintervall ist so breit, dass keine sinnvolle Aussage möglich ist. Für die Kalibrierungsphase (Trainingsset) sind 20–30 Fälle in der Regel ausreichend; für die Hauptstudie gilt: mind. 30 Fälle pro Untersucher.
Bei nur einem Untersucher entfällt die Inter-Examiner-Reliabilität. Dann ist jedoch die Intra-Examiner-Reliabilität obligatorisch: 10–15 % der Fälle werden nach einem zeitlichen Abstand (mind. 2 Wochen, ohne Einsicht in die erste Beurteilung) erneut beurteilt, Kappa oder ICC wird berechnet. Das zeigt, dass der Untersucher konsistent misst – auch wenn er allein arbeitet. Journals verlangen diesen Nachweis auch bei Ein-Untersucher-Studien.
Ja – genau hier setzen wir an. Unser Statistik-Team berechnet Cohen's Kappa, Weighted Kappa und ICC für Ihre Studie, erstellt die Kontingenztabellen und formuliert den Methodenteil-Abschnitt zur Reliabilitätsanalyse auf dem Niveau peer-reviewter Journalartikel. Mehr dazu: Statistische Absicherung klinischer Befunde und Ghostwriting für klinische Fallberichte.
Cohen's Kappa berechnen, Methodenteil formulieren, Kalibrierungsprotokoll entwickeln – unser Team aus Statistikern und Ghostwritern mit zahnmedizinischem Hintergrund übernimmt jeden Schritt.
Statistische Absicherung klinischer Befunde Ghostwriting für klinische Fallberichte Jetzt kostenlos anfragen