Inter-Examiner-Reliabilität in der Zahnmedizin:
Warum Cohen's Kappa über die Annahme deiner Dissertation entscheidet

Zwei Untersucher messen die Sondierungstiefe – und kommen zu unterschiedlichen Ergebnissen. Ohne statistischen Nachweis, dass diese Abweichung nicht zufällig ist, sind deine Daten wissenschaftlich wertlos. Cohen's Kappa ist der Beweis, den Gutachter verlangen.

Cohen's Kappa – Formel & Berechnung
Interpretation: Was ist ein guter Kappa-Wert?
Kalibrierungstraining vor der Studie
Umsetzung in SPSS & R
Anwendungsbeispiele Zahnmedizin

1. Das Problem der subjektiven Wahrnehmung in der Klinik

Stell dir folgendes Szenario vor: Du erforschst in deiner Dissertation die Wirksamkeit einer neuen Parodontitistherapie. Dein Studiendesign sieht vor, dass du und dein Betreuer – ein erfahrener Oberarzt – die Sondierungstiefen von 80 Patienten erheben. Zwei Monate nach der Therapie wird wieder gemessen. Das Ergebnis soll zeigen, ob sich die Sondierungstiefen verbessert haben.

Das Problem: Ihr sondiert nicht gleich. Du sonst mit einem Winkel von 15°, er mit 20°. Du drückst mit 25 cN an, er mit 35 cN. Deine Ablesung liegt bei 4 mm, seine bei 3 mm – am selben Zahn, am selben Tag.

🚨 Was das für deine Studie bedeutet

Wenn die Ausgangsmessungen von Untersucher A stammen und die Verlaufsmessungen von Untersucher B, messen deine Daten nicht den Therapieeffekt – sie messen den Unterschied zwischen zwei Untersuchern. Jeder Gutachter, der das erkennt, wird die Arbeit zurückweisen. Und peer-reviewte Journals verlangen heute standardmäßig den Nachweis der Inter-Examiner-Reliabilität vor der ersten Datenerhebung.

Warum prozentuale Übereinstimmung nicht reicht

Das Naheliegende wäre: Zählen, wie oft beide Untersucher zum gleichen Ergebnis kommen, und das als Prozentzahl angeben. „Übereinstimmung in 85 % der Fälle" klingt gut. Aber dieser Wert ist irreführend – er berücksichtigt nicht, wie oft Übereinstimmung rein durch Zufall entstanden wäre.

Prozentuale Übereinstimmung

Stellen dir vor, beide Untersucher klassifizieren Zähne als „kariesfrei" oder „kariös". Bei einer Kariesprävalenz von 20 % würden sie allein durch Zufall in 68 % der Fälle übereinstimmen – einfach weil beide meistens „kariesfrei" sagen. Eine gemessene Übereinstimmung von 72 % wäre also kaum besser als Zufall.

Cohen's Kappa

Kappa zieht die zufällig erwartete Übereinstimmung (Pe) von der beobachteten Übereinstimmung (Po) ab und setzt das ins Verhältnis zum maximal möglichen Kappa. Das Ergebnis ist eine zufallsbereinigte Übereinstimmungsstatistik – und damit die einzige wissenschaftlich akzeptierte Methode.

„A kappa statistic should be routinely reported in studies involving observer agreement for categorical variables."

— Altman, D.G. (1991). Practical Statistics for Medical Research. Chapman & Hall, London.

2. Was ist Cohen's Kappa? Einfach erklärt

Cohen's Kappa (κ) wurde 1960 von Jacob Cohen eingeführt als Maß für die Übereinstimmung zwischen zwei Beurteilern bei nominalen oder ordinalen Daten – also überall dort, wo Kategorien vergeben werden, nicht kontinuierliche Messwerte.

Wann wird Kappa verwendet – und wann nicht?

  • Kappa verwenden bei: kategorischen Daten (z. B. Kariesstatus ja/nein, Parodontitis-Stage I–IV, Klassifikation von Restaurationen nach USPHS-Kriterien, Füllungsrandspalt vorhanden/nicht vorhanden)
  • Intraclass-Korrelationskoeffizient (ICC) verwenden bei: kontinuierlichen Messwerten (z. B. Sondierungstiefe in mm, Knochenniveau in mm, DVT-Messwerte) – dort liefert ICC die korrekte Reliabilitätsstatistik
  • Weighted Kappa verwenden bei: geordneten Kategorien (z. B. Parodontitis Grade A/B/C), wenn nicht jede Abweichung gleich schwer gewichtet werden soll

Kappa bewegt sich auf einer Skala von –1 bis +1. Negative Werte zeigen systematische Gegenläufigkeit (schlechter als Zufall), 0 bedeutet reine Zufallsübereinstimmung, +1 bedeutet vollkommene Übereinstimmung.

3. Die Formel und die Berechnung – Schritt für Schritt

Cohen's Kappa – Formel

κ  =  Po − Pe 1 − Pe
Po = beobachtete Übereinstimmung (Proportion der Fälle, in denen beide Untersucher gleich klassifizieren) Pe = erwartete Zufallsübereinstimmung (berechnet aus den Randhäufigkeiten der Kontingenztabelle) 1 − Pe = maximal mögliche Verbesserung über den Zufall hinaus

Rechenbeispiel: Kariesdiagnostik auf Röntgenbildern

Zwei Untersucher beurteilen 50 Approximalräume als „kariesfrei" oder „kariös". Die Ergebnisse werden in einer 2×2-Kontingenztabelle dargestellt:

Untersucher B: kariesfrei Untersucher B: kariös Summe
Untersucher A: kariesfrei 32 4 36
Untersucher A: kariös 3 11 14
Summe 35 15 50

Schrittweise Berechnung

  1. Po (beobachtete Übereinstimmung) = (32 + 11) / 50 = 0,86
  2. Pe (erwartete Zufallsübereinstimmung):
    • P(kariesfrei) = (36/50) × (35/50) = 0,72 × 0,70 = 0,504
    • P(kariös) = (14/50) × (15/50) = 0,28 × 0,30 = 0,084
    • Pe = 0,504 + 0,084 = 0,588
  3. κ = (0,86 − 0,588) / (1 − 0,588) = 0,272 / 0,412 = κ = 0,66

Ergebnis: κ = 0,66 → substanzielle Übereinstimmung nach Landis & Koch (1977). Für die meisten zahnmedizinischen Dissertationen akzeptabel, für Journalpublikationen sollte κ ≥ 0,70 angestrebt werden.

4. Interpretation der Kappa-Werte: Was ist „gut genug"?

Die am weitesten verbreitete Interpretationstabelle stammt von Landis & Koch (1977). Sie ist de-facto-Standard in der medizinischen und zahnmedizinischen Literatur.

📊 Kappa-Skala visuell

Gering
< 0,20
Ausreichend
0,21–0,40
Moderat
0,41–0,60
Substanziell
0,61–0,80
Nahezu perfekt
0,81–1,00
Kappa-Wert (κ)ÜbereinstimmungBewertung in der DissertationEmpfehlung
< 0,20 Gering (slight) ✗ Nicht akzeptabel – Studie nicht durchführbar Kalibrierungstraining wiederholen, Messprotokoll überarbeiten
0,21 – 0,40 Ausreichend (fair) ✗ Kaum akzeptabel – nur mit starker Einschränkung Diagnosekriterien schärfen, zweite Kalibrierungsrunde
0,41 – 0,60 Moderat (moderate) ◑ Bedingt akzeptabel – abhängig vom Fach Im Methodenteil als Limitation transparent benennen
0,61 – 0,80 Substanziell (substantial) ✓ Akzeptabel – Standard für klinische Studien Angabe mit Konfidenzintervall im Methodenteil
0,81 – 1,00 Nahezu perfekt (almost perfect) ✓✓ Exzellent – Stärke der Arbeit Als Qualitätsmerkmal hervorheben

⚠️ Wichtiger Hinweis zur Kappa-Interpretation

Kappa ist sensitiv gegenüber der Prävalenz der Kategorien: Bei sehr seltenen oder sehr häufigen Ereignissen kann Kappa niedrig sein, obwohl die prozentuale Übereinstimmung hoch ist (Prävalenz-Paradox). In solchen Fällen sollte zusätzlich der Positive Predictive Value (PPV) oder der Gwet's AC1 berichtet werden. Für die meisten zahnmedizinischen Dissertationen ist Landis & Koch jedoch ausreichend – wichtig ist, dass du die gewählte Interpretationsreferenz explizit zitierst.

5. Anwendungsbeispiele in der zahnmedizinischen Forschung

Beispiel 1: Klassifikation von Füllungsrandspalten (USPHS-Kriterien)

Zwei Untersucher bewerten Kompositfüllungen nach den USPHS-Kriterien (United States Public Health Service) in vier Kategorien: Alpha (kein Randspalt), Bravo (leichter Spalt), Charlie (deutlicher Spalt), Delta (Fraktur). Das ist ein klassischer Anwendungsfall für Weighted Kappa – denn die Abweichung Alpha/Bravo ist klinisch weniger relevant als Alpha/Delta. Der Gewichtungsfaktor bestraft größere Abweichungen stärker.

Formulierungsbeispiel Methodenteil

„Die Beurteilung der Randqualität erfolgte durch zwei kalibrierte Untersucher anhand der USPHS-Kriterien (Alpha–Delta). Zur Bestimmung der Inter-Examiner-Reliabilität wurde Weighted Kappa mit linearer Gewichtung berechnet (κw = 0,74, 95%-KI: 0,62–0,86), was einer substanziellen Übereinstimmung entspricht (Landis & Koch, 1977). Abweichungen wurden konsensusbasiert gelöst."

Beispiel 2: Klassifikation von Parodontalzuständen nach AAP/EFP 2017

Die neue Parodontitis-Klassifikation (Stage I–IV / Grade A–C) ist komplex und interpretationsbedürftig. Studien, die mehrere Untersucher einsetzen, müssen nachweisen, dass die Stagingergebnisse nicht von der subjektiven Einschätzung des jeweiligen Untersuchers abhängen.

Besonders relevant in Kombination mit unserem Artikel zum statistischen Vergleich von Plaque-Indizes (API, SBI, PBI): Nachdem du den passenden Index gewählt hast, musst du sicherstellen, dass verschiedene Untersucher den Index identisch erheben. Cohen's Kappa ist hierfür das methodische Rückgrat.

Beispiel 3: Kephalometrische Messpunkte (FRS-Auswertung)

Besonders bei der kephalometrischen Analyse im FRS führen minimale Abweichungen bei der Landmarkenidentifikation zu systematischen Messfehlern. Obwohl die FRS-Messwerte kontinuierlich sind (mm, Grad) und damit eigentlich den ICC verlangen, wird bei der Kategorisierung von Skelettklassen (I/II/III) häufig ergänzend Kappa berichtet.

Kappa berechnen – aber nicht sicher wie?

Unsere Statistik-Experten berechnen Cohen's Kappa, ICC und Weighted Kappa für Ihre Dissertation – mit korrekter Interpretation und Konfidenzintervall.
Statistische Absicherung klinischer Befunde →

6. Kalibrierungstraining: Reliabilität steigern, bevor die Studie beginnt

Cohen's Kappa wird nicht nur am Ende berichtet – er wird durch methodisches Kalibrierungstraining vor der Studie optimiert. Ein niedriges Kappa nach der Haupterhebung ist nicht mehr reparierbar. Deshalb ist die Kalibrierungsphase kein Bonus, sondern Pflicht.

1

Diagnosekriterien schriftlich fixieren

Alle Untersuchungsmerkmale werden vor der Studie schriftlich definiert. Bei Sondierungstiefe: Sondierungsdruck (25 cN), Sondenwinkel (0° zur Zahnachse), Ablesung auf mm gerundet. Bei Kariesdiagnostik: welche ICDAS-Codes als „kariös" gelten. Kein Spielraum für Interpretation.

2

Trainingsset mit Pilotpatienten / Referenzbilder

20–30 Trainingsfälle werden von allen Untersuchern unabhängig beurteilt. Bei radiologischer Diagnostik: Referenzbilder mit konsensusbasierter Goldeinstufung durch Experten. Bei klinischen Parametern: Beurteilung am Phantomkopf oder an Pilotpatienten (nicht Teil der Hauptstudie).

3

Kappa berechnen – Diskrepanzen diskutieren

Nach dem Trainingsset wird Kappa berechnet. Liegt er unter 0,60, werden alle Abweichungen gemeinsam besprochen: Wo lagen die Unterschiede? Welche Kriterien wurden unterschiedlich ausgelegt? Diagnoseprotokoll anpassen.

4

Zweite Kalibrierungsrunde

Mit überarbeitetem Protokoll wird ein zweites Trainingsset beurteilt. Kappa erneut berechnen. Ziel: κ ≥ 0,70 vor Beginn der Haupterhebung. Erst dann wird mit der Datenerhebung begonnen.

5

Intra-Examiner-Reliabilität nicht vergessen

Neben der Inter-Examiner-Reliabilität (zwischen Untersuchern) sollte bei längeren Studien auch die Intra-Examiner-Reliabilität (Wiederholbarkeit desselben Untersuchers) geprüft werden. Dafür werden 10–15 % der Fälle doppelt beurteilt, ohne Kenntnis der ersten Beurteilung. Auch hier: Kappa oder ICC berichten.

7. Cohen's Kappa berechnen: SPSS und R

In SPSS

SPSS berechnet Kappa über die Kreuztabellen-Funktion. Die Daten müssen in zwei Spalten vorliegen: eine Spalte pro Untersucher, jede Zeile ein Fall.

SPSS – Schrittanleitung

  1. Analysieren → Deskriptive Statistik → Kreuztabellen
  2. Untersucher A in „Zeilen", Untersucher B in „Spalten" ziehen
  3. Button „Statistiken" → Haken bei Kappa setzen
  4. Button „Zellen" → Beobachtete Häufigkeiten + Zeilenprozentzahlen aktivieren
  5. OK → Im Output erscheint κ mit Standardfehler und asymptotischer Signifikanz

Wichtig: SPSS gibt kein Konfidenzintervall aus. Das 95%-KI berechnet sich manuell: κ ± 1,96 × SE(κ).

In R

# Paket installieren und laden
install.packages("irr")
library(irr)

# Daten eingeben: zwei Spalten (Untersucher A und B), eine Zeile pro Fall
daten <- data.frame(
  A = c(1,1,2,1,2,1,2,1,1,2),  # 1 = kariesfrei, 2 = kariös
  B = c(1,1,2,2,2,1,1,1,1,2)
)

# Ungewichtetes Kappa (für nominale Kategorien)
kappa2(daten, weight = "unweighted")

# Gewichtetes Kappa (für geordnete Kategorien, z. B. USPHS Alpha-Delta)
kappa2(daten, weight = "linear")

# Output enthält: κ, z-Wert, p-Wert
# Konfidenzintervall: kappa2()-Ergebnis enthält SE → KI manuell: κ ± 1.96*SE
Tipp für ICC (kontinuierliche Messwerte)

Für Sondierungstiefe in mm, DVT-Knochenmessungen oder kephalometrische Winkel: icc(daten, model = "twoway", type = "agreement") aus dem irr-Paket liefert den korrekten Intraclass-Korrelationskoeffizienten.

8. Kappa im Methodenteil der Dissertation: Was Gutachter erwarten

Ein vollständiger Kappa-Abschnitt im Methodenteil einer zahnmedizinischen Dissertation enthält vier Elemente.

1. Beschreibung des Kalibrierungsverfahrens

Wer hat kalibriert, mit wie vielen Trainingsfällen, nach welchem Protokoll, wann (vor der Haupterhebung), und wie wurde Konsens bei Abweichungen hergestellt.

2. Angabe des Kappa-Werts mit KI

„κ = 0,74 (95%-KI: 0,62–0,86)" – nicht nur der Punktschätzer, sondern auch das Konfidenzintervall. Einige Journals verlangen zusätzlich den Standardfehler SE(κ).

3. Interpretationsreferenz zitieren

„…entspricht einer substanziellen Übereinstimmung nach Landis & Koch (1977)" – immer mit Zitat, da es konkurrierende Interpretationssysteme gibt (z. B. McHugh 2012).

4. Unterscheidung Intra- vs. Inter-Examiner

Beide Reliabilitätsformen getrennt berichten: Inter-Examiner (zwischen Untersuchern) und ggf. Intra-Examiner (Wiederholbarkeit desselben Untersuchers bei 10–15 % der Fälle).

Musterfomulierung – Methodenteil Dissertation

„Zur Sicherstellung der Datenqualität wurden beide Untersucher (Doktorand und betreuender Oberarzt) vor Beginn der Haupterhebung anhand von 30 Trainingsröntgenaufnahmen kalibriert. Die Bewertung erfolgte nach dem ICDAS-II-System (Kategorien 0–6). Die Inter-Examiner-Reliabilität wurde mittels Cohen's Kappa berechnet (κ = 0,76, 95%-KI: 0,64–0,88), was einer substanziellen Übereinstimmung entspricht (Landis & Koch, 1977). Diskrepanzen wurden im Konsensusgespräch gelöst und die finalen Diagnosekriterien schriftlich fixiert. Die Intra-Examiner-Reliabilität des Hauptuntersuchers wurde anhand einer Doppelbeurteilung von 15 % der Fälle (n = 18) überprüft (κ = 0,81, nahezu perfekte Übereinstimmung)."

Ghostwriting für klinische Fallberichte & Methodenteile

Kappa-Berechnung, Methodenteil-Formulierung, statistische Auswertung – professionell, fachgerecht, termingerecht.
Ghostwriting für klinische Fallberichte →

Häufige Fragen zu Cohen's Kappa in der zahnmedizinischen Dissertation

Wann verwende ich Kappa, wann den ICC?

Cohen's Kappa bei kategorialen Daten: Kariesstatus (ja/nein), Parodontitis-Stage (I–IV), USPHS-Kategorien (Alpha–Delta), Klassifikation von Röntgenbefunden. Intraclass-Korrelationskoeffizient (ICC) bei kontinuierlichen Daten: Sondierungstiefe in mm, Knochenniveaumessungen im DVT, kephalometrische Winkel in Grad, Messwerte in der Materialtestung. Die Wahl der falschen Statistik ist ein häufiger Gutachterkommentar – also im Methodenteil explizit begründen, warum Kappa (und nicht ICC) gewählt wurde.

Was ist, wenn mein Kappa unter 0,60 liegt?

Das ist kein Grund zur Panik – aber ein klares Signal zum Handeln, solange du noch in der Kalibrierungsphase bist. Analysiere die Kontingenztabelle: Wo genau liegen die Abweichungen? Oft liegt es an einer unscharf definierten Kategorie oder an unterschiedlichem Sondierungsdruck. Protokoll anpassen, Kalibrierungsrunde wiederholen. Wenn das Kappa erst nach der Haupterhebung berechnet wird und unter 0,60 liegt, muss das im Methodenteil als Limitation transparent benannt werden – nicht verschweigen.

Wie viele Fälle brauche ich für die Kappa-Berechnung?

Als Faustregel gelten mindestens 30–50 Fälle für eine stabile Kappa-Schätzung. Bei seltenen Kategorien (Prävalenz < 10 %) werden mehr Fälle benötigt, damit alle Zellen der Kontingenztabelle besetzt sind. Ein Kappa aus 10 Fällen ist methodisch wertlos – das Konfidenzintervall ist so breit, dass keine sinnvolle Aussage möglich ist. Für die Kalibrierungsphase (Trainingsset) sind 20–30 Fälle in der Regel ausreichend; für die Hauptstudie gilt: mind. 30 Fälle pro Untersucher.

Muss ich Kappa auch bei nur einem Untersucher berechnen?

Bei nur einem Untersucher entfällt die Inter-Examiner-Reliabilität. Dann ist jedoch die Intra-Examiner-Reliabilität obligatorisch: 10–15 % der Fälle werden nach einem zeitlichen Abstand (mind. 2 Wochen, ohne Einsicht in die erste Beurteilung) erneut beurteilt, Kappa oder ICC wird berechnet. Das zeigt, dass der Untersucher konsistent misst – auch wenn er allein arbeitet. Journals verlangen diesen Nachweis auch bei Ein-Untersucher-Studien.

Kann ich bei der Kappa-Berechnung und dem Methodenteil Hilfe bekommen?

Ja – genau hier setzen wir an. Unser Statistik-Team berechnet Cohen's Kappa, Weighted Kappa und ICC für Ihre Studie, erstellt die Kontingenztabellen und formuliert den Methodenteil-Abschnitt zur Reliabilitätsanalyse auf dem Niveau peer-reviewter Journalartikel. Mehr dazu: Statistische Absicherung klinischer Befunde und Ghostwriting für klinische Fallberichte.

Reliabilitätsanalyse für Ihre Dissertation

Cohen's Kappa berechnen, Methodenteil formulieren, Kalibrierungsprotokoll entwickeln – unser Team aus Statistikern und Ghostwritern mit zahnmedizinischem Hintergrund übernimmt jeden Schritt.

Statistische Absicherung klinischer Befunde Ghostwriting für klinische Fallberichte Jetzt kostenlos anfragen
crossmenu