Der statistische Vergleich von
Plaque-Indizes (API, SBI, PBI) in klinischen Studien

Welcher Plaque-Index ist für welche parodontologische Fragestellung geeignet? Und wie wertet man ordinalskalierte Daten statistisch korrekt aus? Dieser Ratgeber erklärt die Indexwahl, die Skalenproblematik und die passenden statistischen Tests – mit konkreten Beispielen für Dissertationen und klinische Studien in der Parodontologie.

API, SBI & PBI im Vergleich
Ordinalskala richtig verstehen
Mann-Whitney, Kruskal-Wallis, Wilcoxon
SPSS- & R-Syntax
Typische Gutachter-Fehler vermeiden

1. Plaque-Indizes: Grundlagen & Definitionen

Plaque- und Entzündungsindizes sind das zentrale Messinstrument in klinischen Parodontologie-Studien. Sie quantifizieren den Mundhygienestatus und die gingivale Entzündung und ermöglichen Verlaufsbeurteilungen – etwa vor und nach einer Parodontitistherapie, einer professionellen Zahnreinigung oder einem Mundhygiene-Training.

🦷

API

Approximalraum-Plaque-Index (Lange et al., 1977). Misst Plaque im Interdentalraum. Dichotom: Plaque vorhanden (+) oder nicht (−). Ergebnis: Prozentwert (Anteil positiver Flächen). Bewertung: < 25 % = optimal, 25–39 % = gut, 40–69 % = mäßig, 70–100 % = unzureichend.

🩸

SBI

Sulkus-Blutungs-Index (Mühlemann & Son, 1971). Erfasst Blutung auf Sondierung am Gingivasulkus. Dichotom: Blutung (+) oder nicht (−). Ergebnis: Prozentwert. Misst gingivale Entzündung als Frühindikator. Einfach, schnell, hohe Reproduzierbarkeit.

📊

PBI

Papillen-Blutungs-Index (Saxer & Mühlemann, 1975). Bewertet die Blutungsintensität der Interdentalpapille nach Sondierung. Ordinalskala 0–4: 0 = keine Blutung, 1 = einzelner Blutpunkt, 2 = mehrere Blutpunkte/Linie, 3 = Blutdreieck, 4 = profuse Blutung. Differenzierter als SBI.

Weitere relevante Indizes

IndexAutorSkalaMisst
PI (Plaque-Index)Silness & Löe, 1964Ordinal (0–3)Plaquemenge an 4 Zahnflächen
GI (Gingiva-Index)Löe & Silness, 1963Ordinal (0–3)Gingivale Entzündung an 4 Flächen
BOPAinamo & Bay, 1975Dichotom (ja/nein)Bleeding on Probing
QHI (Quigley-Hein)Quigley & Hein, 1962 (mod. Turesky)Ordinal (0–5)Plaque-Ausdehnung auf der Zahnoberfläche
PCR (Plaque Control Record)O'Leary et al., 1972Dichotom (ja/nein)Plaque an 4 Zahnflächen, Prozentwert

2. API vs. SBI vs. PBI: Welcher Index für welche Fragestellung?

Die Wahl des Index hängt von der klinischen Fragestellung, dem Studiendesign und der gewünschten Sensitivität ab. Eine falsche Indexwahl kann dazu führen, dass klinisch relevante Unterschiede statistisch nicht nachweisbar sind.

KriteriumAPISBIPBI
Was wird gemessen?Plaque (Interdentalraum)Gingivale Blutung (Sulkus)Blutungsintensität (Papille)
SkalenniveauDichotom → ProzentwertDichotom → ProzentwertOrdinal (0–4)
SensitivitätGering (nur ja/nein)Gering (nur ja/nein)Hoch (5 Stufen)
Zeitaufwand pro PatientNiedrig (ca. 2 min)Niedrig (ca. 3 min)Mittel (ca. 5 min)
Inter-Rater-ReliabilitätHoch (dichotom)Hoch (dichotom)Mittel (Grad 2 vs. 3 abgrenzungsschwierig)
Geeignet fürScreening, Motivationsgespräch, große KohortenEntzündungs-Screening, Recall-MonitoringTherapiestudien, Verlaufsbeurteilung, kleine Unterschiede detektieren
Typische StudienEpidemiologie, Mundhygiene-InterventionenPZR-Studien, Recall-ComplianceParodontitistherapie-RCTs, Medikamentenstudien

💡 Entscheidungsregel für die Indexwahl

Wenn Sie kleine Veränderungen in der gingivalen Entzündung nachweisen wollen (z. B. Effekt einer adjuvanten Therapie), verwenden Sie den PBI – die ordinale 5-Stufen-Skala ist sensitiver als dichotome Indizes. Für Plaque-Screening bei großen Kohorten ist der API effizient und reliabel. Für BOP als Entzündungsmarker mit schneller Erhebung ist der SBI das Mittel der Wahl. In vielen Dissertationen werden mehrere Indizes parallel erhoben – das stärkt die Aussagekraft.

Parodontologie-Dissertation mit klinischen Daten?

Unsere Ghostwriter kennen die Indexwahl und die statistischen Fallstricke
Doktorarbeit Zahnmedizin →

3. Das Skalenniveau-Problem: Warum es alles entscheidet

Der häufigste statistische Fehler in parodontologischen Studien: Ordinal- oder dichotome Daten werden behandelt wie metrische Daten. Das hat massive Konsequenzen für die Validität der Ergebnisse.

🔴 Was man NICHT darf

  • Mittelwert von PBI-Werten berechnen: PBI Grad 2 ist nicht „doppelt so viel Blutung" wie Grad 1. Die Abstände zwischen den Stufen sind nicht gleich.
  • t-Test auf PBI-Daten: Setzt Intervallskalierung und Normalverteilung voraus – bei ordinalskalierten Scores nicht gegeben.
  • ANOVA für API-Prozentwerte ohne Normalverteilungsprüfung.

🟢 Was man STATTDESSEN tut

  • Median und Interquartilsbereich (IQR) als Lagemaße für ordinale Daten.
  • Nichtparametrische Tests: Mann-Whitney-U, Kruskal-Wallis, Wilcoxon – setzen kein Intervallskalenniveau voraus.
  • Prozentwerte (API, SBI): Können als quasi-metrisch behandelt werden – Normalverteilung trotzdem prüfen (Shapiro-Wilk).

Das Skalenniveau der drei Indizes

IndexEinzelwertAggregiertSkalenniveauKonsequenz
APIDichotom (+/−)ProzentwertQuasi-metrischParametrische Tests möglich bei NV; sonst nichtparametrisch
SBIDichotom (+/−)ProzentwertQuasi-metrischWie API: NV prüfen
PBIOrdinal (0–4)Summe oder MedianOrdinalZwingend nichtparametrisch. Mittelwertbildung nur zur Beschreibung.

⚠️ Der „Mittelwert-Trick" – und warum er kritisiert wird

In vielen publizierten Studien werden PBI-Mittelwerte mit t-Tests verglichen. Das funktioniert „praktisch" bei großen Stichproben (zentraler Grenzwertsatz). Methodisch korrekt ist es nicht – Gutachter in Dissertationsverfahren erkennen das. Wenn Sie Mittelwerte für ordinale Daten verwenden, begründen Sie das explizit und berichten zusätzlich nichtparametrische Tests als Sensitivitätsanalyse. Besser: Von Anfang an nichtparametrisch arbeiten.

4. Deskriptive Statistik: Richtig beschreiben

Bevor Sie Gruppenunterschiede testen, müssen Sie Ihre Daten korrekt beschreiben. Die Wahl der Lagemaße hängt direkt vom Skalenniveau ab.

IndexLagemaßStreuungsmaßGrafische Darstellung
API (%)Median (oder MW bei NV)IQR (oder SD bei NV)Boxplot, Histogramm
SBI (%)Median (oder MW bei NV)IQR (oder SD bei NV)Boxplot, Histogramm
PBI (0–4)MedianIQRBoxplot, gestapeltes Balkendiagramm
PBI (Summe)MedianIQR oder RangeBoxplot
Beispiel Ergebnisdarstellung (Parodontologie-Dissertation)

„Der mediane PBI lag in der Testgruppe bei Baseline bei 2,0 (IQR: 1,0–3,0) und sank nach 6 Wochen auf 1,0 (IQR: 0,0–2,0). In der Kontrollgruppe betrug der mediane PBI zu Baseline 2,0 (IQR: 1,5–3,0) und nach 6 Wochen 1,5 (IQR: 1,0–2,5). Der API sank in der Testgruppe von 58,3 % ± 12,1 % auf 28,7 % ± 9,8 % (Mittelwert ± SD; Normalverteilung bestätigt durch Shapiro-Wilk-Test, p = 0,21)."

Grafische Darstellung: Dos & Don'ts

✅ Empfohlene Diagrammtypen

  • Boxplots: Zeigen Median, IQR und Ausreißer – ideal für ordinale und quasi-metrische Daten
  • Gestapelte Balkendiagramme: Zeigen die Häufigkeitsverteilung der PBI-Grade pro Gruppe – informationsreich
  • Violin-Plots: Kombination aus Boxplot und Dichteverteilung – besonders bei großen Stichproben

❌ Vermeiden bei ordinalen Daten

  • Balkendiagramme mit Fehlerbalken (MW ± SD): Suggerieren metrische Daten und normalverteilte Fehler
  • Liniendiagramme mit Mittelwerten: Implizieren eine stetige Variable – PBI ist diskret
  • Kreisdiagramme: Kaum informativ für Vergleichsstudien

5. Die richtigen statistischen Tests

Die Testwahl folgt einer klaren Logik: Skalenniveau × Gruppenanzahl × Verbundenheit der Stichproben. Für ordinale Plaque-Indizes kommen ausschließlich nichtparametrische Verfahren in Frage – für quasi-metrische Prozentwerte (API, SBI) auch parametrische, wenn die Voraussetzungen erfüllt sind.

Entscheidungsmatrix

FragestellungGruppenStichprobePBI (ordinal)API/SBI (quasi-metrisch)
Unterschied zwischen 2 Gruppen2UnverbundenMann-Whitney-U-Testt-Test (wenn NV) oder Mann-Whitney-U
Unterschied zwischen 3+ Gruppen3+UnverbundenKruskal-Wallis-Test + Dunn's Post-hocANOVA (wenn NV) oder Kruskal-Wallis
Vorher-Nachher (1 Gruppe)2 ZeitpunkteVerbundenWilcoxon-Vorzeichen-Rang-TestGepaarter t-Test (wenn NV) oder Wilcoxon
Verlauf über 3+ Zeitpunkte3+ ZeitpunkteVerbundenFriedman-Test + Wilcoxon Post-hocRM-ANOVA (wenn NV) oder Friedman
Korrelation zweier IndizesSpearman-RangkorrelationPearson (wenn NV) oder Spearman

💡 Normalverteilung prüfen (NV)

Vor jedem parametrischen Test Shapiro-Wilk-Test (n < 50) oder Kolmogorov-Smirnov (n ≥ 50) durchführen. Zusätzlich visuell mit Q-Q-Plot und Histogramm. Bei API/SBI-Prozentwerten mit n ≥ 30 und symmetrischer Verteilung sind parametrische Tests oft vertretbar. Bei PBI: Immer nichtparametrisch, unabhängig von der Stichprobengröße.

Effektstärke nicht vergessen

Ein p-Wert allein sagt nichts über die klinische Relevanz. Für nichtparametrische Tests:

📐 Effektstärke r (Mann-Whitney/Wilcoxon)

Berechnung: r = Z / √N. Interpretation: r = 0,1 (klein), r = 0,3 (mittel), r = 0,5 (groß). Angabe: „U = 245, Z = −3,12, p = 0,002, r = 0,42 (mittlerer Effekt)."

📐 Effektstärke η² (Kruskal-Wallis)

Berechnung: η² = H / (N − 1). Interpretation: η² = 0,01 (klein), 0,06 (mittel), 0,14 (groß). Bei signifikantem Ergebnis: Post-hoc mit Bonferroni-Korrektur.

6. Längsschnittdaten auswerten: Vorher-Nachher & Verlauf

Die meisten Parodontologie-Studien sind Längsschnittstudien: Baseline → Behandlung → Follow-up. Die Auswertung verbundener Stichproben erfordert andere Tests als der Gruppenvergleich.

Zwei Zeitpunkte (Vorher-Nachher)

Standardvorgehen

  • PBI: Wilcoxon-Vorzeichen-Rang-Test (verbundene Stichproben, ordinal)
  • API/SBI: Gepaarter t-Test (wenn NV) oder Wilcoxon
  • Zusätzlich: Differenzen berechnen (Δ = Baseline − Follow-up) und deren Verteilung beschreiben

Drei oder mehr Zeitpunkte

Standardvorgehen

  • PBI: Friedman-Test (nichtparametrische RM-ANOVA). Bei Signifikanz: paarweise Post-hoc mit Wilcoxon + Bonferroni-Korrektur
  • API/SBI: Repeated-Measures-ANOVA (wenn NV und Sphärizität) oder Friedman
  • Alternative: Generalisierte Schätzgleichungen (GEE) – erlauben ordinale Längsschnittmodellierung mit Kovariablen (Alter, Raucherstatus)

⚠️ Multiples Testen: Bonferroni-Korrektur

Bei Post-hoc-Vergleichen zwischen mehreren Zeitpunkten (z. B. Baseline vs. 3 Monate, Baseline vs. 6 Monate, 3 vs. 6 Monate) müssen Sie das multiple Testproblem berücksichtigen. Lösung: Bonferroni-Korrektur (α/k, wobei k = Anzahl Vergleiche). Bei 3 Vergleichen: α = 0,05/3 = 0,017.

Spezialfall: Zwei Gruppen × mehrere Zeitpunkte

Typisches Design: Testgruppe vs. Kontrollgruppe, gemessen zu Baseline, 3 und 6 Monaten. Für PBI gibt es keine einfache nichtparametrische „Zweifach-ANOVA".

Option A: Getrennte Tests

Pro Zeitpunkt: Mann-Whitney-U zwischen den Gruppen. Pro Gruppe: Friedman über die Zeitpunkte. Nachteil: Interaktionseffekt (Gruppe × Zeit) wird nicht direkt getestet.

Option B: GEE

Generalized Estimating Equations modellieren ordinale Daten im Längsschnitt mit Gruppe, Zeit und Interaktion als Faktoren. Empfehlung: Statistik-Beratung einholen.

Komplexe Längsschnittauswertung in der Paro-Dissertation?

Unsere Statistik-Experten unterstützen bei GEE, Friedman und gemischten Modellen
Statistik-Beratung →

7. SPSS & R: Syntax-Beispiele

Konkrete Syntax-Beispiele für die häufigsten Tests in Parodontologie-Studien – direkt zum Übernehmen in die Dissertation.

Mann-Whitney-U-Test (zwei Gruppen, PBI)

SPSS · Mann-Whitney-U
* Mann-Whitney-U-Test: PBI-Vergleich Test- vs. Kontrollgruppe
NPAR TESTS
  /MANN-WHITNEY= PBI_Baseline BY Gruppe(1 2)
  /STATISTICS=DESCRIPTIVES
  /MISSING ANALYSIS.
R · Mann-Whitney-U
# Mann-Whitney-U-Test (= Wilcoxon rank sum test in R)
wilcox.test(PBI_Baseline ~ Gruppe, data = df,
            exact = FALSE, correct = TRUE)

# Effektstärke r berechnen
result <- wilcox.test(PBI_Baseline ~ Gruppe, data = df)
z <- qnorm(result$p.value / 2)
r <- abs(z) / sqrt(nrow(df))
cat("Effektstärke r =", round(r, 3))

Wilcoxon-Test (Vorher-Nachher, PBI)

SPSS · Wilcoxon-Vorzeichen-Rang-Test
* Wilcoxon-Test: PBI Baseline vs. 6 Wochen (verbunden)
NPAR TESTS
  /WILCOXON= PBI_Baseline WITH PBI_6Wochen (PAIRED)
  /STATISTICS=DESCRIPTIVES
  /MISSING ANALYSIS.
R · Wilcoxon signed-rank test
# Wilcoxon signed-rank test (verbundene Stichproben)
wilcox.test(df$PBI_Baseline, df$PBI_6Wochen,
            paired = TRUE, exact = FALSE)

Friedman-Test (3+ Zeitpunkte, PBI)

R · Friedman-Test + Post-hoc
# Friedman-Test für 3 Zeitpunkte
friedman.test(cbind(PBI_BL, PBI_3M, PBI_6M) ~ 1, data = df)

# Post-hoc: paarweise Wilcoxon mit Bonferroni
pairwise.wilcox.test(
  c(df$PBI_BL, df$PBI_3M, df$PBI_6M),
  rep(c("BL", "3M", "6M"), each = nrow(df)),
  p.adjust.method = "bonferroni", paired = TRUE)

Shapiro-Wilk & Spearman-Korrelation

R · Normalverteilung & Korrelation
# Shapiro-Wilk für API-Prozentwerte
shapiro.test(df$API_Baseline)

# Q-Q-Plot
qqnorm(df$API_Baseline); qqline(df$API_Baseline, col = "red")

# Spearman-Korrelation: PBI vs. API
cor.test(df$PBI, df$API, method = "spearman")
Formulierung im Methodenteil

„Ordinalskalierte Daten (PBI) wurden als Median und Interquartilsbereich dargestellt. Gruppenvergleiche erfolgten mittels Mann-Whitney-U-Test (unverbundene Stichproben) bzw. Wilcoxon-Vorzeichen-Rang-Test (verbundene Stichproben). Quasi-metrische Daten (API, SBI) wurden nach Prüfung auf Normalverteilung (Shapiro-Wilk-Test) mit dem gepaarten t-Test bzw. dem t-Test für unverbundene Stichproben ausgewertet. Korrelationen zwischen Indizes wurden mittels Spearman-Rangkorrelation berechnet. Das Signifikanzniveau wurde auf α = 0,05 festgelegt. Alle Analysen erfolgten mit SPSS (Version 29, IBM Corp.) [oder R (Version 4.3.2, R Foundation)]."

8. Typische statistische Fehler in Parodontologie-Studien

#FehlerWarum problematisch?Korrekte Lösung
1t-Test auf PBI-DatenPBI ist ordinalskaliert – t-Test setzt Intervallskala und NV vorausMann-Whitney-U (unverbunden) oder Wilcoxon (verbunden)
2Mittelwert ± SD für PBI angegebenMittelwert impliziert gleiche Abstände zwischen StufenMedian (IQR) als primäres Lagemaß
3Keine Normalverteilungsprüfung vor t-TestBei nicht-normalverteilten API/SBI-Daten sind parametrische Tests ungültigShapiro-Wilk vor jedem parametrischen Test berichten
4Multiples Testen ohne Korrektur3 Zeitpunkte × 2 Gruppen → α-Fehler-InflationBonferroni-Korrektur oder Dunn's Post-hoc
5Keine Effektstärke berichtetp-Wert sagt nichts über klinische Relevanzr = Z/√N (U-Test) oder η² (Kruskal-Wallis)
6Pearson statt Spearman-KorrelationPearson setzt Intervallskala und lineare Beziehung vorausSpearman-Rangkorrelation für ordinale Indizes
7Inter-Rater-Reliabilität nicht berichtetBesonders PBI (5 Stufen) ist untersucherabhängigCohen's κ (gewichtet) berechnen, Kalibrierung dokumentieren
8Keine Power-Analyse a prioriStudie möglicherweise underpoweredG*Power mit Effektgröße aus Literatur, α = 0,05, Power = 0,80
9Balkendiagramm mit MW ± SD für PBISuggeriert metrische Daten – irreführendBoxplot oder gestapeltes Balkendiagramm (Häufigkeitsverteilung)
10Chi²-Test für PBI-GruppenvergleichChi² vergleicht Häufigkeiten, nicht Rangordnungen – ignoriert die ordinale StrukturMann-Whitney-U nutzt die Rangordnung der Daten aus

Häufig gestellte Fragen

Darf ich den Mittelwert von PBI-Werten berechnen?

Streng genommen nein – der PBI ist ordinal und der Mittelwert setzt gleiche Abstände zwischen den Stufen voraus. In der Praxis wird der Mittelwert in vielen Publikationen verwendet, was methodisch umstritten, aber weit verbreitet ist. Für Ihre Dissertation empfehlen wir: Median (IQR) als primäres Lagemaß verwenden. Wenn Sie den Mittelwert ergänzend angeben wollen, begründen Sie das im Methodenteil und führen Sie die Inferenzstatistik immer nichtparametrisch durch.

Welche Stichprobengröße brauche ich für PBI-Vergleiche?

Die benötigte Stichprobengröße hängt von der erwarteten Effektgröße ab. Für den Mann-Whitney-U-Test können Sie G*Power verwenden (Test: „Wilcoxon-Mann-Whitney test, two groups"). Als Faustregel: Bei einem erwarteten mittleren Effekt (d = 0,5) benötigen Sie ca. n = 30 pro Gruppe für eine Power von 0,80 bei α = 0,05. Für kleine Effekte (d = 0,3): n = 80–90 pro Gruppe. Kalkulieren Sie die Power-Analyse vor Studienbeginn und dokumentieren Sie die Parameter im Methodenteil.

Kann ich API und PBI in derselben Studie erheben?

Ja – das ist sogar empfehlenswert. API misst Plaque (Ursache), PBI misst Entzündung (Wirkung). Durch die parallele Erhebung können Sie die Korrelation zwischen Plaque und Entzündung analysieren (Spearman-Rangkorrelation). Die Kombination stärkt die Aussagekraft Ihrer Dissertation und erlaubt eine differenziertere Diskussion der Ergebnisse. Beachten Sie: Jeder Index wird statistisch separat ausgewertet – die Methoden unterscheiden sich je nach Skalenniveau.

Was ist der Unterschied zwischen SBI und BOP?

Beide messen Blutung auf Sondierung und sind dichotom (ja/nein). Der Hauptunterschied liegt in der Methodik: Beim SBI nach Mühlemann wird der Sulkus vorsichtig mit einer stumpfen Sonde ausgestrichen. Beim BOP nach Ainamo & Bay wird die Parodontalsonde zur Sondierungstiefenmessung verwendet und gleichzeitig die Blutung registriert. In der modernen Parodontologie wird meist BOP verwendet, da es in die reguläre parodontale Befunderhebung integriert ist. Statistisch werden beide identisch ausgewertet (Prozentwert, quasi-metrisch).

Wie berichte ich die Inter-Rater-Reliabilität für den PBI?

Vor Studienbeginn sollte eine Kalibrierungssitzung stattfinden, bei der zwei oder mehr Untersucher denselben Satz von Patienten (mind. 10–15) unabhängig bewerten. Die Übereinstimmung wird als gewichtetes Cohen's Kappa (κ) berechnet – „gewichtet", weil PBI ordinal ist und eine Abweichung von 0 vs. 1 weniger gravierend ist als 0 vs. 4. Interpretation: κ > 0,80 = sehr gute Übereinstimmung, 0,61–0,80 = gute Übereinstimmung. Im Methodenteil: „Die Inter-Rater-Reliabilität wurde an 15 Patienten bestimmt. Das gewichtete Cohen's Kappa betrug κ = 0,83 (95 %-KI: 0,76–0,90)."

Kann ich mir bei der Statistik meiner Paro-Dissertation helfen lassen?

Ja – gerade die statistische Auswertung ordinalskalierter Daten, die Power-Analyse und die korrekte Formulierung des Methodenteils erfordern Fachkenntnis. Unser Team bei BAS – Business and Science umfasst Statistiker und Ghostwriter mit medizinischem Hintergrund, die Parodontologie-Studien methodisch und inhaltlich unterstützen. Mehr dazu: Doktorarbeit Zahnmedizin und Statistik-Beratung.

Parodontologie-Dissertation professionell unterstützt

Klinische Datenerhebung, statistische Auswertung ordinalskalierter Indizes oder den Methodenteil Ihrer Dissertation auf Gutachter-Niveau formulieren? Unser Team mit promovierten Zahnmediziner:innen und Biostatistiker:innen unterstützt Sie – fristgerecht und methodisch fundiert.

Ghostwriter Zahnmedizin Ghostwriter Jetzt anfragen
crossmenu