Von deskriptiver Statistik bis zur Cox-Regression: Dieser Guide erklärt die statistischen Methoden, die in der Dr. med. Arbeit wirklich gefragt sind – mit Fokus auf klinische Endpunkte, Überlebensanalysen und den häufigsten Stolperfallen.
Die Wahl des richtigen statistischen Tests hängt von drei Faktoren ab: Skalenniveau der Daten (nominal, ordinal, metrisch), Anzahl der Gruppen und Normalverteilung. Für Überlebensanalysen mit zensierten Daten sind Kaplan-Meier + Log-Rank-Test (bivariat) und Cox-Regression (multivariabel) der Standard. Jedes Ergebnis braucht neben dem p-Wert zwingend ein Effektmaß (Cohen's d, OR, HR) und ein 95%-Konfidenzintervall. SPSS ist das Standardprogramm an deutschen Unikliniken, R ist die bessere Wahl für hochwertige Publikationen.
Medizinische Statistik unterscheidet sich grundlegend von Sozialwissenschaft oder BWL. Klinische Daten haben eigene Strukturen: Überlebenszeiten, zensierte Beobachtungen, ordinale Outcomescores, unausgewogene Gruppen. Das bestimmt, welche Tests und Visualisierungen angemessen sind.
Zellkultur, Tiermodell, molekularbiologische Daten:
Patientendaten, Outcomes, Laborwerte:
Registerdaten, Krankenkassendaten:
Mehr zu den unterschiedlichen Dissertationstypen und wann welcher Ansatz passt, erklärt der Guide zu den medizinischen Dissertationstypen. Das gewählte Studiendesign bestimmt direkt, welche statistischen Methoden zulässig sind.
Jede Testentscheidung lässt sich auf drei Fragen reduzieren: (1) Skalenniveau? (nominal / ordinal / metrisch) – (2) Anzahl Gruppen / Messzeitpunkte? (2 unabhängig, 2 verbunden, ≥3, Überlebenszeit) – (3) Normalverteilung? (Shapiro-Wilk-Test). Wer diese drei Fragen beantwortet hat, landet automatisch beim richtigen Test – auch ohne Statistikstudium.
Bevor Sie einen Test wählen, müssen Sie das Skalenniveau Ihrer Variablen kennen. In der Medizin ist diese Frage besonders wichtig, da viele klinische Skalen (NRS, NYHA, Gleason) ordinal aussehen, aber häufig fälschlicherweise metrisch behandelt werden.
| Skalenniveau | Definition | Medizinische Beispiele | Erlaubte Statistik | Geeignete Tests |
|---|---|---|---|---|
| Nominal | Kategorien ohne Rangfolge | Geschlecht, Blutgruppe, Diagnose (ICD), Therapiegruppe | Häufigkeiten, Modus | Chi-Quadrat, Fisher, McNemar |
| Ordinal | Rangfolge, aber ungleiche Abstände | NYHA I–IV, ASA-Score, Gleason, NRS-Schmerz 0–10, TNM-Staging | Rangfolge, Median, IQR | Mann-Whitney-U, Wilcoxon, Kruskal-Wallis, Spearman |
| Metrisch (intervall) | Gleichmäßige Abstände, kein echter Nullpunkt | Körpertemperatur (°C), Datum | Mittelwert, SD | t-Test, ANOVA, Pearson (wenn normalverteilt) |
| Metrisch (verhältnis) | Gleichmäßige Abstände + echter Nullpunkt | Blutdruck (mmHg), Laborwerte (mg/dL), Gewicht (kg), Überlebenszeit | Alle arithmetischen Operationen | t-Test, ANOVA, Regression (wenn normalverteilt) |
Mittelwert und t-Test bei NYHA-Klassen oder NRS-Scores sind methodisch falsch – auch wenn es in älteren Publikationen häufig vorkommt. Gutachter erkennen das sofort. Verwenden Sie bei ordinalem Skalenniveau stets Median und IQR sowie nicht-parametrische Tests.
Der p-Wert ist das meistmissverstandene Konzept der medizinischen Statistik. Die korrekte Interpretation wird von Gutachtern explizit geprüft.
Der p-Wert gibt die Wahrscheinlichkeit an, die beobachteten Daten (oder extremere) zu erhalten, wenn die Nullhypothese wahr ist.
Moderne Journale und Gutachter erwarten immer Effektmaße. Folgende sind in der Medizin Standard:
| Effektmaß | Anwendung | Interpretation | Klein / Mittel / Groß |
|---|---|---|---|
| Cohen's d | t-Test, Mittelwertvergleiche | Standardisierter Mittelwertunterschied | 0,2 / 0,5 / 0,8 |
| Odds Ratio (OR) | Logistische Regression, Fall-Kontroll | OR = 2,0: doppeltes Chancenverhältnis | kontextabhängig |
| Hazard Ratio (HR) | Cox-Regression, Überlebensanalysen | HR = 0,6: 40 % niedrigeres Ereignisrisiko | kontextabhängig |
| NNT | Klinische Studien, RCT | Wie viele Patienten behandelt für 1 Nutzen? | kontextabhängig |
| r (Pearson/Spearman) | Korrelation zweier Variablen | –1 bis +1, 0 = kein Zusammenhang | 0,1 / 0,3 / 0,5 |
| η² (Eta-Quadrat) | ANOVA | Varianzanteil erklärt durch Gruppe | 0,01 / 0,06 / 0,14 |
Falsch: „Es bestand ein signifikanter Unterschied zwischen den Gruppen (p = 0,02)."
Richtig: „Patienten in Gruppe A zeigten eine signifikant längere Überlebenszeit als die Kontrollgruppe (medianes Überleben: 24,3 vs. 18,1 Monate; Log-Rank p = 0,02; HR = 0,68; 95 %-KI: 0,49–0,94)."
Neben p-Wert und Effektmaß gehören 95 %-Konfidenzintervalle in jede Tabelle. Ein breites KI (z. B. HR: 0,4–1,8) zeigt, dass die Studie zu wenig Power hatte.
Diese Tabelle deckt rund 90 % der Tests ab, die in Dr.-med.-Arbeiten vorkommen. Parametrische Tests setzen Normalverteilung voraus – prüfen Sie diese mit dem Shapiro-Wilk-Test (n < 50) oder Kolmogorov-Smirnov-Test (n ≥ 50).
| Fragestellung | Gruppen / Design | Normalverteilt? | Test | SPSS-Menüpfad |
|---|---|---|---|---|
| Mittelwertvergleich | 2 unabhängige Gruppen | ✅ Ja | t-Test (unverbunden) | Analysieren → Mittelwerte → t-Test unabhängige Stichproben |
| Mittelwertvergleich | 2 verbundene Gruppen (vorher/nachher) | ✅ Ja | t-Test (verbunden) | Analysieren → Mittelwerte → t-Test verbundene Stichproben |
| Mittelwertvergleich | ≥ 3 unabhängige Gruppen | ✅ Ja | Einfaktorielle ANOVA + Post-hoc (Bonferroni) | Analysieren → Mittelwerte → Einfaktorielle ANOVA |
| Rangvergleich | 2 unabhängige Gruppen | ❌ Nein / ordinal | Mann-Whitney-U-Test | Analysieren → Nicht-parametrische Tests → 2 unabhängige Stichproben |
| Rangvergleich | 2 verbundene Gruppen | ❌ Nein / ordinal | Wilcoxon-Vorzeichen-Rang-Test | Analysieren → Nicht-parametrische Tests → 2 verbundene Stichproben |
| Rangvergleich | ≥ 3 unabhängige Gruppen | ❌ Nein / ordinal | Kruskal-Wallis-Test | Analysieren → Nicht-parametrische Tests → k unabhängige Stichproben |
| Häufigkeitsvergleich | 2 Gruppen, nominal, ausreichend n | — | Chi-Quadrat-Test | Analysieren → Deskriptive Statistiken → Kreuztabellen |
| Häufigkeitsvergleich | Kleine Fallzahlen, 2×2-Tabelle | — | Fisher-Exakt-Test | Kreuztabellen → Exakt (Fisher) |
| Korrelation | 2 metrische Variablen | ✅ Ja | Pearson-Korrelation | Analysieren → Korrelationen → Bivariat → Pearson |
| Korrelation | Ordinal oder nicht-normalverteilt | ❌ Nein / ordinal | Spearman-Rangkorrelation | Analysieren → Korrelationen → Bivariat → Spearman |
| Binärer Outcome | Mehrere Prädiktoren | — | Logistische Regression | Analysieren → Regression → Binär logistisch |
| Überlebenszeit | 2 Gruppen, zensierte Daten | — | Kaplan-Meier + Log-Rank-Test | Analysieren → Überleben → Kaplan-Meier |
| Überlebenszeit | Mehrere Kovariablen | — | Cox-Proportional-Hazard-Regression | Analysieren → Überleben → Cox-Regression |
| Messwiederholungen | ≥ 3 Messzeitpunkte, metrisch | ✅ Ja | Messwiederholungs-ANOVA | Analysieren → GLM → Messwiederholungen |
| Diagnostische Genauigkeit | Test vs. Referenzstandard | — | ROC-Kurve, AUC, Sensitivität/Spezifität | Analysieren → Klassifizierung → ROC-Kurve |
Überlebensanalysen kommen immer dann zum Einsatz, wenn der Zeitpunkt eines Ereignisses die interessierende Variable ist – nicht nur ob, sondern wann. Das Ereignis muss nicht der Tod sein: Es kann Rezidiv, Entlassung, Komplikation oder Remission sein.
Nicht alle Patienten erleben das Ereignis innerhalb des Beobachtungszeitraums. Diese zensierten Beobachtungen einfach wegzulassen würde zu einem systematischen Selection Bias führen. Überlebensanalytische Methoden berücksichtigen zensierte Daten korrekt.
Sie benötigen mindestens zwei Variablen:
Welche Studiendesigns für Überlebensanalysen geeignet sind, erklärt der Ratgeber zum Studiendesign in der medizinischen Doktorarbeit – insbesondere die Kohortenstudie und das RCT.
Die Kaplan-Meier-Kurve ist die Standardvisualisierung für Überlebensanalysen in medizinischen Publikationen. Sie stellt die kumulierte Überlebenswahrscheinlichkeit über die Zeit dar.
Der Kaplan-Meier-Schätzer berechnet bei jedem Ereigniszeitpunkt neu, wie groß die Wahrscheinlichkeit ist, das nächste Ereignis zu überleben. Die Gesamtkurve ergibt sich als Produkt dieser bedingten Wahrscheinlichkeiten.
Zeitvariable (Tage/Monate), Statusvariable (0/1) und optional Faktorvariable für Gruppenvergleich eintragen. Unter „Optionen" Überlebensfunktion und Tabelle ausgeben lassen.
Der Log-Rank-Test liefert den p-Wert für den Unterschied zwischen zwei Überlebenskurven. Er testet: „Haben beide Gruppen identische Überlebensfunktionen?" → Vergleiche Faktoren → Log-Rank.
S(t) = 0,50 definiert das mediane Überleben. SPSS gibt es in der Ausgabetabelle mit 95 %-KI aus. Berichten Sie: „Medianes Überleben: 24,3 Monate (95 %-KI: 19,8–28,7)."
Internationale Journale fordern eine „Numbers at risk"-Tabelle unter der Kurve sowie vertikale Tick-Marks für zensierte Patienten. In SPSS unter Optionen → Diagramm aktivierbar.
Die Cox-Regression setzt voraus, dass sich Kaplan-Meier-Kurven zweier Gruppen nicht kreuzen (proportionale Hazards). Kreuzen sie sich, ist eine stratifizierte Analyse oder ein Landmark-Modell nötig.
„Die Kaplan-Meier-Analyse zeigte einen signifikanten Überlebensvorteil für Patienten in Gruppe A gegenüber Gruppe B (medianes Gesamtüberleben: 28,4 vs. 19,2 Monate; Log-Rank-Test: χ² = 8,43; p = 0,004). Die 5-Jahres-Überlebensrate betrug 38,2 % (95 %-KI: 29,7–46,7 %) in Gruppe A vs. 22,1 % (95 %-KI: 15,3–29,9 %) in Gruppe B."
Während Kaplan-Meier nur einen Faktor zur Zeit betrachtet, erlaubt die Cox-Proportional-Hazard-Regression die simultane Kontrolle mehrerer Kovariablen – Standard für klinische Studien, in denen Alter, Komorbidität und Therapie gleichzeitig berücksichtigt werden müssen.
Das HR beschreibt das relative Ereignisrisiko zu jedem Zeitpunkt:
Das 95 %-KI des HR darf die 1,0 nicht einschließen → p < 0,05.
| Schritt | Analyse | Ziel | Aufnahmekriterium |
|---|---|---|---|
| 1 | Univariable Cox-Regression | Jeden Faktor einzeln testen | p < 0,10 oder klinische Relevanz |
| 2 | Multivariable Cox-Regression | Unabhängige Prognosefaktoren identifizieren | Alle signifikanten Faktoren aus Schritt 1 |
| 3 | Modellanpassung prüfen | Proportional-Hazard-Annahme validieren | Schoenfeld-Residuen, Log-Minus-Log-Plot |
| 4 | Forest Plot erstellen | HR mit 95 %-KI visualisieren | Standard in Publikationen |
SPSS ist in den meisten deutschen Unikliniken das Standardprogramm für medizinische Datenauswertungen. Dieser Workflow beschreibt den Weg von rohen Patientendaten bis zur publikationsreifen Ergebnistabelle.
SPSS ist der Standard an deutschen Unikliniken – gut unterstützt, kostenlos über Uni-Lizenz, keine Programmierkenntnisse nötig. R bietet mehr Möglichkeiten (ggplot2 für Kaplan-Meier, komplexere Modelle) und wird für hochwertige Publikationen bevorzugt. Stata ist vor allem in der Epidemiologie verbreitet. Externe Unterstützung bei der statistischen Auswertung bietet unsere Statistik-Beratung (SPSS, R, Stata).
Variablennamen standardisieren (kein Leerzeichen), fehlende Werte kodieren (systemdefiniert oder 999), Ausreißer identifizieren (Histogramm, Boxplot). Goldene Regel: Rohdaten nie überschreiben – immer eine Backup-Kopie anlegen.
Jede klinische Arbeit beginnt mit einer deskriptiven Tabelle aller Basischarakteristika: metrische Variablen als Mittelwert ± SD (oder Median + IQR), nominale Variablen als Häufigkeit (n) und Prozent (%). In SPSS: Analysieren → Deskriptive Statistiken.
Shapiro-Wilk-Test (bevorzugt bei n < 50): Analysieren → Deskriptive Statistiken → Explorative Datenanalyse → Diagramme → Normalverteilungsdiagramme mit Tests. p < 0,05 = Abweichung von Normalverteilung → nicht-parametrische Tests.
Den richtigen Test wählen (→ interaktiver Helfer unten). Immer mit univariablen Analysen beginnen, dann multivariable Modelle. Alle Ausgaben in einer SPSS-Syntaxdatei dokumentieren – das ist Ihre Dokumentation der exakten Analyseschritte, unerlässlich für die Dissertation und Publikation.
SPSS-Grafiken für die Dissertation in hoher Auflösung exportieren: Rechtsklick auf Grafik → Bearbeiten → Exportieren → Format: TIFF oder EPS (300 dpi). Für Journale oft .eps oder .svg – R ggplot2 produziert hier bessere Qualität.
Robustheit prüfen: Analyse ohne Ausreißer wiederholen, verschiedene Endpunktdefinitionen testen. Wichtig: Subgruppenanalysen müssen im Ethikantrag vorab geplant sein (prospektiv), sonst nur explorativ.
4 Fragen → passender statistischer Test für Ihre Fragestellung
Diese Fehler erscheinen in Gutachten immer wieder – und sind leicht vermeidbar, wenn man sie kennt.
| # | Fehler | Warum problematisch | Lösung |
|---|---|---|---|
| 1 | Kein Power-Kalkül | Zu kleine Fallzahl → nicht signifikante Ergebnisse nicht interpretierbar | G*Power (kostenlos) vor Studienbeginn nutzen |
| 2 | Normalverteilung nicht geprüft | t-Test bei nicht-normalverteilten Daten verletzt Testvoraussetzungen | Immer Shapiro-Wilk vor t-Test / ANOVA |
| 3 | Nur p-Wert, kein Effektmaß | Statistisch signifikant ≠ klinisch relevant | Immer Cohen's d, OR, HR oder r ergänzen |
| 4 | Multiples Testen ohne Korrektur | Bei 20 Tests tritt per Zufall 1 signifikantes Ergebnis auf (α-Inflation) | Bonferroni- oder FDR-Korrektur, oder explizit explorativ deklarieren |
| 5 | Zensierte Beobachtungen ignoriert | Nur Patienten mit Ereignis analysieren → Selection Bias | Kaplan-Meier / Cox; alle zensierten Patienten einschließen |
| 6 | Ordinal als metrisch behandelt | Mittelwert von NRS/NYHA statistisch nicht sinnvoll | Median + IQR, Mann-Whitney-U-Test |
| 7 | Kausalaussagen aus Korrelation | Aus Querschnittsdaten keine Kausalität ableitbar | Korrekt: „Rauchen war signifikant mit Lungenkarzinom assoziiert (OR=4,2)" |
| 8 | Kein 95 %-KI | Präzision der Schätzung nicht beurteilbar; Journale lehnen ohne KI ab | In jeder Tabelle: Schätzer [95 %-KI; obere Grenze] |
Das hängt von Effektgröße, gewünschter Power (Standard: 80 %) und Signifikanzniveau (α = 0,05) ab. Faustregeln:
Berechnen Sie Ihre Fallzahl vor Studienbeginn mit G*Power (kostenlos) – das ist Pflicht im Ethikantrag und gehört in den Methoden-Teil.
Immer wenn eines der folgenden Kriterien zutrifft:
Beim Mann-Whitney-U berichten Sie Median + IQR statt Mittelwert + SD.
Log-Rank-Test: Bivariater Test – vergleicht zwei Überlebenskurven, liefert nur p-Wert, kein Effektmaß. Ideal für Kaplan-Meier-Visualisierung.
Cox-Regression: Multivariables Modell – kontrolliert mehrere Kovariablen gleichzeitig, liefert Hazard Ratios mit 95 %-KI. Standard für klinische Publikationen.
Empfehlung: Immer beides: Kaplan-Meier + Log-Rank für die Visualisierung, Cox-Regression für die multivariable Analyse.
Nicht-signifikante Ergebnisse sind kein Misserfolg – sie sind ein valides Ergebnis. Berichten Sie vollständig:
Falsch: „Es wurde kein Unterschied gefunden."
Richtig: „Zwischen Gruppe A und B zeigte sich kein statistisch signifikanter Unterschied (medianes Überleben: 22,1 vs. 24,3 Monate; Log-Rank p = 0,28; HR = 0,89; 95 %-KI: 0,72–1,10)."
Diskutieren Sie in der Diskussion: Hatte Ihre Studie genug Power? Könnte ein klinisch relevanter Unterschied trotz nicht-signifikantem p-Wert bestehen?
Ja – externe Unterstützung ist üblich und legitim. Die Grundlagen der Auswertung sollten Sie selbst verstehen, da Gutachter die Methodik prüfen. Möglichkeiten:
Die Beratungsperson muss im Danksagungsteil der Dissertation erwähnt werden.
Die Power-Analyse berechnet die benötigte Fallzahl, um einen Effekt der erwarteten Größe mit gewünschter Wahrscheinlichkeit (Power) zu detektieren.
Tool: G*Power (kostenlos, Windows/Mac) – für alle gängigen Tests verfügbar.
Sie stecken bei der Auswertung fest? Unsere Experten mit Dr. med. und Statistikexpertise helfen Ihnen – von der Fallzahlplanung über die SPSS-Analyse bis zur Interpretation und Publikationsreife Ihrer Ergebnisse.
Jetzt unverbindlich anfragen Statistik-Beratung ansehen