Das Standardverfahren für Experimente und klinische Interventionsstudien in der Psychologie – aber Sphärizität, Korrekturfaktoren und Effektstärken bereiten vielen Studierenden Kopfzerbrechen. Dieser Guide erklärt jeden Schritt: von der Voraussetzungsprüfung bis zum vollständigen APA-7-Ergebnisbericht.
Interventionsstudien mit Messwiederholung zählen zu den anspruchsvollsten Designs, die Studierende in Psychologie-Arbeiten umsetzen. Bei Business And Science arbeiten promovierte Psychologen und Statistiker, die Mixed-ANOVA-Designs routiniert in SPSS und R auswerten – einschließlich Sphärizitätskorrekturen, Post-hoc-Vergleichen und APA-7-konformem Ergebnisteil. In mehr als 12.000 Projekten seit 2012 haben unsere Psychologie-Autoren genau solche Analysen für Bachelor-, Master- und Doktorarbeiten durchgeführt.
Die ANOVA mit Messwiederholung (engl. Repeated Measures ANOVA, RM-ANOVA) vergleicht Mittelwerte, wenn dieselben Versuchspersonen mehrfach gemessen werden – zu verschiedenen Zeitpunkten oder unter verschiedenen Bedingungen. Zentrale Voraussetzung: Sphärizität (gleiche Varianzen der Differenzwerte zwischen allen Messwiederholungsstufen). Prüfung mit dem Mauchly-Test. Bei Verletzung: Korrektur mit Greenhouse-Geisser (konservativ) oder Huynh-Feldt (liberaler). Effektstärke: partielles Eta-Quadrat (η²p) – in SPSS direkt ausgegeben. Unsere Ghostwriter helfen bei Statistik und Ghostwriting der Bachelorarbeit.
Die RM-ANOVA ist immer dann angemessen, wenn abhängige Messungen vorliegen – also wenn nicht unabhängige Gruppen verglichen werden, sondern dieselben Personen wiederholt getestet wurden.
In Psychologie-Abschlussarbeiten tauchen häufig beide Designs auf:
„Reduziert eine achtsamkeitsbasierte Intervention (MBSR) Angstsymptome im Vergleich zu einer Kontrollgruppe? Design: 2 (Gruppe: MBSR vs. Warteliste) × 3 (Zeit: Prä, Post, 3-Monats-Follow-up) Mixed ANOVA mit Messwiederholung auf dem Faktor Zeit."
| Design | Faktoren | Typische Fragestellung | Haupteffekte & Interaktion |
|---|---|---|---|
| Einfaktorielle RM-ANOVA | 1 Innersubjektfaktor (k ≥ 3 Stufen) | Verändert sich die Leistung über 4 Messzeitpunkte? | 1 Haupteffekt (Zeit) |
| Zweifaktorielle RM-ANOVA | 2 Innersubjektfaktoren | Wie wirken Stimulus-Typ und Aufgabenschwierigkeit auf RT? | 2 Haupteffekte + 1 Interaktion |
| Mixed ANOVA | 1 Innersubjekt- + 1 Zwischensubjektfaktor | Unterscheiden sich Gruppen im Verlauf? (Interaktion!) | 2 Haupteffekte + 1 Interaktion (zentral) |
| Mehrfaktorielle Mixed ANOVA | Mehrere Inner- & Zwischensubjektfaktoren | Dreiweg-Interaktionen in komplexen Interventionsstudien | Alle Haupt- und Interaktionseffekte |
Das 2×3 Mixed-ANOVA-Design (Gruppe × Zeit) ist mit Abstand das häufigste Auswertungsdesign, das Studierende bei uns einreichen – insbesondere aus der klinischen Psychologie und der Pädagogischen Psychologie. Unsere Statistiker kennen die typischen Stolperstellen: falsche Zeile im SPSS-Output, fehlende Interaktionsinterpretation, unvollständige Post-hoc-Vergleiche. Zur Statistik-Beratung.
Bei Mixed-ANOVA-Designs interessiert vor allem die Interaktion Zeit × Gruppe. Ein signifikanter Haupteffekt „Zeit" bedeutet nur, dass sich alle Personen über die Zeit verändert haben – nicht, dass sich die Gruppen unterschiedlich verändert haben. Erst ein signifikanter Interaktionseffekt belegt, dass das Treatment tatsächlich wirkt (differenzielle Veränderung). Gutachter kennen diesen Unterschied – erklären Sie ihn explizit im Ergebnisteil.
Die RM-ANOVA hat weniger Voraussetzungen als eine between-subjects ANOVA, weil Versuchspersonen als ihre eigene Kontrolle dienen. Trotzdem sind folgende Punkte zu prüfen und im Methodenteil zu berichten:
Die abhängige Variable muss metrisch skaliert sein (Intervall- oder Verhältnisskala). Bei Likert-Skalen mit 5–7 Stufen wird in der Psychologie oft Intervallskalenniveau angenommen – explizit begründen.
Die Differenzwerte zwischen je zwei Messzeitpunkten sollten normalverteilt sein. Prüfung: Shapiro-Wilk-Test oder grafisch (Q-Q-Plot, Histogramm). RM-ANOVA ist bei ausreichend großem n (≥ 30) robust gegenüber moderaten Verletzungen.
Univariate Ausreißer in jeder Bedingung prüfen (Boxplots, z-Werte > ±3.29). Multivariate Ausreißer bei mehreren AV mit Mahalanobis-Distanz. Ausreißer entfernen oder robuste Verfahren erwägen – Entscheidung begründen.
Die wichtigste und spezifischste Voraussetzung der RM-ANOVA ist Sphärizität – ihr widmet sich das nächste Kapitel vollständig.
Sphärizität ist die Annahme, dass die Varianzen der Differenzwerte zwischen allen Paaren von Messzeitpunkten gleich sind. Bei nur zwei Messzeitpunkten ist Sphärizität automatisch erfüllt. Ab drei Stufen muss sie geprüft werden.
Stellen Sie sich vor, Sie messen Angst zu drei Zeitpunkten: Prä, Post, Follow-up. Sphärizität bedeutet: Die Varianz der Differenz (Prä−Post) ist ungefähr gleich groß wie die Varianz der Differenz (Prä−Follow-up) und (Post−Follow-up). Ist das nicht der Fall – z.B. weil unmittelbar nach der Intervention die Streuung viel größer ist – liegen die Voraussetzungen für einen unkorrigierten F-Test nicht vor.
Folge einer Verletzung ohne Korrektur: Der F-Test ist zu liberal (zu viele falsch-positive Befunde, α-Fehler-Inflation).
Der Mauchly-Test prüft die Nullhypothese, dass Sphärizität gegeben ist.
Konservative Korrektur. Epsilon (ε) wird berechnet und die Freiheitsgrade des F-Tests werden mit ε multipliziert – was den kritischen F-Wert erhöht. Empfohlen wenn ε < .75. In SPSS automatisch ausgegeben. Berichten Sie den korrigierten F-Wert mit den korrigierten Freiheitsgraden.
Liberalere Korrektur, genauer wenn ε ≥ .75. Bei kleinen Stichproben kann ε bei Huynh-Feldt > 1 sein – in diesem Fall wird ε = 1.00 gesetzt (kein Unterschied zum unkorregierten Test). Empfohlen wenn ε ≥ .75.
Bei kleinen Stichproben hat der Mauchly-Test wenig Power – er erkennt Verletzungen nicht zuverlässig. Manche Methodiker empfehlen daher, bei kleinem n immer die Greenhouse-Geisser-Korrektur zu berichten, unabhängig vom Mauchly-Ergebnis. Sprechen Sie das in der Diskussion an.
SPSS erwartet das Wide Format: Jede Messung zu einem Zeitpunkt steht in einer eigenen Spalte (z.B. Angst_T1, Angst_T2, Angst_T3). Jede Zeile = eine Versuchsperson. Beim Long Format (eine Zeile pro Messung) muss vorher umstrukturiert werden: Daten → Umstrukturieren.
Analysieren → Allgemeines lineares Modell → Messwiederholung. Namen des Innersubjektfaktors eingeben (z.B. „Zeit"), Anzahl der Stufen angeben (z.B. 3), auf „Hinzufügen" klicken, dann „Definieren". Die drei Messvariablen den Stufen zuweisen. Bei Mixed ANOVA: Zwischensubjektfaktoren-Feld befüllen.
Unter „Optionen": Deskriptive Statistiken ✓, Schätzung der Effektgröße (partielles Eta-Quadrat) ✓, Beobachtete Power ✓. Unter „Plots": Profildiagramm anlegen (Faktor Zeit auf X-Achse, bei Mixed ANOVA: Gruppe als separate Linien). Unter „Post-hoc": Nur für Zwischensubjektfaktoren – für Innersubjektfaktoren unter „EM Mittel" mit Bonferroni-Korrektur.
Im Output-Fenster: Tabelle „Mauchly-Test auf Sphärizität". Relevante Werte: W, χ², df, p sowie Epsilon-Schätzer (GG und HF). Ist p < .05, Greenhouse-Geisser-Zeile verwenden.
Tabelle „Tests der Innersubjekteffekte". Zeile wählen: „Sphärizität angenommen" (p Mauchly ≥ .05) oder „Greenhouse-Geisser" (p Mauchly < .05 und GG-ε < .75) oder „Huynh-Feldt" (GG-ε ≥ .75). F-Wert, Freiheitsgrade (df1, df2), p und partielles η² ablesen.
Bei signifikantem Haupteffekt Zeit: Paarweise Vergleiche mit Bonferroni-Korrektur (unter „EM Mittel" → „Vergleiche der Haupteffekte" → Anpassung: Bonferroni). Profildiagramm aus dem Output in die Arbeit übernehmen oder mit Excel/R neu gestalten.
Wenn Sie bei der Interpretation des SPSS-Outputs unsicher sind – insbesondere bei der Wahl der richtigen Zeile oder der Interaktionsanalyse –, prüfen unsere Statistiker Ihre Auswertung und formulieren den Ergebnisteil. Unverbindlich anfragen.
Ein signifikanter Haupteffekt bei k ≥ 3 Stufen sagt nur, dass irgendwo ein Unterschied besteht – nicht wo. Post-hoc-Tests lokalisieren die Unterschiede.
| Verfahren | Anwendung | Stärken / Schwächen |
|---|---|---|
| Bonferroni-Korrektur | Paarweise Vergleiche aller Messwiederholungsstufen (SPSS: EM-Mittelwerte) | Konservativ, aber in der Psychologie am akzeptiertesten. Empfehlung für die meisten Designs. |
| Holm-Korrektur | Schrittweise Adjustierung (Power-schonender als Bonferroni) | Gleich gut kontrolliertes α bei höherer Power. In R einfach umsetzbar. |
| Planned Contrasts | A-priori festgelegte Vergleiche (z.B. nur Prä vs. Post) | Keine α-Korrektur nötig wenn vorab geplant. Erfordert Hypothesenspezifikation im Voraus. |
| LSD (ohne Korrektur) | Paarweise t-Tests ohne Adjustierung | Liberal – α-Fehler inflationiert. Nur bei k = 3 und omnibus F signifikant vertretbar. |
Wenn Sie vor der Datenerhebung gerichtete Hypothesen haben (z.B. „Angst sinkt von Prä zu Post, bleibt auf Follow-up stabil"), formulieren Sie geplante Kontraste. Das spart α-Korrekturbedarf und ist methodisch sauberer. Haben Sie keine spezifischen Hypothesen über die Unterschiedsmuster, verwenden Sie Post-hoc-Tests mit Bonferroni. Die Entscheidung muss im Methodenteil begründet werden – nicht im Ergebnisteil nachträglich getroffen.
Die Effektstärke beantwortet die Frage: Wie bedeutsam ist der gefundene Effekt – unabhängig von der Stichprobengröße? In SPSS wird automatisch das partielle Eta-Quadrat (η²p) ausgegeben, aber es gibt eine wichtige Einschränkung.
Das am häufigsten berichtete Maß. Gibt an, welcher Anteil der Varianz dieses Effekts durch den Faktor erklärt wird – kontrolliert für alle anderen Effekte im Modell. Problem: η²p überschätzt die Effektgröße, besonders bei mehrfaktoriellen Designs. Bei einem einzigen Faktor gilt η²p = η².
Benchmarks nach Cohen (1988): klein = .01, mittel = .06, groß = .14
Weniger verbreitet, aber bias-korrigiert – besonders bei kleinen Stichproben empfehlenswert. SPSS gibt ω²p nicht direkt aus; es muss manuell berechnet werden. APA 7 empfiehlt die Angabe von ω² oder ω²p für inferenzstatistische Berichte.
Formel: ω²p = (SSeffekt − dfeffekt × MSfehler) / (SSgesamt + MSfehler)
Ein großes η²p bedeutet nicht automatisch, dass der Effekt klinisch relevant ist. Umgekehrt kann ein kleines η²p bei einer Intervention zur Reduktion schwerer Depression enorm bedeutsam sein. Ergänzen Sie die Effektstärkeninterpretation immer um eine inhaltliche Einordnung – und verweisen Sie, wenn möglich, auf Metaanalysen zum Vergleich.
Im Ergebnisteil der Psychologie-Arbeit gilt: Erst deskriptive Statistik, dann inferenzstatistisches Ergebnis, dann Effektstärke, dann Post-hoc. Hier sind Musterformulierungen für die häufigsten Szenarien.
„Eine einfaktorielle ANOVA mit Messwiederholung wurde durchgeführt, um Veränderungen im Angstniveau über drei Messzeitpunkte (T1, T2, T3) zu untersuchen. Der Mauchly-Test zeigte, dass die Annahme der Sphärizität verletzt war, W = .82, χ²(2) = 8.34, p = .015; daher wurden die Freiheitsgrade nach Greenhouse-Geisser korrigiert (ε = .85). Der Haupteffekt Zeit war statistisch bedeutsam, F(1.70, 100.54) = 18.34, p < .001, η²p = .24. Post-hoc paarweise Vergleiche mit Bonferroni-Korrektur zeigten signifikante Unterschiede zwischen T1 und T2 (p < .001) sowie zwischen T1 und T3 (p < .001), nicht jedoch zwischen T2 und T3 (p = .412)."
„Eine Mixed ANOVA mit Messwiederholung auf dem Faktor Zeit (T1, T2, T3) und dem Zwischensubjektfaktor Gruppe (MBSR, Kontrollgruppe) wurde berechnet. Die Interaktion Zeit × Gruppe war statistisch bedeutsam, F(2, 118) = 9.47, p < .001, η²p = .14. Einfache Haupteffektanalysen zeigten, dass sich die MBSR-Gruppe signifikant stärker von T1 zu T2 verbesserte (M_diff = 4.2, SE = 0.8, p < .001) als die Kontrollgruppe (M_diff = 0.9, SE = 0.7, p = .214)."
| Quelle | SS | df | MS | F | p | η²p |
|---|---|---|---|---|---|---|
| Zeit | 284.3 | 1.70ᵃ | 167.2 | 18.34 | < .001 | .237 |
| Fehler (Zeit) | 916.2 | 100.5ᵃ | 9.1 | — | — | — |
| ᵃ Greenhouse-Geisser-korrigierte Freiheitsgrade (ε = .852) | ||||||
Ergebnisberichte in dieser Qualität – mit korrigierten Freiheitsgraden, Effektstärken und vollständiger Post-hoc-Dokumentation – erstellen unsere Psychologie-Ghostwriter seit über einem Jahrzehnt. Wir kennen die Erwartungen deutschsprachiger Gutachter an APA-7-Tabellen und Profildiagramme aus der Praxis.
Ergebnisteil schreiben lassen?
Promovierte Psychologen verfassen Ihren Methodik- und Ergebnisteil APA-konform und fachlich präziseDie häufigste Fehlerquelle. „Sphärizität angenommen"-Zeile berichtet, obwohl der Mauchly-Test signifikant war. Folge: falsch niedrige p-Werte. Immer: Mauchly prüfen → korrekte Zeile wählen.
SPSS gibt vier Zeilen aus (Sphärizität, GG, HF, Lower-bound). Viele Studierende verwenden die erste Zeile ohne zu prüfen, ob eine Korrektur nötig ist. Die korrekte Zeile hängt von Mauchly und ε ab.
Bei Mixed ANOVA ist der Haupteffekt Zeit oft signifikant – aber inhaltlich uninteressant, da alle VP sich verändern. Das Kerninteresse liegt auf der Interaktion Zeit × Gruppe. Interaktion ist das zentrale Ergebnis einer RCT.
F-Wert und p allein sagen nichts über die Bedeutsamkeit. η²p ist Pflicht – in SPSS unter „Optionen" → „Effektstärkenmaße" aktivieren.
Paarweise Vergleiche ohne Bonferroni oder Holm inflationieren den α-Fehler erheblich. Bei k = 3 Stufen gibt es 3 Vergleiche, bei k = 4 schon 6. Immer korrigieren.
SPSS-RM-ANOVA benötigt Wide Format. Wenn die Daten im Long Format vorliegen (z.B. aus R oder bei Mehrfachantworten), muss zuerst umstrukturiert werden: Daten → Umstrukturieren → Fälle in Variablen.
Fehler ① bis ③ sind die drei Punkte, die unsere Statistiker bei RM-ANOVA-Auswertungen mit Abstand am häufigsten nachkorrigieren. Wenn Sie sichergehen möchten, dass Ihr Ergebnisteil beim Erstgutachter besteht, sind wir der richtige Ansprechpartner – hier unverbindlich anfragen.
Der Friedman-Test ist das nicht-parametrische Pendant zur einfaktoriellen RM-ANOVA. Er setzt kein metrisches Messniveau und keine Normalverteilung voraus und arbeitet mit Rängen. Verwenden Sie ihn, wenn Ihre abhängige Variable ordinalskaliert ist oder wenn Normalverteilungsannahmen deutlich verletzt sind und die Stichprobe zu klein für Robustheit ist (n < 20). Bei metrischen Daten und hinreichend großem n ist die RM-ANOVA robuster und informativer.
Klassische RM-ANOVA in SPSS schließt Fälle mit listwise deletion aus – d.h. jede Person, die auch nur an einem Messzeitpunkt fehlt, wird komplett entfernt. Das kann zu erheblichem Datenverlust und Bias führen. Alternativen: (1) Multiple Imputation (SPSS: Analysieren → Multiple Imputation), (2) Linear Mixed Models (SPSS: Gemischte Modelle → Linear) – diese Methode kann mit Missing-at-Random (MAR) Daten umgehen und ist für klinische Studien die bevorzugte Lösung. Erklären Sie Ihre Strategie für fehlende Werte explizit im Methodenteil.
Ja, in R gibt es mehrere Möglichkeiten. Das Paket ez (Funktion ezANOVA()) ist am benutzerfreundlichsten und gibt automatisch GG-Korrekturen und η²p aus. Das Paket rstatix bietet eine tidyverse-kompatible Alternative mit anova_test(). Für Mixed Models als Erweiterung: lme4 und lmerTest. Das Paket emmeans liefert Post-hoc-Vergleiche mit automatischer Bonferroni/Holm-Korrektur. Unsere Statistiker arbeiten sowohl in SPSS als auch in R und wählen die Software passend zu Ihrem Lehrstuhl.
In G*Power: F-Tests → ANOVA: Repeated Measures, within factors. Eingabe: Effektgröße f (Konvention: klein = .10, mittel = .25, groß = .40), α = .05, Power = .80–.95, Anzahl der Gruppen, Anzahl der Messwiederholungen, Korrelation zwischen den Wiederholungen (oft .50 als Schätzung). G*Power gibt die Gesamtstichprobengröße aus. Bei Mixed ANOVA: ANOVA Repeated Measures, within-between interaction wählen. Details im Power-Analyse-Guide.
APA 7 (Publication Manual, 7. Auflage, S. 89) empfiehlt, Effektstärken immer mit Konfidenzintervallen zu berichten – für η²p gibt es aber keine direkte SPSS-Ausgabe von KI. Standard in der Praxis ist die Angabe ohne KI mit expliziter Bezeichnung: η²p = .24 (nicht ηp² oder η²). APA 7 empfiehlt bevorzugt ω² oder ω²p als weniger verzerrte Schätzer – aber η²p ist weiterhin dominant in der Psychologie und wird von Gutachtern akzeptiert. Berichten Sie bei kleinen Stichproben (n < 50) zusätzlich ω²p, das in R über das Paket effectsize berechenbar ist.
Hayes PROCESS Macro, Bootstrapping, Modell 4 vs. 7, APA-Reporting – das meistgenutzte Verfahren in Masterarbeiten.
→ Zum GuideEFA, Scree-Plot, Cronbachs Alpha – für alle, die Fragebögen validieren oder adaptieren.
→ Zum GuideMahalanobis-Distanz, VIF, Homoskedastizität, Normalverteilung – der erste Schritt jeder Auswertung.
→ Zum GuideUnsere promovierten Statistik-Experten helfen bei Analyse, Interpretation, Sphärizitätskorrekturen und dem vollständigen APA-konformen Ergebnisteil – für Bachelor-, Master- und Doktorarbeiten.
Statistik-Beratung Ghostwriter Kostenlos anfragen