Die Power-Analyse ist Pflichtbestandteil jedes Psychologie-Exposés – und gleichzeitig der Abschnitt, an dem die meisten Studierenden scheitern. Dieser Guide erklärt α- und β-Fehler, Effektstärken, Teststärke und die genaue Bedienung von G*Power für alle relevanten statistischen Verfahren.
Die Power-Analyse scheitert in den allermeisten Fällen nicht an G*Power selbst, sondern an der Begründung der Effektstärke und der Wahl des richtigen Tests im Drop-down-Menü. Beides klingt trivial – kostet in der Praxis aber Stunden und führt zu falsch berechneten Stichprobengrößen, die das gesamte Studiendesign untergraben. Bei der Ghostwriter-Agentur Business And Science gehört die G*Power-Berechnung mit literaturbasierter Effektstärken-Begründung zum Standardumfang jeder Exposé-Mustervorlage. Unsere promovierten Statistiker haben diese Berechnung in über 12.000 Projekten seit 2012 für sämtliche gängigen Designs durchgeführt.
Eine a-priori Power-Analyse berechnet vor der Datenerhebung die benötigte Stichprobengröße, um einen erwarteten Effekt mit einer bestimmten Wahrscheinlichkeit zu entdecken. Die vier Kernparameter: Effektstärke (erwartet aus Vorstudien oder Konventionen), α-Niveau (üblicherweise .05), gewünschte Power (1 − β, üblicherweise .80) und statistisches Verfahren. Software: G*Power (kostenlos, Windows/Mac). Konvention nach Cohen (1988): kleine Effekte (d = .20, f = .10, r = .10) erfordern große Stichproben; mittlere Effekte (d = .50, f = .25, r = .30) sind in der Psychologie der Standardannahme. Unsere Ghostwriter helfen bei Statistik-Beratung und Exposé schreiben lassen.
Eine Studie mit zu kleiner Stichprobe kann einen real vorhandenen Effekt statistisch nicht nachweisen – nicht weil der Effekt nicht existiert, sondern weil die Studie nicht „scharf" genug ist. Das ist analog zu einem Fernglas: Mit einem zu schwachen Gerät sehen Sie einen weit entfernten Vogel nicht, obwohl er dort sitzt.
Betreuende Professorinnen und Professoren erwarten im Exposé eine begründete Stichprobenplanung. Ohne Power-Analyse wirkt das Forschungsdesign beliebig – als hätten Sie die Stichprobengröße „aus dem Bauch" gewählt. Mit einer sauberen Power-Analyse demonstrieren Sie methodisches Bewusstsein und erhöhen gleichzeitig die Glaubwürdigkeit Ihrer späteren Ergebnisse, egal ob signifikant oder nicht.
In der Inferenzstatistik gibt es vier mögliche Kombinationen aus Realität und Testergebnis. Zwei davon sind korrekt, zwei sind Fehler.
Sie verwerfen die Nullhypothese, obwohl kein echter Effekt vorliegt. In der Psychologie konventionell auf α = .05 festgelegt. Das bedeutet: Bei 100 Studien ohne echten Effekt werden im Durchschnitt 5 fälschlicherweise einen Effekt „finden". Bei mehrfachen Tests: α-Korrektur (Bonferroni, Holm) notwendig.
Sie behalten die Nullhypothese bei, obwohl ein echter Effekt vorhanden ist. Konvention: β = .20, entspricht Power = .80. Das bedeutet: Bei 100 Studien mit echtem Effekt werden 20 den Effekt verpassen. Für klinische Entscheidungen wird oft Power ≥ .90 gefordert.
Power als Funktion der Stichprobengröße (t-Test, α = .05)
Jedes statistische Verfahren hat seine eigene Effektstärkenmetrik. G*Power erwartet die zur Analyse passende – ein häufiger Fehler ist die Verwendung der falschen Metrik.
| Effektstärke | Verfahren | Klein | Mittel | Groß | Umrechnung |
|---|---|---|---|---|---|
| Cohens d | t-Tests (2 Gruppen) | .20 | .50 | .80 | d = 2r / √(1−r²) |
| Cohens f | ANOVA, RM-ANOVA | .10 | .25 | .40 | f = √(η²/(1−η²)) |
| Pearson r | Korrelation, Regression | .10 | .30 | .50 | r = d / √(d²+4) |
| f² (Cohen) | Multiple Regression | .02 | .15 | .35 | f² = R²/(1−R²) |
| η²p (partiell) | ANOVA-Verfahren | .01 | .06 | .14 | f = √(η²p/(1−η²p)) |
| Cohens w | Chi-Quadrat-Tests | .10 | .30 | .50 | w = √(χ²/n) |
| OR / RR | Logistische Regression | 1.5 | 2.5 | 4.0 | → w über Kovariate |
Wenn Studierende η²p direkt als Cohens f in G*Power eingeben, wird die benötigte Stichprobe massiv unterschätzt – manchmal um den Faktor 3 oder mehr. In Exposés, die bei uns zur Prüfung eingehen, ist das der häufigste einzelne Rechenfehler. Unsere Statistiker führen die Umrechnung korrekt durch und dokumentieren jeden Schritt so, dass er für Betreuer nachvollziehbar ist. Zur Statistik-Beratung.
G*Power für ANOVA erwartet Cohens f, nicht η²p. Die Umrechnung: f = √(η²p / (1 − η²p)). Beispiel: η²p = .06 → f = √(.06/.94) = √.0638 = .253 ≈ .25 (mittlerer Effekt). Wer η²p direkt als f eingibt, berechnet eine viel zu kleine Stichprobe – mit fatalen Folgen für die Powerkalkulation.
Die am häufigsten gestellte Frage beim Schreiben des Exposés: „Woher weiß ich, welche Effektstärke ich erwarten soll?" Es gibt drei legitime Ansätze – in absteigender methodischer Qualität.
Recherchieren Sie Studien mit ähnlichem Design, ähnlicher Stichprobe und ähnlichem Konstrukt. Berichten diese Studien Effektstärken? Gibt es Metaanalysen zum Thema? Zitieren Sie 1–3 relevante Studien und leiten Sie aus deren Effektstärken Ihre Erwartung ab. Beispiel: „Bisherige Studien zu MBSR bei Angststörungen zeigen Effekte von d = .48–.62 (Fischer et al., 2021; Khoury et al., 2015). Wir nehmen konservativ d = .45 an."
Sie haben eine kleine Vorerhebung (n = 20–30) durchgeführt? Berechnen Sie die beobachtete Effektstärke und verwenden Sie einen konservativen Anteil davon (z.B. 75% des beobachteten Effekts) für die Hauptstudienplanung. Begründen Sie die Abwärtskorrektur: Pilotstudieneffekte werden typischerweise überschätzt (Regression zur Mitte).
Als letzter Ausweg: Cohens Konventionen (klein / mittel / groß). Verwenden Sie in der Regel den mittleren Effekt – und begründen Sie dies explizit: „Da keine Vorpublikationen zu diesem spezifischen Design vorliegen, wird gemäß Cohen (1988) ein mittlerer Effekt (d = .50) angenommen, der in der sozialwissenschaftlichen Forschung als repräsentativer Schätzwert gilt." Nie ohne Begründung – Gutachter akzeptieren dies nur wenn erklärt wird, warum keine bessere Quelle verfügbar ist.
Die Literaturrecherche zur Effektstärkenbegründung ist zeitaufwändig – und wird von Gutachtern trotzdem erwartet. Unsere Methodiker recherchieren die passenden Metaanalysen für Ihr spezifisches Konstrukt und formulieren den Begründungsabsatz so, dass er wissenschaftlichen Standards entspricht. Jetzt anfragen.
G*Power ist kostenlos verfügbar unter psycho.uni-duesseldorf.de/abteilungen/aap/gpower3 (Windows und macOS). Die Oberfläche ist einfach – aber die richtige Parameterwahl erfordert methodisches Wissen.
Wählen Sie zuerst die Test family (z.B. t-Tests, F-Tests, χ²-Tests) und dann den konkreten Test. Beispiele:
Für Exposé und Stichprobenplanung immer „A priori: Compute required sample size" wählen. Die anderen Typen:
Für das Exposé: ausschließlich A priori verwenden.
Die vier Pflichtparameter:
G*Power gibt aus:
Wichtig: Screenshot der G*Power-Ausgabe im Anhang der Arbeit aufnehmen – viele Betreuer verlangen das als Dokumentation.
Fragestellung: Unterscheiden sich MBSR-Gruppe und Kontrollgruppe in Angstwerten (d = .50, α = .05, Power = .80)?
Planen Sie einen Dropout-Puffer ein (typisch: 10–20% Mehrrekrutierung): 104 × 1.15 ≈ 120 Personen rekrutieren.
Diese Tabelle gibt Orientierungswerte für α = .05 und Power = .80. Alle Werte wurden mit G*Power berechnet. Bei Power = .90 erhöhen sich die Werte um ca. 30–35%.
| Verfahren | Kleiner Effekt | Mittlerer Effekt | Großer Effekt | G*Power-Einstellung |
|---|---|---|---|---|
| t-Test (2 unabhängige Gruppen) | 394 gesamt | 104 gesamt | 52 gesamt | d = .20 / .50 / .80 |
| t-Test (1 Gruppe / gepaart) | 198 | 54 | 26 | d = .20 / .50 / .80 |
| ANOVA einfaktoriell (3 Gruppen) | 969 | 159 | 66 | f = .10 / .25 / .40 |
| ANOVA einfaktoriell (4 Gruppen) | 1144 | 189 | 76 | f = .10 / .25 / .40 |
| RM-ANOVA (3 MZP, r = .50) | 246 | 42 | 18 | f = .10 / .25 / .40 |
| Mixed ANOVA (2×3, r = .50) | 432 | 72 | 30 | Interaction f = .10/.25/.40 |
| Korrelation (bivariate) | 782 | 84 | 28 | r = .10 / .30 / .50 |
| Multiple Regression (3 Prädiktoren) | 552 | 77 | 36 | f² = .02 / .15 / .35 |
| Chi-Quadrat (2×2 Tabelle) | 785 | 87 | 29 | w = .10 / .30 / .50 |
| Mediation (indirekter Effekt, MC) | ~500+ | ~148 | ~75 | Monte-Carlo (Schoenmann) |
Bei Messwiederholungsdesigns messen Sie dieselben Personen mehrfach. Die Korrelation zwischen den Messzeitpunkten (r, in G*Power: „Corr among rep measures") reduziert die Fehlervarianz erheblich – je höher die Korrelation, desto kleiner kann die Stichprobe sein. Standard-Schätzung: r = .50. Wenn Sie Vorwissen haben (z.B. aus Testretest-Reliabilität Ihres Instruments), verwenden Sie diesen Wert.
Der Power-Analyse-Abschnitt im Exposé sollte knapp, präzise und vollständig sein. Gutachter prüfen, ob alle vier Parameter begründet sind.
„Zur Bestimmung der erforderlichen Stichprobengröße wurde eine a-priori Power-Analyse mit der Software G*Power (Version 3.1.9.7; Faul et al., 2009) durchgeführt. Basierend auf vergleichbaren Interventionsstudien zu MBSR (Fischer et al., 2021: d = .48; Khoury et al., 2015: d = .55) wird für den geplanten unabhängigen t-Test ein mittlerer Effekt von d = 0.50 angenommen. Bei einem zweiseitigen α = .05 und einer angestrebten Teststärke von 1 − β = .80 ergibt sich eine erforderliche Stichprobengröße von N = 104 (n = 52 pro Gruppe). Um einen Dropout von bis zu 15% zu kompensieren, werden N = 120 Personen rekrutiert."
„Für die geplante Mixed ANOVA (2 Gruppen × 3 Messzeitpunkte) wurde eine a-priori Power-Analyse in G*Power (F Tests → ANOVA: Repeated measures, within-between interaction) durchgeführt. Als Zielgröße dient der Interaktionseffekt Zeit × Gruppe, für den ein mittlerer Effekt von f = .25 (entspricht η²p = .059) angenommen wird, basierend auf Metaanalysen zu psychologischen Interventionen (Cuijpers et al., 2019). Bei einer Inter-Messzeitpunkt-Korrelation von r = .50, α = .05 und Power = .80 ergibt sich N = 72 (n = 36 pro Gruppe). Unter Berücksichtigung eines 15%-Dropouts werden N = 84 Personen rekrutiert."
Exposé-Abschnitte in dieser Vollständigkeit – mit Software-Version, Literaturbelegen für die Effektstärke, Dropout-Puffer und G*Power-Screenshot im Anhang – liefern unsere Psychologie-Autoren als festen Bestandteil jeder Exposé-Mustervorlage. Der Unterschied zu typischen Studierendentexten: Jeder Parameter ist begründet, nicht nur angegeben.
Exposé Power-Analyse unklar?
Unsere Statistik-Experten berechnen Ihre G*Power-Analyse und formulieren den Abschnitt APA-konformEine post-hoc Power-Analyse berechnet die Power für eine bereits abgeschlossene Studie – also rückwirkend für das tatsächlich verwendete n und den beobachteten Effekt. Sie ist in der Methodenliteratur höchst umstritten.
Die „Beobachtete Power" (observed power) in SPSS basiert auf der beobachteten Effektstärke – nicht auf der wahren Effektstärke. Bei nicht-signifikanten Ergebnissen ist die beobachtete Effektstärke fast immer klein → beobachtete Power fast immer niedrig. Das ist mathematisch trivial und sagt nichts über die Qualität der Studie aus. Hoenig & Heisey (2001) zeigen, dass observed power keine neue Information über die Nullhypothese liefert.
Fragen Sie stattdessen: „Was war der kleinste Effekt, den meine Studie mit Power = .80 hätte entdecken können?" G*Power → Sensitivity: Compute required effect size. Eingabe: α, Power, n. Output: Minimaler detektierbarer Effekt. Wenn dieser Effekt größer ist als der theoretisch erwartete, war die Studie zu klein – das ist eine legitime und informative Aussage im Diskussionsteil.
SPSS gibt bei ANOVA automatisch die „Beobachtete Schärfe" (Observed Power) aus. Diese Zahl ist methodisch bedeutungslos und sollte nicht im Ergebnisteil zitiert werden. Berichten Sie stattdessen im Diskussionsteil die Sensitivity-Analyse: „Die Studie hatte ausreichend Power, um Effekte ab d = X zu entdecken" – das ist inhaltlich informativ.
η²p statt Cohens f in G*Power eingegeben. ANOVA braucht f, nicht η²p. Umrechnung nicht vergessen: f = √(η²p/(1−η²p)).
„Wir nehmen d = .50 an" ohne Quellenangabe oder Begründung. Gutachter fragen immer: Woher kommt dieser Wert? Mindestens: Cohen-Konvention mit Erklärung.
G*Power berechnet die Netto-Stichprobe. Realistischer Dropout in der Psychologie: 10–20%. Immer mit Brutto-Rekrutierungsziel planen und dies im Exposé begründen.
Bei RM-ANOVA: Anzahl der Messzeitpunkte und die Korrelation zwischen ihnen (r) korrekt eingeben. Standard: r = .50. Wer r = 0 eingibt, erhält eine viel zu große Stichprobenschätzung.
Observed Power aus SPSS im Ergebnisteil zitiert. Methodisch sinnlos – durch die Sensitivitätsanalyse ersetzen.
Bei klinischen Anwendungen (Diagnostik, Behandlungsentscheidungen) sollte Power ≥ .90 oder .95 angestrebt werden. Die .80-Konvention ist eine untere Grenze, kein Optimalwert.
Fehler ① und ② zusammen machen über 80% aller Power-Analyse-Korrekturen aus, die wir in den Exposés vornehmen. Beide lassen sich vor der Datenerhebung in einer Beratungsstunde klären – danach steht Ihre Stichprobenplanung auf solidem Fundament. Hier unverbindlich anfragen.
Verwenden Sie Cohens mittleren Effekt (d = .50, f = .25, r = .30) und begründen Sie das explizit: „Da keine spezifischen Vorstudien für dieses Design vorliegen, wird gemäß Cohen (1988) ein mittlerer Effekt angenommen, der in der sozialwissenschaftlichen Forschung als repräsentativer Schätzwert gilt." Alternativ: Recherchieren Sie Metaanalysen in angrenzenden Gebieten (z.B. wenn Sie eine spezielle Angstbehandlung untersuchen, suchen Sie Metaanalysen zu Angstbehandlungen allgemein) und verwenden Sie den Mittelwert der dort berichteten Effekte.
G*Power hat keine direkte Option für Mediationsanalysen. Der beste Ansatz: Monte-Carlo-Simulation nach Schoemann et al. (2017) – kostenloses Online-Tool unter schoemannsimulation.shinyapps.io/mediation. Eingabe: erwartete Pfadkoeffizienten a und b, Stichprobengröße, Bootstrap-Samples. Das Tool berechnet die Power für den indirekten Effekt. Als einfachere Näherung: Berechnen Sie die Power für die beiden Einzelregressionen (a-Pfad und b-Pfad) separat in G*Power und nehmen Sie die niedrigere als konservativen Schätzwert.
Drei Optionen: (1) Rekrutierung ausweiten – weitere Plattformen nutzen (Prolific, SurveyCircle, Aushänge), Zeitraum verlängern. (2) Design vereinfachen – weniger Prädiktoren, ein Messzeitpunkt weniger reduziert den n-Bedarf. (3) Sensitivitätsanalyse statt Poweranalyse: Berichten Sie im Diskussionsteil, dass die erreichte Stichprobe Effekte ab d = X mit .80 Power hätte entdecken können – und beurteilen Sie, ob der gefundene Effekt trotzdem praktisch bedeutsam ist. Nicht verschweigen, sondern transparent machen.
Es ist dringend empfohlen und von vielen Betreuern explizit verlangt. Fügen Sie einen Screenshot der G*Power-Ausgabe (inkl. aller Eingabeparameter und des Power-Plots) im Anhang ein. Alternativ: Berichten Sie alle Parameter so vollständig im Text, dass die Analyse reproduzierbar wäre. APA 7 empfiehlt die Angabe der verwendeten Software inklusive Version (z.B. „G*Power Version 3.1.9.7") und der Literaturquelle (Faul et al., 2007 oder 2009). Unsere Autoren liefern den G*Power-Screenshot formatiert als Anhangseite mit.
Nein. Power-Analyse im statistischen Sinne bezieht sich auf quantitative, inferenzstatistische Verfahren. In qualitativer Forschung gibt es kein äquivalentes Konzept – Stichprobenplanung erfolgt hier über theoretische Sättigung, bewusste Fallauswahl (purposive sampling) und Gütekriterien qualitativer Forschung (Transferierbarkeit, Glaubwürdigkeit). Für gemischte Methoden (Mixed Methods): Power-Analyse nur für den quantitativen Teil, für den qualitativen Teil Begründung der Fallzahl über inhaltliche Kriterien.
Mahalanobis-Distanz, VIF, Homoskedastizität – der erste Schritt nach der Datenerhebung, bevor Ihre Stichprobe in die Analyse geht.
→ Zum GuideWEIRD-Problem, Prolific vs. SurveyCircle, Inferenzpopulation – der Methodenteil nach der Rekrutierung.
→ Zum GuideWas tun, wenn die Hypothesen nicht bestätigt werden? Null-Befunde professionell einbetten und Limitationen sauber formulieren.
→ Zum GuideUnsere Statistik-Experten berechnen die G*Power-Analyse für Ihr Design, begründen die Effektstärke aus der Literatur und formulieren den Abschnitt APA-konform – für Bachelor-, Master- und Doktorarbeiten.
Exposé schreiben lassen Ghostwriter Kostenlos anfragen