p > .05 – und jetzt? Nicht-signifikante Ergebnisse sind kein Versagen, sondern wissenschaftliche Information. Dieser Guide zeigt, wie Sie Null-Befunde professionell einbetten, welche Zusatzanalysen Ihre Arbeit retten, und wie Sie Gutachter trotzdem überzeugen.
Wer mit p > .05 auf dieser Seite landet, hat meistens schon Daten erhoben und sucht dringend nach einer Lösung. Genau dieses Szenario kennen die promovierten Psychologen bei Business And Science aus der täglichen Arbeit: Studierende, deren Hypothesen nicht bestätigt wurden, brauchen einen Diskussionsteil, der methodisch überzeugt – und Zusatzanalysen wie Sensitivitätsanalysen, Äquivalenztests oder Bayes-Faktoren, die den Null-Befund wissenschaftlich einordnen. Unsere Psychologie-Ghostwriter und Statistik-Experten haben in über 12.000 Projekten seit 2012 genau solche Situationen professionell gelöst.
Ein nicht-signifikantes Ergebnis (p > .05) bedeutet nicht, dass kein Effekt existiert – es bedeutet, dass die Daten keine ausreichende Evidenz gegen die Nullhypothese liefern. Mögliche Ursachen: zu geringe Stichprobengröße (mangelnde Power), tatsächlich kein oder ein sehr kleiner Effekt, Messfehler oder Designmängel. Professionelles Vorgehen: (1) Sensitivitätsanalyse berichten – welchen Effekt hätte die Studie entdecken können? (2) Äquivalenztest (TOST) – aktiver Nachweis der praktischen Bedeutungslosigkeit des Effekts. (3) Bayes-Faktor – Evidenzstärke für H₀ quantifizieren. (4) Diskussion: alternative Erklärungen sachlich abwägen. Unsere Ghostwriter unterstützen Sie gerne bei Statistik.
Die Psychologie leidet unter dem „Publication Bias" – positive Befunde werden häufiger veröffentlicht als Null-Befunde. Das verzerrt das wissenschaftliche Gesamtbild. In Ihrer Abschlussarbeit ist ein sauber dokumentierter und methodisch solide begründeter Null-Befund kein Versagen, sondern ein valider wissenschaftlicher Beitrag. Gutachter wissen das – und würdigen transparentes Reporting mehr als das Verschweigen unerwünschter Ergebnisse.
Bevor Sie die Diskussion schreiben, diagnostizieren Sie systematisch, welche Ursache am wahrscheinlichsten ist. Das bestimmt, welche Zusatzanalysen sinnvoll sind.
| Symptom | Wahrscheinliche Ursache | Empfohlene Zusatzanalyse |
|---|---|---|
| Kleiner beobachteter Effekt (d < .10), n zu klein | Geringe Power | Sensitivitätsanalyse, a-priori Power für Replikation |
| Kleiner Effekt, n groß, KI schmal um Null | Echter Null-Effekt | Äquivalenztest (TOST), Bayes-Faktor BF₀₁ |
| Cronbachs Alpha < .70 am Instrument | Messfehler / schlechte Reliabilität | Reliability-Attenuation-Korrektur erwähnen |
| Manipulationscheck fehlt / schlecht | Experimentelle Manipulation nicht wirksam | Manipulationscheck nachträglich analysieren |
| p knapp über .05 (z.B. p = .06–.09) | Grenzfall / Power-Problem | Effektgröße, KI, Bayes-Faktor berichten |
In den meisten Fällen, die Studierende bei uns einreichen, ist die Ursache eine Kombination aus zu kleiner Stichprobe und unpräzisem Messinstrument. Unsere Methodiker identifizieren innerhalb weniger Stunden, welche Zusatzanalysen den Ergebnisteil retten und wie der Diskussionsteil den Null-Befund konstruktiv einbettet – ohne wissenschaftlich unsauber zu werden. Zur Statistik-Beratung.
Die Sensitivitätsanalyse beantwortet: „Was ist der kleinste Effekt, den meine Studie mit Power = .80 hätte detektieren können?" Das ist die methodisch sauberste Alternative zur (sinnlosen) observed power.
„Die vorliegende Studie hatte ausreichend Power (1 − β = .80), um Effekte ab einer Größe von d = .57 zu detektieren. Der beobachtete Effekt von d = .21 lag unterhalb dieser Detektionsschwelle, was darauf hindeutet, dass die nicht-signifikanten Befunde auf unzureichende Teststärke zurückzuführen sein könnten. Zur Replikation mit ausreichender Power wäre eine Stichprobe von N = 280 erforderlich (G*Power a-priori, d = .30, α = .05, 1−β = .80)."
Der Two One-Sided Tests (TOST) erlaubt es, aktiv nachzuweisen, dass ein Effekt praktisch bedeutungslos ist – also innerhalb eines vorab definierten „Äquivalenzbereichs" liegt.
Sie definieren einen Äquivalenzbereich [−Δ, +Δ] – den kleinsten Effekt, der Ihnen praktisch relevant erscheint (z.B. d = ±.20). Dann testen Sie: Liegt der wahre Effekt sicher innerhalb dieses Bereichs? Wenn beide einseitigen Tests signifikant sind (p < .05), können Sie aktiv behaupten: „Der Effekt ist vernachlässigbar klein."
Paket TOSTER: tost(m1, m2, sd1, sd2, n1, n2, low_eqbound_d = −.20, high_eqbound_d = .20). Output: Äquivalenz-p-Wert. Bei p < .05: Äquivalenz nachgewiesen. Definieren Sie den Äquivalenzbereich theoretisch begründet vor der Analyse – nicht datengesteuert.
„Ein Äquivalenztest (TOST; Lakens, 2017) mit vorab definierten Äquivalenzgrenzen von d = ±.20 ergab, dass der beobachtete Effekt als praktisch bedeutungslos eingestuft werden kann, t(118) = 2.14, p = .017 (obere Grenze) und t(118) = 2.31, p = .011 (untere Grenze). Der 90%-Konfidenzintervall des Effekts [−0.15, 0.17] lag vollständig innerhalb der Äquivalenzgrenzen."
Der Bayes-Faktor (BF₀₁) gibt an, wie viel wahrscheinlicher die Daten unter H₀ sind als unter H₁. Er ermöglicht eine direkte Aussage über die Evidenz für den Null-Effekt – etwas, das klassische Frequentistik nicht kann.
| BF₀₁-Wert | Interpretation | Bedeutung für Ihre Arbeit |
|---|---|---|
| BF₀₁ > 10 | Starke Evidenz für H₀ | Aktiv für Nulleffekt argumentieren |
| BF₀₁ = 3–10 | Moderate Evidenz für H₀ | Vorsichtig für Null-Effekt argumentieren |
| BF₀₁ = 1–3 | Schwache / anekdotische Evidenz | Keine Aussage möglich – „Datenlage unklar" |
| BF₀₁ < 1 | Evidenz für H₁ (trotz p > .05) | Hinweis auf Power-Problem (Effekt existiert, aber zu klein für α-Test) |
Für t-Test: library(BayesFactor); ttestBF(x = gruppe1, y = gruppe2). Output: BF₁₀ (Evidenz für H₁ über H₀). BF₀₁ = 1/BF₁₀.
„Ergänzend wurde ein Bayes-Faktor berechnet. BF₀₁ = 4.82 deutet auf moderate Evidenz für die Nullhypothese hin (Jeffreys, 1961): Die Daten sind unter Annahme keines Gruppenunterschieds 4.8-mal wahrscheinlicher als unter Annahme eines Unterschieds."
„Entgegen der Hypothese ergab die Varianzanalyse keinen signifikanten Unterschied zwischen der Interventions- und der Kontrollgruppe in den Angstsymptomen, F(1, 118) = 1.84, p = .178, η²p = .015, 95%-KI [0, .067]. Der beobachtete Effekt war gering (d = .25, 95%-KI [−0.11, 0.61]). Ein Äquivalenztest (TOST, Äquivalenzgrenzen d = ±.30) war nicht signifikant (p = .214), sodass weder ein bedeutsamer Effekt noch Äquivalenz nachgewiesen werden konnte. Der Bayes-Faktor lieferte anekdotische Evidenz für die Nullhypothese, BF₀₁ = 2.14."
Bei nicht-signifikanten Ergebnissen ist es besonders wichtig, Effektgröße und Konfidenzintervall zu berichten. Ein nicht-signifikantes p = .12 mit d = .45 [−0.05, 0.95] sagt etwas völlig anderes aus als p = .12 mit d = .08 [−0.20, 0.36]. Das KI zeigt, ob die Studie zu wenig Power hatte (breites KI) oder ob der Effekt wirklich klein ist (schmales KI nahe Null).
Beginnen Sie mit einer sachlichen Zusammenfassung: „Die Hypothese, dass X mit Y zusammenhängt, konnte in der vorliegenden Studie nicht bestätigt werden." Keine Entschuldigungen, kein übermäßiges Relativieren – ein Null-Befund ist ein Befund.
Gibt es andere Studien mit ähnlichen Null-Befunden? Oder widerspricht Ihr Ergebnis einem etablierten Befund? Beides ist diskussionswürdig. Verweisen Sie auf Metaanalysen und diskutieren Sie, ob Ihre Stichprobe oder Ihr Design systematische Unterschiede zu positiven Befunden erklären könnte.
Berichten Sie die Sensitivitätsanalyse: „Die Studie hatte Power, Effekte ab d = .57 zu entdecken. Der beobachtete d = .21 lag darunter – ein echter Effekt dieser Größe wäre in dieser Studie mit 80%-iger Wahrscheinlichkeit nicht detektierbar gewesen." Das ist wissenschaftlich ehrlich und zeigt methodisches Bewusstsein.
Prüfen Sie: Reliabilität des Messinstruments? Manipulationscheck? Stichprobenspezifika? Wählen Sie 2–3 methodisch plausible Erklärungen und diskutieren Sie diese sachlich – ohne den Anschein zu erwecken, Sie würden Ausreden suchen.
Welche Studie wäre nötig, um die Frage abschließend zu klären? Größere Stichprobe? Anderes Design? Sensitiveres Messinstrument? Das zeigt Perspektive und wissenschaftliche Reife.
Einen Diskussionsteil zu schreiben, der Null-Befunde ehrlich einordnet, ohne die Arbeit abzuwerten, ist eine der schwierigsten Aufgaben in der Abschlussarbeit. Unsere Autoren formulieren diesen Teil so, dass Gutachter methodische Reife erkennen – nicht Ausreden. Jetzt anfragen.
Null-Befund in der Bachelorarbeit?
Unsere Experten formulieren Ergebnis- und Diskussionsteil professionell – auch bei unerwarteten Befundenp > .05 widerlegt keine Hypothese – es fehlt lediglich Evidenz gegen H₀. Korrekte Formulierung: „Die Hypothese konnte nicht bestätigt werden" oder „es fanden sich keine signifikanten Unterschiede."
Die „Beobachtete Schärfe" in SPSS ist bei nicht-signifikanten Ergebnissen fast immer niedrig – das ist trivial und uninformativ. Ersetzen Sie sie durch die Sensitivitätsanalyse.
Nur p zu berichten macht den Null-Befund nicht interpretierbar. η²p, d oder r mit 95%-KI sind Pflicht, damit Leser einschätzen können, ob es ein Power- oder ein echtes Null-Effekt-Problem ist.
Einzelne nicht-signifikante Tests in langen Tabellen „verschwinden" lassen oder im Text nur signifikante Befunde hervorheben. Jeder Test muss vollständig berichtet werden – Selektivität ist wissenschaftliches Fehlverhalten.
Die Fehler ② und ③ lassen sich mit wenigen Zusatzanalysen vollständig beheben – die Sensitivitätsanalyse in G*Power dauert fünf Minuten, ein Bayes-Faktor in R eine halbe Stunde. Wenn Sie unsicher sind, welche Analysen Ihre Arbeit aufwerten, beraten unsere Statistiker Sie gern – hier unverbindlich anfragen.
Ja – und zwar eine sehr gute. Gutachter bewerten nicht das Ergebnis, sondern die Qualität der wissenschaftlichen Arbeit: Methodensauberkeit, Transparenz, Tiefe der Diskussion. Eine Arbeit, die einen Null-Befund methodisch einwandfrei dokumentiert, mit Äquivalenztest und Sensitivitätsanalyse ergänzt und in der Diskussion professionell einbettet, überzeugt mehr als eine Arbeit mit erwünschtem p < .05 aber oberflächlicher Diskussion. Unsere Autoren helfen Ihnen, genau diese methodische Tiefe zu erreichen.
Das ist schwieriger, aber handhabbar. Führen Sie zunächst die Sensitivitätsanalyse durch – wenn Ihre Studie nur Effekte ab d = .70 entdecken konnte und Sie d = .30 erwartet hatten, ist das eine methodische Erklärung für alle Null-Befunde. Führen Sie wenn möglich explorative Analysen durch (deutlich als explorativ kennzeichnen), die zeigen ob es Muster gibt. Und fokussieren Sie die Diskussion auf das, was die Studie trotzdem geleistet hat: einen sorgfältigen Versuch, eine wichtige Frage zu beantworten, und klare Hinweise für zukünftige Forschung.
Nein. Nachträgliche Änderungen am Design, an Auswertungsstrategien oder am Ausschluss von Fällen, die auf nicht-signifikante Ergebnisse reagieren, sind als „HARKing" (Hypothesizing After Results are Known) oder „p-hacking" bekannt – wissenschaftliches Fehlverhalten. Erlaubt sind: (1) vorab geplante explorative Analysen, die klar als solche gekennzeichnet werden, (2) Sensitivitätsanalysen und Zusatztests wie TOST oder Bayes-Faktor, (3) Robustheitschecks (z.B. Ausschluss von Extremwerten mit dokumentierter Begründung).
Vollständiges Reporting inklusive nicht-signifikanter Prädiktoren.
→ Zum GuideUnsere Experten helfen, Null-Befunde methodisch sauber einzubetten, Zusatzanalysen durchzuführen und den Diskussionsteil überzeugend zu formulieren.
Statistik-Ghostwriter Kostenlos anfragen