Nicht-signifikante Ergebnisse:
Der Rettungs-Guide für Psychologie-Arbeiten

p > .05 – und jetzt? Nicht-signifikante Ergebnisse sind kein Versagen, sondern wissenschaftliche Information. Dieser Guide zeigt, wie Sie Null-Befunde professionell einbetten, welche Zusatzanalysen Ihre Arbeit retten, und wie Sie Gutachter trotzdem überzeugen.

Null-Befunde einbetten
Sensitivitätsanalyse
Äquivalenztest
Bayes-Faktor
Diskussion formulieren

Wer mit p > .05 auf dieser Seite landet, hat meistens schon Daten erhoben und sucht dringend nach einer Lösung. Genau dieses Szenario kennen die promovierten Psychologen bei Business And Science aus der täglichen Arbeit: Studierende, deren Hypothesen nicht bestätigt wurden, brauchen einen Diskussionsteil, der methodisch überzeugt – und Zusatzanalysen wie Sensitivitätsanalysen, Äquivalenztests oder Bayes-Faktoren, die den Null-Befund wissenschaftlich einordnen. Unsere Psychologie-Ghostwriter und Statistik-Experten haben in über 12.000 Projekten seit 2012 genau solche Situationen professionell gelöst.

1. Was p > .05 wirklich bedeutet – und was nicht

❌ Was p > .05 NICHT bedeutet

  • Dass kein Effekt existiert
  • Dass die Hypothese widerlegt wurde
  • Dass die Studie wertlos ist
  • Dass H₀ wahr ist
  • Dass sich die Gruppen nicht unterscheiden

✅ Was p > .05 tatsächlich bedeutet

  • Die Daten liefern keine ausreichende Evidenz gegen H₀
  • Der beobachtete Effekt ist statistisch nicht von Null unterscheidbar
  • Das Ergebnis ist mit H₀ vereinbar – nicht Beweis für H₀
  • Möglicherweise zu geringe Power für kleinen echten Effekt
  • Ein inhaltlich bedeutsamer Null-Befund ist möglich

💡 Null-Befunde sind wissenschaftlich wertvoll

Die Psychologie leidet unter dem „Publication Bias" – positive Befunde werden häufiger veröffentlicht als Null-Befunde. Das verzerrt das wissenschaftliche Gesamtbild. In Ihrer Abschlussarbeit ist ein sauber dokumentierter und methodisch solide begründeter Null-Befund kein Versagen, sondern ein valider wissenschaftlicher Beitrag. Gutachter wissen das – und würdigen transparentes Reporting mehr als das Verschweigen unerwünschter Ergebnisse.

2. Ursachendiagnose: Warum nicht signifikant?

Bevor Sie die Diskussion schreiben, diagnostizieren Sie systematisch, welche Ursache am wahrscheinlichsten ist. Das bestimmt, welche Zusatzanalysen sinnvoll sind.

🔴
Zu geringe Power
Stichprobe zu klein für den erwarteten Effekt. Häufigste Ursache in Bachelorarbeiten. Nachweis: Post-hoc Sensitivitätsanalyse zeigt, dass nur große Effekte detektierbar waren.
🟡
Echter Null-Effekt
Der Effekt existiert tatsächlich nicht oder ist vernachlässigbar klein. Nachweis: Äquivalenztest oder Bayes-Faktor liefert Evidenz für H₀. Theoretisch interessant.
🟢
Design-/Messmängel
Messinstrument zu ungenau (niedrige Reliabilität), Manipulationscheck fehlt, Confounds nicht kontrolliert, falsche Operationalisierung.
SymptomWahrscheinliche UrsacheEmpfohlene Zusatzanalyse
Kleiner beobachteter Effekt (d < .10), n zu kleinGeringe PowerSensitivitätsanalyse, a-priori Power für Replikation
Kleiner Effekt, n groß, KI schmal um NullEchter Null-EffektÄquivalenztest (TOST), Bayes-Faktor BF₀₁
Cronbachs Alpha < .70 am InstrumentMessfehler / schlechte ReliabilitätReliability-Attenuation-Korrektur erwähnen
Manipulationscheck fehlt / schlechtExperimentelle Manipulation nicht wirksamManipulationscheck nachträglich analysieren
p knapp über .05 (z.B. p = .06–.09)Grenzfall / Power-ProblemEffektgröße, KI, Bayes-Faktor berichten

Die Ursachendiagnose – wo unsere Erfahrung den Unterschied macht

In den meisten Fällen, die Studierende bei uns einreichen, ist die Ursache eine Kombination aus zu kleiner Stichprobe und unpräzisem Messinstrument. Unsere Methodiker identifizieren innerhalb weniger Stunden, welche Zusatzanalysen den Ergebnisteil retten und wie der Diskussionsteil den Null-Befund konstruktiv einbettet – ohne wissenschaftlich unsauber zu werden. Zur Statistik-Beratung.

3. Sensitivitätsanalyse: Welchen Effekt hätte die Studie entdecken können?

Die Sensitivitätsanalyse beantwortet: „Was ist der kleinste Effekt, den meine Studie mit Power = .80 hätte detektieren können?" Das ist die methodisch sauberste Alternative zur (sinnlosen) observed power.

G*Power: Sensitivity-Analyse durchführen

  1. G*Power öffnen → Passenden Test wählen (z.B. t-Tests → Means: Two independent groups)
  2. Type of power analysis: Sensitivity: Compute required effect size
  3. Eingabe: α = .05, Power = .80, tatsächliches n
  4. Output: Minimaler detektierbarer Effekt (z.B. d = .57)
Diskussionsteil

„Die vorliegende Studie hatte ausreichend Power (1 − β = .80), um Effekte ab einer Größe von d = .57 zu detektieren. Der beobachtete Effekt von d = .21 lag unterhalb dieser Detektionsschwelle, was darauf hindeutet, dass die nicht-signifikanten Befunde auf unzureichende Teststärke zurückzuführen sein könnten. Zur Replikation mit ausreichender Power wäre eine Stichprobe von N = 280 erforderlich (G*Power a-priori, d = .30, α = .05, 1−β = .80)."

4. Äquivalenztest (TOST): Aktiv für den Null-Effekt argumentieren

Der Two One-Sided Tests (TOST) erlaubt es, aktiv nachzuweisen, dass ein Effekt praktisch bedeutungslos ist – also innerhalb eines vorab definierten „Äquivalenzbereichs" liegt.

Logik des TOST

Sie definieren einen Äquivalenzbereich [−Δ, +Δ] – den kleinsten Effekt, der Ihnen praktisch relevant erscheint (z.B. d = ±.20). Dann testen Sie: Liegt der wahre Effekt sicher innerhalb dieses Bereichs? Wenn beide einseitigen Tests signifikant sind (p < .05), können Sie aktiv behaupten: „Der Effekt ist vernachlässigbar klein."

Durchführung in R

Paket TOSTER: tost(m1, m2, sd1, sd2, n1, n2, low_eqbound_d = −.20, high_eqbound_d = .20). Output: Äquivalenz-p-Wert. Bei p < .05: Äquivalenz nachgewiesen. Definieren Sie den Äquivalenzbereich theoretisch begründet vor der Analyse – nicht datengesteuert.

Ergebnisteil

„Ein Äquivalenztest (TOST; Lakens, 2017) mit vorab definierten Äquivalenzgrenzen von d = ±.20 ergab, dass der beobachtete Effekt als praktisch bedeutungslos eingestuft werden kann, t(118) = 2.14, p = .017 (obere Grenze) und t(118) = 2.31, p = .011 (untere Grenze). Der 90%-Konfidenzintervall des Effekts [−0.15, 0.17] lag vollständig innerhalb der Äquivalenzgrenzen."

5. Bayes-Faktor: Evidenz für H₀ quantifizieren

Der Bayes-Faktor (BF₀₁) gibt an, wie viel wahrscheinlicher die Daten unter H₀ sind als unter H₁. Er ermöglicht eine direkte Aussage über die Evidenz für den Null-Effekt – etwas, das klassische Frequentistik nicht kann.

BF₀₁-WertInterpretationBedeutung für Ihre Arbeit
BF₀₁ > 10Starke Evidenz für H₀Aktiv für Nulleffekt argumentieren
BF₀₁ = 3–10Moderate Evidenz für H₀Vorsichtig für Null-Effekt argumentieren
BF₀₁ = 1–3Schwache / anekdotische EvidenzKeine Aussage möglich – „Datenlage unklar"
BF₀₁ < 1Evidenz für H₁ (trotz p > .05)Hinweis auf Power-Problem (Effekt existiert, aber zu klein für α-Test)

Bayes-Faktor in R berechnen (BayesFactor-Paket)

Für t-Test: library(BayesFactor); ttestBF(x = gruppe1, y = gruppe2). Output: BF₁₀ (Evidenz für H₁ über H₀). BF₀₁ = 1/BF₁₀.

Ergebnisteil

„Ergänzend wurde ein Bayes-Faktor berechnet. BF₀₁ = 4.82 deutet auf moderate Evidenz für die Nullhypothese hin (Jeffreys, 1961): Die Daten sind unter Annahme keines Gruppenunterschieds 4.8-mal wahrscheinlicher als unter Annahme eines Unterschieds."

6. Ergebnisteil: Nicht-signifikante Befunde vollständig berichten

Musterformulierung: Nicht-signifikantes Hauptergebnis

Ergebnisteil

„Entgegen der Hypothese ergab die Varianzanalyse keinen signifikanten Unterschied zwischen der Interventions- und der Kontrollgruppe in den Angstsymptomen, F(1, 118) = 1.84, p = .178, η²p = .015, 95%-KI [0, .067]. Der beobachtete Effekt war gering (d = .25, 95%-KI [−0.11, 0.61]). Ein Äquivalenztest (TOST, Äquivalenzgrenzen d = ±.30) war nicht signifikant (p = .214), sodass weder ein bedeutsamer Effekt noch Äquivalenz nachgewiesen werden konnte. Der Bayes-Faktor lieferte anekdotische Evidenz für die Nullhypothese, BF₀₁ = 2.14."

⚠️ Nie nur p berichten

Bei nicht-signifikanten Ergebnissen ist es besonders wichtig, Effektgröße und Konfidenzintervall zu berichten. Ein nicht-signifikantes p = .12 mit d = .45 [−0.05, 0.95] sagt etwas völlig anderes aus als p = .12 mit d = .08 [−0.20, 0.36]. Das KI zeigt, ob die Studie zu wenig Power hatte (breites KI) oder ob der Effekt wirklich klein ist (schmales KI nahe Null).

7. Diskussionsteil: Den Null-Befund professionell einbetten

1

Befund klar benennen – ohne Entschuldigung

Beginnen Sie mit einer sachlichen Zusammenfassung: „Die Hypothese, dass X mit Y zusammenhängt, konnte in der vorliegenden Studie nicht bestätigt werden." Keine Entschuldigungen, kein übermäßiges Relativieren – ein Null-Befund ist ein Befund.

2

Einordnung in die Literatur

Gibt es andere Studien mit ähnlichen Null-Befunden? Oder widerspricht Ihr Ergebnis einem etablierten Befund? Beides ist diskussionswürdig. Verweisen Sie auf Metaanalysen und diskutieren Sie, ob Ihre Stichprobe oder Ihr Design systematische Unterschiede zu positiven Befunden erklären könnte.

3

Power und Detektionsschwelle transparent machen

Berichten Sie die Sensitivitätsanalyse: „Die Studie hatte Power, Effekte ab d = .57 zu entdecken. Der beobachtete d = .21 lag darunter – ein echter Effekt dieser Größe wäre in dieser Studie mit 80%-iger Wahrscheinlichkeit nicht detektierbar gewesen." Das ist wissenschaftlich ehrlich und zeigt methodisches Bewusstsein.

4

Methodische Alternativerklärungen

Prüfen Sie: Reliabilität des Messinstruments? Manipulationscheck? Stichprobenspezifika? Wählen Sie 2–3 methodisch plausible Erklärungen und diskutieren Sie diese sachlich – ohne den Anschein zu erwecken, Sie würden Ausreden suchen.

5

Implikationen für die Forschung

Welche Studie wäre nötig, um die Frage abschließend zu klären? Größere Stichprobe? Anderes Design? Sensitiveres Messinstrument? Das zeigt Perspektive und wissenschaftliche Reife.

Einen Diskussionsteil zu schreiben, der Null-Befunde ehrlich einordnet, ohne die Arbeit abzuwerten, ist eine der schwierigsten Aufgaben in der Abschlussarbeit. Unsere Autoren formulieren diesen Teil so, dass Gutachter methodische Reife erkennen – nicht Ausreden. Jetzt anfragen.

Null-Befund in der Bachelorarbeit?

Unsere Experten formulieren Ergebnis- und Diskussionsteil professionell – auch bei unerwarteten Befunden
Bachelorarbeit schreiben lassen →

8. Häufige Fehler beim Umgang mit Null-Befunden

① „Die Hypothese wurde widerlegt"

p > .05 widerlegt keine Hypothese – es fehlt lediglich Evidenz gegen H₀. Korrekte Formulierung: „Die Hypothese konnte nicht bestätigt werden" oder „es fanden sich keine signifikanten Unterschiede."

② Beobachtete Power aus SPSS zitieren

Die „Beobachtete Schärfe" in SPSS ist bei nicht-signifikanten Ergebnissen fast immer niedrig – das ist trivial und uninformativ. Ersetzen Sie sie durch die Sensitivitätsanalyse.

③ Effektgröße und KI fehlen

Nur p zu berichten macht den Null-Befund nicht interpretierbar. η²p, d oder r mit 95%-KI sind Pflicht, damit Leser einschätzen können, ob es ein Power- oder ein echtes Null-Effekt-Problem ist.

④ Null-Befund verstecken oder verharmlosen

Einzelne nicht-signifikante Tests in langen Tabellen „verschwinden" lassen oder im Text nur signifikante Befunde hervorheben. Jeder Test muss vollständig berichtet werden – Selektivität ist wissenschaftliches Fehlverhalten.

Die Fehler ② und ③ lassen sich mit wenigen Zusatzanalysen vollständig beheben – die Sensitivitätsanalyse in G*Power dauert fünf Minuten, ein Bayes-Faktor in R eine halbe Stunde. Wenn Sie unsicher sind, welche Analysen Ihre Arbeit aufwerten, beraten unsere Statistiker Sie gern – hier unverbindlich anfragen.

FAQ: Nicht-signifikante Ergebnisse

Kann ich mit einem Null-Befund eine gute Note bekommen?

Ja – und zwar eine sehr gute. Gutachter bewerten nicht das Ergebnis, sondern die Qualität der wissenschaftlichen Arbeit: Methodensauberkeit, Transparenz, Tiefe der Diskussion. Eine Arbeit, die einen Null-Befund methodisch einwandfrei dokumentiert, mit Äquivalenztest und Sensitivitätsanalyse ergänzt und in der Diskussion professionell einbettet, überzeugt mehr als eine Arbeit mit erwünschtem p < .05 aber oberflächlicher Diskussion. Unsere Autoren helfen Ihnen, genau diese methodische Tiefe zu erreichen.

Was mache ich, wenn alle meine Hypothesen nicht bestätigt werden?

Das ist schwieriger, aber handhabbar. Führen Sie zunächst die Sensitivitätsanalyse durch – wenn Ihre Studie nur Effekte ab d = .70 entdecken konnte und Sie d = .30 erwartet hatten, ist das eine methodische Erklärung für alle Null-Befunde. Führen Sie wenn möglich explorative Analysen durch (deutlich als explorativ kennzeichnen), die zeigen ob es Muster gibt. Und fokussieren Sie die Diskussion auf das, was die Studie trotzdem geleistet hat: einen sorgfältigen Versuch, eine wichtige Frage zu beantworten, und klare Hinweise für zukünftige Forschung.

Darf ich das Design nachträglich ändern wenn die Ergebnisse nicht signifikant sind?

Nein. Nachträgliche Änderungen am Design, an Auswertungsstrategien oder am Ausschluss von Fällen, die auf nicht-signifikante Ergebnisse reagieren, sind als „HARKing" (Hypothesizing After Results are Known) oder „p-hacking" bekannt – wissenschaftliches Fehlverhalten. Erlaubt sind: (1) vorab geplante explorative Analysen, die klar als solche gekennzeichnet werden, (2) Sensitivitätsanalysen und Zusatztests wie TOST oder Bayes-Faktor, (3) Robustheitschecks (z.B. Ausschluss von Extremwerten mit dokumentierter Begründung).

Weitere Methodik-Guides

Power-Analyse G*Power

A-priori Stichprobenplanung und Sensitivitätsanalyse im Detail.

→ Zum Guide

Regressionsanalyse APA-Stil

Vollständiges Reporting inklusive nicht-signifikanter Prädiktoren.

→ Zum Guide

Stichprobenbeschreibung

Stichprobencharakteristika und Rekrutierung im Methodenteil.

→ Zum Guide

← Zurück zum Methodik-Hub

Unerwartete Ergebnisse in Ihrer Arbeit?

Unsere Experten helfen, Null-Befunde methodisch sauber einzubetten, Zusatzanalysen durchzuführen und den Diskussionsteil überzeugend zu formulieren.

Statistik-Ghostwriter Kostenlos anfragen
crossmenu