Paneldaten-Analyse: Fixed Effects vs. Random Effects in der VWL-Abschlussarbeit

Warum nutzt die VWL fast immer Fixed Effects? Wie funktioniert der Hausman-Test? Ein praxisnaher Leitfaden mit Stata- und R-Code für Bachelorarbeiten und Masterarbeiten.

FE vs. RE verständlich erklärt
Hausman-Test Schritt für Schritt
Stata- & R-Code
Diagnostik-Checkliste

Kurzantwort: FE oder RE?

In der angewandten VWL gilt eine einfache Faustregel: Im Zweifel Fixed Effects. Der Grund: FE kontrolliert für alle zeitkonstanten unbeobachteten Unterschiede zwischen Ihren Einheiten – ohne dass Sie wissen müssen, welche das sind. Random Effects ist effizienter, setzt aber eine starke Annahme voraus: dass die unbeobachtete Heterogenität nicht mit den erklärenden Variablen korreliert. Der Hausman-Test prüft genau diese Annahme – und verwirft sie in den meisten VWL-Anwendungen.

1. Warum Paneldaten?

Paneldaten (auch: Längsschnittdaten) beobachten dieselben Einheiten – Personen, Firmen, Länder, Regionen – über mehrere Zeitpunkte hinweg. Diese Struktur bietet gegenüber reinen Querschnittsdaten einen entscheidenden Vorteil: Sie können unbeobachtete Heterogenität kontrollieren.

Unbeobachtete Heterogenität meint: Einheiten unterscheiden sich in Merkmalen, die Sie nicht messen können – die aber sowohl das Outcome als auch die erklärenden Variablen beeinflussen. Wenn Sie diese Unterschiede ignorieren, sind Ihre Schätzer verzerrt (Omitted Variable Bias). Paneldaten ermöglichen es, diese Verzerrung zu beseitigen – und genau darum dreht sich die Wahl zwischen Fixed und Random Effects.

Beispiel: Bildungsrendite

Sie untersuchen den Effekt von Bildung auf Einkommen. Personen mit höherer Motivation verdienen mehr und investieren mehr in Bildung – aber Motivation ist nicht im Datensatz. In Querschnittsdaten überschätzen Sie den Bildungseffekt, weil Motivation als Omitted Variable wirkt. Mit Paneldaten und Fixed Effects vergleichen Sie jede Person mit sich selbst über die Zeit – die zeitkonstante Motivation fällt raus.

Typische Paneldatensätze in der VWL

DatensatzEinheitenZeitraumTypische Anwendung
SOEPPersonen/HaushalteSeit 1984, jährlichArbeitsmarkt, Bildung, Ungleichheit
EU-SILCPersonen/HaushalteSeit 2005, jährlichArmut, Einkommensverteilung, europ. Vergleich
Penn World TableLänderSeit 1950Wachstum, Produktivität, Konvergenz
Compustat / AmadeusFirmenVariabelCorporate Finance, Investitionen, Produktivität
IAB-Daten (LIAB, SIAB)Beschäftigte/BetriebeVariabelArbeitsmarktforschung, Löhne, Beschäftigung

2. Fixed Effects vs. Random Effects: Was ist der Unterschied?

Das allgemeine Paneldatenmodell

Yit = βXit + αi + εit αi = unbeobachteter, zeitkonstanter individueller Effekt Die zentrale Frage: Korreliert αi mit Xit?

Fixed Effects (FE)

Annahme: αi darf mit Xit korrelieren.

Methode: αi wird durch Within-Transformation eliminiert: Jede Variable wird um ihren individuellen Mittelwert bereinigt (Demeaning). Man vergleicht jede Einheit nur noch mit sich selbst über die Zeit.

Vorteil: Konsistent, auch wenn unbeobachtete Heterogenität mit X korreliert. Das ist der Normalfall in der VWL.

Nachteil: Zeitkonstante Variablen (Geschlecht, Region, Branche) werden eliminiert – deren Effekt kann nicht geschätzt werden. Weniger effizient als RE.

Random Effects (RE)

Annahme: αi ist nicht mit Xit korreliert – die unbeobachtete Heterogenität ist „zufällig“.

Methode: αi wird als Teil des zusammengesetzten Fehlerterms behandelt. Schätzung per GLS (Generalized Least Squares).

Vorteil: Effizienter als FE (kleinere Standardfehler). Zeitkonstante Variablen können geschätzt werden.

Nachteil: Inkonsistent, wenn die zentrale Annahme verletzt ist – und in der VWL ist sie es fast immer.

If you are using panel data to evaluate a treatment effect and you are worried about omitted variables bias – which you should be – then fixed effects is the way to go. Random effects is a bet that the unobservables are uncorrelated with your regressors. In most economic applications, that is a bet you will lose. — Sinngemäß nach Angrist & Pischke, Mostly Harmless Econometrics (2009)

Zusammenfassung in einer Tabelle

KriteriumFixed EffectsRandom Effects
Behandlung von αiEliminiert (Within-Transformation)Teil des Fehlerterms (GLS)
Korrelation αi mit XitErlaubtNicht erlaubt (H0 im Hausman-Test)
KonsistenzImmer konsistentNur unter RE-Annahme konsistent
EffizienzWeniger effizientEffizienter (unter RE-Annahme)
Zeitkonstante VariablenNicht schätzbarSchätzbar
Stata-Befehlxtreg Y X, fe  /  reghdfe Y X, absorb(id)xtreg Y X, re
R-Paketplm: plm(... , model="within")  /  fixest: feols(... | id)plm: plm(... , model="random")
Verwendung in VWL-JournalsDominierend – de-facto StandardSelten als Hauptspezifikation; ggf. als Robustheitscheck

3. Der Hausman-Test: Schritt für Schritt

Der Hausman-Test (1978) prüft, ob die FE- und RE-Schätzer systematisch voneinander abweichen. Wenn ja, ist die RE-Annahme verletzt und FE ist die korrekte Wahl.

H0: Kein systematischer Unterschied zwischen FE und RE        (αi ist nicht mit Xit korreliert → RE ist konsistent und effizienter) H1: Systematischer Unterschied        (αi korreliert mit Xit → nur FE ist konsistent) Teststatistik: H = (bFE − bRE)' [Var(bFE) − Var(bRE)]−1 (bFE − bRE) ~ χ²(k)
FE schätzen RE schätzen Hausman-Test p < 0,05?
Ja → H0 verwerfen → Fixed Effects | Nein → H0 nicht verwerfen → RE möglich

Hausman-Test in Stata und R

STATA
* Panel-Variable setzen
xtset id year

* Fixed Effects schätzen und speichern
xtreg ln_einkommen bildungsjahre erfahrung, fe
estimates store fe_modell

* Random Effects schätzen und speichern
xtreg ln_einkommen bildungsjahre erfahrung, re
estimates store re_modell

* Hausman-Test
hausman fe_modell re_modell
* Ergebnis: Prob > chi2 < 0.05 → FE verwenden
R (plm)
library(plm)

# Panel-Daten definieren
pdata <- pdata.frame(df, index = c("id", "year"))

# FE und RE schätzen
fe <- plm(ln_einkommen ~ bildungsjahre + erfahrung,
       data = pdata, model = "within")
re <- plm(ln_einkommen ~ bildungsjahre + erfahrung,
       data = pdata, model = "random")

# Hausman-Test
phtest(fe, re)
# p-value < 0.05 → FE verwenden

Vorsicht: Der Hausman-Test ist nicht alles

Der Hausman-Test kann bei kleinen Stichproben geringe Power haben (H0 wird nicht verworfen, obwohl FE korrekt wäre) oder bei sehr großen Stichproben fast immer H0 verwerfen. In der Praxis ist der Test ein Argument unter mehreren – aber die inhaltliche Begründung („Ist es plausibel, dass die unbeobachtete Heterogenität unkorreliert ist?“) wiegt schwerer. In den meisten VWL-Anwendungen ist die Antwort: Nein – und deshalb ist FE Standard.

4. Warum die VWL fast immer Fixed Effects wählt

In der angewandten Mikroökonometrie – Arbeitsmarkt, Bildung, Gesundheit, Entwicklung, Public Economics – sind Fixed Effects seit den 1990er-Jahren der unbestrittene Standard. Dafür gibt es vier Gründe.

Grund 1: Omitted Variable Bias ist allgegenwärtig

In ökonomischen Fragestellungen gibt es fast immer unbeobachtete Merkmale (Motivation, Fähigkeit, Unternehmenskultur, institutionelle Qualität), die sowohl das Outcome als auch die erklärenden Variablen beeinflussen. FE eliminiert all diese zeitkonstanten Faktoren – ohne dass Sie sie messen müssen.

Grund 2: Die RE-Annahme ist in der VWL selten haltbar

Die Annahme, dass unbeobachtete individuelle Effekte „zufällig“ und unkorreliert mit den Regressoren sind, ist in ökonomischen Kontexten fast nie überzeugend. Beispiel: Wenn Sie den Effekt von Firmengröße auf Produktivität schätzen, ist die unbeobachtete Managementqualität mit Sicherheit sowohl mit Größe als auch mit Produktivität korreliert.

Grund 3: Die Credibility Revolution

Seit Angrist und Pischke (2009, 2010) hat sich in der VWL ein Konsens herausgebildet, dass kausale Identifikation Vorrang vor Effizienz hat. FE ist zwar weniger effizient als RE, aber robuster gegenüber Fehlspezifikation. In einer Disziplin, die kausale Aussagen anstrebt, wiegt Konsistenz schwerer als Effizienz.

Grund 4: Reviewer erwarten es

In Top-Journals (AER, QJE, Econometrica, RESTAT) werden RE-Schätzungen als Hauptspezifikation kaum noch akzeptiert – es sei denn, die RE-Annahme wird explizit und überzeugend begründet. Das prägt auch die Erwartungen von Betreuern an Bachelorarbeiten und Masterarbeiten.

Wann Random Effects trotzdem sinnvoll ist

RE kann als Hauptspezifikation verwendet werden, wenn: (1) die Einheiten tatsächlich zufällig aus einer größeren Population gezogen wurden (z. B. Schulen in einer randomisierten Studie), (2) der Hausman-Test H0 nicht verwirft, und (3) Sie zeitkonstante Variablen schätzen müssen. Selbst dann sollten Sie FE als Robustheitscheck berichten. In der Praxis wird RE häufig in der Gesundheitsökonomie und Bildungsforschung verwendet – in der Arbeitsmikro und Entwicklungsökonomik fast nie.

5. Kompletter Workflow: Paneldaten-Analyse in Stata & R

Der folgende Workflow deckt die typischen Schritte einer Paneldatenanalyse in einer empirischen Abschlussarbeit ab – von der Datenstruktur bis zum Tabellenexport.

STATA – KOMPLETTER WORKFLOW
* 1. Daten laden und Panel-Struktur setzen
use "paneldaten.dta", clear
xtset id year
xtdescribe /* Balanced/Unbalanced prüfen */

* 2. Deskriptive Statistik (between vs. within Variation)
xtsum ln_einkommen bildungsjahre erfahrung

* 3. Fixed Effects
xtreg ln_einkommen bildungsjahre erfahrung i.branche_wechsel, fe vce(cluster id)
estimates store fe

* 4. Random Effects
xtreg ln_einkommen bildungsjahre erfahrung i.geschlecht, re vce(cluster id)
estimates store re

* 5. Hausman-Test
hausman fe re, sigmamore

* 6. Ergebnisse exportieren
esttab fe re using "tabelle_fe_re.tex", se star(* 0.10 ** 0.05 *** 0.01) r2
R – KOMPLETTER WORKFLOW
library(plm); library(fixest); library(modelsummary)

# 1. Panel-Daten definieren
pdata <- pdata.frame(df, index = c("id", "year"))

# 2. Deskriptive Panel-Statistik
pdim(pdata) # Balanced/Unbalanced
summary(pdata$ln_einkommen)

# 3. Fixed Effects (fixest – schnell, clustered SE nativ)
fe <- feols(ln_einkommen ~ bildungsjahre + erfahrung | id + year,
       cluster = ~id, data = df)

# 4. Random Effects (plm)
re <- plm(ln_einkommen ~ bildungsjahre + erfahrung + geschlecht,
       data = pdata, model = "random")

# 5. Hausman-Test
fe_plm <- plm(ln_einkommen ~ bildungsjahre + erfahrung,
           data = pdata, model = "within")
phtest(fe_plm, re)

# 6. Ergebnisse exportieren
modelsummary(list("FE" = fe, "RE" = re), output = "tabelle.tex")

Stata: xtreg vs. reghdfe vs. areg

xtreg, fe ist der Klassiker. reghdfe (von Correia 2017) ist schneller und ermöglicht mehrere Fixed Effects gleichzeitig (z. B. Firmen- und Zeit-FE) – in den meisten Masterarbeiten die bessere Wahl. areg absorbiert einen FE und ist älter. Empfehlung: Verwenden Sie reghdfe für neue Arbeiten.

6. Diagnostik & Robustheitschecks

Die Schätzung allein reicht nicht. In einer guten Methodiksektion dokumentieren Sie auch die Diagnostik. Hier die wichtigsten Tests und Checks für Paneldaten.

Test / CheckWas er prüftStataR
Hausman-TestFE vs. REhausman fe rephtest(fe, re)
F-Test auf individuelle EffekteSind FE überhaupt nötig? (H0: alle αi = 0)In xtreg, fe-Output enthaltenpFtest(fe, ols)
Breusch-Pagan LM-TestRE vs. Pooled OLSxttest0 (nach xtreg, re)plmtest(re, type="bp")
Modifizierter Wald-TestGruppenweise Heteroskedastiexttest3 (nach xtreg, fe)
Wooldridge-TestAutokorrelation erster Ordnungxtserial Y Xpbgtest(fe)
Geclusterte StandardfehlerRobustheit gegen Heterosk. + Autokorrel.vce(cluster id)cluster = ~id (fixest)
Between-Variation prüfenGibt es genug Within-Variation für FE?xtsum variablesummary(Between(pdata$x))

Geclusterte Standardfehler sind Pflicht

In Paneldaten sind die Fehlerterme innerhalb einer Einheit (Person, Firma, Land) fast immer korreliert. Ohne Clustering sind die Standardfehler zu klein und die t-Werte zu groß – Sie finden „Signifikanz“, wo keine ist. Clustern Sie auf der Ebene der Einheit (oder auf der Ebene der Treatment-Zuweisung). Das ist in Stata mit vce(cluster id) und in R mit fixest nativ möglich.

7. Die 8 häufigsten Fehler bei der Paneldaten-Analyse

#FehlerWarum problematischLösung
1RE ohne Begründung als HauptmodellDie RE-Annahme ist in den meisten VWL-Kontexten nicht haltbarFE als Standard; RE nur mit expliziter Begründung + Hausman-Test
2Hausman-Test nicht berichtetPrüfer können die Modellwahl nicht nachvollziehenImmer durchführen und im Methodenteil oder Anhang berichten
3Keine geclusterten StandardfehlerSE sind nach unten verzerrt → falsche SignifikanzenAuf Panel-Ebene clustern: vce(cluster id) / cluster = ~id
4Zeitkonstante Variable in FE-ModellWird durch Within-Transformation eliminiert – Koeffizient = 0 oder FehlerInteraktion mit Zeitvariable oder Correlated Random Effects (Mundlak)
5Unbalanced Panel nicht adressiertSelektiver Dropout kann Schätzer verzerrenAttrition-Analyse: Wer fällt raus? Selektionskorrektur prüfen
6Nur Einheiten-FE, keine Zeit-FEGemeinsame Zeittrends (Konjunktur, Inflation) werden ignoriertImmer Two-Way FE prüfen: absorb(id year) / feols(... | id + year)
7Keine Within-Variation geprüftWenn Ihre Schlüsselvariable kaum über die Zeit variiert, ist FE machtlosxtsum / summary – between vs. within SD vergleichen
8Ergebnistabelle mit falschen AngabenWithin-R² und Overall-R² verwechselt; N = Beobachtungen statt EinheitenImmer N (Beobachtungen), n (Einheiten) und T (Perioden) berichten

8. Formulierung im Methodenteil

FORMULIERUNGSBEISPIEL

„Zur Schätzung des Effekts von [X] auf [Y] wird ein
Fixed-Effects-Paneldatenmodell verwendet:

    Y_it = βX_it + γZ_it + α_i + λ_t + ε_it

wobei α_i individuelle Fixed Effects und λ_t Zeit-Fixed-
Effects bezeichnen. Die individuellen Fixed Effects kontrollieren
für alle zeitkonstanten, unbeobachteten Unterschiede zwischen
den [Einheiten]. Die Wahl des FE-Modells wird durch den
Hausman-Test gestützt (χ² = [Wert], p < 0,01), der die
Random-Effects-Annahme verwirft. Sämtliche Standardfehler
sind auf [Einheiten]-Ebene geclustert, um Autokorrelation
und Heteroskedastie innerhalb der Einheiten zu berücksichtigen.“

Was Prüfer bei FE-Analysen sehen wollen

(1) Formale Modelldarstellung mit αi und λt. (2) Begründung der FE-Wahl – inhaltlich + Hausman-Test. (3) Geclusterte Standardfehler mit Angabe der Cluster-Ebene. (4) Robustheitschecks: RE als Alternative, Pooled OLS zum Vergleich, alternative Spezifikationen. (5) Korrekte Berichterstattung: N, n, T, Within-R², F-Test. Bei Fragen zur Umsetzung helfen unsere Statistik-Experten weiter.

9. Checkliste: Paneldaten-Analyse in der Abschlussarbeit

Von der Datenstruktur bis zum Tabellenexport

  • Panel-Struktur gesetzt – xtset (Stata) / pdata.frame (R)?
  • Balanced vs. Unbalanced geprüft – xtdescribe / pdim?
  • Within- vs. Between-Variation der Schlüsselvariablen analysiert (xtsum)?
  • Deskriptive Statistik (Table 1) mit N, n, T, Mittelwert, SD erstellt?
  • Fixed-Effects-Modell geschätzt mit individuellen und Zeit-FE?
  • Random-Effects-Modell als Vergleich geschätzt?
  • Hausman-Test durchgeführt und berichtet?
  • Geclusterte Standardfehler auf Einheiten-Ebene verwendet?
  • Diagnostik: F-Test, Breusch-Pagan, Wooldridge durchgeführt?
  • Robustheitschecks: Alternative Spezifikationen, Subsamples, Placebo-Tests?
  • Tabellen sauber exportiert (esttab / modelsummary) – nicht als Screenshot?
  • Within-R² korrekt berichtet (nicht Overall-R²)?
  • Code reproduzierbar im Anhang beigelegt?

10. Häufig gestellte Fragen

Was ist der Unterschied zwischen FE und LSDV (Least Squares Dummy Variables)?

Mathematisch sind beide identisch: LSDV fügt für jede Einheit eine Dummy-Variable ein, FE verwendet die Within-Transformation. Die Ergebnisse sind gleich. In der Praxis ist FE (xtreg, fe oder reghdfe) effizienter, weil keine tausenden Dummies geschätzt werden müssen. Verwenden Sie in Ihrer Arbeit die FE-Befehle, nicht manuell erstellte Dummies.

Kann ich den Effekt von Geschlecht oder Region im FE-Modell schätzen?

Nein – zeitkonstante Variablen werden durch die Within-Transformation eliminiert. Lösungen: (1) Correlated Random Effects (Mundlak-Ansatz): Fügen Sie die Gruppen-Mittelwerte der zeitveränderlichen Variablen als zusätzliche Regressoren hinzu. (2) Interaktionsterme: Interagieren Sie die zeitkonstante Variable mit einer Zeitvariable, um zeitvariierende Effekte zu schätzen. (3) Hausman-Taylor-Schätzer: Ein Hybridmodell, das einige zeitkonstante Variablen schätzt, indem es andere als Instrumente nutzt.

Brauche ich Zeit-Fixed-Effects zusätzlich zu Einheiten-Fixed-Effects?

Fast immer ja. Zeit-Fixed-Effects (λt) kontrollieren für Schocks, die alle Einheiten gleichzeitig treffen (Konjunktur, Inflation, Gesetzesänderungen). Ohne sie können gemeinsame Trends den Treatment-Effekt verzerren. In Stata: reghdfe Y X, absorb(id year). In R: feols(Y ~ X | id + year). Berichten Sie immer, ob Sie Two-Way oder One-Way FE verwenden.

Was, wenn meine Schlüsselvariable kaum über die Zeit variiert?

Wenn die Within-Variation Ihrer erklärenden Variable gering ist, hat das FE-Modell wenig statistische Power – die Standardfehler werden groß. Prüfen Sie mit xtsum (Stata) das Verhältnis von between- zu within-Standardabweichung. Wenn within nahe null ist, ist FE für diese Variable nicht geeignet. Lösungen: (1) Längeres Panel, (2) Correlated Random Effects, oder (3) die Variable als nicht schätzbar im FE-Kontext akzeptieren und dies im Text diskutieren.

Welches R-Paket ist besser: plm oder fixest?

fixest ist neuer, deutlich schneller und bietet geclusterte Standardfehler nativ. Es ist die Empfehlung für neue Arbeiten, insbesondere bei großen Datensätzen und mehreren Fixed Effects. plm ist älter und bietet den Hausman-Test (phtest) – den fixest nicht direkt enthält. Praxis-Tipp: Verwenden Sie fixest für die Hauptschätzung und plm für den Hausman-Test. Mehr dazu in unserer Statistik-Beratung.

Kann ich dynamische Paneldatenmodelle (GMM) in einer Bachelorarbeit verwenden?

GMM-Schätzer (Arellano-Bond, Blundell-Bond) sind für eine Bachelorarbeit in der Regel zu komplex – sie erfordern ein tiefes Verständnis von Instrumentenvariablen und der Überidentifikationsdiagnostik. Für Masterarbeiten kann GMM sinnvoll sein, wenn die abhängige Variable als Regressor auftaucht (dynamisches Modell). Klären Sie das mit Ihrem Betreuer.

Wer kann mir beim Stata- oder R-Code für die Paneldaten-Analyse helfen?

Wenn Sie Unterstützung bei der Datenaufbereitung, Modellspezifikation, Diagnostik oder Interpretation Ihrer Paneldaten-Ergebnisse brauchen, helfen unsere VWL-Ghostwriter und Statistik-Experten weiter – von der Beratung zur richtigen Spezifikation über fertige Do-Files und R-Skripte bis hin zur Interpretation und Formulierung des Ergebnisteils. Auch ein Coaching kann helfen, die Paneldaten-Analyse sauber aufzusetzen.

Unterstützung bei Ihrer Paneldaten-Analyse?

Unsere VWL-Ghostwriter und Statistik-Experten helfen Ihnen bei Stata- und R-Code, Hausman-Test, Diagnostik und der Formulierung Ihres Methodenteils – vom Data Cleaning bis zur fertigen Ergebnistabelle.

Jetzt unverbindlich anfragen
crossmenu