Sekundaeranalyse in der Bachelorarbeit & Masterarbeit

SOEP, ALLBUS, Mikrozensus und European Social Survey: So nutzen Sie bestehende grosse Datensaetze fuer Ihre Thesis – mit komplettem Workflow von Datenzugang ueber Variablenauswahl und Gewichtung bis zum Regressionsmodell. Begleitet von Soziologen und Statistikern mit SOEP- und ALLBUS-Erfahrung.

SOEP (Laengsschnitt)
ALLBUS (Querschnitt)
Mikrozensus
Gewichtung
SPSS / Stata / R

Die Sekundäranalyse ist die einzige Methode in der Soziologie, bei der die Datenqualität garantiert ist – die Herausforderung liegt in der korrekten Aufbereitung, Gewichtung und Modellierung. Bei Business And Science arbeiten Soziologen und Statistiker, die SOEP-Panelregressionen mit Fixed Effects, ALLBUS-Trendanalysen mit Gewichtung und ESS-Mehrebenenmodelle in eigenen Publikationen gerechnet haben. Sie übernehmen den gesamten Workflow: von der Variablenidentifikation im Codebuch über die Datenaufbereitung in Stata oder R bis zum schrittweisen Modellaufbau mit theoretisch begründeter Variablenauswahl.

1. Warum Sekundaeranalyse? Vorteile & Grenzen

Vorteile

  • Grosse Stichproben: SOEP: ~30.000 Personen. ALLBUS: ~3.500. Mikrozensus: ~810.000 Haushalte. Repraesentativitaet, die mit eigener Erhebung unerreichbar ist.
  • Laengsschnitt: SOEP seit 1984 – Veraenderungen ueber die Zeit analysieren (Panelregression, Fixed Effects).
  • Keine eigene Erhebung: Kein Feldzugang, kein Ethikantrag, keine Transkription. Ideal bei Zeitdruck.
  • Hohe Datenqualitaet: Professionell erhobene Daten mit dokumentierter Stichprobenziehung und Qualitaetskontrolle.
  • Replizierbarkeit: Andere Forscher koennen Ihre Analyse mit denselben Daten reproduzieren.

Grenzen

  • Keine eigenen Fragen: Sie koennen nur analysieren, was erhoben wurde. Wenn Ihre Variable nicht im Datensatz ist, muessen Sie einen Proxy finden oder die Fragestellung anpassen.
  • Komplexe Datendokumentation: SOEP hat hunderte Variablen ueber Jahrzehnte – die Navigation durch Codebuch und Fragebogen braucht Zeit.
  • Methodisches Vorwissen noetig: Gewichtung, Umgang mit fehlenden Werten, Paneldesign-Effekte – ohne Statistik-Kenntnisse wird es schwierig.
  • Keine Tiefe: Standardisierte Fragen erfassen keine Nuancen, Deutungsmuster oder subjektiven Perspektiven – dafuer brauchen Sie qualitative Methoden.

Große Stichproben und professionelle Datenqualität auf der einen Seite, komplexe Codebücher und anspruchsvolle Gewichtungslogik auf der anderen – die Sekundäranalyse belohnt methodische Sorgfalt und bestraft Nachlässigkeit bei der Datenaufbereitung. Unsere Autoren navigieren routiniert durch SOEP-Codebücher mit hunderten Variablen und sorgen dafür, dass die richtige Gewichtungsvariable, die richtige Missing-Strategie und das richtige Modell zusammenspielen.

2. Die wichtigsten Datensaetze im Ueberblick

DatensatzTypStichprobeThemenZugang
SOEP (Sozio-oekonomisches Panel)Laengsschnitt (Panel), seit 1984, jaehrlich~30.000 Personen in ~15.000 HaushaltenEinkommen, Bildung, Gesundheit, Zufriedenheit, Wohnen, Migration, ArbeitDIW Berlin (Nutzungsvertrag)
ALLBUS (Allg. Bevoelkerungsumfrage)Querschnitt, alle 2 Jahre~3.500 Personen pro WelleEinstellungen, Werte, soziale Ungleichheit, Politik, Religion, UmweltGESIS (kostenlos nach Registrierung)
MikrozensusQuerschnitt, jaehrlich, Pflichterhebung1% der Bevoelkerung (~810.000 Haushalte)Erwerbstaetigkeit, Bildung, Haushalt, Einkommen (Grundprogramm)Forschungsdatenzentrum (FDZ), Scientific Use File
ESS (European Social Survey)Querschnitt, alle 2 Jahre, >30 Laender~1.500–3.000 pro LandDemokratie, Vertrauen, Migration, Wohlbefinden, Werte (Laendervergleich)ESS-Website (kostenlos)
NEPS (Nationales Bildungspanel)Laengsschnitt (Panel), seit 2010~60.000 Personen in 6 StartkohortenBildungsverlaeufe, Kompetenzen, UebergaengeLIfBi Bamberg (Nutzungsvertrag)
pairfamLaengsschnitt (Panel)~12.000 Personen (3 Kohorten)Partnerschaft, Familie, Fertilietaet, GenerationenGESIS (Nutzungsvertrag)

SOEP für Panelregressionen, ALLBUS für Einstellungstrends, Mikrozensus für die größte Stichprobe, ESS für Ländervergleiche, NEPS für Bildungsverläufe – unsere akademischen Ghostwriter helfen bei der Datensatzwahl und prüfen vorab im Codebuch, ob die Variablen, die Ihre Fragestellung braucht, tatsächlich im Datensatz enthalten sind. Das spart Wochen, die sonst in einen unpassenden Datensatz investiert werden.

3. Datenzugang: So kommen Sie an die Daten

SOEP-Zugang (DIW Berlin)

  1. SOEPremote (Online-Analyseumgebung) oder SOEPcampus (reduzierter Datensatz fuer Lehre) fuer den Einstieg
  2. Nutzungsvertrag: Von Ihrem Betreuer/Ihrer Betreuerin unterschreiben lassen (Institutszugehoerigkeit erforderlich)
  3. Daten werden als SPSS-, Stata- oder CSV-Dateien bereitgestellt
  4. Bearbeitungszeit: 2–4 Wochen – frueh beantragen!

Tipp: SOEPcampus reicht fuer viele BA-Fragestellungen und ist schneller verfuegbar.

ALLBUS-Zugang (GESIS)

  1. GESIS-Konto erstellen (kostenlos, mit Uni-E-Mail)
  2. ALLBUS-Datensatz im GESIS Datenarchiv suchen (dbk.gesis.org)
  3. Nutzungserklaerung digital akzeptieren
  4. Download als SPSS- oder Stata-Datei – sofort verfuegbar

Tipp: ALLBUS-Kumulation (alle Wellen in einem Datensatz) fuer Trendanalysen nutzen.

Datenzugang frueh beantragen!

Der haeufigste praktische Fehler: Studierende beginnen mit der Thesis, ohne die Daten zu haben – und warten dann 4 Wochen auf den SOEP-Nutzungsvertrag. Beantragen Sie den Datenzugang sofort, wenn Sie sich fuer die Sekundaeranalyse entschieden haben – idealerweise schon waehrend der Exposee-Phase. ALLBUS und ESS sind sofort verfuegbar. SOEP, Mikrozensus und NEPS brauchen einen formellen Antrag mit Betreuungsunterschrift.

4. Workflow: Von der Fragestellung zum Modell

1

Fragestellung & Hypothesen formulieren

Formulieren Sie Ihre Fragestellung bevor Sie in die Daten schauen – nicht umgekehrt. Die Fragestellung bestimmt den Datensatz, die Variablen und das Modell. Leiten Sie Hypothesen aus der Theorie ab (z.B. aus Bourdieu: „Kulturelles Kapital der Eltern beeinflusst den Bildungserfolg der Kinder positiv").

2

Datensatz waehlen

Welcher Datensatz enthaelt die Variablen, die Sie brauchen? Laengsschnittfrage → SOEP oder NEPS. Einstellungen und Werte → ALLBUS oder ESS. Arbeitsmarkt und Bildung → Mikrozensus oder SOEP. Laendervergleich → ESS. Pruefen Sie das Codebuch und den Fragebogen, bevor Sie sich festlegen.

3

Variablen identifizieren

Abhaengige Variable (Y): Was wollen Sie erklaeren? Unabhaengige Variablen (X): Was sind die Einflussfaktoren? Kontrollvariablen (Z): Alter, Geschlecht, Region, Bildung – Standard-Kontrollen. Dokumentieren Sie fuer jede Variable: Name im Datensatz, Fragebogentext, Skalenniveau, fehlende Werte.

4

Daten aufbereiten

Fehlende Werte behandeln (Listenweiser Ausschluss, Multiple Imputation). Variablen rekodieren (z.B. Einkommensklassen bilden, Bildungsvariable vereinfachen). Subsample bilden (z.B. nur Erwerbstaetige, nur 25–65-Jaehrige). Datensaetze mergen (bei SOEP: Personendaten + Haushaltsdaten + biographische Daten).

5

Deskriptive Statistik

Vor der Modellierung: Verteilungen pruefen, Mittelwerte, Haeufigkeiten, Kreuztabellen. Wie gross ist Ihr Analysesample nach Ausschluss fehlender Werte? Gibt es Ausreisser? Ist die Verteilung der abhaengigen Variable geeignet fuer Ihr Modell?

6

Modell schaetzen & Ergebnisse interpretieren

Regressionsmodell (OLS, Logit, Ordered Logit, Fixed Effects) entsprechend dem Skalenniveau der abhaengigen Variable waehlen. Schrittweisen Modellaufbau dokumentieren: Modell 1 (nur Haupteffekte) → Modell 2 (+ Kontrollen) → Modell 3 (+ Interaktionen). Koeffizienten, Signifikanzen und Modellguete (R2, AIC, BIC) berichten.

Fragestellung formulieren, Datensatz wählen, Variablen identifizieren, Daten aufbereiten, deskriptiv prüfen, Modell schätzen – sechs Schritte, bei denen jeder einzelne methodische Entscheidungen erfordert, die im Methodenteil begründet werden müssen. Unsere Autoren dokumentieren jede Entscheidung: warum dieses Subsample, warum diese Rekodierung, warum listenweiser Ausschluss statt Multiple Imputation – so, wie Gutachter es bei quantitativen Arbeiten erwarten.

Sekundaeranalyse fuer Ihre Thesis?

Promovierte Soziologen und Statistiker unterstuetzen bei Variablenauswahl, Datenaufbereitung und Modellierung
Statistik-Beratung →

5. Gewichtung: Warum und wie?

Repraesentative Surveys verwenden komplexe Stichprobendesigns (Klumpenstichproben, geschichtete Stichproben, Oversampling) – die Daten muessen gewichtet werden, damit die Ergebnisse auf die Grundgesamtheit generalisierbar sind.

Design-Gewichtung

Korrigiert ungleiche Auswahlwahrscheinlichkeiten. Beispiel: Im SOEP werden grosse Haushalte mit hoeherer Wahrscheinlichkeit gezogen – die Gewichtung korrigiert diesen Bias.

SOEP: Variable „phrf" (Querschnittsgewicht Personen). ALLBUS: Variable „wghtpt" (Personengewicht).

Anpassungsgewichtung (Poststratifikation)

Korrigiert Nonresponse-Verzerrungen durch Anpassung an bekannte Populationsmerkmale (Mikrozensus als Referenz). Alter, Geschlecht, Region, Nationalitaet werden an die amtliche Statistik angepasst.

Im SOEP und ALLBUS bereits in den bereitgestellten Gewichtungsvariablen enthalten.

Querschnittsgewicht für deskriptive Analysen, Längsschnittgewicht für Panelmodelle, Haushaltsgewicht vs. Personengewicht – die richtige Gewichtungsvariable auszuwählen ist eine der häufigsten Fehlerquellen in Sekundäranalyse-Thesen. Unsere Ghostwriter wissen, welches Gewicht für welches Modell passt, und dokumentieren die Entscheidung so transparent im Methodenteil, dass kein Gutachter nachfragen muss.

Gewichtung ist Pflicht – aber nicht trivial

Gutachter pruefen, ob Sie die korrekten Gewichtungsvariablen verwendet haben. Faustregel: Fuer deskriptive Analysen (Haeufigkeiten, Mittelwerte) immer gewichten. Fuer multivariate Analysen (Regressionen): umstritten – in der Soziologie wird meist gewichtet, in der Oekonometrie oft nicht. Empfehlung: Gewichtete und ungewichtete Ergebnisse berechnen und vergleichen. Wenn die Ergebnisse stark abweichen: im Methodenteil diskutieren. Fuer Panelanalysen (SOEP): Laengsschnittgewichte verwenden, nicht Querschnittsgewichte. Details: SOEP-Methodenbericht und ALLBUS-Methodenbericht lesen.

6. Typische Analysemodelle

ModellAbhaengige VariableWann verwenden?Software-Befehl
OLS-RegressionMetrisch (z.B. Einkommen, Zufriedenheitsskala 0–10)Standardmodell fuer metrische Y-VariablenStata: reg / R: lm() / SPSS: REGRESSION
Logistische RegressionBinaer (z.B. erwerbstaetig ja/nein, Abitur ja/nein)Wenn Y nur zwei Auspraegungen hatStata: logit / R: glm(family=binomial) / SPSS: LOGISTIC
Ordered LogitOrdinal (z.B. Bildungsabschluss niedrig/mittel/hoch)Wenn Y eine ordinale Rangfolge hatStata: ologit / R: polr() / SPSS: PLUM
Fixed Effects (FE)Metrisch (Paneldaten)Kausale Schaetzung bei Laengsschnittdaten (SOEP): eliminiert zeitkonstante ConfoundersStata: xtreg, fe / R: plm(model="within")
Random Effects (RE)Metrisch (Paneldaten)Wenn zeitkonstante Variablen (Geschlecht, Migrationshintergrund) im Modell bleiben sollenStata: xtreg, re / R: plm(model="random")
Multilevel-RegressionMetrisch oder binaerHierarchische Daten (Schueler in Schulen, Personen in Laendern) – z.B. mit ESSStata: mixed / R: lme4::lmer() / SPSS: MIXED

OLS für metrische Outcomes, Logit für binäre, Fixed Effects für kausale Panelschätzungen, Multilevel für hierarchische Daten – das richtige Modell hängt vom Skalenniveau der abhängigen Variable und der Datenstruktur ab, nicht vom persönlichen Geschmack. Unsere Statistiker wählen das Modell passend zu Ihren Daten, rechnen den schrittweisen Aufbau und liefern die Ergebnistabellen druckfertig – in Stata, R oder SPSS.

Praxisbeispiel: OLS-Regression mit SOEP

Fragestellung: „Beeinflusst kulturelles Kapital der Eltern das Einkommen der Kinder?" AV: logarithmiertes Bruttoeinkommen. UV: Bildungsabschluss der Eltern (ISCED), Buecherzahl im Elternhaus. Kontrollen: Alter, Geschlecht, Region (Ost/West), eigener Bildungsabschluss. Modell 1: Nur Elternbildung. Modell 2: + Buecherzahl. Modell 3: + eigener Abschluss (Mediator?). Gewichtung: Querschnittsgewicht phrf. Software: Stata oder R.

7. Haeufige Fehler bei der Sekundaeranalyse in der Thesis

Keine Gewichtung

Ergebnisse werden ohne Gewichtung berichtet, obwohl die Daten aus einem komplexen Stichprobendesign stammen. Ungewichtete Ergebnisse sind verzerrt und nicht repraesentativ. Gewichtungsvariable im Methodenteil dokumentieren.

Fehlende Werte ignoriert

Fehlende Werte (Missing Values) werden nicht behandelt – der Datensatz schrumpft ohne Kommentar von 30.000 auf 8.000 Faelle. Im Methodenteil: Missing-Analyse dokumentieren, Strategie begruenden (Listenweiser Ausschluss, Multiple Imputation, Dummy-Coding).

Variablen ohne Codebuch-Referenz

Variablen werden verwendet, ohne den Fragebogentext und die Kodierung zu dokumentieren. Fuer jede Variable im Methodenteil: Variablenname, Fragetext, Antwortskala, Rekodierungen. Nur so ist die Analyse nachvollziehbar.

Falsches Modell fuer das Skalenniveau

OLS-Regression auf eine binaere abhaengige Variable angewendet (statt Logit). Oder OLS auf eine ordinale Variable mit 4 Auspraegungen. Das Modell muss zum Skalenniveau der abhaengigen Variable passen.

Korrelation als Kausalitaet interpretiert

„Hoehere Bildung fuehrt zu hoeherem Einkommen" – aber Sie haben einen Querschnitt analysiert. Querschnittsdaten zeigen Zusammenhaenge, keine Kausalitaet. Fuer kausale Aussagen: Paneldaten mit Fixed-Effects-Modellen oder Instrumentalvariablen.

Kein schrittweiser Modellaufbau

Ein einziges Modell mit 15 Variablen, ohne schrittweisen Aufbau. Standard: Modell 1 (Haupteffekte) → Modell 2 (+ Kontrollen) → Modell 3 (+ Interaktionen/Mediatoren). Zeigt, wie sich Koeffizienten veraendern, wenn Kontrollen hinzukommen.

Keine Gewichtung, Missings ignoriert, falsches Modell, Korrelation als Kausalität verkauft, kein schrittweiser Aufbau – sechs Fehler, die zusammen den Großteil aller quantitativen Gutachterkritik in der Soziologie ausmachen. Unsere Autoren kennen jede dieser Schwachstellen und strukturieren Ihre Analyse so, dass Gewichtung, Missing-Behandlung, Modellwahl und Modellaufbau im Methodenteil lückenlos dokumentiert sind.

Haeufig gestellte Fragen zur Sekundaeranalyse in der Thesis

SOEP oder ALLBUS – welchen Datensatz soll ich nehmen?

SOEP wenn Sie: (1) Veraenderungen ueber die Zeit analysieren wollen (Laengsschnitt/Panel), (2) Einkommen, Arbeitsmarkt, Gesundheit, Lebenszufriedenheit oder Migration untersuchen, (3) kausale Effekte schaetzen wollen (Fixed-Effects-Modelle brauchen Paneldaten). ALLBUS wenn Sie: (1) Einstellungen und Werte untersuchen (politische Einstellungen, Vorurteile, Umweltbewusstsein), (2) Trends ueber Erhebungswellen vergleichen wollen, (3) schnellen Datenzugang brauchen (ALLBUS ist sofort verfuegbar, SOEP braucht einen Nutzungsvertrag). ESS wenn Sie: Laendervergleiche anstellen wollen. Mikrozensus wenn Sie: die groesste Stichprobe brauchen (1% der Bevoelkerung).

Brauche ich SPSS, Stata oder R?

Alle drei funktionieren. Stata ist in der Soziologie der haeufigste Standard – viele Methodenlehrbucher verwenden Stata-Syntax, das SOEP liefert Stata-Datensaetze, und die meisten Betreuer kennen Stata. SPSS ist einsteigerfreundlich und an vielen Instituten verfuegbar – reicht fuer die BA und einfache MA-Analysen. R ist kostenlos, extrem flexibel und langfristig das maechtigste Werkzeug – aber die Lernkurve ist steiler. Empfehlung: Verwenden Sie, was an Ihrem Institut gelehrt wird. Fuer die BA: SPSS genuegt. Fuer die MA/Diss: Stata oder R. Die Statistik-Beratung unterstuetzt in allen drei Programmen.

Wie gehe ich mit fehlenden Werten um?

Drei Strategien: (1) Listenweiser Ausschluss (Listwise Deletion): Faelle mit fehlenden Werten auf einer der Analysevariablen werden ausgeschlossen. Einfach, aber problematisch wenn viele Faelle wegfallen oder die Ausfaelle nicht zufaellig sind. (2) Multiple Imputation (MI): Fehlende Werte werden auf Basis der vorhandenen Daten mehrfach geschaetzt. Goldstandard, aber methodisch anspruchsvoll (Stata: mi impute, R: mice-Package). (3) Dummy-Indikator-Methode: Fehlende Werte auf einer Variable erhalten einen eigenen Dummy. Einfach, aber statistisch umstritten. Fuer die Thesis: Dokumentieren Sie im Methodenteil, wie viele Faelle auf welchen Variablen fehlende Werte haben und welche Strategie Sie gewaehlt haben. In der BA: Listenweiser Ausschluss mit Begruendung genuegt. In der MA: Multiple Imputation ist ein Plus.

Kann ich Sekundaeranalyse mit qualitativen Methoden kombinieren?

Ja – und diese Kombination wird zunehmend geschaetzt. Typisches Mixed-Methods-Design: (1) Sequenziell QUANT → QUAL: Sekundaeranalyse identifiziert ein Muster (z.B. „Erstakademiker haben trotz gleicher Noten geringeres Einkommen"), dann erklaeren qualitative Interviews das „Warum" (Habitus-Diskrepanz, fehlende Netzwerke). (2) Sequenziell QUAL → QUANT: Explorative Interviews generieren Hypothesen, die dann mit SOEP-/ALLBUS-Daten quantitativ getestet werden. Die Kombination ist besonders in der Masterarbeit ein starkes Qualitaetsmerkmal.

Wie viele Variablen sollte mein Modell haben?

Faustregel: So wenige wie noetig, so viele wie theoretisch begruendet. Ein Modell mit 3 unabhaengigen Variablen und 5 Kontrollen ist fuer eine BA voellig ausreichend. In der MA: 5–10 Variablen sind Standard. Jede Variable im Modell muss theoretisch begruendet sein – nicht nur eingefuegt, „weil sie verfuegbar ist". Kontrolle: Warum kontrolliere ich Alter? Weil Einkommen mit dem Alter steigt und Alter mit der Generation korreliert, die unterschiedlich sozialisiert wurde. Diese Begruendung gehoert in den Methodenteil. Vermeiden Sie: Kitchen-Sink-Regressionen (alles reinwerfen und schauen, was signifikant wird) und Modelle ohne theoretische Fundierung.

Muss ich den Datensatz im Anhang beifuegen?

Nein – die Datensaetze (SOEP, ALLBUS etc.) unterliegen Nutzungsvertraegen und duerfen nicht weitergegeben werden. Was Sie beifuegen sollten: (1) Den Analysecode (Stata-Do-File, R-Script, SPSS-Syntax) als Anhang oder elektronisches Supplement – das ermoeglicht Reproduzierbarkeit. (2) Eine Variablentabelle im Methodenteil: Variablenname, Fragetext, Skalierung, Rekodierung. (3) Die deskriptive Statistik Ihres Analysesamples: N, Mittelwerte, Standardabweichungen, Min/Max fuer alle Analysevariablen. Gutachter schaetzen reproduzierbare Analysen – der Code ist der Beweis.

Variablen im Codebuch identifizieren, Daten in Stata oder R aufbereiten, die richtige Gewichtung einsetzen, fehlende Werte transparent behandeln, das Modell schrittweise aufbauen und die Ergebnisse theoriegeleitet interpretieren – jeder dieser Schritte erfordert methodische Sorgfalt, die in der Thesis sichtbar werden muss. Unsere Ghostwriter und Statistik-Berater liefern den kompletten Analyseworkflow inklusive kommentiertem Stata-Do-File oder R-Script, das Gutachter jederzeit reproduzieren können.

Sekundaeranalyse fuer Ihre Thesis – professionell begleitet

Ueber 200 promovierte Ghostwriter und Statistik-Berater mit Erfahrung in SOEP, ALLBUS und Mikrozensus. Von der Variablenauswahl ueber die Datenaufbereitung bis zum fertigen Regressionsmodell.

Soziologie-Ghostwriter Statistik-Beratung Jetzt anfragen
crossmenu