Statistische Auswertung – SPSS-Anleitung

Um eine statistische Datenauswertung durchzuführen, benötigen Sie die Software SPSS. Wie Sie mit SPSS den Zusammenhang von einzelnen Variablen und die Korrelationen messen können, lernen Sie in unserer Anleitung (Statistik für Dummies). Die Datenanalyse fängt mit einer deskriptiven Statistik an.

Benötigen Sie Hilfe bei der SPSS-Auswertung?

Statistik-Beratung

Deskriptive Statistik mit SPSS

Definition: Die deskriptive (auch beschreibende) Statistik ordnet und stellt empirische Daten durch Tabellen, Kennzahlen und Grafiken übersichtlich dar.

Als Beispiel für die statistische Auswertung nutzen wir den ALLBUS-Datensatz 2018.

ALLBUS-Daten

Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften beobachtet verschiedene gesellschaftliche Entwicklungen über einen längeren Zeitraum. Zu Übungszwecken können Sie den Datensatz kostenpflichtig (Studenten erhalten i. d. R. über Ihre Uni-Kennung einen kostenlosen Zugang) herunterladen und die Datenanalyse anhand der Anleitung selbst durchführen.

Über den ALLBUS können Sie messen, wie hoch z. B. das Durchschnittsnettoeinkommen in Deutschland ist. Dafür steht eine Variable zur Verfügung, die genau dies misst. Die Variable Nettoeinkommen existiert in einer sogenannten offenen Abfrage und in einer Listenabfrage.

Der Unterschied liegt dabei in der Skalierung: Die offene Abfrage ist metrisch skaliert, die Listenabfrage ordinal, in der jede Einkommensgruppe einen Rang erhält. Da die Einkommensgruppen jedoch unterschiedliche Abstände innerhalb der Gruppierungen haben (im ALLBUS verfügt die Gruppe 2 bspw. über 200-299 Euro, die Gruppe 19 jedoch über 3000-3999 Euro), lassen sich die Daten nicht metrisch behandeln, sondern ordinal.

Definition metrisch: Metrisch skalierte Daten können sowohl in eine natürliche Reihenfolge gebracht als auch miteinander normal verrechnet werden, da die Abstände gleich sind.

Beispiel: Einkommensgruppen mit 200er-Abständen wie z. B. 200-399€, 400-599€, 600-799€, 800-999€ usw.

Definition ordinal: Ordinal skalierte Daten sind zwar „normale“ Zahlen, die zwar eine natürliche Reihenfolge gebracht werden können, aber aufgrund unterschiedlicher Abstände nicht miteinander „normal“ verrechnet werden können.

Beispiel: Einkommensgruppen mit unregelmäßigen Abständen wie z. B. 200-299€, 300-450€, 451-999€, 1000-1800€ usw.

Häufigkeiten

Wollen Sie herausfinden, wie das Nettoeinkommen in Deutschland verteilt ist, öffnen wir zuerst SPSS und dann den Datensatz. Die Variablenansicht von SPSS sieht dann wie folgt aus:

Klicken Sie auf Analysieren > Deskriptive Statistiken > Häufigkeiten. Damit lassen sich Daten veranschaulichen. In einem ersten Schritt wählen Sie nun die entsprechende Variable aus, hier das Nettoeinkommen der Befragten in der offenen Abfrage und klicken auf den Pfeil zwischen den beiden Fenstern, um die Variable in das rechte Fenster zu ziehen.

Daraufhin klicken Sie auf den obersten Button „Statistiken“. Es öffnet sich das unten stehende Fenster, das die Möglichkeit zur Auswahl verschiedener Perzentilwerte, Lagemaße sowie der Streuung bietet.

In diesem Beispiel wurden die Quartile gewählt, als Lagemaße der Mittelwert und der Median und unter der Streuung die Standardabweichung, das Minimum und das Maximum.

Definition Perzentile

Definition Perzentile: Sie sind ein Maß für gewisse Datenbereiche, die selbst festgelegt werden können. Hier lässt sich z. B. die „10“ eingeben, wenn Sie Auskunft darüber erhalten möchten, wie die Werte einer Variablen in 10-Prozent-Schritten verteilt sind. Grob gesagt: Was verdienen die untersten zehn Prozent der Befragten, die zehn Prozent darüber usw. bis hin zu den obersten zehn Prozent.

Definition Quartile

Definition Quartile: Sie geben solche ‚Stücke‘ der Gesamtverteilung in 25 Prozent-Schritten an (Quartil beschreibt den jeweils vierten Teil einer Datenverteilung).

Definition Mittelwert

Definition Mittelwert (auch arithmetischen Mittel): Dabei werden alle Werte addiert und durch die Anzahl der Werte geteilt. Beispiel: In einer Gruppe sind fünf Personen enthalten. Diese sind 22, 24, 36, 50 und 60 Jahre alt. Der Mittelwert daraus beträgt nun (22 + 24 + 36 + 50 + 60)/5 = 38,4.

Definition Median

Definition Median (auch Zentralwert): Er gibt an, welcher Wert in der Mitte der Werteverteilung liegt. In der Altersverteilung nimmt er die 36 ein, da links der 36 zwei kleinere Werte und rechts der 36 zwei größere Werte liegen. Die 36 befindet sich genau in der Mitte. Vergleichen Sie Median und arithmetisches Mittel, so ist der Median etwas kleiner als das arithmetische Mittel ist. Das zeigt an, dass es stärker Ausreißer nach oben als nach unten gibt.

Defintion Standardabweichung

Definition Standardabweichung: In der deskriptiven Statistik bedeutet die Standardabweichung die Quadratwurzel der Varianz. Die Varianz wiederum berücksichtigt alle Werte einer Verteilung und zeigt an, wie die Merkmale durchschnittlich um den Mittelwert variieren. Die Standardabweichung ist damit ein genaueres Maß neben dem Vergleich von Median und Mittelwert, um die Streuung von Daten zu erkennen. Liegen die Daten in einer Normalverteilung, kann die Standardabweichung anzeigen, in welchem Bereich 68 % aller Daten um den Mittelwert liegen. Sie lässt Ausreißer zwischen Median und Mittelwert schneller erkennen.

Nachdem alle oben genannten Kreuze gesetzt wurden, schließt sich das kleine Fenster mit einem Klick auf Weiter und wir klicken auf Diagramme. Dort wählen Sie den Punkt Histogramme aus und kreuzen an, dass die Normalverteilungskurve im Histogramm angezeigt werden soll.

Anschließend öffnet sich mit einem Klick aufOKin der unteren Leiste das Ausgabefenster.

In Häufigkeiten zeigt SPSS die statistische Auswertung aller wesentlichen Informationen an. Insgesamt wurden in den ALLBUS 2018 3.477 Befragte aufgenommen, wovon bei dieser Abfrage 2.647 gültig und 830 fehlend sind. Die ‚Fehlenden‘ haben keine Angaben gemacht bzw. die Antwort verweigert (häufiges Problem bei Abfragen nach Nettoeinkommen).
Der Mittelwert (arithmetische Mittel) beträgt 1788,59 € und der Median (‚Mitte‘ aller 2.647 angegebenen Nettoeinkommenswerte) beträgt 1500,00 €. Dass der Median niedriger als der Mittelwert ist, zeigt, dass sich mehr Befragte in unteren Einkommensbereichen befinden, es aber auf der anderen Seite Befragte mit sehr hohen Einkommen gibt, die den Mittelwert nach oben ‚reißen‘.
Liegen die Daten in einer Normalverteilung (siehe weiter unten Darstellung und Normalverteilung), kann die Standardabweichung anzeigen, in welchem Wertebereich 68 % aller Daten um den Mittelwert liegen.

Für das Beispiel bedeutet das, dass 68 % aller Befragten ein Nettoeinkommen im Bereich von 509,18 € (1788,59 € – 1279,41 €) und 3.068,00 € (1788,59 € + 1279,41 €) haben.
Wenn Sie nun das Minimum (25 €) und das Maximum (18.000 €) der angegebenen Werte betrachten, hilft das nur bedingt. Sie zeigen die Endpunkte der Datenverteilung an. Da im ALLBUS auch Schüler enthalten sind, sind letztlich die Perzentile interessanter als die Standardabweichung. Bei dem Perzentil 25 (25 Prozent der gültigen Befragten haben ein Nettoeinkommen von unter 990,00 Euro, 50 Prozent der Befragten ein Nettoeinkommen von unter 1500,00 Euro (entspricht dem Median, da der Median ja eine ‚50/50‘-Unterteilung der Werte vornimmt).

Darstellung und Normalverteilung

Im Histogramm lassen sich die Verteilungen der Nettoeinkommen der einzelnen Befragten – gebündelt zu Balken – sowie die Normalverteilungskurve erkennen. Wie Sie sehen können, folgt die Verteilung nur ungefähr der Normalverteilung, wobei sich eine gewisse Schiefe in der Verteilung erkennen lässt. Meist lässt sich eine Normalverteilung tatsächlich mit bloßem Auge erkennen. Testverfahren wie der Kolmogorov-Smirnov Anpassungstest oder der Shapiro-Wilk-Test können zur Überprüfung der Normalverteilung herangezogen werden, in dem Sie auf Analysieren > Deskriptive Statistiken > Explorative Datenanalyse klicken.

Sie ziehen dann die zu untersuchende Variable in das Feld Abhängige Variablen,. Dann wird der Button Diagramme (rechts) angeklickt, woraufhin sich das kleine Fenster öffnet. Dort setzen Sie ein Häkchen bei Normalverteilungsdiagramm mit Tests. Relevant ist dann die folgende Box:

Eine statistische Signifikanz, die nur Nullen anzeigt, spricht in den statistischen Tests gegen die Normalverteilungsannahme. Das bedeutet, dass die Werteverteilung nicht der Gauß-Verteilung (Glockenkurve=Normalverteilung) entspricht. Das Vorliegen einer Normalverteilung ist jedoch für viele statistische Tests wichtig. Als Orientierung sollten Sie den Shapiro-Wilk-Test nutzen und bei der angezeigten Signifikanz die Normalverteilungsannahme verwerfen. Doch Achtung: Große Stichproben wie die hier untersuchten bilden einen Sonderfall! Sie können mit der Verteilung, die hier vorliegt, durchaus robuste parametrische Tests durchführen. Lineare Regressionen beispielsweise sind in unserer Beispielverteilung hier problemlos möglich.

Überprüfung von Zusammenhängen und Hypothesentests mit SPSS

Wenn Sie bei der statischen Auswertung Zusammenhänge untersuchen möchten, bietet sich der Hypothesentest an (beim Nettoeinkommen bietet sich z. B. die Frage an, ob Männer und Frauen unterschiedliche Nettoeinkommen haben und ob diese signifikant voneinander abweichen. Um einfache Zusammenhänge zu überprüfen, lassen sich Kreuztabellen zur Veranschaulichung nutzen. Diese bieten den Vorteil, auch Zusammenhangsmaße anzeigen zu können. Dabei muss man sich immer am niedrigsten Skalenniveau orientieren. Beim Geschlecht ist dies das nominale Skalenniveau, da sich die Ausprägungen „männlich – weiblich – (weitere)“ nicht in einen logischen Zusammenhang bringen lassen wie z. B. eine Rangfolge. Des Weiteren können diese Werte nicht normal miteinander verrechnet werden (z. B. 4 Kilokalorien sind doppelt so viel wie 2 Kilokalorien; Männlich ist aber nicht doppelt so viel wie weiblich, sondern unterscheidet sich nur durch Gleichheit und Ungleichheit; ein ähnliches Beispiel für nominale Messniveaus sind Fragen nach Schulformen, Studienfächern oder Bundesländern). Um zu den Kreuztabellen zu gelangen, drückt man auf Analysieren > Deskriptive Statistiken > Kreuztabellen.

In das Feld Zeilen fügen Sie die abhängige Variable ein, in die Spalten die unabhängige Variable. Unsere Hypothese (Nullhypothese) soll lauten, dass das Geschlecht keine Auswirkung auf das Nettoeinkommen hat (Die Alternativhypothese geht davon aus, dass das Geschlecht einen Einfluss hat, d. h. vom Gegenteil). Die Statistik geht erkenntnistheoretisch davon aus, dass nichts letztlich verifiziert werden kann, sondern nur Falsifikationen möglich sind. Um Indizien für die Wahrheit der Alternativhypothese zu finden, versucht man daher, die Nullhypothese zu widerlegen. Der p-Wert gibt dann nichts anderes als die Chance an, dass man sich doch geirrt hat. Wir behandeln diese Hypothese der Einfachheit halber als eine ungerichtete, das heißt, wir nehmen nur an, dass das Geschlecht einen Effekt auf das Nettoeinkommen hat, wir vermuten aber noch nicht die Richtung dahinter (Dazu bräuchten wir eine Theorie, dass uns gewisse Effekte vermuten lässt, welche der Übersichtlichkeit halber hier nicht dargestellt werden sollten). Die unabhängige Variable ist damit das Geschlecht, die abhängige Variable das Nettoeinkommen. Vertauschen Sie Zeilen und Spalten in der Kreuztabelle, beeinträchtigt dies das Ergebnis nicht. Mit einem Klick auf Statistiken rechts öffnet sich ein kleines Fenster, in dem die Zusammenhangsmaße angekreuzt werden können. Da die nominale Variable Geschlecht das niedrigste Skalenniveau aufweist, müssen wir mit Cramér-V arbeiten. SPSS gibt nun eine Liste aus, die sehr lang und hier schlecht darstellbar ist. Das liegt daran, dass das Programm jedes einzelne genannte Einkommen in Verbindung zu dem jeweiligen Geschlecht setzt. Interessant sind jedoch ohnehin die Zusammenhangsmaße.

Das Ergebnis ist hochsignifikant (Ob ein Ergebnis signifikant ist oder nicht, wird über den p-Wert ermittelt. Beträgt der Wert unter 5 Prozent (0,05), ist ein Ergebnis signifikant, beträgt der Wert weniger als 1 Prozent (0,01), ist ein Ergebnis sehr signifikant und beträgt der Wert unter 0,1 Prozent (also 0,001), dann ist ein Ergebnis hochsignifikant; diese Einteilung ist für die Sozialwissenschaften gängig, aber nicht für die Medizin). Dass das Ergebnis hochsignifikant ist, sagt jedoch noch überhaupt nichts über die Effektstärke aus. Es sagt lediglich aus, dass es einen Zusammenhang zwischen den getesteten Variablen Geschlecht und Einkommen gibt und dass dieser nicht zufällig ist (Somit wurde die Nullhypothese falsifiziert).
Die Effektstärke können Sie dem Wert für Cramér-V entnehmen. Dieser beträgt 0,482 und ist damit, den Konventionen in der Statistik zufolge, als mittel bis hoch anzusehen. Da Cramér-V jedoch kein Vorzeichen kennt, wissen Sie nicht, in welche Richtung der Zusammenhang verläuft. Haben Männer nun ein signifikant höheres Einkommen oder Frauen? Dazu lassen sich in SPSS mithilfe eigener Felder Diagramme erzeugen (Klick auf Grafik > Diagrammerstellung). Das angezeigte Infofenster kann zumeist mit „OK“ übersprungen werden, es sei denn, die Variableneigenschaften (Skalenniveau) sind nicht korrekt definiert.

Hier öffnet sich nun ein großes Fenster. Im 1. Schritt wählen Sie unten die Art des Diagramms aus (siehe Punkt 1). In Schritt 2 (roter Kasten oben links) wählen Sie nun die Variablen aus der Liste aus, die relevant sind. Hier sind dies das Nettoeinkommen in der offenen Abfrage und das Geschlecht (Scrollen). In Schritt 3 ziehen Sie die Variablen per Drag&Drop in die jeweiligen Achsen, das Nettoeinkommen auf die Y-Achse und das Geschlecht auf die X-Achse. In Schritt 4 sollte der Mittelwert ausgewählt werden. Ein Klick auf OK zeigt das fertige Balkendiagramm an.

Das Ergebnis spricht eine klare Sprache: Männer verfügen über ein deutlich höheres Nettoeinkommen als Frauen. Auf die Kreuztabellierung und die Berechnung der Korrelationen können Sie trotz der Veranschaulichung jedoch nicht verzichten. Wenngleich Sie sehen, dass es sich hier um höhere Einkommen bei Männern und niedrigere Einkommen bei Frauen handelt, so können Sie mit bloßem Auge nicht erkennen, ob diese Unterschiede auch statistisch signifikant sind.

Anhand dieser SPSS für Dummies-Anleitung können Sie selbst jetzt eine statistische Datenanalyse durchführen.

Benötigen Sie Hilfe bei der statistischen Auswertung?

Jetzt anfragen

Dr. Simon Jakobs

Simon Jakobs hat Politikwissenschaft und Germanistik studiert. In seiner in der Parteienforschung angesiedelten Dissertation sowie im Rahmen seiner Forschungstätigkeit hat er sowohl mit qualitativen als auch mit quantitativen Methoden gearbeitet. In der quantitativen Forschung beschäftigt sich Simon Jakobs vorwiegend mit deskriptiver Statistik sowie mit linearen und logistischen Regressionen.