Human-Computer Interaction in der Bachelorarbeit & Masterarbeit

SUS-Score, NASA-TLX, Nielsen-Heuristiken und Nutzerstudien: So evaluieren Sie Usability und User Experience in Ihrer Informatik-Thesis – mit technischen Metriken, Studiendesign und statistischer Auswertung.

SUS & NASA-TLX
Nielsen-Heuristiken
A/B-Testing
Nutzerstudien
Eye-Tracking

1. Usability-Metriken: Quantitativ messen

MetrikTypBeschreibungInterpretation
SUS (System Usability Scale)Fragebogen (10 Items, 5-Punkt Likert)Globaler Usability-Score (0–100)>68 = ueberdurchschnittlich, >80 = gut, >90 = exzellent
NASA-TLXFragebogen (6 Dimensionen)Task Load Index: Mental, Physical, Temporal Demand, Performance, Effort, FrustrationNiedriger = besser. Vergleich zwischen Interfaces/Bedingungen.
Task Completion RatePerformance-MetrikAnteil erfolgreich abgeschlossener Aufgaben100% = alle Tasks geloest. <80%>
Time on TaskPerformance-MetrikZeit bis zur erfolgreichen AufgabenbearbeitungKuerzer = effizienter. Vergleich mit Expertzeit als Baseline.
Error RatePerformance-MetrikAnzahl Fehler pro TaskFehlertypen kategorisieren: Slips vs. Mistakes (Norman)
LearnabilityLaengsschnitt-MetrikVerbesserung der Performance ueber wiederholte NutzungLernkurve: Time on Task ueber Durchgaenge plotten

2. Heuristische Evaluation: Nielsen & Co.

Nielsens 10 Usability-Heuristiken (1994)

  • 1. Sichtbarkeit des Systemstatus: Das System informiert Nutzer ueber den aktuellen Zustand (Ladebalken, Breadcrumbs)
  • 2. Uebereinstimmung System/reale Welt: Vertraute Sprache und Konzepte statt Systemjargon
  • 3. Nutzerkontrolle & Freiheit: Undo, Redo, Abbrechen – Notausgang jederzeit moeglich
  • 4. Konsistenz & Standards: Gleiche Aktionen, gleiche Ergebnisse. Plattform-Konventionen einhalten
  • 5. Fehlervermeidung: Design, das Fehler verhindert (z.B. Bestaetigungsdialoge, Constraints)
  • 6. Wiedererkennung statt Erinnerung: Optionen sichtbar machen, kein auswendig Lernen
  • 7. Flexibilitaet & Effizienz: Shortcuts fuer Experten, Standardwege fuer Anfaenger
  • 8. Aesthetisches & minimalistisches Design: Nur relevante Information zeigen
  • 9. Fehlererkennung & -behebung: Klare Fehlermeldungen mit Loesungsvorschlaegen
  • 10. Hilfe & Dokumentation: Kontextuelle Hilfe, durchsuchbar, aufgabenbezogen

Heuristische Evaluation in der Thesis

3–5 Evaluatoren pruefen das Interface unabhaengig gegen die Heuristiken. Jede gefundene Verletzung wird dokumentiert: Heuristik (welche verletzt?), Stelle (wo im Interface?), Schweregrad (0 = kein Problem, 1 = kosmetisch, 2 = minor, 3 = major, 4 = Katastrophe). Die Ergebnisse werden aggregiert: Welche Probleme haben mehrere Evaluatoren gefunden? Die heuristische Evaluation ist ideal fuer die Bachelorarbeit – sie braucht keine Endnutzer, nur Experten (Kommilitonen mit HCI-Wissen genuegen).

3. Nutzerstudien: Design & Durchfuehrung

Within-Subjects Design

Jeder Teilnehmer testet alle Bedingungen (z.B. Interface A und Interface B). Vorteil: Weniger Teilnehmer noetig, individuelle Unterschiede kontrolliert. Nachteil: Reihenfolge-Effekte (Learning, Fatigue) → Counterbalancing (Latin Square) noetig.

Teilnehmer BA: 12–20. MA: 20–30. Statistik: Paired t-Test, Repeated Measures ANOVA, Wilcoxon Signed-Rank.

Between-Subjects Design

Jeder Teilnehmer testet nur eine Bedingung. Vorteil: Keine Reihenfolge-Effekte. Nachteil: Mehr Teilnehmer noetig, individuelle Unterschiede als Stoervariable.

Teilnehmer BA: 20–30 pro Bedingung. MA: 30–50 pro Bedingung. Statistik: Independent t-Test, One-Way ANOVA, Mann-Whitney U.

Nutzerstudie in der Thesis dokumentieren

  • Hypothesen: H1: „Interface B hat einen hoeheren SUS-Score als Interface A." H0: „Kein Unterschied."
  • Teilnehmer: Anzahl, Demographie (Alter, Geschlecht, Technik-Erfahrung), Rekrutierung, Ethik (Einwilligung, Anonymisierung – s. Forschungsethik-Guide)
  • Tasks: 3–7 definierte Aufgaben mit Erfolgskriterien (z.B. „Finden Sie das Produkt X und legen Sie es in den Warenkorb")
  • Ablauf: Einfuehrung → Aufgaben → Fragebogen (SUS, NASA-TLX) → Interview/Debrief
  • Metriken: SUS, Time on Task, Error Rate, Task Completion Rate
  • Statistik: Deskriptiv (Mittelwert, SD, Median) + Inferenzstatistik (p-Wert, Effektgroesse Cohens d)

Nutzerstudie fuer Ihre Thesis?

Promovierte Informatiker und Statistiker unterstuetzen bei Studiendesign und Auswertung
Informatik-Ghostwriter →

4. A/B-Testing & Eye-Tracking

A/B-Testing

Zwei Varianten (A = Kontrolle, B = Behandlung) werden zufaellig an Nutzer ausgespielt. Metrik: Conversion Rate, Click-Through Rate, Time on Page. Statistik: Chi-Quadrat-Test oder z-Test fuer Proportionen. Tools: Google Optimize (eingestellt → Alternativen: PostHog, Growthbook), Firebase A/B Testing.

Thesis: Sample Size vorab berechnen (Power Analysis: alpha=0.05, power=0.80, erwarteter Effekt). Laufzeit dokumentieren. Statistische Signifikanz und praktische Relevanz unterscheiden.

Eye-Tracking

Blickbewegungen auf dem Interface messen: Fixationen (wo wird geschaut?), Sakkaden (Blickspruenge), Heatmaps, Areas of Interest (AOI), Time to First Fixation. Hardware: Tobii, EyeLink, oder webcam-basiert (WebGazer.js – weniger praezise, aber kostenlos).

Thesis: Eye-Tracking ergaenzt Performance-Metriken – es zeigt nicht nur was Nutzer tun, sondern wohin sie schauen. Heatmaps als Abbildungen in der Thesis, AOI-Analyse fuer Vergleiche.

5. Haeufige Fehler

Zu wenige Teilnehmer

5 Teilnehmer genuegen fuer eine heuristische Evaluation – aber nicht fuer eine quantitative Nutzerstudie. Fuer statistische Tests: mindestens 12 pro Bedingung (Within-Subjects) oder 20 pro Gruppe (Between-Subjects). Power Analysis vorab durchfuehren.

Kein Studiendesign dokumentiert

Teilnehmer testen „irgendwie" und fuellen einen Fragebogen aus. Ohne definiertes Studiendesign (Within/Between, Counterbalancing, Tasks) ist die Studie nicht valide und nicht reproduzierbar.

SUS falsch berechnet

Der SUS-Score hat eine spezifische Berechnungsformel (Brooke, 1996): ungerade Items minus 1, gerade Items: 5 minus Antwort, Summe mal 2.5. Haeufig wird einfach der Mittelwert der Rohwerte genommen – falsch.

Keine statistische Auswertung

„Interface B hat einen hoeheren SUS-Score als A." Aber ist der Unterschied signifikant? Ohne p-Wert und Effektgroesse ist die Aussage anekdotisch. Mindestens: t-Test + Cohens d.

FAQ zu HCI in der Thesis

Wie viele Teilnehmer brauche ich?

Heuristische Evaluation: 3–5 Experten (Nielsen 1994: 5 Evaluatoren finden ~75% der Probleme). Qualitative Studie (Think-Aloud): 5–8 Teilnehmer genuegen fuer explorative Erkenntnisse. Quantitative Studie (SUS-Vergleich): Mindestens 12–15 pro Bedingung (Within-Subjects) oder 20+ pro Gruppe (Between-Subjects). Berechnen Sie die Stichprobengroesse mit einer Power Analysis (G*Power, kostenlos): alpha=0.05, power=0.80, erwartete Effektgroesse (Cohens d=0.5 fuer mittleren Effekt).

SUS oder NASA-TLX?

SUS misst subjektive Usability – wie einfach und angenehm ist das System zu benutzen? Standard fuer alle Interfaces. NASA-TLX misst kognitive Belastung – wie anstrengend ist die Aufgabe? Sinnvoll fuer komplexe Interfaces (Cockpits, Kontrollsysteme, VR) oder wenn Workload die Hauptfrage ist. In der Thesis: SUS als Pflicht-Fragebogen fuer jede Usability-Studie. NASA-TLX zusaetzlich, wenn kognitive Belastung relevant ist. Beide kombinieren ist gaengig und empfohlen.

Welche Literatur brauche ich?

Standard: Lazar/Feng/Hochheiser „Research Methods in Human-Computer Interaction" (2nd ed., 2017) – das Methodenbuch fuer HCI-Theses. Design: Norman „The Design of Everyday Things" (revised ed., 2013). Metriken: Sauro/Lewis „Quantifying the User Experience" (2nd ed., 2016). Heuristiken: Nielsen „Usability Engineering" (1994). SUS: Brooke „SUS: A Retrospective" (2013). Statistik fuer HCI: Robertson/Kaptein „Modern Statistical Methods for HCI" (2016).

HCI in Ihrer Thesis – professionell evaluiert

Ueber 200 promovierte Ghostwriter – darunter Informatiker und Psychologen mit HCI-Expertise. Vom Studiendesign ueber die Nutzerstudie bis zur statistischen Auswertung.

Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen
crossmenu