SUS-Score, NASA-TLX, Nielsen-Heuristiken und Nutzerstudien: So evaluieren Sie Usability und User Experience in Ihrer Informatik-Thesis – mit technischen Metriken, Studiendesign und statistischer Auswertung.
HCI-Theses leben von der Nutzerstudie – und hier liegt die groesste Schwaeche vieler Arbeiten: zu wenige Teilnehmer, kein Studiendesign, keine statistischen Tests. Die Thesis muss dokumentieren: Studiendesign (Within- oder Between-Subjects), Teilnehmer (Anzahl, Demographie, Rekrutierung), Aufgaben (Tasks mit definierten Erfolgreskriterien), Metriken (SUS, Task Completion Rate, Error Rate, Time on Task), Statistische Tests (t-Test, ANOVA, Wilcoxon). Unsere Informatik-Ghostwriter und Statistik-Berater unterstuetzen bei Studiendesign und Auswertung.
| Metrik | Typ | Beschreibung | Interpretation |
|---|---|---|---|
| SUS (System Usability Scale) | Fragebogen (10 Items, 5-Punkt Likert) | Globaler Usability-Score (0–100) | >68 = ueberdurchschnittlich, >80 = gut, >90 = exzellent |
| NASA-TLX | Fragebogen (6 Dimensionen) | Task Load Index: Mental, Physical, Temporal Demand, Performance, Effort, Frustration | Niedriger = besser. Vergleich zwischen Interfaces/Bedingungen. |
| Task Completion Rate | Performance-Metrik | Anteil erfolgreich abgeschlossener Aufgaben | 100% = alle Tasks geloest. <80%>80%> |
| Time on Task | Performance-Metrik | Zeit bis zur erfolgreichen Aufgabenbearbeitung | Kuerzer = effizienter. Vergleich mit Expertzeit als Baseline. |
| Error Rate | Performance-Metrik | Anzahl Fehler pro Task | Fehlertypen kategorisieren: Slips vs. Mistakes (Norman) |
| Learnability | Laengsschnitt-Metrik | Verbesserung der Performance ueber wiederholte Nutzung | Lernkurve: Time on Task ueber Durchgaenge plotten |
3–5 Evaluatoren pruefen das Interface unabhaengig gegen die Heuristiken. Jede gefundene Verletzung wird dokumentiert: Heuristik (welche verletzt?), Stelle (wo im Interface?), Schweregrad (0 = kein Problem, 1 = kosmetisch, 2 = minor, 3 = major, 4 = Katastrophe). Die Ergebnisse werden aggregiert: Welche Probleme haben mehrere Evaluatoren gefunden? Die heuristische Evaluation ist ideal fuer die Bachelorarbeit – sie braucht keine Endnutzer, nur Experten (Kommilitonen mit HCI-Wissen genuegen).
Jeder Teilnehmer testet alle Bedingungen (z.B. Interface A und Interface B). Vorteil: Weniger Teilnehmer noetig, individuelle Unterschiede kontrolliert. Nachteil: Reihenfolge-Effekte (Learning, Fatigue) → Counterbalancing (Latin Square) noetig.
Teilnehmer BA: 12–20. MA: 20–30. Statistik: Paired t-Test, Repeated Measures ANOVA, Wilcoxon Signed-Rank.
Jeder Teilnehmer testet nur eine Bedingung. Vorteil: Keine Reihenfolge-Effekte. Nachteil: Mehr Teilnehmer noetig, individuelle Unterschiede als Stoervariable.
Teilnehmer BA: 20–30 pro Bedingung. MA: 30–50 pro Bedingung. Statistik: Independent t-Test, One-Way ANOVA, Mann-Whitney U.
Nutzerstudie fuer Ihre Thesis?
Promovierte Informatiker und Statistiker unterstuetzen bei Studiendesign und AuswertungZwei Varianten (A = Kontrolle, B = Behandlung) werden zufaellig an Nutzer ausgespielt. Metrik: Conversion Rate, Click-Through Rate, Time on Page. Statistik: Chi-Quadrat-Test oder z-Test fuer Proportionen. Tools: Google Optimize (eingestellt → Alternativen: PostHog, Growthbook), Firebase A/B Testing.
Thesis: Sample Size vorab berechnen (Power Analysis: alpha=0.05, power=0.80, erwarteter Effekt). Laufzeit dokumentieren. Statistische Signifikanz und praktische Relevanz unterscheiden.
Blickbewegungen auf dem Interface messen: Fixationen (wo wird geschaut?), Sakkaden (Blickspruenge), Heatmaps, Areas of Interest (AOI), Time to First Fixation. Hardware: Tobii, EyeLink, oder webcam-basiert (WebGazer.js – weniger praezise, aber kostenlos).
Thesis: Eye-Tracking ergaenzt Performance-Metriken – es zeigt nicht nur was Nutzer tun, sondern wohin sie schauen. Heatmaps als Abbildungen in der Thesis, AOI-Analyse fuer Vergleiche.
5 Teilnehmer genuegen fuer eine heuristische Evaluation – aber nicht fuer eine quantitative Nutzerstudie. Fuer statistische Tests: mindestens 12 pro Bedingung (Within-Subjects) oder 20 pro Gruppe (Between-Subjects). Power Analysis vorab durchfuehren.
Teilnehmer testen „irgendwie" und fuellen einen Fragebogen aus. Ohne definiertes Studiendesign (Within/Between, Counterbalancing, Tasks) ist die Studie nicht valide und nicht reproduzierbar.
Der SUS-Score hat eine spezifische Berechnungsformel (Brooke, 1996): ungerade Items minus 1, gerade Items: 5 minus Antwort, Summe mal 2.5. Haeufig wird einfach der Mittelwert der Rohwerte genommen – falsch.
„Interface B hat einen hoeheren SUS-Score als A." Aber ist der Unterschied signifikant? Ohne p-Wert und Effektgroesse ist die Aussage anekdotisch. Mindestens: t-Test + Cohens d.
Heuristische Evaluation: 3–5 Experten (Nielsen 1994: 5 Evaluatoren finden ~75% der Probleme). Qualitative Studie (Think-Aloud): 5–8 Teilnehmer genuegen fuer explorative Erkenntnisse. Quantitative Studie (SUS-Vergleich): Mindestens 12–15 pro Bedingung (Within-Subjects) oder 20+ pro Gruppe (Between-Subjects). Berechnen Sie die Stichprobengroesse mit einer Power Analysis (G*Power, kostenlos): alpha=0.05, power=0.80, erwartete Effektgroesse (Cohens d=0.5 fuer mittleren Effekt).
SUS misst subjektive Usability – wie einfach und angenehm ist das System zu benutzen? Standard fuer alle Interfaces. NASA-TLX misst kognitive Belastung – wie anstrengend ist die Aufgabe? Sinnvoll fuer komplexe Interfaces (Cockpits, Kontrollsysteme, VR) oder wenn Workload die Hauptfrage ist. In der Thesis: SUS als Pflicht-Fragebogen fuer jede Usability-Studie. NASA-TLX zusaetzlich, wenn kognitive Belastung relevant ist. Beide kombinieren ist gaengig und empfohlen.
Standard: Lazar/Feng/Hochheiser „Research Methods in Human-Computer Interaction" (2nd ed., 2017) – das Methodenbuch fuer HCI-Theses. Design: Norman „The Design of Everyday Things" (revised ed., 2013). Metriken: Sauro/Lewis „Quantifying the User Experience" (2nd ed., 2016). Heuristiken: Nielsen „Usability Engineering" (1994). SUS: Brooke „SUS: A Retrospective" (2013). Statistik fuer HCI: Robertson/Kaptein „Modern Statistical Methods for HCI" (2016).
Ueber 200 promovierte Ghostwriter – darunter Informatiker und Psychologen mit HCI-Expertise. Vom Studiendesign ueber die Nutzerstudie bis zur statistischen Auswertung.
Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen