SUS-Score, NASA-TLX, Nielsen-Heuristiken und Nutzerstudien: So evaluieren Sie Usability und User Experience in Ihrer Informatik-Thesis – mit technischen Metriken, Studiendesign und statistischer Auswertung.
HCI-Theses scheitern selten am Interface – sie scheitern an der Studie. Es werden fünf Kommilitonen befragt, ein Fragebogen wird ausgefüllt, ein Mittelwert ausgerechnet, und die Arbeit landet bei „nicht reproduzierbar, nicht signifikant". Genau hier setzen die Akademiker der Ghostwriting-Agentur Business And Science an: Mit Promotionshintergrund in HCI, Wirtschaftspsychologie oder empirischer Sozialforschung liefern unsere Autoren Nutzerstudien mit definiertem Studiendesign (Within- oder Between-Subjects mit Counterbalancing), vorab berechneter Stichprobengröße per Power Analysis, korrekt berechnetem SUS nach Brooke-Formel und einer inferenzstatistischen Auswertung mit p-Wert und Effektstärke nach Cohen. In über 12.000 Projekten seit 2012 haben unsere Informatik-Ghostwriter verinnerlicht, wo HCI-Gutachter den Unterschied zwischen Eindruck und Evidenz ziehen.
HCI-Theses leben von der Nutzerstudie – und hier liegt die größte Schwäche vieler Arbeiten: zu wenige Teilnehmer, kein Studiendesign, keine statistischen Tests. Die Thesis muss dokumentieren: Studiendesign (Within- oder Between-Subjects), Teilnehmer (Anzahl, Demographie, Rekrutierung), Aufgaben (Tasks mit definierten Erfolgskriterien), Metriken (SUS, Task Completion Rate, Error Rate, Time on Task), Statistische Tests (t-Test, ANOVA, Wilcoxon). Unsere Informatik-Ghostwriter und Statistik-Berater – promovierte Akademiker mit Forschungs- und Industrieerfahrung – unterstützen bei Studiendesign und Auswertung.
| Metrik | Typ | Beschreibung | Interpretation |
|---|---|---|---|
| SUS (System Usability Scale) | Fragebogen (10 Items, 5-Punkt Likert) | Globaler Usability-Score (0–100) | >68 = überdurchschnittlich, >80 = gut, >90 = exzellent |
| NASA-TLX | Fragebogen (6 Dimensionen) | Task Load Index: Mental, Physical, Temporal Demand, Performance, Effort, Frustration | Niedriger = besser. Vergleich zwischen Interfaces/Bedingungen. |
| Task Completion Rate | Performance-Metrik | Anteil erfolgreich abgeschlossener Aufgaben | 100% = alle Tasks gelöst. <80%>80%> |
| Time on Task | Performance-Metrik | Zeit bis zur erfolgreichen Aufgabenbearbeitung | Kürzer = effizienter. Vergleich mit Expertzeit als Baseline. |
| Error Rate | Performance-Metrik | Anzahl Fehler pro Task | Fehlertypen kategorisieren: Slips vs. Mistakes (Norman) |
| Learnability | Längsschnitt-Metrik | Verbesserung der Performance über wiederholte Nutzung | Lernkurve: Time on Task über Durchgänge plotten |
Vergleichbare Metrik-Sets haben unsere Autoren bereits in zahlreichen HCI-Theses umgesetzt – SUS plus Task Completion Rate als quantitative Pflichtmetriken, NASA-TLX zusätzlich für kognitiv anspruchsvolle Interfaces (Cockpits, VR-Anwendungen, medizinische Software) und Learnability-Lernkurven über mehrere Sitzungen für Master- und Doktorarbeiten zu Adaptive Interfaces oder Onboarding-Optimierung.
3–5 Evaluatoren prüfen das Interface unabhängig gegen die Heuristiken. Jede gefundene Verletzung wird dokumentiert: Heuristik (welche verletzt?), Stelle (wo im Interface?), Schweregrad (0 = kein Problem, 1 = kosmetisch, 2 = minor, 3 = major, 4 = Katastrophe). Die Ergebnisse werden aggregiert: Welche Probleme haben mehrere Evaluatoren gefunden? Die heuristische Evaluation ist ideal für die Bachelorarbeit – sie braucht keine Endnutzer, nur Experten (Kommilitonen mit HCI-Wissen genügen).
Unsere Ghostwriter führen heuristische Evaluationen mit klar getrennten Evaluatoren-Befunden durch, dokumentieren jede Verletzung mit Heuristik-Nummer, Screenshot-Stelle und Nielsen-Schweregrad und aggregieren die Ergebnisse zu einer priorisierten Befundsmatrix – das gleiche Format, das in publizierten HCI-Studien wie CHI- oder Mensch-und-Computer-Beiträgen Standard ist.
Jeder Teilnehmer testet alle Bedingungen (z.B. Interface A und Interface B). Vorteil: Weniger Teilnehmer nötig, individuelle Unterschiede kontrolliert. Nachteil: Reihenfolge-Effekte (Learning, Fatigue) → Counterbalancing (Latin Square) nötig.
Teilnehmer BA: 12–20. MA: 20–30. Statistik: Paired t-Test, Repeated Measures ANOVA, Wilcoxon Signed-Rank.
Jeder Teilnehmer testet nur eine Bedingung. Vorteil: Keine Reihenfolge-Effekte. Nachteil: Mehr Teilnehmer nötig, individuelle Unterschiede als Störvariable.
Teilnehmer BA: 20–30 pro Bedingung. MA: 30–50 pro Bedingung. Statistik: Independent t-Test, One-Way ANOVA, Mann-Whitney U.
Unsere Akademiker wählen das Studiendesign in der Thesis nicht nach Bequemlichkeit, sondern nach Forschungsfrage und verfügbarer Stichprobe – Within-Subjects mit Latin-Square-Counterbalancing bei Interface-Vergleich und kleiner Probandenzahl, Between-Subjects bei Lernsituationen mit hohen Carry-Over-Effekten oder bei A/B-Tests mit großer Nutzerbasis. Das Design-Rationale ist Pflichtbestandteil des Methodenkapitels.
Unsere Autoren konzipieren Nutzerstudien in der Thesis mit explizit formulierten Hypothesen, vorab berechneter Stichprobengröße per G*Power und einer Ethik-Dokumentation, die DSGVO-konform Einwilligung, Anonymisierung und Datenlöschung regelt. Statistik-Auswertung erfolgt in R oder SPSS mit deskriptiver und inferenzstatistischer Analyse plus Effektstärken-Interpretation. Jetzt unverbindlich anfragen.
Nutzerstudie für Ihre Thesis?
Promovierte Informatiker und Statistiker unterstützen bei Studiendesign und AuswertungZwei Varianten (A = Kontrolle, B = Behandlung) werden zufällig an Nutzer ausgespielt. Metrik: Conversion Rate, Click-Through Rate, Time on Page. Statistik: Chi-Quadrat-Test oder z-Test für Proportionen. Tools: Google Optimize (eingestellt → Alternativen: PostHog, Growthbook), Firebase A/B Testing.
Thesis: Sample Size vorab berechnen (Power Analysis: alpha=0.05, power=0.80, erwarteter Effekt). Laufzeit dokumentieren. Statistische Signifikanz und praktische Relevanz unterscheiden.
Blickbewegungen auf dem Interface messen: Fixationen (wo wird geschaut?), Sakkaden (Blicksprünge), Heatmaps, Areas of Interest (AOI), Time to First Fixation. Hardware: Tobii, EyeLink, oder webcam-basiert (WebGazer.js – weniger präzise, aber kostenlos).
Thesis: Eye-Tracking ergänzt Performance-Metriken – es zeigt nicht nur was Nutzer tun, sondern wohin sie schauen. Heatmaps als Abbildungen in der Thesis, AOI-Analyse für Vergleiche.
A/B-Tests und Eye-Tracking-Studien sind beliebte Master-Thesis-Formate, die unsere Ghostwriter mit der gleichen methodischen Strenge betreuen wie klassische Laborstudien – Sample Size vorab per Power Analysis berechnet, Bonferroni-Korrektur bei multiplen Vergleichen, Heatmap- und AOI-Analyse nach iMotions- oder Tobii-Pro-Standards, und eine Diskussion zur ökologischen Validität (Lab vs. Feldstudie).
5 Teilnehmer genügen für eine heuristische Evaluation – aber nicht für eine quantitative Nutzerstudie. Für statistische Tests: mindestens 12 pro Bedingung (Within-Subjects) oder 20 pro Gruppe (Between-Subjects). Power Analysis vorab durchführen.
Teilnehmer testen „irgendwie" und füllen einen Fragebogen aus. Ohne definiertes Studiendesign (Within/Between, Counterbalancing, Tasks) ist die Studie nicht valide und nicht reproduzierbar.
Der SUS-Score hat eine spezifische Berechnungsformel (Brooke, 1996): ungerade Items minus 1, gerade Items: 5 minus Antwort, Summe mal 2.5. Häufig wird einfach der Mittelwert der Rohwerte genommen – falsch.
„Interface B hat einen höheren SUS-Score als A." Aber ist der Unterschied signifikant? Ohne p-Wert und Effektgröße ist die Aussage anekdotisch. Mindestens: t-Test + Cohens d.
Diese vier Fehler entscheiden in der HCI-Beratung von Business And Science seit 2012 darüber, ob eine Thesis als Eindrucksbericht oder als wissenschaftliche Studie bewertet wird. Unsere Informatik-Autoren bauen HCI-Theses so auf, dass diese Fehler strukturell ausgeschlossen sind: Stichprobengröße per G*Power vorab berechnet, Studiendesign mit Counterbalancing-Plan dokumentiert, SUS exakt nach Brooke-Formel berechnet (oft mit eigener R- oder Python-Implementierung im Anhang), inferenzstatistische Auswertung mit p-Wert plus Cohens d und 95%-Konfidenzintervall. Hier unverbindlich anfragen.
Heuristische Evaluation: 3–5 Experten (Nielsen 1994: 5 Evaluatoren finden ~75% der Probleme). Qualitative Studie (Think-Aloud): 5–8 Teilnehmer genügen für explorative Erkenntnisse. Quantitative Studie (SUS-Vergleich): Mindestens 12–15 pro Bedingung (Within-Subjects) oder 20+ pro Gruppe (Between-Subjects). Berechnen Sie die Stichprobengröße mit einer Power Analysis (G*Power, kostenlos): alpha=0.05, power=0.80, erwartete Effektgröße (Cohens d=0.5 für mittleren Effekt).
SUS misst subjektive Usability – wie einfach und angenehm ist das System zu benutzen? Standard für alle Interfaces. NASA-TLX misst kognitive Belastung – wie anstrengend ist die Aufgabe? Sinnvoll für komplexe Interfaces (Cockpits, Kontrollsysteme, VR) oder wenn Workload die Hauptfrage ist. In der Thesis: SUS als Pflicht-Fragebogen für jede Usability-Studie. NASA-TLX zusätzlich, wenn kognitive Belastung relevant ist. Beide kombinieren ist gängig und empfohlen.
Standard: Lazar/Feng/Hochheiser „Research Methods in Human-Computer Interaction" (2nd ed., 2017) – das Methodenbuch für HCI-Theses. Design: Norman „The Design of Everyday Things" (revised ed., 2013). Metriken: Sauro/Lewis „Quantifying the User Experience" (2nd ed., 2016). Heuristiken: Nielsen „Usability Engineering" (1994). SUS: Brooke „SUS: A Retrospective" (2013). Statistik für HCI: Robertson/Kaptein „Modern Statistical Methods for HCI" (2016).
Über 200 promovierte Ghostwriter – darunter Informatiker und Psychologen mit HCI-Expertise. Vom Studiendesign über die Nutzerstudie bis zur statistischen Auswertung.
Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen