Human-Computer Interaction in der Bachelorarbeit & Masterarbeit

SUS-Score, NASA-TLX, Nielsen-Heuristiken und Nutzerstudien: So evaluieren Sie Usability und User Experience in Ihrer Informatik-Thesis – mit technischen Metriken, Studiendesign und statistischer Auswertung.

SUS & NASA-TLX
Nielsen-Heuristiken
A/B-Testing
Nutzerstudien
Eye-Tracking

HCI-Theses scheitern selten am Interface – sie scheitern an der Studie. Es werden fünf Kommilitonen befragt, ein Fragebogen wird ausgefüllt, ein Mittelwert ausgerechnet, und die Arbeit landet bei „nicht reproduzierbar, nicht signifikant". Genau hier setzen die Akademiker der Ghostwriting-Agentur Business And Science an: Mit Promotionshintergrund in HCI, Wirtschaftspsychologie oder empirischer Sozialforschung liefern unsere Autoren Nutzerstudien mit definiertem Studiendesign (Within- oder Between-Subjects mit Counterbalancing), vorab berechneter Stichprobengröße per Power Analysis, korrekt berechnetem SUS nach Brooke-Formel und einer inferenzstatistischen Auswertung mit p-Wert und Effektstärke nach Cohen. In über 12.000 Projekten seit 2012 haben unsere Informatik-Ghostwriter verinnerlicht, wo HCI-Gutachter den Unterschied zwischen Eindruck und Evidenz ziehen.

1. Usability-Metriken: Quantitativ messen

MetrikTypBeschreibungInterpretation
SUS (System Usability Scale)Fragebogen (10 Items, 5-Punkt Likert)Globaler Usability-Score (0–100)>68 = überdurchschnittlich, >80 = gut, >90 = exzellent
NASA-TLXFragebogen (6 Dimensionen)Task Load Index: Mental, Physical, Temporal Demand, Performance, Effort, FrustrationNiedriger = besser. Vergleich zwischen Interfaces/Bedingungen.
Task Completion RatePerformance-MetrikAnteil erfolgreich abgeschlossener Aufgaben100% = alle Tasks gelöst. <80%>
Time on TaskPerformance-MetrikZeit bis zur erfolgreichen AufgabenbearbeitungKürzer = effizienter. Vergleich mit Expertzeit als Baseline.
Error RatePerformance-MetrikAnzahl Fehler pro TaskFehlertypen kategorisieren: Slips vs. Mistakes (Norman)
LearnabilityLängsschnitt-MetrikVerbesserung der Performance über wiederholte NutzungLernkurve: Time on Task über Durchgänge plotten

Vergleichbare Metrik-Sets haben unsere Autoren bereits in zahlreichen HCI-Theses umgesetzt – SUS plus Task Completion Rate als quantitative Pflichtmetriken, NASA-TLX zusätzlich für kognitiv anspruchsvolle Interfaces (Cockpits, VR-Anwendungen, medizinische Software) und Learnability-Lernkurven über mehrere Sitzungen für Master- und Doktorarbeiten zu Adaptive Interfaces oder Onboarding-Optimierung.

2. Heuristische Evaluation: Nielsen & Co.

Nielsens 10 Usability-Heuristiken (1994)

  • 1. Sichtbarkeit des Systemstatus: Das System informiert Nutzer über den aktuellen Zustand (Ladebalken, Breadcrumbs)
  • 2. Übereinstimmung System/reale Welt: Vertraute Sprache und Konzepte statt Systemjargon
  • 3. Nutzerkontrolle & Freiheit: Undo, Redo, Abbrechen – Notausgang jederzeit möglich
  • 4. Konsistenz & Standards: Gleiche Aktionen, gleiche Ergebnisse. Plattform-Konventionen einhalten
  • 5. Fehlervermeidung: Design, das Fehler verhindert (z.B. Bestätigungsdialoge, Constraints)
  • 6. Wiedererkennung statt Erinnerung: Optionen sichtbar machen, kein auswendig Lernen
  • 7. Flexibilität & Effizienz: Shortcuts für Experten, Standardwege für Anfänger
  • 8. Ästhetisches & minimalistisches Design: Nur relevante Information zeigen
  • 9. Fehlererkennung & -behebung: Klare Fehlermeldungen mit Lösungsvorschlägen
  • 10. Hilfe & Dokumentation: Kontextuelle Hilfe, durchsuchbar, aufgabenbezogen

Heuristische Evaluation in der Thesis

3–5 Evaluatoren prüfen das Interface unabhängig gegen die Heuristiken. Jede gefundene Verletzung wird dokumentiert: Heuristik (welche verletzt?), Stelle (wo im Interface?), Schweregrad (0 = kein Problem, 1 = kosmetisch, 2 = minor, 3 = major, 4 = Katastrophe). Die Ergebnisse werden aggregiert: Welche Probleme haben mehrere Evaluatoren gefunden? Die heuristische Evaluation ist ideal für die Bachelorarbeit – sie braucht keine Endnutzer, nur Experten (Kommilitonen mit HCI-Wissen genügen).

Unsere Ghostwriter führen heuristische Evaluationen mit klar getrennten Evaluatoren-Befunden durch, dokumentieren jede Verletzung mit Heuristik-Nummer, Screenshot-Stelle und Nielsen-Schweregrad und aggregieren die Ergebnisse zu einer priorisierten Befundsmatrix – das gleiche Format, das in publizierten HCI-Studien wie CHI- oder Mensch-und-Computer-Beiträgen Standard ist.

3. Nutzerstudien: Design & Durchführung

Within-Subjects Design

Jeder Teilnehmer testet alle Bedingungen (z.B. Interface A und Interface B). Vorteil: Weniger Teilnehmer nötig, individuelle Unterschiede kontrolliert. Nachteil: Reihenfolge-Effekte (Learning, Fatigue) → Counterbalancing (Latin Square) nötig.

Teilnehmer BA: 12–20. MA: 20–30. Statistik: Paired t-Test, Repeated Measures ANOVA, Wilcoxon Signed-Rank.

Between-Subjects Design

Jeder Teilnehmer testet nur eine Bedingung. Vorteil: Keine Reihenfolge-Effekte. Nachteil: Mehr Teilnehmer nötig, individuelle Unterschiede als Störvariable.

Teilnehmer BA: 20–30 pro Bedingung. MA: 30–50 pro Bedingung. Statistik: Independent t-Test, One-Way ANOVA, Mann-Whitney U.

Unsere Akademiker wählen das Studiendesign in der Thesis nicht nach Bequemlichkeit, sondern nach Forschungsfrage und verfügbarer Stichprobe – Within-Subjects mit Latin-Square-Counterbalancing bei Interface-Vergleich und kleiner Probandenzahl, Between-Subjects bei Lernsituationen mit hohen Carry-Over-Effekten oder bei A/B-Tests mit großer Nutzerbasis. Das Design-Rationale ist Pflichtbestandteil des Methodenkapitels.

Nutzerstudie in der Thesis dokumentieren

  • Hypothesen: H1: „Interface B hat einen höheren SUS-Score als Interface A." H0: „Kein Unterschied."
  • Teilnehmer: Anzahl, Demographie (Alter, Geschlecht, Technik-Erfahrung), Rekrutierung, Ethik (Einwilligung, Anonymisierung – s. Forschungsethik-Guide)
  • Tasks: 3–7 definierte Aufgaben mit Erfolgskriterien (z.B. „Finden Sie das Produkt X und legen Sie es in den Warenkorb")
  • Ablauf: Einführung → Aufgaben → Fragebogen (SUS, NASA-TLX) → Interview/Debrief
  • Metriken: SUS, Time on Task, Error Rate, Task Completion Rate
  • Statistik: Deskriptiv (Mittelwert, SD, Median) + Inferenzstatistik (p-Wert, Effektgröße Cohens d)

Unsere Autoren konzipieren Nutzerstudien in der Thesis mit explizit formulierten Hypothesen, vorab berechneter Stichprobengröße per G*Power und einer Ethik-Dokumentation, die DSGVO-konform Einwilligung, Anonymisierung und Datenlöschung regelt. Statistik-Auswertung erfolgt in R oder SPSS mit deskriptiver und inferenzstatistischer Analyse plus Effektstärken-Interpretation. Jetzt unverbindlich anfragen.

Nutzerstudie für Ihre Thesis?

Promovierte Informatiker und Statistiker unterstützen bei Studiendesign und Auswertung
Informatik-Ghostwriter →

4. A/B-Testing & Eye-Tracking

A/B-Testing

Zwei Varianten (A = Kontrolle, B = Behandlung) werden zufällig an Nutzer ausgespielt. Metrik: Conversion Rate, Click-Through Rate, Time on Page. Statistik: Chi-Quadrat-Test oder z-Test für Proportionen. Tools: Google Optimize (eingestellt → Alternativen: PostHog, Growthbook), Firebase A/B Testing.

Thesis: Sample Size vorab berechnen (Power Analysis: alpha=0.05, power=0.80, erwarteter Effekt). Laufzeit dokumentieren. Statistische Signifikanz und praktische Relevanz unterscheiden.

Eye-Tracking

Blickbewegungen auf dem Interface messen: Fixationen (wo wird geschaut?), Sakkaden (Blicksprünge), Heatmaps, Areas of Interest (AOI), Time to First Fixation. Hardware: Tobii, EyeLink, oder webcam-basiert (WebGazer.js – weniger präzise, aber kostenlos).

Thesis: Eye-Tracking ergänzt Performance-Metriken – es zeigt nicht nur was Nutzer tun, sondern wohin sie schauen. Heatmaps als Abbildungen in der Thesis, AOI-Analyse für Vergleiche.

A/B-Tests und Eye-Tracking-Studien sind beliebte Master-Thesis-Formate, die unsere Ghostwriter mit der gleichen methodischen Strenge betreuen wie klassische Laborstudien – Sample Size vorab per Power Analysis berechnet, Bonferroni-Korrektur bei multiplen Vergleichen, Heatmap- und AOI-Analyse nach iMotions- oder Tobii-Pro-Standards, und eine Diskussion zur ökologischen Validität (Lab vs. Feldstudie).

5. Häufige Fehler

Zu wenige Teilnehmer

5 Teilnehmer genügen für eine heuristische Evaluation – aber nicht für eine quantitative Nutzerstudie. Für statistische Tests: mindestens 12 pro Bedingung (Within-Subjects) oder 20 pro Gruppe (Between-Subjects). Power Analysis vorab durchführen.

Kein Studiendesign dokumentiert

Teilnehmer testen „irgendwie" und füllen einen Fragebogen aus. Ohne definiertes Studiendesign (Within/Between, Counterbalancing, Tasks) ist die Studie nicht valide und nicht reproduzierbar.

SUS falsch berechnet

Der SUS-Score hat eine spezifische Berechnungsformel (Brooke, 1996): ungerade Items minus 1, gerade Items: 5 minus Antwort, Summe mal 2.5. Häufig wird einfach der Mittelwert der Rohwerte genommen – falsch.

Keine statistische Auswertung

„Interface B hat einen höheren SUS-Score als A." Aber ist der Unterschied signifikant? Ohne p-Wert und Effektgröße ist die Aussage anekdotisch. Mindestens: t-Test + Cohens d.

Diese vier Fehler entscheiden in der HCI-Beratung von Business And Science seit 2012 darüber, ob eine Thesis als Eindrucksbericht oder als wissenschaftliche Studie bewertet wird. Unsere Informatik-Autoren bauen HCI-Theses so auf, dass diese Fehler strukturell ausgeschlossen sind: Stichprobengröße per G*Power vorab berechnet, Studiendesign mit Counterbalancing-Plan dokumentiert, SUS exakt nach Brooke-Formel berechnet (oft mit eigener R- oder Python-Implementierung im Anhang), inferenzstatistische Auswertung mit p-Wert plus Cohens d und 95%-Konfidenzintervall. Hier unverbindlich anfragen.

FAQ zu HCI in der Thesis

Wie viele Teilnehmer brauche ich?

Heuristische Evaluation: 3–5 Experten (Nielsen 1994: 5 Evaluatoren finden ~75% der Probleme). Qualitative Studie (Think-Aloud): 5–8 Teilnehmer genügen für explorative Erkenntnisse. Quantitative Studie (SUS-Vergleich): Mindestens 12–15 pro Bedingung (Within-Subjects) oder 20+ pro Gruppe (Between-Subjects). Berechnen Sie die Stichprobengröße mit einer Power Analysis (G*Power, kostenlos): alpha=0.05, power=0.80, erwartete Effektgröße (Cohens d=0.5 für mittleren Effekt).

SUS oder NASA-TLX?

SUS misst subjektive Usability – wie einfach und angenehm ist das System zu benutzen? Standard für alle Interfaces. NASA-TLX misst kognitive Belastung – wie anstrengend ist die Aufgabe? Sinnvoll für komplexe Interfaces (Cockpits, Kontrollsysteme, VR) oder wenn Workload die Hauptfrage ist. In der Thesis: SUS als Pflicht-Fragebogen für jede Usability-Studie. NASA-TLX zusätzlich, wenn kognitive Belastung relevant ist. Beide kombinieren ist gängig und empfohlen.

Welche Literatur brauche ich?

Standard: Lazar/Feng/Hochheiser „Research Methods in Human-Computer Interaction" (2nd ed., 2017) – das Methodenbuch für HCI-Theses. Design: Norman „The Design of Everyday Things" (revised ed., 2013). Metriken: Sauro/Lewis „Quantifying the User Experience" (2nd ed., 2016). Heuristiken: Nielsen „Usability Engineering" (1994). SUS: Brooke „SUS: A Retrospective" (2013). Statistik für HCI: Robertson/Kaptein „Modern Statistical Methods for HCI" (2016).

HCI in Ihrer Thesis – professionell evaluiert

Über 200 promovierte Ghostwriter – darunter Informatiker und Psychologen mit HCI-Expertise. Vom Studiendesign über die Nutzerstudie bis zur statistischen Auswertung.

Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen
crossmenu