Machine Learning in der Bachelorarbeit & Masterarbeit

Neuronale Netze, Hyperparameter-Tuning, Kreuzvalidierung und Ablation Studies: So dokumentieren Sie die ML-Pipeline in Ihrer Thesis reproduzierbar – vom Datensatz ueber das Modell bis zur Evaluation mit Precision, Recall und AUC-ROC.

ML-Pipeline

CNN / Transformer

Hyperparameter-Tuning

Kreuzvalidierung

Reproduzierbarkeit

Inhalt

1 Die ML-Pipeline: Struktur der Thesis
2 Datensatz: Beschreibung, Splitting & Preprocessing
3 Modellarchitekturen: Klassisch bis Deep Learning
4 Hyperparameter-Tuning & Modellselektion
5 Evaluation: Metriken, Baselines & Ablation
6 Reproduzierbarkeit: Seeds, Configs & MLflow
7 Haeufige Fehler
8 FAQ

Machine Learning in der Thesis – Das Wichtigste

ML-Theses scheitern selten am Modell – sie scheitern an der Dokumentation und Evaluation. Die haeufigsten Probleme: kein Baseline-Vergleich, Data Leakage durch falsches Splitting, Hyperparameter nicht angegeben, Ergebnisse nicht reproduzierbar. Die ML-Pipeline muss in der Thesis so dokumentiert sein, dass ein anderer Forscher Ihre Ergebnisse exakt reproduzieren kann: Datensatz (Quelle, Version, Groesse), Preprocessing (Normalisierung, Augmentation), Modell (Architektur, Layer-Konfiguration), Training (Optimizer, Learning Rate, Epochs, Batch Size, Random Seed), Evaluation (Metriken, Kreuzvalidierung, Konfidenzintervalle). Unsere Ghostwriter der Informatik und Statistik-Ghostwriter unterstuetzen bei der kompletten ML-Pipeline.

1. Die ML-Pipeline: Struktur der Thesis

Problemdefinition & Related Work

Was ist die Aufgabe? Klassifikation, Regression, Clustering, Generation? Welche Modelle wurden bereits angewendet? Wo ist die Luecke? Formulieren Sie eine messbare Forschungsfrage: „Kann Modell X die Accuracy von Baseline Y auf Datensatz Z uebertreffen?"

Datensatz & Preprocessing

Datensatz beschreiben (Quelle, Groesse, Klassen, Verteilung). Splitting: Train/Validation/Test (typisch 70/15/15 oder 80/10/10). Preprocessing: Normalisierung, Tokenisierung, Augmentation. Data Leakage vermeiden: Preprocessing-Parameter nur auf Trainingsdaten fitten.

Modellarchitektur & Training

Architektur begruenden (warum CNN und nicht RNN? Warum BERT und nicht GPT?). Alle Hyperparameter dokumentieren: Optimizer (Adam, SGD), Learning Rate, Batch Size, Epochs, Regularisierung (Dropout, Weight Decay). Random Seed setzen und dokumentieren.

Evaluation & Vergleich

Metriken definieren (abhaengig von der Aufgabe). Mindestens eine Baseline. Kreuzvalidierung oder Mehrfachlaeufe mit Mittelwert und Standardabweichung. Ablation Study: Was traegt jede Komponente zum Ergebnis bei?

Analyse & Diskussion

Fehleranalyse: Wo versagt das Modell? Confusion Matrix, Beispiele fuer Fehlklassifikationen. Threats to Validity: Ueberfitten? Datensatz-Bias? Generalisierbarkeit?

2. Datensatz: Beschreibung, Splitting & Preprocessing

Checkliste: Datensatz in der Thesis dokumentieren

Quelle: Name, URL, Version/Release-Datum, Lizenz
Groesse: Anzahl Samples gesamt, pro Klasse (bei Klassifikation), Train/Val/Test-Split
Features: Beschreibung der Eingabevariablen (Dimensionen, Typen, Wertebereiche)
Label: Beschreibung der Zielvariable (Klassen, Verteilung, Imbalance?)
Preprocessing: Normalisierung (Min-Max, Z-Score), Tokenisierung, Bildaugmentation, Imputation fehlender Werte
Splitting-Strategie: Random Split, Stratified Split, Temporal Split (bei Zeitreihen), Cross-Validation
Data Leakage-Pruefung: Preprocessing nur auf Trainingsdaten fitten, keine Information aus Test in Training

Data Leakage: Der haeufigste ML-Fehler

Data Leakage entsteht, wenn Information aus dem Test-Set in das Training einfliesst. Typische Quellen: (1) Normalisierung vor dem Split: Mean und Std werden ueber den gesamten Datensatz berechnet – das Testset „weiss" dann den Mittelwert. Loesung: fit_transform nur auf Train, transform auf Test. (2) Feature Selection vor dem Split: Features werden anhand des gesamten Datensatzes ausgewaehlt. (3) Duplikate in Train und Test: Dasselbe Sample in beiden Splits. Gutachter mit ML-Erfahrung erkennen Data Leakage an unrealistisch hohen Metriken.

3. Modellarchitekturen: Klassisch bis Deep Learning

Modell	Typ	Staerken	Typischer Thesis-Einsatz
Logistic Regression / SVM	Klassisch	Interpretierbar, schnell, gute Baseline	Baseline fuer jede Klassifikations-Thesis
Random Forest / XGBoost	Ensemble	Stark auf tabellarischen Daten, Feature Importance	Tabellarische Daten (oft besser als Deep Learning!)
CNN	Deep Learning	Raeuumliche Merkmale (Bilder, Signale)	Computer Vision, medizinische Bildgebung
RNN / LSTM / GRU	Deep Learning	Sequenzielle Daten	Zeitreihen (aber oft von Transformern abgeloest)
Transformer (BERT, GPT, ViT)	Deep Learning	State of the Art in NLP und zunehmend Vision	NLP (Sentimentanalyse, NER), Vision (ViT)
GNN (Graph Neural Networks)	Deep Learning	Graphstrukturen (Molekuele, Social Networks)	Bioinformatik, Empfehlungssysteme, Netzwerkanalyse
Autoencoder / VAE / GAN	Generativ	Datengenerierung, Anomalieerkennung	Synthetische Daten, Bildgenerierung, Anomalien

Modellwahl begruenden

Gutachter fragen: Warum dieses Modell? Die Antwort muss an der Aufgabe und den Daten ansetzen – nicht an der Popularitaet. „Transformer, weil State of the Art" ist keine Begruendung. Besser: „Ein BERT-basiertes Modell wurde gewaehlt, weil (1) die Aufgabe kontextabhaengiges Textverstaendnis erfordert, (2) vortrainierte Sprachmodelle auf kleinen Datensaetzen durch Transfer Learning besser generalisieren als von Grund auf trainierte LSTMs, (3) Devlin et al. (2019) auf aehnlichen NLP-Tasks SOTA-Ergebnisse erzielt haben."

ML-Pipeline fuer Ihre Thesis?

Promovierte Informatiker und Statistiker unterstuetzen bei Modellwahl, Training und Evaluation

Informatik-Ghostwriter →

4. Hyperparameter-Tuning & Modellselektion

Tuning-Methoden

Grid Search: Alle Kombinationen systematisch testen – exhaustiv, aber teuer bei vielen Parametern
Random Search: Zufaellige Stichprobe aus dem Parameterraum – oft effizienter als Grid Search (Bergstra/Bengio, 2012)
Bayesian Optimization: Modellbasierte Suche (Optuna, Hyperopt) – findet gute Konfigurationen mit weniger Evaluationen
Learning Rate Scheduler: Warm-Up, Cosine Annealing, ReduceLROnPlateau – fuer Deep-Learning-Training

Was in der Thesis dokumentieren

Welche Hyperparameter wurden getuned (und welche festgelegt)?
Suchraum: Welche Werte/Bereiche wurden getestet?
Methode: Grid Search, Random Search, Bayesian?
Anzahl der Trials
Validierungsstrategie: k-fold CV auf dem Trainingsset
Beste gefundene Konfiguration (exakte Werte)
Sensitivitaetsanalyse: Wie stark aendern sich Ergebnisse bei Parameteraenderung?

5. Evaluation: Metriken, Baselines & Ablation

Metrik	Aufgabe	Formel / Beschreibung	Wann verwenden?
Accuracy	Klassifikation	Korrekte / Gesamt	Nur bei balancierten Klassen sinnvoll
Precision	Klassifikation	TP / (TP + FP)	Wenn False Positives teuer sind
Recall (Sensitivity)	Klassifikation	TP / (TP + FN)	Wenn False Negatives teuer sind (Medizin)
F1-Score	Klassifikation	Harmonisches Mittel aus Precision und Recall	Standard bei imbalancierten Klassen
AUC-ROC	Binaere Klassifikation	Flaeche unter der ROC-Kurve	Schwellenwert-unabhaengige Bewertung
MSE / RMSE / MAE	Regression	Mean Squared / Root Mean Squared / Mean Absolute Error	Standard fuer Regressions-Tasks
BLEU / ROUGE	NLP (Generierung)	n-Gram-Ueberlappung mit Referenz	Maschinelle Uebersetzung, Zusammenfassung
IoU / mAP	Object Detection	Intersection over Union / Mean Average Precision	Computer Vision: Objekterkennung

Baselines: Pflicht

Mindestens eine Baseline – besser zwei oder drei: (1) Triviale Baseline: Random Classifier, Majority Vote, Mean Predictor. (2) Klassische Baseline: Logistic Regression, Random Forest, SVM. (3) SOTA-Baseline: Bestes bekanntes Modell aus der Literatur (wenn Datensatz standardisiert).

Ablation Study

Systematisches Entfernen einzelner Komponenten: Was passiert, wenn ich die Augmentation weglasse? Den Attention-Mechanismus? Das Preprocessing? Die Ablation zeigt, welche Komponente tatsaechlich zum Ergebnis beitraegt – und schuetzt vor der Behauptung „alles ist wichtig".

6. Reproduzierbarkeit: Seeds, Configs & MLflow

Checkliste: Reproduzierbarkeit sicherstellen

Random Seed: Fuer alle Zufallsquellen setzen: Python (random), NumPy (np.random.seed), PyTorch (torch.manual_seed), CUDA (torch.cuda.manual_seed_all)
Environment: requirements.txt oder conda environment.yml mit exakten Versionen (numpy==1.26.4, torch==2.3.0)
Config-Datei: Alle Hyperparameter in einer YAML/JSON-Datei – nicht hardcoded im Skript
Experiment Tracking: MLflow, Weights & Biases (W&B), oder TensorBoard – Metriken, Parameter und Artefakte loggen
Git: Code versioniert, Commit-Hash des Experiments dokumentieren
Datensatz: Version/Hash angeben, oder bei eigenen Daten: Datensatz als Artefakt speichern
Hardware: GPU-Modell, CUDA-Version, RAM – beeinflusst Training und Ergebnisse (Floating-Point-Nondeterminismus)

7. Haeufige Fehler bei Machine Learning in der Thesis

Data Leakage

Normalisierung, Feature Selection oder Augmentation vor dem Train/Test-Split. Ergebnis: unrealistisch hohe Metriken, die auf neuen Daten nicht halten. Preprocessing nur auf Trainingsdaten fitten.

Kein Baseline-Vergleich

„Unser CNN erreicht 92% Accuracy." Aber ist das gut? Ohne Baseline (Random: 50%, Logistic Regression: 88%?) ist die Zahl bedeutungslos. Mindestens eine triviale und eine klassische Baseline.

Hyperparameter nicht dokumentiert

Learning Rate, Batch Size, Epochs, Optimizer: fehlen oder sind verstreut im Text. Alle Hyperparameter gehoeren in eine uebersichtliche Tabelle im Methodenteil.

Kein Random Seed

Ergebnisse sind nicht reproduzierbar, weil Zufallsinitialisierung nicht fixiert wurde. Seed setzen, dokumentieren und Mehrfachlaeufe (mindestens 3–5) mit verschiedenen Seeds durchfuehren.

Accuracy bei imbalancierten Daten

95% Accuracy – aber 95% der Daten gehoeren zur Mehrheitsklasse. Accuracy ist bei Klassenimbalance irrelevant. Verwenden Sie F1-Score (macro/weighted), AUC-ROC oder Precision/Recall.

Keine Fehleranalyse

Nur Metriken berichtet, aber nicht analysiert, wo das Modell versagt. Confusion Matrix, Beispiele fuer Fehlklassifikationen und Analyse der Fehlermuster zeigen ML-Kompetenz.

Haeufig gestellte Fragen zu Machine Learning in der Thesis

PyTorch oder TensorFlow?

PyTorch ist seit ~2020 der De-facto-Standard in der Forschung – die meisten neuen Paper, Konferenzen (NeurIPS, ICML, CVPR) und Universitaeten verwenden PyTorch. Vorteile: Dynamic Computation Graph (einfacheres Debugging), Pythonic API, grosse Forschungs-Community. TensorFlow/Keras ist staerker in der Industrie und bei Deployment (TFLite, TF Serving). Fuer die Thesis: Verwenden Sie, was an Ihrem Lehrstuhl Standard ist. Wenn freie Wahl: PyTorch fuer Forschungsarbeiten, TensorFlow wenn Deployment-Fokus. Hugging Face Transformers unterstuetzt beide.

Brauche ich eine GPU fuer meine Thesis?

Abhaengig vom Modell: Klassische ML (Random Forest, SVM, XGBoost): CPU genuegt. Deep Learning (CNN, Transformer): GPU dringend empfohlen – Training dauert sonst Tage statt Stunden. Optionen: (1) Uni-Cluster (viele Informatik-Institute haben GPU-Server). (2) Google Colab (kostenlos, begrenzte GPU-Zeit). (3) Cloud (AWS, GCP, Azure – mit Uni-Credits oft kostenlos). In der Thesis: Hardware dokumentieren (GPU-Modell, CUDA-Version, Trainingszeit).

Wie viele Daten brauche ich?

Keine feste Regel, aber Faustregeln: Klassische ML: Hunderte bis Tausende Samples koennen genuegen. Deep Learning (von Grund auf): Tausende bis Zehntausende pro Klasse. Transfer Learning / Fine-Tuning: Deutlich weniger – BERT kann mit 1.000 Samples fuer Text Classification feingetuned werden. Wenn wenig Daten: Transfer Learning, Data Augmentation, Few-Shot Learning. In der Thesis: Datengroesse als Limitation diskutieren, ggf. Learning Curves zeigen (Metrik vs. Trainingsgroesse).

Wie gehe ich mit Klassenimbalance um?

Vier Strategien: (1) Oversampling (SMOTE, RandomOverSampler): Minderheitsklasse kuenstlich vergroessern. (2) Undersampling: Mehrheitsklasse reduzieren – Datenverlust. (3) Class Weights: Loss-Funktion gewichten (class_weight='balanced' in sklearn, weighted CrossEntropyLoss in PyTorch). (4) Threshold Moving: Entscheidungsschwelle anpassen statt 0.5. In der Thesis: Strategie begruenden, F1-Score (macro) statt Accuracy verwenden, Stratified Split fuer Train/Test sicherstellen.

Was ist eine Ablation Study und brauche ich eine?

Eine Ablation Study entfernt systematisch einzelne Komponenten Ihres Modells oder Ihrer Pipeline und misst den Effekt. Beispiel: Ihr Modell hat Augmentation + Attention + Dropout. Ablation: (1) Ohne Augmentation: Accuracy sinkt von 92% auf 87% → Augmentation traegt 5% bei. (2) Ohne Attention: 92% auf 89%. (3) Ohne Dropout: 92% auf 91%. Ergebnis: Augmentation hat den groessten Einfluss. In der BA: Wuenschenswert, aber nicht Pflicht. In der MA/Diss: Erwartet fuer Deep-Learning-Arbeiten. Die Ablation zeigt, dass Sie Ihr Modell verstehen – nicht nur trainiert haben.

Welche Literatur muss ich zitieren?

Grundlagen: Goodfellow/Bengio/Courville „Deep Learning" (2016, kostenlos online) – das Standardwerk. Bishop „Pattern Recognition and Machine Learning" (2006) fuer klassisches ML. Spezifisch: Das Originalpaper des verwendeten Modells (z.B. Devlin et al. 2019 fuer BERT, He et al. 2016 fuer ResNet, Vaswani et al. 2017 fuer Transformer). Methodik: Bergstra/Bengio 2012 fuer Random Search. Pedregosa et al. 2011 fuer scikit-learn. Paszke et al. 2019 fuer PyTorch. Evaluation: Das Originalpaper des Benchmark-Datensatzes. Raschka 2018 fuer Model Evaluation. In der Thesis: Originalpaper zitieren, nicht Blogposts oder Tutorials.

Machine Learning in Ihrer Thesis – professionell umgesetzt

Ueber 200 promovierte Ghostwriter – darunter Informatiker und Data Scientists mit ML-Expertise. Von der Datenvorbereitung ueber das Modelltraining bis zur Evaluation und Reproduzierbarkeit.

Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen

Weitere Informatik-Guides

Software-Architektur IT-Sicherheit Cloud & DevOps Theoretische Informatik Datenbankdesign Cyber-Physical Systems HCI & Usability Quantum Computing Test-Automatisierung Ghostwriter Bachelorarbeit schreiben lassen Masterarbeit schreiben lassen Ghostwriter Hausarbeit Ghostwriter Seminararbeit Ghostwriter Doktorarbeit