Machine Learning in der Bachelorarbeit & Masterarbeit

Neuronale Netze, Hyperparameter-Tuning, Kreuzvalidierung und Ablation Studies: So dokumentieren Sie die ML-Pipeline in Ihrer Thesis reproduzierbar – vom Datensatz ueber das Modell bis zur Evaluation mit Precision, Recall und AUC-ROC.

ML-Pipeline
CNN / Transformer
Hyperparameter-Tuning
Kreuzvalidierung
Reproduzierbarkeit

1. Die ML-Pipeline: Struktur der Thesis

1

Problemdefinition & Related Work

Was ist die Aufgabe? Klassifikation, Regression, Clustering, Generation? Welche Modelle wurden bereits angewendet? Wo ist die Luecke? Formulieren Sie eine messbare Forschungsfrage: „Kann Modell X die Accuracy von Baseline Y auf Datensatz Z uebertreffen?"

2

Datensatz & Preprocessing

Datensatz beschreiben (Quelle, Groesse, Klassen, Verteilung). Splitting: Train/Validation/Test (typisch 70/15/15 oder 80/10/10). Preprocessing: Normalisierung, Tokenisierung, Augmentation. Data Leakage vermeiden: Preprocessing-Parameter nur auf Trainingsdaten fitten.

3

Modellarchitektur & Training

Architektur begruenden (warum CNN und nicht RNN? Warum BERT und nicht GPT?). Alle Hyperparameter dokumentieren: Optimizer (Adam, SGD), Learning Rate, Batch Size, Epochs, Regularisierung (Dropout, Weight Decay). Random Seed setzen und dokumentieren.

4

Evaluation & Vergleich

Metriken definieren (abhaengig von der Aufgabe). Mindestens eine Baseline. Kreuzvalidierung oder Mehrfachlaeufe mit Mittelwert und Standardabweichung. Ablation Study: Was traegt jede Komponente zum Ergebnis bei?

5

Analyse & Diskussion

Fehleranalyse: Wo versagt das Modell? Confusion Matrix, Beispiele fuer Fehlklassifikationen. Threats to Validity: Ueberfitten? Datensatz-Bias? Generalisierbarkeit?

2. Datensatz: Beschreibung, Splitting & Preprocessing

Checkliste: Datensatz in der Thesis dokumentieren

  • Quelle: Name, URL, Version/Release-Datum, Lizenz
  • Groesse: Anzahl Samples gesamt, pro Klasse (bei Klassifikation), Train/Val/Test-Split
  • Features: Beschreibung der Eingabevariablen (Dimensionen, Typen, Wertebereiche)
  • Label: Beschreibung der Zielvariable (Klassen, Verteilung, Imbalance?)
  • Preprocessing: Normalisierung (Min-Max, Z-Score), Tokenisierung, Bildaugmentation, Imputation fehlender Werte
  • Splitting-Strategie: Random Split, Stratified Split, Temporal Split (bei Zeitreihen), Cross-Validation
  • Data Leakage-Pruefung: Preprocessing nur auf Trainingsdaten fitten, keine Information aus Test in Training

Data Leakage: Der haeufigste ML-Fehler

Data Leakage entsteht, wenn Information aus dem Test-Set in das Training einfliesst. Typische Quellen: (1) Normalisierung vor dem Split: Mean und Std werden ueber den gesamten Datensatz berechnet – das Testset „weiss" dann den Mittelwert. Loesung: fit_transform nur auf Train, transform auf Test. (2) Feature Selection vor dem Split: Features werden anhand des gesamten Datensatzes ausgewaehlt. (3) Duplikate in Train und Test: Dasselbe Sample in beiden Splits. Gutachter mit ML-Erfahrung erkennen Data Leakage an unrealistisch hohen Metriken.

3. Modellarchitekturen: Klassisch bis Deep Learning

ModellTypStaerkenTypischer Thesis-Einsatz
Logistic Regression / SVMKlassischInterpretierbar, schnell, gute BaselineBaseline fuer jede Klassifikations-Thesis
Random Forest / XGBoostEnsembleStark auf tabellarischen Daten, Feature ImportanceTabellarische Daten (oft besser als Deep Learning!)
CNNDeep LearningRaeuumliche Merkmale (Bilder, Signale)Computer Vision, medizinische Bildgebung
RNN / LSTM / GRUDeep LearningSequenzielle DatenZeitreihen (aber oft von Transformern abgeloest)
Transformer (BERT, GPT, ViT)Deep LearningState of the Art in NLP und zunehmend VisionNLP (Sentimentanalyse, NER), Vision (ViT)
GNN (Graph Neural Networks)Deep LearningGraphstrukturen (Molekuele, Social Networks)Bioinformatik, Empfehlungssysteme, Netzwerkanalyse
Autoencoder / VAE / GANGenerativDatengenerierung, AnomalieerkennungSynthetische Daten, Bildgenerierung, Anomalien

Modellwahl begruenden

Gutachter fragen: Warum dieses Modell? Die Antwort muss an der Aufgabe und den Daten ansetzen – nicht an der Popularitaet. „Transformer, weil State of the Art" ist keine Begruendung. Besser: „Ein BERT-basiertes Modell wurde gewaehlt, weil (1) die Aufgabe kontextabhaengiges Textverstaendnis erfordert, (2) vortrainierte Sprachmodelle auf kleinen Datensaetzen durch Transfer Learning besser generalisieren als von Grund auf trainierte LSTMs, (3) Devlin et al. (2019) auf aehnlichen NLP-Tasks SOTA-Ergebnisse erzielt haben."

ML-Pipeline fuer Ihre Thesis?

Promovierte Informatiker und Statistiker unterstuetzen bei Modellwahl, Training und Evaluation
Informatik-Ghostwriter →

4. Hyperparameter-Tuning & Modellselektion

Tuning-Methoden

  • Grid Search: Alle Kombinationen systematisch testen – exhaustiv, aber teuer bei vielen Parametern
  • Random Search: Zufaellige Stichprobe aus dem Parameterraum – oft effizienter als Grid Search (Bergstra/Bengio, 2012)
  • Bayesian Optimization: Modellbasierte Suche (Optuna, Hyperopt) – findet gute Konfigurationen mit weniger Evaluationen
  • Learning Rate Scheduler: Warm-Up, Cosine Annealing, ReduceLROnPlateau – fuer Deep-Learning-Training

Was in der Thesis dokumentieren

  • Welche Hyperparameter wurden getuned (und welche festgelegt)?
  • Suchraum: Welche Werte/Bereiche wurden getestet?
  • Methode: Grid Search, Random Search, Bayesian?
  • Anzahl der Trials
  • Validierungsstrategie: k-fold CV auf dem Trainingsset
  • Beste gefundene Konfiguration (exakte Werte)
  • Sensitivitaetsanalyse: Wie stark aendern sich Ergebnisse bei Parameteraenderung?

5. Evaluation: Metriken, Baselines & Ablation

MetrikAufgabeFormel / BeschreibungWann verwenden?
AccuracyKlassifikationKorrekte / GesamtNur bei balancierten Klassen sinnvoll
PrecisionKlassifikationTP / (TP + FP)Wenn False Positives teuer sind
Recall (Sensitivity)KlassifikationTP / (TP + FN)Wenn False Negatives teuer sind (Medizin)
F1-ScoreKlassifikationHarmonisches Mittel aus Precision und RecallStandard bei imbalancierten Klassen
AUC-ROCBinaere KlassifikationFlaeche unter der ROC-KurveSchwellenwert-unabhaengige Bewertung
MSE / RMSE / MAERegressionMean Squared / Root Mean Squared / Mean Absolute ErrorStandard fuer Regressions-Tasks
BLEU / ROUGENLP (Generierung)n-Gram-Ueberlappung mit ReferenzMaschinelle Uebersetzung, Zusammenfassung
IoU / mAPObject DetectionIntersection over Union / Mean Average PrecisionComputer Vision: Objekterkennung

Baselines: Pflicht

Mindestens eine Baseline – besser zwei oder drei: (1) Triviale Baseline: Random Classifier, Majority Vote, Mean Predictor. (2) Klassische Baseline: Logistic Regression, Random Forest, SVM. (3) SOTA-Baseline: Bestes bekanntes Modell aus der Literatur (wenn Datensatz standardisiert).

Ablation Study

Systematisches Entfernen einzelner Komponenten: Was passiert, wenn ich die Augmentation weglasse? Den Attention-Mechanismus? Das Preprocessing? Die Ablation zeigt, welche Komponente tatsaechlich zum Ergebnis beitraegt – und schuetzt vor der Behauptung „alles ist wichtig".

6. Reproduzierbarkeit: Seeds, Configs & MLflow

Checkliste: Reproduzierbarkeit sicherstellen

  • Random Seed: Fuer alle Zufallsquellen setzen: Python (random), NumPy (np.random.seed), PyTorch (torch.manual_seed), CUDA (torch.cuda.manual_seed_all)
  • Environment: requirements.txt oder conda environment.yml mit exakten Versionen (numpy==1.26.4, torch==2.3.0)
  • Config-Datei: Alle Hyperparameter in einer YAML/JSON-Datei – nicht hardcoded im Skript
  • Experiment Tracking: MLflow, Weights & Biases (W&B), oder TensorBoard – Metriken, Parameter und Artefakte loggen
  • Git: Code versioniert, Commit-Hash des Experiments dokumentieren
  • Datensatz: Version/Hash angeben, oder bei eigenen Daten: Datensatz als Artefakt speichern
  • Hardware: GPU-Modell, CUDA-Version, RAM – beeinflusst Training und Ergebnisse (Floating-Point-Nondeterminismus)

7. Haeufige Fehler bei Machine Learning in der Thesis

Data Leakage

Normalisierung, Feature Selection oder Augmentation vor dem Train/Test-Split. Ergebnis: unrealistisch hohe Metriken, die auf neuen Daten nicht halten. Preprocessing nur auf Trainingsdaten fitten.

Kein Baseline-Vergleich

„Unser CNN erreicht 92% Accuracy." Aber ist das gut? Ohne Baseline (Random: 50%, Logistic Regression: 88%?) ist die Zahl bedeutungslos. Mindestens eine triviale und eine klassische Baseline.

Hyperparameter nicht dokumentiert

Learning Rate, Batch Size, Epochs, Optimizer: fehlen oder sind verstreut im Text. Alle Hyperparameter gehoeren in eine uebersichtliche Tabelle im Methodenteil.

Kein Random Seed

Ergebnisse sind nicht reproduzierbar, weil Zufallsinitialisierung nicht fixiert wurde. Seed setzen, dokumentieren und Mehrfachlaeufe (mindestens 3–5) mit verschiedenen Seeds durchfuehren.

Accuracy bei imbalancierten Daten

95% Accuracy – aber 95% der Daten gehoeren zur Mehrheitsklasse. Accuracy ist bei Klassenimbalance irrelevant. Verwenden Sie F1-Score (macro/weighted), AUC-ROC oder Precision/Recall.

Keine Fehleranalyse

Nur Metriken berichtet, aber nicht analysiert, wo das Modell versagt. Confusion Matrix, Beispiele fuer Fehlklassifikationen und Analyse der Fehlermuster zeigen ML-Kompetenz.

Haeufig gestellte Fragen zu Machine Learning in der Thesis

PyTorch oder TensorFlow?

PyTorch ist seit ~2020 der De-facto-Standard in der Forschung – die meisten neuen Paper, Konferenzen (NeurIPS, ICML, CVPR) und Universitaeten verwenden PyTorch. Vorteile: Dynamic Computation Graph (einfacheres Debugging), Pythonic API, grosse Forschungs-Community. TensorFlow/Keras ist staerker in der Industrie und bei Deployment (TFLite, TF Serving). Fuer die Thesis: Verwenden Sie, was an Ihrem Lehrstuhl Standard ist. Wenn freie Wahl: PyTorch fuer Forschungsarbeiten, TensorFlow wenn Deployment-Fokus. Hugging Face Transformers unterstuetzt beide.

Brauche ich eine GPU fuer meine Thesis?

Abhaengig vom Modell: Klassische ML (Random Forest, SVM, XGBoost): CPU genuegt. Deep Learning (CNN, Transformer): GPU dringend empfohlen – Training dauert sonst Tage statt Stunden. Optionen: (1) Uni-Cluster (viele Informatik-Institute haben GPU-Server). (2) Google Colab (kostenlos, begrenzte GPU-Zeit). (3) Cloud (AWS, GCP, Azure – mit Uni-Credits oft kostenlos). In der Thesis: Hardware dokumentieren (GPU-Modell, CUDA-Version, Trainingszeit).

Wie viele Daten brauche ich?

Keine feste Regel, aber Faustregeln: Klassische ML: Hunderte bis Tausende Samples koennen genuegen. Deep Learning (von Grund auf): Tausende bis Zehntausende pro Klasse. Transfer Learning / Fine-Tuning: Deutlich weniger – BERT kann mit 1.000 Samples fuer Text Classification feingetuned werden. Wenn wenig Daten: Transfer Learning, Data Augmentation, Few-Shot Learning. In der Thesis: Datengroesse als Limitation diskutieren, ggf. Learning Curves zeigen (Metrik vs. Trainingsgroesse).

Wie gehe ich mit Klassenimbalance um?

Vier Strategien: (1) Oversampling (SMOTE, RandomOverSampler): Minderheitsklasse kuenstlich vergroessern. (2) Undersampling: Mehrheitsklasse reduzieren – Datenverlust. (3) Class Weights: Loss-Funktion gewichten (class_weight='balanced' in sklearn, weighted CrossEntropyLoss in PyTorch). (4) Threshold Moving: Entscheidungsschwelle anpassen statt 0.5. In der Thesis: Strategie begruenden, F1-Score (macro) statt Accuracy verwenden, Stratified Split fuer Train/Test sicherstellen.

Was ist eine Ablation Study und brauche ich eine?

Eine Ablation Study entfernt systematisch einzelne Komponenten Ihres Modells oder Ihrer Pipeline und misst den Effekt. Beispiel: Ihr Modell hat Augmentation + Attention + Dropout. Ablation: (1) Ohne Augmentation: Accuracy sinkt von 92% auf 87% → Augmentation traegt 5% bei. (2) Ohne Attention: 92% auf 89%. (3) Ohne Dropout: 92% auf 91%. Ergebnis: Augmentation hat den groessten Einfluss. In der BA: Wuenschenswert, aber nicht Pflicht. In der MA/Diss: Erwartet fuer Deep-Learning-Arbeiten. Die Ablation zeigt, dass Sie Ihr Modell verstehen – nicht nur trainiert haben.

Welche Literatur muss ich zitieren?

Grundlagen: Goodfellow/Bengio/Courville „Deep Learning" (2016, kostenlos online) – das Standardwerk. Bishop „Pattern Recognition and Machine Learning" (2006) fuer klassisches ML. Spezifisch: Das Originalpaper des verwendeten Modells (z.B. Devlin et al. 2019 fuer BERT, He et al. 2016 fuer ResNet, Vaswani et al. 2017 fuer Transformer). Methodik: Bergstra/Bengio 2012 fuer Random Search. Pedregosa et al. 2011 fuer scikit-learn. Paszke et al. 2019 fuer PyTorch. Evaluation: Das Originalpaper des Benchmark-Datensatzes. Raschka 2018 fuer Model Evaluation. In der Thesis: Originalpaper zitieren, nicht Blogposts oder Tutorials.

Machine Learning in Ihrer Thesis – professionell umgesetzt

Ueber 200 promovierte Ghostwriter – darunter Informatiker und Data Scientists mit ML-Expertise. Von der Datenvorbereitung ueber das Modelltraining bis zur Evaluation und Reproduzierbarkeit.

Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen
crossmenu