Datenbankdesign in der Bachelorarbeit & Masterarbeit

ER-Modellierung, Normalisierung, SQL vs. NoSQL und Performance-Benchmarks: So entwerfen, begruenden und evaluieren Sie Datenbankschemata in Ihrer Informatik-Thesis – mit CAP-Theorem, Indexierung und Query-Optimierung.

ER-Modellierung
Normalisierung (1NF–BCNF)
SQL vs. NoSQL
CAP-Theorem
Benchmarks

1. Konzeptuelle Modellierung: ER-Diagramme

ER-Diagramm in der Thesis: Pflichtbestandteile

  • Entitaeten: Rechtecke mit Primaerschluessel (unterstrichen), Attribute
  • Beziehungen: Rauten mit Kardinalitaeten (1:1, 1:N, M:N) – Chen-Notation oder Crow's-Foot
  • Schwache Entitaeten: Doppelte Umrandung, abhaengig von starker Entitaet
  • Generalisierung/Spezialisierung: ISA-Hierarchien mit Disjoint/Overlapping, Total/Partial
  • Notation einheitlich: Chen, Crow's Foot oder UML-Klassendiagramm – eines waehlen und durchhalten

2. Normalisierung: 1NF bis BCNF

NormalformAnforderungEliminiertThesis-Relevanz
1NFAtomare Attributwerte, keine WiederholungsgruppenMehrwertige AttributeGrundvoraussetzung – immer erfuellt
2NF1NF + keine partiellen AbhaengigkeitenTeilabhaengigkeiten vom zusammengesetzten SchluesselRelevant bei zusammengesetzten Primaerschluesseln
3NF2NF + keine transitiven AbhaengigkeitenA → B → C (Nicht-Schluessel bestimmt Nicht-Schluessel)Standard-Ziel fuer die meisten Thesis-Schemata
BCNFJede funktionale Abhaengigkeit X → Y: X ist SuperschluesselAnomalien, die 3NF nicht abfaengtFuer strenge Normalisierung (MA/Diss)

Denormalisierung begruenden

Denormalisierung (bewusstes Verletzen der Normalform fuer Performance) ist erlaubt – aber nur mit Begruendung: „Die Tabelle Orders wurde denormalisiert (Kundename direkt in Orders statt ueber JOIN), weil die Lese-Performance fuer das Dashboard kritisch ist (QA-Szenario S2) und Schreibzugriffe selten erfolgen." Ohne solche Begruendung: Gutachter werten es als Designfehler.

3. SQL vs. NoSQL: Paradigmenvergleich

ParadigmaDatenmodellBeispieleStaerkenThesis-Einsatz
Relational (SQL)Tabellen, Zeilen, Spalten, JoinsPostgreSQL, MySQL, MariaDBACID, komplexe Queries, Normalisierung, KonsistenzStandard fuer strukturierte Daten, CRUD-Anwendungen
DocumentJSON/BSON-Dokumente, schemaflexibelMongoDB, CouchDBFlexible Schemata, horizontale Skalierung, schnelle ReadsContent Management, Prototypen, APIs mit variablen Payloads
Key-ValueSchluessel → Wert (opak)Redis, DynamoDB, etcdExtrem schnell, einfach, ideal fuer CachingSession Store, Cache, Feature Flags
GraphKnoten + Kanten + PropertiesNeo4j, Amazon NeptuneBeziehungstraversierung, Empfehlungen, Social NetworksNetzwerkanalyse, Knowledge Graphs, Fraud Detection
Column-FamilySpaltenorientiert, Wide TablesCassandra, HBase, ScyllaDBZeitreihen, hohe Schreiblast, horizontale SkalierungIoT-Daten, Logging, Zeitreihenanalyse

CAP-Theorem: Die fundamentale Einschraenkung

In einem verteilten System koennen Sie nur zwei von drei Eigenschaften gleichzeitig garantieren: Consistency (alle Knoten sehen denselben Zustand), Availability (jede Anfrage erhaelt eine Antwort), Partition Tolerance (System funktioniert trotz Netzwerkpartition). Da Partitionen in realen Systemen unvermeidbar sind, ist die echte Wahl: CP (konsistent, aber bei Partition nicht verfuegbar – z.B. HBase, MongoDB mit majority reads) oder AP (verfuegbar, aber bei Partition nicht konsistent – z.B. Cassandra, DynamoDB). In der Thesis: CAP-Einordnung Ihrer Datenbankwahl begruenden.

4. Indexierung & Query-Optimierung

Indexe

  • B-Tree: Standard-Index, gut fuer Gleichheits- und Range-Queries
  • Hash: Nur Gleichheits-Lookups, O(1) Average Case
  • GIN/GiST: Fuer Volltextsuche, JSON, Geo-Daten (PostgreSQL)
  • Composite Index: Mehrere Spalten – Reihenfolge entscheidend (Leftmost Prefix Rule)
  • Covering Index: Alle Query-Spalten im Index – kein Table Lookup noetig

Thesis: EXPLAIN ANALYZE fuer jeden kritischen Query zeigen. Index-Strategie begruenden.

Query-Optimierung

  • EXPLAIN ANALYZE: Query Plan analysieren – Seq Scan vs. Index Scan, Nested Loop vs. Hash Join
  • N+1-Problem: Vermeiden durch JOINs oder Batch-Loading
  • Materialized Views: Vorberechnete Ergebnisse fuer komplexe Aggregationen
  • Connection Pooling: PgBouncer, HikariCP – Verbindungen wiederverwenden
  • Partitionierung: Range/Hash/List Partitioning fuer grosse Tabellen

5. Benchmarks: Datenbankperformance evaluieren

BenchmarkTypMisstThesis-Einsatz
TPC-COLTPTransaktionen/Sekunde (tpmC)Vergleich relationaler DB unter OLTP-Last
TPC-HOLAP / Decision SupportQuery-Durchsatz fuer analytische QueriesData-Warehouse-Themen, Spalten- vs. Zeilenorientiert
YCSB (Yahoo)Key-Value / NoSQLLatenz, Durchsatz fuer verschiedene Workload-Profile (Read-Heavy, Write-Heavy)Vergleich NoSQL-Systeme, SQL vs. NoSQL
pgbenchPostgreSQL-spezifischTPS (Transactions per Second) fuer einfache TransaktionenPostgreSQL-Optimierung, Indexierung, Connection Pooling
sysbenchMulti-DBOLTP-Performance (MySQL, PostgreSQL, MariaDB)Datenbank-Vergleichstests

Datenbankdesign fuer Ihre Thesis?

Promovierte Informatiker unterstuetzen bei Modellierung, Optimierung und Benchmarking
Informatik-Ghostwriter →

6. Haeufige Fehler

Datenbankwahl nicht begruendet

„MongoDB wurde verwendet." Aber warum nicht PostgreSQL? Die Wahl muss an Anforderungen rueckgebunden werden: Konsistenz → SQL. Flexible Schemata → Document. Beziehungen → Graph.

Kein ER-Diagramm

Schema wird als SQL-DDL praesentiert, ohne konzeptuelle Modellierung. ER-Diagramm (oder UML-Klassendiagramm) zeigt die Designlogik – DDL ist nur die Implementierung.

Normalisierung nicht dokumentiert

Schema liegt vor, aber es wird nicht gezeigt, in welcher Normalform es ist. Mindestens: „Das Schema erfuellt 3NF. Tabelle X wurde bewusst denormalisiert, weil [...]."

Keine Performance-Evaluation

Schema entworfen, aber nie unter Last getestet. Mindestens: EXPLAIN ANALYZE fuer kritische Queries. Besser: Benchmark mit realistischem Workload (pgbench, YCSB).

FAQ zum Datenbankdesign in der Thesis

SQL oder NoSQL fuer meine Thesis?

Faustregel: SQL wenn: strukturierte Daten, komplexe Queries mit JOINs, ACID-Transaktionen noetig, relationale Integritaet wichtig. NoSQL wenn: Schema-Flexibilitaet (Document), extreme Schreiblast (Column-Family), Beziehungstraversierung (Graph), einfache Key-Value-Lookups mit hoher Performance. Im Zweifelsfall: PostgreSQL – es unterstuetzt JSON (jsonb), Volltextsuche und erweiterbare Typen und deckt damit viele NoSQL-Anwendungsfaelle ab.

Wie dokumentiere ich mein Schema in der Thesis?

(1) ER-Diagramm (konzeptuelles Modell) als Abbildung. (2) Relationales Schema (logisches Modell) als Tabelle: Relation, Attribute, Primaerschluessel, Fremdschluessel. (3) Normalisierungsnachweis: In welcher NF? Funktionale Abhaengigkeiten auflisten. (4) DDL als Anhang (CREATE TABLE Statements). (5) Index-Strategie: Welche Indexe, warum? EXPLAIN ANALYZE fuer Hauptqueries. Tools: draw.io oder dbdiagram.io fuer ER, pgAdmin fuer Query Plans.

Welche Literatur brauche ich?

Standard: Elmasri/Navathe „Fundamentals of Database Systems" (7th ed.) – das Lehrbuch-Standardwerk. Fortgeschritten: Kleppmann „Designing Data-Intensive Applications" (2017) – hervorragend fuer verteilte Systeme und NoSQL. Performance: Schwartz et al. „High Performance MySQL" oder Schoenig „Mastering PostgreSQL". NoSQL: Sadalage/Fowler „NoSQL Distilled" (2012) – kompakter Ueberblick.

Datenbankdesign in Ihrer Thesis – professionell modelliert

Ueber 200 promovierte Ghostwriter – darunter Informatiker mit Datenbank-Expertise. Vom ER-Diagramm ueber die Normalisierung bis zum Performance-Benchmark.

Informatik-Ghostwriter Alle Informatik-Guides Jetzt anfragen
crossmenu