Data Mining, ETL, Big Data, Data Lake, Data Mesh, Lakehouse – oder einfach nur "Daten irgendwie bewegen"
Es ist ein Phänomen, das jeden Data Professional mindestens einmal pro Woche zur Weißglut treibt: Kaum hat man sich in einen neuen Begriff eingearbeitet, wird er durch einen anderen ersetzt – der im Kern exakt das Gleiche bedeutet. Data Mining, Data Warehousing, ETL, Big Data, Data Lake, Data Mesh, Lakehouse, Data Fabric, Data Intelligence ... die Liste ist endlos.
📋 1. Die ewige Wiederkehr des Gleichen – Eine Begriffskarte
| "Neuer" Begriff | Blütezeit | Was es wirklich ist | Das eigentliche Problem (gleich geblieben) |
|---|---|---|---|
| Data Mining | 1990er | Muster in Daten finden | Dreckige Daten, fehlende Metadaten, unklare Geschäftslogik |
| ETL / Data Warehousing | 1990er-2000er | Daten extrahieren, transformieren, laden | Lange Laufzeiten, komplexe Dependencies, schlechte Dokumentation |
| Big Data / Hadoop | 2010-2017 | Daten parallel verarbeiten, die nicht in Excel passen | Cluster-Konfiguration, Data Skew, Shuffling, Speicherprobleme |
| Data Lake | 2015-2020 | Datenablage im Rohformat ("Swamp") | Datenqualität, Governance, wer findet was? |
| Data Mesh | 2020-2023 | Dezentrale Datenprodukte | Zuständigkeiten, Schnittstellen, Chaos |
| Data Fabric / Lakehouse | 2023-2025 | "Alles in einem" – Lake + Warehouse + Mesh | Integration, Vendor-Lock-in, Komplexität |
| Data Intelligence / AI-Ready Data | 2025-2026 | Daten für KI vorbereiten | Gleiches wie immer: Daten sind schmutzig |
🔄 2. Das Grundproblem: Die Physik der Daten bewegt sich nicht
Unabhängig vom Namen: Die harten Fakten der Datenverarbeitung bleiben gleich. Jedes System, das mit nicht-trivialen Datenmengen umgeht, muss folgende Probleme lösen:
-- 1998: Data Mining Query SELECT customer_id, COUNT(*) as purchases FROM sales_fact GROUP BY customer_id HAVING COUNT(*) > 10; -- 2025: "AI-Ready Data Preparation" – sieht verdächtig ähnlich aus SELECT customer_id, COUNT(*) AS purchase_frequency FROM unified_sales_layer GROUP BY customer_id HAVING COUNT(*) > 10; -- Und der Plan ist immer noch derselbe: Tabelle scannen.
🎭 3. Das Rebranding-Motiv: Warum tun wir uns das an?
Die treibenden Kräfte hinter der ständigen semantischen Verschiebung sind nicht technischer, sondern wirtschaftlicher und psychologischer Natur.
| Triebfeder | Funktionsweise | Beispiel |
|---|---|---|
| Vendor-Hype-Zyklus | Hersteller müssen neue Produkte verkaufen – alte Features unter neuem Label | "Unsere neue Data Fabric löst alle Ihre Integrationsprobleme!" (wie das alte Tool auch schon) |
| Berater-Bullshit-Bingo | Neue Begriffe generieren neue teure Projekte | Wir brauchen keine ETL-Pipeline, wir brauchen eine "Event-Driven Data Mesh"! |
| CV-Polishing | Wer "Big Data" auf dem Schirm hat, klingt moderner als "ETL-Entwickler" | Aus "Datenbankadministrator" wird "Cloud Data Platform Engineer" |
| Generational-Labeling | Jede Generation will sich von der vorherigen abgrenzen | Millennials mochten "Data Lake", Gen Z mag "Data Mesh" |
🧠 4. Die falschen Versprechungen jeder neuen Welle
Jeder neue Begriff kommt mit dem Versprechen, die alten Probleme zu lösen. Jedes Mal stellt sich heraus: Tut er nicht.
- Data Warehouse: "Endlich zentrale, konsistente Daten!" → Realität: ETL-Jobs brechen nachts um 3 Uhr.
- Big Data / Hadoop: "Skaliert auf unendlich!" → Realität: Cluster-Konfiguration ist die Hölle, und der Name Node stirbt bei der Sortierung.
- Data Lake: "Speichern Sie alles im Rohformat!" → Realität: Der See wird zum Sumpf ("Data Swamp"), niemand findet mehr etwas.
- Data Mesh: "Dezentrale Datenprodukte für mehr Agilität!" → Realität: Jede Domain macht ihr eigenes Ding, das zentrale Reporting wird unmöglich.
- Lakehouse: "Das Beste aus Lake und Warehouse!" → Realität: Die Komplexität beider Welten, plus Vendor-Lock-in.
📈 5. Die ewigen Konstanten – Was sich nie ändert
Unabhängig vom Modebegriff – diese Wahrheiten überdauern jedes Rebranding:
-- Der ewige Kampf gegen Datenmüll (2005 vs. 2025) -- 2005: SQL Server Integration Services (SSIS) mit Data Flow -- 2025: "Lakehouse Medallion Architecture Bronze → Silver → Gold" -- Im Kern beides ETL mit Filtern: SELECT customer_id, CASE WHEN birthdate = '1900-01-01' THEN NULL ELSE birthdate END as clean_birthdate, LOWER(email) as clean_email FROM raw_customers WHERE customer_id IS NOT NULL AND LENGTH(email) > 5; // Die Transformation ändert sich nicht – nur der Ort, an dem sie steht.
💡 6. Ausweg aus dem Begriffswirrwarr: Pragmatismus
Was tun, wenn der nächste Consultant mit "Data Fabric" um die Ecke kommt? Drei einfache Regeln:
- Fragen Sie nach dem Problem, nicht nach der Lösung. "Welches konkrete Problem soll uns diese 'Data Mesh'-Einführung lösen?"
- Ignorieren Sie den Namen, analysieren Sie die Operationen. Extraktion, Transformation, Laden, Speicherung, Abfrage – das sind die echten Bausteine.
- Bleiben Sie skeptisch bei "Disruptiv", "Gamechanger", "Neu". Oft ist es das alte Zeug mit neuem CSS.
🔮 7. Ausblick: Was kommt als Nächstes?
Da die Marketingmaschinerie niemals stillsteht, hier ein paar Prognosen für die nächsten Modebegriffe:
- "Data Sentience" (2027) – Daten, die selbst entscheiden, wo sie gespeichert werden wollen.
- "Autonomous ETL" (2028) – KI schreibt die Pipelines selbst (und macht die gleichen Fehler wie wir).
- "Post-Lake Era" (2029) – Der See war gestern, jetzt kommt der "Data Ocean".
- "Zero-ETL" (wird jedes Jahr versprochen, nie gehalten) – Weil Daten sich nicht von allein bewegen.
Also: Nächstes Mal, wenn jemand mit "modernem Data Stack" wedelt, fragen Sie freundlich: "Und wo genau ist das anders als das ETL vor 15 Jahren?" Die Stille, die folgt, ist Gold wert.