News

Data Mining, ETL, Big Data, Data Lake, Data Mesh, Lakehouse – oder einfach nur "Daten irgendwie bewegen"

⚡ Die große Begriffsinflation: Immer neue Namen, immer die gleichen Probleme
📅 Mai 2026 ⏱ 12 min Lesezeit 🏷️ Semantik · Bullshit-Bingo · Datenarchitektur

Es ist ein Phänomen, das jeden Data Professional mindestens einmal pro Woche zur Weißglut treibt: Kaum hat man sich in einen neuen Begriff eingearbeitet, wird er durch einen anderen ersetzt – der im Kern exakt das Gleiche bedeutet. Data Mining, Data Warehousing, ETL, Big Data, Data Lake, Data Mesh, Lakehouse, Data Fabric, Data Intelligence ... die Liste ist endlos.

🎯 Die zentrale These: Die grundlegenden Aufgaben der Datenverarbeitung haben sich seit 50 Jahren nicht verändert. Wir bewegen Daten von A nach B, transformieren sie, speichern sie, fragen sie ab. Die Namen ändern sich – die Probleme bleiben.

📋 1. Die ewige Wiederkehr des Gleichen – Eine Begriffskarte

"Neuer" BegriffBlütezeitWas es wirklich istDas eigentliche Problem (gleich geblieben)
Data Mining 1990er Muster in Daten finden Dreckige Daten, fehlende Metadaten, unklare Geschäftslogik
ETL / Data Warehousing 1990er-2000er Daten extrahieren, transformieren, laden Lange Laufzeiten, komplexe Dependencies, schlechte Dokumentation
Big Data / Hadoop 2010-2017 Daten parallel verarbeiten, die nicht in Excel passen Cluster-Konfiguration, Data Skew, Shuffling, Speicherprobleme
Data Lake 2015-2020 Datenablage im Rohformat ("Swamp") Datenqualität, Governance, wer findet was?
Data Mesh 2020-2023 Dezentrale Datenprodukte Zuständigkeiten, Schnittstellen, Chaos
Data Fabric / Lakehouse 2023-2025 "Alles in einem" – Lake + Warehouse + Mesh Integration, Vendor-Lock-in, Komplexität
Data Intelligence / AI-Ready Data 2025-2026 Daten für KI vorbereiten Gleiches wie immer: Daten sind schmutzig

🔄 2. Das Grundproblem: Die Physik der Daten bewegt sich nicht

Unabhängig vom Namen: Die harten Fakten der Datenverarbeitung bleiben gleich. Jedes System, das mit nicht-trivialen Datenmengen umgeht, muss folgende Probleme lösen:

🐌 Latenz Daten brauchen Zeit zum Kopieren. Ob "ETL-Job" oder "Streaming Pipeline" – Daten von A nach B zu bewegen dauert.
💾 Speicherformate Parquet, CSV, JSON, Avro, ORC – am Ende ist es immer Bytes sortieren. Neuer Name, gleiches Problem.
📊 Data Skew Manche Partitionen sind riesig, andere leer. Ob im "Data Lake" oder "Data Mesh" – das Problem ist uralt.
🧹 Datenqualität Nullwerte, Duplikate, inkonsistente Formate. "Data Cleansing", "Data Quality", "Data Observability" – immer dieselbe Plackerei.
-- 1998: Data Mining Query
SELECT customer_id, COUNT(*) as purchases
FROM sales_fact
GROUP BY customer_id
HAVING COUNT(*) > 10;

-- 2025: "AI-Ready Data Preparation" – sieht verdächtig ähnlich aus
SELECT customer_id, COUNT(*) AS purchase_frequency
FROM unified_sales_layer
GROUP BY customer_id
HAVING COUNT(*) > 10;
-- Und der Plan ist immer noch derselbe: Tabelle scannen.

🎭 3. Das Rebranding-Motiv: Warum tun wir uns das an?

Die treibenden Kräfte hinter der ständigen semantischen Verschiebung sind nicht technischer, sondern wirtschaftlicher und psychologischer Natur.

TriebfederFunktionsweiseBeispiel
Vendor-Hype-Zyklus Hersteller müssen neue Produkte verkaufen – alte Features unter neuem Label "Unsere neue Data Fabric löst alle Ihre Integrationsprobleme!" (wie das alte Tool auch schon)
Berater-Bullshit-Bingo Neue Begriffe generieren neue teure Projekte Wir brauchen keine ETL-Pipeline, wir brauchen eine "Event-Driven Data Mesh"!
CV-Polishing Wer "Big Data" auf dem Schirm hat, klingt moderner als "ETL-Entwickler" Aus "Datenbankadministrator" wird "Cloud Data Platform Engineer"
Generational-Labeling Jede Generation will sich von der vorherigen abgrenzen Millennials mochten "Data Lake", Gen Z mag "Data Mesh"
💣 Die bittere Wahrheit: 80% der Arbeit in jedem Datenprojekt ist immer noch: Daten verstehen, bereinigen, transformieren, dokumentieren. Die restlichen 20% sind das, was den coolen Namen gibt.

🧠 4. Die falschen Versprechungen jeder neuen Welle

Jeder neue Begriff kommt mit dem Versprechen, die alten Probleme zu lösen. Jedes Mal stellt sich heraus: Tut er nicht.

  • Data Warehouse: "Endlich zentrale, konsistente Daten!" → Realität: ETL-Jobs brechen nachts um 3 Uhr.
  • Big Data / Hadoop: "Skaliert auf unendlich!" → Realität: Cluster-Konfiguration ist die Hölle, und der Name Node stirbt bei der Sortierung.
  • Data Lake: "Speichern Sie alles im Rohformat!" → Realität: Der See wird zum Sumpf ("Data Swamp"), niemand findet mehr etwas.
  • Data Mesh: "Dezentrale Datenprodukte für mehr Agilität!" → Realität: Jede Domain macht ihr eigenes Ding, das zentrale Reporting wird unmöglich.
  • Lakehouse: "Das Beste aus Lake und Warehouse!" → Realität: Die Komplexität beider Welten, plus Vendor-Lock-in.

📈 5. Die ewigen Konstanten – Was sich nie ändert

Unabhängig vom Modebegriff – diese Wahrheiten überdauern jedes Rebranding:

📉 Pareto für Datenqualität 80% der Zeit verbringt man mit Datenbereinigung, 20% mit Analysen. Galt 1995, gilt 2025.
🐢 Amdahl'sches Gesetz Der sequenzielle Teil einer Pipeline limitiert den Speedup. Mehr Knoten helfen nicht gegen einen langsamen Join.
🗣️ Metadaten sind das A und O Ohne Wissen über Herkunft, Bedeutung und Qualität der Daten ist jedes System blind.
🤷‍♀️ Garbage in, Garbage out Die schönste "AI-Ready Data Platform" liefert Müll, wenn die Eingabedaten scheiße sind.
-- Der ewige Kampf gegen Datenmüll (2005 vs. 2025)
-- 2005: SQL Server Integration Services (SSIS) mit Data Flow
-- 2025: "Lakehouse Medallion Architecture Bronze → Silver → Gold"

-- Im Kern beides ETL mit Filtern:
SELECT 
customer_id,
CASE WHEN birthdate = '1900-01-01' THEN NULL ELSE birthdate END as clean_birthdate,
LOWER(email) as clean_email
FROM raw_customers
WHERE customer_id IS NOT NULL
AND LENGTH(email) > 5;

// Die Transformation ändert sich nicht – nur der Ort, an dem sie steht.

💡 6. Ausweg aus dem Begriffswirrwarr: Pragmatismus

Was tun, wenn der nächste Consultant mit "Data Fabric" um die Ecke kommt? Drei einfache Regeln:

  1. Fragen Sie nach dem Problem, nicht nach der Lösung. "Welches konkrete Problem soll uns diese 'Data Mesh'-Einführung lösen?"
  2. Ignorieren Sie den Namen, analysieren Sie die Operationen. Extraktion, Transformation, Laden, Speicherung, Abfrage – das sind die echten Bausteine.
  3. Bleiben Sie skeptisch bei "Disruptiv", "Gamechanger", "Neu". Oft ist es das alte Zeug mit neuem CSS.
🧘 Meine goldene Regel: Ein guter Datenarchitekt beschreibt Systeme ohne Marketingbegriffe. "Ich kopiere Daten aus einer Quelle, bereinige sie in Schritt A, aggregiere sie in Schritt B, und lege sie in einer Tabelle ab." – Das versteht jeder. "Wir realisieren eine deklarative, event-sourced Data Mesh Fabric" – das versteht keiner, auch nicht der Redner selbst.

🔮 7. Ausblick: Was kommt als Nächstes?

Da die Marketingmaschinerie niemals stillsteht, hier ein paar Prognosen für die nächsten Modebegriffe:

  • "Data Sentience" (2027) – Daten, die selbst entscheiden, wo sie gespeichert werden wollen.
  • "Autonomous ETL" (2028) – KI schreibt die Pipelines selbst (und macht die gleichen Fehler wie wir).
  • "Post-Lake Era" (2029) – Der See war gestern, jetzt kommt der "Data Ocean".
  • "Zero-ETL" (wird jedes Jahr versprochen, nie gehalten) – Weil Daten sich nicht von allein bewegen.
🧪 Disclaimer (weil's sein muss): Dieser Blogpost ist eine satirische Überhöhung, aber leider auch eine ziemlich genaue Beschreibung der Realität. Der Autor hat selbst an Projekten mit Data Lakes, Data Meshes und Lakehouses gearbeitet und dabei immer wieder dieselben Flaschenhälse gesehen. Die Namen ändern sich – die Fehler bleiben die gleichen. Wenn Sie einen Weg finden, saubere Metadaten zu generieren, werden Sie reich. Versprochen.

Also: Nächstes Mal, wenn jemand mit "modernem Data Stack" wedelt, fragen Sie freundlich: "Und wo genau ist das anders als das ETL vor 15 Jahren?" Die Stille, die folgt, ist Gold wert.

© 2026 psdba · Datenrealitäten · Inspired by the pain of 742 "transformation projects" · #DataFabric #ETL #BigData #Datenwahrheiten

Nächster SQL Server Core-Lizenzierung: Die einfache Regel mit der Division durch 2
Cookies user preferences
We use cookies to ensure you to get the best experience on our website. If you decline the use of cookies, this website may not function as expected.
Accept all
Decline all
Analytics
Tools used to analyze the data to measure the effectiveness of a website and to understand how it works.
Google Analytics
Advertisement
If you accept, the ads on the page will be adapted to your preferences.
Google Ad
Save