SoftSkills

Data Mining, ETL, Big Data, Data Lake, Data Mesh, Lakehouse – oder einfach nur "Daten irgendwie bewegen"

⚡ Die große Begriffsinflation: Immer neue Namen, immer die gleichen Probleme
📅 Mai 2026 ⏱ 12 min Lesezeit 🏷️ Semantik · Bullshit-Bingo · Datenarchitektur

Es ist ein Phänomen, das jeden Data Professional mindestens einmal pro Woche zur Weißglut treibt: Kaum hat man sich in einen neuen Begriff eingearbeitet, wird er durch einen anderen ersetzt – der im Kern exakt das Gleiche bedeutet. Data Mining, Data Warehousing, ETL, Big Data, Data Lake, Data Mesh, Lakehouse, Data Fabric, Data Intelligence ... die Liste ist endlos.

🎯 Die zentrale These: Die grundlegenden Aufgaben der Datenverarbeitung haben sich seit 50 Jahren nicht verändert. Wir bewegen Daten von A nach B, transformieren sie, speichern sie, fragen sie ab. Die Namen ändern sich – die Probleme bleiben.

📋 1. Die ewige Wiederkehr des Gleichen – Eine Begriffskarte

"Neuer" BegriffBlütezeitWas es wirklich istDas eigentliche Problem (gleich geblieben)
Data Mining1990erMuster in Daten findenDreckige Daten, fehlende Metadaten, unklare Geschäftslogik
ETL / Data Warehousing1990er-2000erDaten extrahieren, transformieren, ladenLange Laufzeiten, komplexe Dependencies, schlechte Dokumentation
Big Data / Hadoop2010-2017Daten parallel verarbeiten, die nicht in Excel passenCluster-Konfiguration, Data Skew, Shuffling, Speicherprobleme
Data Lake2015-2020Datenablage im Rohformat ("Swamp")Datenqualität, Governance, wer findet was?
Data Mesh2020-2023Dezentrale DatenprodukteZuständigkeiten, Schnittstellen, Chaos
Data Fabric / Lakehouse2023-2025"Alles in einem" – Lake + Warehouse + MeshIntegration, Vendor-Lock-in, Komplexität
Data Intelligence / AI-Ready Data2025-2026Daten für KI vorbereitenGleiches wie immer: Daten sind schmutzig

🔄 2. Das Grundproblem: Die Physik der Daten bewegt sich nicht

Unabhängig vom Namen: Die harten Fakten der Datenverarbeitung bleiben gleich. Jedes System, das mit nicht-trivialen Datenmengen umgeht, muss folgende Probleme lösen:

🐌 Latenz Daten brauchen Zeit zum Kopieren. Ob "ETL-Job" oder "Streaming Pipeline" – Daten von A nach B zu bewegen dauert.
💾 Speicherformate Parquet, CSV, JSON, Avro, ORC – am Ende ist es immer Bytes sortieren. Neuer Name, gleiches Problem.
📊 Data Skew Manche Partitionen sind riesig, andere leer. Ob im "Data Lake" oder "Data Mesh" – das Problem ist uralt.
🧹 Datenqualität Nullwerte, Duplikate, inkonsistente Formate. "Data Cleansing", "Data Quality", "Data Observability" – immer dieselbe Plackerei.
-- 1998: Data Mining Query
SELECT customer_id, COUNT(*) as purchases
FROM sales_fact
GROUP BY customer_id
HAVING COUNT(*) > 10;

-- 2025: "AI-Ready Data Preparation" – sieht verdächtig ähnlich aus
SELECT customer_id, COUNT(*) AS purchase_frequency
FROM unified_sales_layer
GROUP BY customer_id
HAVING COUNT(*) > 10;
-- Und der Plan ist immer noch derselbe: Tabelle scannen.

🎭 3. Das Rebranding-Motiv: Warum tun wir uns das an?

Die treibenden Kräfte hinter der ständigen semantischen Verschiebung sind nicht technischer, sondern wirtschaftlicher und psychologischer Natur.

TriebfederFunktionsweiseBeispiel
Vendor-Hype-ZyklusHersteller müssen neue Produkte verkaufen – alte Features unter neuem Label"Unsere neue Data Fabric löst alle Ihre Integrationsprobleme!" (wie das alte Tool auch schon)
Berater-Bullshit-BingoNeue Begriffe generieren neue teure ProjekteWir brauchen keine ETL-Pipeline, wir brauchen eine "Event-Driven Data Mesh"!
CV-PolishingWer "Big Data" auf dem Schirm hat, klingt moderner als "ETL-Entwickler"Aus "Datenbankadministrator" wird "Cloud Data Platform Engineer"
Generational-LabelingJede Generation will sich von der vorherigen abgrenzenMillennials mochten "Data Lake", Gen Z mag "Data Mesh"
💣 Die bittere Wahrheit: 80% der Arbeit in jedem Datenprojekt ist immer noch: Daten verstehen, bereinigen, transformieren, dokumentieren. Die restlichen 20% sind das, was den coolen Namen gibt.

🧠 4. Die falschen Versprechungen jeder neuen Welle

Jeder neue Begriff kommt mit dem Versprechen, die alten Probleme zu lösen. Jedes Mal stellt sich heraus: Tut er nicht.

  • Data Warehouse: "Endlich zentrale, konsistente Daten!" → Realität: ETL-Jobs brechen nachts um 3 Uhr.
  • Big Data / Hadoop: "Skaliert auf unendlich!" → Realität: Cluster-Konfiguration ist die Hölle, und der Name Node stirbt bei der Sortierung.
  • Data Lake: "Speichern Sie alles im Rohformat!" → Realität: Der See wird zum Sumpf ("Data Swamp"), niemand findet mehr etwas.
  • Data Mesh: "Dezentrale Datenprodukte für mehr Agilität!" → Realität: Jede Domain macht ihr eigenes Ding, das zentrale Reporting wird unmöglich.
  • Lakehouse: "Das Beste aus Lake und Warehouse!" → Realität: Die Komplexität beider Welten, plus Vendor-Lock-in.

📈 5. Die ewigen Konstanten – Was sich nie ändert

Unabhängig vom Modebegriff – diese Wahrheiten überdauern jedes Rebranding:

📉 Pareto für Datenqualität 80% der Zeit verbringt man mit Datenbereinigung, 20% mit Analysen. Galt 1995, gilt 2025.
🐢 Amdahl'sches Gesetz Der sequenzielle Teil einer Pipeline limitiert den Speedup. Mehr Knoten helfen nicht gegen einen langsamen Join.
🗣️ Metadaten sind das A und O Ohne Wissen über Herkunft, Bedeutung und Qualität der Daten ist jedes System blind.
🤷‍♀️ Garbage in, Garbage out Die schönste "AI-Ready Data Platform" liefert Müll, wenn die Eingabedaten scheiße sind.
-- Der ewige Kampf gegen Datenmüll (2005 vs. 2025)
-- 2005: SQL Server Integration Services (SSIS) mit Data Flow
-- 2025: "Lakehouse Medallion Architecture Bronze → Silver → Gold"

-- Im Kern beides ETL mit Filtern:
SELECT 
customer_id,
CASE WHEN birthdate = '1900-01-01' THEN NULL ELSE birthdate END as clean_birthdate,
LOWER(email) as clean_email
FROM raw_customers
WHERE customer_id IS NOT NULL
AND LENGTH(email) > 5;

// Die Transformation ändert sich nicht – nur der Ort, an dem sie steht.

💡 6. Ausweg aus dem Begriffswirrwarr: Pragmatismus

Was tun, wenn der nächste Consultant mit "Data Fabric" um die Ecke kommt? Drei einfache Regeln:

  1. Fragen Sie nach dem Problem, nicht nach der Lösung. "Welches konkrete Problem soll uns diese 'Data Mesh'-Einführung lösen?"
  2. Ignorieren Sie den Namen, analysieren Sie die Operationen. Extraktion, Transformation, Laden, Speicherung, Abfrage – das sind die echten Bausteine.
  3. Bleiben Sie skeptisch bei "Disruptiv", "Gamechanger", "Neu". Oft ist es das alte Zeug mit neuem CSS.
🧘 Meine goldene Regel: Ein guter Datenarchitekt beschreibt Systeme ohne Marketingbegriffe. "Ich kopiere Daten aus einer Quelle, bereinige sie in Schritt A, aggregiere sie in Schritt B, und lege sie in einer Tabelle ab." – Das versteht jeder. "Wir realisieren eine deklarative, event-sourced Data Mesh Fabric" – das versteht keiner, auch nicht der Redner selbst.

🔮 7. Ausblick: Was kommt als Nächstes?

Da die Marketingmaschinerie niemals stillsteht, hier ein paar Prognosen für die nächsten Modebegriffe:

  • "Data Sentience" (2027) – Daten, die selbst entscheiden, wo sie gespeichert werden wollen.
  • "Autonomous ETL" (2028) – KI schreibt die Pipelines selbst (und macht die gleichen Fehler wie wir).
  • "Post-Lake Era" (2029) – Der See war gestern, jetzt kommt der "Data Ocean".
  • "Zero-ETL" (wird jedes Jahr versprochen, nie gehalten) – Weil Daten sich nicht von allein bewegen.
🧪 Disclaimer (weil's sein muss): Dieser Blogpost ist eine satirische Überhöhung, aber leider auch eine ziemlich genaue Beschreibung der Realität. Der Autor hat selbst an Projekten mit Data Lakes, Data Meshes und Lakehouses gearbeitet und dabei immer wieder dieselben Flaschenhälse gesehen. Die Namen ändern sich – die Fehler bleiben die gleichen. Wenn Sie einen Weg finden, saubere Metadaten zu generieren, werden Sie reich. Versprochen.

Also: Nächstes Mal, wenn jemand mit "modernem Data Stack" wedelt, fragen Sie freundlich: "Und wo genau ist das anders als das ETL vor 15 Jahren?" Die Stille, die folgt, ist Gold wert.

© 2026 psdba · Datenrealitäten · Inspired by the pain of 742 "transformation projects" · #DataFabric #ETL #BigData #Datenwahrheiten

Nächster Europas Dilemma: Warum wir Gemeinschaft gegen Freiheit getauscht haben
Cookies user preferences
We use cookies to ensure you to get the best experience on our website. If you decline the use of cookies, this website may not function as expected.
Accept all
Decline all
Analytics
Tools used to analyze the data to measure the effectiveness of a website and to understand how it works.
Google Analytics
Advertisement
If you accept, the ads on the page will be adapted to your preferences.
Google Ad
Save