Home > Glossar > Data Lake

Was ist ein Data Lake?

In der Wirtschaftsinformatik bezeichnet Data Lake ein System oder ein Repository von Daten, die im Rohdatenformat gespeichert sind, normalerweise Blobs oder Dateien. In der Regel ist ein Data Lake ein einziger Speicher für alle Unternehmensdaten, einschließlich Rohkopien von Quellsystemdaten und transformierten Daten, welche für Aufgaben wie Berichterstellung, Visualisierung, erweiterte Analysen und maschinelles Lernen verwendet werden. Enthalten kann ein Data Lake strukturierte Daten aus relationalen Datenbanken (Zeilen und Spalten), aus CSV-, XML- oder JSON-Formaten oder unstrukturierte Daten beispielsweise E-Mails, Dokumente, PDF-Dateien und binäre Daten (Bild, Ton, Speicherabbilder).

Data Lakes finden in Branchen wie Einzelhandel, Bankwesen oder Hotel- und Gastgewerbe und sogar in der Reisebranche Verwendung. Zur Verfolgung und Vorhersage von Kundenvorlieben und der Verbesserung der gesamten Kundenerfahrung.

Neben den Daten werden auch generische Analysemethoden abgelegt. Diese stehen somit ebenfalls für die zentral gespeicherten Daten zur Verfügung und müssen nicht im Vorfeld jedes Analyseprozesses zusammengetragen werden. Verglichen mit Data Warehouses benötigen Data Lakes daher normalerweise viel mehr Speicherkapazität. Unverarbeitete Rohdaten sind außerdem formbar, lassen sich schnell für die unterschiedlichsten Zwecke analysieren und sind ideal für maschinelles Lernen.

Ein Datensumpf (data swamp) ist ein nicht verwalteter Data Lake, welcher entweder für die vorgesehenen Benutzer nicht zugänglich ist oder wenig Wert bietet. Werden keine angemessenen Datenqualitäts- und Data-Governance-Maßnahmen durchgeführt dann entstehen Datensümpfe.