Was ist ein Data Lake?

Rohdatenqualität und Langzeitspeicherung in der Cloud.

Data Lakes und Data Warehouses sind beide Konzepte, wie sie unterschiedlicher nicht sein könnten. Data Warehouses strukturieren und paketieren Daten mit dem Augenmerk auf Qualität, Konsistenz, Wiederverwendung und Performance bei hoher Nichtsequenzialität. Data Lakes ergänzen Warehouses mit einem Konzept, das sich auf die Genauigkeit der ursprünglichen Rohdaten und die langfristige Speicherung zu niedrigen Kosten konzentriert und gleichzeitig eine neue Form analytischer Agilität bietet.

Der Wert von Data Lakes

Data-Lake-Lösungen erfüllen den Bedarf nach wirtschaftlicher Nutzung und Verwertung der explosionsartig wachsenden Datenmengen. Diese „dunklen“ Daten aus neuen Quellen – Web, Mobile, vernetzte Geräte – wurden in der Vergangenheit oft verworfen. Dabei enthalten sie wertvolles Wissen. Massive Datenmengen und neue Formen der Analyse erfordern neue Management- und Wertschöpfungsmethoden.

Ein Data Lake ist eine Sammlung langfristiger Daten-Container, die jede Form von Rohdaten skalierbar erfassen, verfeinern und untersuchen. Dies wird durch kostengünstige Technologien ermöglicht, auf die mehrere nachgeschaltete Einrichtungen zurückgreifen können, darunter Data Marts, Data Warehouses und Empfehlungsmaschinen.

Erkenntnisse aus unstrukturierten Daten
Vor dem Aufkommen von Big Data normalisierte die Datenintegration Informationen in persistenter Form – wie z. B. einer Datenbank – und das führte zur Wertschöpfung. Das allein reicht aber nicht mehr aus, um alle Daten im Unternehmen zu verwalten, und der Versuch, alles zu strukturieren, frisst die Wertschöpfung auf. Aus diesem Grund werden dunkle Daten selten in einer Datenbank erfasst. Data Scientists aber wühlen sich auf der Suche nach relevanten Fakten oft durch solche Daten.

Neue Analytics-Formen
Das Cloud-Zeitalter hat zu neuen Analytics-Formen geführt. Technologien wie Apache Hadoop, Spark und andere Innovationen ermöglichen die Parallelisierung prozeduraler Programmiersprachen, was zu einer völlig neuen Art von Analytics geführt hat. Diese neuen Analytics-Formen können effizient im großen Maßstab verarbeitet werden, wie Algorithmen für Grafiken, Texte und maschinelles Lernen, die eine Antwort erhalten, diese Antwort dann mit den darauffolgenden Daten vergleichen und so weiter, bis ein endgültiger Output erreicht ist.

Bewahrung von Unternehmenswissen
Die Archivierung von seit langem nicht mehr eingesetzten Daten spart Speicherplatz im Data Warehouse. Bis das Konzept des Data Lake aufkam, gab es keinen Ort für die Speicherung sogenannter Cold Data für den seltenen Zugriff, mit Ausnahme von besonders leistungsstarken Data Warehouses oder der Offline-Speicherung auf Band. Durch virtuelle Abfragetools können Anwender problemlos mit einer einzigen Abfrage auf Cold Data in Kombination mit Warm und Hot Data im Data Warehouse zugreifen.

Neuer Ansatz zur Datenintegration
Für die Branche schließt sich der Kreis auf der Suche nach den besten Methoden, die Kosten für die Datenumwandlung zu senken. Die Data Lake-Lösungen bieten eine höhere Skalierbarkeit als herkömmliche ETL-Server (Extrahieren, Transformieren, Laden), und das zu geringeren Kosten. Best-Practice-Unternehmen verteilen Hunderte von Aufgaben zur Datenintegration zwischen Data Lake, Data Warehouse und ETL-Server um, weil jede dieser Instanzen ihre eigenen Fähigkeiten und wirtschaftlichen Vorteile aufweist.

Häufige Fallstricke von Data Lakes

Oberflächlich betrachtet scheinen Data Lakes unkompliziert zu sein – sie bieten eine Möglichkeit, riesige Mengen strukturierter und unstrukturierter Daten zu managen und zu nutzen. Doch der Schein trügt: Fehlgeschlagene Data Lake-Projekte sind in vielen Branchen und Organisationen nichts Ungewöhnliches. Die allerersten dieser Projekte gerieten in Schwierigkeiten, weil noch keine Best Practices entwickelt worden waren. Heutzutage ist oft das mangelnde solide Design der Hauptgrund, wenn Data Lakes nicht ihr volles Potenzial entwickeln.

Zunahme von Datensilos und Clustern.
Häufig herrscht die Auffassung vor, Data Lakes hätten eine niedrige Eintrittsschwelle und könnten ad hoc in der Cloud erstellt werden. Dies führt zu redundanten Daten und Inkonsistenz, ohne dass zwei Lakes miteinander in Einklang gebracht werden, und außerdem zu Synchronisationsproblemen.

Mangelnde Akzeptanz durch Endanwender.
Oft haben Anwender – ob zurecht oder nicht – die Vorstellung, dass es zu kompliziert sei, Erkenntnisse aus Data Lakes zu ziehen, weil es erstklassige Programmierkenntnisse erfordere, oder weil sie sich nicht vorstellen können, im Heuhaufen der Daten die begehrte Nadel zu finden.

Begrenzte Auswahl an fertig verfügbaren Werkzeugen.
Viele Anbieter behaupten, sich mit Hadoop- oder Cloud-Objektspeichern vernetzen zu können, aber die Angebote sind oft nicht besonders gut integriert und wurden zudem meistens für Data Warehouses entwickelt, nicht für Data Lakes.

Widersprüchliche Ziele für den Datenzugriff.
Strenge Sicherheitsmaßnahmen und agiler Zugriff müssen sorgfältig austariert werden – ein Balanceakt. Es müssen Pläne und Verfahren vorhanden sein, die die Interessen aller Stakeholder berücksichtigen.

Das Data Lake-Konzept

Das Konzept ermöglicht eine Reihe von Workloads und Erwartungen, die zur erfolgreichen Implementierung führen. Im Laufe der technischen Entwicklung und dank wachsender Erfahrung bildete sich eine Architektur mit entsprechenden Anforderungen heraus, so dass die führenden Anbieter weitgehend bei den Best Practices für die Implementierung übereinstimmen. Die Technologie ist von kritischer, das von der Technologie unabhängige Konzept jedoch von höchster Bedeutung. Ein Data Lake kann auf mehreren Technologien aufgebaut sein. Den meisten fällt dabei wohl zuerst das Hadoop Distributed File System (HDFS) ein, das jedoch kein zwingender Bestandteil ist.

DATA-LAKE-LÖSUNGEN VON TERADATA

Teradata Vantage, die Plattform für umfassende Datenintelligenz, wurde entwickelt, um die Informationsnuggets in den Kundendaten zu erschließen. Das Teradata Service-Team ist bestens damit vertraut, die vielen Vorteile von Data Lakes und verwandten Technologien wie Hadoop, Cassandra und Objektspeicher wie Amazon S3 und Azure Blob zu nutzen.

Cloud Analytics - AWS Amazon Web Services

Verwenden Sie AWS-Infrastruktur mit Teradata Vantage

Cloud Analytics - Microsoft Azure Microsoft Azure

Kombinieren Sie Azure-Ressourcen mit Teradata Vantage

Cloud Analytics - Google Cloud Google Cloud

Nutzen Sie Google Cloud mit Teradata Vantage

Überwinden Sie unnötige Engpässe und Komplexität, bringen Sie Analytics in die Cloud