Themenorientiert
Spiegelt Geschäftseinheiten und -prozesse wider, mit denen das Unternehmen täglich arbeitet. Wichtig ist die Detailgenauigkeit im Themenbereich: Wenn detaillierte Daten vorliegen, handelt es sich um ein Data Warehouse. Wenn lediglich zusammenfassende oder begrenzte Daten vorhanden sind, handelt es sich um einen Data Mart.
Evolution des Data Warehouse
Data-Warehouse-Lösungen von Teradata
Data warehousing:
Das Fundament für Analytics
Was ist ein Data Warehouse?
Ein Data Warehouse ist ein Konzept oder eine Datenarchitektur, die integrierte, konsistente und detaillierte Daten im Laufe der Zeit nachverfolgt und mithilfe von Metadaten und Schemas Beziehungen zwischen ihnen aufbaut.
Die Ursprünge des Data Warehouse
Das Konzept des Data Warehouse begann 1988, als Barry Devlin und Paul Murphy ihr bahnbrechendes Papier im IBM Systems Journal veröffentlichten. Ihre Vision löste einen Bedarf an spezifischeren Definitionen von Datenbankimplementierungen aus, die Bill Inmon und Ralph Kimball Anfang der 1990er Jahre erstellten. 2005 präzisierte Gartner die Definitionen dann weiter. Heutzutage befasst sich jede Diskussion über Data Warehousing auch damit, wie oder wo eine Data Warehouse-Lösung implementiert wird, z. B. innerhalb der Cloud oder auf hybride Weise über lokale und Cloud-basierte Umgebungen hinweg.
Ein Data Warehouse ist keine in Terabyte gemessene Sammlung von Tabellen. Es ist vielmehr ein Konzept, eine Datenarchitektur mit vielen Eigenschaften:
Integriert, konsistent
Datenformate und -Werte werden über alle Tabellen hinweg standardisiert, um vollständige und genaue, den Anwendern verständliche, Daten zu gewährleisten. Die Daten müssen zudem gut integriert sein: Daten über Einkaufstransaktionen kann es nicht ohne einen entsprechenden Kundendatensatz geben.
Nicht-flüchtige Geschichte
Ein Warehouse erfasst Datenänderungen und verfolgt diese über die Zeit hinweg. Alle Daten werden gespeichert, ohne sich mit den Transaktionsaktualisierungen zu ändern. Ob herkömmliche Speicherung, Cloud oder Hybrid, ein Data Warehouse ist im Grunde das „Gedächtnis“ eines Unternehmens und enthält seine aussagekräftigsten Daten.
Metadaten, Schema, Wörterbuch
Unternehmen erfassen in der Regel alles Wissenswerte über Kunden und Verkaufstransaktionen, die mit Produktbeschreibungen, Lagerbeständen, Stücklisten, Support-Aufzeichnungen und Marketingkampagnen verknüpft sind. Die Themenbereiche bestehen aus relationalen Tabellen mit Spaltenüberschriften und Datenzeilen. Spaltenüberschriften, die als Metadaten bezeichnet werden, weil sie den Kontext für Werte in dieser Spalte beschreiben, enthalten die Namen von Feldern sowie ihren Datentyp, wie z. B. Datum, Währung, Zeit, ganze Zahlen und Text. Jeder gespeicherte Datensatz verfügt über mindestens ein Schlüsselfeld, das einen zufälligen Direktzugriff ermöglicht. Alle Tabellendefinitionen – die Metadaten – werden zusammen als Schema bezeichnet und im Datenwörterbuch gespeichert. Ein komplettes Data Warehouse besteht aus 4.000 bis 7.000 relationalen Tabellen, die nach Themenbereichen geordnet sind.
Wie gelangen Daten in das Data Warehouse?
Datenquellen
Nicht selten senden 200 oder sogar 500 verschiedene Anwendungen Daten an das Warehouse, das all diese Daten konsolidiert und in die Themenbereiche integriert. Das Warehouse erhält Input aus Anwendungen wie ERP (Enterprise Resource Planning), CRM (Customer Relationship Management) und SCM (Supply Chain Management).
Clickstream-Daten von Mausklicks auf Webseiten sind eine weitere Quelle, ebenso wie Sensordaten von Maschinenfahrzeugen und so weiter. Es gibt auch unstrukturierte Daten wie JSON (JavaScript Object Notation), die zwar nicht in Zeilen und Spalten vorliegen, jedoch ebenfalls im Data Warehouse erfasst werden.
Laden von Daten
Die Daten werden in einem kontinuierlichen Prozess – in der Regel rund um die Uhr – in das Warehouse geladen. Das Laden von Daten führt zum Business-Zweck des Warehouse: Das Fundament für die Suche nach Antworten auf gestellt Fragen zu bilden. Data Scientists wenden höhere Mathematik an, um Muster und Anomalien zu finden, während Business-Analysten Berichte und Dashboards mit Visualisierung verwenden.
Das Laden von Daten dient dem geschäftlichen Zweck der Bereitstellung von Daten für die Geschäftsanwender: Erkenntnisse zu erhalten und Antworten auf Geschäftsprobleme zu finden. Bei mehrdimensionalen Analysen werden alle Daten hochgradig zusammengefasst, was beispielsweise die schnelle Durchsicht von Zusammenfassungen nach Region, Stadt, Vertriebsmitarbeiter und verkauftem Produkt ermöglicht. Führungskräfte und Business-Analysts (oder „Citizen Data Scientists“) verwenden Berichte und Dashboards mit Visualisierung, die sich alle aus der Quelle der verwalteten Daten speisen: dem Data Warehouse.
Datenintegration
Bevor die Daten in die Datenbank des Data Warehouse gelangen, durchlaufen sie den komplexen Prozess zur Datenintegration, der Daten aus mehreren Quellen zu einem einzigen Ergebnis rationalisiert. Ursprünglich hieß dies „Extrahieren, Transformieren und Laden“ (ETL), da die Daten aus der Quelle abgerufen, verfeinert und dann in relationale Data Warehouse-Tabellen geladen werden mussten.
Datenbereinigung
Zu den modernen Integrationsprozessen gehört die Datenbereinigung, bei der beschädigte oder fehlerhafte Datensätze erkannt und korrigiert werden müssen. Fehler treten aufgrund fehlerhafter Eingaben, Hardware-Schäden oder einfacher menschlicher Fehler auf. Die Datenintegrationsaufgabe kombiniert die besten, genauesten und möglichst vollständigen Daten aus mehreren Anwendungen zu einem sauberen und zuverlässigen „goldenen Datensatz“ im Warehouse
Das Teradata Data Warehouse
Teradata spielt seit seiner Gründung eine wichtige Rolle bei der Entwicklung von Analytics-Datenbanken und Data Warehousing. So spielt Teradata Vantage – früher bekannt als Teradata Database – und der Data Warehousing-Ansatz von Teradata oft eine zentrale Rolle beim Aufstieg von Kunden an die Spitze ihrer jeweiligen Branchen, sei es in den Bereichen Kommunikation, Medien und Unterhaltung, Finanzdienstleistungen, Gesundheitswesen und Biowissenschaften, Einzelhandel, Versorgungsunternehmen, Fertigung, Reisen und Transport und mehr.
Das Cloud Data Warehouse und Teradata Vantage
Sowohl Teradata als auch die Branche haben sich weiterentwickelt, um die Vorteile der Cloud in Bezug auf Bereitstellung und Skalierbarkeit nutzen zu können. Teradata Vantage, das Flaggschiff des Unternehmens, baut auf der soliden Grundlage der Teradata-Datenbank auf und umfasst erweiterte Analysefunktionen, die 2011 als Teil von Aster Data erworben wurden.
Vantage ist für Amazon Web Services (AWS), Microsoft Azure, Google Cloud, Teradata Infrastructure (Teradata Cloud oder Customer Cloud) und handelsübliche Hardware mit VMware-Virtualisierungssoftware verfügbar.
Amazon Web Services
Verwenden Sie AWS-Infrastruktur mit Teradata Vantage
Microsoft Azure
Kombinieren Sie Azure-Ressourcen mit Teradata Vantage
Google Cloud
Nutzen Sie Google Cloud mit Teradata Vantage