Eine Seekarte für verschiedene Datengewässer
Von Data Lakes bis hin zu Data Streams, die weite Welt der Daten ist regelrecht mit Wassermetaphern überflutet.
Mitwirkender: Traey Hatch
Von Data Lakes bis hin zu Data Streams, die weite Welt der Daten ist regelrecht mit Wassermetaphern überflutet. Meistens macht der Vergleich auch Sinn. Daten können, wie Wasser auch, an einem Ort gehalten werden, oder von Ort zu Ort fließen. Wie ein Mühlrad am Fluss oder eine Turbine in einem Damm lösen auch Daten verschiedene Aktionen aus. Unerforschte Daten können wie alte Schiffswracks in den Tiefen des Ozeans Geheimnisse verbergen.
Aber wie jede Metapher wird auch diese oft etwas zu großzügig verwendet. Im Laufe der letzten Jahre wurde die Anzahl der Wasser-Metaphern mehr als ausgeschöpft. Der Begriff Data Lakes ist inzwischen schon bekannt, doch was ist mit „Data Lake Houses“ (Datensee-Häuser) oder „Data Ponds“ (Daten-Teiche)? Manchmal kann man gar nicht wissen, welche dieser Begriffe etwas Wesentliches bedeuten und welche nur sinnlose Wortspiele sind.
Ich war mit auch nicht sicher, also bin ich acht gängigen „Daten-Gewässern“ auf den Grund gegangen (Wortspiel beabsichtigt). Hier ist meine Meinung dazu, welche Begriffe es wert sind, in Ihrer persönlichen Wortschatzkiste aufbewahrt zu werden, und welche Sie lieber gleich über Bord werfen sollten.
Hier ist meine Meinung dazu, welche Begriffe es wert sind, in Ihrer persönlichen Wortschatzkiste aufbewahrt zu werden, und welche Sie lieber gleich über Bord werfen sollten.
Data Lakes
Das ist der Begriff, mit dem alles begann. In den meisten Unternehmen ist ein Data Lake eine Kernkomponente der Dateninfrastruktur und ein riesiger Speicher für Rohdaten oder minimal verarbeitete Daten. Ein Data Lake kann ausschließlich als Speicher existieren oder eine rechnergestützte Ebene enthalten, die eine Analyse der Daten durchführen kann (siehe Eintrag zu „Data Lake House“ weiter unten).
In jedem Fall trifft die See-Metapher hier zu. Wie ein See, in den ein Fluss mündet, hat auch ein Data Lake eine unbegrenzte Kapazität. Er kann Daten aufnehmen, ohne sich zu füllen oder überzulaufen. (Okay, echte Seen laufen manchmal über, aber wir müssen die Metapher auch nicht zu ernst nehmen).
URTEIL: Sinnvoll
Data Lakehouse
Als Data Lakes noch ziemlich neu waren, wurden sie ausschließlich als Speicher verwendet. Für Analysen mussten die relevanten Daten in eine separate Struktur kopiert werden, die normalerweise auf einer speziellen Hardware lief und als Data Warehouse bezeichnet wurde. Seit Kurzem hat sich die Technologie so weit entwickelt, dass nun Daten für die Analyse direkt aus dem Data Lake aggregiert werden, wobei anstelle von dedizierter Hardware nun Managed Services oder vorübergehende Vorkehrungen verwendet werden. Dieses „Data Lake House“ führt dieselbe Analyse aus, wie dies früher in einem Warehouse geschah. Diese neue Technologie arbeitet jedoch direkt mit dem Data Lake, sodass Daten nicht mehr kopiert und übertragen werden müssen.
Obwohl ein „Data Lake House“ eine neue Vorgehensweise impliziert, wird dieser Begriff letztendlich nur im Marketing verwendet. Das Grundprinzip des Data Lake bleibt unverändert, trotz der neuen rechnergestützten Umgebung. Daten werden einfach nur anders und mit einer neuen Software erfasst.
URTEIL: Nutzlos
Data Swamp
Ein Data Swamp ist das Ergebnis eines misslungenen Data Lakes aufgrund von unzureichender Data Governance und mangelndem Engagement für Abläufe zur regelmäßigen/konsistenten Datenbereinigung. Die Daten in einem Data Swamp können möglicherweise wegen eines Mangels an Metadaten nicht einfach organisiert oder durchsucht werden. Sie können auch große Mengen an völlig irrelevanten Daten enthalten, die planlos gesammelt wurden. Ein Data Swamp kann aufgeräumt werden und wieder in einen lebendigen Data Lake verwandelt werden, allerdings muss dafür viel investiert werden.
URTEIL: Sinnvoller Begriff, das Konzept an sich sollte aber umschifft werden!
Data Stream
Heutzutage verwenden wir den Begriff „Streaming“ so oft, dass man leicht vergisst, dass es sich dabei auch um eine Wasser-Metapher handelt. Ein Data Stream ist ein kontinuierlicher Datenfluss, der keinen Anfang und kein Ende hat. Der Begriff wird am häufigsten verwendet, um Flüsse von Rohdaten zu beschreiben, wie z. B. Clickstream-Daten digitaler Eigenschaften oder Sensordaten von IoT-Geräten. Allerdings können auch bereinigte und verarbeitete Daten in einem Fluss übertragen werden. Im Gegensatz zu statischen Daten in einem Data Lake müssen jegliche Daten in Data Streams fortlaufend verarbeitet oder gespeichert werden.
URTEIL: Sinnvoll
Data River
Hierbei handelt es sich noch nicht um einen sehr verbreiteten Begriff, doch einige Datenexperten sagen, dass ein Fluss eine bessere Metapher für die moderne Datenspeicherung ist als ein See. Ein See ist in der Regel statisch, während der Fluss von Echtzeitdaten durch ein modernes Unternehmen dynamisch ist und beim Fließen verschiedene Aktionen auslöst. Angesichts der Tatsache, dass wir aber fließende Daten schon mit dem Begriff Data Stream beschreiben, ist ein neuer Begriff also unnötig.
URTEIL: Nutzlos
Data Puddles und Ponds
Es gibt einige Meinungsverschiedenheiten darüber, wie eine Ansammlung von Daten genannt werden soll, die kleiner oder spezialisierter ist als ein Allzweck-Data-Lake. Laut O'Reilly wird eine Data Puddle mit Big Data-Technologie erstellt, ist aber für einen speziellen Anwendungsfall oder ein Team bestimmt. Ein Data Pond ist im Wesentlichen ein unorganisierter Data Lake. Dieser entsteht entweder aus mehreren kleineren zusammengefassten Data Puddles oder durch das Auslagern von Daten aus einem Data Warehouse auf eine neue Plattform. Manchmal wird der Begriff „Data Pond“ weniger abwertend verwendet, um auf einen kleineren, besser kontrollierbaren Datensatz oder einen Datenpool zu verweisen, der aufgrund von Datenschutz- und behördlichen Bestimmungen oder aus anderen Gründen vom Rest des Data Lake abgegrenzt ist.
In gewisser Weise laufen die Wasser-Metaphern allerdings auf Grund. Das ist ein Beispiel dafür. Es gibt keinen Grund, wieso eine Excel-Tabelle, die nicht in den Data Lake integriert wurde, als Teich, Pfütze oder ein anderes Gewässer bezeichnet werden muss – vor allem, wenn man sich nicht auf eine genaue Terminologie einigt.
URTEIL: Nutzlos
Delta Lake
Die Wasser-Metaphern beschränken sich nicht nur auf allgemeine Begriffe zu Datenstrukturen. Sogar Eigennamen für Datentools und -Lösungen greifen darauf zurück. Delta Lake wurde von Databricks erfunden und an die Linux Foundation gespendet. Es ist ein Open-Source-Projekt, das entwickelt wurde, um die Funktionsweise eines Data Lake neu zu gestalten. Anstatt Daten unveränderlich zu schreiben, können Sie mit Delta Lake einzelne Datensätze in Ihrem Data Lake aktualisieren und löschen und verfügen außerdem noch über Zugriff auf zusätzliche Vorteile.
URTEIL: Sinnvoll
Data Glaciers (Gletscher), Data Icebergs (Eisberge) und andere Brocken an gefrorenem Wasser
Viele Technologieunternehmen adaptieren diese Wasser-Metapher und benennen ihre Produkte nach verschiedenen Begriffen, die sich auf Eis beziehen. Snowflake zum Beispiel ist eine Cloud-Datenbank, Apache Iceberg ist ein offenes Tabellenformat für große analytische Datensätze (ähnlich wie Delta Lake) und Amazon S3 Glacier ist ein langfristiger Speicher für Daten. Im Gegensatz zu einigen anderen Begriffen in dieser Liste sind diese Namen eigentlich ziemlich clever – und auch die damit verknüpften Produkte sind nützlich.
URTEIL: Sinnvoll
Die Lebensdauer einer Metapher
Wir haben die Wasser-Metaphern zwar schon beinahe ausgereizt, aber noch haben wir das Fass nicht zum Überlaufen gebracht. Es gibt sogar noch einige Beispiele, die ich hier absichtlich ausgelassen habe, wie etwa „Data Droplets“. Die Tiefen der wasserbezogenen Wörter sind nicht erschöpft und viele sind noch nicht Teil des Tech-Lexikons. Außerdem gibt es noch einige datenbezogene Erfindungen, die benannt werden müssen. In ein paar Jahren sprechen wir vielleicht alle über „Data Waterfalls“ (Wasserfälle) oder ein beliebiges anderes Modewort.
Aber das liegt in der Zukunft. Alle wasserbezogenen Begriffe, die Sie kennen müssen, und auch einige, die Sie wieder vergessen können, sind in diesem Artikel angeführt. Mit diesen Informationen können Sie immer auf Kurs bleiben, wenn sich ein Gespräch um Daten dreht.
AutoML vs. Datenwissenschaftler – Schluss mit der Diskussion
About the Authors
VP, Private Cloud Solutions
Eric Miller
An accomplished tech leader with 20 years of years of proven success in enterprise IT, Eric is a strong advocate of cloud native architectural patterns, passionate about Machine Learning, IoT, Serverless, and all things automation in the cloud. Eric has led several AWS and solutions architecture initiatives, including AWS Well Architected Framework (WAF) Assessment Partner Program, Amazon EC2 for Windows Server AWS Service Delivery Program, and a wide range of AWS rewrites for multi-billion dollar organizations. Prior to joining Rackspace, Eric was the Vice President of AWS Customer Solutions at Onica, which was acquired by Rackspace in 2019. Before working with Onica, Eric held several technology leadership positions at School Pointe, Inc., Neudesic, m2 Consultants, ARGUS International, Inc., Apex Mortgage Services LLC, and TechSkills. Eric lives in New Albany, Ohio with his wife and family. He holds a Bachelor of Science in Information Technology and Information Systems Security from the University of Phoenix.
Read more about Eric MillerRelated Topics