Datennetz vs.Data Fabric: Die Unterschiede verstehen

2022-10-27 10:42:37 By : Mr. xiujian Yao

Bei Ihrem Bestreben, die beste Datenarchitektur für die aktuellen und zukünftigen Anforderungen Ihres Unternehmens zu erstellen, haben Sie viele Möglichkeiten.Dank der Mailbarkeit von Software sind diese Optionen nahezu unbegrenzt.Aber zum Glück für Sie haben sich bestimmte Muster aus dem Schlund herausgebildet, die Ihnen auf Ihrem Datenpfad helfen können, einschließlich Datengewebe und Datennetze.Auf den ersten Blick klingen die Konzepte Data Fabric und Data Mesh recht ähnlich.Meshes bestehen schließlich oft aus einer Art Stoff, und beide sind formbare Gegenstände, die auf Dinge gelegt werden können – in diesem Fall Ihre IT-Systeme, die dem ständig wachsenden Datendruck ausgesetzt sind.Aber es gibt grundlegende Unterschiede zwischen diesen beiden Ansätzen, daher lohnt es sich, sich etwas Zeit zu nehmen, um ihre Unterschiede kennenzulernen.Der Forrester-Analyst Noel Yuhanna gehörte zu den ersten Personen, die die Datenstruktur bereits Mitte der 2000er Jahre definiert haben.Konzeptionell ist eine Big-Data-Fabric im Wesentlichen eine metadatengesteuerte Methode, um eine unterschiedliche Sammlung von Datentools zu verbinden, die wichtige Problempunkte in Big-Data-Projekten auf kohärente und selbstbedienbare Weise angehen.Data-Fabric-Lösungen bieten insbesondere Funktionen in den Bereichen Datenzugriff, Erkennung, Transformation, Integration, Sicherheit, Governance, Herkunft und Orchestrierung.Graph wird oft auch verwendet, um Datenbestände und Benutzer zu verknüpfen.Momentum baut hinter dem Data-Fabric-Konzept auf, um den Zugriff auf und die Verwaltung von Daten in einer zunehmend heterogenen Umgebung zu vereinfachen, die Transaktions- und Betriebsdatenspeicher, Data Warehouses, Data Lakes und Lake Houses umfasst.Unternehmen bauen mehr Datensilos auf, nicht weniger, und mit dem Wachstum von Cloud Computing sind die Probleme im Zusammenhang mit der Datendiversifizierung größer denn je.Eine Datenstruktur besteht aus mehreren Datenverwaltungsschichten (Bildquelle: Eckerson Group)Mit einer einzigen Datenstruktur, die virtuell über die verschiedenen Datenrepositorys gelegt wird, kann ein Unternehmen den Anschein einer einheitlichen Verwaltung für die unterschiedlichen Datenquellen und nachgelagerten Verbraucher, einschließlich Datenverwalter, Dateningenieure, Datenanalysten und Datenwissenschaftler, bringen.Es ist jedoch wichtig zu beachten, dass die Verwaltung einheitlich ist, nicht der eigentliche Speicher, der verteilt bleibt.Einige Tool-Anbieter, darunter Informatica und Talend, bieten eine umfassende Datenstruktur an, die viele der oben beschriebenen Funktionen umfasst, während andere wie Ataccama und Denodo spezifische Teile der Datenstruktur liefern.Auch Google Cloud unterstützt mit seinem neuen Dataplex-Angebot den Data-Fabric-Ansatz.Die Integration zwischen den verschiedenen Komponenten in einer Datenstruktur erfolgt normalerweise über APIs und über das gemeinsame JSON-Datenformat.Während ein Data Mesh darauf abzielt, viele der gleichen Probleme wie eine Data Fabric zu lösen – nämlich die Schwierigkeit, Daten in einer heterogenen Datenumgebung zu verwalten – geht es das Problem auf eine grundlegend andere Weise an.Kurz gesagt, während die Datenstruktur darauf abzielt, eine einzelne, virtuelle Verwaltungsebene auf verteilten Daten aufzubauen, ermutigt das Datennetz verteilte Gruppen von Teams, Daten nach eigenem Ermessen zu verwalten, wenn auch mit einigen gemeinsamen Governance-Bestimmungen.Das Data-Mesh-Konzept wurde zuerst von Zhamak Dehghani niedergeschrieben, der jetzt Direktor der Next Tech Incubation bei Thoughtworks North America ist.Dehghani legte in ihrem Bericht „How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh“ vom Mai 2019 viele der Prinzipien und Konzepte des Datennetzes dar, dem sie den Bericht vom Dezember 2020 mit dem Titel „Data Mesh Principles and Logical Die Architektur."Die logische Architektur des Data-Mesh-Ansatzes (Quelle: Zhamak Dehghani)Das Kernprinzip des Data Mesh besteht darin, die Inkongruenz zwischen dem Data Lake und dem Data Warehouse zu beheben, wie wir Anfang dieses Jahres geschrieben haben.Während das Data Warehouse der ersten Generation darauf ausgelegt ist, weitgehend strukturierte Daten zu speichern, die von Datenanalysten für rückwärtsgerichtete SQL-Analysen verwendet werden, dient der Data Lake der zweiten Generation hauptsächlich dazu, weitgehend unstrukturierte Daten zu speichern, die der Datenwissenschaftler zum Aufbau von vorausschauendem maschinellem Lernen verwendet Modelle.Dehghani schreibt über ein System der dritten Generation (Kappa), das durch Echtzeit-Datenflüsse und die Akzeptanz von Cloud-Diensten gekennzeichnet ist, aber es löst nicht die zugrunde liegende Lücke in der Benutzerfreundlichkeit zwischen Systemen der ersten und zweiten Generation.Viele Unternehmen bauen und pflegen aufwändige ETL-Datenpipelines, um die Daten synchron zu halten.Dies treibt auch den Bedarf an „hyperspezialisierten Dateningenieuren“ voran, die damit beauftragt sind, das byzantinische System am Laufen zu halten.Die wichtigste Erkenntnis, die Dehghani in Bezug auf das Problem einbrachte, war, dass die Datentransformation nicht von Ingenieuren fest in die Daten integriert werden kann, sondern stattdessen eine Art Filter sein sollte, der auf einen gemeinsamen Datensatz angewendet wird, der allen Benutzern zur Verfügung steht.Anstatt also einen komplexen Satz von ETL-Pipelines aufzubauen, um Daten in spezialisierte Repositories zu verschieben und umzuwandeln, wo die verschiedenen Communities sie analysieren können, werden die Daten in etwa in ihrer ursprünglichen Form aufbewahrt, und eine Reihe von domänenspezifischen Teams übernehmen die Eigentümerschaft dieser Daten Sie formen die Daten zu einem Produkt.Das verteilte Datennetz von Dehghani geht dieses Problem mit einer neuen Architektur an, die sich durch vier Hauptmerkmale auszeichnet:Tatsächlich erkennt der Data-Mesh-Ansatz an, dass nur Data Lakes die Skalierbarkeit haben, um die heutigen Analyseanforderungen zu erfüllen, aber der Top-Down-Managementstil, den Unternehmen versucht haben, Data Lakes aufzuzwingen, war ein Fehlschlag.Das Datennetz versucht, diese Eigentumsstruktur von unten nach oben neu zu erfinden und es einzelnen Teams zu ermöglichen, die Systeme zu erstellen, die ihren eigenen Anforderungen entsprechen, wenn auch mit einer gewissen teamübergreifenden Governance.Wie wir sehen können, gibt es Ähnlichkeiten zwischen dem Data-Mesh- und dem Data-Fabric-Ansatz.Es gibt jedoch auch Unterschiede, die berücksichtigt werden sollten.Laut Yuhanna von Forrester besteht der Hauptunterschied zwischen dem Data-Mesh- und dem Data-Fabric-Ansatz darin, wie auf APIs zugegriffen wird.„Ein Data Mesh ist im Grunde eine API-gesteuerte [Lösung] für Entwickler, im Gegensatz zu [Data] Fabric“, sagte Yuhanna.„[Data Fabric] ist das Gegenteil von Data Mesh, bei dem Sie Code für die Schnittstellen der APIs schreiben.Andererseits ist Data Fabric Low-Code, No-Code, was bedeutet, dass die API-Integration innerhalb der Fabric stattfindet, ohne sie tatsächlich direkt zu nutzen, im Gegensatz zu Data Mesh.“Für James Serra, Leiter der Datenplattformarchitektur bei EY (Earnst and Young) und zuvor Lösungsarchitekt für Big Data und Data Warehousing bei Microsoft, liegt der Unterschied zwischen den beiden Ansätzen darin, welche Benutzer darauf zugreifen.„Eine Data Fabric und ein Data Mesh bieten beide eine Architektur für den Zugriff auf Daten über mehrere Technologien und Plattformen hinweg, aber eine Data Fabric ist technologiezentriert, während sich ein Data Mesh auf organisatorische Veränderungen konzentriert“, schreibt Serra in einem Blogbeitrag vom Juni.„[Ein] Data Mesh dreht sich mehr um Menschen und Prozesse als um Architektur, während eine Data Fabric ein architektonischer Ansatz ist, der die Komplexität von Daten und Metadaten auf intelligente Weise bewältigt, die gut zusammenarbeitet.“Laut David Wells, Analyst bei der Eckerson Group, können Sie gleichzeitig ein Datennetz und eine Datenstruktur und sogar einen Datenhub verwenden„Erstens sind sie Konzepte, keine Dinge“, schreibt Wells kürzlich in einem Blogbeitrag „Data Architecture: Complex vs Complicated“.„Data Hub als architektonisches Konzept unterscheidet sich von Data Hub als Datenbank.Zweitens sind sie Komponenten, keine Alternativen.Es ist praktisch, dass die Architektur sowohl Data Fabric als auch Data Mesh umfasst.Sie schließen sich nicht gegenseitig aus.Schließlich sind sie architektonische Rahmen, keine Architekturen.Sie haben keine Architektur, bis die Frameworks an Ihre Bedürfnisse, Ihre Daten, Ihre Prozesse und Ihre Terminologie angepasst und angepasst sind.“Am Big-Data-Tisch haben sowohl Data Meshes als auch Data Fabrics ihren Platz.Bei der Suche nach architektonischen Konzepten und Architekturen zur Unterstützung Ihrer Big-Data-Projekte kommt es darauf an, herauszufinden, was für Ihre eigenen speziellen Anforderungen am besten geeignet ist.Data Fabrics tauchen auf, um Alpträume beim Cloud-Datenmanagement zu lindernDas Data Mesh entsteht im Streben nach DatenharmonieBig Data Fabrics entstehen, um Hadoop-Schmerzen zu lindernDeine Email-Adresse wird nicht veröffentlicht.Erforderliche Felder sind markiert *Benachrichtigen Sie mich über nachfolgende Kommentare per E-Mail.Benachrichtige mich über neue Beiträge per E-Mail.