Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

Der moderne Datenbestand:Data Lake vs. Data Warehouse

27. Juli 2021  

Quelle:MCA Connect | Morgen produzieren

Daten kommen schnell und in vielen Formen zu uns. Diese verschiedenen Formen können strukturierte, halbstrukturierte und unstrukturierte Daten enthalten, und viele Leute wissen nicht, dass ein Data Warehouse und ein Data Lake die Daten unterschiedlich handhaben.

Ein moderner Datenbestand sollte mehrere Methoden zum Erfassen und Speichern der verschiedenen Daten bieten, die Unternehmen generieren. Daten kommen schnell und in vielen Formen zu uns. Diese verschiedenen Formen können strukturierte, halbstrukturierte und unstrukturierte Daten umfassen, und viele Leute wissen nicht, dass ein Data Warehouse und ein Data Lake die Daten unterschiedlich handhaben. Schauen wir uns diese verschiedenen Datentypen genauer an:

  1. Strukturiert – traditionelle Datenbanken wie die Transaktionsdatenbank für Ihr ERP- oder CRM-System mit formalen Spalten- und Tabellendefinitionen
  2. Halbstrukturiert – selbstbeschreibende Dateien wie XML oder JSON mit Tags für Elemente und Hierarchien
  3. Unstrukturiert – Bilder, Videos, Audio und andere Binärdaten

Traditionelle Data-Warehouse-Designs gibt es schon seit vielen Jahrzehnten, während das Konzept oder zumindest der Begriff Data Lake ein etwas neueres Konstrukt ist. Jeder von ihnen hat seinen Platz im Datenbestand Ihres Unternehmens.

Das Data Warehouse

Wie wir oben sehen können, können Datenquellen sehr unterschiedlich sein und unterschiedliche Datendarstellungen aufweisen, was zu abweichenden Informationen führen kann. Darüber hinaus macht es die große Vielfalt an Schemata und Strukturen in Datenquellen schwierig, konsolidierte Informationen zu erhalten, wenn eine vollständige Momentaufnahme der Daten aus allen Geschäftssubsystemen erforderlich ist. Im Allgemeinen ist dies der Hauptgrund für das Aufkommen von Data Warehouse-Lösungen.

Ein Data Warehouse ist ein formales Design, das häufig auf Designrichtlinien basiert, die einen formalen ETL-Prozess (Extract-Transform-Load) implementieren, um rohe, strukturierte Datensätze zu konsumieren und sie in ein für die Berichterstellung entworfenes Modell zu laden. Data Warehouses basieren auf relationalen Datenbanken wie Azure Synapse, früher Microsoft SQL Server. Azure Synapse wurde entwickelt, um strukturierte Daten in Tabellen mit herkömmlichen Zeilen und Spalten zu speichern, bietet jedoch die Möglichkeit, halbstrukturierte Daten wie XML und JSON zu speichern.

Der Data Lake

Ein Data Lake stellt das Konzept von ETL auf den Kopf und implementiert einen ELT-Prozess (Extract-Load-Transform). Die Aufnahme von Daten in den Data Lake bedeutet im Wesentlichen, dass Sie alles, was Sie für einen bestimmten Zeitpunkt für wertvoll halten, unabhängig von Datentyp oder -struktur in einen großen Speicherbereich werfen. Data Lakes können strukturierte, halbstrukturierte und unstrukturierte Daten speichern. In Microsoft Azure bereitgestellte Data Lakes basieren auf Speicherkonten mit aktiviertem Data Lake Storage Gen2 beim Erstellen des Speicherkontos.

Der Gedanke hinter einem Data Lake ist, dass Sie alle Daten verbrauchen und zu einem späteren Zeitpunkt durchsuchen werden, während das Data Warehouse den Wert im Voraus mit erheblichen Investitionen in die Entwicklung der Erfassung ermitteln muss. Aufgrund der hohen Vorabinvestitionen, die normalerweise für die Entwicklung eines Data Warehouse erforderlich sind, besteht das Risiko, dass die Quelldaten nicht mehr verfügbar und möglicherweise für immer verloren sind, wenn sich später herausstellt, dass Sie Daten benötigen, die ursprünglich nicht bereitgestellt wurden.

Zweck:unbestimmt vs. in Gebrauch

Der Zweck einzelner Datenstücke in einem Data Lake ist nicht festgelegt. Rohdaten fließen in einen Data Lake, manchmal mit Blick auf eine bestimmte zukünftige Verwendung und manchmal nur um sie zur Hand zu haben. Dies bedeutet, dass Data Lakes weniger organisiert und weniger gefiltert werden als ihre Gegenstücke.

Verarbeitete Daten sind Rohdaten, die einer bestimmten Verwendung zugeführt wurden. Da Data Warehouses nur verarbeitete Daten enthalten, wurden alle Daten in einem Data Warehouse für einen bestimmten Zweck innerhalb der Organisation verwendet. Dies bedeutet, dass kein Speicherplatz für Daten verschwendet wird, die möglicherweise nie verwendet werden.

Zugänglichkeit

Zugänglichkeit und Benutzerfreundlichkeit beziehen sich auf die Nutzung des Datenspeichers als Ganzes, nicht auf die darin enthaltenen Daten. Die Data Lake-Architektur hat keine Struktur und ist daher leicht zugänglich und leicht zu ändern. Außerdem können alle Änderungen an den Daten schnell durchgeführt werden, da Data Lakes nur sehr wenige Einschränkungen haben.

Data Warehouses sind vom Design her strukturierter. Ein großer Vorteil der Data-Warehouse-Architektur besteht darin, dass die Verarbeitung und Struktur der Daten die Entschlüsselung der Daten selbst erleichtert. Die Beschränkungen der Struktur machen die Manipulation von Data Warehouses schwierig und kostspielig

Die Vorteile von beidem

Data Lakes sind eine kostengünstige Möglichkeit, große Datenmengen aus vielen Quellen zu speichern. Das Zulassen von Daten beliebiger Struktur reduziert die Kosten, da Daten flexibler und skalierbarer sind, da die Daten keinem bestimmten Muster entsprechen müssen. Strukturierte Daten sind jedoch einfacher zu analysieren, da sie sauberer sind und ein einheitliches Schema für die Abfrage aufweisen. Durch die Beschränkung von Daten auf ein Schema sind Data Warehouses sehr effizient bei der Analyse historischer Daten für bestimmte Datenentscheidungen. Sowohl ein richtiges Data Warehouse als auch ein Data Lake sind entscheidend für den zukünftigen Erfolg Ihres Unternehmens und gehören in Ihren modernen Datenbestand.

Was ist ein Datenbestand?

Der Aufbau eines modernen Datenbestandes ist ein grundlegender Schritt in Richtung digitaler Transformation. Ein moderner Datenbestand ermöglicht zeitnahe Einblicke und Entscheidungen über alle Ihre Daten und legt den Grundstein für KI. Ein Datenbestand umfasst alle Daten, die ein Unternehmen besitzt. Wenn Sie diese Daten in die Cloud migrieren oder Ihre Umgebung vor Ort modernisieren, können Sie wichtige Erkenntnisse gewinnen, um Innovationen voranzutreiben.

Microsoft Dynamics 365 vorgefertigtes Data Warehouse, DataCONNECT

Der Aufbau eines Data Warehouse kann sehr teuer und zeitaufwändig sein, um Ihre Quellsysteme richtig zu überprüfen, ein Datenmodell zu entwerfen und die erforderliche ETL zu erstellen, um es zu verarbeiten. MCA Connect hat unsere DataCONNECT Data Warehouse-Lösung für Microsoft Dynamics AX, Dynamics 365 Finance und Customer Engagement entwickelt. Diese Lösung beschleunigt den Zeitplan für die Bereitstellung einer umfassenden Data-Warehouse-Lösung erheblich und reduziert gleichzeitig die Implementierungskosten. Es ist auch eine großartige Möglichkeit, um mit dem Aufbau Ihres umfassenden Datenbestands zu beginnen.

DataCONNECT kann Unternehmen mit schnellen, genauen Informationen versorgen und ihnen die Möglichkeit geben, Abläufe mit Präzision vorherzusagen, anzupassen und zu gestalten. Sie können validierte Daten schnell in Prognosemodelle einbinden, damit Sie Ihre Planungszyklen für Ihre Geschäftsbereiche beginnen können. Wenn Sie mehr darüber erfahren möchten, wie das DataCONNECT Data Warehouse oder ein Data Lake Ihrem Unternehmen helfen kann, Big Data zu speichern, kontaktieren Sie uns. Einer unserer Experten führt Sie gerne in die richtige Richtung.

Der Inhalt und die Meinungen in diesem Artikel sind die des Autors und geben nicht unbedingt die Ansichten von Manufacturing Tomorrow wieder.


Industrietechnik

  1. Die vierte industrielle Revolution
  2. Datenkonform im IoT bleiben
  3. Was mache ich mit den Daten?!
  4. Die Entwicklung moderner Kunststoffe
  5. Wartung in der digitalen Welt
  6. Demokratisierung des IoT
  7. Maximierung des Wertes von IoT-Daten
  8. Der Wert der analogen Messung
  9. Strategische Datenbeschaffung ist der moderne Weg, um Störungen zu vermeiden
  10. So holen Sie das Beste aus Ihrem Lager-Scansystem heraus