Dateidaten bereit für Cloud Data Lakes machen

Eine Cloud-Data-Lake-Strategie ist eine natürliche Entwicklung für datenlastige IT-Unternehmensorganisationen, die in die Cloud wechseln, da sie die Cloud von einem billigen Datenspeicher zu einem Ort macht, an dem Daten für neuen Wert genutzt und zu Geld gemacht werden können.

Wenn 2020 und 2021 die Jahre der schnellen Cloud-Beschleunigung waren, wird 2022 das Jahr sein, in dem Unternehmen ernsthaft damit beginnen, unstrukturierte Dateidaten in Cloud Data Lakes zu bringen. Es gibt einige Gründe für diesen Trend. Erstens sitzen Unternehmen auf Petabytes an unstrukturierten Daten, die mindestens 80 % der 64 Zetabytes an Daten ausmachen (und wachsen), die heute weltweit gespeichert sind. Das meiste davon sind Dateidaten – von medizinischen Bildern bis hin zu Streaming-Videos, Sensordaten von Elektroautos und IoT-Produkten sowie die Dokumente, die Menschen in allen Bereichen für die Zusammenarbeit und Geschäftsabwicklung verwenden.

Zweitens werden Dateidaten unüberschaubar, ihre Speicherung ist kostspielig, und CIOs wissen, dass sie auf einer potenziellen Goldmine an Erkenntnissen sitzen, wenn sie nur bestimmen könnten, wie sie sie an die richtigen Stellen für die Analyse bringen können. Schließlich investieren die großen Cloud-Plattformen stark in Datenanalyse-/ML-/KI-Tools und kostengünstigere Objektspeicherebenen, um Data-Lake-Projekte zu unterstützen.

Siehe auch: Data Lakes, Zeitreihendaten und industrielle Analysen

Die Reifung von Data Lakes in die Cloud

Laut einer kürzlich von uns durchgeführten Studie ist die Aktivierung von Data Lakes neben Sicherheit, Kostenmanagement und Transparenz eines der wichtigsten Ziele, die IT-Manager priorisieren. Die Cloud hat traditionelle Data-Lake-Strategien auf den Kopf gestellt, die begannen, als Unternehmen halbstrukturierte Daten wie CSV- und Protokolldateien analysieren wollten. Im Jahr 2006 wurde Hadoop geboren und fand gerade zu der Zeit breite Akzeptanz, als Big Data-Gespräche zu zirkulieren begannen. Doch Hadoop erwies sich schließlich als langsamer und teurer als erwartet, kompliziert einzurichten, zu skalieren und zu verwalten und hauptsächlich für die Stapelverarbeitung konzipiert. Um diese Probleme zu lösen, betrat Apache Spark die Bühne, der für einige Workloads bis zu 100-mal schneller läuft und sich gut für Echtzeitanalysen eignet. Wichtig ist, dass der Fokus von Unternehmen wie Databricks darauf lag, Spark in der Cloud auszuführen, während Hadoop hauptsächlich lokal implementiert wurde.

Cloudbasierte Data-Lake-Plattformen sind in den letzten Jahren ausgereift und bereit für die Prime Time. Der günstigere Scale-out-Objektspeicher von Cloud-Anbietern bietet eine Plattform für riesige Projekte im Petabyte-Bereich, die lokal einfach nicht realisierbar ist. Data Lakes der nächsten Generation basieren auf Apache Spark, um S3- oder Objektdatenspeicherung zu unterstützen, wodurch es möglich ist, halbstrukturierte und unstrukturierte Daten aufzunehmen und zu verarbeiten. Auch die Dateispeicherung geht in die Cloud über und muss als Teil eines Cloud Data Lake genutzt werden, sodass sich möglicherweise nicht alle Daten im Objektspeicher befinden.

Wie man den Cloud Data Lake zähmt

Cloud Data Lakes befinden sich zwar noch in den Anfängen, aber das Einbeziehen von Dateidaten in Ihren Data Lake ist unerlässlich, da Modelle für maschinelles Lernen große Mengen davon benötigen, um aussagekräftige Ergebnisse zu erzielen. Diese unstrukturierten Daten sind jedoch nicht zwischen Dateitypen standardisiert:Videodateien, Audiodateien, Sensordaten und Protokolle haben keine gemeinsame Struktur. Und all diese Dateidaten wohl oder übel in die Cloud-Data-Lake-Plattform zu werfen, ist keine kluge Strategie, sondern ein Durcheinander, das später aufgeräumt werden muss. Trotz ihres Versprechens bergen Data Lakes viele Risiken, die von hohen Verwaltungskosten, Qualifikationslücken, Sicherheits- und Governance-Bedenken, Portabilitätsproblemen beim Verschieben von Daten zwischen Clouds und Speicherplattformen und der langjährigen Sorge reichen, dass der Data Lake zu einem Sumpf wird, wenn Daten wird zu groß und unübersichtlich, um sie zu durchsuchen und zu analysieren.

Hier sind einige Überlegungen, wenn Sie damit beginnen, Dateidaten in einen Cloud Data Lake zu bringen, um Konflikte zu vermeiden oder zu minimieren .

Optimieren Sie den Data Lake. Bevor Daten analysiert werden können, müssen sie bereinigt, normalisiert und klassifiziert werden, was ein sehr manueller Prozess sein kann, der zu Kostenüberschreitungen und einer langsamen Wertschöpfung beiträgt. Dies war schon immer eine Herausforderung für eine Data-Warehouse-Initiative, und dasselbe gilt für Data Lakes und Data Lakehouses. Data Lakes sind attraktiv, weil sie Daten in ihrem nativen Format aufnehmen können; Das Erfordernis einer Optimierung vor dem Einfügen von Daten in den See zerstört diese Benutzerfreundlichkeit. Wie können Sie Dateidaten automatisch optimieren, ohne das Benutzerverhalten ändern zu müssen? Der Schlüssel zur Optimierung von Dateidaten sind die Metadaten:die Informationen zu Dateitypen, Erstellungsdatum und letztem Zugriff, Besitzern, Projekten und Speicherort. Die Möglichkeit, Dateien auf Metadateneigenschaften automatisch zu indizieren und zu taggen, vermeidet Datenüberschwemmungsprobleme und erleichtert die spätere Suche und Segmentierung, anstatt Data Lakes einfach unverwaltet zu lassen.
Verwenden Sie die Metadatenindizierung, um präzise Datensätze für bestimmte Anforderungen zu finden. Tools, die Dateien indizieren und Metadaten im gesamten Speicher (einschließlich On-Premises-, Edge- und Cloud-Standorten) durchsuchen können, können Milliarden von Dateien auf einige Tausend eingrenzen, sodass Sie nur genau die Dateien an die Cloud senden, die Sie analysieren möchten.
Taggen Sie Daten für eine verbesserte Durchsuchbarkeit und Benutzerfreundlichkeit . Sobald Sie die benötigten Dateien gefunden haben, können Sie ein maschinelles Lernsystem verwenden, um die Suche mit weiteren Tags weiter zu verfeinern. Dieser Prozess muss kontinuierlich und automatisiert ablaufen, damit sich im Laufe der Zeit zusätzliche Strukturen entwickeln und Ihr Data Lake einfacher durchsuchbar wird, zusammen mit einer insgesamt höheren Qualität.
Passen Sie die Kante an. Da Edge-Computing aufgrund neuer Anwendungsfälle von Sensordaten wächst, wird das Streamen von Daten vom Rand unhaltbar. Wie können Sie mehr Daten am Edge verarbeiten und nur das, was Sie brauchen, in einen Cloud Data Lake bringen? Die Edge-Vorverarbeitung wird mit zunehmendem Edge-Datenvolumen immer wichtiger.
Erstellen Sie Taxonomien nach Branche. Es gibt keine Standard-Tagging-Nomenklatur für jede Branche. Einige gemeinsame Tagging-Klassifizierungen nach Sektoren erleichtern das Suchen und Extrahieren von Daten, insbesondere in kollaborativen Umgebungen wie Forschung und Biowissenschaften.
Adressieren Sie die Datenmobilität. Um wirklich mobil zu sein, sollten sich Daten in verschiedenen Systemen in hybriden Cloud-Umgebungen befinden und gleichzeitig nativ auf die Dienste in diesen Umgebungen zugreifen können. Das Entsperren von Daten aus proprietären Speichersystemen gibt der IT die Kontrolle zurück und eliminiert Gebühren und Probleme beim Verschieben von Daten von einer Plattform zur nächsten. Die Art und Weise, wie Daten verwendet und abgerufen werden, und ihr Wert ändert sich im Laufe der Zeit. Indem Sie Ihre Daten zukunftssicher machen, können Sie sich an Veränderungen und neue Anforderungen anpassen. Hier können unabhängige Lösungen für Datenmobilität und -management helfen.
Bauen Sie die richtige Kultur auf. Laut einer Studie von New Vantage Partners aus dem Jahr 2021 identifizieren führende IT-Organisationen weiterhin die Kultur – Menschen, Prozesse, Organisation, Änderungsmanagement – als das größte Hindernis auf dem Weg zu datengesteuerten Organisationen. Eine datengesteuerte Kultur muss nicht nur die Analysten und Geschäftsbereiche, sondern auch die IT-Infrastrukturteams umfassen. IT-Führungskräfte müssen eine Rolle dabei spielen, Datenspeicherungs-, Server- und Netzwerkexperten dabei zu helfen, ihre Verantwortlichkeiten und täglichen Aufgaben auf einen datenzentrierten Rahmen für die Entscheidungsfindung auszurichten. Tools und Prozesse sollten funktionsübergreifend sein und eine ganzheitliche Sicht auf die Datenbestände der Organisation und die Zusammenarbeit bei Strategien zur Verwaltung dieser Bestände zum Vorteil der Organisation ermöglichen.

Cloud Data Lakes haben an Popularität gewonnen, da Daten in ihrem nativen Format ohne die für Data Warehouses erforderliche umfangreiche Vorverarbeitung aufgenommen werden können. Die Kehrseite ist, dass Data Lakes insbesondere für unstrukturierte Dateidaten zu Datensümpfen geworden sind, da diese Daten keine gemeinsame Struktur haben. Die Analyse von Dateidaten wird mit der Zunahme von KI/ML-Engines, die darauf angewiesen sind, immer wichtiger. Cloud Data Lakes können für unstrukturierte Daten optimiert werden, ohne ihre Attraktivität für die Aufnahme von Daten im nativen Format zu beeinträchtigen, indem die Indizierung, Suche, Erfassung und Optimierung von Dateidaten automatisiert werden.

Raus aus der Bratpfanne und rein in die Connected Kitchen 4 Industrielle Metaverse-Trends:Übertreibung oder Revolution?

Internet der Dinge-Technologie

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie