Ob Ghostbusting oder Datenanalyse:Cross the Streams

Die Nutzung von Datenströmen – die Verbindung von Batch- und Echtzeitereignissen – versetzt Datenwissenschaftler und Analysten in die Lage, anspruchsvolle Probleme anzugehen.

Einzelne Streams liefern Daten in Bezug auf eine bestimmte Dimension – den Preis einer Aktie, die Bestellung eines Kunden, die Metrik eines Geräts. Analysen und Anwendungen können von einem einzigen Datenstrom bereitgestellt werden, aber die Verwendung ist eng begrenzt und lokal.

Das Überqueren von Strömen enthüllt größere Möglichkeiten, die mit Geschichte, Kontext und verwandten Signalen gefüllt sind. Als unsere Ghostbuster-Helden (Venkman und die Bande) sich der Herausforderung stellen mussten (und Mr. Stay Puft besiegen), schlossen sie sich zusammen – und strömten! Das Ganze war mehr als die Summe der Teile.

In unserer Community sind Data Scientists, Analysten und Entwickler gleichermaßen zum Handeln aufgerufen. Durch die Nutzung von Datenströmen – die sowohl Batch- als auch Echtzeit-Ereignisse verbinden – können Sie anspruchsvolle Probleme angehen. Und wie bei Venkman braucht man manchmal andere, die ihre Ausrüstung mitbringen und helfen. Hier sind vier wichtige Komponenten, um die Überquerung von Flüssen erfolgreich zu machen:

1) Bringen Sie Daten, Anwendungsfälle und Personen zusammen.

Die Beschleunigung von Innovationen, die Maximierung der Effizienz und die Bereitstellung von Flexibilität sind etablierte Prioritäten für anspruchsvolle Datensysteme. Ein flexibles, sich entwickelndes Software-Backbone verwirklicht diese Ziele. Open-Source-Kernkomponenten bieten die langfristige Agilität und Interoperabilität, die für den Erfolg von größter Bedeutung sind.

Tools entwickeln sich weiter und manchmal müssen Sie diese neue Geisterfalle verwenden.

2) Machen Sie Ihren Datenstapel mit Open-Source-Formaten zukunftssicher.

Datenportabilität ist seit langem eine heilige Anforderung für Datenteams in Unternehmen. Walled Gardens verursachen zukünftige Schulden, und die Lieferantenbindung hat unausgesprochene langfristige Kosten, die oft in geschäftlichen Belastungen bezahlt werden. Speichern Sie Daten in offenen Formaten.

CSV und JSON sind seit Jahren groß, wobei Avro, Protobuffs, Parquet, Orc und andere in letzter Zeit an Popularität gewinnen. Sie haben ihre jeweiligen Existenzgründe, aber jedes basiert auf der Lieferung strukturierter Daten an eine Vielzahl unabhängiger Systeme, die der nachgelagerten Informatik gegenüber agnostisch und blind sind.

Da die Größe der Daten gestiegen ist und die damit verbundenen finanziellen und Latenzkosten für das Verschieben von Daten gestiegen sind, umfasst das Konzept der offenen Daten jetzt In-Memory-Formate, nicht nur die Art, die auf der Festplatte verblieben ist. Heutzutage ist es oft inakzeptabel, dass Daten kopiert, verschoben, serialisiert oder in irgendeiner Weise übersetzt werden müssen. Insbesondere die bedeutende Community von Apache Arrow profitiert von seiner Fähigkeit, In-Memory-Daten für eine Reihe von Datenverarbeitungsbibliotheken in vielen Sprachen mit minimalem Overhead, Zero-Copy-Lesevorgängen und schnellem Zugriff in großem Umfang bereitzustellen.

Aber denken wir daran, dass die Daten in Ghostbusters nur der Anfang des Abenteuers waren.

3) Machen Sie das Zusammenführen von Echtzeit- und statischen Daten zu einer grundlegenden Anforderung.

Eine moderne Data Engine muss Daten aus einer Vielzahl von Quellen zusammenführen. Der Jargon von Lagerhaus, See und dem zentaurenähnlichen Seehaus ist heute eine gängige Bildsprache. Die wachsende Popularität von Event-Streams ist jedoch ein nicht so leiser Kanarienvogel, der darauf hindeutet, dass statische Daten nicht mehr die ganze Geschichte sind.

Datenänderungen. Moderne Workloads befinden sich im Wandel. Echtzeitdaten sind wichtig.

Daten-Engines und Verarbeitungsbibliotheken müssen so konzipiert sein, dass sie Echtzeit- und statische Daten-Workloads bewältigen und fließend zwischen ihnen wechseln können. „Kontinuierliche Intelligenz“ ist ein Trendwort für Systeme, die den Kontext der Geschichte mit den Ereignissignalen des Augenblicks verbinden. Moderne Datensysteme sollten so aufgebaut sein, dass sie Echtzeitdaten, Ereignisströme und andere Aktualisierungen als erstklassige Kompetenz verarbeiten können. Dies sollten Kernstärken sein, keine Add-Ons, keine nachträglichen Einfälle.

Wie wir in Ghostbusters gelernt haben, sind Torwächter und Schlüsselmeister schließlich viel weniger mächtig, bis sie zusammengefügt werden.

4) Stellen Sie den Benutzer immer an die erste Stelle.

Die heutigen Datennutzer verfügen über eine Vielzahl von Fähigkeiten, Tools, Arbeitsabläufen und Prioritäten. Der Zusammenschluss eines Teams um eine gemeinsame Plattform dient dem Einzelnen und gibt dem Team Energie. Datensysteme, die die Effizienz des Einzelnen maximieren und die Zusammenarbeit fördern, steigern den Geschäftswert.

Offene Datensoftware weist den Weg. Die faszinierende Mischung aus Kooperation und Wettbewerb in offenen Projekten führt zu einem konkurrenzlosen Fortschrittstempo und Einfallsreichtum. Die zur Förderung der Interoperabilität organisierte Community-Entwicklung verspricht Verbesserungen, Integrationen und Upgrades der Benutzererfahrung. Aus beliebten Pfaden werden asphaltierte Straßen. Solche Systeme machen Benutzer zu einer Armee von einem und unterstützen gleichzeitig das co-abhängige Arbeitsprodukt, das für jeden selbst mäßig komplexen Anwendungsfall erforderlich ist.

Schließlich ist ein Protonenpaket stark, aber vier zusammen sind unbesiegbar.

Ich habe keine Angst vor Geistern.

Bahnbrechender 5G-Versuch testet energieeffizientes Funkgerät Digitaler Faden zum IoT-Erfolg

Internet der Dinge-Technologie

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie