Smart Talk Folge 8:Echtzeit-Einblicke in Data Lakehouses freischalten

Das Data Lakehouse hat sich zu einem flexiblen, vielseitig einsetzbaren Repository entwickelt. In dieser Smart Talk-Folge diskutieren Dinesh Chandrasekhar, CEO von Stratola, und sein Gast Justin Borgman, CEO und Chairman von Starburst, wie man die Fähigkeiten eines Data Lakehouse erweitern kann, um Echtzeitdaten und Hochleistungsabfragen einzubeziehen, die Erkenntnisse nahezu in Echtzeit liefern können – ein immer häufiger auftretender Anwendungsfall. Es sind zwei Schlüsseltechnologien erforderlich:Kafka-Streams und eine leistungsstarke Abfrage-Engine.

Besonders interessant sind ihre Ansichten zur Bedeutung von Open-Source-Software und offenen Formaten, die durch die Ankündigung der Unterstützung von Apache Iceberg durch Snowflake und Databricks bestätigt wurden. Justin gibt seinen Rat für Benchmarking-Lösungen:Nutzen Sie Ihre Unternehmensdaten, führen Sie Ihre tatsächlichen Abfragen durch, simulieren Sie die Skalierung und berechnen Sie schließlich die Kosten.

Zu den behandelten Themen gehören:

Kafka für das Streamen von Echtzeitdaten in Data Lakehouses (4:22)
Vorteile offener Formate (5:56)
SQLs unterstützende Rolle für GenAI (8:53)
Schneeflocke, Databricks und Eisberg (11:56)
Flexible Daten-Repository-Strategie (17:21)

Gast

Justin Borgman, CEO und Vorsitzender, Starburst

Justin Borgman ist ein Fachexperte für alles rund um Big Data und Analytics. Vor der Gründung von Starburst war er Vice President und GM bei Teradata (NYSE:TDC), wo er für das Hadoop-Produktportfolio des Unternehmens verantwortlich war. Justin kam 2014 durch die Übernahme seines Unternehmens Hadapt zu Teradata, wo er Mitbegründer und CEO war. Hadapt hat „SQL on Hadoop“ entwickelt und Hadoop von einem Dateisystem in eine analytische Datenbank verwandelt, auf die jedes BI-Tool zugreifen kann. Er gründete Starburst im Jahr 2017 mit dem Ziel, Analysten die Freiheit zu geben, unterschiedliche Datensätze unabhängig von ihrem Standort zu analysieren, ohne Kompromisse bei der Leistung einzugehen.

Gastgeber

Dinesh Chandrasekhar ist ein Technologie-Evangelist, ein Vordenker und ein erfahrener IT-Branchenanalyst. Mit fast 30 Jahren Erfahrung hat Dinesh an B2B-Unternehmenssoftware sowie SaaS-Produkten gearbeitet und anspruchsvolle Lösungen für Kunden mit komplexen Architekturen bereitgestellt und vermarktet. Er hat außerdem äußerst erfolgreiche GTM-Strategien definiert und umgesetzt, um mehrere wachstumsstarke Produkte bei verschiedenen Unternehmen wie LogicMonitor, Cloudera, Hortonworks, CA Technologies, Software AG, IBM usw. auf den Markt zu bringen. Er ist ein produktiver Redner, Blogger und Wochenendprogrammierer. Dinesh hat einen MBA-Abschluss der Santa Clara University und einen Master-Abschluss in Computeranwendungen der University of Madras. Derzeit leitet Dinesh sein eigenes Unternehmen, Stratola, ein kundenorientiertes Unternehmen für Geschäftsstrategieberatung und Full-Stack-Marketingdienstleistungen.

Ressourcen

Smart Talk Folge 7:Kardinalität, Kontrolle und Kosten bei der Beobachtbarkeit

Smart Talk Folge 6:AIOps und die Zukunft der IT-Überwachung

Smart Talk Episode 5:Disaggregation des Observability Stack

Smart Talk Episode 4:Echtzeitdaten und Vektordatenbanken

Smart Talk Episode 3:Moderne Datenpipelines und LLMs

Smart Talk Episode 2:Der Aufstieg von GenAI-Anwendungen mit Data-in-Motion

Smart Talk Episode 1:Die Data-in-Motion-Ökosystemlandschaft

Sehen Sie sich hier die Karte des Data-in-Motion-Ökosystems an

Erfahren Sie hier mehr über Data-in-Motion auf RTInsights

Transkript

Dinesh Chandrasekhar:

Hallo und willkommen zu dieser Folge der Smart Talk-Reihe „Data and Motion Leadership“. Ich bin Ihr Gastgeber, Dinesh Chandrasekhar, Chefanalyst und Gründer von Stratola. Unser heutiger Gast ist Justin Borgman, CEO und Vorsitzender von Starburst. Justin hat eine herausragende Karriere in Sicherheits- und Datenanalyseunternehmen hinter sich und vor der Gründung von Starburst im Jahr 2017 hatte er ein Unternehmen namens Had Adapt gegründet, das später von Teradata übernommen wurde, wo er mehrere Jahre als VP und GM tätig war. Willkommen Justin. Beginnen wir also mit Starburst, oder? Ich denke, viele Leute kennen Starburst als Marke, aber es gibt auch viele Leute, die gerne etwas mehr über Starburst erfahren möchten. Erzählen Sie uns von Starburst, insbesondere von seinen Ursprüngen und Ihrem Antrieb, das Unternehmen zu gründen.

Justin Borgman:

Ja, es ist mir ein Vergnügen. Wie Sie in der Einleitung erwähnt haben, bin ich nun seit etwa 15 Jahren im Bereich der Datenanalyse tätig, angefangen bei dem ersten Startup, das von Teradata übernommen wurde. Natürlich weiß Ihr Publikum sicher, dass Teradata jahrzehntelang führend im Bereich Data-Warehousing-Analysen war. Und dieses Modell erforderte wirklich die Verlagerung aller Ihrer Daten in eine proprietäre Datenbank, die Ihr Unternehmens-Data-Warehouse darstellte. Und von dort aus können Sie schnelle Analysen durchführen und Ihr Unternehmen verstehen. Ich denke, was wir gesehen haben, war eine Gelegenheit, dieses Modell im Grunde auf den Kopf zu stellen, insbesondere in zweierlei Hinsicht. Erstens die Möglichkeit, offene Tabellenformate in einem Data Lake zu nutzen und so eine Data-Warehousing-Leistung zu erzielen. Aber in einem Data Lake wird dies heute manchmal als Lakehouse-Architektur bezeichnet, außerdem ist es möglich, auf andere Datenquellen zuzugreifen und Tabellen, die sich in einer anderen Datenbank befinden, mit Tabellen in diesem Data Lake zu verknüpfen.

Sie verfügen beispielsweise möglicherweise über eine Oracle-Datenbank oder eine SQL Server-Datenbank und möchten eine Tabelle in einem dieser Systeme mit einer Tabelle im Iceberg-Dateiformat in einem Data Lake verknüpfen. Und genau das leistet unsere Technologie. Es handelt sich um die zugrunde liegende Technologie namens Trino. Es ist ein Open-Source-Projekt. Es entstand ursprünglich aus Facebook und ist die Art und Weise, wie viele der größten Internetunternehmen, LinkedIn, Airbnb, Netflix, Apple usw., ihre eigenen Data-Warehousing-Analysen durchführen. Auch in diesem Modell, bei dem der Data Lake das zentrale Repository ist, können sehr niedrige Betriebskosten erzielt werden, indem Daten in diesen Data Lakes gespeichert werden und auch andere Tabellen verknüpft werden können. Und so ist Starburst eigentlich nur die Kommerzialisierung dieses Open-Source-Projekts. Wir bieten eine Unternehmensversion von Trino an, die über zusätzliche Sicherheitsfunktionen, zusätzliche Anschlüsse, zusätzliche Leistungsvorteile und eine ganze Reihe weiterer Merkmale und Funktionen verfügt.

Dinesh Chandrasekhar:

Vielen Dank. Und ich möchte auf jeden Fall etwas tiefer in Trino und Iceberg und all das eintauchen. Ich denke, das sind alles tolle Themen für heute, aber kann ich einen Schritt zurücktreten und Sie fragen, ob Sie sich die Entwicklung von Datenarchitekturen ansehen würden? Wir hatten die traditionellen Datenbanken und dann kamen Data Warehouses auf, und mit der Datenexplosion und der Notwendigkeit, mehr Echtzeitdaten zu verarbeiten, entstanden Lakehouse-Architekturen und andere. Wenn Sie also in Ihrer Welt die Entwicklung von Datenarchitekturen, Data Lakehouse und in Ihrem Fall, glaube ich, auch ein Konzept namens Icehouse betrachten, wie hat sich das auf die Fähigkeit von Unternehmen ausgewirkt, Echtzeitdaten effektiv zu verarbeiten?

Justin Borgman:

Ja, tolle Frage. Und nur um es Ihren Zuhörern klarzustellen:Das Eishaus-Konzept ist eigentlich nur ein auf Eisbergen basierendes Seehaus. Die Daten werden also in einem Eisberg-Tabellenformat gespeichert und Sie können darüber hinaus Analysen im Data-Warehousing-Stil durchführen. Das Endergebnis bietet wirklich niedrige Gesamtbetriebskosten sowie die Möglichkeit, Daten nahezu in Echtzeit zu verarbeiten, wie Sie es beschrieben haben. Und wir denken darüber nach, dass wir einen enormen Anstieg der Menge an Streaming-Datentechnologien auf dem Markt sehen, wie zum Beispiel Kafka, wo Kunden diese zunehmend nutzen, um Daten nahezu in Echtzeit in einen Data Lake zu streamen.

Und da wollen wir aus unserer Sicht anknüpfen. Wir haben etwas entwickelt, das wir „Streaming-Ingest“ nennen, bei dem Sie eine Verbindung zu einem Kafka-Stream herstellen können. Wir wandeln diese automatisch in Iceberg-Tabellen um und stellen sie fast augenblicklich für Abfragen zur Verfügung. Dank dieser Architektur kann ein Unternehmen nun viel schneller und aktuellere Einblicke in seine Daten erhalten.

Dinesh Chandrasekhar:

Vielen Dank. Lakehouse verspricht also auf jeden Fall einen sehr einheitlichen Architekturansatz für Batch- und Echtzeitanalysen. Könnten wir sagen:Wie wird dieser architektonische Wandel Ihrer Meinung nach BI und die traditionelle Entscheidungsfindung heute branchenübergreifend verändern? Wie hat sich das geändert?

Justin Borgman:

Ja, ich sehe, dass es die Dinge ziemlich dramatisch verändert. Ich denke, einer der Treiber und einer der Vorteile dieser Architektur ist so einfach wie die Wirtschaftlichkeit. Letztendlich könnten diese herkömmlichen Data Warehouses sehr teuer werden. Das war wahrscheinlich tatsächlich eine der häufigsten Beschwerden während meiner Zeit bei Teradata. Niemand hat jemals gesagt, dass Teradata eine schlechte Datenbank sei. Es ist tatsächlich ein großartiges Datenbanksystem. Es ist einfach extrem teuer, und wenn man einmal drin ist, ist man drin und fühlt sich irgendwie verpflichtet.

Und dieser Data Lake bietet Ihnen eine größere Flexibilität, da Sie offene Formate verwenden, die es dem Kunden ermöglichen, die richtige Engine für den Zugriff auf meine Daten auszuwählen. Es gibt Ihnen viel Flexibilität, reduziert die Bindung, ermöglicht Ihnen aber auch die Speicherung Ihrer Daten in wirklich kostengünstigem Massenspeicher, bei dem es sich im Cloud-Kontext zunehmend um S3- oder Google GCS- oder Azure Data Lake-Speicher handelt. Und selbst in der On-Premise-Welt sehen wir S3-kompatiblen Objektspeicher von Unternehmen wie Dell oder IBM oder was auch immer, wo man grundsätzlich S3 bekommen kann. Das wird also zu einer Art gemeinsamer Grundschicht für die sehr, sehr kosteneffiziente Speicherung von Daten, und das ist Teil dessen, was diese Transformation vorantreibt.

Dinesh Chandrasekhar:

Okay, also lasst uns vielleicht jetzt darauf eingehen. Da ich denke, dass dies sozusagen der eigentliche Treiber hinter Ihrem Angebot ist, hat es im Laufe der Jahre als sehr leistungsstarke Abfrage-Engine im Echtzeitdatenbereich an Popularität gewonnen. Wie sehen Sie die Entwicklung seiner Rolle im modernen Datenökosystem? Insbesondere wie Sie erwähnt haben, gibt es andere Open-Source-Technologien wie Apache Iceberg, die ebenfalls viel Interoperabilität zwischen verschiedenen Datensystemen usw. bieten. Wie hat dies zusammen mit der Kombination einiger dieser anderen Open-Source-Technologien das moderne Datenökosystem verändert?

Justin Borgman:

Ich denke, es wird wirklich zu einer Art Postgres des Data Warehousing. Postgres ist natürlich eine weit verbreitete und äußerst beliebte Open-Source-Datenbank. Es handelt sich um einen herkömmlichen R-D-B-M-S-Einzelknoten. Trino ist so etwas wie das Äquivalent der MPP-Data-Warehousing-Analyse mit massiver Parallelverarbeitung. Und so wird dies für Ihre Big Data, für Ihre Aktivitäten im Data-Warehousing-Stil nun de facto zur Open-Source-Wahl.

Nun fragen die Leute manchmal:Was ist im Vergleich dazu mit Spark? Spark ist eine großartige Allzweck-Verarbeitungs-Engine, aber nicht wirklich für SQL-Analysen optimiert. Und ich denke, um auf Ihren Punkt zu Business Intelligence und Entscheidungsfindung zurückzukommen:SQL ist immer noch die Sprache für diese Art von Anwendungsfällen, egal ob es um die Verbindung eines BI-Tools, die Ausführung von Berichten oder sogar die Erstellung datengesteuerter Anwendungen geht. SQL ist weiterhin eine wirklich wichtige Schnittstellensprache, und Trino ist heute die beste Engine dafür auf dem Markt.

Wenn Sie es mit etwas wie Iceberg kombinieren, haben Sie, wie Sie sagten, jetzt im Wesentlichen ein vollständiges Data Warehouse. Sie haben den Abfrage-Engine-Teil, den Speicherteil und jetzt haben Sie ein vollständig offenes Data Warehouse. Sie können auch überall ausgeführt werden, sie können vor Ort oder in der Cloud ausgeführt werden. Sie haben also viel Flexibilität mit diesem Stack.

Dinesh Chandrasekhar:

Darf ich Ihnen eine kleine Nebenfrage stellen? Da Sie heutzutage SQL als eine Art Anlaufstelle für viele dieser Datenspeicher erwähnt haben, und ich glaube, dass in den letzten 30, 40 Jahren nichts daran etwas ändern konnte, aber mit dem Aufkommen von Gen-KI-Technologien und der Verarbeitung natürlicher Sprache überall können die Leute jetzt über Datendemokratisierung sprechen, wo Sie es jetzt sogar an Geschäftsanalysten weitergeben, die wahrscheinlich nicht über die gleichen Kenntnisse verfügen, aber natürliche Sprache verwenden können, um zu sagen:Besorgen Sie mir die Verkäufe der letzten drei Monate in dieser bestimmten Region und so weiter her.

Und das wird intern offensichtlich in SQL übersetzt und dann die Engine abgefragt oder was auch immer, oder? Sehen Sie auch hier eine Verschiebung? Wird SQL gedeihen und überleben, oder wird es in Zukunft einen Wandel in der Art und Weise geben, wie wir Abfragedaten betrachten?

Justin Borgman:

Das ist eine wirklich tolle Frage, und ich glaube, da sind Sie auf der richtigen Spur. Ich glaube, dass die generative KI als Schnittstelle mit der Zeit immer beliebter werden wird, denn Ihrer Meinung nach macht sie die Nutzung für jedermann einfacher. Jetzt ist es also eher ein Google-Erlebnis für alle Daten in einem Unternehmen, und das ist sehr aufregend. Tatsächlich haben wir eine frühe Version davon in unser eigenes Produkt integriert, und ich denke, das wird jeder tun, es wird zum entscheidenden Faktor werden.

Ich denke jedoch, dass diese Technologien hinter den Kulissen eigentlich nur die natürliche Sprache in eine SQL-Syntax umwandeln, damit die Engine sie tatsächlich ausführen kann. Daher denke ich, dass die Sprache immer noch wichtig sein wird, aber sie könnte eher zu einem Implementierungsdetail hinter einer generativen KI-Schnittstelle im Stil natürlicher Sprache werden. Ich denke, du liegst genau richtig. Es erinnert mich irgendwie an die Zeit, als Taschenrechner oder sogar Grafikrechner erfunden wurden, als wir plötzlich nicht mehr alle Formeln kennen mussten und nicht mehr genau wissen mussten, wie man lange Divisionen durchführt, weil unser Taschenrechner das erledigte. Ich denke, das ist in etwa das, was generative KI für uns hier bewirken wird.

Dinesh Chandrasekhar:

Einfacherer Zugriff auf Daten, auf jeden Fall. Ich denke, das ist die Richtung, in die wir gehen. Also definitiv ein spannender Raum. Also sprachen wir über Trino. Darf ich den Gang wechseln und Sie noch einmal nach Iceberg fragen? Das erfreut sich immer größerer Beliebtheit. Ich sehe, dass die größeren Giganten der Branche anfangen, Iceberg als eine ganz natürliche Art zu übernehmen, um zu sagen, dass wir interoperabel sind, dass wir es unterstützen und so weiter. Welche Rolle spielt der Eisberg bei der Ermöglichung einer effizienteren und skalierbaren Datenverwaltung, wenn Unternehmen zunehmend Echtzeitanalysen einsetzen? Was ist Ihre Meinung dazu?

Justin Borgman:

Ja, ich denke, es ist eine große Sache. Ich denke, es ist abgesehen von der KI die größte Geschichte des Jahres 2024. Und der Grund, warum ich das sage, ist, dass es das Format schon seit ein paar Jahren gibt, aber in diesem Jahr hat der Markt die Debatte darüber, welches Format gewinnen wird, irgendwie beigelegt. Es gab eine kurze Zeit, in der es sozusagen drei beliebte konkurrierende Formate gab, und es stellte sich die Frage, wer gewinnen wird.

Wir haben immer auf Iceberg gesetzt, ich würde sagen, dass wir vorhergesagt haben, dass es in diese Richtung gehen würde, aber ich denke, der Markt hat sich in diesem Sommer irgendwie wirklich einig, als sowohl Snowflake als auch Databricks ihre eigenen Absichten zur Unterstützung angekündigt haben, und das hat die Debatte einfach zum Erliegen gebracht, weil Iceberg der De-facto-Standard ist und was das für die Kunden bedeutet, die Kunden sind bei weitem die wahren Gewinner. Und das liegt daran, dass sie die Daten jetzt in einem Format speichern können, das ihnen gehört, das sie kontrollieren, das für sie portierbar ist und das nicht in den Händen eines Datenbankanbieters liegt, der sie für die kommenden Jahrzehnte als Geiseln halten wird.

Sie besitzen das und das bedeutet, dass sie die Motoren gegenseitig ausspielen können. Sie können sagen:Okay, Starburst wird diese Arbeitslast übernehmen, die mir dafür das beste Preis-Leistungs-Verhältnis bietet. Vielleicht ist Snowflake für diese Arbeitslast besser geeignet. Vielleicht ist Databricks für diese Arbeitslast besser geeignet und der Kunde hat die Wahl zwischen diesen Engines, was erstaunlich ist. Wenn Motoren konkurrieren, gewinnen Sie als Kunde, und ich denke, genau das bietet Iceberg.

Dinesh Chandrasekhar:

Aber das war eine tolle Zusammenfassung. Ich denke, das hat deutlich gemacht, wie wichtig Iceberg für die Zukunft ist, da Unternehmen ein Modell standardisieren, bei dem meiner Meinung nach alle interoperabler sind und es, wie Sie sagten, dem Kunden zugute kommt, ohne an einen bestimmten Anbieter gebunden zu sein, es ihm aber ermöglicht, etwas offener und flexibler zu sein. Das ist auf jeden Fall ein großartiger Punkt.

Justin Borgman:

Genau.

Dinesh Chandrasekhar:

Justin, warum reden wir hier nicht vielleicht über ein Kundenbeispiel, denn Trino und Iceberg stehen heute im Mittelpunkt des Gesprächs? Erzählen Sie uns vielleicht von einer Kundenfallstudie, in der Sie gesehen haben, wie dies praktisch umgesetzt wurde, und welche Vorteile sie durch die Einführung von Trino und Iceberg gesehen haben?

Justin Borgman:

Gerne. Es gibt eine Reihe von Beispielen, sowohl von führenden Internetunternehmen wie DoorDash als auch von traditionelleren Unternehmen wie Comcast, die es schon seit langem gibt und die in beiden Fällen von dem, was ich als traditionelle Data-Warehouse-Plattformen bezeichnen würde, abwandern und Arbeitslasten auf traditionelle Data-Warehouse-Plattformen verlagern.

Im Fall von Comcast ein sehr traditionelles lokales Data Warehouse. Im Fall von DoorDash würde ich es als ein sehr traditionelles Cloud-Data-Warehouse bezeichnen. Und in jedem Fall versuchen sie letztendlich, die Gesamtbetriebskosten ihrer SQL-Analysen zu senken und die Flexibilität zu bieten, mit den neuesten Spitzentechnologien zu arbeiten, die eine Schnittstelle zu diesem einen gemeinsamen Format herstellen können.

Um auf unseren vorherigen Punkt zurückzukommen:Ich denke, was sie auch versuchen, und das bezieht sich auf das KI-Thema, ist, dass sie den Grundstein für die Einrichtung ihrer Datenarchitektur legen, sodass sie nun einfachen Zugriff auf die Daten haben, die sie benötigen, um ihre eigenen Modelle zu trainieren oder RAG-Workflows durchzuführen, um letztendlich ihre eigenen KI-Ambitionen zu unterstützen. Und ich denke, dass viele Unternehmen noch in den Anfängen sind, herauszufinden, was KI für mich tun kann. Wie kann mir das einen Wettbewerbsvorteil verschaffen?

Und während sie das herausfinden, sind sich meiner Meinung nach alle darüber im Klaren, dass ihre eigenen proprietären Daten von entscheidender Bedeutung sein werden, um ihnen einen Wettbewerbsvorteil zu verschaffen. Daher ist die Einrichtung einer Dateninfrastruktur, die Ihnen auf kostengünstige und leistungsstarke Weise Zugriff auf das bietet, was Sie benötigen, ein zentraler Schritt in diesem Prozess.

Dinesh Chandrasekhar:

Kann ich also zum Nutzen darauf doppelklicken und Ihnen sagen oder fragen, insbesondere bei Echtzeitdaten, dass dies häufig zu Herausforderungen führt, z. B. zu Änderungen der Schemaentwicklung am Schema, wenn sich die Quellen ändern, das Ziel muss sich anpassen usw. und auch zur Datenversionierung. Wie hilft Apache Iceberg bei der Bewältigung einiger dieser Herausforderungen in modernen Datenplattformen wie dieser?

Justin Borgman:

Es gibt also das Konzept der Versionierung und Zeitreisen und die Möglichkeit zu sehen, wie sich Daten innerhalb unserer Plattform entwickelt haben. Wir haben auch Datenherkunft und Datenqualitätsmetriken hinzugefügt, die wir erfassen und unseren Benutzern präsentieren können, damit Sie wirklich verstehen können, woher diese Daten stammen, wie sie sich entwickelt haben, wie sie iteriert wurden, und diese Transparenz letztendlich dem Endbenutzer wieder zur Verfügung stellen können.

Dinesh Chandrasekhar:

Okay. Dann haben Sie mit Trino darüber gesprochen, wie Sie verschiedene Datenquellen kombinieren und gemeinsame Abfragen durchführen können und so weiter. Bewegt sich die Architektur eher in Richtung einer zentralisierten Datenquelle oder eines zentralen Datenspeichers, oder behält sie diese dort, wo sie sind, bietet aber die Möglichkeit, sie zu kombinieren und den Verbrauchern Sichtbarkeit zu verleihen? Was ist die staatliche Architektur, die wir hier betrachten?

Justin Borgman:

Ja, tolle Frage. Es gibt Elemente von beidem, und ich denke, das ist es, was es für uns immer schwierig gemacht hat, unser eigenes Wertversprechen überhaupt zu formulieren, weil die Leute an ein Modell und eine Denkweise gewöhnt sind, die darin besteht, alles in einem traditionellen Data Warehouse zu zentralisieren, oder man hat einfach keinen Zugriff darauf. Und ich denke, wir sehen die Entwicklung der Welt so, dass es ein zentrales Repository geben wird, das zweifellos ein Datensee sein wird, der den Großteil der Daten oder so viele Daten wie möglich speichert, weil Sie wirtschaftliche Vorteile erzielen und Leistungsvorteile erzielen werden, wenn Sie so viel wie möglich in Eisbergformaten in Ihrem See speichern. Wir glauben, dass dies eine großartige Strategie für viele Ihrer Daten ist, aber wir glauben auch, dass es immer Anwendungsfälle geben wird, bei denen Sie auf eine andere Datenquelle zurückgreifen möchten.

Vielleicht handelt es sich um explorative Analysen. Ich habe nur eine Hypothese, die ich testen möchte und die meiner Meinung nach für unser Unternehmen von großer Bedeutung sein könnte, aber ich möchte nicht alle ETL-Pipelines entwickeln und diesen ganzen Prozess nur wegen einer Idee durchlaufen, sondern nur wegen einer Ahnung, die ich habe. Nun, das ist ein großartiger Anwendungsfall, bei dem die Möglichkeit, sich mit dem, was Sie haben, an einen Tisch setzen zu können, der woanders steht, eine entscheidende Veränderung darstellt. Es könnte Ihnen tatsächlich ermöglichen, diese Hypothese innerhalb von Minuten statt Wochen zu bestätigen, um die Teams dazu zu bringen, die Daten auf die von Ihnen benötigte Weise zu verschieben. Ich denke also, dass beides wertvoll ist, aber wir betrachten es als die Mehrheit im See und dann denken wir darüber nach, über diesen See hinauszugehen.

Dinesh Chandrasekhar:

Wenn ich also ein Drittunternehmen bin, das beispielsweise auf der Suche nach einer modernen Datenplattform ist, welche wichtigen Leistungsaspekte sollte ich dann auf meiner Checkliste berücksichtigen, wenn ich mir Trino im Vergleich zu einer Reihe anderer Alternativen anschaue? Dann liegt meine Priorität beispielsweise darin, Echtzeit-Datenabfragen abzuwickeln, sicherzustellen, dass die Latenz niedrig ist und ähnliches. Das sind also meine Anforderungen. Welche Überlegungen möchte ich in meine Checkliste aufnehmen?

Justin Borgman:

Ja. Nun, die beiden wichtigsten Ratschläge, die ich geben würde, sind:Erstens:Verwenden Sie echte Abfragen, die Sie tatsächlich verwenden. Ich denke, dass es sehr üblich ist, Branchen-Benchmarks zu verwenden, und das ist vielleicht ein sehr oberflächlicher Schritt, aber er spiegelt nicht Ihre Arbeitsbelastung wider. Es ist einfach nie so. Jedes Unternehmen hat seine eigenen Dinge, die es zu tun versucht. Daher ist es immer am besten, zu versuchen, Ihren Endzustand so gut wie möglich zu simulieren.

Und das bedeutet, dass Sie Ihre eigenen Abfragen und Ihre eigenen Daten nutzen, während Sie Ihren eigenen Proof of Concept zusammenstellen und Benchmarking durchführen. Sie sollten jedoch niemals ausschließlich den Benchmarks anderer Anbieter vertrauen. Sogar unsere eigenen. Wir haben sie, Sie können sie sich ansehen, aber Sie sollten dies wirklich selbst mit Ihren eigenen Abfragen und Ihren eigenen Daten testen.

Das Zweite, was ich sagen würde, ist, dass Sie auch sicherstellen, dass Sie den Maßstab simulieren, und der Maßstab ist wichtig, denn hier finden wir zumindest einige unserer eigenen Möglichkeiten mit Kunden, beispielsweise einen von ihnen gekauften Anbieter zu ersetzen, wo sie im POC-Prozess dachten, dass dieser Anbieter ihre Bedürfnisse erfüllte, aber als sie in den echten Produktionsmaßstab kamen, konnte er damit einfach nicht umgehen.

Und hier liegt meiner Meinung nach auch ein großer Vorteil darin, Open-Source-Technologien wie Trino zu nutzen, die sich in der größtmöglichen Größenordnung bewährt haben, so wie Apple sie in wahnsinnigem Umfang betreibt, offensichtlich Facebook in wahnsinnigem Umfang. Das Zeug kann also funktionieren. In diesem Maßstab funktioniert es. Das sollte Ihnen etwas Ruhe geben. Dennoch würde ich sagen, simulieren Sie es selbst in Ihrem eigenen Benchmarking-Prozess, um wirklich sicherzustellen, dass diese verschiedenen Technologien Ihren Anforderungen in der Produktion gerecht werden. Cool.

Und der dritte Punkt, den ich vielleicht hinzufügen werde, sind die Kosten. Die Kosten sind auch so wichtig, oder? Kosten und Leistung sind eigentlich nur zwei Seiten derselben Medaille. Und das müssen Sie auch bei Ihrem Benchmarking berücksichtigen, oder? Sie werden sich nicht einfach für den schnellsten entscheiden. Sie möchten das beste Preis-Leistungs-Verhältnis wählen. Daher ist es auch ein wichtiger Bestandteil der Komponente.

Dinesh Chandrasekhar:

Ich stimme zu. Ich denke, das ist mit Sicherheit ein wichtiger Punkt auf der Checkliste für viele Leute, die Lösungen bewerten. Lassen Sie uns dies vielleicht aus der Trendperspektive abschließen. Ich möchte Sie nur fragen:Im Datenbereich passiert heute viel, oder? Es gibt also Data-Warehouse-Anbieter, Lakehouse-Anbieter, Data-Lake-Anbieter und mehrere Alternativen, Echtzeit-Analysedatenbanken und so weiter.

Die Auswahl ist auf jeden Fall groß und für den Käufer verwirrend. Sehen Sie aus Sicht der aufkommenden Trends eine Art Konvergenz, wenn es um die Echtzeit-Datenverarbeitung, die Data-Lakehouse-Architekturen, über die wir gerade gesprochen haben, und das Open-Source-Ökosystem im Allgemeinen geht? Gibt es Ihrer Meinung nach irgendeine Art von Konvergenz, die es dem Käufer in naher Zukunft klarer machen wird?

Justin Borgman:

Das tue ich. Ich denke, wir sehen, dass sehr beliebte Muster auftauchen, die oft ihren Ursprung im Internet und bei Hyperscalern haben und sich dann im Laufe der Zeit auf Unternehmen übertragen. Und ich denke, wir sind jetzt an dem Punkt angelangt, an dem es Einzug in das Unternehmen hält. Und die Muster, die ich sehe, nutzen Technologien wie Kafka für den Streaming-Bereich. Und natürlich haben Sie dort mehrere Möglichkeiten. Sie können Confluent verwenden, Sie können die Version von Amazon verwenden. Bei all diesen Open-Source-Plattformen haben Sie die Wahl, was großartig ist. Ich bin sicher, dass Iceberg für das Format zum Speichern Ihrer Daten die sicherste Wahl zu sein scheint, die Sie überhaupt treffen können. Und dann noch einmal auf der Motorseite:Den richtigen Motor für die richtige Aufgabe finden. Ich denke, wenn es um SQL Analytics geht, würden wir sagen, dass Trino und Starburst die beste Wahl sind, aber das sollten Sie sich selbst beweisen.

Wenn Sie ein Modell für maschinelles Lernen trainieren, würden Sie dafür wahrscheinlich Spark verwenden. Und das sind die Muster, die wir sehen. Ich denke, dass alle vier dieser Technologien in den kommenden Jahren in Open-Source-basierten Datenarchitekturen unglaublich beliebt sein werden. Und wiederum bietet Ihnen Open Source die Flexibilität, Komponenten im Laufe der Zeit kombinieren und anpassen zu können, wodurch Ihre Architektur den Test der Zeit bestehen wird. Und ich denke, das ist wirklich das, was Sie tun wollen:keine technischen Schulden zu schaffen, die Sie in 10 Jahren nur schwer wieder ersetzen können. Und Open Source gibt Ihnen diese Flexibilität.

Dinesh Chandrasekhar:

Ich liebe diesen Punkt. Danke schön. Ich denke, wir sollten das mit dieser großartigen Notiz abschließen. Justin, vielen Dank, dass du heute bei uns bist. Ich denke, es war ein großartiges Gespräch, um mehr über Trino und Iceberg zu erfahren und darüber, wie Starbust diese fantastische Plattform bietet, die das Beste aus beiden Welten in Ihrer Plattform vereint. Vielen Dank und vielen Dank, dass Sie sich uns angeschlossen haben.

Justin Borgman:

Danke, Dinesh. Es war mir ein Vergnügen.

Nutzung von KI und Wissensgraphen zur Transformation der Bauindustrie Die Industrie revolutionieren:Die Zukunft der IT/OT-Integration in der Fertigung

Internet der Dinge-Technologie

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie