Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Industrial Internet of Things >> Internet der Dinge-Technologie

Der Argot der Asse:Allgemeine Begriffe für Big-Data-Enthusiasten

Big Data wird mit großen Worten geladen. Ein gutes Verständnis allgemeiner Datenbegriffe hilft Ihnen nicht nur, Gespräche über Dateninitiativen zu verstehen, sondern auch daran teilzunehmen und sie zu beeinflussen. Informieren Sie sich unter www.datamakespossible.com über wichtige Diskussionen rund um die Entwicklung und Revolution von Daten.

Okay, fangen wir an und entmystifizieren wir einige Begriffe, die Sie schon einmal gehört haben, und stellen ein paar vor, die möglicherweise ganz neu sind.

Datenwissenschaftler

Der Data Scientist kombiniert zu gleichen Teilen Wissenschaft, Wirtschaft und Kunst und nutzt Kenntnisse über Algorithmen, Tools und Prozesse, um einen gewissen Wert aus Daten zu extrahieren. Ein Datenwissenschaftler führt häufig maschinelles Lernen oder künstliche Intelligenz aus, um Datensätze zu minen, zu gruppieren oder zu analysieren.

Heteroskedastie und heteroskedastische Daten

HeteroWAS ? Dies mag ein neuer Begriff für Sie sein, also lassen Sie uns ein sehr einfaches Beispiel dafür durchgehen, was dies bedeutet.

Einige Daten sind konstant und ändert sich nie. Die Weblogs von gestern sind eine Konstante. Bis wir Zeitreisen erfinden, können Sie nicht zurückgehen und ändern, was jemand gestern getan hat.

Die nächste Komplexitätsstufe für Daten ist linear . Eine Warteschlange oder Voicemail ist ein Beispiel für lineares Wachstum. Wenn ein Mitarbeiter zehn Nachrichten pro Stunde verarbeiten kann, benötigen wir fünf Mitarbeiter, um 50 Nachrichten pro Stunde zu bearbeiten. Daten, die quadratisch wachsen Mode würde mit der 4-fachen (oder höheren) Rate wachsen. Ein Beispiel hierfür könnten soziale Medien sein. Wenn Sie einen Beitrag schreiben, können 4, 10, 100 oder sogar Millionen von Menschen ihn lesen. Diese Personen können Ihren Beitrag teilen, kommentieren oder anderweitig Metadaten generieren, die sich jede Sekunde ändern. Hier beginnen wir mit der Heteroskedastizität. Es zeichnet sich durch hohe Geschwindigkeit (es bewegt sich und ändert sich schnell) mit hoher Variabilität aus (d. h. es gibt keine einfache Möglichkeit, vorherzusagen, wer einen Beitrag kommentiert, teilt und mag oder wie schnell die Antwort sein wird).

Eine weitere großartige Analogie ist das Kochen. Beim Kochen einer Mahlzeit kombinieren wir Zutaten auf unterschiedliche Weise, um etwas (hoffentlich) köstliches zu kreieren. Jeder, der schon einmal gekocht hat, weiß, dass viele kleine Änderungen – etwas Salz hinzufügen, 2 Minuten zu lange kochen, die Tomaten zu groß oder klein hacken – einen großen Einfluss auf das Ergebnis und die Konvergenz des endgültigen Rezepts haben können für dieses typische Gericht.

Selbst wenn Sie diesen Begriff noch nie verwendet haben, werden Sie bei industriellen IoT-Workloads immer häufiger auf Heteroskedastizität stoßen. Dies gilt insbesondere bei Hochgeschwindigkeitsdaten (wie Streaming) oder häufig bei unstrukturierten, sich schnell ändernden Daten wie HTML-Seiten, die der Google-Webcrawler durchläuft.

Maschinelles Lernen

Maschinelles Lernen (ML) ist ein Gebiet der Informatik, das es Computern ermöglicht, durch strenges Training von Datenmodellen Muster aus Rohdaten zu erkennen und zu extrahieren.

ML ermöglicht „die drei Cs von Big Data“ – Klassifizierung, Clustering und kollaboratives Filtern.

Klassifizierung ist das Problem zu identifizieren, zu welchem ​​Satz von Kategorien/Unterkategorien oder Population/Unterpopulation ein neues Muster gehört zu Trainingsdatensätzen, die dieses Muster enthalten, oder Fälle, in denen die Kategorie bereits identifiziert ist und bekannt. Die Klassifizierung kann beispielsweise das Trainieren eines Algorithmus beinhalten, um zu sagen, Tumore in einer Reihe von MRT-Scans zu erkennen, und dann den Algorithmus aufzufordern, andere Scans mit Tumoren zu identifizieren.

Clustering beinhaltet das Gruppieren von Rohdatenpunkten in Sets oder „Cluster“. Ein Beispiel hierfür könnte ein ML-Algorithmus sein, der in Echtzeit über Weblogs läuft und gültigen Datenverkehr (zum Zulassen) in eine Kategorie und mögliche Angriffe (zum Blockieren) in eine andere gruppiert.

Kollaboratives Filtern ist nur ein schickes Wort für "Empfehlungen". Ein Beispiel ist das Bestimmen und Anzeigen von Produkten, die eine gewisse Affinität zueinander aufweisen.

Vieles von dem, was wir in ML tun, wird als „flaches Lernen“ bezeichnet. Deep Learning ist normalerweise ein Bestandteil echter Künstlicher Intelligenz.

Künstliche Intelligenz

Künstliche Intelligenz (KI) umfasst und erweitert ML, indem sie Computern die Möglichkeit bietet, eine tiefgreifende kognitive Analyse durchzuführen.

Während ML in der Regel eine Art anfänglicher menschlicher Eingriffe in Form der Erstellung, Abstimmung oder des Trainings von Algorithmen beinhaltet (wie das Einspeisen von Tumorscans in den Computer), ermöglicht KI dem Computer die Auswahl, Abstimmung und sich selbst trainieren, um eine bestimmte Funktion auszuführen. Letztendlich verwendet KI Deep Learning, um menschliche Entscheidungs- und Lernprozesse zu emulieren.

Sie wissen es vielleicht nicht, aber KI gehört wahrscheinlich zu Ihrem täglichen Leben. Mehr dazu in der NLP-Definition unten.

Virtuelle Realität

Virtual Reality (VR) ermöglicht es Benutzern, in virtuelle Welten einzutreten, die sich völlig von ihrer physischen Umgebung unterscheiden.

VR ermöglicht Unterhaltungserlebnisse wie virtuelle Achterbahnen, hat aber auch bedeutende kommerzielle Anwendungen. VR erfordert normalerweise ein Digitaldisplay-Headset.

Augmented Reality

Augmented Reality (AR) ist bestrebt, digitale Artefakte über die reale Welt zu legen, um Interaktion zu ermöglichen. In letzter Zeit ist AR mit der Popularität von Gameplay-Apps sehr erfolgreich geworden.

Natürliche Sprachverarbeitung

Natural Language Processing (NLP) ermöglicht es Computern, geschriebene oder gesprochene menschliche Sprache zu analysieren und zu verstehen. Wenn Sie mit Ihrem Telefon oder zu Hause sprechen, haben Sie wahrscheinlich NLP erlebt.

NLP ist ein großartiger Ort, um den Unterschied zwischen tiefem und flachem Lernen zu erklären. NLP (Shallow Learning) der ersten Generation konzentrierte sich darauf, einen Satz in Token (Wörter) zu zerlegen und dann einige Regeln auf die Token anzuwenden. Das heutige Deep Learning NLP betrachtet jedoch den gesamten Kontext einer Aussage und begründet die wahre Bedeutung.

Stellen Sie sich eine schriftliche Webrezension vor. Shallow Learning würde einfach eine begrenzte Anzahl von Daten-Token wie „Anzahl der Bewertungssterne“ und grundlegende „Sentimentanalyse“ betrachten. Dies kann das Zählen der Anzahl positiver vs. negativer Wörter beinhalten. Diese Datenpunkte werden durch ein oft sprödes Regelwerk gespeist, um zu einem Schluss zu kommen, ob die Bewertung positiv oder negativ war.

Eine Deep-Learning-Engine wendet mehr Intelligenz auf diese Analyse an – fast so, wie es ein Mensch vermuten könnte, wenn er dieselbe Rezension liest. Wenn eine Bewertung beispielsweise viele „positive“ Bewertungen wie Fünf-Sterne-Bewertungen, ein gutes positives zu negatives Zählverhältnis usw. enthält, könnte eine flache NLP-Engine zu dem Schluss kommen, dass es sich um eine positive Bewertung handelt. Eine Deep-Learning-NLP-Engine könnte jedoch (wie es ein Mensch tun würde) interpretieren, dass die Bewertung beim Lesen von „Ich werde dieses Produkt nie wieder kaufen“ tatsächlich negativ war. Dieser Satz allein negiert alle positiven Gefühle, die ein Benutzer möglicherweise abgegeben hat.

Bilderkennung

Bilderkennung gibt Computern die Möglichkeit, aus einem einfachen visuellen Bild eine Bedeutung zu erschließen. Es wird häufig in den ML- oder KI-Angeboten eines Anbieters (zusammen mit NLP) gebündelt.

Bilderkennung ermöglicht es Computern, Objekte wie geschriebene Sprache mit Optical Character Recognition oder OCR (Text in Billboards) zu identifizieren, Objekte zu markieren (wie „Berg“, „Baum“, „Auto“, „Wolkenkratzer“) und sogar Gesichtsanalysen durchführen (wie das Zeichnen von Begrenzungsrahmen um Gesichter).

Bilderkennung wird derzeit von der Automobilindustrie mit der Anwendung der Gesichtsanalyse auf ein ganz neues Niveau gehoben, um Fahrer zu erkennen und zu warnen, die möglicherweise müde sind.

Strukturierte, unstrukturierte, halbstrukturierte Daten

Historisch gesehen waren viele der Daten, mit denen wir gearbeitet haben, stark strukturiert. Dies bedeutet, dass es gut in ein Zeilen- / Spaltenformat (wie Datenbanken) passt. Infolgedessen wurden viele Computersysteme entwickelt, um diese Form von Daten aufzunehmen und zu generieren.

Der Mensch ist ein anderes Tier. Wir sind hervorragend darin, unstrukturierte Daten wie frei fließenden Text, Sprache und Bilder wie Kamera-Schnappschüsse zu generieren und zu konsumieren. All diese Daten haben von Natur aus keine „Struktur“. Wir können uns nicht auf bestimmte Sprachen, Wörter, Intonationen usw. „verhängen“.

Halbstrukturierte Daten liegen irgendwo in der Mitte. Ein gutes Beispiel ist E-Mail. Es hat eine gewisse Struktur wie "Betreff", "bis", "von", "Datum", aber die Hauptnutzlast ist ein unstrukturierter Textklumpen im "Textkörper" der E-Mail.

Erst in den letzten 10 Jahren sind unsere Computersysteme leistungsfähig genug geworden, um Analysen an unstrukturierten Daten durchzuführen.

Datensee

Jede Analyse-Engine wie Hadoop stellt sowohl Speicher als auch Rechenleistung bereit, oft in einer eng gekoppelten Anordnung. Jedes Mal, wenn Sie mehr Verarbeitung hinzufügen, fügen Sie automatisch mehr Speicher hinzu.

Viele Unternehmen sitzen jedoch auf Bergen (Petabyte) an Daten, die sie dauerhaft aufbewahren, aber nicht sofort analysieren möchten. Ein Grund für die Verzögerung ist die Vorverarbeitung und Bereinigung der Daten, die möglicherweise vor der Analyse erforderlich sind.

Ein Data Lake bietet einen kostengünstigen, äußerst langlebigen, von überall zugänglichen Speicher mit begrenzter Rechenleistung. Es ermöglicht eine viel größere Speicherung von Daten als das, was gleichzeitig verarbeitet wird.

Wenn man sich ein Rezeptparadigma ansieht, ist ein Data Lake wie Ihre Vorratskammer mit Rohstoffen (Gemüse, Reis, Bouillon). Nur wenn Sie kochen möchten, ziehen Sie die richtige Untermenge der Zutaten gemäß dem Rezept heraus und bereiten sie für diese Mahlzeit vor.

Datenbank

Was wir allgemein als "Datenbank" bezeichnen, ist auch als relationales Datenbankmanagementsystem (RDBMS) oder OLTP-System (Online Transaction Processing) bekannt. Oracle, MySQL, SQL Server sind hierfür gängige Beispiele.

Viele kleine „Transaktionen“, die (normalerweise) von Endbenutzern stammen, kennzeichnen RDBMSes.

Denken Sie an E-Commerce-Websites für den Einzelhandel. Mehrere Hunderttausend Benutzer führen zu jedem Zeitpunkt kleine Lese- (Abfragen) und Schreibvorgänge (Einfügungen) durch, wenn sie nach Produkten suchen, Bewertungen lesen, Bestellungen generieren usw. Es wird erwartet, dass diese Systeme diese Abfragen sehr schnell ausführen.

Data Warehouse

In einem Data Warehouse (auch bekannt als Enterprise Data Warehouse oder EDW) führt das Unternehmen Analysen durch, um mehrere wichtige Geschäftsfragen zu beantworten. Was ist unsere am schnellsten wachsende Produktlinie? Welche Produktkategorien haben den besten ROI? Was sind unsere Regionen, Kategorien, Verkäufer usw. mit der schlechtesten Leistung?

EDWs werden normalerweise nur von einer Handvoll (vielleicht einem Dutzend oder einigen Dutzend) interner Benutzer verwendet, die lang andauernde Abfragen für riesige (möglicherweise Hunderte von TB oder Dutzende von PB) Datensätzen ausführen.

Visualisierung

Ein Visualisierungstool bietet ein visuelles Frontend für komplexe Analysen.

Durch einfaches Drag-and-Drop können selbst ungelernte Praktikanten viele komplexe Berichte wie Quartalsverkäufe, Bestseller, Wachstum usw. erstellen.

Diese Systeme erfordern normalerweise, dass die Engine, mit der Sie sie verbinden, über eine SQL-Schnittstelle verfügt, die (nicht zufällig) jedes RDBMS und EDW bietet. Wenn Sie wie viele Datenanalysten sind, werden 95 % Ihrer Interaktion mit Ihren Systemen über eines dieser Visualisierungstools abgewickelt.

Ich hoffe, Ihnen hat diese kurze Anleitung zu gebräuchlichen Begriffen gefallen, die wir in Big Data finden. Beeindrucken Sie jetzt die Leute am Wasserkühler, indem Sie diskutieren, wie die Visualisierung eines beispiellosen Datenwachstums, die Vorteile der Erstellung eines Data Lakes und die Erschließung des Wertes heteroskedastischer Daten durch ML und KI die Welt grundlegend verändern. Neugierig auf die Auswirkungen von Daten auf die Welt? Nachdem Sie nun die Sprache sprechen, nehmen Sie bitte an den Diskussionen auf datamakespossible.com teil.

Dieser Artikel wurde in Zusammenarbeit mit Western Digital erstellt.

Der Autor ist Fellow und Chief Data Scientist bei Western Digital und gestaltet, treibt und implementiert die Big-Data-Plattform, -Produkte und -Technologien, indem er fortschrittliche Analysen und Musterabgleich mit der Halbleiterfertigung einsetzt. Daten im Unternehmen.


Internet der Dinge-Technologie

  1. Die Vorteile der Anpassung von IIoT- und Datenanalyselösungen für EHS
  2. Aussichten für die Entwicklung des industriellen IoT
  3. Das Trilemma:Drei Tipps für einen effektiven Umspannwerksbetrieb
  4. Vier große Herausforderungen für das industrielle Internet der Dinge
  5. Das Potenzial für die Integration visueller Daten in das IoT
  6. Augmented Reality – Das nächste große Ding für die Personalabteilung?
  7. Es ist Zeit für Veränderungen:Eine neue Ära am Rande
  8. Die Voraussetzungen für den Erfolg der Industrial Data Science schaffen
  9. Trends treiben die Verarbeitung weiter an den Rand für KI
  10. Wird Big Data ein Allheilmittel für marode Gesundheitsbudgets sein?