Erfolgreiche KI hängt vom Datenmanagement ab

Dave Smith

Künstliche Intelligenz (KI) ist heutzutage überall zu finden, sei es in der Realität oder nur als aufgebauschtes Etikett für einige einfache regelbasierte Entscheidungen, und dies hat zu einigen interessanten Problemen geführt, sagt David Smith, Head of GDPR Technology, SAS Großbritannien und Irland .

Die erste davon ist Misstrauen, wie der neue Präsident der British Science Association anmerkte Professor Jim Al-Khalili:„Es besteht die reale Gefahr einer öffentlichen Gegenreaktion gegen die KI, möglicherweise ähnlich der, die wir zu Beginn des Jahrtausends mit GM [genetischer Modifikation] hatten.“ Al-Khalili betont, dass mehr Transparenz und öffentliches Engagement erforderlich sind, damit KI ihr volles Potenzial ausschöpfen kann.

Das zweite potenzielle Problem ist das der Kontrolle; Wenn Modelle wirklich ohne Überwachung und Kontrolle laufen, besteht die Möglichkeit, dass schlechte Entscheidungen getroffen werden. Ein Beispiel dafür könnte der „Flash Crash“ im Jahr 2010 sein, als der US-Aktienmarkt 36 Minuten lang um etwa 9 % fiel. Obwohl die Aufsichtsbehörden einen einzelnen Händler für die Marktfälschung verantwortlich machten, waren algorithmische Handelssysteme zumindest teilweise für die Tiefe des Crashs verantwortlich.

KI für das Gute nutzen

Allerdings hat KI ein enormes Potenzial für das Gute, sei es, um bessere Krebsdiagnosen durch ein effizienteres Screening von Tumorbildern zu ermöglichen oder gefährdete Arten durch die Interpretation von Bildern von Tierabdrücken in freier Wildbahn zu schützen. Die Herausforderung besteht darin, sicherzustellen, dass diese Vorteile realisiert werden, und hier setzt das FATE-Framework (Fairness, Accountability, Transparency and Explainable) an, das einen angemessenen Einsatz von KI sicherstellen soll. Ich werde mich auf die Transparenzaspekte konzentrieren, bei denen das Datenmanagement die größte Wirkung hat.

KI kann immer nur so gut sein wie die Daten, die sie füttern, und um eine KI-Anwendung zu erstellen und zu verwenden, sind eine Reihe von datenspezifischen Phasen erforderlich:

Bereinigung der Datenqualität, um sicherzustellen, dass keine Modellierung an Daten durchgeführt wird, die irrelevante oder falsche Elemente enthalten
Daten transformieren, zusammenführen und verbessern, bevor der Modellierungsprozess beginnt
Bereitstellung, bei der das Modell auf die Daten der Organisation angewendet wird, um die Entscheidungsfindung voranzutreiben

Jeder von ihnen wird einen Mehrwert schaffen, aber möglicherweise auch die Ergebnisse des KI-Prozesses verändern. Wenn der Datenqualitätsprozess beispielsweise Ausreißer entfernt, kann dies sehr unterschiedliche Auswirkungen haben. Wenn die Entfernung von Ausreißern angemessen ist, ist das Ergebnis ein Modell, das die meisten Daten sehr gut widerspiegelt. Auf der anderen Seite kann es einen seltenen, aber kritischen Umstand ignorieren und die Gelegenheit verpassen, echten Nutzen zu bringen.

Dies wurde in Dame Jocelyn Bell Burnells Entdeckung von Pulsaren, einer Art rotierender Neutronensterne, gezeigt. Sie untersuchte kilometerlange Druckdaten eines Radioteleskops und bemerkte ein kleines Signal in einem von 100.000 Datenpunkten. Obwohl ihr Vorgesetzter ihr sagte, dass es sich um von Menschen verursachte Störungen handelte, beharrte sie darauf und bewies ihre Existenz, indem sie an anderer Stelle erfolgreich nach ähnlichen Signalen suchte. Wären die Ausreißer entfernt worden, hätte sie die Entdeckung nicht gemacht.

Die Datenreise

Die Datenqualität sollte auch angewendet werden, um peinliche Entscheidungen zu vermeiden. Wenn Bank of America die Gültigkeit ihrer Namensdaten überprüft haben, haben sie möglicherweise kein Kreditkartenangebot an "Lisa Is A Slut McXxxxxx" gesendet (i>i>i>i>i>i>i>i> rediged. Ed. im Jahr 2014. Sie hatten die Daten von der Golden Key International Honor Society . erhalten , die akademische Leistungen anerkennt. Eine unbekannte Person hatte ihren Namen im Mitgliederverzeichnis geändert.

Der Prozess wird dann mit Transformationen fortgesetzt, um die Daten für die Modellierung vorzubereiten; Quellsysteme sind in der Regel stark normalisiert und haben Informationen in mehreren Tabellen gespeichert, während Data Scientists eine einzelne quadratische Tabelle zur Analyse bevorzugen. Sie müssen häufig abgeleitete Variablen hinzufügen, um ihre Analyse zu unterstützen. Diese werden normalerweise anfänglich in einer Ad-hoc-Datenvorbereitungsumgebung vom Datenwissenschaftler definiert, müssen jedoch zu Produktionszwecken in eine stärker kontrollierte Umgebung verschoben werden.

Die Auswirkungen dieser Phase der Datentransformation können enorm sein. Zunächst ist es wichtig zu verstehen, welche Datenquellen für die Analyse verwendet werden. Dies kann sich auf regulatorische Bedenken beziehen, etwa ob personenbezogene Daten verwendet werden, oder einfach um sicherzustellen, dass auf die richtige Datenquelle zugegriffen wird. Zweitens ist es wichtig zu verstehen, ob die Transformation angemessen und richtig umgesetzt wurde; Fehler bei der Implementierung können genauso schädlich sein wie Daten von schlechter Qualität.

Der letzte Datenprozess, der sich direkt auf die KI auswirkt, ist die Bereitstellung, um sicherzustellen, dass die richtigen Daten in das Modell eingespeist werden und die Ergebnisse verwendet werden, um Entscheidungen zu treffen, die sich direkt auf die Leistung des Unternehmens auswirken. Modelle haben eine bestimmte Haltbarkeitsdauer, während der sie die reale Welt genau vorhersagen. Wenn es also zu lange dauert, Modelle in die Produktion zu bringen, liefern sie nicht ihren vollen Wert.

Ein organisierter Bereitstellungsprozess ist auch ein notwendiger Bestandteil zur Erfüllung der Anforderungen von Artikel 22 der DSGVO. Dieser Artikel verhindert die Verwendung von analytischen Profilen für personenbezogene Daten, es sei denn, es werden strenge Bedingungen eingehalten (z. B. vollständige Einwilligung). Die kontrollierte Bereitstellung ermöglicht einen Überblick darüber, welche Daten im KI-Prozess verwendet wurden und welche Analysemodelle auf die Daten jeweils angewendet wurden. Dies ist entscheidend, um festzustellen, ob die Regulierung kompromittiert wurde.

Insgesamt ist das Datenmanagement von grundlegender Bedeutung, damit KI ihr wahres Potenzial ausschöpfen kann. Zu verstehen, wie die Datenverarbeitung erreicht wird, ist ein entscheidender Bestandteil der Aufrechterhaltung der Transparenz, einer der Hauptpfeiler einer fairen, vertrauenswürdigen und effektiven KI.

Der Autor dieses Blogs ist David Smith, Head of GDPR Technology, SAS UK &Ireland.

Warum Big Data und Gebäudeanalysen nichts bringen:Teil 1 IIoT, Industrie 4.0 und Gabelstaplerfrei:Teil 2

Internet der Dinge-Technologie

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie