Der derzeitige Fokus auf KI-Hardware ist falsch, sagt KI-Pionier

„Es ist wirklich schwer, mit exotischer Hardware erfolgreich zu sein“, sagte Yann Le Cun, leitender KI-Wissenschaftler von Facebook, dem Publikum in seiner Keynote-Rede bei NeurIPS. Vor der globalen Versammlung von KI-Experten im Dezember in Vancouver, Kanada, hat Le Cun die Geschichte spezialisierter Computerchips für die Verarbeitung neuronaler Netzwerk-Workloads untersucht, einen Einblick in die Arbeit von Facebook gegeben und einige Vorhersagen für die Zukunft der Deep- Lernhardware.

Alte Geschichte

Le Cun ist ein renommierter Visionär auf dem Gebiet der KI, der in den 1980er und 1990er Jahren an der Spitze der Erforschung neuronaler Netze stand. Als Forscher bei Bell Labs in den späten 1980er Jahren arbeitete er mit den frühesten Typen dedizierter neuronaler Netzwerkprozessoren, die Widerstandsarrays umfassten und zur Durchführung von Matrixmultiplikationen verwendet wurden. Als neuronale Netze Ende der 1990er und Anfang der 2000er Jahre in Ungnade fielen, war Le Cun einer von wenigen Wissenschaftlern, die weiterhin auf diesem Gebiet arbeiteten. In seiner Keynote teilte er einige der Dinge, die er während dieser Zeit über Hardware für Deep Learning gelernt hat.

Facebook-Chef-KI-Wissenschaftler Yann Le Cun

Erstens sind Werkzeuge wirklich wichtig. Was neuronale Netze in den 90er Jahren (vorübergehend) tötete, war, dass nur wenige Menschen – einschließlich Le Cun – über Werkzeuge verfügten, um sie zu trainieren. Le Cun und seine Kollegen verbrachten viel Zeit damit, etwas aufzubauen, was man heute als Deep-Learning-Framework bezeichnen würde:eine flexible Software, die Front-End-Sprachen interpretiert und es den Forschern ermöglicht, neuronale Netze zu trainieren und mit ihnen zu experimentieren. Die Arbeit der Forscher hat das Konzept vorangetrieben, dass Deep-Learning-Systeme aus differenzierbaren Modulen zusammengesetzt und dann automatisch differenziert werden können. Zu dieser Zeit war dies neu, aber heute gängige Praxis.

Die richtigen Werkzeuge hätten dem Team von Le Cun seine „Superkraft“ gegeben und seien auch ein wichtiger Faktor für reproduzierbare Ergebnisse gewesen, sagte er. „Gute Ergebnisse reichen nicht aus … selbst wenn Sie gute Ergebnisse erzielen, werden die Leute immer noch skeptisch sein“, sagte er. „Diese Ergebnisse reproduzierbar zu machen ist fast so wichtig, wie die Ergebnisse überhaupt erst zu produzieren.“

Zusammen mit den richtigen Tools ist die Hardwareleistung für die Forschungsgemeinschaft von entscheidender Bedeutung, da Hardwarebeschränkungen ganze Forschungsrichtungen beeinflussen können, sagte Le Cun.

„[Was] die Hardware-Community für Forschung oder Ausbildung baut, beeinflusst tatsächlich die Ideen der Leute“, sagte er. „Ganze Ideen können aufgegeben werden, nur weil die Hardware nicht leistungsstark genug ist, obwohl es gute Ideen waren.“

Die Antwort liegt möglicherweise nicht in neuen und neuartigen Computerformen, sagte er und stellte fest, dass viele exotische Fertigungstechnologien nicht erfolgreich waren, wenn sie nicht in die vorhandene Computerumgebung passten.

Eine der Frustrationen von Le Cun bei den heutigen Hardwarelösungen für die KI-Beschleunigung besteht darin, dass die meisten für die Matrixmultiplikation und nicht für die Faltung entwickelt wurden, was die wichtigste mathematische Operation ist, die heute in den meisten neuronalen Netzwerken zur Bildverarbeitung und Spracherkennung verwendet wird. „[Der vorherrschende Ansatz] wird immer mehr falsch sein, in dem Sinne, dass wir immer größere Anforderungen an die Stromversorgung haben werden“, sagte er. „Wenn wir eine generische Hardware bauen, bei der 95 % der Zyklen für Faltungen verwendet werden, machen wir keinen guten Job.“

Killer-App

In der Zukunft, wie Le Cun es beschrieb, werden Convolutional Neural Networks (CNNs) in allem verwendet, von Spielzeug über Staubsauger bis hin zu medizinischen Geräten. Aber die Killer-App – die einzige Anwendung, die den Wert der KI für Verbrauchergeräte beweisen wird – ist das Augmented-Reality-Headset.

Facebook arbeitet derzeit an Hardware für AR-Brillen. Dies ist eine große Hardware-Herausforderung aufgrund des erforderlichen Verarbeitungsaufwands bei geringer Latenz, der nur mit Batterien betrieben wird. „Wenn Sie sich bewegen, sollten sich die überlagerten Objekte in der Welt mit der Welt bewegen, nicht mit Ihnen, und das erfordert einiges an Rechenaufwand“, sagte Le Cun.

Facebook stellt sich AR-Brillen vor, die per Sprache bedient werden und durch Gesten über Hand-Tracking in Echtzeit interagieren. Obwohl diese Funktionen heute möglich sind, übersteigen sie das, was wir in Bezug auf Stromverbrauch, Leistung und Formfaktor tun können. Le Cun hat ein paar „Tricks“ notiert, die helfen können.

Wenn zum Beispiel bei jedem Frame eines Videos dasselbe neuronale Netzwerk ausgeführt wird – vielleicht um Objekte zu erkennen – spielt es keine Rolle, ob das Ergebnis für einen Frame falsch ist, da wir die Frames davor und danach betrachten und auf Konsistenz prüfen können .

„Man könnte sich also vorstellen, extrem stromsparende Hardware zu verwenden, die nicht perfekt ist; Mit anderen Worten, man kann hin und wieder Bit-Flips [tolerieren]“, sagte Le Cun. „Das geht ganz einfach, indem man die Spannung des Netzteils senkt.“

Neural-Net-Entwicklungen

Die schnelle Entwicklung neuronaler Netze ist eine große Herausforderung für das Hardwaredesign. Dynamische Netzwerke – solche mit Gedächtnis, das trainiert werden kann, sequentielle oder zeitvariable Muster zu lernen – werden beispielsweise immer beliebter, insbesondere für die Verarbeitung natürlicher Sprache (NLP). Sie verhalten sich jedoch anders als viele Annahmen aktueller Hardware. Der Compute-Graph kann zur Kompilierzeit nicht optimiert werden; das muss zur Laufzeit gemacht werden. Es ist auch ziemlich schwierig, Batching zu implementieren, eine beliebte Technik, bei der mehr als eine Probe gleichzeitig verarbeitet wird, um die Leistung zu verbessern.

„Die gängige Hardware, die uns zur Verfügung steht, geht davon aus, dass Sie Batches können, denn wenn Sie einen Batch mit mehr als einem Sample haben, können Sie jede Operation in eine Matrixmultiplikation umwandeln, einschließlich Faltungen und vollständig verbundener Netze“, sagte Le Cun. „[Es] ist eine Herausforderung für die Hardware-Community, Architekturen zu schaffen, die durch die Verwendung von Batchgröße =1 nicht an Leistung verlieren. Das gilt natürlich für Schulungen; die optimale Chargengröße für das Training ist 1. Wir verwenden mehr, weil unsere Hardware uns dazu zwingt.“

Selbstüberwachtes Lernen

Eine weitere Herausforderung für die Hardware besteht darin, dass sich die Lernparadigmen, die wir derzeit verwenden, ändern werden, und dies wird laut Le Cun in Kürze geschehen.

„Es wird viel daran gearbeitet, Maschinen dazu zu bringen, mehr wie Menschen und Tiere zu lernen, und Menschen und Tiere lernen nicht durch überwachtes Lernen oder sogar durch verstärkendes Lernen“, sagte er. „Sie lernen durch etwas, das ich selbstüberwachtes Lernen nenne, das hauptsächlich durch Beobachtung geschieht.“

Le Cun beschrieb einen gängigen Ansatz für das selbstüberwachte Lernen, bei dem ein Teil der Stichprobe maskiert wird und das System trainiert wird, den Inhalt der maskierten Einheit basierend auf dem verfügbaren Teil der Stichprobe vorherzusagen. Dies wird häufig bei Bildern verwendet, bei denen ein Teil des Bildes entfernt wird, und bei Text, bei dem ein oder mehrere Wörter ausgeblendet sind. Die bisherige Arbeit hat gezeigt, dass es für NLP besonders effektiv ist; die Art der verwendeten Netze, Transformatoren, haben eine Trainingsphase, die selbstüberwachtes Lernen verwendet.

Das Problem aus Hardware-Sicht besteht darin, dass Transformatorennetzwerke für NLP enorm sein können:Die größten haben heute 5 Milliarden Parameter und wachsen schnell, sagte Le Cun. Die Netzwerke sind so groß, dass sie nicht in GPU-Speicher passen und in Stücke zerbrochen werden müssen.

„Selbstüberwachtes Lernen ist die Zukunft – keine Frage“, sagte er. „Aber das ist eine Herausforderung für die Hardware-Community, denn der Speicherbedarf ist absolut gigantisch. Da diese Systeme mit nicht gekennzeichneten Daten trainiert werden, was reichlich vorhanden ist, können wir sehr große Netzwerke in Bezug auf die Daten trainieren. Die Hardwareanforderungen für das endgültige System werden viel, viel größer sein, als sie es derzeit sind. Das Hardware-Rennen wird so schnell nicht aufhören.“

Hardwaretrends

Neue Hardware-Ideen, die Techniken wie Analog Computing, Spintronik und optische Systeme verwenden, sind auf dem Radar von Le Cun. Als großen Nachteil nannte er Kommunikationsschwierigkeiten – Probleme bei der Konvertierung von Signalen zwischen neuartiger Hardware und dem Rest der erforderlichen Computerinfrastruktur. Analoge Implementierungen seien darauf angewiesen, Aktivierungen äußerst spärlich zu gestalten, um Vorteile beim Energieverbrauch zu erzielen, und er stellte in Frage, ob dies immer möglich sein wird.

Le Cun bezeichnete sich selbst als „skeptisch“ gegenüber futuristischen neuen Ansätzen wie dem Spiking neuronaler Netze und dem neuromorphen Computing im Allgemeinen. Man muss beweisen, dass die Algorithmen funktionieren, bevor man Chips dafür baut, sagte er.

„Das Design solcher Systeme durch Hardware voranzutreiben und zu hoffen, dass jemand einen Algorithmus entwickelt, der diese Hardware verwendet, ist wahrscheinlich keine gute Idee“, sagte Le Cun.

Zeitleiste für die Verarbeitung neuronaler Netzwerke

Ende der 1980er :Widerstandsarrays werden verwendet, um eine Matrixmultiplikation durchzuführen. In den späten 1980er Jahren haben die Arrays Verstärker und Wandler um sich herum erhalten, sind aber nach heutigen Standards immer noch ziemlich primitiv. Die Einschränkung besteht darin, wie schnell Daten in den Chip eingespeist werden können.
1991 :Der erste Chip für Convolutional Neural Networks (CNNs) wird gebaut. Der Chip ist in der Lage, 320 Giga-Operationen pro Sekunde (GOPS) an Binärdaten durchzuführen, mit digitalen Schieberegistern, die die Menge an externem Datenverkehr minimieren, die für die Durchführung einer Faltung erforderlich ist, wodurch der Betrieb beschleunigt wird. Der Chip wird außerhalb der akademischen Welt nicht verwendet.
1992 :ANNA, ein ALU-Chip für ein analoges neuronales Netzwerk, wird debütiert. ANNA wurde für CNNs mit 6-Bit-Gewichtungen und 3-Bit-Aktivierungen entwickelt und enthält 180.000 Transistoren in 0,9-μm-CMOS. Es wird für die optische Zeichenerkennung von handgeschriebenem Text verwendet.
1996 :DIANA, eine digitale Version von ANNA, wird veröffentlicht. Aber da neuronale Netze Mitte der 1990er Jahre in Ungnade gefallen sind, wird DIANA schließlich für die Signalverarbeitung in Mobilfunkmasten umfunktioniert.
2009–2010 :Forscher demonstrieren einen Hardware-Neural-Network-Beschleuniger auf einem FPGA (den Xilinx Virtex 6). Es führt eine Demo für die semantische Segmentierung für automatisiertes Fahren durch und ist in der Lage, 150 GOPS bei etwa 0,5 W zu erreichen. Das Team von der Purdue University versucht, einen ASIC basierend auf dieser Arbeit zu erstellen, aber das Projekt erweist sich als erfolglos. (Quelle:Yann Le Cun/Facebook)

Digitale Autoschlüssel übernehmen die Authentifizierungsfunktion Sicherheitssuite dient zur Abwehr von IoT-Bedrohungen

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie