Hardwarebeschleuniger bedienen KI-Anwendungen

Hardwarebeschleuniger – spezialisierte Geräte, die zur Ausführung bestimmter Aufgaben wie der Klassifizierung von Objekten verwendet werden – werden zunehmend in System-on-Chips (SoCs) eingebettet, die verschiedene KI-Anwendungen bedienen. Sie helfen dabei, eng integrierte benutzerdefinierte Prozessoren zu erstellen, die weniger Strom, geringere Latenz, Datenwiederverwendung und Datenlokalität bieten.

Zunächst müssen die KI-Algorithmen hardwarebeschleunigt werden. KI-Beschleuniger wurden speziell entwickelt, um eine schnellere Verarbeitung von KI-Aufgaben zu ermöglichen; Sie führen bestimmte Aufgaben auf eine Weise aus, die mit herkömmlichen Prozessoren nicht möglich ist.

Darüber hinaus kann kein einzelner Prozessor die vielfältigen Anforderungen von KI-Anwendungen erfüllen, und hier bieten in KI-Chips integrierte Hardwarebeschleuniger Leistungs-, Energieeffizienz- und Latenzvorteile für bestimmte Workloads. Aus diesem Grund fordern die benutzerdefinierten Architekturen auf Basis von KI-Beschleunigern die Verwendung von CPUs und GPUs für KI-Anwendungen heraus.

KI-Chipdesigner müssen bestimmen, was beschleunigt werden soll, wie sie beschleunigt werden und wie diese Funktionalität mit dem neuronalen Netz verbunden wird. Nachfolgend finden Sie eine Momentaufnahme der wichtigsten Branchentrends, die den Einsatz von Hardwarebeschleunigern bei sich entwickelnden KI-Workloads definieren. Es beginnt unweigerlich mit KI-Beschleunigern, die für die Integration in eine Vielzahl von KI-Chips und -Karten verfügbar sind.

KI-Beschleuniger-IPs

Hardwarebeschleuniger werden häufig in KI-Chips verwendet, um datenintensive Aufgaben wie Computer Vision und Deep Learning sowohl für Trainings- als auch für Inferenzanwendungen zu segmentieren und zu beschleunigen. Diese KI-Kerne beschleunigen die neuronalen Netze auf KI-Frameworks wie Caffe, PyTorch und TensorFlow.

Gyrfalcon Technology Inc. (GTI) entwickelt KI-Chips und bietet KI-Beschleuniger für den Einsatz in benutzerdefinierten SoC-Designs über ein IP-Lizenzmodell. Der KI-Neuling aus Milpitas, Kalifornien, bietet die KI-Beschleuniger Lightspeeur 2801 und 2803 für Edge- bzw. Cloud-Anwendungen an.

Es ist wichtig anzumerken, dass Gyrfalcon auch KI-Chips um diese Hardwarebeschleuniger herum entwickelt hat, und das macht diese KI-Beschleuniger-IPs siliziumerprobt. Der KI-Chip 2801 des Unternehmens für Edge-Designs leistet 9,3 Tera-Operationen pro Sekunde pro Watt (TOPS/W), während sein 2803-KI-Chip für Rechenzentrumsanwendungen 24 TOPS/W liefern kann.

Zusammen mit IP-Entwicklungstools und technischer Dokumentation bietet Gyrfalcon KI-Designern USB 3.0-Dongles für die Modellerstellung, Chipbewertung und Proof-of-Concept-Designs. Lizenznehmer können diese Dongles auf Windows- und Linux-PCs sowie auf Hardware-Entwicklungskits wie Raspberry Pi verwenden.

Hardwarearchitektur

Die Grundprämisse von KI-Beschleunigern besteht darin, Algorithmen schneller als je zuvor zu verarbeiten und dabei so wenig Strom wie möglich zu verbrauchen. Sie beschleunigen am Edge, im Rechenzentrum oder irgendwo dazwischen. Und KI-Beschleuniger können diese Aufgaben in ASICs, GPUs, FPGAs, DSPs oder einer Hybridversion dieser Geräte ausführen.

Dies führt unweigerlich zu mehreren Hardware-Beschleunigerarchitekturen, die für Machine Learning (ML), Deep Learning, Natural Language Processing und andere KI-Workloads optimiert sind. Zum Beispiel sind einige ASICs für die Ausführung in tiefen neuronalen Netzen (DNNs) ausgelegt, die wiederum auf einer GPU oder einem anderen ASIC hätten trainiert werden können.

Was die KI-Beschleunigerarchitektur entscheidend macht, ist die Tatsache, dass KI-Aufgaben massiv parallel sein können. Darüber hinaus ist das Design des KI-Beschleunigers mit der Multi-Core-Implementierung verflochten, was die kritische Bedeutung der KI-Beschleunigerarchitektur unterstreicht.

Als nächstes zerschneiden die KI-Designs die Algorithmen immer feiner, indem immer mehr Beschleuniger hinzugefügt werden, die speziell entwickelt wurden, um die Effizienz des neuronalen Netzes zu erhöhen. Je spezifischer der Anwendungsfall ist, desto mehr Möglichkeiten bieten sich für den granularen Einsatz vieler Arten von Hardwarebeschleunigern.

Hier ist zu erwähnen, dass neben KI-Beschleunigern, die in benutzerdefinierten Chips integriert sind, auch Beschleunigerkarten zur Leistungssteigerung und Reduzierung der Latenz in Cloud-Servern und On-Premise-Rechenzentren eingesetzt werden. Die Alveo-Beschleunigerkarten von Xilinx Inc. können beispielsweise Datenbanksuche, Videoverarbeitung und Datenanalyse im Vergleich zu CPUs radikal beschleunigen (Abb. 1 ).

Abb. 1:Die Alveo U250-Beschleunigerkarten erhöhen den Echtzeit-Inferenzdurchsatz im Vergleich zu High-End-CPUs um das 20-fache und reduzieren die Latenz unter 2 ms um mehr als das 4-fache im Vergleich zu Beschleunigern mit fester Funktion wie High-End-GPUs. (Bild:Xilinx Inc.)

Programmierbarkeit

Es gibt viele dynamische Veränderungen in KI-Designs, und als Ergebnis ändern sich Softwarealgorithmen schneller, als KI-Chips entworfen und hergestellt werden können. Dies unterstreicht eine zentrale Herausforderung für Hardwarebeschleuniger, die in solchen Fällen zu Geräten mit fester Funktion werden.

Es muss also eine Art Programmierbarkeit in Beschleunigern geben, die es Designern ermöglicht, sich an sich entwickelnde Bedürfnisse anzupassen. Die Designflexibilität, die mit Programmierbarkeitsfunktionen einhergeht, ermöglicht es Designern auch, eine Vielzahl von KI-Workloads und neuronalen Netztopologien zu handhaben.

Intel Corp. hat diesen Ruf nach Programmierbarkeit in KI-Designs durch die Übernahme eines in Israel ansässigen Entwicklers von programmierbaren Deep-Learning-Beschleunigern für etwa 2 Milliarden US-Dollar beantwortet. Der Gaudi-Prozessor von Habana für das Training und der Goya-Prozessor für die Inferenz bieten eine einfach zu programmierende Entwicklungsumgebung (Abb. 2 ).

Abb. 2:So beschleunigen Entwicklungsplattformen und Tools das Design von KI-Chips mit den Trainingsbeschleunigern von Gaudi. (Bild:Habana)

KI am Rand

Inzwischen ist offensichtlich, dass der Markt für KI-Inferenz viel größer ist als KI-Training. Aus diesem Grund erlebt die Branche, wie eine Vielzahl von Chips für eine Vielzahl von KI-Workloads optimiert wird, von Training bis Inferencing.

Damit kommen Mikrocontroller (MCUs) in den Bereich des KI-Designs, der sonst meist mit leistungsstarken SoCs in Verbindung gebracht wird. Diese MCUs enthalten KI-Beschleuniger, um ressourcenbeschränkte Industrie- und IoT-Edge-Geräte in Anwendungen wie Objekterkennung, Gesichts- und Gestenerkennung, Verarbeitung natürlicher Sprache und vorausschauender Wartung zu bedienen.

Nehmen Sie den Ethos U-55 microNPU ML-Beschleuniger von Arm, den NXP Semiconductors in seine Cortex-M-basierten Mikrocontroller, Crossover-MCUs und Echtzeit-Subsysteme in Anwendungsprozessoren integriert. Der Ethos U-55-Beschleuniger arbeitet mit dem Cortex-M-Kern zusammen, um einen geringen Platzbedarf zu erzielen. Seine fortschrittlichen Komprimierungstechniken sparen Energie und reduzieren die Größe von ML-Modellen erheblich, um die Ausführung neuronaler Netze zu ermöglichen, die zuvor nur auf größeren Systemen liefen.

Die eIQ ML-Entwicklungsumgebung von NXP bietet KI-Designern eine Auswahl an Open-Source-Inferenz-Engines. Abhängig von den spezifischen Anwendungsanforderungen können diese KI-Beschleuniger in eine Vielzahl von Rechenelementen integriert werden:CPUs, GPUs, DSPs und NPUs.

Neue Mikrochip-MCU fügt sicheren Boot-Schutz vor externem Flash hinzu Entwicklungsboards vereinfachen die sichere IoT-Cloud-Konnektivität

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie