Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Industrial Internet of Things >> Eingebettet

Spezialisierte Prozessoren beschleunigen Endpoint-KI-Workloads

Während die Beschleunigung von KI- und ML-Anwendungen noch ein relativ neues Feld ist, gibt es eine Vielzahl von Prozessoren, die fast jede neuronale Netzwerkarbeitslast beschleunigen. Von den Prozessorgiganten bis hin zu einigen der neuesten Start-ups der Branche bieten alle etwas anderes – egal, ob es sich um verschiedene vertikale Märkte, Anwendungsbereiche, Leistungsbudgets oder Preisklassen handelt. Hier ist eine Momentaufnahme dessen, was heute auf dem Markt ist.

Anwendungsprozessoren

Intel Movidius Myriad X
Die Myriad X wurde von dem irischen Startup Movidius entwickelt, das 2016 von Intel gekauft wurde Deep Neural Network (DNN) berechnen. Die neuronale Compute-Engine ist direkt mit einer intelligenten Speicherstruktur mit hohem Durchsatz verbunden, um Speicherengpässe bei der Datenübertragung zu vermeiden. Es unterstützt FP16- und INT8-Berechnungen. Die Myriad X verfügt außerdem über einen Cluster von 16 proprietären SHAVE-Kernen und verbesserte und erweiterte Vision-Beschleuniger.

Das Myriad X ist in Intels Neural Compute Stick 2 verfügbar, quasi eine Evaluierungsplattform in Form eines USB-Sticks. Es kann an jede Workstation angeschlossen werden, damit KI- und Computer-Vision-Anwendungen sehr schnell auf der dedizierten Movidius-Hardware einsatzbereit sind.

NXP Semiconductors i.MX 8M Plus
Der i.MX 8M Plus ist ein heterogener Anwendungsprozessor mit dedizierter neuronaler Netzwerkbeschleuniger-IP von VeriSilicon (Vivante VIP8000). Es bietet 2,3 TOPS Beschleunigung für Inferenz in Endgeräten im Consumer- und Industrial Internet of Things (IIoT), genug für die Mehrfachobjektidentifikation, Spracherkennung von 40.000 Wörtern oder sogar medizinische Bildgebung (MobileNet v1 mit 500 Bildern pro Sekunde).

Neben dem neuronalen Netzwerkprozessor verfügt der i.MX 8M Plus auch über ein Quad-Core-Arm-Cortex-A53-Subsystem mit 2 GHz sowie ein Cortex-M7-Echtzeit-Subsystem.

Für Vision-Anwendungen gibt es zwei Bildsignalprozessoren, die zwei High-Definition-Kameras für Stereovision oder eine einzelne 12-Megapixel (MP)-Kamera unterstützen. Für Sprache enthält das Gerät einen 800-MHz-HiFi4-Audio-Digital-Signalprozessor (DSP) zur Vor- und Nachbearbeitung von Sprachdaten.

Der i.MX 8M Plus von NXP ist der erste Anwendungsprozessor des Unternehmens mit einem dedizierten neuronalen Netzwerkbeschleuniger. Es wurde für IoT-Anwendungen entwickelt. (Bild:NXP Semiconductors)

XMOS xcore.ai
xcore.ai wurde entwickelt, um die Sprachsteuerung in Anwendungen der künstlichen Intelligenz der Dinge (AIoT) zu ermöglichen. Als Crossover-Prozessor (mit der Leistung eines Anwendungsprozessors und dem stromsparenden Echtzeitbetrieb eines Mikrocontrollers) ist dieses Gerät für maschinelles Lernen von Inferenzen auf Sprachsignale ausgelegt.

Es basiert auf der proprietären Xcore-Architektur von XMOS, die selbst auf Bausteinen basiert, die als logische Kerne bezeichnet werden und entweder für I/O, DSP, Steuerfunktionen oder KI-Beschleunigung verwendet werden können. Auf jedem xcore.ai-Chip befinden sich 16 dieser Kerne, und Designer können wählen, wie viele sie jeder Funktion zuweisen. Die Zuordnung verschiedener Funktionen zu den logischen Kernen in der Firmware ermöglicht die Erstellung eines „virtuellen SoC“, der vollständig in Software geschrieben ist. XMOS hat dem Xcore eine Vektor-Pipeline-Funktion für maschinelles Lernen hinzugefügt.

xcore.ai unterstützt 32-Bit-, 16-Bit-, 8-Bit- und 1-Bit-Netzwerke (binarisiert) und liefert 3.200 MIPS, 51,2 GMACCs und 1.600 MFLOPS. Es verfügt über 1 MByte eingebetteten SRAM sowie eine stromsparende DDR-Schnittstelle zur Erweiterung.

xcore.ai von XMOS basiert auf einer proprietären Architektur und wurde speziell für KI-Workloads in Sprachverarbeitungsanwendungen entwickelt. (Bild:XMOS)

Automotive SoC

Texas Instruments Inc. TDA4VM
Als Teil der Jacinto 7-Serie für Automotive Advanced Driver-Assistance Systems (ADAS) ist der TDA4VM das erste System-on-Chip (SoC) von TI mit einem dedizierten Deep-Learning-Beschleuniger auf dem Chip. Dieser Block basiert auf dem C7x DSP plus einem eigens entwickelten Matrix Multiply Accelerator (MMA), der 8 TOPS erreichen kann.

Der SoC kann einen Videostream einer Frontkamera mit bis zu 8 MP oder einer Kombination aus vier bis sechs 3-MP-Kameras plus Radar-, LiDAR- und Ultraschallsensoren verarbeiten. Die MMA könnte verwendet werden, um beispielsweise eine Sensorfusion an diesen Eingaben in einem automatisierten Parkservice-System durchzuführen. Der TDA4VM ist für ADAS-Systeme zwischen 5 und 20 W ausgelegt.

Das Gerät befindet sich noch in der Vorproduktion, aber Entwicklungskits sind jetzt verfügbar.

Der TI TDA4VM ist für komplexe Fahrzeug-ADAS-Systeme gedacht, die es Fahrzeugen ermöglichen, ihre Umgebung wahrzunehmen. (Bild:Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
Nvidias bekannter Jetson Nano ist ein kleines, aber leistungsstarkes Grafikprozessormodul (GPU) für KI-Anwendungen in Endgeräten. Die GPU des Nano-Moduls basiert auf der gleichen Maxwell-Architektur wie größere Mitglieder der Jetson-Familie (AGX Xavier und TX2), verfügt über 128 Kerne und ist in der Lage, 0,5 TFLOPS zu erreichen, genug, um mehrere neuronale Netzwerke mit mehreren Datenströmen von Bildsensoren mit Auflösung, so das Unternehmen. Im Betrieb verbraucht er nur 5 W. Das Modul verfügt außerdem über eine Quad-Core-Arm-Cortex-A57-CPU.

Wie andere Teile im Nvidia-Sortiment verwendet der Jetson Nano CUDA X, Nvidias Sammlung von Beschleunigungsbibliotheken für neuronale Netze. Günstige Jetson Nano-Entwicklungskits sind überall erhältlich.

Nvidias Jetson Nano-Modul enthält eine leistungsstarke GPU mit 128 Kernen für KI am Edge. (Bild:Nvidia Corp.)

Consumer-Co-Prozessoren

Kneron Inc. KL520
Das erste Angebot des amerikanisch-taiwanesischen Startups Kneron ist der neuronale Netzwerkprozessor KL520, der für die Bildverarbeitung und Gesichtserkennung in Anwendungen wie Smart Homes, Sicherheitssystemen und mobilen Geräten entwickelt wurde. Es ist für den Betrieb von Convolutional Neural Networks (CNNs) optimiert, dem Typ, der heute in der Bildverarbeitung häufig verwendet wird.

Der KL520 kann 0,3 TOPS ausführen und verbraucht 0,5 W (entspricht 0,6 TOPS/W), was nach Angaben des Unternehmens für eine genaue Gesichtserkennung ausreicht, da die MAC-Effizienz des Chips hoch ist (über 90%). Die Chiparchitektur ist rekonfigurierbar und kann auf verschiedene CNN-Modelle zugeschnitten werden. Der komplementäre Compiler des Unternehmens verwendet auch Komprimierungstechniken, um größere Modelle innerhalb der Ressourcen des Chips auszuführen, um Strom und Kosten zu sparen.

Die KL520 ist ab sofort verfügbar und auch auf einer Beschleunigerkarte des Herstellers AAEON (der M2AI-2280-520) zu finden.

Knerons KL520 verwendet eine rekonfigurierbare Architektur und eine clevere Komprimierung, um die Bildverarbeitung in Mobil- und Verbrauchergeräten auszuführen. (Bild:Kneron Inc.)

Gerfalke Lightspeeur 5801
Der Lightspeeur 5801 von Gyrfalcon wurde für den Unterhaltungselektronikmarkt entwickelt und bietet 2,8 TOPS bei 224 mW Stromverbrauch (entspricht 12,6 TOPS/W) mit 4 ms Latenz. Das Unternehmen verwendet eine Prozessor-in-Memory-Technik, die im Vergleich zu anderen Architekturen besonders energieeffizient ist. Der Stromverbrauch kann tatsächlich mit der Taktrate verrechnet werden, indem die Taktrate zwischen 50 und 200 MHz variiert wird. Lightspeeur 5801 enthält 10 MB Speicher, sodass ganze Modelle auf den Chip passen.

Dieser Teil ist der vierte Produktionschip des Unternehmens und ist bereits in LGs Mittelklasse-Smartphone Q70 zu finden, wo er die Inferenz für Kameraeffekte übernimmt. Ein USB-Stick-Entwicklungskit, der 5801 Plai Plug, ist ab sofort erhältlich.

Ultra-low-power

Eta Compute ECM3532
Das erste Produktionsprodukt von Eta Compute, der ECM3532, wurde für die KI-Beschleunigung in batteriebetriebenen oder energiesparenden Designs für das IoT entwickelt. Always-on-Anwendungen in der Bildverarbeitung und Sensorfusion können mit einem Leistungsbudget von nur 100 µW realisiert werden.

Der Chip hat zwei Kerne – einen Arm Cortex-M3-Mikrocontroller-Kern und einen NXP CoolFlux DSP. Das Unternehmen verwendet eine proprietäre Spannungs- und Frequenzskalierungstechnik, die jeden Taktzyklus anpasst, um den letzten Leistungsabfall aus beiden Kernen herauszuholen. Workloads für maschinelles Lernen können von beiden Kernen verarbeitet werden (einige Voice-Workloads sind beispielsweise besser für den DSP geeignet).

Muster des ECM3532 sind ab sofort verfügbar und die Massenproduktion wird voraussichtlich im zweiten Quartal 2020 beginnen.

Syntiant Corp. NDP100
Der NDP100-Prozessor des US-amerikanischen Startups Syntiant wurde für maschinelles Lernen von Inferenzen auf Sprachbefehle in Anwendungen entwickelt, in denen die Stromversorgung knapp ist. Sein Prozessor-in-Memory-basiertes Silizium verbraucht weniger als 140 µW Wirkleistung und kann Modelle für die Schlüsselworterkennung, die Erkennung von Weckwörtern, die Sprecheridentifikation oder die Ereignisklassifizierung ausführen. Das Unternehmen sagt, dass dieses Produkt verwendet wird, um den freihändigen Betrieb von Verbrauchergeräten wie Ohrhörern, Hörgeräten, Smartwatches und Fernbedienungen zu ermöglichen. Entwicklungskits sind jetzt verfügbar.

Das NDP100-Gerät von Syntiant wurde für die Sprachverarbeitung in Anwendungen mit extrem geringem Stromverbrauch entwickelt. (Bild:Syntiant Corp.)

GreenWaves-Technologien GAP9
GAP9, der erste Ultra-Low-Power-Anwendungsprozessor des französischen Startups GreenWaves, verfügt über einen leistungsstarken Compute-Cluster mit neun RISC-V-Kernen, deren Befehlssatz stark angepasst wurde, um den Stromverbrauch zu optimieren. Es verfügt über bidirektionale Mehrkanal-Audio-Interfaces und 1,6 MB internen RAM.

GAP9 kann neuronale Netzwerk-Workloads für Bilder, Töne und Vibrationserkennung in batteriebetriebenen IoT-Geräten verarbeiten. Die Zahlen von GreenWaves haben GAP9 mit MobileNet V1 auf 160 × 160 Bildern, mit einer Kanalskalierung von 0,25 in nur 12 ms und mit einem Stromverbrauch von 806 μW/Frame/Sekunde.


Eingebettet

  1. Andere Spezialmotoren
  2. Renesas hebt Endpunktintelligenz auf der Embedded World 2019 hervor
  3. CEVA:KI-Prozessor der zweiten Generation für tiefe neuronale Netzwerk-Workloads
  4. MCUs zielen auf sichere IoT-Endpunkt- und Edge-Designs ab
  5. Verbesserte Technologien beschleunigen die Akzeptanz von Sprachassistenten
  6. Multicore-Prozessor integriert neuronale Verarbeitungseinheit
  7. Prozessoren befassen sich mit der Konvergenz von IoT und KI
  8. Low-Power-Radarchip verwendet neuronale Spiking-Netzwerke
  9. Referenzdesign unterstützt speicherintensive KI-Workloads
  10. Edge-KI-Lösung basiert auf neuronalen Prozessoren und ML-Entwicklungsplattform