Kameras lernen und verstehen, was sie sehen
Robotiker und Forscher der künstlichen Intelligenz (KI) wissen, dass es ein Problem gibt, wie aktuelle Systeme die Welt erfassen und verarbeiten. Derzeit kombinieren sie noch Sensoren – wie Digitalkameras, die für die Aufzeichnung von Bildern entwickelt wurden – mit Computergeräten wie Grafikprozessoren (GPUs), die zur Beschleunigung von Grafiken für Videospiele entwickelt wurden.
Das bedeutet, dass KI-Systeme die Welt erst wahrnehmen, nachdem sie visuelle Informationen zwischen Sensoren und Prozessoren aufgezeichnet und übertragen haben. Aber viele Dinge, die zu sehen sind, sind für die anstehende Aufgabe oft irrelevant, wie zum Beispiel das Detail von Blättern an Straßenbäumen, wenn ein autonomes Auto vorbeifährt. Im Moment werden all diese Informationen akribisch von Sensoren erfasst und gesendet, wodurch das System mit irrelevanten Daten verstopft wird, die Strom verbrauchen und Verarbeitungszeit in Anspruch nehmen.
Forscher haben sich von der Art und Weise inspirieren lassen, wie natürliche Systeme die visuelle Welt verarbeiten – die Augen und das Gehirn eines Menschen arbeiten zusammen, um der Welt einen Sinn zu geben, und in einigen Fällen führen die Augen selbst eine Verarbeitung durch, um dem Gehirn zu helfen, das zu reduzieren, was nicht relevant ist. Die Forscher implementierten Convolutional Neural Networks (CNNs), eine Art KI-Algorithmus zur Ermöglichung des visuellen Verständnisses, direkt auf der Bildebene. Die CNNs können Frames Tausende Male pro Sekunde klassifizieren, ohne diese Bilder jemals aufzeichnen oder durch die Verarbeitungspipeline senden zu müssen. Die Forscher erwogen Demonstrationen zur Klassifizierung von handschriftlichen Zahlen, Handgesten und sogar Plankton.
Die Forschung deutet auf eine Zukunft mit intelligenten, dedizierten KI-Kameras hin – visuelle Systeme, die einfach hochrangige Informationen an den Rest des Systems senden können, wie z. B. die Art des Objekts oder Ereignisses, das vor der Kamera stattfindet. Dieser Ansatz würde die Systeme wesentlich effizienter und sicherer machen, da keine Bilder aufgezeichnet werden müssen.
Die Arbeit beinhaltet SCAMP, einen Kameraprozessorchip, den das Team als Pixel Processor Array (PPA) bezeichnet. Ein PPA hat einen in jedes Pixel eingebetteten Prozessor, der miteinander kommunizieren kann, um in wirklich paralleler Form zu verarbeiten. Dies ist ideal für CNNs und Bildverarbeitungsalgorithmen.
Die Integration von Sensorik, Verarbeitung und Speicher auf Pixelebene ermöglicht nicht nur leistungsstarke Systeme mit geringer Latenz, sondern verspricht auch hocheffiziente Hardware mit geringem Stromverbrauch. SCAMP-Geräte können mit ähnlichen Footprints wie aktuelle Kamerasensoren implementiert werden, aber mit der Fähigkeit, einen universellen, massiv parallelen Prozessor direkt am Punkt der Bilderfassung zu haben.
Sensor
- Was sind Technopolymere und wofür werden sie verwendet?
- Was sind Flachfedern und wie funktionieren sie?
- Was sind Sicherungsscheiben und wie funktionieren sie?
- CMMS-Fehlercodes:Was sind das und wie sollten sie verwendet werden?
- Was sind CNC-Maschinen und wie funktionieren sie?
- Was E/A-Karten sind und wie sie funktionieren
- Die vielen Arten von Polyurethan und wofür sie verwendet werden
- Was sind Vorrichtungen und Vorrichtungen?
- Was sind Kühlkörper und wie werden sie hergestellt?
- Was sind Trommelbremsen und wie funktionieren sie?