SonicSense:Ermöglicht Robotern, wie Menschen zuzuhören, für eine intelligentere Interaktion

Neue Forschungsergebnisse der Duke University beschreiben ein System namens SonicSense, das es Robotern ermöglicht, mit ihrer Umgebung auf eine Weise zu interagieren, die bisher nur Menschen vorbehalten war.

„Heutzutage verlassen sich Roboter hauptsächlich auf das Sehvermögen, um die Welt zu interpretieren“, erklärte Hauptautor Jiaxun Liu, Doktorand im ersten Jahr. Student im Labor von Boyuan Chen, Professor für Maschinenbau und Materialwissenschaften an der Duke. „Wir wollten eine Lösung schaffen, die mit komplexen und vielfältigen Objekten des täglichen Bedarfs funktioniert und Robotern eine viel umfassendere Fähigkeit verleiht, die Welt zu ‚fühlen‘ und zu verstehen.“

SonicSense verfügt über eine Roboterhand mit vier Fingern, die jeweils mit einem in die Fingerspitze eingebetteten Kontaktmikrofon ausgestattet sind. Diese Sensoren erkennen und zeichnen Vibrationen auf, die entstehen, wenn der Roboter auf ein Objekt tippt, es ergreift oder schüttelt. Und da die Mikrofone Kontakt mit dem Objekt haben, kann der Roboter Umgebungsgeräusche ausblenden.

Basierend auf den Interaktionen und erkannten Signalen extrahiert SonicSense Frequenzmerkmale und nutzt sein Vorwissen, gepaart mit jüngsten Fortschritten in der KI, um herauszufinden, aus welchem Material das Objekt besteht und welche 3D-Form es hat. Wenn es sich um ein Objekt handelt, das das System noch nie zuvor gesehen hat, sind möglicherweise 20 verschiedene Interaktionen erforderlich, bis das System zu einer Schlussfolgerung kommt. Wenn es sich jedoch um ein Objekt handelt, das sich bereits in der Datenbank befindet, kann es in nur vier Minuten korrekt identifiziert werden.

Hier ist ein exklusiver Tech Briefs Interview, aus Gründen der Länge und Klarheit bearbeitet, mit Chen.

Technische Kurzinformationen :Was war die größte technische Herausforderung für Sie bei der Entwicklung von SonicSense?

Chen :Ich denke, das erste ist, dass es wirklich keine umfassenden Studien zur Nutzung akustischer Vibrationen für die Roboterwahrnehmung gibt. Die meisten bisherigen Arbeiten wurden mit einem Finger durchgeführt oder waren sehr vorläufig. Aber es ist keine leichte Aufgabe, dies auf eine echte Roboterhand zu übertragen und mit einer Vielzahl möglicher Objekte interagieren zu können.

Technische Kurzinformationen :Wie kam es zu diesem Projekt? Was war der Auslöser für Ihre Arbeit?

Chen :Das ist eine sehr interessante Geschichte. Teil eins meiner Arbeit hieß Boombox, das war während COVID. Ich dachte, ich möchte an Robotern und Vision arbeiten. Deshalb war ich bereits vor ein paar Jahren daran interessiert, akustische Schwingungen in die Sensorik einzubringen, da wir häufig akustische Schallschwingungen verwenden.

In den Neurowissenschaften verfügt die menschliche Haut über Vibrationsneuronen. Also habe ich über diese Dinge gelesen und darüber nachgedacht, wie wir das auf Roboter übertragen können. Aber während COVID hatte ich keinen Zugang zu Robotern. Ich habe meinen Ph.D. gemacht. an der Columbia, also lebte ich in einem kleinen Wohnheim in New York City, aber ich wollte unbedingt diese Forschung betreiben. Eines Tages hatte ich eine zufällige Idee:„Was kann ich ohne Roboter tun, um zu zeigen, dass dies hilfreich ist?

Ich hatte einen Spielzeugkorb in meinem Zimmer. Indem ich zufällig Gegenstände hineinwarf, wurde mir klar:„Hey, ich muss diesen Gegenstand holen, aber ich weiß nicht, wo er ist.“ Welchen Gegenstand habe ich hineingeworfen?‘ Das war eine perfekte Forschungsfrage.

Ich begann mit drei verschiedenen Holzkisten mit unterschiedlichen Formen und warf sie in den Mülleimer. Ich habe ein KI-System trainiert, das die Form des Objekts vorhersagte, das ich hineingeworfen hatte, und wo das Objekt landete, nachdem ich es geworfen hatte, weil ich es nicht sehen konnte. Das war also das Projekt.

Die Idee war im Grunde, dass man vier Kontaktmikrofone hat. Sie befestigen sie rund um die Wand des Behälters. Sie nehmen nur akustische Schwingungen von den vier Mikrofonkanälen auf. Ich habe Mikrofone verwendet, mit denen man den Ton einer Gitarre aufnimmt. Ich habe sie auf den Behälter geklebt und ein System trainiert, das vom Ton bis zur Vorhersage dieser 3D-Operation reicht. Und das war der Beginn dieses Projekts.

Dann wollte ich das natürlich für Roboter machen. Das war sozusagen der Geburtsort von SonicSense.

Technische Kurzinformationen :Können Sie in einfachen Worten erklären, wie es funktioniert?

Chen :Es handelt sich um ein integriertes Hardware- und Softwaresystem. Der Hardwareteil verfügt über einen Robotergreifer mit vier Fingern, und in jede Fingerspitze ist ein Kontaktmikrofon eingebettet. Dieses Kontaktmikrofon erkennt nicht, was wir sagen, aber es erkennt die Vibrationen des physischen Kontakts.

Die Softwareseite ermöglicht es dem Roboter grundsätzlich, Umgebungen autonom zu exportieren, indem er einfach mit einem Behälter auf ein Objekt tippt oder es greift und schüttelt. Die Software sammelt die Signale der vier Kontaktmikrofone und die Motorsignale zusammen.

Wir trainieren ein Netzwerk künstlicher Intelligenz, um Dinge vorherzusagen wie „Wie viele Würfel haben Sie in einem Behälter?“ Wie viele Kanten hat dieser Würfel? Wie viel Flüssigkeit ist in dieser Wasserflasche? Wie viel füllen Sie in einen anderen Behälter?‘

Technische Kurzinformationen :Was sind Ihre nächsten Schritte?

Chen :Wir prüfen ein paar neue Ideen, zunächst einmal im Hinblick darauf, welche anderen Sensormodalitäten wir benötigen, um eine Manipulationsgeschicklichkeit auf menschlicher Ebene zu erreichen. Aber noch mehr für umfassendere Inhalte zur Robotik, nicht nur zur Manipulation. Aber auch für Fortbewegung, Navigation und alles. Gibt es andere Erfassungsmodalitäten, die wir brauchen? Daher ist die Erforschung neuartiger Modalitäten, die es Robotern ermöglichen oder ihnen ermöglichen können, Fähigkeiten zu erlangen, über die selbst Menschen oder Tiere nicht verfügen, eine Richtung.

Eine andere Richtung, die wir betrachten, sind andere Modalitäten, die wir bereits bei Robotern haben. Zum Beispiel Vision – und wie verschmelzen wir alle Modalitäten, um ein kohärentes Verständnis der Welt statt nur einer Perspektive zu erhalten? So kommen viele Sinnesmodalitäten zusammen und erlernen ein einheitliches Verständnis.

Eine dritte Richtung, die wir in Betracht ziehen, besteht darin, dies auf die echten menschlichen Vektoren der Manipulationsfähigkeit zu übertragen – das aktuelle Design ist weitgehend ein Prototyp. Wir wollen dies erreichen, indem wir sowohl die Morphologie als auch die Wahrnehmungsfähigkeit der Hand auf einen viel größeren Maßstab skalieren. Das bedeutet, viele Sensoren an einer viel menschlicheren Hand anzubringen und die Fähigkeit zur geschickten Manipulation wirklich zu demonstrieren. Im Moment beschäftigen wir uns nur mit der Wahrnehmung von Objekten, aber wir möchten in der Lage sein, Objekte mit viel fortgeschritteneren Fähigkeiten zu manipulieren.

Transkript

00:00:00 Wir haben Sonic Sense eingeführt, ein integriertes Hardware- und Software-Framework, um die akustische Vibrationserkennung für die Objektwahrnehmung von Rich-Robotern zu ermöglichen. Jüngste Arbeiten haben die akustische Vibrationserkennung für die Objektmaterial- und Kategorieklassifizierungspositionsvorhersage genutzt, um die Menge und den Fluss von körnigem Material abzuschätzen und gemeinsam eine räumliche Objektbeurteilung für

durchzuführen

00:00:23 Visuelle Rekonstruktion. Frühere Arbeiten konzentrierten sich jedoch auf eine kleine Anzahl primitiver Objekte mit homogener Materialzusammensetzung und beschränkten die Einstellungen für die Datenerfassung und Einzelfingertests. Daher ist nicht klar, ob die akustische Schwingungserfassung für die Objektwahrnehmung unter lauten und weniger kontrollierten Bedingungen hilfreich sein kann.

00:00:44 präsentiert Sonic Sense ein ganzheitliches Design sowohl bei der Hardware als auch beim Algorithmus. Weiterentwicklungen für die Objektwahrnehmung durch verbesserte akustische Vibrationserkennung. Unsere Roboterhand hat vier Finger. Ein elektrisches Kontaktmikrofon ist in jede Fingerspitze eingebettet und um ein Gegengewicht herum ist auf der Außenhüllenoberfläche montiert, um den Impuls der Fingerbewegung zu erhöhen. Unser intuitives mechanisches Design

00:01:07 ermöglicht eine Reihe interaktiver Bewegungsprimitive für die Objektwahrnehmung, einschließlich Klopfen, Greifen und Schütteln. Das eingebettete Kontaktmikrofon ist in der Lage, hochfrequente akustische Vibrationen zu sammeln, die durch den Kontakt zwischen Objektobjekten oder Objekthandinteraktionen entstehen. Unser Roboter kann daraus die Geometrie und den Inventarstatus verschiedener Objekte in einem Behälter ableiten.

00:01:31 Ihre einzigartigen akustischen Schwingungssignaturen während Interaktionen. Wir leiten 12 interpretierbare Merkmale auf der Grundlage traditioneller akustischer Signalverarbeitungsmethoden ab, um die Unterscheidung dieser unterschiedlichen akustischen Schwingungssignaturen zu unterstützen. Wir führten mit tne eine unbeaufsichtigte nichtlineare Dimensionsreduktion an diesem 12-dimensionalen Merkmalsvektor durch, indem wir den Behälter schüttelten, den unser Roboter bewegen kann

00:01:54 Wir können beim Eingießen von Wasser in die von unserem Roboter gehaltene Flasche erfolgreich eine unterschiedliche Anzahl von Würfeln oder Würfel mit unterschiedlichen Formen im Behälter unterscheiden. Wir können die subtilen Unterschiede in den akustischen Signaturen erkennen, die auf unterschiedlichen vorhandenen Wassermengen in der Flasche basieren. Unser Roboter kann auch unterschiedliche Wassermengen in der Flasche erkennen, wenn er sie stärker schüttelt.

00:02:15 Herausfordernde Objektwahrnehmungsaufgaben. Wir haben einen Datensatz mit 83 verschiedenen realen Objekten entwickelt. Unsere Objekte decken neun Materialkategorien und eine Vielzahl von Geometrien ab, von einfachen Primitiven bis hin zu komplexen Formen. Im Gegensatz zu früheren Arbeiten, bei denen Menschen die Hand des Roboters manuell halten, um mit Objekten zu interagieren, oder feste Interaktionshaltungen und -kräfte für die Wiedergabe entwerfen, leiten wir ein einfaches, aber effektives

00:02:40 Heuristikbasierte Interaktionsrichtlinie zur autonomen Erfassung der akustischen Vibrationsreaktion von Objekten. Unsere Richtlinie funktioniert gut für alle unsere realen Objekte mit variablen Größen und Geometrien. Wir haben ein Materialklassifizierungsmodell trainiert, das das Mel-Spektrogramm unseres gesammelten akustischen Vibrationssignals aus dem Aufprallgeräusch aufnimmt und lernt, die

vorherzusagen

00:03:02 Materialbezeichnung Das Netzwerk hat die Form von drei Schichten eines Faltungs-Neuronalen Netzwerks, gefolgt von zwei MLP-Schichten. Das erste Ergebnis unserer Methode führt zu einem F1-Wert von 0,523. Wir haben jedoch beobachtet, dass Objektmaterialien in lokalen Regionen relativ gleichmäßig und glatt sind. Basierend auf dieser Annahme können wir unsere Vorhersage iterativ verfeinern und unseren endgültigen Durchschnitts-F1 ermitteln

00:03:25 Die Punktzahl erreicht 0,763. Unser Shape-Recon-Konstruktionsmodell verwendet die spärlichen und verrauschten Kontaktpunkte, um eine dichte und vollständige 3D-Form des Objekts zu erzeugen. Wir stapeln zwei spitze Schichten, um die Eingabe zu kodieren, und geben dann den globalen Merkmalsvektor in ein Decoder-Netzwerk mit vollständig verbundenen Schichten ein, um die endgültige Punktwolke zu erzeugen. Unsere Ergebnisse haben einen Durchschnitt von z. Z

00:03:50 Z 876 M Champion für Distanzbewertung Die Vorhersage von Objekten mit primitiven Formen weist im Allgemeinen eine nahezu perfekte Leistung auf. Darüber hinaus weist unsere Methode die Fähigkeit auf, Objekte mit komplexen Formen nur durch Holme und verrauschten Kontakt zu rekonstruieren. Punktschätzungen, wenn ein Objekt vom Roboter mit seinen akustischen Vibrationsreaktionen interagiert wurde, die wir anstreben

00:04:13 Lassen Sie unseren Roboter das Objekt durch eine Reihe von 15 neuen Klopfinteraktionen erneut identifizieren. Wir geben 15 sowohl die Sammlung von Mel-Spektrogrammen als auch die mit dem Netzwerk verbundenen Kontaktpunkte ein, um die Bezeichnung dieses Objekts unter 82 Objekten in unserem Datensatz vorherzusagen. Unser Roboter kann dasselbe Objekt mit einer Genauigkeit von mehr als 92 % erneut identifizieren. Unser Roboter verfügt über einen starken Widerstand gegen Umgebungsgeräusche

00:04:37 Geräusche und konzentriert sich nur auf Vibrationssignale durch physischen Kontakt. Dies gewährleistet eine hohe Qualität und zuverlässige Erfassungsdaten unter schwierigen Umgebungsbedingungen. Unsere gesamte Roboterhand kostet mit kommerziell erhältlichen Komponenten und 3D-Druck 215 US-Dollar. Unsere experimentellen Ergebnisse zeigen die Vielseitigkeit und Wirksamkeit unseres Designs bei verschiedenen Objektwahrnehmungen

00:05:01 Zu den Aufgaben gehören die Bestandsschätzung fester und flüssiger Objekte innerhalb von Behältern, die Materialklassifizierung, die Rekonstruktion der 3D-Form und die Neuidentifizierung von Objekten. Insgesamt bietet unsere Methode einzigartige Beiträge zur taktilen Wahrnehmung mit akustischen Vibrationen und eröffnet neue Möglichkeiten für zukünftige Roboterdesigns zum Aufbau eines robusteren Gesamtsystems

00:05:23 vielseitiges und ganzheitliches Wahrnehmungsmodell der Welt

Kompakter Tischroboter revolutioniert die Durchführung von Physiotherapie Von der NASA entwickelte elektrische Triebwerke ermöglichen es kommerziellen Satelliten, die Umlaufbahn aufrechtzuerhalten und die Lebensdauer der Mission zu verlängern

Sensor

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie