Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Industrial Internet of Things >> Internet der Dinge-Technologie

Wie Audio-Edge-Prozessoren die Sprachintegration in IoT-Geräten ermöglichen

Dedizierte Audio-Edge-Prozessoren mit Fokus auf Klangtreue und mit Machine Learning optimierte Kerne sind der Schlüssel zur Bereitstellung von IoT-Geräten mit Sprachbenutzeroberflächen, ohne dass eine Internetverbindung mit hoher Bandbreite erforderlich ist.
Sprachverarbeitungsfunktionen werden in Verbraucherprodukten wie dem iOttie Aivo Connect schnell entwickelt. (Quelle:Knowles)

Von der Heimautomatisierung und dem E-Commerce bis hin zum Gesundheitswesen und der Automobilindustrie kombinieren jetzt immer mehr Branchen IoT-Funktionen mit Sprachintegration, um sich ändernde Anforderungen zu erfüllen und Geschäftsvorteile zu erschließen. Dennoch befindet sich die Sprache noch in der Anfangsphase der Einführung und beginnt gerade erst, sich über mobile Geräte und Lautsprecher hinaus auszudehnen. Sprache wird zur Standardmethode der Interaktion zwischen Benutzern und ihren IoT-Geräten. Diese Verlagerung hin zu Voice First wird nicht nur von der Idee untermauert, dass sie den Verbraucherkomfort durch Technologie erhöht. Die globale Mobilität sprachaktivierter Geräte für die Sprachsuche unterwegs, Fortschritte bei der Verarbeitung natürlicher Sprache (NLP) und Fortschritte bei künstlicher Intelligenz und maschinellem Lernen werden die schnelle Entwicklung neuer Anwendungen ermöglichen.

Eine angenehme und ansprechende Sprachinteraktion wird durch eine gleichbleibende Klangqualität in Gegenwart von Geräuschen und anderen Störfaktoren eingeschränkt. Die Fähigkeit Ihres Geräts, den Ton intelligent zu verwalten, ist es, was Ihre Kommunikationsfähigkeit ausmacht oder schwächt. Es wird erwartet, dass die Always-On-Sprachbenutzeroberfläche (VUI) in immer mehr Verbraucherprodukten, einschließlich Audio- und Videogeräten, Haushaltsgeräten und auch in einer breiten Palette von batteriebetriebenen Geräten, wie Fernbedienungen, Wearables, Bluetooth, allgegenwärtig wird Lautsprecher, Sicherheits- und Outdoor-Aktivitätskameras. Obwohl Designherausforderungen zu bewältigen sind, bieten sich Komponentenlieferanten und OEMs gleichermaßen eine große Chance, Produkte zu liefern, die diese Anwendungsanforderungen erfüllen.

Um die Möglichkeiten der Sprachintegration im Laufe ihrer Entwicklung voll auszuschöpfen, werden immer mehr Verarbeitungstechnologien an den Rand verlagert, weg von der Cloud. Das Ergebnis sind verbesserte Benutzeroberflächen mit geringerer Latenz und reduzierten Kosten, sowohl in Dollar als auch in Bandbreite. Hersteller, die IoT-fähige CE-Lösungen für morgen entwickeln, müssen die Sprachintegration als Voraussetzung für Produkteigenschaften betrachten. OEMs, die dedizierte Sprachverarbeitung am Edge bereitstellen können, können diese Anwendungen skalieren und ihr Portfolio erweitern.

In diesem Artikel werden die häufigsten Herausforderungen bei der Implementierung von VUIs für IoT Always-on/Always-Listening-Geräte erörtert. Der Artikel befasst sich mit den damit verbundenen Anforderungen und Designfunktionen, die erforderlich sind, um diese Anforderungen effektiv zu erfüllen, einschließlich der Integration mit Steuerungsschnittstellen, Software-Stacks, Algorithmenentwicklung und Anwendungsentwicklung im Benutzerbereich.

Integrieren von Audio-Edge-Prozessoren in IoT-Geräte

Dedizierte Audio-Edge-Prozessoren mit Fokus auf Audioqualität und mit für maschinelles Lernen optimierten Kernen sind der Schlüssel zur Unterstützung hochwertiger Audiokommunikationsgeräte. Diese Prozessoren können genügend Rechenleistung liefern, um Audio mit herkömmlichen und ML-Algorithmen zu verarbeiten, während sie nur einen kleinen Prozentsatz der Energie eines generischen Prozessors verbrauchen. Und da die Verarbeitung auf dem Gerät erfolgt, ist es deutlich schneller, als diese Informationen in die Cloud und zurück zu senden.

IoT-Geräte integrieren Audioprozessoren, um umfangreiche Funktionen wie Voice Wake hinzuzufügen. Während die Cloud einige große Vorteile bieten kann, ermöglicht Edge-Processing Benutzern, jederzeit die volle Leistungsfähigkeit ihres Geräts zu nutzen, ohne dass eine Internetverbindung mit hoher Bandbreite erforderlich ist. Edge-Audioprozessoren ermöglichen beispielsweise eine hervorragende Benutzererfahrung bei der virtuellen Kommunikation durch die Verarbeitung von Audio mit Kontextdaten mit geringer Latenz, während die Kontextdaten lokal und sicher gehalten werden.

Herausforderungen mit integrierter Stimme

Die Anwendungsmöglichkeiten für Sprachanrufe, Steuerung und Interaktion nehmen weiter zu. Mit mehr Geräten wird jedoch eine stärkere Fragmentierung eingeführt, was die Integration von Sprache erschwert. Wie Sie die Sprachsteuerung in jede Anwendung integrieren – seien es Bluetooth-Lautsprecher, Haushaltsgeräte, Kopfhörer, Wearables oder Aufzüge – wird unterschiedlich sein. Das Hinzufügen eines Sprachweckauslösers könnte einfach sein, aber das Entwerfen eines Bluetooth-Lautsprechers und -Headsets der Enterprise-Klasse ist viel komplexer. Wenn dieser Lautsprecher eine True Wireless Stereo (TWS)-Integration enthält, steigt die Komplexität noch einmal.

Darüber hinaus erfordern verschiedene Anwendungen Sprachintegrationen mit verschiedenen Ökosystemen. Sie müssen beispielsweise in einem Linux-Ökosystem arbeiten, um Sprache auf den meisten Smart-TVs zu implementieren, aber um Sprache auf einem Haushaltsgerät zu erhalten, müssen Sie in einem Mikrocontroller-(MCU)-Ökosystem arbeiten. Für all diese Integrationen gibt es einen gemeinsamen, empfohlenen Weg, aber es gibt immer Variationen, was die Komplexität erhöht.

Hochwertige Entwicklungslösungen für den Massenmarkt sind entscheidend, um diese Herausforderungen zu meistern und neue Technologien schnell auf den Markt zu bringen, um die sich schnell entwickelnde Art und Weise zu unterstützen, wie wir arbeiten, leben und kommunizieren. Um diesen Herausforderungen zu begegnen, müssen geeignete Lösungen mehrere Designanforderungen erfüllen.

Ansprechen der wichtigsten Designanforderungen

Stromverbrauch

Damit ein VUI-Gerät Befehle empfangen kann, muss es immer eingeschaltet sein/immer auf Befehle warten. Unabhängig davon, ob diese Geräte an das Stromnetz angeschlossen sind und insbesondere wenn sie batteriebetrieben sind, kann die Beschränkung des Stromverbrauchs eine große Herausforderung für das Design darstellen.

In einem Sprachbefehlssystem muss immer mindestens ein Mikrofon aktiv sein und auch der mit der Erkennung des Weckwortes beauftragte Prozessor muss aktiv sein. Audio-Edge-Prozessoren, die mit proprietären Architekturen, Hardwarebeschleunigern und speziellen Befehlssätzen entwickelt wurden, können Audio- und ML-Algorithmen optimal ausführen. Diese Optimierungen helfen, den Stromverbrauch zu reduzieren.

Latenz

Bei sprachaktivierten Geräten gibt es keine Latenztoleranz. Selbst wenn es eine wahrgenommene Verzögerung von mehr als 200 Millisekunden gibt, beginnen Menschen bei Sprachanrufen miteinander zu sprechen oder ihre Befehle an den Sprachassistenten zu wiederholen. Um sprachintegrierte Geräte zu entwickeln, die die erforderliche Verbraucherakzeptanz erlangen, müssen Ingenieure und Produktdesigner im gesamten System optimierte Audioketten bereitstellen, um den Branchenspezifikationen und den besten Benutzererfahrungen zu entsprechen. Die Verarbeitung mit geringer Latenz in Edge-Prozessoren ist daher eine kritische Voraussetzung für die Gewährleistung einer qualitativ hochwertigen Sprachkommunikation.

Integration

Da es viele Optionen bei der Auswahl von Hard- und Software für verschiedene VUI-Implementierungen gibt, gibt es Anforderungen, die an verschiedenen Stellen der Integrationsphase zu einer Herausforderung werden können. Einige wichtige Designüberlegungen, die Sie dabei berücksichtigen sollten, sind die unten diskutierten.

Hardware-Integration

Je nach Gerätenutzung, Anwendung und Ökosystem gibt es verschiedene Hardwarearchitekturen zum Implementieren eines VUI-Systems. Jedes VUI-Gerät enthält Mikrofone, entweder ein einzelnes Mikrofon oder ein Mikrofon-Array, die mit einem Audioprozessor zum Aufnehmen und Verarbeiten von Audio verbunden sind. In diesem kürzlich erschienenen Embedded-Artikel von Knowles bespricht mein Kollege die Überlegungen zur Hardwarearchitektur für die Implementierung eines VUI-Systems und die jeweiligen Vor- und Nachteile.

Host-Software-Integration

Wie oben erwähnt, stehen verschiedene Betriebssysteme und Treiber zur Auswahl. Idealerweise wird der Audioprozessor mit Firmware und einem Satz von Treibern geliefert, die für die Verbindung mit dem Hostprozessor konfiguriert sind. Das Betriebssystem wie Android oder Linux läuft normalerweise auf dem Host-Prozessor.

Treibersoftwarekomponenten, die im Kernel-Bereich laufen, interagieren mit der Firmware über die Steuerschnittstelle und Audiodaten vom Audio-Edge-Prozessor können im Benutzerbereich über die standardmäßige Advanced Linux Sound Architecture (ALSA)-Schnittstelle gelesen werden.

Um die Software mit dem Rest des Host-Systems zu integrieren, kann es eine komplexe Aufgabe werden, den im Software-Release-Paket bereitgestellten Audioprozessor-Treiber in das Kernel-Image einzubinden. Dies beinhaltet das Kopieren des Treiberquellcodes in den Kernel-Quellbaum, das Aktualisieren einiger Kernel-Konfigurationsdateien und das Hinzufügen von Gerätebaum-Einträgen entsprechend der relevanten Hardware-Konfiguration.

Eine Lösung hierfür wäre die Verwendung vorintegrierter Standard-Referenzdesigns mit exakten oder ähnlichen Konfigurationen.

Im Idealfall bietet der Audio-Edge-Prozessor optimierte Software-Stacks für die Integration und wird mit vorintegrierten und verifizierten Algorithmen als Lösung auf Systemebene geliefert, um den Prozess weiter zu vereinfachen.

Algorithmusintegration

Wo wir gerade beim Thema Algorithmusintegration sind. Es gibt normalerweise mehrere Algorithmen, die kaskadiert werden, um jederzeit zwischen verschiedenen Anwendungsfällen zu wechseln. Auch für Voice Wake benötigt ein Design Multi-Mikrofon-Beamformer, eine Edge-Voice-Wake-Engine und eine Cloud-basierte Verifizierung. Dies bedeutet, dass mindestens drei Algorithmen zusammenarbeiten, um die Leistung zu optimieren. Für jedes Gerät, das mit Alexa- oder Google Home-Keywords integriert werden kann, müssen mehrere Algorithmen, oft von verschiedenen Anbietern, zusammen in einem Gerät optimiert werden.

Eine Lösung besteht darin, einen Audio-Edge-Prozessor zu wählen, der mit verifizierten Algorithmen vorintegriert ist, die unabhängig vom Hostsystem entwickelt und getestet wurden.

Formfaktor-Integration

Es gibt viele Formfaktoren, die Geräte heute annehmen können. Jedes hat seine eigene Konfiguration mit mehreren installierten Mikrofonen. Der Abstand und die Platzierung von Mikrofonen und Lautsprechern spielen eine große Rolle bei der Leistung. Leistungsoptimierung und -optimierung müssen sich je nach endgültigem Formfaktor und Zielanwendungsfällen ändern. Es gibt auch Fertigungsvarianten, die sich auf die Leistung auswirken, wie z. B. Mikrofonversiegelung, akustische Behandlungen des Geräts, Vibrationsdämpfung und mehr.

Datenschutz

Viele Audioprozessoren erkennen das Aktivierungswort und senden die Informationen dann sofort an die Cloud, wo sie interpretiert und verarbeitet werden. Ein großes Problem besteht darin, dass der Benutzer, sobald sich die Audiodaten in der Cloud befinden, keine Kontrolle mehr über die Daten hat und somit einem hohen Datenschutzrisiko ausgesetzt ist. Die Lösung für diese Herausforderung besteht darin, einen Edge-KI-Prozessor zu wählen, der die Befehlsinterpretation und die Antwortlogik auf dem Gerät lokal „am Edge“ ausführen kann.

Dadurch bleiben sensible persönliche Audiodaten lokal, ohne in die Cloud gesendet zu werden, wo sie gegen unseren Willen verwendet werden können. Die VUI-Implementierung ist jetzt nicht nur viel privater, sondern kann auch schneller reagieren, wodurch die Interaktionen der Benutzer viel natürlicher werden. Dies ist ein großartiges Beispiel dafür, wie Edge-KI-Prozessoren bestehende Anwendungsfälle voranbringen können, um die Hilfsbereitschaft der Geräte zu maximieren, die wir täglich verwenden und denen wir vertrauen.

Die Hardware- und Softwareschnittstelle

Die Designanforderungen für VUI-Implementierungen können komplex sein und die schnelle Markteinführung von Geräten mit Sprachintegration erschweren. OEMs und Systemintegratoren können Risiken drastisch reduzieren, indem sie mit Standardlösungsentwicklungskits wie dem Knowles AISonic Bluetooth Standard Solution Kit arbeiten. Solche Kits bieten vorkonfigurierte Ausgangspunkte für Prototypen, die es den Designern ermöglichen, darüber hinaus eigene Innovationen zu entwickeln, ohne sich um die oben diskutierten Designherausforderungen kümmern zu müssen. Designer sollten nach Entwicklungskits mit vorintegrierten und verifizierten Algorithmen, vorkonfigurierten Mikrofonen und Treibern suchen, die mit dem Hostprozessor und den Betriebssystemen kompatibel sind.

Audio-Edge-Prozessoren, die ihre Architekturen und Entwicklungsumgebungen öffnen, beschleunigen die Innovation, indem sie Entwicklern von Audioanwendungen die Tools und den Support zur Verfügung stellen, um neue Geräte und Anwendungen zu erstellen. Zukünftige Audiogeräte werden eine gemeinsame Anstrengung sein.


Internet der Dinge-Technologie

  1. Wie 5G das industrielle IoT beschleunigen wird
  2. Warum Edge Computing für das IoT?
  3. Wie das IoT Arbeitsplätze verbindet
  4. IoT bietet weltweite Vorteile
  5. Wie gestaltet das IoT die Unternehmensmobilität?
  6. IoT lohnend machen:So bauen Sie ein profitables IoT-Geschäftsmodell auf
  7. Wie gefährlich sind Kill-Chain-Angriffe auf das IoT?
  8. Wie das IoT die Arbeitssicherheit revolutioniert?
  9. Wie das IoT das Kundenerlebnis verbessert
  10. Herausforderungen bei der IoT-Entwicklung meistern