Algorithmus und Hardware-Leistungssteigerung der Sprachsteuerung

Sprachsteuerung und Sprachschnittstellen haben damit begonnen, so ziemlich alle Kategorien von Consumer-Edge-Geräten unaufhaltsam zu infiltrieren. Fortschritte sowohl bei den Spracherkennungsalgorithmen als auch bei der KI-Beschleunigerhardware machen die Technologie sogar für leistungs- und kostenbeschränkte Anwendungen wie Smart-Home-Geräte (und sogar einige dumme) zugänglich.

Die Treiber hinter der Sprachsteuerung in Smart-Home-Geräten von der Benutzerseite sind klar.

Alireza Kenarsari-Anhari (Quelle:PicoVoice)

„Benutzerfreundlichkeit und Bequemlichkeit sind derzeit die wichtigsten Faktoren“, sagte Alireza Kenarsari-Anhari, CEO von PicoVoice, gegenüber der EE Times. Sie können sich leicht vorstellen, von Ihrem Schreibtisch aus zu einer Kaffeemaschine in Ihrem Home-Office zu schreien, wenn Sie einen Kaffee möchten, oder einem Wäschetrockner mit einem Korb mit nasser Wäsche Befehle zu diktieren.

Wir gehen davon aus, dass intelligente Geräte wie diese, die nicht tragbar sind, permanenten Zugriff auf die WLAN-Verbindung des Hauses haben – warum also nicht diese Sprachverarbeitung in der Cloud?

Der Trend zu Edge-KI in dieser Situation wird in erster Linie durch den Datenschutz getrieben, der laut Kenarsari-Anhari ein Anliegen der Verbraucher, aber ein Muss für einige Unternehmen ist. Zuverlässigkeit ist ein weiterer Treiber:„Macht es Sinn, dass Ihre Waschmaschine nicht mehr funktioniert, wenn Ihr WLAN nicht funktioniert?“ sagte er.

In bestimmten Situationen ist auch die Latenz wichtig; Einige Anwendungen benötigen Echtzeitgarantien für die Verarbeitung von Sprach-Workloads, wie z. B. Spiele.

Die Kosten sind ein weiterer wichtiger Faktor für die Edge-Verarbeitung von Sprache, da es Geld kostet, diese Sprachdaten in der Cloud zu verarbeiten. Das Geschäftsmodell, jedes Mal zu bezahlen, wenn Sie eine Cloud-API verwenden, funktioniert nicht für Anwendungsfälle wie Haushaltsgeräte und Unterhaltungselektronik, die einen niedrigen Kostenpunkt haben und täglich mehrmals verwendet werden können.

PicoVoice, dessen KI-Sprach-zu-Text-Inferenz-Engine so konzipiert ist, dass sie unabhängig von der Cloud auf Mikrocontrollern unter 1 US-Dollar läuft, zielt darauf ab, Sprachsteuerung in Anwendungen zu ermöglichen, in denen dies sonst nicht möglich wäre. Dazu könnten Verbraucher-Wearables und -Hearables gehören, die am Schnittpunkt der Energieeffizienz und Kosteneffizienz stehen, die durch eine Mikrocontroller-basierte Sprachlösung ermöglicht werden könnten. Eine leistungs- und kostenoptimierte Lösung könnte auch Chancen in Industrie-, Sicherheits- und Medizinanwendungen eröffnen, sagt Kenarsari-Anhari.

Das Unternehmen hat kürzlich Shepherd auf den Markt gebracht, eine No-Code-Plattform zum Erstellen von Sprachanwendungen auf Mikrocontrollern, die mit der Modellerstellungssoftware des Unternehmens, PicoVoice Console, funktioniert. Shepherd unterstützt beliebte Arm Cortex-M-Mikrocontroller von ST und NXP mit Unterstützung für andere Geräte auf dem Weg.

„Ich stelle mir Sprache als Schnittstelle vor – wenn Sie Ihre GUI oder Website ohne Codierung erstellen können, vielleicht mit WordPress, ist das Erstellen von Sprachschnittstellen auf ähnliche Weise der nächste logische Schritt“, sagte Kenarsari-Anhari. „Shepherd befähigt Produktmanager und UX-Designer, Prototypen zu bauen und schnell zu iterieren, aber wir wollen die Zielbenutzerbasis erweitern. Was wäre, wenn jeder seinen eigenen Assistenten bauen könnte? Nennen Sie es, was sie wollen – nicht Alexa! – und geben Sie ihm die gewünschte Persönlichkeit.“

Obwohl es durchaus möglich ist, Modelle zur Verarbeitung natürlicher Sprache zu entwickeln und diese ohne spezielle Software zu implementieren, ist dieser Weg nicht jedermanns Sache.

„Das kann man sicherlich – Apple, Amazon, Google und Microsoft haben es geschafft“, sagte er. „Es geht wirklich darum, ob ein Unternehmen über die Ressourcen verfügt, sich dafür engagiert, eine Organisation aufzubauen und es sich leisten kann, ein paar Jahre zu warten.“

Zukunftstrends

Sprache wird zur bevorzugten Schnittstelle für die nächste Generation von Technologienutzern, sagte Kurt Busch, CEO von Syntiant, im vergangenen Sommer in einem Interview mit der EE Times.

Kurt Busch (Quelle:Syntiant)

Busch beschrieb, wie sein jüngstes Kind, das zwar lesen konnte, aber noch etwas zu jung zum Schreiben und Buchstabieren war, über die Sprachschnittstelle eines Smartphones mit seinen Freunden SMS schreiben konnte.

„Seine älteren Geschwister schreiben SMS, aber seine Generation hat ein paar Jahre früher Telefone bekommen als sie“, sagte Busch. „Im Laufe der Zeit ist für seine Generation und jüngere die Standardschnittstelle, mit ihr zu sprechen.“

Busch ist der Ansicht, dass Sprache zum „Touchscreen der Zukunft“ wird, wobei die geräteinterne Verarbeitung schnelle, reaktionsschnelle Schnittstellen bietet, zunächst in Geräten mit Tastatur oder Maus, dann in Haushaltsgeräten.

Die Chips von Syntiant sind spezielle KI-Beschleuniger, die entwickelt wurden, um Sprach-KI-Workloads in Geräten der Unterhaltungselektronik mit geringen bis extrem niedrigen Energiebudgets zu bewältigen. Das Startup hat bis heute mehr als 10 Millionen seiner Chips weltweit ausgeliefert, von denen die meisten in Mobiltelefone gesteckt wurden, um eine Always-on-Keyword-Erkennung zu ermöglichen. Der neueste Syntiant-Chip, NDP120, kann heiße Wörter wie „OK Google“ erkennen, um den Google-Assistenten in weniger als 280 µW zu aktivieren.

In Zukunft sieht Busch auch die Sprachsteuerung, die Konnektivität und Zugang zur Technik für alle ermöglicht.

„Wir sehen die Stimme als den großen Demokratisierer der Technologie“, sagte Busch. „Es gibt 3 Milliarden Menschen auf der Welt, die von 2 Dollar pro Tag leben. Ich gehe davon aus, dass diese Leute keinen Internetzugang haben und möglicherweise nicht das Bildungssystem durchlaufen haben. Die natürliche Schnittstelle ist hier [Sprache]. So bringt man Technik in den Dritten der Welt, die heute nicht mit Technik interagiert. Wir haben in Entwicklungsländern ein großes Interesse an Voice-First-Anwendungen festgestellt, um jene Teile der Gesellschaft zu erreichen, die möglicherweise vorher keinen Zugang hatten, nicht nur aus Kostengründen, sondern auch aus Komfortgesichtspunkten.“

Marktfragmentierung

Die Gefahr bei einem Markt, der so schnell wächst wie Voice, besteht darin, dass er schnell extrem fragmentiert werden kann, sagte Vikram Shirastava, Senior Director of IoT bei Knowles der EE Times – und das nicht nur entlang der Hardware-Linien.

Vikram Shrivastava (Quelle:Knowles)

„Der Markt wird fragmentiert, je nachdem, welche Spracherkennungs-Engine verwendet wird?“ sagte Shirastava. „Der Markt wird fragmentiert, je nachdem, ob Sie einen TV-SoC integrieren oder ob es sich um eine einfache MCU im Inneren handelt, beispielsweise eine Mikrowelle. Sie erhalten eine Fragmentierung basierend auf Betriebssystemen oder basierend auf der akustischen Umgebung – ist es nur das Zuhause? Ist es eine Türklingel draußen? Eine Pauschallösung kann es nicht geben. Sie müssen den gemeinsamen Nenner in jeder dieser Branchen finden und versuchen, die Integration der Stimme entsprechend anzugehen.“

Knowles verfügt über eine DSP-basierte Sprachsteuerungslösung, von der es beabsichtigt, Versionen für verschiedene Branchen einzuführen. Der Ansatz besteht darin, Fragmente des Marktes in solche mit einem gemeinsamen Nenner zu gruppieren – Home Controls, TV-Soundbars und Fernbedienungen könnten zum Beispiel in dieselbe Gruppe fallen – und dann eine Lösung zu entwickeln, die für diese Anwendungsgruppe optimiert ist. Shirastava nennt diesen Ansatz „eine Ebene unter dem Turnkey“, der die Skalierbarkeit von Turnkey bietet, aber mit etwas zusätzlicher Flexibilität.

„Wir müssen ein paar verschiedene Veröffentlichungen haben, die einen bestimmten Aspekt dieser Fragmentierung ansprechen, damit wir die vertikalen Bereiche abdecken können, die wir anstreben“, sagte er.

Die neueste Version von Knowles, die AISonic Bluetooth Standard Solution, ist ein Entwicklungskit für die Spracherkennung in Bluetooth-verbundenen Geräten wie Smart Speakers, Smart Home-Geräten, Wearables und fahrzeuginternen Sprachassistenten. Das Kit basiert auf dem Dual-Core-DSP-Silizium IA8201 von Knowles, das speziell für die Verarbeitung in neuronalen Netzwerken bei weitaus geringerer Leistung als ein Anwendungsprozessor entwickelt wurde. Zum Beispiel kann der Chip separate KI-Modelle für Keyword-Spotting, Quellenklassifizierung, Strahlformung, akustische Echokompensation (AEC) und Quellenrichtungsschätzung gleichzeitig in weniger als 50 mW verarbeiten. Ermöglicht wird dies durch eine Befehlssatzerweiterung von fast 400 benutzerdefinierten Befehlen für die Audio- und KI-Verarbeitung auf den Tensilica DSP-Kernen, wodurch wiederum die Taktfrequenz reduziert werden kann, um Strom zu sparen.

Sugrs iOttie Aivo Connect Fahrzeug-Smartphone-Halter verwendet Knowles' IA8201 für die Sprachfunktionen im Auto. Es verfügt über eine integrierte Alexa-Sprachassistentenfunktion. (Quelle:Knowles)

Wird die Sprache irgendwann die Standardbenutzeroberfläche für die meisten Klassen der Unterhaltungselektronik werden? Das sieht auf jeden Fall so aus. Eine Kombination aus fortschrittlichen, effizienten KI-Sprachsteuerungsalgorithmen, Entwicklungsumgebungen, die es Entwicklern ermöglichen, Sprache einfach zu integrieren, und ein wachsendes Ökosystem energie- und kosteneffizienter Hardwarelösungen ist entstanden, um dies alles möglich zu machen.

>> Dieser Artikel wurde ursprünglich auf unserer Schwesterseite EE veröffentlicht Zeiten.

Smart-Badge-Referenzdesign mit Bluetooth-SoC Minimierung des Standby-Stroms von Geräten

Internet der Dinge-Technologie

Eingebettet

Sensor

Cloud Computing

Internet der Dinge-Technologie