Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Industrial Internet of Things >> Internet der Dinge-Technologie

Die Demokratisierung der Sprachschnittstelle

In Geschichtsbüchern wird die Sprachsteuerung möglicherweise als die wichtigste Weiterentwicklung der Mensch-Maschine-Schnittstelle angesehen. Kein Tippen mehr, kein Zeigen mehr, wir sagen einfach, was wir wollen. Anfängliche Fortschritte in diesem Bereich verliefen bis zum Aufkommen von Smart Speakern, als wir anfingen zu erkennen, was möglich sein könnte. Jetzt geht das Rennen mit Verbesserungen bei Erkennung, Funktionen und Anwendungen in Telefonen, Headsets, Hearables und dem Smart Home weiter. Die bekanntesten Lösungen hängen heute von Plattformen und Diensten ab, die von wenigen Anbietern kontrolliert werden, aber das ändert sich. Die Sprachaktivierung kann überall eingebettet werden, mit Anpassung, verbesserter Störfestigkeit, geringerer Leistung, größerer Reichweite und dennoch genauso effektiv wie die großen Plattformen der Spracherkennung.


(Quelle:CEVA/Shutterstock)

Der Consumer-Audio-Markt, auf dem diese Fähigkeit eine wichtige Rolle spielt, hat eine interessante Geschichte. FutureSource zeigt, dass das Dollarvolumen von 2008 bis 2012 zurückging, da sich Audioerlebnisse hauptsächlich auf Smartphones konsolidierten. Von 2012 bis 2014 blieb der Markt im Wesentlichen flach. Von 2015 bis 2018 wuchs es dann erneut mit einer CAGR von 15%, hauptsächlich angetrieben durch die Sprachaktivierung. Mit Blick auf die Zukunft erwartet Yole Développement bis 2023 eine CAGR von mindestens 30 %, hauptsächlich durch Spracherkennung . Der Großteil dieses Wachstums wird weiterhin auf Smartphones entfallen, gefolgt von Headsets und Hearables, persönlichen Assistenten und Smart-Home-Funktionen (Fernseher, Haushaltsgeräte etc.). Derselbe Bericht kommt zu dem Schluss, dass wir jetzt in eine zweite Phase von Smart Audio eintreten, in der die Sprachsteuerung viel durchdringender wird, da die Verbraucher mit dieser Steuerungsmethode vertrauter werden.

Wo immer sie eingesetzt werden, ist das Ziel die Differenzierung. Bei einem Smartphone oder jedem anderen batteriebetriebenen Gerät besteht ein offensichtlicher Vorteil darin, dass das ständig aktive Hören unterstützt wird. Sie müssen keine Taste drücken, bevor Sie einen Befehl geben. Dies erfordert eine extrem stromsparende Triggerworterkennung, was, wie wir wissen, Hardware mit eng abgestimmter Software bedeutet, um die Standby-Leistung zu minimieren. Natürlich möchten Sie Trigger-Wörter oder -Phrasen für Ihre Marke und in mehreren Sprachen personalisieren, um eine starke Durchdringung in Ihrer Region und vielleicht auch auf dem internationalen Markt zu erreichen. Sie können nachfolgende Befehle dennoch an einen der wichtigsten Spracherkennungsanbieter weitergeben, um die Anforderung zu entpacken. Oder vielleicht auch nicht. Wenn Ihr Gerät nur für einen begrenzten Wortschatz Unterstützung benötigt, benötigen Sie möglicherweise keine Hilfe von Drittanbietern, wenn Ihr Spracherkennungsmodul auf dieses Ziel ausgerichtet werden kann.

Ein weiterer kritischer Bedarf ist die Erkennung und möglicherweise die Authentifizierung in einer lauten Umgebung. Die Spracherkennung stellt andere Herausforderungen als bei der Objekterkennung. In einem Wohnzimmer oder einem Auto kann es beispielsweise mehrere Schallquellen geben:sprechende Personen, Fernseh- und unabhängige Musik-/Radioquellen, Innen- und Außengeräusche sowie Echos all dieser von Oberflächen in einem Raum oder dem Innenraum eines Autos. Um die Quelle eines Befehls zu isolieren, Echos zu unterdrücken und Hintergrundgeräusche zu reduzieren, ist eine ausgeklügelte Technologie erforderlich, die von mehreren Mikrofonen, Beamforming und Echokompensation sowie Rauschunterdrückung abhängt.

Dies sind die Bedürfnisse und natürlich sind verfügbare Lösungen wie die von CEVA bereit, diese Bedürfnisse zu erfüllen. Lösungen wie das kürzlich eingeführte Phrasenerkennungsprodukt CEVA WhisPro™ verwenden eine auf einem neuronalen Netz basierende Software, die auf CEVA DSP-Plattformen ausgeführt wird. WhisPro unterstützt bereits „Alexa“ und „OK Google“ als Sprachauslöser und kann im Training so angepasst werden, dass alle vom Kunden gewünschten Auslöser unterstützt werden. Es unterstützt mehrere Sprachen und kann mehrere Sprachauslöser verarbeiten. Das Training wird mit mehreren Geräuschhintergründen durchgeführt, sodass die Erkennung über eine integrierte Geräuschimmunität verfügt, die eine Erkennung von>95 % und eine Fehlakzeptanz von weniger als 1 pro Stunde ohne Cloud-Verifizierung bietet.

Durch Hinzufügen einer speziellen Sprachaufnahmelösung, CEVA ClearVox™, können Entwickler Multimikrofon-Unterstützung und Beamforming für eine verbesserte Fernfeld-Sprachaufnahme zusammen mit Echounterdrückung und weiterer Rauschunterdrückung erreichen. Die Kopplung von WhisPro zusammen mit ClearVox bietet eine wettbewerbsfähige Triggererkennung bei größerer Entfernung (bis zu 7 Meter), insbesondere in lauten Umgebungen.


Youval Nachum ist Senior Product Marketing Manager von CEVA für die Audio- und Sprachproduktlinie. Youval bringt über 20 Jahre multidisziplinäre Erfahrung in den Bereichen Marketing, Systemarchitektur, ASIC und Software bei führenden Technologieunternehmen mit. Seine Leidenschaft ist es, langfristige Trends zu antizipieren und technische Programme zu ihrem erfolgreichen Abschluss zu führen. Sehr kompetent in der Kombination von Marktanforderungen, Produktdefinitionen, Industriestandards und Designinnovationen zu bahnbrechenden Produkten. Youval hat einen B.Sc. und M.Sc. in Elektrotechnik vom Technion – Israel Institute of Technology.


Internet der Dinge-Technologie

  1. Die Befehlszeilenschnittstelle
  2. C#-Schnittstelle
  3. Java-Schnittstelle
  4. Was mache ich mit den Daten?!
  5. Schnittstelle vs. abstrakte Klasse in Java:Was ist der Unterschied?
  6. Sprechen Sie an:Voice Tech fördert Produktinspektionen
  7. C# - Schnittstellen
  8. Wie kann Spracherkennungstechnologie Fertigungsprozesse verbessern?
  9. Augmented Reality wird zur Benutzerschnittstelle für IoT
  10. Fluent.ai x BSH:Sprachautomatisierung der Montagelinie