Die neue KI von Google lokalisiert einzelne Stimmen in überfüllten Umgebungen

Google entwickelt eine neue KI, die sich auf eine bestimmte Stimme in einem überfüllten Bereich konzentrieren kann.
Es verwendet eine Kombination aus visuellen und akustischen Signalen, um die Stimmen zu trennen.
Die Technologie hat auch das Potenzial, durch Vorverarbeitung der Spracherkennung ein besseres Videountertitelungssystem für sich überschneidende Sprecher bereitzustellen.

Menschen sind außergewöhnlich gut darin, in einem überfüllten Bereich eine bestimmte Stimme auszuwählen und alle anderen Geräusche stumm zu schalten. Dies bleibt jedoch eine große Herausforderung für Maschinen. Sie sind immer noch nicht gut darin, einzelne Sprache zu trennen, wenn zwei oder mehr Personen sprechen oder Hintergrundgeräusche vorhanden sind.

Nun hat Google ein auf Deep Learning basierendes audiovisuelles Modell entwickelt, das sich auf ein einzelnes Audiosignal aus einer Mischung aus Stimmen und Hintergrundgeräuschen konzentrieren kann. Die KI kann das Video analysieren und die Stimmen bestimmter Personen verstärken, während alle anderen Geräusche unterdrückt werden.

Es ist kein spezielles Audio- oder Videoformat erforderlich. Es funktioniert auf allen gängigen Videoformaten mit einer Audiospur. Der Benutzer kann ein bestimmtes Gesicht in einem Video auswählen, das er/sie anhören möchte, oder den Algorithmus dies basierend auf dem Kontext tun lassen.

Die Technologie nutzt eine Kombination aus visuellen und akustischen Signalen eines Videos, um die Stimmen zu trennen. Algorithmen können anhand der Mundbewegungen erkennen, welche Person gerade spricht. Diese visuellen Signale verbessern die Qualität der Sprachtrennung bei gemischter Sprache erheblich und verknüpfen Tonspuren mit sichtbaren Sprechern.

Wie wird es hergestellt?

Ingenieure sammelten eine große Menge hochwertiger YouTube-Videos von Talkshows und Vorträgen, um Schulungsbeispiele zu erstellen. Anschließend haben sie 2.000 Stunden Clips aus diesen Videos herausgefiltert. Das gefilterte Video mit klarer Stimme – kein Publikumslärm, gemischte Musik und Hintergrundstörungen.

Anschließend erstellten sie aus diesen Inhalten eine Kombination aus Gesichtsvideos mit der dazugehörigen Sprache und Hintergrundgeräuschen aus verschiedenen Quellen. Sie trainierten ein Multi-Stream Convolutional Neural Network um die Stimmen einzelner Sprecher aus Videos mit gemischter Sprache zu trennen.

Sowohl die Spektrogrammdarstellung des Soundtracks als auch die Miniaturansichten der Gesichter der Sprecher in jedem Bild (aus dem Video extrahiert) werden in das neuronale Netzwerk eingefügt. Das Netzwerk lernt nach und nach (Trainingszeit), wie man akustische und visuelle Signale kodiert und sie zu einem einzigen audiovisuellen Inhalt zusammenfügt.

Mittlerweile lernt das Netzwerk auch, Zeit-Frequenz-Masken für einzelne Sprecher bereitzustellen. Anschließend werden die verrauschten Eingangsspektrogramme zu Masken multipliziert, um eine saubere Sprache auszugeben und gleichzeitig Interferenzen und Rauschen zu unterdrücken.

Implementierungsdetails

Das Netzwerk ist auf TensorFlow (Open-Source-Framework für maschinelles Lernen) implementiert und seine Operationen werden zur Durchführung von Wellenform- und Kurzzeit-Fourier-Transformationen verwendet. Auf alle Netzwerkebenen mit Ausnahme der Maskenebene folgen Aktivierungen der gleichgerichteten linearen Einheit.

Die Batch-Normalisierung wird für alle Faltungsschichten durchgeführt. Dazu verwendeten sie eine Chargengröße von 6 Proben und trainierten für 5 Millionen Chargen (Schritte). Audios werden auf 16 KHz neu abgetastet und Stereo-Audio wird in Mono umgewandelt, um die Kurzzeit-Fourier-Transformation zu berechnen.

Referenz: arXiv:1804.03619 | Google-Recherche

Alle Gesichtseinbettungen werden vor dem Training auf 25 Bilder pro Sekunde neu abgetastet, was zu einem visuellen Eingabestrom von 75 Gesichtseinbettungen führte. Sie verwendeten Nullvektoren, wenn in einer bestimmten Stichprobe fehlende Frames auftraten.

Anwendungen

Die Technologie könnte unzählige Anwendungen haben, von der Audioerkennung in Videos bis zur Sprachverbesserung, insbesondere wenn mehrere Personen sprechen. Es würde die Arten von Mikrofonen erweitern, die in verschiedenen Audioumgebungen verwendet werden können. Aber im Moment scheinen YouTube und Hangouts zwei einfache Ausgangspunkte zu sein. Letztendlich könnte es auf sprachverstärkende Ohrhörer und Google-Brillen angewendet werden.

Lesen Sie:Google entwickelt Sprach-KI, die nicht von Menschen zu unterscheiden ist | Tacotron 2

Außerdem hat die Technik das Potenzial, durch Vorverarbeitung der Spracherkennung ein besseres Videountertitelungssystem für sich überschneidende Sprecher bereitzustellen. Diese Funktion würde es gehörlosen Menschen erleichtern, an Telefonkonferenzen teilzunehmen und Filmvideos zu genießen.

Quantengenerierte Zufallszahlen setzen neue Maßstäbe in der Genauigkeit Die PRISM-Technik durchbricht Lichtbeugungsgrenzen für die Bildgebung lebender Zellen in Raum und Zeit

Industrietechnik

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik