Facebook entwickelt KI, die in der Lage ist, die Stimme jedes Einzelnen mit beispielloser Genauigkeit zu kopieren

Das neue Deep-Learning-Modell namens MelNet kann die menschliche Intonation mit unheimlicher Genauigkeit erzeugen.
Wenn es einmal trainiert ist, kann es die Stimme eines jeden innerhalb weniger Sekunden regenerieren.
Forscher zeigen, wie präzise die Stimme von Bill Gates geklont werden kann.

In den letzten Jahren gab es enorme Fortschritte bei maschinellen Lerntechniken. Diese Techniken haben sich bei der Erkennung von Objekten, Gesichtern und der Erzeugung realistischer Bilder sehr gut bewährt.

Wenn es um Audio geht, ist künstliche Intelligenz jedoch eine Enttäuschung. Selbst den besten Text-to-Speech-Systemen fehlen die grundlegenden Funktionen, wie etwa Änderungen der Intonation. Haben Sie die maschinell erzeugte Stimme von Stephen Hawking gehört? Manchmal wird es wirklich schwer, seine Sätze zu verstehen.

Wissenschaftler von Facebook AI Research haben nun eine Methode entwickelt, um die Grenzen bestehender Text-to-Speech-Systeme zu überwinden. Sie haben ein generatives Modell namens MelNet entwickelt, das die menschliche Intonation mit unheimlicher Genauigkeit erzeugen kann. Tatsächlich kann es fließend mit jedermanns Stimme sprechen.

Inwiefern unterscheidet sich MelNet von vorhandener Maschinensprache?

Die meisten Deep-Learning-Algorithmen werden auf großen Audiodatenbanken trainiert, um echte Sprachmuster zu regenerieren. Das Hauptproblem bei dieser Methode ist die Art der Daten. Normalerweise werden diese Algorithmen auf Audio-Wellenform-Aufnahmen trainiert, die komplexe Strukturen bei drastisch variierenden Zeitskalen aufweisen.

Diese Aufnahmen stellen dar, wie sich die Amplitude des Tons mit der Zeit ändert:Eine Sekunde Audio enthält Zehntausende von Zeitschritten. Solche Wellenformen spiegeln bestimmte Muster in verschiedenen Maßstäben wider.

Vorhandene generative Wellenformmodelle (wie SampleRNN und WaveNet) können sich nur über einen Bruchteil einer Sekunde rückwärts ausbreiten. Daher können sie die übergeordnete Struktur, die im Bereich von mehreren Sekunden entsteht, nicht erfassen.

MelNet hingegen verwendet Spektrogramme (anstelle von Audiowellenformen), um Deep-Learning-Netzwerke zu trainieren. Spektrogramme sind 2D-Zeit-Frequenz-Darstellungen, die das gesamte Spektrum der Audiofrequenzen und ihre zeitlichen Schwankungen zeigen.

Spektrogramm- und Wellenformmuster desselben 4-Sekunden-Audioinhalts

Während 1D-Wellenformen im Zeitbereich die zeitliche Änderung einer Variablen (Amplitude) erfassen, erfassen Spektrogramme die Änderung über verschiedene Frequenzen. Somit werden Audioinformationen in Spektrogrammen dichter gepackt.

Dies ermöglicht MelNet, bedingungslose Sprach- und Musiksamples mit Konsistenz über mehrere Sekunden zu produzieren. Es ist auch in der Lage, bedingte Spracherzeugung und Text-zu-Sprache-Synthese vollständig Ende-zu-Ende zu ermöglichen.

Referenz:arXiv:1906.01083 | GitHub

Um den Informationsverlust zu reduzieren und die übermäßige Glättung zu begrenzen, modellierten sie hochauflösende Spektrogramme bzw. verwendeten ein hochgradig ausdrucksstarkes autoregressives Modell.

Die Ergebnisse sind beeindruckend

Die Forscher trainierten MelNet in zahlreichen Ted-Vorträgen, und es war dann in der Lage, die Stimme des Sprechers zu regenerieren, die über einige Sekunden zufällige Sätze sagte. Unten sind zwei Beispiele dafür, wie MelNet die Stimme von Bill Gates verwendet, um zufällige Sätze zu sagen.

https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

„Port ist ein starker Wein mit einem rauchigen Geschmack.“

https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

"Wir runzeln die Stirn, wenn die Ereignisse eine schlechte Wendung nehmen."

Weitere Beispiele sind auf GitHub verfügbar.

Obwohl MelNet bemerkenswert lebensechte Audioclips erstellt, kann es keine längeren Sätze oder Absätze generieren. Dennoch könnte das System die Computer-Mensch-Interaktion verbessern.

Viele Kundenbetreuungsgespräche beinhalten kurze Sätze. MelNet kann verwendet werden, um solche Interaktionen zu automatisieren oder das aktuelle automatisierte Sprachsystem zu ersetzen, um das Anrufererlebnis zu verbessern.

Lesen Sie:Facebook AI konvertiert Musik von einem Stil in einen anderen

Eine negative Anmerkung ist, dass die Technologie das Gespenst einer neuen Ära gefälschter Audioinhalte aufkommen lässt. Und wie andere Fortschritte in der künstlichen Intelligenz wirft sie mehr ethische Fragen auf, als sie beantwortet.

Neue elektronische Haut kann menschenähnlichen Tastsinn haben Wissenschaftler entwickeln eine neue Methode, um Bildschirme heller und effizienter zu machen

Industrietechnik

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik