Facebook AI transformiert Musik über Genres und Instrumente hinweg

Das Facebook-KI-Forschungsteam baut ein universelles Musikübersetzungsnetzwerk auf.
Es reproduziert den gehörten Ton und gibt ihn in verschiedenen Stilen, Genres und Instrumenten wieder.
Es kann ungehörte Musikquellen wie Klatschen oder Pfeifen verarbeiten und qualitativ hochwertigen Ton erzeugen.

Wenn es um Musik geht, waren Menschen schon immer kreativ darin, Lieder nachzubilden und sie in verschiedene andere Formen umzuwandeln, indem sie klatschen, pfeifen oder auf verschiedenen Instrumenten spielen.

Obwohl Musik einer der ersten Bereiche ist, der von Computermaschinen und Algorithmen digitalisiert und verarbeitet wurde, ist die heutige künstliche Intelligenz dem Menschen bei der Nachahmung von Audiodaten immer noch deutlich unterlegen.

Jetzt hat das Facebook-KI-Forschungsteam ein universelles Musikübersetzungsnetzwerk entwickelt, das Musik von einer Form in eine andere konvertieren kann. Es reproduziert die Musik, die es hört, und gibt sie in verschiedenen Stilen, Genres und Instrumenten wieder.

Wie haben sie das gemacht?

Dieses KI-System basiert auf zwei neuesten Technologien

Synthese hochwertiger Audiodaten durch autoregressive Modelle
Unüberwachte Transformation zwischen Domänen

Die autoregressiven Modelle werden als Decoder trainiert und können qualitativ hochwertige und realistische Audiosignale erzeugen. Die zweite Technologie ist dafür verantwortlich, die Dinge praktischer zu gestalten, da die Bewältigung von Lernproblemen in überwachten Umgebungen einen großen Datensatz zahlreicher Musikinstrumente erfordern würde.

Die Forscher entwickelten einen universellen Encoder und wendeten ihn für jeden Eingang an. Dadurch entfällt der Aufwand für das Training des gesamten Netzwerks und die Konvertierung unbekannter Musikdomänen in alle anderen angetroffenen Domänen wird ermöglicht.

Netzwerkarchitektur | Domänenverwirrung wird nur während des Trainings angewendet

Sie trainierten einen universellen Encoder [über das Domain Confusion Network] und stellten gleichzeitig sicher, dass die domänenspezifischen Daten nicht codiert werden. Der Universal-Encoder speichert die Eingabedaten nicht, sondern kodiert sie semantisch. Zu diesem Zweck verzerrten die Forscher das Eingangssignal (Audioformat) durch zufällige lokale Tonhöhenmodulation.

Referenz: arXiv:1805.07848

Da das Netzwerk als automatischer Encoder zur Rauschunterdrückung ausgebildet ist, ist es in der Lage, die unverzerrte Form des ursprünglichen Eingangssignals wiederherzustellen. Das System lernt nach und nach, Eingangssignale außerhalb der Domäne in die entsprechende Ausgangsdomäne zu projizieren.

Die Forscher trainierten ihr Netzwerk auf sechs Arten von Domänen klassischer Musik, darunter Tausende von Samples aus diesen Domänen. Sie führten das cuDNN-beschleunigte PyTorch-Deep-Learning-Framework auf 8 NVIDIA Tesla V100-GPUs aus. Es dauerte 8 Tage, bis das Netzwerk vollständig trainiert war.

Ergebnisse

Die KI ist nicht so gut wie bei professionellen Musikern, aber oft fällt es den Zuhörern schwer zu unterscheiden, welches der Originalton ist und welcher künstlich erzeugt wurde.

Das System kann ungehörte Musikquellen wie Klatschen oder Pfeifen effektiv verarbeiten und Audio in höchster Qualität erzeugen. Man kann neue Musikinstrumente integrieren, ohne das komplette Netzwerk neu trainieren zu müssen.

Lesen Sie:Facebook-KI-Roboter wurden abgeschaltet – Was ist eigentlich passiert?

Den Entwicklern zufolge könnte ihre Arbeit neue Türen für andere komplexe Aufgaben öffnen, wie etwa die automatische Komposition und Transkription von Musik. Darüber hinaus kann man Decoder „kreativer“ machen, indem man die Größe des latenten Raums verringert, was es ihm ermöglicht, aufregende natürliche Ausgaben in dem Sinne zu erzeugen, dass die Assoziation mit dem Originalton verloren geht.

Das Tiny House der Welt:Eine 20-Mikrometer-Mikrostruktur Sagen Sie Ihre Lebensdauer mit KI anhand Ihrer Smartphone-Daten voraus

Industrietechnik

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik