Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

Facebook AI transformiert Musik über Genres und Instrumente hinweg

Wenn es um Musik geht, waren Menschen schon immer kreativ darin, Lieder nachzubilden und sie in verschiedene andere Formen umzuwandeln, indem sie klatschen, pfeifen oder auf verschiedenen Instrumenten spielen.

Obwohl Musik einer der ersten Bereiche ist, der von Computermaschinen und Algorithmen digitalisiert und verarbeitet wurde, ist die heutige künstliche Intelligenz dem Menschen bei der Nachahmung von Audiodaten immer noch deutlich unterlegen.

Jetzt hat das Facebook-KI-Forschungsteam ein universelles Musikübersetzungsnetzwerk entwickelt, das Musik von einer Form in eine andere konvertieren kann. Es reproduziert die Musik, die es hört, und gibt sie in verschiedenen Stilen, Genres und Instrumenten wieder.

Wie haben sie das gemacht?

Dieses KI-System basiert auf zwei neuesten Technologien

  1. Synthese hochwertiger Audiodaten durch autoregressive Modelle
  2. Unüberwachte Transformation zwischen Domänen

Die autoregressiven Modelle werden als Decoder trainiert und können qualitativ hochwertige und realistische Audiosignale erzeugen. Die zweite Technologie ist dafür verantwortlich, die Dinge praktischer zu gestalten, da die Bewältigung von Lernproblemen in überwachten Umgebungen einen großen Datensatz zahlreicher Musikinstrumente erfordern würde.

Die Forscher entwickelten einen universellen Encoder und wendeten ihn für jeden Eingang an. Dadurch entfällt der Aufwand für das Training des gesamten Netzwerks und die Konvertierung unbekannter Musikdomänen in alle anderen angetroffenen Domänen wird ermöglicht.

Netzwerkarchitektur | Domänenverwirrung wird nur während des Trainings angewendet 

Sie trainierten einen universellen Encoder [über das Domain Confusion Network] und stellten gleichzeitig sicher, dass die domänenspezifischen Daten nicht codiert werden. Der Universal-Encoder speichert die Eingabedaten nicht, sondern kodiert sie semantisch. Zu diesem Zweck verzerrten die Forscher das Eingangssignal (Audioformat) durch zufällige lokale Tonhöhenmodulation.

Referenz: arXiv:1805.07848

Da das Netzwerk als automatischer Encoder zur Rauschunterdrückung ausgebildet ist, ist es in der Lage, die unverzerrte Form des ursprünglichen Eingangssignals wiederherzustellen. Das System lernt nach und nach, Eingangssignale außerhalb der Domäne in die entsprechende Ausgangsdomäne zu projizieren.

Die Forscher trainierten ihr Netzwerk auf sechs Arten von Domänen klassischer Musik, darunter Tausende von Samples aus diesen Domänen. Sie führten das cuDNN-beschleunigte PyTorch-Deep-Learning-Framework auf 8 NVIDIA Tesla V100-GPUs aus. Es dauerte 8 Tage, bis das Netzwerk vollständig trainiert war.



Ergebnisse

Die KI ist nicht so gut wie bei professionellen Musikern, aber oft fällt es den Zuhörern schwer zu unterscheiden, welches der Originalton ist und welcher künstlich erzeugt wurde.

Das System kann ungehörte Musikquellen wie Klatschen oder Pfeifen effektiv verarbeiten und Audio in höchster Qualität erzeugen. Man kann neue Musikinstrumente integrieren, ohne das komplette Netzwerk neu trainieren zu müssen.

Lesen Sie:Facebook-KI-Roboter wurden abgeschaltet – Was ist eigentlich passiert?

Den Entwicklern zufolge könnte ihre Arbeit neue Türen für andere komplexe Aufgaben öffnen, wie etwa die automatische Komposition und Transkription von Musik. Darüber hinaus kann man Decoder „kreativer“ machen, indem man die Größe des latenten Raums verringert, was es ihm ermöglicht, aufregende natürliche Ausgaben in dem Sinne zu erzeugen, dass die Assoziation mit dem Originalton verloren geht.


Industrietechnik

  1. Was ist eine eindeutige Identifikation (UID)?
  2. Die Zukunft ist da:Wie Fortschritte in der Elektronik andere Branchen informieren
  3. Wegweisend für fortschrittliche Fertigung:MAC Products ist führend bei Industrie 4.0-Innovationen
  4. Fertigung von Baustahlträgern
  5. 3D-Druck von Mikromerkmalen mit dem mikrofeinen Material der Stereolithographie
  6. Wie überwacht man die Leistung des technischen Personals?
  7. Erfassen von magnetischen Wechselfeldern
  8. Wie beschleunigen wir die Digitalisierung der Lieferkette?
  9. Schneller Prototyp für die Präzisionsbearbeitung
  10. Biasing-Techniken (BJT)