Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

Die neue KI von Google kann ein Video nur mit den Start- und End-Frames erstellen

Jüngste Fortschritte bei Architekturen künstlicher neuronaler Netze und generativer feindlicher Netze haben die Entwicklung von Bild-/Video-Syntheseverfahren vorangetrieben. Die meisten der bestehenden Forschungen konzentrieren sich auf zwei Operationen:bedingungslose Videoerzeugung und Videovorhersage. Beides beinhaltet das Generieren/Vorhersagen neuer plausibler Videos mit einer begrenzten Anzahl vergangener Frames.

Kürzlich hat sich ein Forschungsteam bei Google mit dem Problem beschäftigt, vielfältige und plausible Videosequenzen zu erstellen, wenn nur zwei Frames (ein Start- und ein Endframe) verfügbar sind. Der Prozess, der als Inbetweening bezeichnet wird, wird normalerweise durch Trainieren/Läufen rekurrenter neuronaler Netze durchgeführt, wobei entweder gated rekurrente Einheiten oder das Langzeit-Kurzzeitgedächtnis verwendet werden.

In dieser Studie haben die Forscher jedoch gezeigt, dass dieses Problem (Inbetweening) durch ein 3D-Faltungsneuralnetzwerk angegangen werden kann. Ein großer Vorteil dieser Methode ist die Einfachheit. Da kein wiederkehrendes Element verwendet wird, können die kürzeren Gradientenpfade tiefere Netzwerke und ein stabileres Training ermöglichen.

Vollständiges Faltungsmodell

In einem Faltungsnetzwerk ist es recht einfach, die zeitliche Konsistenz mit den Start- und Endframes (als Eingaben bereitgestellt) zu erzwingen. Das Modell hat 3 Schlüsselkomponenten –

  1. Ein 2D-Faltungsbild-Encoder zum Zuordnen von Eingabeschlüsselbildern zu einem latenten Raum.
  2. Ein 3D-Convolutional Latent Representation Generator zum Einbinden der Daten der Eingabeframes mit zunehmender zeitlicher Auflösung.
  3. Ein Videogenerator zum Dekodieren der latenten Darstellung in Videoframes.

Referenz:arXiv:1905.10240 | NVIDIA

Das Team versuchte, das Video direkt aus den kodierten Darstellungen der Start- und Endframes zu erstellen, aber die Ergebnisse waren nicht optimal. Aus diesem Grund haben sie den Latent-Repräsentations-Generator entwickelt, der die Keyframe-Repräsentationen stochastisch verschmilzt und die zeitliche Auflösung des endgültigen Videos stetig erhöht.

Testen

Das Team testete sein Modell an verschiedenen öffentlich verfügbaren Datensätzen, darunter UCF101 Action Recognition, BAIR und KTH Action Database.

Beispiele für Frames, die mit dem neuen Modell erstellt wurden | Mit freundlicher Genehmigung der Forscher 

Das Endergebnis:Jede einzelne Probe im Datensatz enthielt insgesamt 16 Frames, von denen 14 von Convolutional Neural Networks generiert wurden. Das Modell wurde für jedes einzelne Keyframe-Paar mehr als hundert Mal ausgeführt, und der gesamte Vorgang wurde für jede Modellvariante 10x wiederholt.

Lesen Sie:Neue KI konvertiert Schwarzweißvideos in Echtzeit in Farbe

In allen Fällen war das Modell in der Lage, realistische Videosequenzen zu erstellen, da die Keyframes etwa 1/2 Sekunde voneinander entfernt sind. Darüber hinaus zeigten die Forscher, dass es möglich ist, eine Vielzahl von Sequenzen zu erstellen, indem man einfach den Eingangsrauschvektor ändert, der den generativen Prozess antreibt. Diese neue Methode kann eine wertvolle alternative Perspektive für zukünftige Studien zur Videoerstellung bieten.


Industrietechnik

  1. Einfacher Einstieg in die Welt des IoT mit MQTT
  2. Schnelles SLA-Prototyping mit dem neuen Harzentwurf
  3. Die neue KI von Google kann ein Video nur mit den Start- und End-Frames erstellen
  4. Wie können wir Bildung mit dem Internet der Dinge vereinfachen?
  5. Beginnen Sie mit dem (Cybersicherheits-)Ende im Hinterkopf
  6. Wie die Automatisierung von Kundenaufträgen während der Pandemie für Stabilität sorgen kann
  7. Das Ende der Single-Source-Lieferketten
  8. Überdenken Sie Ihre Lieferkette? Beginnen Sie mit dem Lager
  9. Wie Einzelhändler die Auswirkungen neuer Versandzuschläge abschwächen können
  10. Das Ende einer Ära, der Beginn eines neuen Kapitels bei DVIRC