Echtzeit-KI koloriert Schwarzweißvideos sofort mit unübertroffener Genauigkeit
- Mit dem neuen Deep-Learning-Algorithmus können Redakteure schnell ein ganzes Video einfärben, indem sie ein Bild in der Szene einfärben.
- Es ist äußerst genau, effizient und bis zu 50-mal schneller als frühere Methoden.
Videos bestehen aus vielen redundanten Daten zwischen den Bildern und es nimmt sehr viel Zeit in Anspruch, jedes Schwarz-Weiß-Bild manuell einzufärben. Diese Arten von Redundanzen wurden bei der Videokodierung und -komprimierung ausführlich untersucht, bei der fortgeschrittenen Videoverarbeitung wie dem Kolorieren eines Clips jedoch weniger.
Es gibt zahlreiche Algorithmen (wie das bilaterale CNN-Modell, die ähnlichkeitsgesteuerte Filterung, das auf dem optischen Fluss basierende Warping), die lokale Beziehungen zwischen aufeinanderfolgenden Frames verarbeiten, um Daten weiterzugeben. Sie verwenden entweder scheinbare Bewegung oder vorgefertigte Funktionen auf Pixelebene, um die Ähnlichkeiten zwischen Bildern und Pixeln zu modellieren.
Allerdings weisen diese Algorithmen mehrere Einschränkungen auf, zum Beispiel können sie die übergeordneten Beziehungen zwischen Einzelbildern nicht ausdrücken und die Struktur des Bildes nicht genau wiedergeben. Um diese Einschränkungen zu überwinden, haben Forscher bei NVIDIA einen neuen Algorithmus entwickelt, der auf einer Deep-Learning-Methode basiert und es den Redakteuren ermöglicht, schnell einen ganzen Clip einzufärben, indem sie ein einzelnes Bild in der Szene einfärben.
Wie funktioniert es?
Um die Ähnlichkeit auf hoher Ebene zwischen aufeinanderfolgenden Frames explizit zu lernen, haben Forscher ein zeitliches Ausbreitungsnetzwerk entwickelt, das aus einer Ausbreitungskomponente zum Übertragen der Eigenschaften (wie Farbe) eines Frames auf einen anderen besteht. Dazu wird eine lineare Transformationsmatrix verwendet, die von einem Faltungs-Neuronalen Netzwerk (CNN) gesteuert wird.
Das CNN entscheidet, welche Farben aus dem kolorierten Rahmen übertragen werden sollen, und füllt diese in die verbleibenden Schwarz-Weiß-Rahmen ein. Wie unterscheidet sich diese Technik von anderen, haben Sie gefragt? Nun, eine bessere Kolorierung kann durch einen interaktiven Ansatz erreicht werden, bei dem der Editor einen Teil eines Bildes mit Anmerkungen versehen kann, was zu einem fertigen Produkt führt.
Für die Lernausbreitung im zeitlichen Bereich haben die Forscher zwei Regeln durchgesetzt. Erstens muss die Ausbreitung zwischen Frames invertierbar sein. Zweitens muss das Zielelement während des gesamten Prozesses erhalten bleiben.
Sie zeigten, dass die vorgeschlagene Technik keine bildbasierte Segmentierungsmethode erfordert, um anständige Ergebnisse zu erzielen, die mit bestehenden, auf dem neuesten Stand der Technik stehenden Methoden vergleichbar sind.
Referenz: arXiv:1804.08758 | NVIDIA
Um dieses Netzwerk zu trainieren, verwendeten die Forscher NVIDIA Titan XP-GPUs. Es wurde an Hunderten von Clips aus mehreren Datensätzen für hohen Dynamikbereich, Farbe und Maskenausbreitung trainiert. Das Netzwerk ist auf dem ACT-Datensatz konfiguriert, der 7.260 Videosequenzen mit etwa 600.000 Bildern enthält.
Vorteile der vorgeschlagenen Technik
- Hohe Genauigkeit: Die neue Methode erreicht eine weitaus bessere Videoqualität im Vergleich zu früheren Arbeiten.
- Hohe Effizienz: Die Ausführung erfolgt in Echtzeit, was bis zu 50-mal schneller ist als frühere Methoden. Es verbessert die Effizienz weiter, indem alle Videobilder parallel verarbeitet werden.
Lesen Sie:Nvidia AI kann 30-fps-Videos in 240-fps konvertieren
Die aktuelle Technik bietet eine einfache Möglichkeit, Daten in Clips über die Zeit zu verbreiten. In den kommenden Jahren werden Forscher versuchen herauszufinden, wie sie hochrangige visuelle Hinweise wie Verfolgung, Semantik und Segmentierung für die zeitliche Ausbreitung integrieren können.
Industrietechnik
- Unterschied zwischen Reibungsantrieb und Eingriffsantrieb
- Was ist eine Schleifmaschine? - Definition und Typen
- KI kann Drei-Körper-Problem 100 Millionen Mal schneller lösen
- Persönliche Schutzausrüstung:Letzte Verteidigungslinie, aber oberstes Gebot
- Die 10 Kodierungsregeln der NASA zum Schreiben sicherheitskritischer Programme
- Fünf Möglichkeiten, während des Cyber-Wochenendes mit großen Einzelhändlern zu konkurrieren
- Produktionsproblem gelöst, ein Pellet nach dem anderen
- Sie sind nichts Besonderes, aber Ihre Einkäufe sind (Infografik)
- Top 13 Alternativen zu Redlock im Jahr 2026:Umfassende Cloud-Sicherheitskonkurrenten
- 25 Lagerprofis und Unternehmensleiter enthüllen die besten Möglichkeiten, den Lagerbestand im Auge zu behalten