Google AI erreicht Objektverfolgung durch Videokolorierung – einen selbstüberwachten Ansatz

Neues Faltungsnetzwerk lernt, Farben von einem Referenzrahmen in nachfolgende Rahmen zu kopieren.
Dabei kann es verschiedenen Objekten folgen und durch Verdeckungen verfolgen.
Es kann auch menschliche Posen verfolgen.

Maschinen beizubringen, Objekte in einem Video zu verfolgen, ist eine der schwierigsten Aufgaben in der Bildverarbeitung, vor allem weil für die Verfolgung ein riesiger, beschrifteter Trainingsdatensatz erforderlich ist. Natürlich wäre es unpraktisch, alles aufzuzeichnen und zu kennzeichnen, was auf der Erde geschieht.

Aus diesem Grund ist es notwendig, ein System aufzubauen, das lernt, ohne menschliche Aufsicht zu verfolgen, anstatt eine enorme Menge roher, unbeschrifteter Clips zu verwenden. Warum ist das so wichtig, haben Sie gefragt? Nun, das Verfolgen von Objekten in Videos könnte für zahlreiche Anwendungen nützlich sein, wie z. B. Objektinteraktion, Aktivitätserkennung, Videostilisierung und vieles mehr.

Jetzt haben Forscher bei Google ein Faltungsnetzwerk entwickelt, das lernt, Farben aus einem einzelnen Referenzrahmen zu kopieren. Anstatt zu versuchen, Farben direkt aus einem Graustufenbild zu schätzen, ist das Modell darauf beschränkt, die Farben des ersten Referenzbilds des Videos zu verwenden.

Um die richtigen Farben zu kopieren, muss das Netzwerk lernen, intern auf die richtige Region zu verweisen. Dieses neue Modell kann verschiedenen Objekten folgen und Verdeckungen verfolgen, ohne dass es an großen beschrifteten Datensätzen trainiert werden muss.

Rekolorierungsvideos

Um dieses künstliche Intelligenzsystem zu entwickeln, haben Forscher die zeitliche Kohärenz von Farben genutzt, die umfangreiche Trainingsdaten bietet, um Faltungsnetzwerken beizubringen, bestimmte Teile im Video zu verfolgen. Es gibt Ausnahmefälle, in denen Farben zeitlich nicht kohärent sind, beispielsweise beim sofortigen Einschalten von Lichtern. Im Allgemeinen bleiben die Farben jedoch im Laufe der Zeit stabil.

Vorhergesagte Farben aus kolorierter Einzelbildreferenz | Bildnachweis:Google

Zuerst wird das Video entfärbt und dann führt das Netzwerk Kolorierungsschritte durch, da eine Szene verschiedene Objekte derselben Farbe enthalten kann. Auf diese Weise kann die Maschine lernen, bestimmte Regionen oder Objekte zu verfolgen.

Schulung

Die Forscher verwendeten den Kinetics-Datensatz (enthält eine halbe Million Videoclips, die alltägliche Aktivitäten darstellen), um ihr Modell zu trainieren. Sie wandelten alle Videobilder, mit Ausnahme des ersten, in Graustufen um und trainierten das Netzwerk, die richtigen Farben in den folgenden Bildern zu schätzen.

Um Originalfarben aus einem einzelnen Frame zu kopieren, hat das Faltungsnetzwerk gelernt, intern auf die richtigen Farben zu verweisen. Dies zwang das Netzwerk dazu, einem expliziten Mechanismus zu folgen, der zur Objektverfolgung verwendet werden kann.

Das Netzwerk verfolgt Objekte ohne Aufsicht | Bildnachweis:Google

Obwohl das Modell nicht auf solide Identitäten trainiert ist, lernt es, jedes Objekt oder jeden visuellen Teil im Video mit nur einem einzigen (ersten) Bild zu verfolgen. Es kann einen einzelnen Punkt oder ein umrissenes Objekt im Video verfolgen.

Referenz: arXiv:1806.09594 | Google AI-Blog

Um Objekte aus kolorierten Videos zu verfolgen, nahmen die Forscher nur eine Änderung vor:Sie propagierten Beschriftungen, die Zielregionen darstellen, anstatt Farben im gesamten Clip zu verbreiten.

Pose-Tracking

Verfolgung der Bewegungen des menschlichen Skeletts | Bildnachweis:Google

Das Netzwerk ist auch in der Lage, menschliche Posen zu verfolgen:Es benötigt einen mit Schlüsselpunkten beschrifteten Anfangsrahmen und erledigt den Rest der Arbeit. Die Schlüsselpunkte in den folgenden Bildern vorherzusagen ist jedoch nicht so einfach, wie es sich anhört, da Sie eine feinkörnige Lokalisierung jedes Schlüsselpunkts benötigen, wenn Personen im Video eine Verformung erfahren.

Die Forscher demonstrierten die Posenverfolgungsfunktion des Netzwerks anhand des JHMDB-Datensatzes (ein vollständig kommentierter Datensatz für menschliche Posen und Aktionen), bei dem sie ein menschliches Gelenkskelett verfolgten.

Das Netzwerk erzielt eine ähnliche Leistung wie der optische Fluss, was darauf hindeutet, dass es möglicherweise einige Bewegungsmerkmale lernt. Es lernt, menschliche Posen und Videosegmente gut genug zu verfolgen, um die neuesten auf dem optischen Fluss basierenden Techniken leicht zu übertreffen.

Lesen Sie:Google AI kann kurze Videoclips aus zwei Standbildern erstellen

Das Modell ist noch nicht perfekt. In einigen Experimenten gelang es nicht, Videos einzufärben und Segmente zu verfolgen. Daher planen Forscher, den Prozess der Videokolorierung weiter zu verbessern, was letztendlich zu einer verbesserten selbstüberwachten Nachverfolgung führen könnte.

KI erkennt Krankheiten, einschließlich Krebs, anhand des menschlichen Atems KI ermöglicht Echtzeit-3D-Haardarstellung mit 30.000 Strähnen

Industrietechnik

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik