Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

Microsoft stellt AttnGAN vor:KI, die Textbeschreibungen in fotorealistische Bilder umwandelt

Während frühere Bemühungen die Text-zu-Bild-Synthese verbessert haben, bringt AttnGAN von Microsoft einen Fortschritt auf diesem Gebiet, indem es fotorealistische Bilder aus prägnanten Textaufforderungen generiert und dabei eine umfangreiche Bibliothek beschrifteter Bilder nutzt.

AttnGAN wurde bei Microsoft Research entwickelt und analysiert einzelne Wörter in einer Eingabeaufforderung, um die Bildkonstruktion zu steuern. Nach Angaben des Teams liefert der Ansatz eine etwa dreimal höhere Bildqualität als frühere Modelle auf dem neuesten Stand der Technik.

Der kreative Prozess des Bots

Stellen Sie sich vor, Sie würden einen blauen Vogel mit roten Flügeln und einem kurzen Schnabel zeichnen. Sie würden mit einem groben Umriss beginnen und dann Farben und Details hinzufügen. AttnGAN folgt der gleichen Logik und analysiert jedes Wort, um ein detailliertes, kohärentes Bild zu erstellen.

Der Bot kann jedes Motiv rendern – von Gadgets bis hin zu Wildtieren – und fügt oft kontextbezogene Hintergrundelemente hinzu, die nicht explizit erwähnt wurden, was seine Fähigkeit für „imaginäre“ Details unter Beweis stellt.

Die Bilder werden Pixel für Pixel von Grund auf synthetisiert, sodass das Modell Szenen erstellen kann, die in der Realität möglicherweise nicht existieren. Diese generative Aufgabe ist von Natur aus komplexer als das bloße Beschriften eines vorhandenen Fotos.

Wie AttnGAN Bilder generiert

  1. Generator: Erstellt Bilder basierend auf der Textbeschreibung.
  2. Diskriminator: Bewertet die Authentizität des generierten Bildes anhand der Beschreibung.

Beide Modelle werden gemeinsam trainiert, sodass der Generator aus dem Feedback des Diskriminators lernen und eine zunehmend höhere Wiedergabetreue erreichen kann.

Das Training umfasste Tausende gepaarter Bildunterschriften-Datensätze und lehrte AttnGAN, bestimmte Wörter visuellen Mustern zuzuordnen. Beispielsweise veranlasst das Wort „Elefant“ das Modell dazu, ein Bild zu erstellen, das dem Aussehen eines typischen Elefanten entspricht.

Das System zerlegt komplexe Sätze in einzelne Wörter und richtet jedes Wort an einem Bereich des Bildes aus. Während des Trainings lernt es auch „künstlichen gesunden Menschenverstand“, um fehlende Details zu ergänzen und so eine realistische Komposition zu gewährleisten.

Microsoft stellt AttnGAN vor:KI, die Textbeschreibungen in fotorealistische Bilder umwandelt

In diesem Beispiel wurde in der Eingabeaufforderung nur ein Vogel erwähnt. AttnGAN platzierte den Vogel intelligent auf einem Ast, einem gemeinsamen realen Kontext, der aus seinen Trainingsdaten gelernt wurde. Dies zeigt die Fähigkeit des Modells, Kontextwissen anzuwenden.

arXiv:1711.10485 – Microsoft-Forschungspapier zu AttnGAN.

Microsoft stellt AttnGAN vor:KI, die Textbeschreibungen in fotorealistische Bilder umwandelt

Als das Modell aufgefordert wurde, einen auf einem See schwimmenden Doppeldeckerbus darzustellen, erzeugte es eine verschwommene, aber erkennbar gemischte Szene, die seine Bemühungen, widersprüchliche Elemente in der Aufforderung in Einklang zu bringen, deutlich machte.

Leistung und Anwendungsfälle

AttnGAN übertrifft frühere Benchmarks und erreicht eine Verbesserung von 170,25 % gegenüber dem Anfangswert des COCO-Datensatzes und einen Zuwachs von 14,14 % gegenüber dem CUB-Datensatz.

Mögliche Anwendungen umfassen Skizzenassistenten für Innenarchitekten, sprachaktivierte Fotoveredelung und, mit Weiterentwicklung, die vollautomatische Animationsproduktion aus Drehbüchern.

Andere KI-Kunstgeneratoren

Microsoft ist nicht der Einzige, der Kunst und KI miteinander verbindet. Googles DeepDream hat psychedelische Bilder erstellt, die 2016 präsentiert wurden, während seine KI Musik- und Sprachsynthesen wie Tacotron2 erzeugt hat. Facebook und Nvidia haben auch generative Modelle für Autos, Schiffe, Tiere und sogar synthetische Promi-Avatare veröffentlicht.

Lesen Sie mehr über Googles menschenähnliche Sprach-KI Tacotron2 .


Industrietechnik

  1. Lager sind der Schlüssel zur Effizienz der Lieferkette
  2. Eisen-Kohlenstoff-Gleichgewichtsdiagramm mit Erläuterung [Phasendiagramm]
  3. Steuerreform lässt Hersteller in ihre Zukunft investieren
  4. Beschleunigen Sie jetzt:Steigern Sie den schnellen und kontinuierlichen Wert durch einen Ökosystemansatz
  5. Ultimativer Leitfaden zum Schenken von Wartungsteams
  6. Brückenschaltungen
  7. Bohren, Reiben oder Aufbohren:Schnellarbeitsstahl vs. Hartmetallwerkzeuge
  8. Ein Leitfaden zur Erstellung eines Gerätewartungsprogramms
  9. 4 Under-the-Radar-Tipps für 5-Achsen-CNC-Produktivität
  10. Wie richte ich Lean Six Sigma ein?