Microsoft stellt AttnGAN vor:KI, die Textbeschreibungen in fotorealistische Bilder umwandelt

AttnGAN von Microsoft kann hochauflösende Bilder aus reinem Text und Bildunterschriften generieren.
Das System verwendet eine Zwei-Modell-Architektur:einen Generator, der das Bild erstellt, und einen Diskriminator, der seinen Realismus bewertet.
Es fügt kontextrelevante Details über die Eingabeaufforderung hinaus hinzu und demonstriert so eine interne „Imaginationsebene“.
Mögliche zukünftige Anwendungen umfassen die vollständig automatisierte, durch Skripte gesteuerte Animationsproduktion.

Während frühere Bemühungen die Text-zu-Bild-Synthese verbessert haben, bringt AttnGAN von Microsoft einen Fortschritt auf diesem Gebiet, indem es fotorealistische Bilder aus prägnanten Textaufforderungen generiert und dabei eine umfangreiche Bibliothek beschrifteter Bilder nutzt.

AttnGAN wurde bei Microsoft Research entwickelt und analysiert einzelne Wörter in einer Eingabeaufforderung, um die Bildkonstruktion zu steuern. Nach Angaben des Teams liefert der Ansatz eine etwa dreimal höhere Bildqualität als frühere Modelle auf dem neuesten Stand der Technik.

Der kreative Prozess des Bots

Stellen Sie sich vor, Sie würden einen blauen Vogel mit roten Flügeln und einem kurzen Schnabel zeichnen. Sie würden mit einem groben Umriss beginnen und dann Farben und Details hinzufügen. AttnGAN folgt der gleichen Logik und analysiert jedes Wort, um ein detailliertes, kohärentes Bild zu erstellen.

Der Bot kann jedes Motiv rendern – von Gadgets bis hin zu Wildtieren – und fügt oft kontextbezogene Hintergrundelemente hinzu, die nicht explizit erwähnt wurden, was seine Fähigkeit für „imaginäre“ Details unter Beweis stellt.

Die Bilder werden Pixel für Pixel von Grund auf synthetisiert, sodass das Modell Szenen erstellen kann, die in der Realität möglicherweise nicht existieren. Diese generative Aufgabe ist von Natur aus komplexer als das bloße Beschriften eines vorhandenen Fotos.

Wie AttnGAN Bilder generiert

Generator: Erstellt Bilder basierend auf der Textbeschreibung.
Diskriminator: Bewertet die Authentizität des generierten Bildes anhand der Beschreibung.

Beide Modelle werden gemeinsam trainiert, sodass der Generator aus dem Feedback des Diskriminators lernen und eine zunehmend höhere Wiedergabetreue erreichen kann.

Das Training umfasste Tausende gepaarter Bildunterschriften-Datensätze und lehrte AttnGAN, bestimmte Wörter visuellen Mustern zuzuordnen. Beispielsweise veranlasst das Wort „Elefant“ das Modell dazu, ein Bild zu erstellen, das dem Aussehen eines typischen Elefanten entspricht.

Das System zerlegt komplexe Sätze in einzelne Wörter und richtet jedes Wort an einem Bereich des Bildes aus. Während des Trainings lernt es auch „künstlichen gesunden Menschenverstand“, um fehlende Details zu ergänzen und so eine realistische Komposition zu gewährleisten.

Microsoft stellt AttnGAN vor:KI, die Textbeschreibungen in fotorealistische Bilder umwandelt

In diesem Beispiel wurde in der Eingabeaufforderung nur ein Vogel erwähnt. AttnGAN platzierte den Vogel intelligent auf einem Ast, einem gemeinsamen realen Kontext, der aus seinen Trainingsdaten gelernt wurde. Dies zeigt die Fähigkeit des Modells, Kontextwissen anzuwenden.

arXiv:1711.10485 – Microsoft-Forschungspapier zu AttnGAN.

Als das Modell aufgefordert wurde, einen auf einem See schwimmenden Doppeldeckerbus darzustellen, erzeugte es eine verschwommene, aber erkennbar gemischte Szene, die seine Bemühungen, widersprüchliche Elemente in der Aufforderung in Einklang zu bringen, deutlich machte.

Leistung und Anwendungsfälle

AttnGAN übertrifft frühere Benchmarks und erreicht eine Verbesserung von 170,25 % gegenüber dem Anfangswert des COCO-Datensatzes und einen Zuwachs von 14,14 % gegenüber dem CUB-Datensatz.

Mögliche Anwendungen umfassen Skizzenassistenten für Innenarchitekten, sprachaktivierte Fotoveredelung und, mit Weiterentwicklung, die vollautomatische Animationsproduktion aus Drehbüchern.

Andere KI-Kunstgeneratoren

Microsoft ist nicht der Einzige, der Kunst und KI miteinander verbindet. Googles DeepDream hat psychedelische Bilder erstellt, die 2016 präsentiert wurden, während seine KI Musik- und Sprachsynthesen wie Tacotron2 erzeugt hat. Facebook und Nvidia haben auch generative Modelle für Autos, Schiffe, Tiere und sogar synthetische Promi-Avatare veröffentlicht.

Lesen Sie mehr über Googles menschenähnliche Sprach-KI Tacotron2 .

Durchbruch beim Elektroantrieb beschleunigt Nanoroboter 100.000-mal schneller Russland genehmigt schwimmendes 70-MW-Atomkraftwerk zur Stromversorgung von Tschukotka

Industrietechnik

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik