KI erzeugt Bilder einer fertigen Mahlzeit aus einem einfachen textbasierten Rezept
- Neues auf Deep Learning basierendes System kann automatisch Bilder aus einer langen textbasierten Beschreibung generieren.
- Forscher demonstrierten ein Netzwerk, das ein Rezept als Eingabe verwendet und ein Bild von Grund auf neu erstellt.
Das Generieren von Bildern aus einer kurzen visuellen Beschreibung ist eine anspruchsvolle Aufgabe und hat zahlreiche Anwendungen im Bereich Computer Vision. Jüngste Studien haben bewiesen, dass Generative Adversarial Networks (GAN) qualitativ hochwertige, realistische Bilder mit niedriger Auflösung und geringer Variabilität effektiv synthetisieren können.
Ein kürzlich von einem Forschungsteam der Universität Tel Aviv, Israel, geleisteter Beitrag kann dazu beitragen, die Forschung auf diesem Gebiet zu beschleunigen. Sie haben ein auf Deep Learning basierendes Modell erstellt, das automatisch Bilder aus einer textbasierten Beschreibung erstellen kann.
Insbesondere haben sie ihr System demonstriert, das Bilder einer fertigen Mahlzeit aus einem einfachen schriftlichen Rezept erzeugt. Dazu verwendet das System eine Kombination aus hochmodernem Stacked GAN und lernenden modalen Einbettungen für Kochrezepte und Lebensmittelbilder.
Bedingte generative gegnerische Netzwerke
Grundsätzlich bestehen GANs aus zwei Modellen (Generator und Diskriminator), die darauf trainiert sind, miteinander zu konkurrieren. Der Generator wurde entwickelt, um Bilder ähnlich der Originaldatenverteilung zu synthetisieren, während die Aufgabe des Diskriminators darin besteht, zwischen Original- und synthetischen Bildern zu unterscheiden.
In dieser Arbeit verwendeten die Forscher bedingte GANs, bei denen sowohl der Generator als auch der Diskriminator gezwungen sind, eine bestimmte Bedingung zu berücksichtigen. Sie schlugen zwei Arten von Einbettungstechniken vor:semantische und nicht-semantische Regularisierung. Diese Techniken bestehen aus drei Schritten:
- Erstes Einbetten der Zutaten und Kochanleitung.
- Kombinierte neuronale Einbettung des gesamten Rezepts.
- Integration eines semantischen Regularisierungsverlusts unter Verwendung eines übergeordneten Klassifikationsziels.
Das bedingte GAN wird an 52.000 textbasierten Rezepten und den dazugehörigen Bildern trainiert. Es wird mit NVIDIA TITAN X GPUs mit CUDA Deep Neural Network Library trainiert. Nach dem Training erstellte das System aus einer langen Beschreibung (die keine visuellen Informationen enthielt) Bilder, wie das Rezept aussehen könnte.
Referenz: arXiv:1901.02404 | Universität Tel-Aviv
Menschliche Bewertung
Das Netzwerk nimmt ein Rezept als Eingabe und erstellt ein Bild (von Grund auf neu), das die textbasierte Beschreibung von Lebensmitteln am besten widerspiegelt. Beeindruckend ist hier, dass das System keinen Zugriff auf den Rezepttitel hat – sonst würde die Arbeit zu einfach – und der Rezepttext ziemlich lang ist. Dies macht die Aufgabe selbst für Menschen schwierig.
Mit freundlicher Genehmigung der Forscher
Um die synthetisierten Bilder besser bewerten zu können, bat das Team 30 Personen, die ansprechendsten Bilder auf einer Skala von 1 bis 5 zu beurteilen. Sie präsentierten 10 entsprechende Paare von resultierenden Bildern (zufällig ausgewählt), die durch jede Einbettungstechnik generiert wurden.
Die Ergebnisse zeigten, dass die nicht-semantische Regularisierungsmethode die semantische Regularisierung übertrifft, indem sie lebendigere Bilder mit fotorealistischen Details erzeugt. Tatsächlich fanden es einige Leute sehr schwierig, zwischen echten und synthetischen Bildern zu unterscheiden.
Lesen Sie:KI kann Millionen künstlerischer Kombinationen für fotorealistische Ergebnisse generieren
Darüber hinaus gelang es beiden Einbettungstechniken, „breiartige“ Lebensmittelbilder (wie Salat, Suppen und Reis) zu erzeugen, aber Schwierigkeiten, Lebensmittelbilder mit einer unverwechselbaren Form zu erstellen (wie Hühnchen, Hamburger und Getränke).
Industrietechnik
- Ein ganz einfacher Rundgang
- Ein sehr einfacher Computer
- Einfacher Operationsverstärker
- Einfaches Zahlenschloss
- Einfache Serienresonanz
- Erste 3D-Bilder von mikroskopischen Rissen in Legierungen
- Neue Maschine erzeugt Strom aus Schneeball
- Erwerb einer einfachen CMMS-Software
- Ein einfacher Leitfaden für Wartungs-Benchmarking
- Eine einfache REST-basierte Bibliothek zur Verwendung von Variablen in PLCnext AXC F 2152 SPS von Python