Home >> Wissen >> Dall-E – Was ist das, wie funktioniert es & aktuelle Version im Überblick

Dall-E – Was ist das, wie funktioniert es & aktuelle Version im Überblick

Autor: Michael

Update: 13. Februar 2023

Was ist Dall-E und wie funktioniert es?

DALL-E (bzw. DALL-E 2) ist ein Deep-Learning-Modell, das mit künstlicher Intelligenz Bilder aus Textbeschreibungen (Prompts) generieren kann. Das KI-Modell wurde am 5. Januar 2021 von OpenAI vorgestellt.

Der Name der Software ist ein Kofferwort aus den Namen der Pixar-Zeichentrickfigur WALL-E und des spanischen surrealistischen Künstlers Salvador Dalí.

DALL-E verwendet eine modifizierte Version von GPT-3, um Bilder zu erzeugen. Zugrunde liegen 12 Milliarden Parameter, die Text in Pixel verwandeln und mit Text-Bild-Paaren aus dem Internet trainiert wurden.

DALL-E wurde zusammen mit CLIP (Contrastive Language-Image Pre-Training) entwickelt. CLIP ist ein separates Modell, das mit rund 400 Millionen Bildpaaren mit Textbeschriftungen aus dem Internet trainiert wurde.

Die Aufgabe von CLIP ist es, die Ergebnisse von DALL-E zu verstehen und einzuordnen. Dafür wird zufällig eine Liste von Beschriftungen aus dem Datensatz generiert. CLIP soll dann die am besten für das von DALL-E generierte Bild geeignete Beschriftung herausfinden.

Im April 2022 wurde eine zweite Version namens DALL-E 2 vorgestellt. Im Gegensatz zum Vorgänger wurde eine geringere Anzahl an Parametern (3,5 Milliarden) verwendet. Diese Version kann aber trotzdem realistischere Bilder mit höherer Auflösung erzeugen und verschiedene Befehle, Attribute und Stile kombinieren.

DALL-E 2 verwendet ein Diffusionsmodell, das auf CLIP-Bildeinbettungen basiert, die während der Inferenz aus CLIP-Texteinbettungen durch ein vorheriges Modell generiert werden.

Was kann der Bildgenerator-Algorithmus DALL-E 2?

DALL-E kann nicht nur Bilder in verschiedenen Stilen erstellen, sondern auch existierende Bilder verändern.

OpenAI gibt 4 Hauptfunktionen von DALL-E 2 an:

  • Es kann originelle, realistische Bilder und Grafiken aus einer Textbeschreibung erstellen. Es kann Konzepte, Attribute und Stile kombinieren.
  • Es kann Bilder über das hinaus erweitern, was auf der ursprünglichen Leinwand zu sehen ist, und so weitreichende neue Kompositionen schaffen.
  • Es kann bestehende Bilder anhand einer natürlichsprachlichen Beschriftung realistisch bearbeiten. Es kann Elemente hinzufügen und entfernen und dabei Schatten, Reflexionen und Texturen berücksichtigen.
  • Es kann ein Bild nehmen und verschiedene Variationen des Bildes erstellen, die vom Original inspiriert sind.

Ein paar praxisnahe Beispiele wären hier zum Beispiel:

  • Das Hochladen eines Bildes aus deinem Urlaub und die Umzeichnung in ein Gemälde.
  • Du fertigst eine Skizze an und gibst den Auftrag, diese “fertigzustellen” bzw. in verschiedene Konzepte umzuwandeln.
  • Du hast ein Konzept im Kopf und möchtest es schnell visualisieren und gibst den Befehl einfach weiter und verfeinerst ihn gemeinsam mit der AI (Artificial Intelligence).

Es gibt natürlich auch technische Einschränkungen und Dinge, die DALL-E 2 noch nicht kann.

So ist es beispielsweise noch nicht in der Lage, "Ein lila Pferd und ein brauner Stall" von "Ein braunes Pferd und ein lila Stall" zu unterscheiden.

Dieses Verwechseln der Reihenfolge bzw. Zuordnung kommt nicht nur bei Farben zustande, sondern auch in der Reihenfolge, in der etwas passieren sollte. Aus ”Hund reitet auf Elefant” wird ”Der Elefant reitet auf dem Hund”.

Auf den ersten Blick sehen die Bilder meist sehr gut aus. Auf den zweiten Blick fallen einem dann aber schon Ungereimtheiten auf. Unserer Erfahrung nach passiert dies größtenteils mit Menschen oder Tieren in der Abbildung.

Ethische und moralische Bedenken

Wie du dir wahrscheinlich vorstellen kannst, haben all die tollen Neuheiten auch einige noch ungeklärte Nachteile.

Wie so oft kann jegliche Technik sowohl positiv als auch negativ eingesetzt werden.

Die Trainingsdaten von DALL-E 2 mussten zum Beispiel gefiltert werden, um gewalttätige und sexuelle Bilder zu entfernen.

Die Tatsache, dass DALL-E 2 auf öffentliche Datensätze zurückgreift, beeinflusst aber die Ergebnisse und führt in einigen Fällen zu einem algorithmischen BIAS.

So werden bei Befehlen, in denen das Geschlecht nicht erwähnt wird, mehr Männer als Frauen generiert. OpenAI stellt die These auf, dass das daran liegen könnte, weil Frauen in den Trainingsdaten häufiger sexualisiert und somit mehr ausgefiltert wurden.

Eine Sorge bei DALL-E 2 und ähnlichen Modellen zur Bilderzeugung ist, dass sie dazu benutzt werden könnten, Deepfakes (also realistisch wirkende Fotos oder Videos, die verfälscht worden sind) und andere Formen von Fehlinformationen zu verbreiten.

Hier gibt es ebenfalls schon Vorkehrungen, um dies zu verhindern. Die Software lässt beispielsweise keinen Upload von Gesichtern zu und lehnt Befehle ab, die Personen des öffentlichen Lebens beinhalten.

Es werden auch Eingaben mit potenziell anstößigen Inhalten blockiert. Hochgeladene Bilder werden analysiert, um anstößiges Material zu erkennen.

Dass dies aber gar nicht so einfach ist, zeigt sich am Beispiel Blut. Das Wort wird gefiltert, aber eine Umschreibung wie z.B. ”rote Flüssigkeit” nicht.

Wegen dieser Bedenken war der Zugang aus ethischen und sicherheitstechnischen Gründen auch lange Zeit nur auf eine Vorauswahl von Forschern beschränkt.

Zusätzlich gibt es noch Probleme mit Plagiatsvorwürfen. Da das Modell an vorhandenen Bildern trainiert wurde, gab es schon eine Vielzahl an Vorwürfen und sogar laufende Klagen.

Wie du merkst, sind das alles keine einfach zu beantwortenden Fragen und müssen im Einzelfall entschieden werden, solange sie noch nicht gesetzlich geregelt sind.

Dall-E im Praxistest: Craiyon

Craiyon (umbenannt von DALL-E Mini) wurde 2022 auf Hugging Face veröffentlicht. Das Tool basiert auf Dall-E und wurde mit etlichen Daten aus dem Internet trainiert.

dall-e-craiyon-1

Wie du auf den Bildern erkennen kannst, sind sie auf den ersten Blick relativ gut. Wenn man dann aber etwas näher hinsieht, merkt man schon einige Ungereimtheiten.

Das Interessante ist, dass man in kürzester Zeit den Befehl anpassen und verschiedene Stile erstellen kann. Hier z.B. der gleiche Befehl im Stil eines Van Gogh-Bildes:

dall-e-craiyon-2

In der kostenlosen Version kannst du unlimitiert viele Bilder erstellen, aber wartest dafür auch 1-2 Minuten und bekommst in dieser Zeit Ads angezeigt. Die erstellten Bilder sind zusätzlich mit einem Wasserzeichen versehen.

 Für 6 Dollar im Monat verringert sich die Wartezeit, das Wasserzeichen verschwindet und deine Bilder sind privat und für niemanden einsehbar.

Craiyon ist ein toller Start, um in die Welt der KI-Bildgeneratoren abzusteigen. Du findest hier einen ausführlichen Überblick über die derzeit besten KI Bildgeneratoren.

Dall-E Fazit

DALL-E ist ein kostenfreier KI-Bildgenerator von open.AI, der einfach zu bedienen ist. Mit dem Tool bist du in der Lage, die verschiedensten Bilder in unterschiedlichen Stilen zu erstellen und zu verändern.

Schwächen zeigen sich derzeit noch in der Interpretation der Reihenfolge bzw. der Zuordnung und in der realistischen Darstellung von Menschen oder Tieren.

Wie sich DALL-E im Vergleich zu anderen KI-Bildgeneratoren schlägt, erfährst du in diesem Beitrag.

Exklusiv für dich: Dein kostenloser Zugang zum "AI-Kompass" Newsletter

Bleibe immer einen Schritt voraus! Entdecke wöchentlich in nur 5 Minuten die besten AI-Insights