KI Bilder erstellen – welche KI-Modelle gibt es?

geändert am 14. Januar 2024

KI-Bildgeneratoren basieren auf verschiedenen Modellen und Techniken des maschinellen Lernens. Hier sind einige der prominenten Modelle, die beim KI Bilder erstellen zum Einsatz kommen. KI-Modelle für KI-Bildgeneratoren brauchen zum Training große Datensätze, um qualitativ hochwertige Ergebnisse zu erzielen. Regelmäßige Fortschritte in der Forschung sorgen für neue Modelle und Techniken, hier die derzeit aktuellen KI-Modelle für Generatoren zum KI Bilder erstellen.

KI Bilder erstellen
KI-Modell: Stable Diffusion XL, KI-Bildgenerator: playgroundai.com, Style: wall art

KI-Bildgeneratoren beruhen auf zwei Haupttypen

  • Generative Adversarial Networks (GANs): GANs bestehen aus zwei neuronalen Netzen, dem Generator und dem Diskriminator. Der Generator erstellt neue Bilder, während der Diskriminator versucht, diese von realen Bildern zu unterscheiden. Im Laufe der Zeit lernt der Generator, Bilder zu erstellen, die so echt aussehen, dass der Diskriminator sie nicht mehr von realen Bildern unterscheiden kann.
  • Diffusion Modelle: Diffusion Modelle beginnen mit einem ungeordneten Rauschen und fügen dann schrittweise Details hinzu, bis ein realistisches Bild entsteht. Diese Modelle sind in der Regel einfacher zu trainieren als GANs, aber sie können auch weniger realistische Ergebnisse liefern.

Welche KI-Modelle beruhen auf welchem Typ?

Die bekanntesten KI-Modelle:

  • DALL-E 2: DALL-E 3 ist ein GAN-basierter Bildgenerator von OpenAI. Er kann aus Textbeschreibungen realistische Bilder erstellen.
  • Midjourney: Midjourney ist ein Diffusionsmodell-basierter Bildgenerator von David Holz. Midjourney kann aus Textbeschreibungen und Skizzen realistische Bilder generieren.
  • Stable Diffusion: Ist wie Midjourney ein Diffusionsmodell. Die neuste Version Stable Diffusion XL ist ein sehr gutes Diffusionsmodell, das realistische und konsistente Bilder generiert. Im Vergleich zu früheren Versionen bietet es eine Reihe von Verbesserungen. Es kann aus Textbeschreibungen und Skizzen realistische Bilder erstellen.

Aktuelle KI-Modelle zum KI Bilder erstellen

Im Wesentlichen basieren KI-Bildgeneratoren zum KI Bilder erstellen auf folgenden KI-Modellen:

KI-ModellHerstellerVeröffentlichtAktuelle VersionAnmerkung
MidjourneyDavid Holz07.22Version 5.2über Discord
Dall-EOpenAI01.21Dall-E 3
Stable DiffusionStability AI08.22Stable Diffusion XL 1.0
ImagenGoogle05.22Version 23.10.3nicht öffentlich
GauGANNvidia11.21GauGan2
Pixray-text2imagePixray05.2250f96fcd
VQGAN+CLIPGoogle Colab / Katherine Crowson + OpenAI 07.21  
Die bekanntesten KI-Modelle von KI-Bildgeneratoren zum KI Bilder erstellen

Midjourney

Midjourney ist nur über einen Discord-Bot auf einem offiziellen Discord-Server erreichbar. Nutzer können den Bot direkt anschreiben oder sie können den Midjourney-Bot zu einem Server eines Drittanbieters einladen, den Befehl /imagine verwenden und eine Eingabeaufforderung eingeben, woraufhin der Bot vier Bilder basierend auf der Anfrage generiert. Die Benutzer können die Bilder dann hochskalieren.

Midjourney arbeitet für eine einfachere Handhabung an einem Webinterface. Zugriff auf den Midjourney-Code auf GitHub. Von Midjourney erzeugte Food-Fotos finden Sie auf KI: 99 Pasta-Rezepte.

Dall-E

Nach Angaben von OpenAI nutzen bereits mehr als 1,5 Millionen Nutzer das Tool und erzeugen über zwei Millionen Bilder pro Tag. DALL-E ist im Wesentlichen als Freemium-Modell erhältlich. Nutzer erhalten 50 Credits für die Anmeldung und anschließend 15 Credits pro Monat. Wer weitere Credits benötigt, kann diese erwerben.

Neben der eigenen Plattform von OpenAI ist DALL-E Teil der zugrunde liegenden maschinellen Lernkomponente der Text-zu-Bild-Plattform von Shutterstock. Das Mutterunternehmen OpenAI schloss im Oktober letzten Jahres einen Vertrag mit Shutterstock, um die Plattform zu betreiben und Nutzerdaten zu KI-generierten Inhalten zu sammeln, um mögliche Auswirkungen zu untersuchen.

Bing von Microsoft nutzt ebenfalls Dall-E, hier gibt’s die Bilder gratis. Seit Oktober sogar Dall-E 3, das neuste Modell. Hier ein Food-Foto, genau so gut wie die von Midjourney, erzeugt mit dem einfachen Prompt im Bing Chat: „Zeichne: Teller mit Spaghetti und Shrimps“.

KI Bilder erstellen, Spaghetti mit Shrimps
Das sieht doch mehr als einladend aus und die Shrimps sind viel realistischer als bei Midjourney.

Stable Diffusion

Das in London ansässige Unternehmen Stability AI vermarktet und verwaltet das Modell. Bei der Entwicklung sind beteiligt:

  • CompVis LMU – Forschungsgruppe der Ludwig-Maximilians-Universität München (LMU München), die das tiefe generative neuronale Netzwerk entwickelt hat, welches das Modell antreibt
  • Runway – Ein in New York ansässiges Forschungsunternehmen für angewandte KI, das Kreativitätswerkzeuge der nächsten Generation unter Verwendung generativer KI entwickelt. Runway ist für den zugrunde liegenden Algorithmus verantwortlich, der Stable Diffusion antreibt
  • LAION – Eine deutsche gemeinnützige Organisation, die den Stable Diffusion zugrunde liegenden Datensatz entwickelt hat. LAION steht für Large-Scale Artificial Intelligence Open Network. Dahinter verbergen sich einige KI-Enthusiasten, die sich zunächst online per Discord zusammenfanden und 2021 den Verein gründeten. Der aktuelle Datensatz LAION 5B umfasst derzeit mit 5,85 Milliarden Text-Bild-Paare, mehrheitlich auf Englisch.

Stable Diffusion nutzt Deep Learning, um Ergebnisse zu generieren. Es lässt sich neben der Standard-Text-zu-Bild-Generierung für Inpainting und die Generierung von Bild-zu-Bild-Übersetzungen verwenden.

Stable Diffusion kann auf Consumer-Hardware ausgeführt werden – es benötigt einen Grafikprozessor und nur acht Gigabyte Arbeitsspeicher. Damit unterscheidet sich Stable Diffusion von DALL-E und Midjourney, deren Ausführung Cloud-Dienste erfordern.

Das Team, das hinter Stable Diffusion steht, hat nicht nur Bilder im Visier, sondern will die Erkenntnisse aus seinem Vorzeigemodell auch auf Audio-, Sprach-, Video- und 3D-Generierung für Verbraucher und Unternehmen nutzen.

Die Popularität von Stable Diffusion katapultierte sowohl Runway als auch Stability AI ins Rampenlicht und brachten den beiden Unternehmen vor kurzem Finanzspritzen von 50 Millionen Dollar bzw. 101 Millionen Dollar. Bei Stable Diffusion handelt es sich um Open-Source-Software, die prinzipiell frei verfügbar und kostenlos nutzbar ist.

Imagen

Bei Imagen handelt es sich um ein Text-Bild-Diffusionsmodell, das derzeit nicht für die Öffentlichkeit freigegeben ist. Es verwendet Transformator-Sprachmodelle, um Text zu verstehen, und stützt sich auf die Stärke von Diffusionsmodellen, um Bilder mit hoher Wiedergabetreue zu erzeugen. Der DrawBench-Benchmark für Text-Bild-Modelle ermöglicht den Vergleich von Imagen mit anderen Methoden wie VQGAN+CLIP, latenten Diffusionsmodellen und DALL-E 2. Google meldete, dass menschliche Nutzer Imagen gegenüber anderen Modellen in Bezug auf die Qualität der Beispiele und die Ausrichtung von Bild und Text bevorzugten.

GauGAN

GauGAN, benannt nach dem französischen postimpressionistischen Maler Paul Gauguin, funktioniert etwas anders als die anderen Bildmodelle auf dieser Tabelle. Es erstellt realistische Bilder aus Segmentierungskarten – oder beschrifteten Skizzen, die eine Szene darstellen.

Die Benutzer haben eine MS Paint-ähnliche Plattform, um eine Landschaft zu entwerfen oder ihre eigenen Segmentierungskarten hochzuladen. Auch natürlich-sprachliche Eingabeaufforderungen können verwendet werden. Das System erzeugt dann ein realistisches Abbild der Szene, wobei die Benutzer die Möglichkeit haben, Aspekte des Bildes mit einem intelligenten Pinsel zu bearbeiten.

Pixray-text2image

Pixray-text2image erzeugt wie die anderen Modelle aus einer Texteingabe ein Bild. Es verwendet eine Kombination von Bilderzeugungsfunktionen wie Perception Engines und CLIP-gesteuerte GAN-Bilder, um qualitativ hochwertige Bilder zu erzeugen.

VQGAN+CLIP

VQGAN+CLIP ist eine Methode, bei der zwei KI-Modelle zusammenarbeiten, um passende Bilder zu erstellen. VQGAN ist der „Generator“, der neue Bilder erstellt und CLIP der „Diskriminator“, der entscheidet, ob das Bild der Vorgabe entspricht. CLIP spielt quasi den Advocatus Diaboli, um schrittweise das Beste beim KI Bilder erstellen herauszuholen.

VQGAN ist die Abkürzung von Vector Quantized Generative Adversarial Network und CLIP steht für Contrastive Language–Image Pre-training, wobei CLIP von OpenAI stammt. VQGAN ist ein Hybrid-KI-Modell und kombiniert die Leistung von generativen adversen Netzwerken (GANs) und Vektorquantisierung (VQ), um qualitativ hochwertige Bilder zu erzeugen. Ursprünglich entwickelten Forscher bei NVIDIA das KI-Modell, andere Entwickler erweiterten und verbesserten es. Katherine Crowson kombinierte zum ersten Mal VQGAN und CLIP und veröffentlichte sie es in einem Google Colab-Notizbuch. Inzwischen existieren viele verschiedene Versionen. VQGAN+CLIP findet vorwiegend für künstlerische Bilder Verwendung.

Stable Diffusion – offline KI Bilder erstellen

Wer professionelle Bilder braucht und über einen leistungsstarken PC oder Mac verfügt, kann sich Stable Diffusion herunterladen und offline am Desktop arbeiten. Für den Mac empfiehlt sich DiffusionBee, für Windows NMKD Stable Diffusion GUI.

DiffusionBee für den Mac

DiffusionBee ist völlig kostenlos, läuft offline und kennt keine Grenzen. Allerdings empfiehlt DiffusionBee-Entwickler Divam Gupta einen M1- oder M2-Chip und mindestens 16 Gigabyte Arbeitsspeicher. Das tolle an DiffusionBee ist, dass sich einfach neue KI-Modelle hochladen und so KI Bilder erstellen lassen.

Civitai – neue KI-Modelle nutzen

Civitai.com ist eine Plattform, die sich auf Generative AI spezialisiert hat. Es bietet eine Vielzahl von Tools, um künstlerische Werke zu erstellen, die auf künstlicher Intelligenz basieren. Auf der Website können Benutzer Modelle hochladen, austauschen und finden, um KI-Kunst zu erstellen . Die Plattform bietet auch eine Möglichkeit, Ressourcen im Zusammenhang mit Stable Diffusion und anderen Generative AI-Technologien zu entdecken, herunterzuladen und zu teilen. KI Bilder erstellen wird mit diesem Tool noch spannender und besser.

Auf Civitai finden sich zahlreiche Modelle. Wer mehr darüber erfahren möchte, wird hier fündig. Die Modelle basieren auf Stable Diffusion, hier einige zur Auswahl:

  • LoRA Stable Diffusion Modellen
  • Checkpoint
  • Workflows

Das heruntergeladene Model lässt sich anschließend bei DiffusionBee unter „Add New Model“ hochladen. LoRA und auf SDXL basierende checkpoint Modelle funktionieren leider nicht, sie laufen auf einen Fehler. Schade, das reduziert die nutzbaren Modelle derzeit auf „checkpoint“. Am einfachsten den Filter rechts oben auf „Model types“ checkpoint setzen. Im vorliegenden Fall habe ich dieses Architekturmodell benutzt.

Als Texteingabe habe ich denselben Prompt wie bei den KI-Bildgeneratoren genutzt, als Negativpromt noch „no bar table“.

Das linke Bild ist das von DiffusionBee generierte KI-Bild, rechts nutzte ich die Upscaling-Funktion von DiffusionBee. Diese findet sich unter dem „3-Strich-Menü“ links oben im Bild.

NMKD Stable Diffusion GUI für den Windows-PC

Windows-Nutzern steht NMKD Stable Diffusion GUI als Alternative zu Diffusionbee zur Verfügung. Die Software ermöglicht neben der Umwandlung von Text in Bilder, auch die Erstellung von Bildern anhand individuell ausgewählter Vorlagen.

Wie bei DiffusionBee gilt es die Hardware-Anforderungen zu beachten. Dazu gehört eine aktuelle Nvidia-GPU mit mindestens vier beziehungsweise acht Gigabyte Grafikspeicher. Zusätzlich benötigt die Software insgesamt zwölf Gigabyte Festplattenspeicher. Für optimale Leistung empfiehlt der Entwickler der Software den Einsatz einer SSD.

Leider konnte ich diese DiffusionBee-Alternative nicht austesten, da ich keinen Microsoftrechner mehr besitze.

KI Bilder erstellen – welches ist das beste Modell?

Die Wahl des besten KI-Modells für ein bestimmtes Bild ist eine individuelle Entscheidung. Es gibt keine allgemein gültige Antwort, da die beste Wahl von den Anforderungen des jeweiligen Projekts abhängt. Allgemein lässt sich vielleicht sagen

Realistische Bilder

Für realistische Bilder eignen sich GANs in der Regel am besten. GANs sind in der Lage, sehr detaillierte und realistische Bilder zu generieren. Allerdings sind GANs auch in der Regel die langsamsten KI-Modelle.

Abstrakte Bilder

Diffusionsmodelle sind in der Lage, kreative und innovative Bilder zu generieren, die nicht unbedingt realitätsnah sind. Diffusionsmodelle sind in der Regel schneller als GANs.

Kreative Bilder

Kreative Bilder entstehen mit GANs als auch mit Diffusionsmodellen. GANs können realistische KI Bilder erstellen, kombiniert mit aktuellen Ideen. Diffusionsmodelle sind in der Lage, abstrakte Bilder zu erzeugen, die neue und innovative Designs darstellen.