Gemini-Bildgenerierung

Die Gemini-Bildgenerierung ist ein leistungsstarkes Tool, das die Gemini-Bildmodelle von Google für die hochwertige Text-zu-Bild-Generierung und die bildkontextbezogene Bearbeitung integriert. Sie unterstützt sowohl die einfache Gemini API als auch Google Cloud Vertex AI.

Einrichtungsanweisungen

Sie können entweder die Gemini API (für die meisten Benutzer empfohlen) oder Vertex AI mit einem Dienstkonto verwenden.

Option 1: Gemini API (Empfohlen)

Holen Sie sich Ihren API-Schlüssel von Google AI Studio
Setzen Sie die Umgebungsvariable GEMINI_API_KEY in Ihrer .env Datei:

GEMINI_API_KEY=your_api_key_here

Option 2: Vertex AI (Für Enterprise/GCP-Benutzer)

Erstellen Sie ein Dienstkonto in der Google Cloud Console mit Vertex AI-Berechtigungen
Laden Sie die JSON-Schlüsseldatei des Dienstkontos herunter
Platzieren Sie die JSON-Datei im Projekt (z. B. api/data/auth.json) oder legen Sie den Pfad fest:

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
 
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Wenn kein GEMINI_API_KEY oder GOOGLE_KEY konfiguriert ist, greift das Tool automatisch auf Vertex AI unter Verwendung der Dienstkonto-Datei zurück.

Nachdem Sie die Anmeldedaten konfiguriert haben, starten Sie LibreChat neu und fügen Sie Gemini Image Tools zur Tools-Liste eines Agenten hinzu.

Bereitstellung	Befehl
Docker	`docker compose down && docker compose up -d`
Lokal	Stoppen Sie den Server und führen Sie dann erneut `npm run backend` aus

Konfigurationsoptionen

Modellauswahl

Sie können über die Umgebungsvariable auswählen, welches Gemini-Bildmodell verwendet werden soll:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
 
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Verfügbare Modelle

Modell	Beschreibung
`gemini-2.5-flash-image`	Standardmodell, schnell und effizient
`gemini-3-pro-image-preview`	Höhere Qualität, detailliertere Generierungen

Funktionen

Kernfunktionen

Text-to-Image-Generierung: Erstellen Sie Bilder aus detaillierten Textbeschreibungen
Unterstützung für Bildkontext: Verwenden Sie vorhandene Bilder als Kontext/Inspiration für neue Generierungen
Bildbearbeitung: Generieren Sie neue Bilder basierend auf Änderungen an bestehenden Bildern
Sicherheitsfilterung: Integrierte Inhaltssicherheit mit benutzerfreundlichen Fehlermeldungen

Parameter

Das Gemini Image Gen Tool akzeptiert die folgenden Parameter:

prompt (erforderlich) – Eine detaillierte Textbeschreibung des gewünschten Bildes, bis zu 32.000 Zeichen
image_ids (optional) – Array von Bild-IDs, die als visueller Kontext für die Generierung verwendet werden sollen

Best Practices

Prompt-Erstellung

Seien Sie spezifisch und detailliert in Ihren Beschreibungen
Beginnen Sie mit dem Bildtyp: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render usw.
Wichtige Elemente einbeziehen:
- Gegenstand und Zusammensetzung
- Stil und künstlerischer Ansatz
- Beleuchtung und Atmosphäre
- Einstellungen der Farbpalette
- Technische Spezifikationen

Tipps zur Bildbearbeitung

Beim Bearbeiten vorhandener Bilder:

Fügen Sie die ursprüngliche Bild-ID in das image_ids-Array ein
Verwenden Sie direkte Bearbeitungsanweisungen:
- Entferne den Hintergrund aus diesem Bild
- Füge der Person auf diesem Bild eine Sonnenbrille hinzu
- Ändere die Farbe des Autos zu Rot
Rekonstruieren Sie nicht den ursprünglichen Prompt – verwenden Sie einfache, direkte Änderungsanweisungen

Anwendungsbeispiele

Grundlegende Bildgenerierung

Ein ruhiger japanischer Garten zur goldenen Stunde, mit einer traditionellen roten Brücke über einem Koiteich. Kirschblütenbäume rahmen die Szene ein, während sanfte rosa Blütenblätter herabfallen. Fotorealistischer Stil mit warmem, diffusem Licht und satten Farben.

Bild mit Kontext

Wenn du ein vorhandenes Bild hast und etwas davon Inspiriertes erstellen möchtest:

Referenzieren Sie die Bild-ID im Parameter image_ids
Beschreiben Sie, was Sie möchten: "Erstellen Sie eine Winterversion dieser Landschaftsszene mit schneebedeckten Bäumen und einem zugefrorenen See"

Bildbearbeitung

Um ein bestehendes Bild zu bearbeiten:

Fügen Sie die Bild-ID in image_ids ein.
Beschreiben Sie die Änderung: "Entfernen Sie die Person aus dem Hintergrund dieses Bildes"

Fehlerbehandlung

Häufige Probleme

Fehler	Lösung
"Image blocked by content safety filters"	Ändern Sie Ihren Prompt, um Inhalte zu vermeiden, die gegen Sicherheitsrichtlinien verstoßen
"No image was generated"	Versuchen Sie es mit einem anderen Prompt oder vereinfachen Sie Ihre Anfrage
"GEMINI_API_KEY or service account required"	Stellen Sie sicher, dass Sie entweder den API-Schlüssel oder die Vertex AI-Anmeldedaten konfiguriert haben

Sicherheitsfilterung

Gemini enthält integrierte Sicherheitsfilter. Wenn Ihr Bild blockiert wird:

Überprüfen Sie Ihren Prompt auf potenziell problematische Inhalte
Versuchen Sie, die Formulierung anzupassen, um die künstlerische Absicht präziser zu beschreiben
Vermeiden Sie Anfragen nach schädlichen, gewalttätigen oder expliziten Inhalten

Technische Details

Speicherintegration

Generierte Bilder werden automatisch gemäß Ihrer konfigurierten Speicherstrategie (local, S3, Azure oder Firebase) gespeichert. Dies wird vom Framework übernommen – das Tool gibt Bilddaten zurück und das Agent-Callback-System speichert diese als Nachrichtenanhang.

Bildformat

Das Ausgabeformat ist standardmäßig PNG und kann über die imageOutputType-Einstellung der App konfiguriert werden.
Bilder enthalten eindeutige Identifikatoren für den Verweis in nachfolgenden Anfragen

Ratenbegrenzungen

Die Ratenbegrenzungen hängen von Ihrem API-Tarif ab:

Gemini API: Überprüfen Sie Google AI Studio auf aktuelle Limits
Vertex AI: Basierend auf Ihren Google Cloud-Projektkontingenten