Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Gemini-Bildgenerierung

Einrichtungs- und Gebrauchsanweisungen für die Google Gemini Bildgenerierung

Die Gemini-Bildgenerierung ist ein leistungsstarkes Tool, das die Gemini-Bildmodelle von Google für die hochwertige Text-zu-Bild-Generierung und die bildkontextbezogene Bearbeitung integriert. Sie unterstützt sowohl die einfache Gemini API als auch Google Cloud Vertex AI.

Einrichtungsanweisungen

Sie können entweder die Gemini API (für die meisten Benutzer empfohlen) oder Vertex AI mit einem Dienstkonto verwenden.

  1. Holen Sie sich Ihren API-Schlüssel von Google AI Studio
  2. Setzen Sie die Umgebungsvariable GEMINI_API_KEY in Ihrer .env Datei:
GEMINI_API_KEY=your_api_key_here

Option 2: Vertex AI (Für Enterprise/GCP-Benutzer)

  1. Erstellen Sie ein Dienstkonto in der Google Cloud Console mit Vertex AI-Berechtigungen
  2. Laden Sie die JSON-Schlüsseldatei des Dienstkontos herunter
  3. Platzieren Sie die JSON-Datei im Projekt (z. B. api/data/auth.json) oder legen Sie den Pfad fest:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
 
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Wenn kein GEMINI_API_KEY oder GOOGLE_KEY konfiguriert ist, greift das Tool automatisch auf Vertex AI unter Verwendung der Dienstkonto-Datei zurück.

Nachdem Sie die Anmeldedaten konfiguriert haben, starten Sie LibreChat neu und fügen Sie Gemini Image Tools zur Tools-Liste eines Agenten hinzu.

BereitstellungBefehl
Dockerdocker compose down && docker compose up -d
LokalStoppen Sie den Server und führen Sie dann erneut npm run backend aus

Konfigurationsoptionen

Modellauswahl

Sie können über die Umgebungsvariable auswählen, welches Gemini-Bildmodell verwendet werden soll:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
 
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Verfügbare Modelle

ModellBeschreibung
gemini-2.5-flash-imageStandardmodell, schnell und effizient
gemini-3-pro-image-previewHöhere Qualität, detailliertere Generierungen

Funktionen

Kernfunktionen

  • Text-to-Image-Generierung: Erstellen Sie Bilder aus detaillierten Textbeschreibungen
  • Unterstützung für Bildkontext: Verwenden Sie vorhandene Bilder als Kontext/Inspiration für neue Generierungen
  • Bildbearbeitung: Generieren Sie neue Bilder basierend auf Änderungen an bestehenden Bildern
  • Sicherheitsfilterung: Integrierte Inhaltssicherheit mit benutzerfreundlichen Fehlermeldungen

Parameter

Das Gemini Image Gen Tool akzeptiert die folgenden Parameter:

  • prompt (erforderlich) – Eine detaillierte Textbeschreibung des gewünschten Bildes, bis zu 32.000 Zeichen
  • image_ids (optional) – Array von Bild-IDs, die als visueller Kontext für die Generierung verwendet werden sollen

Best Practices

Prompt-Erstellung

  1. Seien Sie spezifisch und detailliert in Ihren Beschreibungen
  2. Beginnen Sie mit dem Bildtyp: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render usw.
  3. Wichtige Elemente einbeziehen:
    • Gegenstand und Zusammensetzung
    • Stil und künstlerischer Ansatz
    • Beleuchtung und Atmosphäre
    • Einstellungen der Farbpalette
    • Technische Spezifikationen

Tipps zur Bildbearbeitung

Beim Bearbeiten vorhandener Bilder:

  1. Fügen Sie die ursprüngliche Bild-ID in das image_ids-Array ein
  2. Verwenden Sie direkte Bearbeitungsanweisungen:
    • Entferne den Hintergrund aus diesem Bild
    • Füge der Person auf diesem Bild eine Sonnenbrille hinzu
    • Ändere die Farbe des Autos zu Rot
  3. Rekonstruieren Sie nicht den ursprünglichen Prompt – verwenden Sie einfache, direkte Änderungsanweisungen

Anwendungsbeispiele

Grundlegende Bildgenerierung

Ein ruhiger japanischer Garten zur goldenen Stunde, mit einer traditionellen roten Brücke über einem Koiteich. Kirschblütenbäume rahmen die Szene ein, während sanfte rosa Blütenblätter herabfallen. Fotorealistischer Stil mit warmem, diffusem Licht und satten Farben.

Bild mit Kontext

Wenn du ein vorhandenes Bild hast und etwas davon Inspiriertes erstellen möchtest:

  1. Referenzieren Sie die Bild-ID im Parameter image_ids
  2. Beschreiben Sie, was Sie möchten: "Erstellen Sie eine Winterversion dieser Landschaftsszene mit schneebedeckten Bäumen und einem zugefrorenen See"

Bildbearbeitung

Um ein bestehendes Bild zu bearbeiten:

  1. Fügen Sie die Bild-ID in image_ids ein.
  2. Beschreiben Sie die Änderung: "Entfernen Sie die Person aus dem Hintergrund dieses Bildes"

Fehlerbehandlung

Häufige Probleme

FehlerLösung
"Image blocked by content safety filters"Ändern Sie Ihren Prompt, um Inhalte zu vermeiden, die gegen Sicherheitsrichtlinien verstoßen
"No image was generated"Versuchen Sie es mit einem anderen Prompt oder vereinfachen Sie Ihre Anfrage
"GEMINI_API_KEY or service account required"Stellen Sie sicher, dass Sie entweder den API-Schlüssel oder die Vertex AI-Anmeldedaten konfiguriert haben

Sicherheitsfilterung

Gemini enthält integrierte Sicherheitsfilter. Wenn Ihr Bild blockiert wird:

  • Überprüfen Sie Ihren Prompt auf potenziell problematische Inhalte
  • Versuchen Sie, die Formulierung anzupassen, um die künstlerische Absicht präziser zu beschreiben
  • Vermeiden Sie Anfragen nach schädlichen, gewalttätigen oder expliziten Inhalten

Technische Details

Speicherintegration

Generierte Bilder werden automatisch gemäß Ihrer konfigurierten Speicherstrategie (local, S3, Azure oder Firebase) gespeichert. Dies wird vom Framework übernommen – das Tool gibt Bilddaten zurück und das Agent-Callback-System speichert diese als Nachrichtenanhang.

Bildformat

  • Das Ausgabeformat ist standardmäßig PNG und kann über die imageOutputType-Einstellung der App konfiguriert werden.
  • Bilder enthalten eindeutige Identifikatoren für den Verweis in nachfolgenden Anfragen

Ratenbegrenzungen

Die Ratenbegrenzungen hängen von Ihrem API-Tarif ab:

  • Gemini API: Überprüfen Sie Google AI Studio auf aktuelle Limits
  • Vertex AI: Basierend auf Ihren Google Cloud-Projektkontingenten

Wie finden Sie diese Anleitung?