Gemini-Bildgenerierung
Einrichtungs- und Gebrauchsanweisungen für die Google Gemini Bildgenerierung
Die Gemini-Bildgenerierung ist ein leistungsstarkes Tool, das die Gemini-Bildmodelle von Google für die hochwertige Text-zu-Bild-Generierung und die bildkontextbezogene Bearbeitung integriert. Sie unterstützt sowohl die einfache Gemini API als auch Google Cloud Vertex AI.
Einrichtungsanweisungen
Sie können entweder die Gemini API (für die meisten Benutzer empfohlen) oder Vertex AI mit einem Dienstkonto verwenden.
Option 1: Gemini API (Empfohlen)
- Holen Sie sich Ihren API-Schlüssel von Google AI Studio
- Setzen Sie die Umgebungsvariable
GEMINI_API_KEYin Ihrer.envDatei:
Option 2: Vertex AI (Für Enterprise/GCP-Benutzer)
- Erstellen Sie ein Dienstkonto in der Google Cloud Console mit Vertex AI-Berechtigungen
- Laden Sie die JSON-Schlüsseldatei des Dienstkontos herunter
- Platzieren Sie die JSON-Datei im Projekt (z. B.
api/data/auth.json) oder legen Sie den Pfad fest:
Wenn kein GEMINI_API_KEY oder GOOGLE_KEY konfiguriert ist, greift das Tool automatisch auf Vertex AI unter Verwendung der Dienstkonto-Datei zurück.
Nachdem Sie die Anmeldedaten konfiguriert haben, starten Sie LibreChat neu und fügen Sie Gemini Image Tools zur Tools-Liste eines Agenten hinzu.
| Bereitstellung | Befehl |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Lokal | Stoppen Sie den Server und führen Sie dann erneut npm run backend aus |
Konfigurationsoptionen
Modellauswahl
Sie können über die Umgebungsvariable auswählen, welches Gemini-Bildmodell verwendet werden soll:
Verfügbare Modelle
| Modell | Beschreibung |
|---|---|
gemini-2.5-flash-image | Standardmodell, schnell und effizient |
gemini-3-pro-image-preview | Höhere Qualität, detailliertere Generierungen |
Funktionen
Kernfunktionen
- Text-to-Image-Generierung: Erstellen Sie Bilder aus detaillierten Textbeschreibungen
- Unterstützung für Bildkontext: Verwenden Sie vorhandene Bilder als Kontext/Inspiration für neue Generierungen
- Bildbearbeitung: Generieren Sie neue Bilder basierend auf Änderungen an bestehenden Bildern
- Sicherheitsfilterung: Integrierte Inhaltssicherheit mit benutzerfreundlichen Fehlermeldungen
Parameter
Das Gemini Image Gen Tool akzeptiert die folgenden Parameter:
- prompt (erforderlich) – Eine detaillierte Textbeschreibung des gewünschten Bildes, bis zu 32.000 Zeichen
- image_ids (optional) – Array von Bild-IDs, die als visueller Kontext für die Generierung verwendet werden sollen
Best Practices
Prompt-Erstellung
- Seien Sie spezifisch und detailliert in Ihren Beschreibungen
- Beginnen Sie mit dem Bildtyp: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render usw.
- Wichtige Elemente einbeziehen:
- Gegenstand und Zusammensetzung
- Stil und künstlerischer Ansatz
- Beleuchtung und Atmosphäre
- Einstellungen der Farbpalette
- Technische Spezifikationen
Tipps zur Bildbearbeitung
Beim Bearbeiten vorhandener Bilder:
- Fügen Sie die ursprüngliche Bild-ID in das
image_ids-Array ein - Verwenden Sie direkte Bearbeitungsanweisungen:
- Entferne den Hintergrund aus diesem Bild
- Füge der Person auf diesem Bild eine Sonnenbrille hinzu
- Ändere die Farbe des Autos zu Rot
- Rekonstruieren Sie nicht den ursprünglichen Prompt – verwenden Sie einfache, direkte Änderungsanweisungen
Anwendungsbeispiele
Grundlegende Bildgenerierung
Ein ruhiger japanischer Garten zur goldenen Stunde, mit einer traditionellen roten Brücke über einem Koiteich. Kirschblütenbäume rahmen die Szene ein, während sanfte rosa Blütenblätter herabfallen. Fotorealistischer Stil mit warmem, diffusem Licht und satten Farben.
Bild mit Kontext
Wenn du ein vorhandenes Bild hast und etwas davon Inspiriertes erstellen möchtest:
- Referenzieren Sie die Bild-ID im Parameter
image_ids - Beschreiben Sie, was Sie möchten: "Erstellen Sie eine Winterversion dieser Landschaftsszene mit schneebedeckten Bäumen und einem zugefrorenen See"
Bildbearbeitung
Um ein bestehendes Bild zu bearbeiten:
- Fügen Sie die Bild-ID in
image_idsein. - Beschreiben Sie die Änderung: "Entfernen Sie die Person aus dem Hintergrund dieses Bildes"
Fehlerbehandlung
Häufige Probleme
| Fehler | Lösung |
|---|---|
| "Image blocked by content safety filters" | Ändern Sie Ihren Prompt, um Inhalte zu vermeiden, die gegen Sicherheitsrichtlinien verstoßen |
| "No image was generated" | Versuchen Sie es mit einem anderen Prompt oder vereinfachen Sie Ihre Anfrage |
| "GEMINI_API_KEY or service account required" | Stellen Sie sicher, dass Sie entweder den API-Schlüssel oder die Vertex AI-Anmeldedaten konfiguriert haben |
Sicherheitsfilterung
Gemini enthält integrierte Sicherheitsfilter. Wenn Ihr Bild blockiert wird:
- Überprüfen Sie Ihren Prompt auf potenziell problematische Inhalte
- Versuchen Sie, die Formulierung anzupassen, um die künstlerische Absicht präziser zu beschreiben
- Vermeiden Sie Anfragen nach schädlichen, gewalttätigen oder expliziten Inhalten
Technische Details
Speicherintegration
Generierte Bilder werden automatisch gemäß Ihrer konfigurierten Speicherstrategie (local, S3, Azure oder Firebase) gespeichert. Dies wird vom Framework übernommen – das Tool gibt Bilddaten zurück und das Agent-Callback-System speichert diese als Nachrichtenanhang.
Bildformat
- Das Ausgabeformat ist standardmäßig PNG und kann über die
imageOutputType-Einstellung der App konfiguriert werden. - Bilder enthalten eindeutige Identifikatoren für den Verweis in nachfolgenden Anfragen
Ratenbegrenzungen
Die Ratenbegrenzungen hängen von Ihrem API-Tarif ab:
- Gemini API: Überprüfen Sie Google AI Studio auf aktuelle Limits
- Vertex AI: Basierend auf Ihren Google Cloud-Projektkontingenten
Wie finden Sie diese Anleitung?