Bilderstellung & -bearbeitung
Umfassender Leitfaden zu den integrierten Bildgenerierungs- und Bearbeitungstools von LibreChat
LibreChat wird mit integrierten Bild-Tools geliefert, die Sie einem Agent hinzufügen können. Jedes Tool verfügt über ein eigenes Modell, einen eigenen Preis und eine eigene Einrichtung, die normalerweise nur aus einem API-Schlüssel oder einer URL besteht. Es gibt keine separate Bild-Seite: Sie generieren oder bearbeiten Bilder, indem Sie mit einem Agenten chatten, für den ein Bild-Tool aktiviert ist.
So funktioniert die Bildgenerierung
Laden Sie ein Bild hoch, wenn Sie eine Bearbeitung wünschen, oder senden Sie eine einfache Texteingabe, wenn Sie ein neues Bild benötigen. Generierte Bilder folgen der konfigurierten fileStrategy und die Tool-Ausgabe wird unmittelbar nach der Generierung als Teil des Chat-Kontexts an das LLM gesendet.
Schnelleinstieg
Bringen Sie die Bildgenerierung mit OpenAI Image Tools in wenigen Minuten zum Laufen.
Erstellen Sie einen Agenten. Wählen Sie Agents aus dem endpoint-Menü, öffnen Sie den Agent Builder über die Seitenleiste und erstellen Sie einen neuen Agenten. Geben Sie ihm einen Namen wie „Image Creator“.
OpenAI Image Tools hinzufügen. Öffnen Sie die Tools-Liste des Agents, wählen Sie OpenAI Image Tools aus und speichern Sie den Agent. Dies fügt sowohl Funktionen zur Bilderstellung als auch zur Bildbearbeitung hinzu.
Legen Sie Ihren API-Schlüssel fest. Fügen Sie Folgendes zu Ihrer .env Datei hinzu:
Neustart und Test. Starten Sie LibreChat neu und senden Sie dann eine Nachricht wie „Erstelle ein Bild eines Sonnenuntergangs über Bergen“ an Ihren Agenten.
| Bereitstellung | Befehl |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Lokal | Stoppen (Strg+C) und dann npm run backend |
Gut zu wissen
- API-Schlüssel können weggelassen werden, damit Benutzer ihre eigenen Schlüssel über die Benutzeroberfläche eingeben können.
- Bildausgaben werden nur unmittelbar nach der Generierung an das LLM gesendet, nicht bei jeder Nachricht. Das LLM erhält ansonsten nur dann einen visuellen Kontext, wenn Bilder an Benutzernachrichten angehängt sind. Siehe Image Storage and Handling.
- MCP-Server-Tools können auch Bilder ausgeben, obwohl sie möglicherweise nicht immer das korrekte Format verwenden. Siehe den MCP-Abschnitt.
OpenAI Bild-Tools
"OpenAI Image Tools" ist ein Agent-Toolkit, das aus zwei separaten Tools besteht:
- Image Generation erstellt brandneue Bilder aus Texteingaben (kein Upload erforderlich).
- Bildbearbeitung bearbeitet oder remixt von dir hochgeladene Bilder: Farben ändern, Objekte hinzufügen, die Arbeitsfläche erweitern und mehr.
Beide verwenden standardmäßig GPT-Image-1 für das Befolgen von Anweisungen, Text-Rendering, detaillierte Bearbeitung und Wissen über die reale Welt. Verwenden Sie IMAGE_GEN_OAI_MODEL, um ein anderes OpenAI-Bildmodell zu wählen, sofern Ihre Bereitstellung dies unterstützt. Weitere Einzelheiten finden Sie in der Dokumentation zur Bildgenerierung von OpenAI.
Generierung vs. Bearbeitung
| Anwendungsfall | Ruft auf |
|---|---|
| "Von Grund auf neu starten" | Bildgenerierung |
| "Vorhandene(s) Bild(er) verwenden" | Bildbearbeitung |
Beide Tools sind jederzeit verfügbar, und der Agent wählt basierend auf der Anfrage das jeweils passende aus:
- Bildgenerierung erstellt neue Bilder ausschließlich aus Textbeschreibungen.
- Bildbearbeitung modifiziert oder remixt bestehende Bilder unter Verwendung ihrer Bild-IDs. Dabei kann es sich um Bilder aus der aktuellen Nachricht oder um zuvor generierte und referenzierte Bilder handeln. Das LLM verfolgt die Bild-IDs, solange sie im Kontextfenster verbleiben, und fügt sie in die Tool-Ausgabe ein.
Die Bildbearbeitung basiert auf Bild-IDs
- Image IDs werden im Chatverlauf beibehalten. Wenn Dateien zur aktuellen Anfrage hochgeladen werden, werden deren IDs zum Kontext des LLM hinzugefügt, bevor Tokens generiert werden.
- Zuvor referenzierte oder generierte Bild-IDs können für die Bearbeitung verwendet werden, solange sie innerhalb des Kontextfensters verbleiben. Das LLM fügt alle relevanten IDs in das
image_ids-Array ein, wenn das Bearbeitungs-Tool aufgerufen wird. - Sie können zuvor hochgeladene Bilder über das Seitenpanel anhängen, ohne sie erneut hochladen zu müssen. Dies gibt einem Vision-Modell auch den Bildkontext, was dazu beitragen kann, den
promptfür das Bearbeitungstool zu informieren.
Parameter
Bildgenerierung
- prompt: Textbeschreibung (erforderlich)
- size:
auto(Standard),1024x1024(quadratisch),1536x1024(Querformat) oder1024x1536(Hochformat) - quality:
auto(Standard),high,mediumoderlow - background:
auto(Standard),transparentoderopaque(transparent erfordert das Format PNG oder WebP)
Bildbearbeitung
- image_ids: Array von Image-IDs, die als Referenz für die Bearbeitung verwendet werden sollen (erforderlich)
- prompt: Textbeschreibung der Änderungen (erforderlich)
- size:
auto(Standard),1024x1024,1536x1024,1024x1536,256x256oder512x512 - quality:
auto(Standard),high,mediumoderlow
Einrichtung
Erstellen oder verwenden Sie einen OpenAI-Schlüssel und fügen Sie ihn zu .env hinzu, dann fügen Sie "OpenAI Image Tools" zur Tools-Liste Ihres Agenten hinzu:
Für Azure OpenAI-Bereitstellungen beantragen Sie zuerst den Zugriff unter https://aka.ms/oai/gptimage1access und fügen dann Ihre Anmeldedaten zu .env hinzu:
Erweiterte Konfiguration
Passen Sie die Tool-Beschreibungen und die Prompt-Anleitung mit diesen Umgebungsvariablen an:
Preisgestaltung
Siehe die GPT-Image-1 Preisübersichtsseite und die Dokumentation zur Bildgenerierung für die Kosten der Bildgenerierung.
Gemini Bild-Tools
Gemini Image Tools integrieren die neuesten Bildgenerierungsmodelle von Google und unterstützen sowohl die Text-zu-Bild-Generierung als auch die bildkontextbezogene Bearbeitung.
- Text-zu-Bild-Generierung: Erstellen Sie hochwertige Bilder aus detaillierten Textbeschreibungen.
- Unterstützung für Bildkontext: Verwenden Sie vorhandene Bilder als Kontext oder Inspiration für neue Generierungen.
- Bildbearbeitung: Generieren Sie neue Bilder basierend auf Änderungen an bestehenden Bildern (fügen Sie die ursprüngliche Bild-ID hinzu).
- Mehrere Modelle: Wählen Sie
gemini-2.5-flash-image(Standard) odergemini-3-pro-image-preview. - Dual API support: funktioniert sowohl mit einfachen Gemini API-Keys als auch mit Google Cloud Vertex AI.
Parameter
- prompt: detaillierte Textbeschreibung des gewünschten Bildes (erforderlich, bis zu 32.000 Zeichen)
- image_ids: optionales Array von Bild-IDs, die als visueller Kontext für die Generierung verwendet werden sollen
Einrichtung
Für die Gemini API erhalten Sie einen Schlüssel über Google AI Studio:
Für Vertex AI (Google Cloud-Benutzer mit Vertex AI-Zugriff):
Modellauswahl
Erweiterte Konfiguration
Passen Sie Tool-Beschreibungen über Umgebungsvariablen an:
Weitere Details finden Sie im speziellen Gemini Image Gen guide.
DALL·E (veraltet)
DALL·E bietet eine Legacy-Bildgenerierung unter Verwendung des dall-e-3-Bildmodells von OpenAI.
Parameter
- prompt: Textbeschreibung des gewünschten Bildes (erforderlich, bis zu 4000 Zeichen)
- style:
vivid(hyper-realistisch, dramatisch, Standard) odernatural(weniger hyper-realistisch) - Qualität:
standard(Standard) oderhd - size:
1024x1024(Standard, quadratisch),1792x1024(breit) oder1024x1792(hoch)
Einrichtung
Aktiviere das DALL·E-Tool für den Agenten und beginne mit der Eingabe von Prompts.
Erweiterte Konfiguration
Für Azure OpenAI-Bereitstellungen konfigurieren Sie die Basis-URL und die API-Version:
Preisgestaltung
Siehe die DALL-E Preisübersichtsseite und die Dokumentation zur Bildgenerierung für die Kosten der Bildgenerierung.
Stable Diffusion (lokal)
Führen Sie Bilder vollständig auf Ihrer eigenen Maschine oder Ihrem Server aus. Verweisen Sie LibreChat auf einen beliebigen Automatic1111 (oder kompatiblen) endpoint und schon sind Sie startklar.
Parameter
- prompt: detaillierte Schlüsselwörter, die die gewünschten Elemente im Bild beschreiben (erforderlich)
- negative_prompt: Schlüsselwörter, die Elemente beschreiben, die vom Bild ausgeschlossen werden sollen (erforderlich)
Die Stable Diffusion-Implementierung verwendet diese festen Standardparameter, die für die meisten Anwendungsfälle gute Ergebnisse liefern:
- cfg_scale: 4.5
- Schritte: 22
- width: 1024
- height: 1024
Einrichtung
Es ist kein API-Schlüssel erforderlich, nur die erreichbare URL Ihrer Automatic1111 WebUI:
Weitere Details zur Einrichtung von Automatic1111 finden Sie im speziellen Stable Diffusion guide.
Flux
Cloud-Generator mit Fokus auf Geschwindigkeit und optionalen feinabgestimmten Modellen.
- Schnelle cloudbasierte Bildgenerierung
- Unterstützung für feinabgestimmte Modelle
- Mehrere Qualitätsstufen und Seitenverhältnisse
- Raw-Modus für weniger bearbeitete, natürlich aussehende Bilder
Parameter
Das Flux-Tool unterstützt drei Hauptaktionen:
- generate: Erstellen eines neuen Bildes aus einer Texteingabe
- generate_finetuned: Erstellen eines Bildes mithilfe eines feinabgestimmten Modells
- list_finetunes: listet die verfügbaren benutzerdefinierten Modelle für den Benutzer auf
Weitere Details finden Sie im speziellen Flux guide.
Einrichtung
Wählen Sie das Flux-Tool innerhalb des Agenten aus. Prompts sind einfacher Text, und ein Aufruf erzeugt ein Bild.
Preisgestaltung
Siehe die Flux-Preisseite für die Kosten der Bilderzeugung.
Model Context Protocol (MCP)
Bildausgaben werden von MCP-Servern unterstützt. Zum Beispiel kann der Puppeteer MCP Server Screenshots von Webseiten erstellen, die das Bild im erwarteten Format ausgeben und genauso behandelt werden wie die integrierten Bild-Tools von LibreChat.
Die MCP-Bildunterstützung befindet sich noch in der Entwicklung
- Die folgenden Beispiele setzen voraus, dass LibreChat außerhalb von Docker direkt mit Node.js ausgeführt wird. Das Model Context Protocol ist ein relativ neues Framework, und viele Entwickler lernen noch, wie sie ihre Systeme mit uv/node für eine skalierbare Verteilung bereitstellen können.
- Es gibt nur wenige Server zur Bildgenerierung, und viele haben das korrekte Antwortformat für Bilder noch nicht übernommen.
- Während viele MCP-Server innerhalb von Docker gut funktionieren, tun dies die folgenden Beispiele nicht, oder nur mit fortgeschritteneren Konfigurationen, was einige der aktuellen Inkonsistenzen zwischen MCP-Servern aufzeigt.
Das Folgende ist ein Beispiel für einen Image Generation server, der Bilder mithilfe der Replicate API ausgibt, jedoch URLs der Bilder zurückgibt, was nicht dem Bild-Antwortstandard von MCP entspricht.
Globale Installation erforderlich
Installieren Sie für diesen speziellen Server das Paket @gongrzhe/image-gen-server global mit npm install -g @gongrzhe/image-gen-server und verweisen Sie dann wie unten gezeigt auf die kompilierten Dateien des Pakets.
Bildspeicherung und -verarbeitung
Alle generierten Bilder sind:
- Gespeichert gemäß der konfigurierten
fileStrategy - Wird direkt in der Chat-Oberfläche angezeigt
- Wird als Teil des unmittelbaren Chat-Kontexts nach der Generierung an das LLM gesendet
Für den letzten Punkt gelten einige Einschränkungen:
- Dies kann zu Problemen mit einem LLM führen, das keine Bildeingaben unterstützt. Eine Option, dieses Verhalten pro Agent zu deaktivieren, ist geplant.
- Ausgaben werden nur bei der Generierung an das LLM gesendet, nicht bei jeder Nachricht.
- Um ein Bild in späteren Nachrichten einzufügen, hängen Sie es über das Seitenpanel an die Nachricht an.
- Kurz gesagt erhält das LLM den Bildkontext nur durch Bilder, die an Benutzernachrichten angehängt sind, sowie durch Generierungen oder Bearbeitungen unmittelbar nach deren Erstellung.
Proxy-Unterstützung
Alle Bildgenerierungstools unterstützen die Proxy-Konfiguration über die Umgebungsvariable PROXY:
Wenn PROXY nicht gesetzt ist, berücksichtigen unterstützte serverseitige Clients HTTP_PROXY, HTTPS_PROXY und NO_PROXY/no_proxy.
Fehlerbehandlung
Wenn ein Tool auf einen Fehler stößt, gibt es eine Nachricht zurück, die erklärt, was schiefgelaufen ist. Häufige Probleme sind:
- Ungültiger API-Schlüssel
- API-Nichtverfügbarkeit
- Verstöße gegen die Inhaltsrichtlinien
- Proxy-/Netzwerkprobleme
- Ungültige Parameter
- Nicht unterstützte Bild-Payload (siehe Image Storage and Handling oben)
Prompting
Sie können die Prompts für OpenAI Image Tools und DALL·E anpassen, aber die folgenden Tipps geben Aufschluss über die Standard-Prompts, die von den Tools bereitgestellt werden. Dies ist nützlich für Ihre eigenen Formulierungen:
- Beginnen Sie mit dem Subjekt und dem Stil (Foto, Ölgemälde usw.).
- Fügen Sie Komposition und Kamera/Medium hinzu („Weitwinkelaufnahme von…“, „Aquarell…“).
- Erwähne Beleuchtung und Stimmung („goldene Stunde“, „dramatische Schatten“).
- Schließen Sie mit Detail-Keywords (Texturen, Farben, Ausdrücke) ab.
- Halten Sie Negative positiv: Beschreiben Sie, was enthalten sein sollte, nicht was vermieden werden soll.
Beispiel:
Ein filmisches Foto einer antiken Bibliothek, die in warmes Nachmittagslicht getaucht ist. Hohe Holzregale quellen über vor ledergebundenen Büchern und Staubpartikel schimmern im Licht. Eine einzelne grüne Bankerlampe beleuchtet einen aufgeschlagenen Atlas auf einem polierten Mahagonischreibtisch im Vordergrund. 85-mm-Objektiv, geringe Schärfentiefe, satte Bernsteintöne, ultrahohe Detailgenauigkeit.
Verwandte Seiten
Wie finden Sie diese Anleitung?