Generazione di immagini Gemini
Istruzioni di configurazione e utilizzo per la generazione di immagini con Google Gemini
Gemini Image Generation è uno strumento potente che integra i modelli di immagine Gemini di Google per la generazione di immagini da testo di alta qualità e per la modifica di immagini con consapevolezza del contesto. Supporta sia la semplice API Gemini che Google Cloud Vertex AI.
Istruzioni di configurazione
Puoi utilizzare l'API Gemini (consigliata per la maggior parte degli utenti) o Vertex AI con un account di servizio.
Opzione 1: Gemini API (Consigliata)
- Ottieni la tua chiave API da Google AI Studio
- Imposta la variabile d'ambiente
GEMINI_API_KEYnel tuo file.env:
GEMINI_API_KEY=your_api_key_hereOpzione 2: Vertex AI (Per utenti Enterprise/GCP)
- Crea un account di servizio nella Google Cloud Console con autorizzazioni Vertex AI
- Scarica il file della chiave JSON dell'account di servizio
- Posiziona il file JSON nel progetto (ad esempio,
api/data/auth.json) o imposta il percorso:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1Quando non è configurata alcuna GEMINI_API_KEY o GOOGLE_KEY, lo strumento ricorre automaticamente a Vertex AI utilizzando il file dell'account di servizio.
Dopo aver configurato le credenziali, riavvia LibreChat e aggiungi Gemini Image Tools all'elenco Tools di un agente.
| Deployment | Command |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Locale | Arresta il server, quindi esegui nuovamente npm run backend |
Opzioni di configurazione
Selezione del modello
Puoi scegliere quale modello di immagine Gemini utilizzare tramite la variabile d'ambiente:
# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-previewModelli disponibili
| Modello | Descrizione |
|---|---|
gemini-2.5-flash-image | Modello predefinito, veloce ed efficiente |
gemini-3-pro-image-preview | Qualità superiore, generazioni più dettagliate |
FunzionalitÃ
Funzionalità Principali
- Generazione di immagini da testo: Crea immagini a partire da descrizioni testuali dettagliate
- Supporto per il contesto delle immagini: utilizza immagini esistenti come contesto/ispirazione per nuove generazioni
- Modifica immagini: Genera nuove immagini basate su modifiche apportate a quelle esistenti
- Filtro di sicurezza: Sicurezza dei contenuti integrata con messaggi di errore intuitivi per l'utente
Parametri
Lo strumento Gemini Image Gen accetta i seguenti parametri:
- prompt (obbligatorio) – Una descrizione testuale dettagliata dell'immagine desiderata, fino a 32.000 caratteri
- image_ids (opzionale) – Array di ID immagine da utilizzare come contesto visivo per la generazione
Best Practices
Scrittura dei prompt
- Sii specifico e dettagliato nelle tue descrizioni
- Inizia con il tipo di immagine: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, ecc.
- Includi elementi chiave:
- Oggetto e composizione
- Stile e approccio artistico
- Illuminazione e atmosfera
- Preferenze della tavolozza dei colori
- Specifiche tecniche
Suggerimenti per la modifica delle immagini
Quando si modificano immagini esistenti:
- Includi l'ID dell'immagine originale nell'array
image_ids - Usa istruzioni di modifica diretta:
- Rimuovi lo sfondo da questa immagine
- "Aggiungi degli occhiali da sole alla persona in questa immagine"
- Cambia il colore dell'auto in rosso
- Non ricostruire il prompt originale – usa istruzioni di modifica semplici e dirette
Esempi di utilizzo
Generazione di immagini di base
Un sereno giardino giapponese all'ora d'oro, caratterizzato da un tradizionale ponte rosso su uno stagno di koi. I ciliegi in fiore incorniciano la scena con petali rosa che cadono dolcemente. Stile fotorealistico con illuminazione calda e diffusa e colori ricchi.
Immagine con contesto
Quando hai un'immagine esistente e vuoi creare qualcosa che ne tragga ispirazione:
- Fai riferimento all'ID dell'immagine nel parametro
image_ids - Descrivi ciò che desideri: "Crea una versione invernale di questo paesaggio con alberi coperti di neve e un lago ghiacciato"
Modifica immagini
Per modificare un'immagine esistente:
- Includi l'ID dell'immagine in
image_ids - Descrivi la modifica: "Rimuovi la persona dallo sfondo di questa immagine"
Gestione degli errori
Problemi comuni
| Errore | Soluzione |
|---|---|
| "Image blocked by content safety filters" | Modifica il tuo prompt per evitare contenuti che violano le policy di sicurezza |
| "No image was generated" | Prova un prompt diverso o semplifica la tua richiesta |
| "GEMINI_API_KEY or service account required" | Assicurati di aver configurato la chiave API o le credenziali di Vertex AI |
Filtri di sicurezza
Gemini include filtri di sicurezza integrati. Se la tua immagine viene bloccata:
- Rivedi il tuo prompt per contenuti potenzialmente problematici
- Prova a riformulare per essere più specifico riguardo all'intento artistico
- Evita richieste di contenuti dannosi, violenti o espliciti
Dettagli tecnici
Integrazione dello Storage
Le immagini generate vengono salvate automaticamente utilizzando la strategia di file configurata (local, S3, Azure o Firebase). Questa operazione è gestita dal framework: lo strumento restituisce i dati dell'immagine e il sistema di callback dell'agente li archivia come allegato al messaggio.
Formato immagine
- Il formato di output predefinito è PNG, configurabile tramite l'impostazione
imageOutputTypedell'app. - Le immagini includono identificatori univoci per il riferimento nelle richieste successive
Limiti di frequenza (Rate Limits)
I limiti di velocità dipendono dal tuo livello API:
- Gemini API: Controlla Google AI Studio per i limiti attuali
- Vertex AI: Basato sulle quote del tuo progetto Google Cloud
Com’è questa guida?