Generazione di immagini Gemini

Istruzioni di configurazione e utilizzo per la generazione di immagini con Google Gemini

Gemini Image Generation è uno strumento potente che integra i modelli di immagine Gemini di Google per la generazione di immagini da testo di alta qualità e per la modifica di immagini con consapevolezza del contesto. Supporta sia la semplice API Gemini che Google Cloud Vertex AI.

Istruzioni di configurazione

Puoi utilizzare l'API Gemini (consigliata per la maggior parte degli utenti) o Vertex AI con un account di servizio.

Opzione 1: Gemini API (Consigliata)

Ottieni la tua chiave API da Google AI Studio
Imposta la variabile d'ambiente GEMINI_API_KEY nel tuo file .env:

GEMINI_API_KEY=your_api_key_here

Opzione 2: Vertex AI (Per utenti Enterprise/GCP)

Crea un account di servizio nella Google Cloud Console con autorizzazioni Vertex AI
Scarica il file della chiave JSON dell'account di servizio
Posiziona il file JSON nel progetto (ad esempio, api/data/auth.json) o imposta il percorso:

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Quando non è configurata alcuna GEMINI_API_KEY o GOOGLE_KEY, lo strumento ricorre automaticamente a Vertex AI utilizzando il file dell'account di servizio.

Dopo aver configurato le credenziali, riavvia LibreChat e aggiungi Gemini Image Tools all'elenco Tools di un agente.

Deployment	Command
Docker	`docker compose down && docker compose up -d`
Locale	Arresta il server, quindi esegui nuovamente `npm run backend`

Opzioni di configurazione

Selezione del modello

Puoi scegliere quale modello di immagine Gemini utilizzare tramite la variabile d'ambiente:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modelli disponibili

Modello	Descrizione
`gemini-2.5-flash-image`	Modello predefinito, veloce ed efficiente
`gemini-3-pro-image-preview`	Qualità superiore, generazioni più dettagliate

Funzionalità

Funzionalità Principali

Generazione di immagini da testo: Crea immagini a partire da descrizioni testuali dettagliate
Supporto per il contesto delle immagini: utilizza immagini esistenti come contesto/ispirazione per nuove generazioni
Modifica immagini: Genera nuove immagini basate su modifiche apportate a quelle esistenti
Filtro di sicurezza: Sicurezza dei contenuti integrata con messaggi di errore intuitivi per l'utente

Parametri

Lo strumento Gemini Image Gen accetta i seguenti parametri:

prompt (obbligatorio) – Una descrizione testuale dettagliata dell'immagine desiderata, fino a 32.000 caratteri
image_ids (opzionale) – Array di ID immagine da utilizzare come contesto visivo per la generazione

Best Practices

Scrittura dei prompt

Sii specifico e dettagliato nelle tue descrizioni
Inizia con il tipo di immagine: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, ecc.
Includi elementi chiave:
- Oggetto e composizione
- Stile e approccio artistico
- Illuminazione e atmosfera
- Preferenze della tavolozza dei colori
- Specifiche tecniche

Suggerimenti per la modifica delle immagini

Quando si modificano immagini esistenti:

Includi l'ID dell'immagine originale nell'array image_ids
Usa istruzioni di modifica diretta:
- Rimuovi lo sfondo da questa immagine
- "Aggiungi degli occhiali da sole alla persona in questa immagine"
- Cambia il colore dell'auto in rosso
Non ricostruire il prompt originale – usa istruzioni di modifica semplici e dirette

Esempi di utilizzo

Generazione di immagini di base

Un sereno giardino giapponese all'ora d'oro, caratterizzato da un tradizionale ponte rosso su uno stagno di koi. I ciliegi in fiore incorniciano la scena con petali rosa che cadono dolcemente. Stile fotorealistico con illuminazione calda e diffusa e colori ricchi.

Immagine con contesto

Quando hai un'immagine esistente e vuoi creare qualcosa che ne tragga ispirazione:

Fai riferimento all'ID dell'immagine nel parametro image_ids
Descrivi ciò che desideri: "Crea una versione invernale di questo paesaggio con alberi coperti di neve e un lago ghiacciato"

Modifica immagini

Per modificare un'immagine esistente:

Includi l'ID dell'immagine in image_ids
Descrivi la modifica: "Rimuovi la persona dallo sfondo di questa immagine"

Gestione degli errori

Problemi comuni

Errore	Soluzione
"Image blocked by content safety filters"	Modifica il tuo prompt per evitare contenuti che violano le policy di sicurezza
"No image was generated"	Prova un prompt diverso o semplifica la tua richiesta
"GEMINI_API_KEY or service account required"	Assicurati di aver configurato la chiave API o le credenziali di Vertex AI

Filtri di sicurezza

Gemini include filtri di sicurezza integrati. Se la tua immagine viene bloccata:

Rivedi il tuo prompt per contenuti potenzialmente problematici
Prova a riformulare per essere più specifico riguardo all'intento artistico
Evita richieste di contenuti dannosi, violenti o espliciti

Dettagli tecnici

Integrazione dello Storage

Le immagini generate vengono salvate automaticamente utilizzando la strategia di file configurata (local, S3, Azure o Firebase). Questa operazione è gestita dal framework: lo strumento restituisce i dati dell'immagine e il sistema di callback dell'agente li archivia come allegato al messaggio.

Formato immagine

Il formato di output predefinito è PNG, configurabile tramite l'impostazione imageOutputType dell'app.
Le immagini includono identificatori univoci per il riferimento nelle richieste successive

Limiti di frequenza (Rate Limits)

I limiti di velocità dipendono dal tuo livello API:

Gemini API: Controlla Google AI Studio per i limiti attuali
Vertex AI: Basato sulle quote del tuo progetto Google Cloud

Generazione di immagini Gemini

In questa pagina