Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Generazione di immagini Gemini

Istruzioni di configurazione e utilizzo per la generazione di immagini con Google Gemini

Gemini Image Generation è uno strumento potente che integra i modelli di immagine Gemini di Google per la generazione di immagini da testo di alta qualità e per la modifica di immagini con consapevolezza del contesto. Supporta sia la semplice API Gemini che Google Cloud Vertex AI.

Istruzioni di configurazione

Puoi utilizzare l'API Gemini (consigliata per la maggior parte degli utenti) o Vertex AI con un account di servizio.

  1. Ottieni la tua chiave API da Google AI Studio
  2. Imposta la variabile d'ambiente GEMINI_API_KEY nel tuo file .env:
GEMINI_API_KEY=your_api_key_here

Opzione 2: Vertex AI (Per utenti Enterprise/GCP)

  1. Crea un account di servizio nella Google Cloud Console con autorizzazioni Vertex AI
  2. Scarica il file della chiave JSON dell'account di servizio
  3. Posiziona il file JSON nel progetto (ad esempio, api/data/auth.json) o imposta il percorso:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Quando non è configurata alcuna GEMINI_API_KEY o GOOGLE_KEY, lo strumento ricorre automaticamente a Vertex AI utilizzando il file dell'account di servizio.

Dopo aver configurato le credenziali, riavvia LibreChat e aggiungi Gemini Image Tools all'elenco Tools di un agente.

DeploymentCommand
Dockerdocker compose down && docker compose up -d
LocaleArresta il server, quindi esegui nuovamente npm run backend

Opzioni di configurazione

Selezione del modello

Puoi scegliere quale modello di immagine Gemini utilizzare tramite la variabile d'ambiente:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modelli disponibili

ModelloDescrizione
gemini-2.5-flash-imageModello predefinito, veloce ed efficiente
gemini-3-pro-image-previewQualità superiore, generazioni più dettagliate

Funzionalità

Funzionalità Principali

  • Generazione di immagini da testo: Crea immagini a partire da descrizioni testuali dettagliate
  • Supporto per il contesto delle immagini: utilizza immagini esistenti come contesto/ispirazione per nuove generazioni
  • Modifica immagini: Genera nuove immagini basate su modifiche apportate a quelle esistenti
  • Filtro di sicurezza: Sicurezza dei contenuti integrata con messaggi di errore intuitivi per l'utente

Parametri

Lo strumento Gemini Image Gen accetta i seguenti parametri:

  • prompt (obbligatorio) – Una descrizione testuale dettagliata dell'immagine desiderata, fino a 32.000 caratteri
  • image_ids (opzionale) – Array di ID immagine da utilizzare come contesto visivo per la generazione

Best Practices

Scrittura dei prompt

  1. Sii specifico e dettagliato nelle tue descrizioni
  2. Inizia con il tipo di immagine: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, ecc.
  3. Includi elementi chiave:
    • Oggetto e composizione
    • Stile e approccio artistico
    • Illuminazione e atmosfera
    • Preferenze della tavolozza dei colori
    • Specifiche tecniche

Suggerimenti per la modifica delle immagini

Quando si modificano immagini esistenti:

  1. Includi l'ID dell'immagine originale nell'array image_ids
  2. Usa istruzioni di modifica diretta:
    • Rimuovi lo sfondo da questa immagine
    • "Aggiungi degli occhiali da sole alla persona in questa immagine"
    • Cambia il colore dell'auto in rosso
  3. Non ricostruire il prompt originale – usa istruzioni di modifica semplici e dirette

Esempi di utilizzo

Generazione di immagini di base

Un sereno giardino giapponese all'ora d'oro, caratterizzato da un tradizionale ponte rosso su uno stagno di koi. I ciliegi in fiore incorniciano la scena con petali rosa che cadono dolcemente. Stile fotorealistico con illuminazione calda e diffusa e colori ricchi.

Immagine con contesto

Quando hai un'immagine esistente e vuoi creare qualcosa che ne tragga ispirazione:

  1. Fai riferimento all'ID dell'immagine nel parametro image_ids
  2. Descrivi ciò che desideri: "Crea una versione invernale di questo paesaggio con alberi coperti di neve e un lago ghiacciato"

Modifica immagini

Per modificare un'immagine esistente:

  1. Includi l'ID dell'immagine in image_ids
  2. Descrivi la modifica: "Rimuovi la persona dallo sfondo di questa immagine"

Gestione degli errori

Problemi comuni

ErroreSoluzione
"Image blocked by content safety filters"Modifica il tuo prompt per evitare contenuti che violano le policy di sicurezza
"No image was generated"Prova un prompt diverso o semplifica la tua richiesta
"GEMINI_API_KEY or service account required"Assicurati di aver configurato la chiave API o le credenziali di Vertex AI

Filtri di sicurezza

Gemini include filtri di sicurezza integrati. Se la tua immagine viene bloccata:

  • Rivedi il tuo prompt per contenuti potenzialmente problematici
  • Prova a riformulare per essere più specifico riguardo all'intento artistico
  • Evita richieste di contenuti dannosi, violenti o espliciti

Dettagli tecnici

Integrazione dello Storage

Le immagini generate vengono salvate automaticamente utilizzando la strategia di file configurata (local, S3, Azure o Firebase). Questa operazione è gestita dal framework: lo strumento restituisce i dati dell'immagine e il sistema di callback dell'agente li archivia come allegato al messaggio.

Formato immagine

  • Il formato di output predefinito è PNG, configurabile tramite l'impostazione imageOutputType dell'app.
  • Le immagini includono identificatori univoci per il riferimento nelle richieste successive

Limiti di frequenza (Rate Limits)

I limiti di velocità dipendono dal tuo livello API:

  • Gemini API: Controlla Google AI Studio per i limiti attuali
  • Vertex AI: Basato sulle quote del tuo progetto Google Cloud

Com’è questa guida?