Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Génération d'images Gemini

Instructions de configuration et d'utilisation pour la génération d'images avec Google Gemini

La génération d'images Gemini est un outil puissant qui intègre les modèles d'image Gemini de Google pour une génération de texte vers image de haute qualité et une édition d'image prenant en compte le contexte. Elle prend en charge à la fois l'API Gemini simple et Google Cloud Vertex AI.

Instructions de configuration

Vous pouvez utiliser soit l'API Gemini (recommandé pour la plupart des utilisateurs), soit Vertex AI avec un compte de service.

  1. Obtenez votre clé API depuis Google AI Studio
  2. Définissez la variable d'environnement GEMINI_API_KEY dans votre fichier .env :
GEMINI_API_KEY=your_api_key_here

Option 2 : Vertex AI (Pour les utilisateurs Enterprise/GCP)

  1. Créez un compte de service dans la Google Cloud Console avec les autorisations Vertex AI
  2. Téléchargez le fichier de clé JSON du compte de service
  3. Placez le fichier JSON dans le projet (par exemple, api/data/auth.json) ou définissez le chemin :
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
 
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Lorsqu'aucune GEMINI_API_KEY ou GOOGLE_KEY n'est configurée, l'outil bascule automatiquement vers Vertex AI en utilisant le fichier de compte de service.

Après avoir configuré les identifiants, redémarrez LibreChat et ajoutez Gemini Image Tools à la liste des Tools d'un agent.

DéploiementCommande
Dockerdocker compose down && docker compose up -d
LocalArrêtez le serveur, puis exécutez à nouveau npm run backend

Options de configuration

Sélection du modèle

Vous pouvez choisir quel modèle d'image Gemini utiliser via une variable d'environnement :

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
 
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modèles disponibles

ModèleDescription
gemini-2.5-flash-imageModèle par défaut, rapide et efficace
gemini-3-pro-image-previewQualité supérieure, générations plus détaillées

Fonctionnalités

Capacités principales

  • Génération de texte en image : Créez des images à partir de descriptions textuelles détaillées
  • Prise en charge du contexte d'image : Utilisez des images existantes comme contexte/inspiration pour de nouvelles générations
  • Édition d'images : Générez de nouvelles images basées sur des modifications apportées à des images existantes
  • Filtrage de sécurité : Sécurité du contenu intégrée avec des messages d'erreur conviviaux

Paramètres

L'outil Gemini Image Gen accepte les paramètres suivants :

  • prompt (requis) – Une description textuelle détaillée de l'image souhaitée, jusqu'à 32 000 caractères
  • image_ids (optionnel) – Tableau d'identifiants d'images à utiliser comme contexte visuel pour la génération

Bonnes pratiques

Rédaction de prompts

  1. Soyez précis et détaillé dans vos descriptions
  2. Commencez par le type d'image : photo, peinture à l'huile, aquarelle, illustration, dessin animé, dessin, vecteur, rendu, etc.
  3. Inclure les éléments clés :
    • Sujet et composition
    • Style et approche artistique
    • Éclairage et atmosphère
    • Préférences de la palette de couleurs
    • Spécifications techniques

Conseils pour la retouche d'images

Lors de la modification d'images existantes :

  1. Inclure l'ID de l'image originale dans le tableau image_ids
  2. Utilisez des instructions de modification directe :
    • Supprimer l'arrière-plan de cette image
    • Ajoutez des lunettes de soleil à la personne sur cette image
    • Changez la couleur de la voiture en rouge
  3. Ne reconstruisez pas le prompt original – utilisez des instructions de modification simples et directes.

Exemples d'utilisation

Génération d'images de base

Un jardin japonais serein à l'heure dorée, mettant en vedette un pont rouge traditionnel au-dessus d'un étang à koïs. Des cerisiers en fleurs encadrent la scène avec des pétales roses doux qui tombent. Style photoréaliste avec un éclairage chaud et diffus et des couleurs riches.

Image avec contexte

Lorsque vous avez une image existante et que vous souhaitez créer quelque chose qui s'en inspire :

  1. Référencez l'ID de l'image dans le paramètre image_ids
  2. Décrivez ce que vous souhaitez : "Créez une version hivernale de ce paysage avec des arbres couverts de neige et un lac gelé"

Édition d'images

Pour modifier une image existante :

  1. Inclure l'ID de l'image dans image_ids
  2. Décrivez le changement : "Supprimez la personne de l'arrière-plan de cette image"

Gestion des erreurs

Problèmes courants

ErreurSolution
"Image blocked by content safety filters"Modifiez votre prompt pour éviter le contenu qui enfreint les politiques de sécurité
"No image was generated"Essayez un prompt différent ou simplifiez votre requête
"GEMINI_API_KEY or service account required"Assurez-vous d'avoir configuré soit la clé API, soit les identifiants Vertex AI

Filtrage de sécurité

Gemini inclut des filtres de sécurité intégrés. Si votre image est bloquée :

  • Vérifiez votre prompt pour détecter tout contenu potentiellement problématique
  • Essayez de reformuler pour être plus précis sur l'intention artistique
  • Évitez les demandes de contenu préjudiciable, violent ou explicite

Détails techniques

Intégration du stockage

Les images générées sont automatiquement enregistrées en utilisant votre stratégie de fichiers configurée (local, S3, Azure, ou Firebase). Ceci est géré par le framework — l'outil renvoie les données de l'image et le système de rappel (callback) de l'agent les conserve en tant que pièce jointe au message.

Format d'image

  • Le format de sortie par défaut est PNG, configurable via le paramètre imageOutputType de l'application.
  • Les images incluent des identifiants uniques pour référence dans les requêtes ultérieures

Limites de débit

Les limites de débit dépendent de votre niveau d'API :

  • Gemini API : Consultez Google AI Studio pour connaître les limites actuelles
  • Vertex AI : Basé sur les quotas de votre projet Google Cloud

Que pensez-vous de ce guide ?