Génération d'images Gemini

Instructions de configuration et d'utilisation pour la génération d'images avec Google Gemini

La génération d'images Gemini est un outil puissant qui intègre les modèles d'image Gemini de Google pour une génération de texte vers image de haute qualité et une édition d'image prenant en compte le contexte. Elle prend en charge à la fois l'API Gemini simple et Google Cloud Vertex AI.

Instructions de configuration

Vous pouvez utiliser soit l'API Gemini (recommandé pour la plupart des utilisateurs), soit Vertex AI avec un compte de service.

Option 1 : Gemini API (Recommandé)

Obtenez votre clé API depuis Google AI Studio
Définissez la variable d'environnement GEMINI_API_KEY dans votre fichier .env :

GEMINI_API_KEY=your_api_key_here

Option 2 : Vertex AI (Pour les utilisateurs Enterprise/GCP)

Créez un compte de service dans la Google Cloud Console avec les autorisations Vertex AI
Téléchargez le fichier de clé JSON du compte de service
Placez le fichier JSON dans le projet (par exemple, api/data/auth.json) ou définissez le chemin :

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
 
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Lorsqu'aucune GEMINI_API_KEY ou GOOGLE_KEY n'est configurée, l'outil bascule automatiquement vers Vertex AI en utilisant le fichier de compte de service.

Après avoir configuré les identifiants, redémarrez LibreChat et ajoutez Gemini Image Tools à la liste des Tools d'un agent.

Déploiement	Commande
Docker	`docker compose down && docker compose up -d`
Local	Arrêtez le serveur, puis exécutez à nouveau `npm run backend`

Options de configuration

Sélection du modèle

Vous pouvez choisir quel modèle d'image Gemini utiliser via une variable d'environnement :

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
 
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modèles disponibles

Modèle	Description
`gemini-2.5-flash-image`	Modèle par défaut, rapide et efficace
`gemini-3-pro-image-preview`	Qualité supérieure, générations plus détaillées

Fonctionnalités

Capacités principales

Génération de texte en image : Créez des images à partir de descriptions textuelles détaillées
Prise en charge du contexte d'image : Utilisez des images existantes comme contexte/inspiration pour de nouvelles générations
Édition d'images : Générez de nouvelles images basées sur des modifications apportées à des images existantes
Filtrage de sécurité : Sécurité du contenu intégrée avec des messages d'erreur conviviaux

Paramètres

L'outil Gemini Image Gen accepte les paramètres suivants :

prompt (requis) – Une description textuelle détaillée de l'image souhaitée, jusqu'à 32 000 caractères
image_ids (optionnel) – Tableau d'identifiants d'images à utiliser comme contexte visuel pour la génération

Bonnes pratiques

Rédaction de prompts

Soyez précis et détaillé dans vos descriptions
Commencez par le type d'image : photo, peinture à l'huile, aquarelle, illustration, dessin animé, dessin, vecteur, rendu, etc.
Inclure les éléments clés :
- Sujet et composition
- Style et approche artistique
- Éclairage et atmosphère
- Préférences de la palette de couleurs
- Spécifications techniques

Conseils pour la retouche d'images

Lors de la modification d'images existantes :

Inclure l'ID de l'image originale dans le tableau image_ids
Utilisez des instructions de modification directe :
- Supprimer l'arrière-plan de cette image
- Ajoutez des lunettes de soleil à la personne sur cette image
- Changez la couleur de la voiture en rouge
Ne reconstruisez pas le prompt original – utilisez des instructions de modification simples et directes.

Exemples d'utilisation

Génération d'images de base

Un jardin japonais serein à l'heure dorée, mettant en vedette un pont rouge traditionnel au-dessus d'un étang à koïs. Des cerisiers en fleurs encadrent la scène avec des pétales roses doux qui tombent. Style photoréaliste avec un éclairage chaud et diffus et des couleurs riches.

Image avec contexte

Lorsque vous avez une image existante et que vous souhaitez créer quelque chose qui s'en inspire :

Référencez l'ID de l'image dans le paramètre image_ids
Décrivez ce que vous souhaitez : "Créez une version hivernale de ce paysage avec des arbres couverts de neige et un lac gelé"

Édition d'images

Pour modifier une image existante :

Inclure l'ID de l'image dans image_ids
Décrivez le changement : "Supprimez la personne de l'arrière-plan de cette image"

Gestion des erreurs

Problèmes courants

Erreur	Solution
"Image blocked by content safety filters"	Modifiez votre prompt pour éviter le contenu qui enfreint les politiques de sécurité
"No image was generated"	Essayez un prompt différent ou simplifiez votre requête
"GEMINI_API_KEY or service account required"	Assurez-vous d'avoir configuré soit la clé API, soit les identifiants Vertex AI

Filtrage de sécurité

Gemini inclut des filtres de sécurité intégrés. Si votre image est bloquée :

Vérifiez votre prompt pour détecter tout contenu potentiellement problématique
Essayez de reformuler pour être plus précis sur l'intention artistique
Évitez les demandes de contenu préjudiciable, violent ou explicite

Détails techniques

Intégration du stockage

Les images générées sont automatiquement enregistrées en utilisant votre stratégie de fichiers configurée (local, S3, Azure, ou Firebase). Ceci est géré par le framework — l'outil renvoie les données de l'image et le système de rappel (callback) de l'agent les conserve en tant que pièce jointe au message.

Format d'image

Le format de sortie par défaut est PNG, configurable via le paramètre imageOutputType de l'application.
Les images incluent des identifiants uniques pour référence dans les requêtes ultérieures

Limites de débit

Les limites de débit dépendent de votre niveau d'API :

Gemini API : Consultez Google AI Studio pour connaître les limites actuelles
Vertex AI : Basé sur les quotas de votre projet Google Cloud