Génération d'images Gemini
Instructions de configuration et d'utilisation pour la génération d'images avec Google Gemini
La génération d'images Gemini est un outil puissant qui intègre les modèles d'image Gemini de Google pour une génération de texte vers image de haute qualité et une édition d'image prenant en compte le contexte. Elle prend en charge à la fois l'API Gemini simple et Google Cloud Vertex AI.
Instructions de configuration
Vous pouvez utiliser soit l'API Gemini (recommandé pour la plupart des utilisateurs), soit Vertex AI avec un compte de service.
Option 1 : Gemini API (Recommandé)
- Obtenez votre clé API depuis Google AI Studio
- Définissez la variable d'environnement
GEMINI_API_KEYdans votre fichier.env:
Option 2 : Vertex AI (Pour les utilisateurs Enterprise/GCP)
- Créez un compte de service dans la Google Cloud Console avec les autorisations Vertex AI
- Téléchargez le fichier de clé JSON du compte de service
- Placez le fichier JSON dans le projet (par exemple,
api/data/auth.json) ou définissez le chemin :
Lorsqu'aucune GEMINI_API_KEY ou GOOGLE_KEY n'est configurée, l'outil bascule automatiquement vers Vertex AI en utilisant le fichier de compte de service.
Après avoir configuré les identifiants, redémarrez LibreChat et ajoutez Gemini Image Tools à la liste des Tools d'un agent.
| Déploiement | Commande |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Local | Arrêtez le serveur, puis exécutez à nouveau npm run backend |
Options de configuration
Sélection du modèle
Vous pouvez choisir quel modèle d'image Gemini utiliser via une variable d'environnement :
Modèles disponibles
| Modèle | Description |
|---|---|
gemini-2.5-flash-image | Modèle par défaut, rapide et efficace |
gemini-3-pro-image-preview | Qualité supérieure, générations plus détaillées |
Fonctionnalités
Capacités principales
- Génération de texte en image : Créez des images à partir de descriptions textuelles détaillées
- Prise en charge du contexte d'image : Utilisez des images existantes comme contexte/inspiration pour de nouvelles générations
- Édition d'images : Générez de nouvelles images basées sur des modifications apportées à des images existantes
- Filtrage de sécurité : Sécurité du contenu intégrée avec des messages d'erreur conviviaux
Paramètres
L'outil Gemini Image Gen accepte les paramètres suivants :
- prompt (requis) – Une description textuelle détaillée de l'image souhaitée, jusqu'à 32 000 caractères
- image_ids (optionnel) – Tableau d'identifiants d'images à utiliser comme contexte visuel pour la génération
Bonnes pratiques
Rédaction de prompts
- Soyez précis et détaillé dans vos descriptions
- Commencez par le type d'image : photo, peinture à l'huile, aquarelle, illustration, dessin animé, dessin, vecteur, rendu, etc.
- Inclure les éléments clés :
- Sujet et composition
- Style et approche artistique
- Éclairage et atmosphère
- Préférences de la palette de couleurs
- Spécifications techniques
Conseils pour la retouche d'images
Lors de la modification d'images existantes :
- Inclure l'ID de l'image originale dans le tableau
image_ids - Utilisez des instructions de modification directe :
- Supprimer l'arrière-plan de cette image
- Ajoutez des lunettes de soleil à la personne sur cette image
- Changez la couleur de la voiture en rouge
- Ne reconstruisez pas le prompt original – utilisez des instructions de modification simples et directes.
Exemples d'utilisation
Génération d'images de base
Un jardin japonais serein à l'heure dorée, mettant en vedette un pont rouge traditionnel au-dessus d'un étang à koïs. Des cerisiers en fleurs encadrent la scène avec des pétales roses doux qui tombent. Style photoréaliste avec un éclairage chaud et diffus et des couleurs riches.
Image avec contexte
Lorsque vous avez une image existante et que vous souhaitez créer quelque chose qui s'en inspire :
- Référencez l'ID de l'image dans le paramètre
image_ids - Décrivez ce que vous souhaitez : "Créez une version hivernale de ce paysage avec des arbres couverts de neige et un lac gelé"
Édition d'images
Pour modifier une image existante :
- Inclure l'ID de l'image dans
image_ids - Décrivez le changement : "Supprimez la personne de l'arrière-plan de cette image"
Gestion des erreurs
Problèmes courants
| Erreur | Solution |
|---|---|
| "Image blocked by content safety filters" | Modifiez votre prompt pour éviter le contenu qui enfreint les politiques de sécurité |
| "No image was generated" | Essayez un prompt différent ou simplifiez votre requête |
| "GEMINI_API_KEY or service account required" | Assurez-vous d'avoir configuré soit la clé API, soit les identifiants Vertex AI |
Filtrage de sécurité
Gemini inclut des filtres de sécurité intégrés. Si votre image est bloquée :
- Vérifiez votre prompt pour détecter tout contenu potentiellement problématique
- Essayez de reformuler pour être plus précis sur l'intention artistique
- Évitez les demandes de contenu préjudiciable, violent ou explicite
Détails techniques
Intégration du stockage
Les images générées sont automatiquement enregistrées en utilisant votre stratégie de fichiers configurée (local, S3, Azure, ou Firebase). Ceci est géré par le framework — l'outil renvoie les données de l'image et le système de rappel (callback) de l'agent les conserve en tant que pièce jointe au message.
Format d'image
- Le format de sortie par défaut est PNG, configurable via le paramètre
imageOutputTypede l'application. - Les images incluent des identifiants uniques pour référence dans les requêtes ultérieures
Limites de débit
Les limites de débit dépendent de votre niveau d'API :
- Gemini API : Consultez Google AI Studio pour connaître les limites actuelles
- Vertex AI : Basé sur les quotas de votre projet Google Cloud
Que pensez-vous de ce guide ?