Generación de imágenes con Gemini
Instrucciones de configuración y uso para la generación de imágenes con Google Gemini
La generación de imágenes con Gemini es una herramienta potente que integra los modelos de imagen Gemini de Google para la generación de texto a imagen de alta calidad y la edición de imágenes con reconocimiento de contexto. Es compatible tanto con la API simple de Gemini como con Google Cloud Vertex AI.
Instrucciones de configuración
Puede usar la API de Gemini (recomendada para la mayoría de los usuarios) o Vertex AI con una cuenta de servicio.
Opción 1: Gemini API (Recomendado)
- Obtén tu clave de API desde Google AI Studio
- Establece la variable de entorno
GEMINI_API_KEYen tu archivo.env:
Opción 2: Vertex AI (Para usuarios de Enterprise/GCP)
- Cree una cuenta de servicio en Google Cloud Console con permisos de Vertex AI
- Descargue el archivo de clave JSON de la cuenta de servicio
- Coloque el archivo JSON en el proyecto (por ejemplo,
api/data/auth.json) o establezca la ruta:
Cuando no se configura GEMINI_API_KEY o GOOGLE_KEY, la herramienta recurre automáticamente a Vertex AI utilizando el archivo de cuenta de servicio.
Después de configurar las credenciales, reinicie LibreChat y añada Gemini Image Tools a la lista de Tools de un agente.
| Despliegue | Comando |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Local | Detenga el servidor, luego ejecute npm run backend de nuevo |
Opciones de configuración
Selección de modelos
Puedes elegir qué modelo de imagen de Gemini utilizar a través de una variable de entorno:
Modelos disponibles
| Modelo | Descripción |
|---|---|
gemini-2.5-flash-image | Modelo predeterminado, rápido y eficiente |
gemini-3-pro-image-preview | Mayor calidad, generaciones más detalladas |
Características
Capacidades principales
- Generación de texto a imagen: Crea imágenes a partir de descripciones de texto detalladas
- Soporte de contexto de imagen: Utilice imágenes existentes como contexto/inspiración para nuevas generaciones
- Edición de imágenes: Generar nuevas imágenes basadas en modificaciones de otras existentes
- Filtrado de seguridad: Seguridad de contenido integrada con mensajes de error fáciles de usar
Parámetros
La herramienta Gemini Image Gen acepta los siguientes parámetros:
- prompt (obligatorio) – Una descripción de texto detallada de la imagen deseada, de hasta 32,000 caracteres
- image_ids (opcional) – Matriz de IDs de imagen para usar como contexto visual para la generación
Mejores prácticas
Escritura de Prompts
- Sé específico y detallado en tus descripciones
- Comienza con el tipo de imagen: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, etc.
- Incluir elementos clave:
- Asunto y composición
- Estilo y enfoque artístico
- Iluminación y atmósfera
- Preferencias de la paleta de colores
- Especificaciones técnicas
Consejos para la edición de imágenes
Al editar imágenes existentes:
- Incluya el ID de la imagen original en el array
image_ids - Usa instrucciones de edición directa:
- Elimina el fondo de esta imagen
- "Añade gafas de sol a la persona en esta imagen"
- Cambia el color del coche a rojo
- No reconstruyas el prompt original – utiliza instrucciones de modificación simples y directas
Ejemplos de uso
Generación básica de imágenes
Un sereno jardín japonés durante la hora dorada, con un puente rojo tradicional sobre un estanque de koi. Los cerezos en flor enmarcan la escena con pétalos rosados cayendo suavemente. Estilo fotorrealista con iluminación cálida y difusa y colores intensos.
Imagen con contexto
Cuando tienes una imagen existente y quieres crear algo inspirado en ella:
- Haga referencia al ID de la imagen en el parámetro
image_ids - Describe lo que quieres: "Crea una versión invernal de esta escena de paisaje con árboles cubiertos de nieve y un lago congelado"
Edición de imágenes
Para modificar una imagen existente:
- Incluya el ID de la imagen en
image_ids - Describe el cambio: "Elimina a la persona del fondo de esta imagen"
Manejo de errores
Problemas comunes
| Error | Solución |
|---|---|
| "Image blocked by content safety filters" | Modifique su prompt para evitar contenido que infrinja las políticas de seguridad |
| "No image was generated" | Intente con un prompt diferente o simplifique su solicitud |
| "GEMINI_API_KEY or service account required" | Asegúrese de haber configurado la clave de API o las credenciales de Vertex AI |
Filtrado de seguridad
Gemini incluye filtros de seguridad integrados. Si tu imagen está bloqueada:
- Revise su prompt en busca de contenido potencialmente problemático
- Intenta reformular para ser más específico sobre la intención artística
- Evite solicitudes de contenido dañino, violento o explícito
Detalles técnicos
Integración de almacenamiento
Las imágenes generadas se guardan automáticamente utilizando su estrategia de archivos configurada (local, S3, Azure o Firebase). Esto es gestionado por el framework: la herramienta devuelve los datos de la imagen y el sistema de callback del agente los persiste como un archivo adjunto en el mensaje.
Formato de imagen
- El formato de salida predeterminado es PNG, configurable a través del ajuste
imageOutputTypede la aplicación. - Las imágenes incluyen identificadores únicos para su referencia en solicitudes posteriores
Límites de tasa
Los límites de tasa dependen de su nivel de API:
- Gemini API: Consulta Google AI Studio para conocer los límites actuales
- Vertex AI: Basado en las cuotas de tu proyecto de Google Cloud
¿Qué te parece esta guía?