Generación de imágenes con Gemini

Instrucciones de configuración y uso para la generación de imágenes con Google Gemini

La generación de imágenes con Gemini es una herramienta potente que integra los modelos de imagen Gemini de Google para la generación de texto a imagen de alta calidad y la edición de imágenes con reconocimiento de contexto. Es compatible tanto con la API simple de Gemini como con Google Cloud Vertex AI.

Instrucciones de configuración

Puede usar la API de Gemini (recomendada para la mayoría de los usuarios) o Vertex AI con una cuenta de servicio.

Opción 1: Gemini API (Recomendado)

Obtén tu clave de API desde Google AI Studio
Establece la variable de entorno GEMINI_API_KEY en tu archivo .env:

GEMINI_API_KEY=your_api_key_here

Opción 2: Vertex AI (Para usuarios de Enterprise/GCP)

Cree una cuenta de servicio en Google Cloud Console con permisos de Vertex AI
Descargue el archivo de clave JSON de la cuenta de servicio
Coloque el archivo JSON en el proyecto (por ejemplo, api/data/auth.json) o establezca la ruta:

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
 
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Cuando no se configura GEMINI_API_KEY o GOOGLE_KEY, la herramienta recurre automáticamente a Vertex AI utilizando el archivo de cuenta de servicio.

Después de configurar las credenciales, reinicie LibreChat y añada Gemini Image Tools a la lista de Tools de un agente.

Despliegue	Comando
Docker	`docker compose down && docker compose up -d`
Local	Detenga el servidor, luego ejecute `npm run backend` de nuevo

Opciones de configuración

Selección de modelos

Puedes elegir qué modelo de imagen de Gemini utilizar a través de una variable de entorno:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
 
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modelos disponibles

Modelo	Descripción
`gemini-2.5-flash-image`	Modelo predeterminado, rápido y eficiente
`gemini-3-pro-image-preview`	Mayor calidad, generaciones más detalladas

Características

Capacidades principales

Generación de texto a imagen: Crea imágenes a partir de descripciones de texto detalladas
Soporte de contexto de imagen: Utilice imágenes existentes como contexto/inspiración para nuevas generaciones
Edición de imágenes: Generar nuevas imágenes basadas en modificaciones de otras existentes
Filtrado de seguridad: Seguridad de contenido integrada con mensajes de error fáciles de usar

Parámetros

La herramienta Gemini Image Gen acepta los siguientes parámetros:

prompt (obligatorio) – Una descripción de texto detallada de la imagen deseada, de hasta 32,000 caracteres
image_ids (opcional) – Matriz de IDs de imagen para usar como contexto visual para la generación

Mejores prácticas

Escritura de Prompts

Sé específico y detallado en tus descripciones
Comienza con el tipo de imagen: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, etc.
Incluir elementos clave:
- Asunto y composición
- Estilo y enfoque artístico
- Iluminación y atmósfera
- Preferencias de la paleta de colores
- Especificaciones técnicas

Consejos para la edición de imágenes

Al editar imágenes existentes:

Incluya el ID de la imagen original en el array image_ids
Usa instrucciones de edición directa:
- Elimina el fondo de esta imagen
- "Añade gafas de sol a la persona en esta imagen"
- Cambia el color del coche a rojo
No reconstruyas el prompt original – utiliza instrucciones de modificación simples y directas

Ejemplos de uso

Generación básica de imágenes

Un sereno jardín japonés durante la hora dorada, con un puente rojo tradicional sobre un estanque de koi. Los cerezos en flor enmarcan la escena con pétalos rosados cayendo suavemente. Estilo fotorrealista con iluminación cálida y difusa y colores intensos.

Imagen con contexto

Cuando tienes una imagen existente y quieres crear algo inspirado en ella:

Haga referencia al ID de la imagen en el parámetro image_ids
Describe lo que quieres: "Crea una versión invernal de esta escena de paisaje con árboles cubiertos de nieve y un lago congelado"

Edición de imágenes

Para modificar una imagen existente:

Incluya el ID de la imagen en image_ids
Describe el cambio: "Elimina a la persona del fondo de esta imagen"

Manejo de errores

Problemas comunes

Error	Solución
"Image blocked by content safety filters"	Modifique su prompt para evitar contenido que infrinja las políticas de seguridad
"No image was generated"	Intente con un prompt diferente o simplifique su solicitud
"GEMINI_API_KEY or service account required"	Asegúrese de haber configurado la clave de API o las credenciales de Vertex AI

Filtrado de seguridad

Gemini incluye filtros de seguridad integrados. Si tu imagen está bloqueada:

Revise su prompt en busca de contenido potencialmente problemático
Intenta reformular para ser más específico sobre la intención artística
Evite solicitudes de contenido dañino, violento o explícito

Detalles técnicos

Integración de almacenamiento

Las imágenes generadas se guardan automáticamente utilizando su estrategia de archivos configurada (local, S3, Azure o Firebase). Esto es gestionado por el framework: la herramienta devuelve los datos de la imagen y el sistema de callback del agente los persiste como un archivo adjunto en el mensaje.

Formato de imagen

El formato de salida predeterminado es PNG, configurable a través del ajuste imageOutputType de la aplicación.
Las imágenes incluyen identificadores únicos para su referencia en solicitudes posteriores

Límites de tasa

Los límites de tasa dependen de su nivel de API:

Gemini API: Consulta Google AI Studio para conocer los límites actuales
Vertex AI: Basado en las cuotas de tu proyecto de Google Cloud