Geração de Imagens Gemini

Instruções de configuração e uso para a geração de imagens do Google Gemini

A Geração de Imagens Gemini é uma ferramenta poderosa que integra os Modelos de Imagem Gemini do Google para geração de texto para imagem de alta qualidade e edição de imagem com reconhecimento de contexto. Ela oferece suporte tanto à API simples do Gemini quanto ao Google Cloud Vertex AI.

Instruções de Configuração

Você pode usar a Gemini API (recomendada para a maioria dos usuários) ou o Vertex AI com uma conta de serviço.

Opção 1: Gemini API (Recomendado)

Obtenha sua chave de API no Google AI Studio
Defina a variável de ambiente GEMINI_API_KEY no seu arquivo .env:

GEMINI_API_KEY=your_api_key_here

Opção 2: Vertex AI (Para usuários Enterprise/GCP)

Crie uma service account no Google Cloud Console com permissões do Vertex AI
Baixe o arquivo de chave JSON da conta de serviço
Coloque o arquivo JSON no projeto (por exemplo, api/data/auth.json) ou defina o caminho:

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Quando nenhuma GEMINI_API_KEY ou GOOGLE_KEY está configurada, a ferramenta automaticamente recorre ao Vertex AI usando o arquivo da conta de serviço.

Após configurar as credenciais, reinicie o LibreChat e adicione Gemini Image Tools à lista de Tools de um agente.

Deployment	Command
Docker	`docker compose down && docker compose up -d`
Local	Pare o servidor e, em seguida, execute `npm run backend` novamente

Opções de Configuração

Seleção de Modelo

Você pode escolher qual modelo de imagem do Gemini usar através da variável de ambiente:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modelos Disponíveis

Modelo	Descrição
`gemini-2.5-flash-image`	Modelo padrão, rápido e eficiente
`gemini-3-pro-image-preview`	Qualidade superior, gerações mais detalhadas

Recursos

Recursos Principais

Geração de Texto para Imagem: Crie imagens a partir de descrições de texto detalhadas
Suporte a Contexto de Imagem: Use imagens existentes como contexto/inspiração para novas gerações
Edição de Imagem: Gere novas imagens com base em modificações feitas em imagens existentes
Filtro de Segurança: Segurança de conteúdo integrada com mensagens de erro amigáveis ao usuário

Parâmetros

A ferramenta Gemini Image Gen aceita os seguintes parâmetros:

prompt (obrigatório) – Uma descrição de texto detalhada da imagem desejada, com até 32.000 caracteres
image_ids (opcional) – Array de IDs de imagem para usar como contexto visual para a geração

Melhores Práticas

Escrita de Prompts

Seja específico e detalhado em suas descrições
Comece com o tipo de imagem: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, etc.
Inclua elementos-chave:
- Assunto e composição
- Estilo e abordagem artística
- Iluminação e atmosfera
- Preferências da paleta de cores
- Especificações técnicas

Dicas de Edição de Imagem

Ao editar imagens existentes:

Inclua o ID da imagem original no array image_ids
Use instruções de edição direta:
- Remova o fundo desta imagem
- Adicione óculos de sol à pessoa nesta imagem
- Mude a cor do carro para vermelho
Não reconstrua o prompt original – use instruções de modificação simples e diretas

Exemplos de uso

Geração Básica de Imagens

Um jardim japonês sereno na hora dourada, apresentando uma ponte vermelha tradicional sobre um lago de carpas. Cerejeiras emolduram a cena com pétalas cor-de-rosa suaves caindo. Estilo fotorrealista com iluminação quente e difusa e cores ricas.

Imagem com Contexto

Quando você tem uma imagem existente e deseja criar algo inspirado nela:

Referencie o ID da imagem no parâmetro image_ids
Descreva o que você deseja: "Crie uma versão de inverno desta cena de paisagem com árvores cobertas de neve e um lago congelado"

Edição de Imagem

Para modificar uma imagem existente:

Inclua o ID da imagem em image_ids
Descreva a alteração: "Remova a pessoa do fundo desta imagem"

Tratamento de Erros

Problemas Comuns

Erro	Solução
"Image blocked by content safety filters"	Modifique seu prompt para evitar conteúdo que viole as políticas de segurança
"No image was generated"	Tente um prompt diferente ou simplifique sua solicitação
"GEMINI_API_KEY or service account required"	Certifique-se de ter configurado a chave de API ou as credenciais do Vertex AI

Filtragem de Segurança

O Gemini inclui filtros de segurança integrados. Se a sua imagem for bloqueada:

Revise seu prompt em busca de conteúdo potencialmente problemático
Tente reformular para ser mais específico sobre a intenção artística
Evite solicitações de conteúdo prejudicial, violento ou explícito

Detalhes Técnicos

Integração de Armazenamento

As imagens geradas são salvas automaticamente usando sua estratégia de arquivo configurada (local, S3, Azure ou Firebase). Isso é gerenciado pelo framework — a ferramenta retorna os dados da imagem e o sistema de callback do agente os persiste como um anexo de mensagem.

Formato de Imagem

O formato de saída padrão é PNG, configurável através da configuração imageOutputType do aplicativo
As imagens incluem identificadores únicos para referência em solicitações subsequentes

Limites de Taxa

Os limites de taxa dependem do seu nível de API:

Gemini API: Verifique o Google AI Studio para os limites atuais
Vertex AI: Com base nas cotas do seu projeto Google Cloud

Geração de Imagens Gemini

Nesta página