Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Geração de Imagens Gemini

Instruções de configuração e uso para a geração de imagens do Google Gemini

A Geração de Imagens Gemini é uma ferramenta poderosa que integra os Modelos de Imagem Gemini do Google para geração de texto para imagem de alta qualidade e edição de imagem com reconhecimento de contexto. Ela oferece suporte tanto à API simples do Gemini quanto ao Google Cloud Vertex AI.

Instruções de Configuração

Você pode usar a Gemini API (recomendada para a maioria dos usuários) ou o Vertex AI com uma conta de serviço.

  1. Obtenha sua chave de API no Google AI Studio
  2. Defina a variável de ambiente GEMINI_API_KEY no seu arquivo .env:
GEMINI_API_KEY=your_api_key_here

Opção 2: Vertex AI (Para usuários Enterprise/GCP)

  1. Crie uma service account no Google Cloud Console com permissões do Vertex AI
  2. Baixe o arquivo de chave JSON da conta de serviço
  3. Coloque o arquivo JSON no projeto (por exemplo, api/data/auth.json) ou defina o caminho:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Quando nenhuma GEMINI_API_KEY ou GOOGLE_KEY está configurada, a ferramenta automaticamente recorre ao Vertex AI usando o arquivo da conta de serviço.

Após configurar as credenciais, reinicie o LibreChat e adicione Gemini Image Tools à lista de Tools de um agente.

DeploymentCommand
Dockerdocker compose down && docker compose up -d
LocalPare o servidor e, em seguida, execute npm run backend novamente

Opções de Configuração

Seleção de Modelo

Você pode escolher qual modelo de imagem do Gemini usar através da variável de ambiente:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Modelos Disponíveis

ModeloDescrição
gemini-2.5-flash-imageModelo padrão, rápido e eficiente
gemini-3-pro-image-previewQualidade superior, gerações mais detalhadas

Recursos

Recursos Principais

  • Geração de Texto para Imagem: Crie imagens a partir de descrições de texto detalhadas
  • Suporte a Contexto de Imagem: Use imagens existentes como contexto/inspiração para novas gerações
  • Edição de Imagem: Gere novas imagens com base em modificações feitas em imagens existentes
  • Filtro de Segurança: Segurança de conteúdo integrada com mensagens de erro amigáveis ao usuário

Parâmetros

A ferramenta Gemini Image Gen aceita os seguintes parâmetros:

  • prompt (obrigatório) – Uma descrição de texto detalhada da imagem desejada, com até 32.000 caracteres
  • image_ids (opcional) – Array de IDs de imagem para usar como contexto visual para a geração

Melhores Práticas

Escrita de Prompts

  1. Seja específico e detalhado em suas descrições
  2. Comece com o tipo de imagem: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, etc.
  3. Inclua elementos-chave:
    • Assunto e composição
    • Estilo e abordagem artística
    • Iluminação e atmosfera
    • Preferências da paleta de cores
    • Especificações técnicas

Dicas de Edição de Imagem

Ao editar imagens existentes:

  1. Inclua o ID da imagem original no array image_ids
  2. Use instruções de edição direta:
    • Remova o fundo desta imagem
    • Adicione óculos de sol à pessoa nesta imagem
    • Mude a cor do carro para vermelho
  3. Não reconstrua o prompt original – use instruções de modificação simples e diretas

Exemplos de uso

Geração Básica de Imagens

Um jardim japonês sereno na hora dourada, apresentando uma ponte vermelha tradicional sobre um lago de carpas. Cerejeiras emolduram a cena com pétalas cor-de-rosa suaves caindo. Estilo fotorrealista com iluminação quente e difusa e cores ricas.

Imagem com Contexto

Quando você tem uma imagem existente e deseja criar algo inspirado nela:

  1. Referencie o ID da imagem no parâmetro image_ids
  2. Descreva o que você deseja: "Crie uma versão de inverno desta cena de paisagem com árvores cobertas de neve e um lago congelado"

Edição de Imagem

Para modificar uma imagem existente:

  1. Inclua o ID da imagem em image_ids
  2. Descreva a alteração: "Remova a pessoa do fundo desta imagem"

Tratamento de Erros

Problemas Comuns

ErroSolução
"Image blocked by content safety filters"Modifique seu prompt para evitar conteúdo que viole as políticas de segurança
"No image was generated"Tente um prompt diferente ou simplifique sua solicitação
"GEMINI_API_KEY or service account required"Certifique-se de ter configurado a chave de API ou as credenciais do Vertex AI

Filtragem de Segurança

O Gemini inclui filtros de segurança integrados. Se a sua imagem for bloqueada:

  • Revise seu prompt em busca de conteúdo potencialmente problemático
  • Tente reformular para ser mais específico sobre a intenção artística
  • Evite solicitações de conteúdo prejudicial, violento ou explícito

Detalhes Técnicos

Integração de Armazenamento

As imagens geradas são salvas automaticamente usando sua estratégia de arquivo configurada (local, S3, Azure ou Firebase). Isso é gerenciado pelo framework — a ferramenta retorna os dados da imagem e o sistema de callback do agente os persiste como um anexo de mensagem.

Formato de Imagem

  • O formato de saída padrão é PNG, configurável através da configuração imageOutputType do aplicativo
  • As imagens incluem identificadores únicos para referência em solicitações subsequentes

Limites de Taxa

Os limites de taxa dependem do seu nível de API:

  • Gemini API: Verifique o Google AI Studio para os limites atuais
  • Vertex AI: Com base nas cotas do seu projeto Google Cloud

Como está este guia?