Geração de Imagens Gemini
Instruções de configuração e uso para a geração de imagens do Google Gemini
A Geração de Imagens Gemini é uma ferramenta poderosa que integra os Modelos de Imagem Gemini do Google para geração de texto para imagem de alta qualidade e edição de imagem com reconhecimento de contexto. Ela oferece suporte tanto à API simples do Gemini quanto ao Google Cloud Vertex AI.
Instruções de Configuração
Você pode usar a Gemini API (recomendada para a maioria dos usuários) ou o Vertex AI com uma conta de serviço.
Opção 1: Gemini API (Recomendado)
- Obtenha sua chave de API no Google AI Studio
- Defina a variável de ambiente
GEMINI_API_KEYno seu arquivo.env:
GEMINI_API_KEY=your_api_key_hereOpção 2: Vertex AI (Para usuários Enterprise/GCP)
- Crie uma service account no Google Cloud Console com permissões do Vertex AI
- Baixe o arquivo de chave JSON da conta de serviço
- Coloque o arquivo JSON no projeto (por exemplo,
api/data/auth.json) ou defina o caminho:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1Quando nenhuma GEMINI_API_KEY ou GOOGLE_KEY está configurada, a ferramenta automaticamente recorre ao Vertex AI usando o arquivo da conta de serviço.
Após configurar as credenciais, reinicie o LibreChat e adicione Gemini Image Tools à lista de Tools de um agente.
| Deployment | Command |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Local | Pare o servidor e, em seguida, execute npm run backend novamente |
Opções de Configuração
Seleção de Modelo
Você pode escolher qual modelo de imagem do Gemini usar através da variável de ambiente:
# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-previewModelos Disponíveis
| Modelo | Descrição |
|---|---|
gemini-2.5-flash-image | Modelo padrão, rápido e eficiente |
gemini-3-pro-image-preview | Qualidade superior, gerações mais detalhadas |
Recursos
Recursos Principais
- Geração de Texto para Imagem: Crie imagens a partir de descrições de texto detalhadas
- Suporte a Contexto de Imagem: Use imagens existentes como contexto/inspiração para novas gerações
- Edição de Imagem: Gere novas imagens com base em modificações feitas em imagens existentes
- Filtro de Segurança: Segurança de conteúdo integrada com mensagens de erro amigáveis ao usuário
Parâmetros
A ferramenta Gemini Image Gen aceita os seguintes parâmetros:
- prompt (obrigatório) – Uma descrição de texto detalhada da imagem desejada, com até 32.000 caracteres
- image_ids (opcional) – Array de IDs de imagem para usar como contexto visual para a geração
Melhores Práticas
Escrita de Prompts
- Seja específico e detalhado em suas descrições
- Comece com o tipo de imagem: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, etc.
- Inclua elementos-chave:
- Assunto e composição
- Estilo e abordagem artística
- Iluminação e atmosfera
- Preferências da paleta de cores
- Especificações técnicas
Dicas de Edição de Imagem
Ao editar imagens existentes:
- Inclua o ID da imagem original no array
image_ids - Use instruções de edição direta:
- Remova o fundo desta imagem
- Adicione óculos de sol à pessoa nesta imagem
- Mude a cor do carro para vermelho
- Não reconstrua o prompt original – use instruções de modificação simples e diretas
Exemplos de uso
Geração Básica de Imagens
Um jardim japonês sereno na hora dourada, apresentando uma ponte vermelha tradicional sobre um lago de carpas. Cerejeiras emolduram a cena com pétalas cor-de-rosa suaves caindo. Estilo fotorrealista com iluminação quente e difusa e cores ricas.
Imagem com Contexto
Quando você tem uma imagem existente e deseja criar algo inspirado nela:
- Referencie o ID da imagem no parâmetro
image_ids - Descreva o que você deseja: "Crie uma versão de inverno desta cena de paisagem com árvores cobertas de neve e um lago congelado"
Edição de Imagem
Para modificar uma imagem existente:
- Inclua o ID da imagem em
image_ids - Descreva a alteração: "Remova a pessoa do fundo desta imagem"
Tratamento de Erros
Problemas Comuns
| Erro | Solução |
|---|---|
| "Image blocked by content safety filters" | Modifique seu prompt para evitar conteúdo que viole as políticas de segurança |
| "No image was generated" | Tente um prompt diferente ou simplifique sua solicitação |
| "GEMINI_API_KEY or service account required" | Certifique-se de ter configurado a chave de API ou as credenciais do Vertex AI |
Filtragem de Segurança
O Gemini inclui filtros de segurança integrados. Se a sua imagem for bloqueada:
- Revise seu prompt em busca de conteúdo potencialmente problemático
- Tente reformular para ser mais específico sobre a intenção artística
- Evite solicitações de conteúdo prejudicial, violento ou explícito
Detalhes Técnicos
Integração de Armazenamento
As imagens geradas são salvas automaticamente usando sua estratégia de arquivo configurada (local, S3, Azure ou Firebase). Isso é gerenciado pelo framework — a ferramenta retorna os dados da imagem e o sistema de callback do agente os persiste como um anexo de mensagem.
Formato de Imagem
- O formato de saída padrão é PNG, configurável através da configuração
imageOutputTypedo aplicativo - As imagens incluem identificadores únicos para referência em solicitações subsequentes
Limites de Taxa
Os limites de taxa dependem do seu nível de API:
- Gemini API: Verifique o Google AI Studio para os limites atuais
- Vertex AI: Com base nas cotas do seu projeto Google Cloud
Como está este guia?