Skip to main content
LibreChat is joining ClickHouse to power the open-source Agentic Data Stack 🎉 Learn more
LibreChat

Gemini 图像生成

Google Gemini 图像生成设置与使用说明

Gemini 图像生成是一个强大的工具,它集成了 Google 的 Gemini 图像模型,用于高质量的文本生成图像以及具备图像上下文感知能力的编辑。它同时支持简单的 Gemini API 和 Google Cloud Vertex AI。

设置说明

您可以使用 Gemini API(推荐大多数用户使用)或通过服务账号使用 Vertex AI。

  1. Google AI Studio 获取您的 API key
  2. 在您的 .env 文件中设置 GEMINI_API_KEY 环境变量:
GEMINI_API_KEY=your_api_key_here

选项 2:Vertex AI(适用于企业/GCP 用户)

  1. 在 Google Cloud Console 中创建一个具有 Vertex AI 权限的服务账号
  2. 下载服务账号 JSON 密钥文件
  3. 将 JSON 文件放置在项目中(例如 api/data/auth.json)或设置路径:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
 
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

当未配置 GEMINI_API_KEYGOOGLE_KEY 时,该工具会自动回退到使用服务账号文件的 Vertex AI。

配置凭据后,重启 LibreChat 并将 Gemini Image Tools 添加到代理的 Tools 列表中。

部署方式命令
Dockerdocker compose down && docker compose up -d
本地停止服务器,然后再次运行 npm run backend

配置选项

模型选择

您可以通过环境变量选择要使用的 Gemini 图像模型:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
 
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

可用模型

模型描述
gemini-2.5-flash-image默认模型,快速且高效
gemini-3-pro-image-preview更高质量,生成细节更丰富

功能特性

核心功能

  • 文本生成图像 (Text-to-Image Generation):根据详细的文本描述创建图像
  • 图像上下文支持:使用现有图像作为新生成的上下文/灵感
  • 图像编辑:基于对现有图像的修改来生成新图像
  • 安全过滤:内置内容安全机制,提供用户友好的错误提示

参数

Gemini Image Gen 工具接受以下参数:

  • prompt (必填) – 对所需图像的详细文字描述,最多 32,000 个字符
  • image_ids (可选) – 用于生成视觉上下文的图像 ID 数组

最佳实践

提示词编写

  1. 在描述中要具体且详细
  2. 以图像类型开头:照片 (photo)、油画 (oil painting)、水彩 (watercolor)、插画 (illustration)、卡通 (cartoon)、素描 (drawing)、矢量图 (vector)、渲染图 (render) 等。
  3. 包含关键要素:
    • 主题内容与构成
    • 风格与艺术手法
    • 灯光与氛围
    • 颜色偏好设置
    • 技术规格

图像编辑技巧

当编辑现有图像时:

  1. image_ids 数组中包含原始图像 ID
  2. 使用直接编辑指令
    • 移除此图像的背景
    • 给这张图片里的人戴上太阳镜
    • 将汽车的颜色更改为红色
  3. 不要重构原始提示词 – 使用简单、直接的修改指令

使用示例

基础图像生成

黄金时刻宁静的日式庭院,锦鲤池上架着一座传统的红色小桥。樱花树环绕着整个场景,柔和的粉色花瓣纷纷飘落。照片级真实风格,光线温暖柔和,色彩浓郁。

带上下文的图像

当你有一张现有的图片并希望以此为灵感进行创作时:

  1. image_ids 参数中引用图像 ID
  2. 描述您的需求:“为此风景场景创建一个冬季版本,包含积雪的树木和结冰的湖泊”

图像编辑

若要修改现有图像:

  1. image_ids 中包含图像 ID
  2. 描述更改:"从这张图片的背景中移除人物"

错误处理

常见问题

错误解决方案
"Image blocked by content safety filters"修改您的提示词以避免违反安全策略的内容
"No image was generated"尝试使用不同的提示词或简化您的请求
"GEMINI_API_KEY or service account required"确保您已配置 API 密钥或 Vertex AI 凭据

安全过滤

Gemini 包含内置的安全过滤器。如果您的图片被拦截:

  • 检查您的提示词中是否存在潜在的问题内容
  • 尝试重新表述,以更具体地说明艺术意图
  • 避免请求有害、暴力或露骨的内容

技术细节

存储集成

生成的图像会自动使用您配置的文件策略(local、S3、Azure 或 Firebase)进行保存。此过程由框架处理——工具返回图像数据,代理回调系统将其作为消息附件进行持久化存储。

图像格式

  • 输出格式默认为 PNG,可通过应用程序的 imageOutputType 设置进行配置
  • 图像包含唯一标识符,以便在后续请求中进行引用。

速率限制

速率限制取决于您的 API 层级:

  • Gemini API: 请查看 Google AI Studio 以了解当前限制
  • Vertex AI: 基于您的 Google Cloud 项目配额

这篇指南怎么样?