Gemini 图像生成
Google Gemini 图像生成设置与使用说明
Gemini 图像生成是一个强大的工具,它集成了 Google 的 Gemini 图像模型,用于高质量的文本生成图像以及具备图像上下文感知能力的编辑。它同时支持简单的 Gemini API 和 Google Cloud Vertex AI。
设置说明
您可以使用 Gemini API(推荐大多数用户使用)或通过服务账号使用 Vertex AI。
选项 1:Gemini API(推荐)
- 从 Google AI Studio 获取您的 API key
- 在您的
.env文件中设置GEMINI_API_KEY环境变量:
选项 2:Vertex AI(适用于企业/GCP 用户)
- 在 Google Cloud Console 中创建一个具有 Vertex AI 权限的服务账号
- 下载服务账号 JSON 密钥文件
- 将 JSON 文件放置在项目中(例如
api/data/auth.json)或设置路径:
当未配置 GEMINI_API_KEY 或 GOOGLE_KEY 时,该工具会自动回退到使用服务账号文件的 Vertex AI。
配置凭据后,重启 LibreChat 并将 Gemini Image Tools 添加到代理的 Tools 列表中。
| 部署方式 | 命令 |
|---|---|
| Docker | docker compose down && docker compose up -d |
| 本地 | 停止服务器,然后再次运行 npm run backend |
配置选项
模型选择
您可以通过环境变量选择要使用的 Gemini 图像模型:
可用模型
| 模型 | 描述 |
|---|---|
gemini-2.5-flash-image | 默认模型,快速且高效 |
gemini-3-pro-image-preview | 更高质量,生成细节更丰富 |
功能特性
核心功能
- 文本生成图像 (Text-to-Image Generation):根据详细的文本描述创建图像
- 图像上下文支持:使用现有图像作为新生成的上下文/灵感
- 图像编辑:基于对现有图像的修改来生成新图像
- 安全过滤:内置内容安全机制,提供用户友好的错误提示
参数
Gemini Image Gen 工具接受以下参数:
- prompt (必填) – 对所需图像的详细文字描述,最多 32,000 个字符
- image_ids (可选) – 用于生成视觉上下文的图像 ID 数组
最佳实践
提示词编写
- 在描述中要具体且详细
- 以图像类型开头:照片 (photo)、油画 (oil painting)、水彩 (watercolor)、插画 (illustration)、卡通 (cartoon)、素描 (drawing)、矢量图 (vector)、渲染图 (render) 等。
- 包含关键要素:
- 主题内容与构成
- 风格与艺术手法
- 灯光与氛围
- 颜色偏好设置
- 技术规格
图像编辑技巧
当编辑现有图像时:
- 在
image_ids数组中包含原始图像 ID - 使用直接编辑指令:
- 移除此图像的背景
- 给这张图片里的人戴上太阳镜
- 将汽车的颜色更改为红色
- 不要重构原始提示词 – 使用简单、直接的修改指令
使用示例
基础图像生成
黄金时刻宁静的日式庭院,锦鲤池上架着一座传统的红色小桥。樱花树环绕着整个场景,柔和的粉色花瓣纷纷飘落。照片级真实风格,光线温暖柔和,色彩浓郁。
带上下文的图像
当你有一张现有的图片并希望以此为灵感进行创作时:
- 在
image_ids参数中引用图像 ID - 描述您的需求:“为此风景场景创建一个冬季版本,包含积雪的树木和结冰的湖泊”
图像编辑
若要修改现有图像:
- 在
image_ids中包含图像 ID - 描述更改:"从这张图片的背景中移除人物"
错误处理
常见问题
| 错误 | 解决方案 |
|---|---|
| "Image blocked by content safety filters" | 修改您的提示词以避免违反安全策略的内容 |
| "No image was generated" | 尝试使用不同的提示词或简化您的请求 |
| "GEMINI_API_KEY or service account required" | 确保您已配置 API 密钥或 Vertex AI 凭据 |
安全过滤
Gemini 包含内置的安全过滤器。如果您的图片被拦截:
- 检查您的提示词中是否存在潜在的问题内容
- 尝试重新表述,以更具体地说明艺术意图
- 避免请求有害、暴力或露骨的内容
技术细节
存储集成
生成的图像会自动使用您配置的文件策略(local、S3、Azure 或 Firebase)进行保存。此过程由框架处理——工具返回图像数据,代理回调系统将其作为消息附件进行持久化存储。
图像格式
- 输出格式默认为 PNG,可通过应用程序的
imageOutputType设置进行配置 - 图像包含唯一标识符,以便在后续请求中进行引用。
速率限制
速率限制取决于您的 API 层级:
- Gemini API: 请查看 Google AI Studio 以了解当前限制
- Vertex AI: 基于您的 Google Cloud 项目配额
这篇指南怎么样?