Tạo ảnh Gemini

Hướng dẫn thiết lập và sử dụng tính năng tạo hình ảnh của Google Gemini

Gemini Image Generation là một công cụ mạnh mẽ tích hợp các Mô hình Hình ảnh Gemini của Google để tạo hình ảnh từ văn bản chất lượng cao và chỉnh sửa hình ảnh có nhận biết ngữ cảnh. Nó hỗ trợ cả Gemini API đơn giản và Google Cloud Vertex AI.

Hướng dẫn thiết lập

Bạn có thể sử dụng Gemini API (được khuyến nghị cho hầu hết người dùng) hoặc Vertex AI với tài khoản dịch vụ (service account).

Lựa chọn 1: Gemini API (Khuyên dùng)

Lấy API key của bạn từ Google AI Studio
Thiết lập biến môi trường GEMINI_API_KEY trong tệp .env của bạn:

GEMINI_API_KEY=your_api_key_here

Tùy chọn 2: Vertex AI (Dành cho người dùng Doanh nghiệp/GCP)

Tạo một tài khoản dịch vụ (service account) trong Google Cloud Console với các quyền truy cập Vertex AI
Tải xuống tệp khóa JSON của tài khoản dịch vụ
Đặt tệp JSON vào dự án (ví dụ: api/data/auth.json) hoặc thiết lập đường dẫn:

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Khi không có GEMINI_API_KEY hoặc GOOGLE_KEY nào được cấu hình, công cụ sẽ tự động chuyển sang sử dụng Vertex AI thông qua tệp tài khoản dịch vụ (service account file).

Sau khi cấu hình thông tin xác thực, hãy khởi động lại LibreChat và thêm Gemini Image Tools vào danh sách Tools của một agent.

Triển khai	Lệnh
Docker	`docker compose down && docker compose up -d`
Local	Dừng máy chủ, sau đó chạy lại `npm run backend`

Các tùy chọn cấu hình

Lựa chọn Model

Bạn có thể chọn mô hình hình ảnh Gemini để sử dụng thông qua biến môi trường:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Các mô hình khả dụng

Model	Description
`gemini-2.5-flash-image`	Model mặc định, nhanh và hiệu quả
`gemini-3-pro-image-preview`	Chất lượng cao hơn, tạo hình chi tiết hơn

Các tính năng

Các khả năng cốt lõi

Tạo hình ảnh từ văn bản: Tạo hình ảnh từ các mô tả văn bản chi tiết
Hỗ trợ ngữ cảnh hình ảnh: Sử dụng các hình ảnh hiện có làm ngữ cảnh/nguồn cảm hứng cho các thế hệ mới
Chỉnh sửa hình ảnh: Tạo hình ảnh mới dựa trên các sửa đổi đối với hình ảnh hiện có
Lọc an toàn: Tính năng lọc nội dung tích hợp sẵn với các thông báo lỗi thân thiện với người dùng

Các tham số

Công cụ Gemini Image Gen chấp nhận các tham số sau:

prompt (bắt buộc) – Một mô tả văn bản chi tiết về hình ảnh mong muốn, tối đa 32.000 ký tự
image_ids (tùy chọn) – Mảng các ID hình ảnh được sử dụng làm ngữ cảnh trực quan cho việc tạo nội dung

Các phương pháp tốt nhất

Viết Prompt

Hãy cụ thể và chi tiết trong các mô tả của bạn
Bắt đầu với loại hình ảnh: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render, v.v.
Bao gồm các thành phần chính:
- Chủ đề và bố cục
- Phong cách và phương pháp nghệ thuật
- Ánh sáng và bầu không khí
- Tùy chọn bảng màu
- Thông số kỹ thuật

Mẹo chỉnh sửa hình ảnh

Khi chỉnh sửa các hình ảnh hiện có:

Bao gồm ID hình ảnh gốc trong mảng image_ids
Sử dụng các hướng dẫn chỉnh sửa trực tiếp:
- Xóa nền khỏi hình ảnh này
- Thêm kính râm cho người trong hình ảnh này
- Thay đổi màu của chiếc xe thành màu đỏ
Đừng xây dựng lại prompt gốc – hãy sử dụng các hướng dẫn sửa đổi trực tiếp, đơn giản

Các ví dụ về cách sử dụng

Tạo hình ảnh cơ bản

Một khu vườn Nhật Bản thanh bình vào giờ vàng, nổi bật với cây cầu đỏ truyền thống bắc qua hồ cá koi. Những hàng cây hoa anh đào bao quanh khung cảnh với những cánh hoa hồng nhạt đang rơi. Phong cách chân thực với ánh sáng ấm áp, dịu nhẹ và màu sắc phong phú.

Hình ảnh với Ngữ cảnh

Khi bạn có một hình ảnh hiện có và muốn tạo ra thứ gì đó lấy cảm hứng từ nó:

Tham chiếu ID hình ảnh trong tham số image_ids
Mô tả những gì bạn muốn: "Tạo một phiên bản mùa đông của khung cảnh này với những cái cây phủ đầy tuyết và một hồ nước đóng băng"

Chỉnh sửa hình ảnh

Để sửa đổi một hình ảnh hiện có:

Bao gồm ID hình ảnh trong image_ids
Mô tả thay đổi: "Xóa người ra khỏi nền của hình ảnh này"

Xử lý lỗi

Các vấn đề thường gặp

Lỗi	Giải pháp
"Image blocked by content safety filters"	Chỉnh sửa prompt của bạn để tránh nội dung vi phạm chính sách an toàn
"No image was generated"	Thử một prompt khác hoặc đơn giản hóa yêu cầu của bạn
"GEMINI_API_KEY or service account required"	Đảm bảo bạn đã cấu hình API key hoặc thông tin xác thực Vertex AI

Lọc an toàn

Gemini bao gồm các bộ lọc an toàn tích hợp sẵn. Nếu hình ảnh của bạn bị chặn:

Xem lại prompt của bạn để tìm nội dung có khả năng gây vấn đề
Hãy thử diễn đạt lại để cụ thể hơn về ý định nghệ thuật
Tránh các yêu cầu về nội dung có hại, bạo lực hoặc khiêu dâm

Chi tiết kỹ thuật

Tích hợp lưu trữ

Các hình ảnh được tạo sẽ tự động được lưu bằng chiến lược tệp đã định cấu hình của bạn (local, S3, Azure, hoặc Firebase). Quá trình này được xử lý bởi framework — công cụ sẽ trả về dữ liệu hình ảnh và hệ thống callback của agent sẽ lưu trữ nó dưới dạng tệp đính kèm trong tin nhắn.

Định dạng hình ảnh

Định dạng đầu ra mặc định là PNG, có thể cấu hình thông qua cài đặt imageOutputType của ứng dụng
Các hình ảnh bao gồm các định danh duy nhất để tham chiếu trong các yêu cầu tiếp theo

Giới hạn tốc độ (Rate Limits)

Giới hạn tốc độ phụ thuộc vào cấp độ API của bạn:

Gemini API: Kiểm tra Google AI Studio để biết các giới hạn hiện tại
Vertex AI: Dựa trên hạn ngạch dự án Google Cloud của bạn

Tạo ảnh Gemini

Trên trang này