Generowanie obrazów Gemini
Instrukcje konfiguracji i użytkowania generowania obrazów przez Google Gemini
Generowanie obrazów przez Gemini to potężne narzędzie, które integruje modele obrazów Gemini od Google w celu generowania wysokiej jakości obrazów na podstawie tekstu oraz edycji obrazów z uwzględnieniem kontekstu. Obsługuje zarówno prosty interfejs Gemini API, jak i Google Cloud Vertex AI.
Instrukcje konfiguracji
Możesz użyć albo Gemini API (zalecane dla większości użytkowników), albo Vertex AI z kontem serwisowym.
Opcja 1: Gemini API (Zalecane)
- Pobierz swój klucz API z Google AI Studio
- Ustaw zmienną środowiskową
GEMINI_API_KEYw swoim pliku.env:
GEMINI_API_KEY=your_api_key_hereOpcja 2: Vertex AI (dla użytkowników Enterprise/GCP)
- Utwórz konto serwisowe w Google Cloud Console z uprawnieniami Vertex AI
- Pobierz plik klucza JSON konta serwisowego
- Umieść plik JSON w projekcie (np.
api/data/auth.json) lub ustaw ścieżkę:
# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json
# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1Gdy nie skonfigurowano GEMINI_API_KEY ani GOOGLE_KEY, narzędzie automatycznie przełącza się na Vertex AI przy użyciu pliku konta serwisowego.
Po skonfigurowaniu danych uwierzytelniających zrestartuj LibreChat i dodaj Gemini Image Tools do listy Tools agenta.
| Wdrożenie | Polecenie |
|---|---|
| Docker | docker compose down && docker compose up -d |
| Lokalne | Zatrzymaj serwer, a następnie ponownie uruchom npm run backend |
Opcje konfiguracji
Wybór modelu
Możesz wybrać, którego modelu obrazów Gemini użyć, za pomocą zmiennej środowiskowej:
# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image
# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-previewDostępne modele
| Model | Opis |
|---|---|
gemini-2.5-flash-image | Domyślny model, szybki i wydajny |
gemini-3-pro-image-preview | Wyższa jakość, bardziej szczegółowe generacje |
Funkcje
Główne możliwości
- Generowanie obrazów z tekstu: Tworzenie obrazów na podstawie szczegółowych opisów tekstowych
- Obsługa kontekstu obrazu: Wykorzystuj istniejące obrazy jako kontekst/inspirację dla nowych generacji
- Edycja obrazów: Generowanie nowych obrazów na podstawie modyfikacji istniejących
- Filtrowanie bezpieczeństwa: Wbudowane zabezpieczenia treści z przyjaznymi dla użytkownika komunikatami o błędach
Parametry
Narzędzie Gemini Image Gen akceptuje następujące parametry:
- prompt (wymagane) – Szczegółowy opis tekstowy pożądanego obrazu, do 32 000 znaków
- image_ids (opcjonalne) – Tablica identyfikatorów obrazów, które mają zostać użyte jako kontekst wizualny dla generowania
Najlepsze praktyki
Pisanie promptów
- Bądź konkretny i szczegółowy w swoich opisach
- Zacznij od typu obrazu: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render itp.
- Uwzględnij kluczowe elementy:
- Tematyka i kompozycja
- Styl i podejście artystyczne
- Oświetlenie i atmosfera
- Preferencje palety kolorów
- Specyfikacje techniczne
Wskazówki dotyczące edycji obrazów
Podczas edycji istniejących obrazów:
- Dołącz oryginalny identyfikator obrazu w tablicy
image_ids - Użyj bezpośrednich instrukcji edycji:
- Usuń tło z tego obrazu
- Dodaj okulary przeciwsłoneczne do osoby na tym obrazie
- Zmień kolor samochodu na czerwony
- Nie rekonstruuj oryginalnego promptu – używaj prostych, bezpośrednich instrukcji modyfikacji
Przykłady użycia
Podstawowe generowanie obrazów
Spokojny japoński ogród o złotej godzinie, z tradycyjnym czerwonym mostkiem nad stawem z karpiami koi. Drzewa wiśni otaczają scenę, a w powietrzu unoszą się opadające delikatne różowe płatki. Styl fotorealistyczny z ciepłym, rozproszonym oświetleniem i nasyconymi kolorami.
Obraz z kontekstem
Gdy masz już istniejący obraz i chcesz stworzyć coś, co jest nim inspirowane:
- Odnieś się do identyfikatora obrazu w parametrze
image_ids - Opisz, czego oczekujesz: "Stwórz zimową wersję tej scenerii z ośnieżonymi drzewami i zamarzniętym jeziorem"
Edycja obrazów
Aby zmodyfikować istniejący obraz:
- Uwzględnij identyfikator obrazu w
image_ids - Opisz zmianę: "Usuń osobę z tła tego obrazu"
Obsługa błędów
Typowe problemy
| Błąd | Rozwiązanie |
|---|---|
| "Image blocked by content safety filters" | Zmodyfikuj swój prompt, aby uniknąć treści naruszających zasady bezpieczeństwa |
| "No image was generated" | Spróbuj użyć innego promptu lub uprość swoje żądanie |
| "GEMINI_API_KEY or service account required" | Upewnij się, że skonfigurowałeś klucz API lub poświadczenia Vertex AI |
Filtrowanie bezpieczeństwa
Gemini zawiera wbudowane filtry bezpieczeństwa. Jeśli Twój obraz został zablokowany:
- Sprawdź swój prompt pod kątem potencjalnie problematycznych treści
- Spróbuj przeformułować zapytanie, aby było bardziej precyzyjne pod kątem intencji artystycznej
- Unikaj żądań dotyczących treści szkodliwych, brutalnych lub obscenicznych
Szczegóły techniczne
Integracja z pamięcią masową
Wygenerowane obrazy są automatycznie zapisywane przy użyciu skonfigurowanej strategii plików (local, S3, Azure lub Firebase). Jest to obsługiwane przez framework — narzędzie zwraca dane obrazu, a system wywołań zwrotnych agenta utrwala je jako załącznik do wiadomości.
Format obrazu
- Domyślny format wyjściowy to PNG, konfigurowalny za pomocą ustawienia
imageOutputTypew aplikacji - Obrazy zawierają unikalne identyfikatory do wykorzystania w kolejnych żądaniach
Limity szybkości (Rate Limits)
Limity szybkości zależą od Twojego poziomu API:
- Gemini API: Sprawdź Google AI Studio, aby poznać aktualne limity
- Vertex AI: W oparciu o limity Twojego projektu Google Cloud
Jaka jest ta instrukcja?