Generowanie obrazów Gemini

Generowanie obrazów przez Gemini to potężne narzędzie, które integruje modele obrazów Gemini od Google w celu generowania wysokiej jakości obrazów na podstawie tekstu oraz edycji obrazów z uwzględnieniem kontekstu. Obsługuje zarówno prosty interfejs Gemini API, jak i Google Cloud Vertex AI.

Instrukcje konfiguracji

Możesz użyć albo Gemini API (zalecane dla większości użytkowników), albo Vertex AI z kontem serwisowym.

Opcja 1: Gemini API (Zalecane)

Pobierz swój klucz API z Google AI Studio
Ustaw zmienną środowiskową GEMINI_API_KEY w swoim pliku .env:

GEMINI_API_KEY=your_api_key_here

Opcja 2: Vertex AI (dla użytkowników Enterprise/GCP)

Utwórz konto serwisowe w Google Cloud Console z uprawnieniami Vertex AI
Pobierz plik klucza JSON konta serwisowego
Umieść plik JSON w projekcie (np. api/data/auth.json) lub ustaw ścieżkę:

# Path to your service account JSON file (default: api/data/auth.json)
GOOGLE_SERVICE_KEY_FILE=/path/to/service-account.json

# Optional: Set the location (default: global)
GOOGLE_CLOUD_LOCATION=us-central1

Gdy nie skonfigurowano GEMINI_API_KEY ani GOOGLE_KEY, narzędzie automatycznie przełącza się na Vertex AI przy użyciu pliku konta serwisowego.

Po skonfigurowaniu danych uwierzytelniających zrestartuj LibreChat i dodaj Gemini Image Tools do listy Tools agenta.

Wdrożenie	Polecenie
Docker	`docker compose down && docker compose up -d`
Lokalne	Zatrzymaj serwer, a następnie ponownie uruchom `npm run backend`

Opcje konfiguracji

Wybór modelu

Możesz wybrać, którego modelu obrazów Gemini użyć, za pomocą zmiennej środowiskowej:

# Default model
GEMINI_IMAGE_MODEL=gemini-2.5-flash-image

# Or use the newer Gemini 3 Pro Image model
GEMINI_IMAGE_MODEL=gemini-3-pro-image-preview

Dostępne modele

Model	Opis
`gemini-2.5-flash-image`	Domyślny model, szybki i wydajny
`gemini-3-pro-image-preview`	Wyższa jakość, bardziej szczegółowe generacje

Funkcje

Główne możliwości

Generowanie obrazów z tekstu: Tworzenie obrazów na podstawie szczegółowych opisów tekstowych
Obsługa kontekstu obrazu: Wykorzystuj istniejące obrazy jako kontekst/inspirację dla nowych generacji
Edycja obrazów: Generowanie nowych obrazów na podstawie modyfikacji istniejących
Filtrowanie bezpieczeństwa: Wbudowane zabezpieczenia treści z przyjaznymi dla użytkownika komunikatami o błędach

Parametry

Narzędzie Gemini Image Gen akceptuje następujące parametry:

prompt (wymagane) – Szczegółowy opis tekstowy pożądanego obrazu, do 32 000 znaków
image_ids (opcjonalne) – Tablica identyfikatorów obrazów, które mają zostać użyte jako kontekst wizualny dla generowania

Najlepsze praktyki

Pisanie promptów

Bądź konkretny i szczegółowy w swoich opisach
Zacznij od typu obrazu: photo, oil painting, watercolor, illustration, cartoon, drawing, vector, render itp.
Uwzględnij kluczowe elementy:
- Tematyka i kompozycja
- Styl i podejście artystyczne
- Oświetlenie i atmosfera
- Preferencje palety kolorów
- Specyfikacje techniczne

Wskazówki dotyczące edycji obrazów

Podczas edycji istniejących obrazów:

Dołącz oryginalny identyfikator obrazu w tablicy image_ids
Użyj bezpośrednich instrukcji edycji:
- Usuń tło z tego obrazu
- Dodaj okulary przeciwsłoneczne do osoby na tym obrazie
- Zmień kolor samochodu na czerwony
Nie rekonstruuj oryginalnego promptu – używaj prostych, bezpośrednich instrukcji modyfikacji

Przykłady użycia

Podstawowe generowanie obrazów

Spokojny japoński ogród o złotej godzinie, z tradycyjnym czerwonym mostkiem nad stawem z karpiami koi. Drzewa wiśni otaczają scenę, a w powietrzu unoszą się opadające delikatne różowe płatki. Styl fotorealistyczny z ciepłym, rozproszonym oświetleniem i nasyconymi kolorami.

Obraz z kontekstem

Gdy masz już istniejący obraz i chcesz stworzyć coś, co jest nim inspirowane:

Odnieś się do identyfikatora obrazu w parametrze image_ids
Opisz, czego oczekujesz: "Stwórz zimową wersję tej scenerii z ośnieżonymi drzewami i zamarzniętym jeziorem"

Edycja obrazów

Aby zmodyfikować istniejący obraz:

Uwzględnij identyfikator obrazu w image_ids
Opisz zmianę: "Usuń osobę z tła tego obrazu"

Obsługa błędów

Typowe problemy

Błąd	Rozwiązanie
"Image blocked by content safety filters"	Zmodyfikuj swój prompt, aby uniknąć treści naruszających zasady bezpieczeństwa
"No image was generated"	Spróbuj użyć innego promptu lub uprość swoje żądanie
"GEMINI_API_KEY or service account required"	Upewnij się, że skonfigurowałeś klucz API lub poświadczenia Vertex AI

Filtrowanie bezpieczeństwa

Gemini zawiera wbudowane filtry bezpieczeństwa. Jeśli Twój obraz został zablokowany:

Sprawdź swój prompt pod kątem potencjalnie problematycznych treści
Spróbuj przeformułować zapytanie, aby było bardziej precyzyjne pod kątem intencji artystycznej
Unikaj żądań dotyczących treści szkodliwych, brutalnych lub obscenicznych

Szczegóły techniczne

Integracja z pamięcią masową

Wygenerowane obrazy są automatycznie zapisywane przy użyciu skonfigurowanej strategii plików (local, S3, Azure lub Firebase). Jest to obsługiwane przez framework — narzędzie zwraca dane obrazu, a system wywołań zwrotnych agenta utrwala je jako załącznik do wiadomości.

Format obrazu

Domyślny format wyjściowy to PNG, konfigurowalny za pomocą ustawienia imageOutputType w aplikacji
Obrazy zawierają unikalne identyfikatory do wykorzystania w kolejnych żądaniach

Limity szybkości (Rate Limits)

Limity szybkości zależą od Twojego poziomu API:

Gemini API: Sprawdź Google AI Studio, aby poznać aktualne limity
Vertex AI: W oparciu o limity Twojego projektu Google Cloud

Generowanie obrazów Gemini

Na tej stronie