Prześlij pliki jako tekst
Upuść dowolny plik w czacie, a LibreChat go odczyta — bez konieczności konfiguracji.
Przesyłaj pliki jako tekst
Czy kiedykolwiek chciałeś przekazać plik PDF, plik z kodem lub arkusz kalkulacyjny do AI i po prostu powiedzieć "przeczytaj to"? Dokładnie to robi funkcja Upload as Text.
Załączasz plik, LibreChat wyodrębnia z niego tekst, a pełna zawartość zostaje wklejona bezpośrednio do Twojej konwersacji. AI może następnie przeczytać każde słowo — bez wtyczek, bez baz danych wektorowych, bez dodatkowych usług do skonfigurowania. Działa to od razu po uruchomieniu.
Nie wymaga konfiguracji
Upload as Text działa natychmiast na każdej instancji LibreChat. Wykorzystuje wbudowane parsowanie tekstu — nie potrzebujesz OCR, potoku RAG ani żadnej zewnętrznej usługi, aby rozpocząć.
Jak tego używać
Kliknij ikonę załącznika
W pasku wprowadzania czatu kliknij ikonę spinacza (📎).
Wybierz "Upload as Text"
Z menu rozwijanego wybierz Upload as Text. Informuje to LibreChat, aby odczytał zawartość pliku zamiast przesyłać go jako zwykły załącznik.
Wybierz swój plik
Wybierz plik ze swojego urządzenia. LibreChat wyodrębni tekst i osadzi go bezpośrednio w Twojej wiadomości.
Zadaj swoje pytanie
Wpisz swój prompt jak zwykle. AI ma teraz pełny tekst Twojego pliku w kontekście i może odwołać się do dowolnej jego części.
Nie widzisz tej opcji?
Jeśli „Upload as Text” się nie pojawia, funkcja context mogła zostać wyłączona przez administratora. Jest ona domyślnie włączona, ale jeśli lista możliwości została dostosowana, context musi zostać wyraźnie uwzględniony. Zobacz sekcję konfiguracji poniżej.
Co dzieje się „pod maską”
Kiedy przesyłasz plik w ten sposób, LibreChat nie tylko wrzuca surowe bajty do promptu. Przechodzi on przez potok przetwarzania w celu wyodrębnienia czystego, czytelnego tekstu:
- Wykrywanie typu MIME — LibreChat sprawdza, jaki rodzaj pliku został przesłany (PDF, obraz, audio, kod źródłowy itp.), analizując jego typ MIME.
- Wybór metody — W zależności od typu pliku oraz dostępnych usług, wybiera najlepszą metodę ekstrakcji, stosując następujący priorytet:
| Priorytet | Metoda | Kiedy jest używana |
|---|---|---|
| 1. | OCR | Plik jest obrazem lub zeskanowanym dokumentem oraz skonfigurowano OCR |
| 2. | STT (Speech-to-Text) | Plik jest nagraniem audio oraz skonfigurowano STT |
| 3. | Analiza tekstu | Plik pasuje do znanego typu MIME tekstu |
| 4. | Fallback | Żaden z powyższych warunków nie został spełniony — mimo to próbuje analizy tekstu |
Plik .pdf na instancji z skonfigurowanym OCR:
→ OCR uruchamia się. Świetne rozwiązanie dla zeskanowanych dokumentów i złożonych układów.
Plik .pdf w domyślnej instancji (bez OCR):
→ Obsługiwane przez parsowanie tekstu. Działa dobrze w przypadku plików PDF utworzonych cyfrowo.
Plik Python .py:
→ Bezpośrednio do parsowania tekstu. Kod źródłowy jest już tekstem — nie jest wymagana żadna konwersja.
Plik .mp3 w instancji ze skonfigurowanym STT:
→ Speech-to-Text transkrybuje go na tekst w ramach konwersacji.
Zrzut ekranu .png bez skonfigurowanego OCR:
→ Powraca do parsowania tekstu (ograniczone wyniki — rozważ skonfigurowanie OCR dla obrazów).
- Obcinanie tokenów — Wyodrębniony tekst jest przycinany do wartości
fileTokenLimit(domyślnie: 100 000 tokenów), aby nie przekroczyć okna kontekstowego modelu. - Wstrzyknięcie promptu (Prompt injection) — Tekst zostaje dołączony do kontekstu konwersacji, bezpośrednio obok Twojej wiadomości.
Jakie pliki są obsługiwane
Są one parsowane bezpośrednio — są już tekstem, więc konwersja nie jest wymagana.
- Zwykły tekst (
.txt), Markdown (.md), CSV, JSON, XML, HTML, CSS - Języki programowania — Python, JavaScript, TypeScript, Java, C#, PHP, Ruby, Go, Rust, Kotlin, Swift, Scala, Perl, Lua
- Pliki konfiguracyjne — YAML, TOML, INI
- Skrypty powłoki, pliki SQL
Analiza tekstu obsługuje to automatycznie. Jeśli skonfigurowano OCR, przejmuje on to zadanie, zapewniając lepszą dokładność w przypadku złożonych układów.
- PDF — cyfrowe i skanowane (skanowane pliki PDF korzystają z OCR)
- Word —
.docx,.doc - PowerPoint —
.pptx,.ppt - Excel —
.xlsx,.xls - Książki EPUB
Obrazy wymagają OCR, aby wygenerować użyteczny tekst. Bez tego wyniki będą słabej jakości.
- JPEG, PNG, GIF, WebP
- HEIC, HEIF (formaty Apple)
- Zrzuty ekranu, zdjęcia dokumentów, zeskanowane strony
Pliki audio wymagają skonfigurowanego STT. Nie ma mechanizmu zastępczego — audio nie może być „przetworzone jako tekst”.
- MP3, WAV, OGG, FLAC
- M4A, WebM
- Nagrania głosowe, fragmenty podcastów
Przesyłanie jako tekst a inne opcje przesyłania
LibreChat oferuje trzy sposoby przesyłania plików. Każdy z nich działa inaczej i sprawdza się w różnych sytuacjach:
Prześlij jako tekst
Wyodrębnia pełną zawartość pliku i umieszcza ją w konwersacji. Najlepsze rozwiązanie dla mniejszych plików, w przypadku których chcesz, aby AI przeczytało wszystko — umowy, pliki z kodem, artykuły. Działa ze wszystkimi modelami, nie wymaga dodatkowych usług.
Przesyłanie plików do wyszukiwania (RAG)
Indeksuje plik w bazie danych wektorowych i pobiera tylko odpowiednie fragmenty, gdy zadajesz pytanie. Lepsze rozwiązanie w przypadku dużych plików lub zbiorów plików, gdzie umieszczenie wszystkiego w kontekście spowodowałoby marnowanie tokenów. Wymaga RAG API.
Standardowe przesyłanie
Przekazuje plik bezpośrednio do modelu — używane w przypadku modeli wizyjnych analizujących obrazy lub interpretera kodu uruchamiającego skrypty. Ekstrakcja tekstu nie ma miejsca.
Szybki przewodnik decyzyjny:
| Sytuacja | Najlepsza opcja |
|---|---|
| "Przeczytaj tę 5-stronicową umowę i podsumuj ją" | Prześlij jako tekst |
| "Mam 50 plików PDF, znajdź wzmianki o cenach" | Wyszukiwanie w plikach (RAG) |
| "Co jest na tym zrzucie ekranu?" (model wizyjny) | Standardowe przesyłanie |
| "Uruchom ten skrypt w Pythonie" (interpreter kodu) | Standardowe przesyłanie |
| "Sprawdź ten plik z kodem pod kątem błędów" | Prześlij jako tekst |
| "Przeszukaj nasze dokumenty firmowe" | Wyszukiwanie w plikach (RAG) |
Możliwość context
Pod maską, funkcja Upload as Text jest obsługiwana przez możliwość context. To ona decyduje o tym, czy funkcja ta pojawi się w interfejsie czatu.
Funkcja context jest domyślnie włączona. Musisz się nią zająć tylko wtedy, gdy administrator dostosował listę funkcji i przypadkowo ją pominął.
endpoints:
agents:
capabilities:
- "context" # This is what enables "Upload as Text"Ta sama funkcja context obsługuje również Agent File Context (przesyłanie plików przez Kreator Agentów w celu osadzenia tekstu w instrukcjach systemowych agenta). Różnica polega na tym, gdzie trafia tekst:
| Prześlij jako tekst | Kontekst pliku agenta | |
|---|---|---|
| Gdzie | Dane wejściowe czatu (dowolna konwersacja) | Panel kreatora agenta |
| Zakres | Tylko bieżąca konwersacja | Utrzymuje się w instrukcjach agenta |
| Przypadek użycia | Jednorazowe pytania dotyczące dokumentów | Tworzenie wyspecjalizowanych agentów z wbudowaną wiedzą |
Limity tokenów i obcinanie (truncation)
Gdy plik jest zbyt długi, aby zmieścić się w oknie kontekstowym modelu, LibreChat przycina wyodrębniony tekst, aby zachować go w wyznaczonych granicach. Dzieje się to automatycznie — nie musisz się o to martwić, ale warto wiedzieć, jak to działa.
fileConfig:
fileTokenLimit: 100000 # Default: 100,000 tokensUcięcie oznacza utratę zawartości
Jeśli Twój plik przekracza limit, tekst zostanie ucięty na końcu. Jeśli otrzymujesz niekompletne odpowiedzi, może to być powód. Możesz zwiększyć fileTokenLimit, ale pamiętaj, że większe wartości zużywają więcej tokenów na wiadomość — co zwiększa koszt i może spowodować przekroczenie limitu kontekstu samego modelu.
Zasady praktyczne:
- 100 tys. tokenów ≈ 300-stronicowa książka (wystarczająco dla większości zastosowań)
- Jeśli pracujesz z bardzo dużymi plikami, rozważ użycie File Search (RAG) — pobiera ono tylko odpowiednie sekcje zamiast umieszczać wszystko w kontekście.
Opcjonalnie: zwiększanie skuteczności ekstrakcji za pomocą OCR
Analiza tekstu działa poprawnie w przypadku dokumentów utworzonych cyfrowo (pliki PDF zapisane z programu Word, pliki z kodem, zwykły tekst). Jeśli jednak przesyłasz zeskanowane dokumenty, zdjęcia stron lub obrazy z tekstem, wbudowany parser nie zapewni zadowalających rezultatów.
W tym miejscu z pomocą przychodzi OCR. Po skonfigurowaniu, LibreChat automatycznie używa OCR dla typów plików, które na tym korzystają — jako użytkownik nie musisz robić niczego inaczej.
Dokumentacja konfiguracji obsługi plików
Ta sekcja jest przeznaczona dla administratorów, którzy chcą kontrolować, które typy plików są przetwarzane za pomocą jakiej metody. Ustawienia domyślne działają dobrze — należy je zmieniać tylko wtedy, gdy chcesz dostosować zachowanie systemu.
Rozwiązywanie problemów
Powiązane
- OCR dla dokumentów — Skonfiguruj optyczne rozpoznawanie znaków dla obrazów i skanów
- RAG API (Chat with Files) — Wyszukiwanie semantyczne w dużych zbiorach dokumentów
- Agenci — Kontekst pliku — Osadzanie zawartości pliku w instrukcjach systemowych agenta
- Referencja konfiguracji plików — Pełny schemat YAML dla obsługi plików
Jaka jest ta instrukcja?
API RAG (Czat z plikami)
API Retrieval-Augmented Generation (RAG) do indeksowania i pobierania dokumentów przy użyciu Langchain i FastAPI. To API integruje się z LibreChat, aby zapewniać odpowiedzi uwzględniające kontekst na podstawie plików przesłanych przez użytkownika.
OCR dla dokumentów
Dowiedz się, jak skonfigurować optyczne rozpoznawanie znaków (OCR), aby usprawnić ekstrakcję tekstu w funkcjach przesyłania plików w LibreChat.