Tải tệp lên dưới dạng văn bản
Thả bất kỳ tệp nào vào cuộc trò chuyện của bạn và để LibreChat đọc tệp đó — không cần thiết lập.
Tải lên tệp dưới dạng văn bản
Bạn đã bao giờ muốn đưa một tệp PDF, một tệp mã nguồn hoặc một bảng tính cho AI và chỉ cần nói "đọc cái này" chưa? Đó chính xác là những gì Upload as Text thực hiện.
Bạn đính kèm một tệp, LibreChat sẽ trích xuất văn bản từ tệp đó và toàn bộ nội dung sẽ được dán trực tiếp vào cuộc trò chuyện của bạn. AI sau đó có thể đọc từng từ trong đó — không cần plugin, không cần cơ sở dữ liệu vector, không cần cấu hình thêm dịch vụ nào khác. Tính năng này hoạt động ngay lập tức mà không cần thiết lập.
Không cần thiết lập
Upload as Text hoạt động ngay lập tức trên mọi phiên bản LibreChat. Tính năng này sử dụng trình phân tích văn bản tích hợp sẵn — bạn không cần OCR, quy trình RAG hay bất kỳ dịch vụ bên ngoài nào để bắt đầu.
Cách sử dụng
Nhấp vào biểu tượng đính kèm
Trong thanh nhập liệu trò chuyện, hãy nhấp vào biểu tượng kẹp giấy (📎).
Chọn "Upload as Text"
Từ menu thả xuống, hãy chọn Upload as Text. Thao tác này yêu cầu LibreChat đọc nội dung tệp thay vì chuyển tệp đó dưới dạng tệp đính kèm thô.
Chọn tệp của bạn
Chọn tệp từ thiết bị của bạn. LibreChat sẽ trích xuất văn bản và nhúng trực tiếp vào tin nhắn của bạn.
Đặt câu hỏi của bạn
Nhập câu lệnh của bạn như bình thường. AI hiện đã có toàn bộ nội dung tệp của bạn trong ngữ cảnh và có thể tham chiếu đến bất kỳ phần nào của tệp đó.
Bạn không thấy tùy chọn này?
Nếu "Upload as Text" không xuất hiện, khả năng context có thể đã bị quản trị viên của bạn vô hiệu hóa. Tính năng này được bật theo mặc định — nhưng nếu danh sách các khả năng (capabilities) đã được tùy chỉnh, context cần phải được bao gồm một cách rõ ràng. Xem phần cấu hình bên dưới.
Điều gì xảy ra bên dưới lớp vỏ
Khi bạn tải tệp lên theo cách này, LibreChat không chỉ đơn thuần đổ các byte thô vào prompt. Nó chạy qua một quy trình xử lý để trích xuất văn bản sạch, dễ đọc:
- Phát hiện loại MIME — LibreChat kiểm tra loại tệp bạn đã tải lên (PDF, hình ảnh, âm thanh, mã nguồn, v.v.) bằng cách kiểm tra loại MIME của tệp đó.
- Lựa chọn phương thức — Dựa trên loại tệp và các dịch vụ khả dụng, hệ thống sẽ chọn phương thức trích xuất tốt nhất theo thứ tự ưu tiên sau:
| Mức độ ưu tiên | Phương thức | Khi nào được sử dụng |
|---|---|---|
| 1 | OCR | Tệp là hình ảnh hoặc tài liệu được quét, và OCR đã được cấu hình |
| 2 | STT (Speech-to-Text) | Tệp là âm thanh, và STT đã được cấu hình |
| 3 | Phân tích văn bản | Tệp khớp với một kiểu MIME văn bản đã biết |
| 4 | Dự phòng | Không có trường hợp nào ở trên khớp — vẫn thử phân tích văn bản |
Một tệp .pdf trên một instance đã được cấu hình OCR:
→ OCR sẽ được kích hoạt. Rất hữu ích cho các tài liệu được quét và các bố cục phức tạp.
Một tệp .pdf trên một instance mặc định (không có OCR):
→ Trình phân tích văn bản xử lý tệp này. Hoạt động tốt đối với các tệp PDF được tạo bằng kỹ thuật số.
Một tệp Python .py:
→ Chuyển thẳng đến phân tích cú pháp văn bản. Mã nguồn vốn đã là văn bản — không cần chuyển đổi.
Một tệp .mp3 trên một instance đã được cấu hình STT:
→ Speech-to-Text sẽ chuyển đổi tệp đó thành văn bản cho cuộc trò chuyện.
Một ảnh chụp màn hình .png không được cấu hình OCR:
→ Quay lại sử dụng phân tích văn bản (kết quả hạn chế — hãy cân nhắc thiết lập OCR cho hình ảnh).
- Cắt bớt token — Văn bản được trích xuất sẽ được cắt bớt theo
fileTokenLimit(mặc định: 100.000 token) để không vượt quá cửa sổ ngữ cảnh của mô hình. - Prompt injection — Văn bản được đưa vào ngữ cảnh cuộc trò chuyện, ngay cùng với tin nhắn của bạn.
Các tệp nào được hỗ trợ
Chúng được phân tích cú pháp trực tiếp — chúng vốn đã là văn bản, vì vậy không cần chuyển đổi.
- Văn bản thuần (
.txt), Markdown (.md), CSV, JSON, XML, HTML, CSS - Các ngôn ngữ lập trình — Python, JavaScript, TypeScript, Java, C#, PHP, Ruby, Go, Rust, Kotlin, Swift, Scala, Perl, Lua
- Các tệp cấu hình — YAML, TOML, INI
- Các tập lệnh Shell, các tệp SQL
Việc phân tích văn bản xử lý các tác vụ này ngay khi cài đặt. Nếu OCR được cấu hình, nó sẽ thay thế để đạt độ chính xác cao hơn trên các bố cục phức tạp.
- PDF — kỹ thuật số và bản quét (các tệp PDF được quét sẽ được hưởng lợi từ OCR)
- Word —
.docx,.doc - PowerPoint —
.pptx,.ppt - Excel —
.xlsx,.xls - Sách EPUB
Hình ảnh yêu cầu OCR để tạo ra văn bản hữu ích. Nếu không có nó, kết quả sẽ không đạt yêu cầu.
- JPEG, PNG, GIF, WebP
- HEIC, HEIF (định dạng của Apple)
- Ảnh chụp màn hình, ảnh chụp tài liệu, các trang đã quét
Các tệp âm thanh yêu cầu phải cấu hình STT. Không có cơ chế dự phòng — âm thanh không thể được "phân tích cú pháp văn bản".
- MP3, WAV, OGG, FLAC
- M4A, WebM
- Bản ghi âm giọng nói, đoạn clip podcast
Tải lên dưới dạng văn bản so với các tùy chọn tải lên khác
LibreChat có ba cách để tải tệp lên. Mỗi cách hoạt động khác nhau và phù hợp với các tình huống khác nhau:
Tải lên dưới dạng văn bản
Trích xuất toàn bộ nội dung tệp và đưa vào cuộc trò chuyện. Phù hợp nhất cho các tệp nhỏ hơn mà bạn muốn AI đọc toàn bộ — hợp đồng, tệp mã nguồn, bài báo. Hoạt động với tất cả các model, không cần thêm dịch vụ bổ sung.
Tải lên cho Tìm kiếm tệp (RAG)
Lập chỉ mục tệp trong cơ sở dữ liệu vector và chỉ truy xuất các đoạn liên quan khi bạn đặt câu hỏi. Cách này tốt hơn cho các tệp lớn hoặc tập hợp nhiều tệp, nơi việc đưa tất cả mọi thứ vào ngữ cảnh sẽ gây lãng phí token. Yêu cầu phải có RAG API.
Tải lên tiêu chuẩn
Truyền tệp trực tiếp đến model — được sử dụng cho các model thị giác (vision models) khi phân tích hình ảnh, hoặc trình thông dịch mã (code interpreter) khi chạy tập lệnh. Không có quá trình trích xuất văn bản nào diễn ra.
Hướng dẫn quyết định nhanh:
| Tình huống | Lựa chọn tốt nhất |
|---|---|
| "Đọc bản hợp đồng 5 trang này và tóm tắt nó" | Tải lên dưới dạng Văn bản |
| "Tôi có 50 tệp PDF, hãy tìm những chỗ đề cập đến giá cả" | Tìm kiếm tệp (RAG) |
| "Ảnh chụp màn hình này có gì?" (mô hình thị giác) | Tải lên Tiêu chuẩn |
| "Chạy tập lệnh Python này" (trình thông dịch mã) | Tải lên Tiêu chuẩn |
| "Xem xét tệp mã này để tìm lỗi" | Tải lên dưới dạng Văn bản |
| "Tìm kiếm trong các tài liệu công ty của chúng tôi" | Tìm kiếm tệp (RAG) |
Khả năng context
Bên dưới lớp vỏ, Upload as Text được vận hành bởi context capability. Đây là yếu tố kiểm soát việc tính năng này có xuất hiện trong giao diện trò chuyện của bạn hay không.
Tính năng context được bật theo mặc định. Bạn chỉ cần can thiệp vào phần này nếu quản trị viên của bạn đã tùy chỉnh danh sách các tính năng và vô tình bỏ sót nó.
endpoints:
agents:
capabilities:
- "context" # This is what enables "Upload as Text"Khả năng context tương tự cũng hỗ trợ Agent File Context (tải tệp lên thông qua Agent Builder để nhúng văn bản vào các chỉ dẫn hệ thống của agent). Sự khác biệt nằm ở nơi văn bản đó được đưa đến:
| Tải lên dưới dạng Văn bản | Ngữ cảnh Tệp Tác nhân | |
|---|---|---|
| Vị trí | Nhập liệu trò chuyện (bất kỳ cuộc hội thoại nào) | Bảng Trình tạo Tác nhân |
| Phạm vi | Chỉ cuộc hội thoại hiện tại | Lưu giữ trong hướng dẫn của tác nhân |
| Trường hợp sử dụng | Câu hỏi về tài liệu dùng một lần | Xây dựng các tác nhân chuyên biệt với kiến thức tích hợp sẵn |
Giới hạn token và cắt bớt (truncation)
Khi một tệp quá dài để vừa với cửa sổ ngữ cảnh của model, LibreChat sẽ cắt bớt văn bản được trích xuất để nằm trong giới hạn cho phép. Quá trình này diễn ra tự động — bạn không cần phải lo lắng về điều đó, nhưng việc hiểu cách thức hoạt động của nó sẽ rất hữu ích.
fileConfig:
fileTokenLimit: 100000 # Default: 100,000 tokensCắt bớt nghĩa là mất nội dung
Nếu tệp của bạn vượt quá giới hạn, văn bản sẽ bị cắt ở phần cuối. Nếu bạn nhận được các câu trả lời không đầy đủ, đây có thể là lý do. Bạn có thể tăng fileTokenLimit, nhưng hãy lưu ý rằng các giá trị lớn hơn sẽ sử dụng nhiều token hơn cho mỗi tin nhắn — điều này làm tăng chi phí và có thể đạt đến giới hạn ngữ cảnh của chính mô hình.
Các quy tắc chung:
- 100k tokens ≈ một cuốn sách 300 trang (đủ cho hầu hết các trường hợp sử dụng)
- Nếu bạn đang làm việc với các tệp rất lớn, hãy cân nhắc sử dụng File Search (RAG) thay thế — tính năng này chỉ truy xuất các phần liên quan thay vì nhồi nhét mọi thứ vào ngữ cảnh.
Tùy chọn: tăng cường khả năng trích xuất với OCR
Việc phân tích văn bản hoạt động tốt đối với các tài liệu được tạo kỹ thuật số (PDF được lưu từ Word, tệp mã, văn bản thuần túy). Tuy nhiên, nếu bạn tải lên tài liệu đã quét, ảnh chụp các trang hoặc hình ảnh có chứa văn bản, trình phân tích tích hợp sẵn sẽ không mang lại kết quả tốt.
Đó là lúc OCR phát huy tác dụng. Khi được cấu hình, LibreChat sẽ tự động sử dụng OCR cho các loại tệp tin được hỗ trợ — bạn không cần phải thực hiện bất kỳ thao tác nào khác với tư cách là người dùng.
Tham chiếu cấu hình xử lý tệp
Phần này dành cho các quản trị viên muốn kiểm soát loại tệp nào được xử lý bằng phương thức nào. Các thiết lập mặc định đã hoạt động tốt — bạn chỉ cần thay đổi phần này nếu muốn tinh chỉnh hành vi.
Khắc phục sự cố
Liên quan
- OCR cho Tài liệu — Thiết lập nhận dạng ký tự quang học cho hình ảnh và bản quét
- RAG API (Chat with Files) — Tìm kiếm ngữ nghĩa trên các bộ sưu tập tài liệu lớn
- Agents — File Context — Nhúng nội dung tệp vào hướng dẫn hệ thống của agent
- Tham chiếu File Config — Lược đồ YAML đầy đủ cho việc xử lý tệp
Hướng dẫn này thế nào?
API RAG (Trò chuyện với tệp)
API Retrieval-Augmented Generation (RAG) để lập chỉ mục và truy xuất tài liệu sử dụng Langchain và FastAPI. API này tích hợp với LibreChat để cung cấp các phản hồi có nhận biết ngữ cảnh dựa trên các tệp do người dùng tải lên.
OCR cho Tài liệu
Tìm hiểu cách cấu hình Nhận dạng ký tự quang học (OCR) để tăng cường khả năng trích xuất văn bản trong các tính năng tải tệp lên của LibreChat.