anonymous · 10:44 27/7/26 · ORA·techanonymous · 10:44 27/7/26 · ORA·techanonymous · 10:44 27/7/26 · ORA·techanonymous · 10:44 27/7/26 · ORA·techanonymous · 10:44 27/7/26 · ORA·techanonymous · 10:44 27/7/26 · ORA·tech

05 · Nâng cao

Multimodal RAG

Một index cho cả text, ảnh và bảng.

Khi nào dùng

Khi tri thức nằm trong ẢNH/BIỂU ĐỒ/BẢNG/PDF scan/slide/khung video (báo cáo tài chính, sơ đồ kỹ thuật, hoá đơn, ảnh sản phẩm) mà OCR-ra-text làm mất bố cục và ý nghĩa hình ảnh. ❌ Không cần nếu tài liệu vốn là text sạch: pipeline text rẻ hơn và chính xác hơn.

Ví dụ thực tế

Q&A trên báo cáo tài chính: hỏi con số nằm trong biểu đồ/bảng chứ không phải trong đoạn văn.
Tra cứu slide thuyết trình nội bộ: nội dung là hình, sơ đồ, ít chữ.
Xử lý hoá đơn/chứng từ scan: bóc thông tin từ ảnh giữ đúng bố cục.
Hỏi đáp trên catalog sản phẩm có ảnh, hoặc đọc sơ đồ kỹ thuật/bản vẽ.

Sơ đồ

Text Chunks ───┐
Images/Charts ─┼─▶ Multimodal Embedding (CLIP / ColPali)
Tables ────────┘            ▼
                   Unified Vector Index
                            ▼
                        Retrieval
                            ▼
              Multimodal LLM (vision) → Answer

Luồng hoạt động

1Nguồn đa dạng: Text Chunks · Images/Charts · Tables
2Shared Multimodal Embedding Model (vd CLIP / ColPali)
3Unified Vector Index (một index chung)
4Retrieval
5Multimodal LLM (vision + text) → Answer

Hiểu nôm na

Như một đồng nghiệp có thể THẬT SỰ NHÌN biểu đồ và tấm ảnh, thay vì chỉ đọc dòng chú thích "đây là biểu đồ doanh số". Nhờ nhìn được, họ đọc đúng con số trên từng cột, hiểu sơ đồ kỹ thuật, và trả lời chính xác — thứ mà RAG text thuần (chỉ đọc chữ) bỏ lỡ.

Khái niệm A–Z

Rất nhiều tri thức KHÔNG phải text: biểu đồ trong báo cáo, sơ đồ kiến trúc, bảng số liệu, PDF scan, hoá đơn. RAG text thuần bỏ sót hết. Multimodal RAG nhúng MỌI loại nội dung vào CÙNG một không gian vector bằng một embedding model đa phương thức (CLIP cho ảnh-text; ColPali/ColQwen nhúng thẳng ẢNH TRANG tài liệu, bỏ qua OCR), lưu trong một Unified Vector Index. Khi truy vấn (bằng text), hệ thống lấy về cả đoạn text lẫn ảnh/bảng liên quan, rồi đưa cho một Multimodal LLM (GPT-4o, Gemini, Claude vision) "nhìn" để trả lời. Hai hướng chính: (A) chuyển mọi thứ về text (caption ảnh, parse bảng) rồi RAG bình thường; (B) embed trực tiếp ảnh (ColPali) — chính xác hơn cho tài liệu giàu hình.

Cách hoạt động

Hai chiến lược nhúng

Chọn theo độ "giàu hình" của tài liệu và ngân sách.

A — Translate-to-text: dùng vision LLM caption ảnh/biểu đồ, parse bảng thành markdown, rồi RAG text bình thường. Đơn giản, rẻ, nhưng MẤT chi tiết hình.
B — Embed ảnh trực tiếp: ColPali/ColQwen nhúng ảnh trang (multi-vector, late interaction) → giữ trọn layout/biểu đồ, bỏ qua OCR. Chính xác cao cho PDF/slide phức tạp.
Thực tế hay HYBRID: text → embed text; trang giàu hình → embed ảnh; gộp trong unified index.

Truy xuất + sinh đáp án

Truy vấn text, lấy về hỗn hợp text+ảnh, rồi để vision LLM đọc.

Một query text được embed cùng không gian → lấy được cả chunk text lẫn ảnh trang.
Đưa ảnh THẬT (không phải caption) vào Multimodal LLM để nó "nhìn" biểu đồ/bảng và suy luận.
Trích dẫn: trả về cả trang/ảnh nguồn để người dùng kiểm chứng số liệu trong biểu đồ.

Nội dung chuyên sâu 5 mô hình RAG

Mở khoá phần Thực hành (code), Mẹo thực chiến, Lưu ý bảo mật, Áp dụng dự án thật, Lỗi thường gặp và Thuật ngữ — dành cho gói Senior trở lên.

Cần đăng nhập + gói Senior trở lên

Đăng nhập để xem

Đã có tài khoản gói phù hợp? Đăng nhập để mở khoá ngay.

Kiến trúc liên quan

01Hybrid RAGGộp text + ảnh trong unified index theo tinh thần hybrid.04Corrective RAG (CRAG)Chấm điểm kết quả ảnh trước khi tin số liệu trong biểu đồ.

Luyện phỏng vấn AI/RAG thực chiến

Hàng nghìn câu hỏi phỏng vấn IT + lộ trình — học nhanh, đi làm sớm.

Bắt đầu luyện