AI tạo sinh được tăng cường bởi Truy xuất Theo Ngữ cảnh, giảm tỷ lệ truy xuất thông tin sai lệch tới 67%

• Kỹ thuật Truy xuất Theo Ngữ cảnh (Contextual Retrieval) được Anthropic AI giới thiệu nhằm cải thiện độ chính xác trong truy xuất thông tin của hệ thống RAG.

RAG (AI tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài) thường mất ngữ cảnh khi mã hóa, gây khó khăn cho việc trích xuất thông tin phù hợp nhất.

Truy xuất Theo Ngữ cảnh bao gồm 2 kỹ thuật phụ: Nhúng Ngữ cảnh (Contextual Embeddings) và BM25 Ngữ cảnh (Contextual BM25).

• Phương pháp này có thể giảm tỷ lệ truy xuất thông tin thất bại xuống 49%, và khi kết hợp với xếp hạng lại, con số này lên tới 67%.

Cách thức hoạt động: Thêm ngữ cảnh giải thích cụ thể cho từng đoạn văn bản trước khi nhúng hoặc xây dựng chỉ mục BM25.

• Ví dụ: Đoạn "Doanh thu công ty tăng 3% so với quý trước" được bổ sung thành "Trích từ báo cáo SEC về hiệu suất của ACME Corp trong Q2 2023; doanh thu quý trước là 314 triệu USD. Doanh thu công ty tăng 3% so với quý trước."

• Nhà phát triển có thể sử dụng AI assistant như Claude để tạo chú thích ngắn gọn, cụ thể cho từng đoạn văn bản trong cơ sở kiến thức lớn.

BM25 đặc biệt hữu ích cho các truy vấn kỹ thuật đòi hỏi truy xuất thông tin chính xác nhờ khả năng khớp từ hoặc cụm từ xuất sắc.

• Kết hợp Nhúng Ngữ cảnh với BM25 giúp cân bằng giữa khớp từ chính xác và hiểu ngữ nghĩa rộng hơn.

• Với cơ sở kiến thức nhỏ, có thể sử dụng phương pháp đơn giản hơn. Tuy nhiên, cơ sở kiến thức lớn cần đến các kỹ thuật nâng cao như Truy xuất Theo Ngữ cảnh.

• Bước xếp hạng lại (reranking) có thể được thêm vào để nâng cao hiệu suất của Truy xuất Theo Ngữ cảnh, lọc và ưu tiên các đoạn văn bản có liên quan tiềm năng.

• Kết hợp Truy xuất Theo Ngữ cảnh và xếp hạng lại giúp giảm 67% tỷ lệ truy xuất thất bại đối với 20 đoạn văn bản hàng đầu trong các bài kiểm tra.

📌 Truy xuất Theo Ngữ cảnh là bước tiến quan trọng trong việc nâng cao hiệu quả mô hình AI, đặc biệt trong trường hợp cần truy xuất thông tin chính xác. Kết hợp Nhúng Ngữ cảnh, BM25 Ngữ cảnh và xếp hạng lại có thể cải thiện đáng kể độ chính xác truy xuất, giảm tới 67% tỷ lệ thất bại.

https://www.marktechpost.com/2024/09/21/contextual-retrieval-an-advanced-ai-technique-that-reduces-incorrect-chunk-retrieval-rates-by-up-to-67/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo