LongRAG: Giảm kích thước kho dữ liệu 30 lần, cải thiện độ chính xác truy xuất 20%

• LongRAG là một framework AI mới được phát triển bởi nhóm nghiên cứu từ Đại học Waterloo, kết hợp tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) với các mô hình ngôn ngữ lớn (LLM) có khả năng xử lý ngữ cảnh dài.

• Framework này gồm hai thành phần chính: "bộ truy xuất dài" và "bộ đọc dài", được thiết kế để xử lý các đơn vị truy xuất dài khoảng 4.000 token.

• Bằng cách tăng kích thước đơn vị truy xuất, LongRAG giảm số lượng đơn vị từ 22 triệu xuống còn 600.000, giảm đáng kể khối lượng công việc cho bộ truy xuất và cải thiện điểm số truy xuất.

• LongRAG hoạt động bằng cách nhóm các tài liệu liên quan thành các đơn vị truy xuất dài, sau đó bộ truy xuất dài xử lý để xác định thông tin liên quan.

• Bộ truy xuất lọc ra 4-8 đơn vị hàng đầu, nối lại và đưa vào một LLM có khả năng xử lý ngữ cảnh dài như Gemini-1.5-Pro hoặc GPT-4 để trích xuất câu trả lời cuối cùng.

• Về mặt phương pháp, LongRAG sử dụng một bộ mã hóa để ánh xạ câu hỏi đầu vào thành vector và một bộ mã hóa khác để ánh xạ các đơn vị truy xuất thành vector.

• Độ tương đồng giữa câu hỏi và các đơn vị truy xuất được tính toán để xác định các đơn vị liên quan nhất.

• Trên bộ dữ liệu Natural Questions (NQ), LongRAG đạt điểm khớp chính xác (EM) 62,7%, một bước tiến đáng kể so với các phương pháp truyền thống.

• Trên bộ dữ liệu HotpotQA, framework này đạt điểm EM 64,3%.

• LongRAG giảm kích thước kho dữ liệu xuống 30 lần và cải thiện độ chính xác truy xuất câu trả lời khoảng 20 điểm phần trăm so với phương pháp truyền thống.

• Điểm recall@1 của câu trả lời đạt 71% trên NQ và 72% trên HotpotQA.

• Khả năng xử lý các đơn vị truy xuất dài của LongRAG giúp bảo toàn tính toàn vẹn ngữ nghĩa của tài liệu, cho phép đưa ra câu trả lời chính xác và toàn diện hơn.

• Framework này giải quyết vấn đề mất cân bằng giữa bộ truy xuất và bộ đọc trong các hệ thống RAG truyền thống.

• LongRAG cung cấp cách tiếp cận cân bằng và hiệu quả hơn cho tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài.

• Nghiên cứu này không chỉ cung cấp những hiểu biết quý giá về việc hiện đại hóa thiết kế hệ thống RAG mà còn mở ra tiềm năng cho những tiến bộ hơn nữa trong lĩnh vực này.

📌 LongRAG là bước đột phá trong AI, giảm kho dữ liệu 30 lần, tăng độ chính xác truy xuất 20%. Đạt điểm EM 62,7% trên NQ và 64,3% trên HotpotQA, mở ra hướng mới cho hệ thống trả lời câu hỏi mở hiệu quả hơn.

https://www.marktechpost.com/2024/06/25/longrag-a-new-artificial-intelligence-ai-framework-that-combines-rag-with-long-context-llms-to-enhance-performance/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo