RAGEval: Khung AI tự động đánh giá để kiểm tra khả năng sử dụng kiến thức của các LLM

- RAGEval là một khung AI được phát triển để tự động tạo ra các tập dữ liệu đánh giá cho các mô hình ngôn ngữ lớn (LLM), nhằm kiểm tra khả năng sử dụng kiến thức trong nhiều lĩnh vực khác nhau.
- Khung này được giới thiệu bởi các nhà nghiên cứu từ Đại học Tsinghua, Đại học Bắc Kinh, Học viện Khoa học Trung Quốc và Đại học Northeastern.
- Một trong những thách thức lớn trong xử lý ngôn ngữ tự nhiên (NLP) là hiện tượng "hallucination", nơi mà các mô hình tạo ra thông tin không chính xác hoặc vô nghĩa.
- Hệ thống Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) đã được giới thiệu để giảm thiểu vấn đề này bằng cách tích hợp thông tin từ bên ngoài.
- Tuy nhiên, các tiêu chuẩn hiện tại chủ yếu tập trung vào kiến thức chung và cần cải thiện để đánh giá hiệu suất của các mô hình RAG trong các lĩnh vực chuyên biệt như tài chính, y tế và pháp lý.
- RAGEval sử dụng quy trình "schema-configuration-document-QAR-keypoint" để đảm bảo độ tin cậy của quá trình đánh giá, bắt đầu từ việc tóm tắt một sơ đồ từ các tài liệu gốc.
- Khung này tạo ra các tài liệu đa dạng và xây dựng các cặp câu hỏi-trả lời dựa trên các cấu hình đã tạo ra.
- Các tài liệu này được sử dụng để đánh giá phản hồi của mô hình dựa trên các chỉ số mới tập trung vào độ chính xác thực tế.
- Phương pháp kết hợp giữa quy tắc và LLM được sử dụng để tạo ra các cấu hình, đảm bảo tính chính xác và tính nhất quán cao, đặc biệt cho dữ liệu có cấu trúc.
- Kết quả thử nghiệm cho thấy RAGEval rất hiệu quả trong việc tạo ra nội dung chính xác và phong phú trên nhiều lĩnh vực khác nhau.
- Kết quả đánh giá của con người cho thấy các tài liệu được tạo ra rõ ràng, cụ thể và gần giống với tài liệu thực tế.
- Mô hình GPT-4o đạt điểm Completeness cao nhất với 0.5187 cho tiếng Trung và 0.6845 cho tiếng Anh, trong khi các mô hình nguồn mở như Qwen1.5-14B-chat và Llama3-8B-Instruct cũng có điểm số cạnh tranh.
- RAGEval mang lại giải pháp mạnh mẽ cho việc đánh giá các hệ thống RAG, cải thiện độ tin cậy của các mô hình trong nhiều ngành công nghiệp và mở đường cho những cải tiến trong tương lai.

📌 RAGEval là khung đánh giá tiên tiến cho các mô hình RAG, cho thấy hiệu quả cao trong việc tạo ra dữ liệu đánh giá chính xác và phong phú. GPT-4o đạt điểm Completeness cao nhất, cho thấy tiềm năng của các mô hình nguồn mở trong việc thu hẹp khoảng cách hiệu suất.

https://www.marktechpost.com/2024/08/09/rageval-an-ai-framework-for-automatically-generating-evaluation-datasets-to-evaluate-the-knowledge-usage-ability-of-different-llms-in-different-scenarios/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo