- Các nhà nghiên cứu tại Đại học Princeton chỉ ra nhiều điểm hạn chế trong các bài kiểm tra và phương pháp đánh giá tác tử AI hiện nay, gây cản trở khả năng ứng dụng thực tế của chúng.
- Một vấn đề lớn là thiếu kiểm soát chi phí trong đánh giá tác tử. Để tăng độ chính xác, một số hệ thống tạo ra hàng trăm hoặc hàng nghìn phản hồi, dẫn đến chi phí tính toán rất lớn.
- Nghiên cứu cho thấy với độ chính xác tương tự, chi phí có thể chênh lệch gần 2 bậc. Tuy nhiên, chi phí chạy tác tử không phải là chỉ số được báo cáo hàng đầu.
- Các nhà nghiên cứu đề xuất trực quan hóa kết quả đánh giá dưới dạng đường cong Pareto về độ chính xác và chi phí suy luận, đồng thời sử dụng các kỹ thuật tối ưu hóa đồng thời cho cả hai chỉ số này.
- Một vấn đề khác là sự khác biệt giữa đánh giá mô hình cho mục đích nghiên cứu và phát triển ứng dụng. Trong nghiên cứu, độ chính xác thường là trọng tâm chính, trong khi chi phí suy luận đóng vai trò quan trọng khi triển khai ứng dụng thực tế.
- Đánh giá chi phí suy luận cho tác tử AI là một thách thức. Các nhà cung cấp mô hình khác nhau có thể tính phí khác nhau cho cùng một mô hình. Chi phí gọi API thay đổi thường xuyên.
- Nghiên cứu cho thấy các bài kiểm tra dành cho đánh giá mô hình có thể gây hiểu lầm khi được sử dụng để đánh giá ứng dụng. Ví dụ, nghiên cứu NovelQA ban đầu khiến RAG trông tệ hơn nhiều so với các mô hình ngữ cảnh dài trong khi thực tế chúng có độ chính xác tương đương.
- Overfitting (quá khớp) là một vấn đề nghiêm trọng đối với các bài kiểm tra tác tử AI, vì chúng có xu hướng nhỏ, thường chỉ bao gồm vài trăm mẫu. Các nhà nghiên cứu đề xuất tạo và giữ bí mật các bộ kiểm tra holdout.
- Phân tích 17 bài kiểm tra cho thấy nhiều bài thiếu bộ dữ liệu holdout thích hợp, cho phép các tác tử đi tắt, thậm chí vô tình. Các lỗi này làm tăng ước tính độ chính xác và dẫn đến sự lạc quan thái quá về khả năng của tác tử.
📌 Nghiên cứu của Đại học Princeton chỉ ra nhiều vấn đề trong cách đánh giá tác tử AI hiện nay như thiếu kiểm soát chi phí, khác biệt giữa nghiên cứu và ứng dụng thực tế, khó khăn trong ước tính chi phí suy luận, và vấn đề overfitting. Các phát hiện này nhấn mạnh sự cần thiết phải xây dựng lại các phương pháp đánh giá tác tử AI để phản ánh đúng tiềm năng ứng dụng thực tế của chúng.
https://venturebeat.com/ai/ai-agent-benchmarks-are-misleading-study-warns/