• Một báo cáo mới từ Viện Ada Lovelace (ALI) chỉ ra rằng nhiều đánh giá an toàn hiện tại cho các mô hình AI tạo sinh còn có những hạn chế đáng kể.
• Nghiên cứu dựa trên phỏng vấn 16 chuyên gia từ các phòng thí nghiệm học thuật, xã hội dân sự và các nhà cung cấp mô hình AI.
• Các phương pháp đánh giá hiện tại như benchmark và red teaming còn nhiều thiếu sót:
- Chỉ kiểm tra mô hình trong phòng thí nghiệm, không phản ánh hiệu suất thực tế
- Dễ bị thao túng bởi các nhà phát triển
- Khó ngoại suy kết quả từ benchmark sang khả năng thực tế của mô hình
- Vấn đề nhiễm dữ liệu có thể làm sai lệch kết quả đánh giá
- Thiếu tiêu chuẩn thống nhất cho phương pháp red teaming
- Chi phí và nguồn lực cao để thực hiện red teaming hiệu quả
• Nguyên nhân chính khiến đánh giá an toàn AI chưa được cải thiện:
- Áp lực phát hành mô hình nhanh chóng
- Miễn cưỡng thực hiện các bài kiểm tra có thể làm chậm quá trình phát hành
• Các giải pháp đề xuất:
- Cần sự tham gia nhiều hơn từ các cơ quan công quyền
- Phát triển đánh giá theo ngữ cảnh cụ thể, xem xét tác động đến các nhóm người dùng khác nhau
- Đầu tư vào khoa học cơ bản về đánh giá AI
- Xây dựng hệ sinh thái kiểm tra từ bên thứ ba
• Tuy nhiên, các chuyên gia cho rằng không thể đảm bảo hoàn toàn an toàn cho một mô hình AI. Đánh giá chỉ có thể chỉ ra mô hình không an toàn chứ không thể chứng minh mô hình an toàn tuyệt đối.
📌 Báo cáo của ALI chỉ ra những hạn chế nghiêm trọng trong đánh giá an toàn AI hiện nay. Các phương pháp như benchmark và red teaming còn nhiều thiếu sót, dễ bị thao túng và chưa phản ánh đúng hiệu suất thực tế. Cần có sự tham gia nhiều hơn từ chính phủ và phát triển các đánh giá theo ngữ cảnh cụ thể để cải thiện tình hình.
https://techcrunch.com/2024/08/04/many-safety-evaluations-for-ai-models-have-significant-limitations/