• Một nghiên cứu gần đây từ các nhà nghiên cứu tại Cornell, Đại học Washington, Waterloo và viện nghiên cứu phi lợi nhuận AI2 đã tiến hành đánh giá mức độ ảo giác của các mô hình AI như GPT-4o, Gemini, Claude bằng cách kiểm tra thực tế so với các nguồn đáng tin cậy.
• Kết quả cho thấy không có mô hình nào hoạt động xuất sắc trên tất cả các chủ đề. Các mô hình ít ảo giác nhất một phần là do từ chối trả lời các câu hỏi mà chúng có thể trả lời sai.
• Theo Wenting Zhao, nghiên cứu sinh tiến sĩ tại Cornell và đồng tác giả nghiên cứu, ngay cả các mô hình tốt nhất hiện nay cũng chỉ có thể tạo ra văn bản không có ảo giác khoảng 35% thời gian.
• Nghiên cứu đã đánh giá hơn một chục mô hình phổ biến khác nhau, bao gồm GPT-4o, Llama 3 70B, Mixtral 8x22B, Command R+, Sonar Large, Gemini 1.5 Pro và Claude 3 Opus.
• GPT-4o và GPT-3.5 của OpenAI có hiệu suất gần như nhau về tỷ lệ câu hỏi trả lời chính xác. Các mô hình của OpenAI ít ảo giác nhất, tiếp theo là Mixtral 8x22B, Command R và các mô hình Sonar của Perplexity.
• Các câu hỏi liên quan đến người nổi tiếng và tài chính gây khó khăn nhất cho các mô hình, trong khi câu hỏi về địa lý và khoa học máy tính dễ trả lời nhất.
• Kích thước mô hình không ảnh hưởng nhiều; các mô hình nhỏ hơn như Claude 3 Haiku ảo giác với tần suất gần như tương đương các mô hình lớn hơn như Claude 3 Opus.
• Zhao cho rằng vấn đề ảo giác sẽ "tồn tại trong thời gian dài" và các phương pháp hiện tại để giảm thiểu ảo giác có hiệu quả hạn chế.
• Một giải pháp tạm thời có thể là lập trình các mô hình để từ chối trả lời thường xuyên hơn. Claude 3 Haiku chỉ trả lời khoảng 72% câu hỏi được hỏi, chọn không trả lời phần còn lại.
• Zhao đề xuất các nhà cung cấp nên tập trung nhiều thời gian và nỗ lực hơn vào nghiên cứu giảm thiểu ảo giác, bao gồm kiểm tra thực tế có sự tham gia của con người và trích dẫn trong quá trình phát triển mô hình.
• Cần phát triển các chính sách và quy định để đảm bảo các chuyên gia luôn tham gia vào quá trình xác minh và xác nhận thông tin do các mô hình AI tạo sinh tạo ra.
📌 Nghiên cứu mới cho thấy ngay cả các mô hình AI tốt nhất vẫn có tỷ lệ ảo giác cao, chỉ tạo ra văn bản không ảo giác 35% thời gian. Các chuyên gia đề xuất giải pháp như kiểm tra thực tế có sự tham gia của con người và phát triển công cụ kiểm tra sự thật nâng cao để giảm thiểu vấn đề này.
https://techcrunch.com/2024/08/14/study-suggests-that-even-the-best-ai-models-hallucinate-a-bunch/