• Chính phủ Úc đã tiến hành một cuộc thử nghiệm về khả năng tóm tắt tài liệu của AI so với con người.
• Cuộc thử nghiệm do Amazon thực hiện cho Ủy ban Chứng khoán và Đầu tư Úc (ASIC), sử dụng các bài nộp cho một cuộc điều tra.
• Mô hình AI tạo sinh được chọn là Llama2-70B nguồn mở của Meta.
• AI được yêu cầu tóm tắt 5 bài nộp từ một cuộc điều tra của quốc hội về các công ty kiểm toán và tư vấn, tập trung vào các đề cập đến ASIC, khuyến nghị và tham chiếu đến quy định.
• 10 nhân viên ASIC cũng được giao cùng nhiệm vụ với các yêu cầu tương tự.
• Một nhóm đánh giá viên đã đánh giá mù các bản tóm tắt của cả người và AI về tính mạch lạc, độ dài, tham chiếu ASIC, tham chiếu quy định và xác định khuyến nghị.
• Kết quả cho thấy bản tóm tắt của con người vượt trội hơn AI trên mọi tiêu chí và mọi bài nộp, đạt điểm 81% so với 47% của máy móc.
• Con người đặc biệt vượt trội trong việc xác định các tham chiếu đến tài liệu ASIC trong văn bản dài, một nhiệm vụ được coi là "cực kỳ khó" đối với loại AI này.
• Các đánh giá viên nhận xét rằng bản tóm tắt của AI thường bỏ sót trọng tâm, sắc thái và bối cảnh; bao gồm thông tin không chính xác hoặc bỏ sót thông tin liên quan; đôi khi tập trung vào các điểm phụ hoặc đưa ra thông tin không liên quan.
• 3 trong số 5 đánh giá viên đã đoán được rằng họ đang xem xét nội dung do AI tạo ra.
• Phản hồi chung của các đánh giá viên là bản tóm tắt của AI có thể phản tác dụng và tạo thêm công việc do cần phải kiểm tra sự thật và tham khảo các bài nộp gốc.
• Báo cáo đề cập đến một số hạn chế và bối cảnh của nghiên cứu này, bao gồm việc mô hình được sử dụng đã bị thay thế bởi một mô hình có khả năng cao hơn.
• Amazon đã cải thiện hiệu suất của mô hình bằng cách tinh chỉnh các lời nhắc và đầu vào, cho thấy vẫn có thể cải thiện thêm.
• Báo cáo bày tỏ sự lạc quan rằng một ngày nào đó máy móc có thể thực hiện tốt nhiệm vụ này.
• Tuy nhiên, cuộc thử nghiệm cho thấy khả năng phân tích và đánh giá thông tin một cách phê phán của con người vẫn chưa thể bị AI vượt qua.
• Kết luận của báo cáo là AI tạo sinh nên được coi là công cụ hỗ trợ chứ không phải thay thế các nhiệm vụ của con người.
📌 Thử nghiệm của chính phủ Úc cho thấy AI kém hơn con người trong việc tóm tắt thông tin, đạt 47% so với 81% của người. AI bỏ sót trọng tâm, sắc thái và có thể tạo thêm công việc. Kết luận là AI nên hỗ trợ chứ không thay thế con người.
https://www.crikey.com.au/2024/09/03/ai-worse-summarising-information-humans-government-trial/