• Các nhà nghiên cứu từ Anh và Canada, dẫn đầu bởi Ilia Shumailov từ Đại học Oxford, đã công bố một nghiên cứu trên tạp chí Nature cảnh báo về nguy cơ "sụp đổ mô hình" (model collapse) của AI.
• "Sụp đổ mô hình" xảy ra khi AI liên tục học từ dữ liệu do chính nó tạo ra, dẫn đến việc dần quên đi phân phối dữ liệu thực tế ban đầu.
• Nguyên nhân là do các mô hình AI có xu hướng tạo ra những kết quả phổ biến và thông thường nhất. Ví dụ, khi được yêu cầu tạo hình ảnh chó, AI thường cho ra hình ảnh giống chó Labrador hoặc Golden Retriever - những giống chó phổ biến trong dữ liệu huấn luyện.
• Khi Internet ngày càng bị tràn ngập bởi nội dung do AI tạo ra, các mô hình AI mới sẽ học từ những dữ liệu này, dẫn đến việc tăng cường xu hướng tạo ra những kết quả phổ biến và đơn điệu.
• Qua nhiều vòng học tập như vậy, AI có thể mất dần khả năng nhận biết sự đa dạng của dữ liệu thực tế, chỉ tập trung vào một số mẫu phổ biến.
• Các nhà nghiên cứu gọi đây là quá trình "thoái hóa" không thể tránh khỏi về mặt lý thuyết, có thể khiến AI ngày càng kỳ quặc và kém thông minh hơn.
• Nghiên cứu cảnh báo rằng nếu không có biện pháp khắc phục, sự đa dạng và chất lượng của dữ liệu huấn luyện - yếu tố quan trọng nhất quyết định chất lượng mô hình AI - có thể bị ảnh hưởng nghiêm trọng.
• Một số giải pháp được đề xuất bao gồm: xây dựng các tiêu chuẩn đánh giá về nguồn gốc và đa dạng của dữ liệu, sử dụng thủy vân để đánh dấu nội dung do AI tạo ra.
• Tuy nhiên, các công ty có thể không muốn chia sẻ thông tin về dữ liệu huấn luyện của họ, mà thay vào đó tích trữ dữ liệu gốc và do con người tạo ra để giữ lợi thế cạnh tranh.
• Nghiên cứu cũng cảnh báo rằng trong tương lai, việc huấn luyện các phiên bản mới của mô hình ngôn ngữ lớn (LLM) có thể gặp khó khăn nếu không có quyền truy cập vào dữ liệu Internet trước khi công nghệ AI được áp dụng rộng rãi.
• Đây được coi là một thách thức tiềm tàng nghiêm trọng đối với các mô hình AI hiện tại và là lập luận phản đối khả năng các phương pháp hiện nay có thể tạo ra trí tuệ siêu việt trong tương lai.
📌 Nghiên cứu cảnh báo nguy cơ "sụp đổ mô hình" khi AI liên tục học từ dữ liệu tự tạo, có thể dẫn đến mất đa dạng và chất lượng. Cần các giải pháp như tiêu chuẩn đánh giá dữ liệu, thủy vân AI để duy trì lợi ích của việc huấn luyện từ dữ liệu Internet quy mô lớn.
https://techcrunch.com/2024/07/24/model-collapse-scientists-warn-against-letting-ai-eat-its-own-tail/