Mô hình AI như ChatGPT có thể dần suy giảm hiệu suất do "sụp đổ mô hình"

  • Từ khi ChatGPT được công bố năm 2022, người dùng đã tạo ra lượng lớn văn bản AI đăng tải lên mạng, khiến các mô hình mới có nguy cơ được huấn luyện trên dữ liệu không còn thuần túy từ con người.

  • Hiện tượng “sụp đổ mô hình” (model collapse) xảy ra khi văn bản máy sinh ra làm sai lệch phân phối ngôn ngữ so với thực tế, dẫn đến các mô hình mới trở nên kém chính xác.

  • Nghiên cứu chỉ ra việc dùng dữ liệu tổng hợp liên tục có thể khiến mô hình "quên" những thông tin ít xuất hiện (sự kiện vùng đuôi), gây ra lỗi hoặc thiên vị.

  • Không chỉ LLM mà các mô hình tạo ảnh như Stable Diffusion, hay autoencoder và Gaussian Mixture Model cũng có thể bị ảnh hưởng nếu tái huấn luyện nhiều vòng với dữ liệu máy tạo.

  • Việc trộn lẫn dữ liệu thực và dữ liệu tổng hợp làm chậm lại sự suy giảm hiệu suất, nhưng lại đòi hỏi tài nguyên tính toán lớn hơn.

  • Phân biệt văn bản thật với văn bản AI là cực kỳ khó khăn và vẫn chưa có giải pháp hiệu quả.

  • Giải pháp tiềm năng: chọn lọc dữ liệu tổng hợp chất lượng cao thông qua điểm đánh giá nội bộ từ LLM hoặc phản hồi từ người dùng, tương tự phương pháp RLHF.

  • Một nghiên cứu dự đoán thế giới sẽ cạn kiệt dữ liệu văn bản gốc để huấn luyện AI trong khoảng 2026–2032.

  • Câu hỏi đặt ra là liệu dữ liệu tổng hợp chất lượng cao có thể thúc đẩy cải tiến mô hình, tạo thành "vòng lặp tích cực" thay vì sụp đổ.

  • Tuy chưa có bằng chứng chắc chắn, nhưng các nhà nghiên cứu cho rằng có tiềm năng nếu kiểm soát được chất lượng dữ liệu sinh ra.

  • Ngoài ra, việc mất các thông tin vùng đuôi có thể làm AI trở nên thiên vị, xoá bỏ tiếng nói của nhóm thiểu số — một vấn đề chưa được nghiên cứu đầy đủ do thiếu minh bạch từ các công ty AI.

  • Các chuyên gia cảnh báo vấn đề này nghiêm trọng nhưng không phải thảm hoạ sắp tới, mà cần quản lý thận trọng từ các công ty phát triển AI.

📌 Mô hình AI đang đối mặt nguy cơ “sụp đổ mô hình” do tự học từ chính dữ liệu mình tạo ra. Nếu không chọn lọc kỹ, chất lượng mô hình sẽ suy giảm, xóa bỏ các chi tiết ít phổ biến và gây thiên vị. Tuy nhiên, việc kiểm duyệt dữ liệu tổng hợp có thể tạo ra một “vòng lặp cải tiến” khả thi. Dự đoán đến 2032, thế giới có thể hết dữ liệu mới để huấn luyện AI.

https://cacm.acm.org/news/the-collapse-of-gpt/

Không có file đính kèm.

6

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo