Cạn kiệt dữ liệu thật - Các công ty công nghệ đang đặt cược vào dữ liệu tổng hợp để huấn luyện AI

- Elon Musk tuyên bố nguồn dữ liệu do con người tạo ra để huấn luyện các mô hình AI như ChatGPT đã cạn kiệt, dự báo trước đó cho thấy dữ liệu thật sẽ hết trong 2-8 năm tới

- Lý do chính: con người không thể tạo ra dữ liệu mới (văn bản, video, hình ảnh) đủ nhanh để đáp ứng nhu cầu khổng lồ của các mô hình AI

- Dữ liệu thật có những hạn chế:
  + Chứa lỗi chính tả và nội dung không nhất quán
  + Có thể mang định kiến cao
  + Tốn 80% thời gian để xử lý và chuẩn bị
  + Nguồn cung đang ngày càng khan hiếm

- Dữ liệu tổng hợp là giải pháp thay thế:
  + Do thuật toán tạo ra như văn bản từ ChatGPT hay hình ảnh từ DALL-E
  + Tiết kiệm chi phí và nhanh hơn
  + Giải quyết vấn đề quyền riêng tư
  + Nguồn cung không giới hạn

- Thách thức của dữ liệu tổng hợp:
  + Mô hình AI có thể "sụp đổ" khi phụ thuộc quá nhiều vào dữ liệu tổng hợp
  + Tạo ra nhiều "ảo giác" - thông tin sai lệch
  + Có thể quá đơn giản, thiếu chi tiết và sự đa dạng

- Giải pháp đề xuất:
  + Cần có hệ thống theo dõi và xác thực dữ liệu huấn luyện AI toàn cầu
  + Trang bị hệ thống theo dõi metadata
  + Duy trì giám sát của con người trong quá trình huấn luyện
  + Sử dụng thuật toán AI để kiểm tra và xác minh dữ liệu

📌 Dữ liệu thật dự kiến cạn kiệt trong 2-8 năm tới. Gartner dự báo đến năm 2030, dữ liệu tổng hợp sẽ trở thành nguồn dữ liệu chính để huấn luyện AI. Để thành công, cần có hệ thống theo dõi toàn cầu và duy trì sự giám sát của con người.

https://theconversation.com/tech-companies-are-turning-to-synthetic-data-to-train-ai-models-but-theres-a-hidden-cost-246248

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo