- Dữ liệu huấn luyện đóng vai trò then chốt trong việc xây dựng các hệ thống AI tiên tiến ngày nay, nhưng chi phí ngày càng tăng cao.
- Các mô hình AI tạo sinh về cơ bản là các mô hình xác suất, dự đoán dựa trên một lượng lớn dữ liệu mẫu. Vì vậy, càng có nhiều dữ liệu huấn luyện, hiệu suất của mô hình càng tốt.
- Tuy nhiên, bên cạnh số lượng, chất lượng và sự chọn lọc dữ liệu cũng rất quan trọng. Một mô hình nhỏ với dữ liệu được thiết kế cẩn thận có thể vượt trội hơn mô hình lớn.
- Các chuyên gia lo ngại xu hướng nhấn mạnh vào các tập dữ liệu huấn luyện lớn, chất lượng cao sẽ tập trung phát triển AI vào một số ít công ty có ngân sách hàng tỷ đô la.
- Nhiều công ty AI tạo sinh đã thu thập khối lượng dữ liệu khổng lồ thông qua các phương thức đáng ngờ để huấn luyện mô hình, như OpenAI, Google, Meta.
- Các công ty lớn và nhỏ đang dựa vào lao động giá rẻ ở các nước thế giới thứ ba để gán nhãn dữ liệu huấn luyện, tiếp xúc với nội dung bạo lực mà không có phúc lợi hay đảm bảo việc làm.
- Thị trường dữ liệu huấn luyện AI dự kiến tăng từ 2.5 tỷ USD hiện tại lên gần 30 tỷ USD trong 10 năm tới. Các nhà môi giới dữ liệu đang đua nhau thu phí cao.
- Các nền tảng như Shutterstock, Reddit đã ký hợp đồng cấp phép dữ liệu trị giá hàng chục triệu USD cho các nhà phát triển AI, nhưng người dùng không nhận được đồng nào.
- Các tổ chức nghiên cứu nhỏ hơn sẽ không đủ khả năng chi trả giấy phép dữ liệu, dẫn đến thiếu giám sát độc lập đối với các hoạt động phát triển AI.
- Một số nỗ lực độc lập, phi lợi nhuận để tạo ra các tập dữ liệu khổng lồ mà bất kỳ ai cũng có thể sử dụng để huấn luyện mô hình AI tạo sinh, như The Pile v2, FineWeb. Tuy nhiên, họ gặp nhiều thách thức về bản quyền, quyền riêng tư dữ liệu.
📌 Khi việc thu thập và chọn lọc dữ liệu vẫn là vấn đề về nguồn lực, các nỗ lực mở khó có thể theo kịp các công ty công nghệ lớn trong cuộc đua phát triển AI. Cần có đột phá nghiên cứu để san bằng sân chơi, tránh nguy cơ độc quyền và bất bình đẳng trong hệ sinh thái AI tạo sinh.
Citations:
https://techcrunch.com/2024/06/01/ai-training-data-has-a-price-tag-that-only-big-tech-can-afford/