- Các công ty công nghệ như OpenAI, Google đang tìm cách sử dụng dữ liệu tổng hợp (synthetic data) do chính AI tạo ra để huấn luyện các mô hình AI.
- Lý do là họ có thể sẽ cạn kiệt nguồn dữ liệu chất lượng cao trên internet và đang đối mặt với các vụ kiện về bản quyền.
- Tuy nhiên, dữ liệu tổng hợp hiện chưa hoàn hảo vì AI có thể mắc lỗi, bịa đặt thông tin và khuếch đại các thiên kiến.
- Các công ty hy vọng cải thiện chất lượng dữ liệu tổng hợp bằng cách sử dụng 2 mô hình AI: một mô hình tạo ra dữ liệu, mô hình thứ hai đánh giá chất lượng dữ liệu.
- Anthropic sử dụng phương pháp "Constitutional AI", huấn luyện mô hình thứ hai dựa trên một "hiến pháp" do các nhà nghiên cứu xây dựng.
- Tuy nhiên, con người vẫn cần giám sát để đảm bảo mô hình thứ hai hoạt động đúng hướng, hạn chế lượng dữ liệu tổng hợp có thể tạo ra.
- Các công ty công nghệ vẫn có thể gặp vấn đề về bản quyền vì các mô hình tạo dữ liệu tổng hợp ban đầu cũng được huấn luyện từ dữ liệu có bản quyền.
📌 Dữ liệu tổng hợp do AI tạo ra được kỳ vọng sẽ giúp các công ty công nghệ vượt qua các rào cản về bản quyền và nguồn dữ liệu huấn luyện. Các công ty hy vọng cải thiện chất lượng dữ liệu tổng hợp bằng cách sử dụng 2 mô hình AI: một mô hình tạo ra dữ liệu, mô hình thứ hai đánh giá chất lượng dữ liệu. Con người vẫn cần giám sát để đảm bảo mô hình thứ hai hoạt động đúng hướng, hạn chế lượng dữ liệu tổng hợp có thể tạo ra.
https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html