- OpenAI đã phát triển mô hình chuyển thoại âm thanh Whisper để vượt qua rào cản thiếu dữ liệu huấn luyện chất lượng cao, chép lại hơn một triệu giờ video YouTube để huấn luyện GPT-4.
- Công ty biết rằng việc này có thể gây tranh cãi về mặt pháp lý nhưng tin rằng đó là sử dụng hợp lý. Greg Brockman, chủ tịch OpenAI, đã tham gia trực tiếp vào việc thu thập video.
- OpenAI tuyên bố họ tạo ra các bộ dữ liệu "độc đáo" cho từng mô hình để giúp chúng hiểu thế giới và duy trì khả năng cạnh tranh nghiên cứu toàn cầu, sử dụng nhiều nguồn bao gồm dữ liệu công khai và hợp tác để có dữ liệu không công khai.
- Google cho biết cả tệp robots.txt và Điều khoản dịch vụ của họ đều cấm việc cào hoặc tải xuống nội dung YouTube trái phép. Họ áp dụng các biện pháp kỹ thuật và pháp lý để ngăn chặn việc sử dụng trái phép khi có cơ sở pháp lý hoặc kỹ thuật rõ ràng.
- Google cũng đã thu thập bản ghi âm từ YouTube để huấn luyện các mô hình của mình, phù hợp với thỏa thuận với các nhà sáng tạo YouTube.
- Meta cũng gặp phải giới hạn về tính sẵn có của dữ liệu huấn luyện tốt. Nhóm AI của họ đã thảo luận về việc sử dụng các tác phẩm có bản quyền mà không được phép trong khi cố gắng bắt kịp OpenAI.
- Các công ty AI đang phải đối mặt với tình trạng dữ liệu huấn luyện cạn kiệt nhanh chóng. Dự kiến đến năm 2028, họ có thể vượt qua lượng nội dung mới.
- Các giải pháp tiềm năng bao gồm huấn luyện mô hình trên dữ liệu "tổng hợp" do chính mô hình tạo ra hoặc "học theo chương trình", nhưng không có cách tiếp cận nào được chứng minh.
📌 OpenAI, Google và Meta đang vật lộn với tình trạng thiếu hụt dữ liệu huấn luyện chất lượng cao cho các mô hình AI của họ. OpenAI đã phát triển mô hình chuyển thoại âm thanh Whisper để vượt qua rào cản thiếu dữ liệu huấn luyện chất lượng cao, chép lại hơn một triệu giờ video YouTube để huấn luyện GPT-4. Google cho biết cả tệp robots.txt và Điều khoản dịch vụ của họ đều cấm việc cào hoặc tải xuống nội dung YouTube trái phép.
https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google