AI bản quyền OpenAI ChatGPT 2024-04-07 05:44:50

OpenAI chép lại hơn triệu giờ video YouTube để huấn luyện GPT-4 bất chấp tranh cãi về bản quyền

- OpenAI đã phát triển mô hình chuyển thoại âm thanh Whisper để vượt qua rào cản thiếu dữ liệu huấn luyện chất lượng cao, chép lại hơn một triệu giờ video YouTube để huấn luyện GPT-4.
- Công ty biết rằng việc này có thể gây tranh cãi về mặt pháp lý nhưng tin rằng đó là sử dụng hợp lý. Greg Brockman, chủ tịch OpenAI, đã tham gia trực tiếp vào việc thu thập video.
- OpenAI tuyên bố họ tạo ra các bộ dữ liệu "độc đáo" cho từng mô hình để giúp chúng hiểu thế giới và duy trì khả năng cạnh tranh nghiên cứu toàn cầu, sử dụng nhiều nguồn bao gồm dữ liệu công khai và hợp tác để có dữ liệu không công khai.
- Google cho biết cả tệp robots.txt và Điều khoản dịch vụ của họ đều cấm việc cào hoặc tải xuống nội dung YouTube trái phép. Họ áp dụng các biện pháp kỹ thuật và pháp lý để ngăn chặn việc sử dụng trái phép khi có cơ sở pháp lý hoặc kỹ thuật rõ ràng.
- Google cũng đã thu thập bản ghi âm từ YouTube để huấn luyện các mô hình của mình, phù hợp với thỏa thuận với các nhà sáng tạo YouTube.
- Meta cũng gặp phải giới hạn về tính sẵn có của dữ liệu huấn luyện tốt. Nhóm AI của họ đã thảo luận về việc sử dụng các tác phẩm có bản quyền mà không được phép trong khi cố gắng bắt kịp OpenAI.
- Các công ty AI đang phải đối mặt với tình trạng dữ liệu huấn luyện cạn kiệt nhanh chóng. Dự kiến đến năm 2028, họ có thể vượt qua lượng nội dung mới.
- Các giải pháp tiềm năng bao gồm huấn luyện mô hình trên dữ liệu "tổng hợp" do chính mô hình tạo ra hoặc "học theo chương trình", nhưng không có cách tiếp cận nào được chứng minh.

📌 OpenAI, Google và Meta đang vật lộn với tình trạng thiếu hụt dữ liệu huấn luyện chất lượng cao cho các mô hình AI của họ. OpenAI đã phát triển mô hình chuyển thoại âm thanh Whisper để vượt qua rào cản thiếu dữ liệu huấn luyện chất lượng cao, chép lại hơn một triệu giờ video YouTube để huấn luyện GPT-4. Google cho biết cả tệp robots.txt và Điều khoản dịch vụ của họ đều cấm việc cào hoặc tải xuống nội dung YouTube trái phép.

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

Không có file đính kèm.

Nguồn tham khảo

256

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

OpenAI chép lại hơn triệu giờ video YouTube để huấn luyện GPT-4 bất chấp tranh cãi về bản quyền

Thảo luận

Follow Us

Tin phổ biến

TAG