138.000 phim và chương trình truyền hình bị "bóc lột" làm dữ liệu huấn luyện AI

- Tạp chí The Atlantic đã công bố một cuộc điều tra cho thấy hơn 138.000 bộ phim và chương trình truyền hình đã bị sử dụng làm dữ liệu huấn luyện cho các mô hình AI

- Tập dữ liệu OpenSubtitles đã thu thập phụ đề từ các tác phẩm này để huấn luyện mô hình ngôn ngữ lớn (LLM) của nhiều công ty công nghệ như Apple, Meta, Nvidia, Salesforce, Bloomberg và Anthropic

- Các bộ phim tài liệu bị ảnh hưởng bao gồm tác phẩm của các đạo diễn nổi tiếng như Ken Burns, Ava DuVernay, Michael Moore, Werner Herzog

- Chương trình truyền hình bị sử dụng trái phép gồm PBS Frontline, BBC Panorama, 60 Minutes của CBS, với các tập phim từ năm 1964 đến 2018

- Đạo diễn Alex Gibney, người đoạt giải Oscar, có hơn 12 bộ phim bị đưa vào tập dữ liệu, bao gồm "Enron: The Smartest Guys in the Room" và "Taxi to the Dark Side"

- BBC đã phản đối việc sử dụng trái phép này và cho biết đã thực hiện các biện pháp ngăn chặn web crawler của OpenAI và Common Crawl truy cập vào website của họ

- Hiệp hội biên kịch WGA đã gửi thư ngỏ yêu cầu các hãng phim kiện các công ty công nghệ về việc sử dụng trái phép tài sản trí tuệ

- Văn phòng bản quyền Hoa Kỳ xác định phụ đề và phụ đề đóng là "tác phẩm phái sinh" và được bảo vệ bởi đăng ký bản quyền

📌 Hơn 138.000 tác phẩm phim ảnh và truyền hình, trong đó có nhiều phim tài liệu giá trị của BBC, PBS đã bị các gã khổng lồ công nghệ như Apple, Meta, Nvidia sử dụng trái phép để huấn luyện AI. Vấn đề này đang tạo ra cuộc tranh luận lớn về quyền sở hữu trí tuệ trong kỷ nguyên AI.

 

https://www.niemanlab.org/2025/01/thousands-of-documentaries-are-fueling-ai-models-built-by-apple-meta-and-nvidia/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo