Meta bị kiện vì sử dụng nội dung có bản quyền để huấn luyện mô hình AI

- Meta đang đối mặt với một vụ kiện lớn vì sử dụng nội dung có bản quyền để huấn luyện các mô hình AI Llama, theo tài liệu nội bộ vừa được công bố.
- Trong một loạt các email nội bộ, Ahmad Al-Dahle, phó giám đốc AI tạo sinh của Meta, nhấn mạnh mục tiêu phát triển AI phải vượt qua GPT-4 của OpenAI.
- Một email từ Sony Theakanath, giám đốc sản phẩm của Meta, xác nhận công ty đã được phép sử dụng trang web vi phạm bản quyền LibGen để huấn luyện mô hình Llama3.
- Theakanath cho rằng LibGen là "cần thiết" để đạt được các số liệu tiên tiến, và cho biết OpenAI cũng như Mistral có thể đang sử dụng nguồn dữ liệu tương tự.
- Vụ kiện nhóm do tác giả Richard Kadrey và nghệ sĩ hài Sarah Silverman dẫn đầu cáo buộc Meta vi phạm luật sở hữu trí tuệ khi sử dụng nội dung trái phép.
- Meta lập luận rằng việc sử dụng nội dung có bản quyền trong dữ liệu huấn luyện nên được coi là hợp pháp theo quy định "sử dụng hợp lý".
- Một số biện pháp "giảm thiểu" đã được đề xuất để sử dụng LibGen, bao gồm việc loại bỏ dữ liệu bị đánh dấu rõ ràng là ăn cắp và không nhắc đến nguồn dữ liệu từ trang này.
- Meta đã thảo luận về các rủi ro về chính sách liên quan đến việc sử dụng LibGen, lo ngại rằng nó có thể ảnh hưởng đến vị thế đàm phán của công ty với các cơ quan quản lý.
- Nhiều tài liệu nội bộ đề xuất các cách để loại bỏ thông tin bản quyền trong dữ liệu từ LibGen, như xóa các tiêu đề bản quyền và danh sách tác giả.
- Dù Meta đã sử dụng nhiều loại tài liệu công khai từ năm 2007, cuộc đua với các đối thủ như OpenAI đang trở nên khốc liệt hơn bao giờ hết.
- Một số nhà lãnh đạo trong ngành cho rằng đã có "bức tường dữ liệu", tức là thiếu dữ liệu mới để huấn luyện các mô hình ngôn ngữ lớn, nhưng cũng có những tiếng nói phản bác điều này.

📌 Meta đang chịu sức ép lớn do vụ kiện liên quan đến việc sử dụng dữ liệu trái phép từ LibGen để huấn luyện AI, nhằm cạnh tranh với OpenAI. Các tài liệu cho thấy công ty đã thảo luận về việc che giấu thông tin bản quyền và chiến lược để đạt được kết quả tốt nhất trong lĩnh vực này.

https://www.theverge.com/2025/1/14/24343692/meta-lawsuit-copyright-lawsuit-llama-libgen

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo