- Trong vụ kiện tập thể của Hiệp hội Tác giả chống OpenAI, tài liệu mới tiết lộ việc xóa 2 bộ dữ liệu "books1" và "books2", được cho là quan trọng trong huấn luyện mô hình GPT-3.
- Theo hồ sơ tòa án, 2 bộ dữ liệu này chứa "hơn 100.000 cuốn sách đã xuất bản", là trọng tâm cáo buộc của Hiệp hội về việc OpenAI sử dụng tài liệu có bản quyền để phát triển AI.
- OpenAI ban đầu từ chối cung cấp thông tin về bộ dữ liệu vì lo ngại bảo mật, sau đó thừa nhận đã xóa toàn bộ.
- Báo cáo năm 2020 của OpenAI mô tả books1 và books2 là "kho sách trên internet", chiếm 16% dữ liệu huấn luyện GPT-3.
- OpenAI cho biết ngừng sử dụng books1 và books2 từ cuối 2021, xóa giữa 2022 do không hoạt động, các bộ dữ liệu khác vẫn còn nguyên.
- Tài liệu cũng tiết lộ 2 nhân viên OpenAI tạo ra books1 và books2 đã rời công ty. OpenAI đề nghị tòa giữ bí mật danh tính của họ.
- Hiệp hội Tác giả phản đối, ủng hộ minh bạch và quyền được biết của công chúng.
- OpenAI tuyên bố các mô hình của ChatGPT và DALL-E không sử dụng dữ liệu có bản quyền.
📌 Vụ kiện của Hiệp hội Tác giả chống OpenAI đang làm nóng tranh cãi về việc sử dụng tài liệu có bản quyền trong huấn luyện AI. Tài liệu mới tiết lộ OpenAI đã xóa 2 bộ dữ liệu books1 và books2 chứa hơn 100.000 cuốn sách, chiếm 16% dữ liệu huấn luyện GPT-3. Công ty đề nghị giữ bí mật thông tin liên quan, trong khi Hiệp hội đòi minh bạch.
Citations:
[1] https://www.businessinsider.com/openai-destroyed-ai-training-datasets-lawsuit-authors-books-copyright-2024-5