- Một nghiên cứu mới từ các nhà khoa học tại Đại học Washington, Đại học Copenhagen và Stanford đưa ra bằng chứng cho thấy OpenAI đã huấn luyện mô hình AI của mình trên nội dung có bản quyền.
- OpenAI hiện đang đối mặt với nhiều vụ kiện từ tác giả, lập trình viên và chủ sở hữu bản quyền khác, cáo buộc công ty sử dụng tác phẩm của họ (sách, mã nguồn...) để phát triển mô hình AI mà không xin phép.
- Nghiên cứu đề xuất phương pháp mới để xác định dữ liệu huấn luyện đã được "ghi nhớ" bởi các mô hình AI thông qua API, như của OpenAI.
- Phương pháp này dựa trên các từ được gọi là "high-surprisal" (từ ngữ bất ngờ cao) - những từ nổi bật vì không phổ biến trong ngữ cảnh của một tác phẩm lớn hơn.
- Các nhà nghiên cứu đã kiểm tra nhiều mô hình của OpenAI, bao gồm GPT-4 và GPT-3.5, bằng cách xóa các từ ngữ bất ngờ cao khỏi đoạn trích từ sách tiểu thuyết và bài báo của New York Times, sau đó yêu cầu mô hình "đoán" từ nào đã bị che.
- Kết quả cho thấy GPT-4 có dấu hiệu ghi nhớ các phần của sách tiểu thuyết phổ biến, bao gồm sách trong bộ dữ liệu BookMIA chứa các mẫu sách điện tử có bản quyền.
- Kết quả cũng cho thấy mô hình đã ghi nhớ các phần của bài báo New York Times, mặc dù ở tỷ lệ thấp hơn so với sách.
- Abhilasha Ravichander, nghiên cứu sinh tiến sĩ tại Đại học Washington và đồng tác giả của nghiên cứu, cho biết phát hiện này làm sáng tỏ về "dữ liệu gây tranh cãi" mà các mô hình có thể đã được huấn luyện.
- OpenAI từ lâu đã ủng hộ việc nới lỏng các hạn chế về phát triển mô hình sử dụng dữ liệu có bản quyền, đồng thời vận động hành lang nhiều chính phủ để luật hóa quy tắc "sử dụng hợp lý" đối với phương pháp huấn luyện AI.
- Mặc dù OpenAI có một số thỏa thuận cấp phép nội dung và cung cấp cơ chế cho phép chủ sở hữu bản quyền đánh dấu nội dung họ không muốn công ty sử dụng cho mục đích huấn luyện, vấn đề pháp lý về việc sử dụng dữ liệu có bản quyền vẫn còn gây tranh cãi.
📌 Nghiên cứu từ ba đại học danh tiếng đã phát hiện GPT-4 và GPT-3.5 "ghi nhớ" nội dung có bản quyền từ sách và báo chí. Phương pháp dùng "từ ngữ bất ngờ cao" cho thấy OpenAI có thể đã huấn luyện mô hình trên dữ liệu có bản quyền, làm gia tăng tranh cãi pháp lý hiện tại.
https://techcrunch.com/2025/04/04/openais-models-memorized-copyrighted-content-new-study-suggests/