- Báo cáo từ Copyleaks, một công ty chuyên về phát hiện đạo văn, cho thấy 60% kết quả từ GPT-3.5 của OpenAI chứa một số hình thức đạo văn.
- Copyleaks sử dụng một phương pháp đánh giá độc quyền, xem xét văn bản giống hệt, những thay đổi nhỏ, việc diễn giải lại, và nhiều yếu tố khác để gán một "điểm tương đồng".
- GPT-3.5 đã thể hiện 45.7% văn bản giống hệt, 27.4% thay đổi nhỏ, và 46.5% văn bản được diễn giải lại. Điểm số 0% ngụ ý sự nguyên bản hoàn toàn, trong khi 100% cho thấy không có nội dung gốc.
- Copyleaks đã thử nghiệm GPT-3.5 với khoảng một nghìn đầu ra, mỗi đầu ra khoảng 400 từ, trên 26 chủ đề. Kết quả có điểm tương đồng cao nhất thuộc về khoa học máy tính (100%), tiếp theo là vật lý (92%) và tâm lý học (88%). Ngược lại, kịch (0.9%), nhân văn (2.8%), và ngôn ngữ Anh (5.4%) ghi nhận điểm tương đồng thấp nhất.
- OpenAI đã phản hồi về vấn đề này, cho biết các mô hình của họ được thiết kế và huấn luyện để học các khái niệm giúp giải quyết các vấn đề mới. Họ cũng có các biện pháp để hạn chế việc ghi nhớ không cố ý và điều khoản sử dụng của họ cấm việc sử dụng mô hình của họ để tái tạo nội dung một cách cố ý.
- Vấn đề đạo văn không chỉ dừng lại ở việc sao chép cả câu và đoạn văn. The New York Times đã kiện OpenAI với lý do hệ thống AI của OpenAI "sao chép quy mô lớn" vi phạm bản quyền. OpenAI đã phản hồi lại vụ kiện, cho rằng việc "tái tạo" là một "lỗi hiếm" và cũng cáo buộc The New York Times "manipulate prompts".
📌 Báo cáo từ Copyleaks đã làm sáng tỏ một vấn đề lớn trong ngành công nghiệp AI: 60% kết quả từ GPT-3.5 của OpenAI chứa đạo văn. Điều này không chỉ làm dấy lên mối quan tâm về tính nguyên bản và đạo đức trong việc sử dụng AI mà còn làm nổi bật các thách thức pháp lý mà các công ty công nghệ phải đối mặt. Với các kết quả thử nghiệm cho thấy sự phụ thuộc lớn vào nội dung đã có sẵn, cùng với các vụ kiện pháp lý đang tiếp diễn, câu chuyện về AI và đạo văn còn nhiều diễn biến phức tạp.