- Patronus AI, công ty do cựu nghiên cứu viên Meta thành lập, chuyên đánh giá và kiểm thử cho các mô hình ngôn ngữ lớn, công nghệ đằng sau các sản phẩm AI tạo sinh.
- Công bố công cụ mới CopyrightCatcher và kết quả kiểm tra đối kháng, cho thấy mức độ vi phạm bản quyền của bốn mô hình AI hàng đầu khi trả lời các truy vấn của người dùng.
- Các mô hình được kiểm tra bao gồm GPT-4 của OpenAI, Claude 2 của Anthropic, Llama 2 của Meta và Mixtral của Mistral AI.
- Rebecca Qian, đồng sáng lập và CTO của Patronus AI, cho biết họ tìm thấy nội dung vi phạm bản quyền trên tất cả các mô hình được đánh giá.
- GPT-4 của OpenAI sản xuất nội dung vi phạm bản quyền trên 44% các lời nhắc được xây dựng, tỷ lệ cao nhất trong số các mô hình được kiểm tra.
- Các nhà nghiên cứu sử dụng sách được bảo vệ bản quyền ở Mỹ, chọn từ trang web Goodreads và thiết kế 100 lời nhắc khác nhau.
- Claude 2 của Anthropic chỉ sử dụng nội dung vi phạm bản quyền 16% thời gian khi được yêu cầu hoàn thành văn bản của một cuốn sách.
- Mixtral hoàn thành đoạn văn đầu tiên của sách 38% thời gian, nhưng chỉ hoàn thành các phần văn bản lớn hơn 6% thời gian.
- Llama 2 của Meta phản hồi với nội dung vi phạm bản quyền trên 10% các lời nhắc.
📌 Nghiên cứu của Patronus AI cho thấy tất cả các mô hình AI hàng đầu đều sản xuất nội dung vi phạm bản quyền, với GPT-4 của OpenAI có tỷ lệ vi phạm cao nhất ở 44%. Các thử nghiệm cho thấy sự khác biệt đáng kể trong cách các mô hình xử lý yêu cầu liên quan đến nội dung bản quyền, từ việc từ chối cung cấp đến việc sản xuất nội dung vi phạm. Cuộc chiến giữa OpenAI và các nhà xuất bản, tác giả, nghệ sĩ về việc sử dụng dữ liệu bản quyền cho dữ liệu đào tạo AI đang nóng lên, đặc biệt là với vụ kiện của The New York Times chống lại OpenAI và Microsoft.
https://www.cnbc.com/2024/03/06/gpt-4-researchers-tested-leading-ai-models-for-copyright-infringement.html