Nhà khoa học tạo ra AI "độc hại": Một bước tiến mới trong việc huấn luyện chatbot tránh phản hồi nguy hiểm!

- Các nhà nghiên cứu đã phát triển một phương pháp huấn luyện mới cho AI, gọi là "curiosity-driven red teaming" (CRT), sử dụng hệ thống AI để tạo ra các câu hỏi có hại.
- CRT nhằm mục đích tạo ra các câu hỏi nguy hiểm để thách thức các chatbot AI, giúp nhận diện và lọc bỏ nội dung độc hại.
- Phương pháp này giúp vượt qua hạn chế của quá trình red teaming do con người thực hiện, nơi mà các nhà vận hành có thể không nghĩ ra mọi câu hỏi có thể dẫn đến phản hồi có hại.
- CRT sử dụng "reinforcement learning" để thưởng cho sự tò mò của AI khi nó tạo ra thành công một phản hồi độc hại từ chatbot.
- Trong thử nghiệm, mô hình CRT đã tạo ra hơn 190 câu hỏi dẫn đến nội dung có hại, mặc dù mô hình LLaMA2 đã được tinh chỉnh bởi con người để tránh hành vi độc hại.
- Hệ thống CRT cũng đã vượt qua các hệ thống huấn luyện tự động khác theo như báo cáo của các nhà nghiên cứu.

📌 Các nhà nghiên cứu đã phát triển một AI "độc hại" thông qua phương pháp huấn luyện CRT, tạo ra hơn 190 câu hỏi có hại để thách thức và cải thiện khả năng phòng vệ của chatbot AI. Phương pháp này sử dụng reinforcement learning để thưởng cho AI khi nó tạo ra phản hồi độc hại, qua đó giúp nhận diện và lọc bỏ nội dung nguy hiểm một cách hiệu quả hơn.

Citations:
[1] https://www.livescience.com/technology/artificial-intelligence/scientists-create-toxic-ai-that-is-rewarded-for-thinking-up-the-worst-possible-questions-we-could-imagine

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo