- Các nhà nghiên cứu từ Improbable AI Lab tại MIT và MIT-IBM Watson AI Lab đã sử dụng học máy để cải thiện kiểm thử đỏ (red-teaming) nhằm ngăn chặn chatbot đưa ra phản hồi độc hại.
- Họ phát triển một kỹ thuật để huấn luyện mô hình ngôn ngữ lớn kiểm thử đỏ tự động tạo ra các lời nhắc đa dạng kích hoạt nhiều phản hồi không mong muốn hơn từ chatbot đang được kiểm tra.
- Phương pháp này khuyến khích mô hình kiểm thử đỏ tò mò khi viết lời nhắc và tập trung vào các lời nhắc mới lạ khiến mô hình mục tiêu đưa ra phản hồi độc hại.
- Kỹ thuật vượt trội hơn các kiểm thử viên con người và phương pháp học máy khác bằng cách tạo ra nhiều lời nhắc khác biệt hơn, khiến chatbot đưa ra phản hồi ngày càng độc hại, kể cả chatbot đã được chuyên gia con người xây dựng các biện pháp bảo vệ.
- Các nhà nghiên cứu sử dụng học tăng cường với kỹ thuật khám phá theo sự tò mò (curiosity-driven exploration). Mô hình kiểm thử đỏ được khuyến khích tò mò về hậu quả của mỗi lời nhắc nó tạo ra.
- Họ bổ sung phần thưởng entropy, phần thưởng mới lạ dựa trên sự tương đồng từ ngữ và ngữ nghĩa của lời nhắc, cũng như phần thưởng ngôn ngữ tự nhiên để ngăn mô hình tạo ra văn bản vô nghĩa.
- Mô hình của họ vượt trội hơn các mô hình cơ sở về cả độ độc hại và đa dạng của phản hồi được tạo ra. Nó nhanh chóng tạo ra 196 lời nhắc khiến chatbot "an toàn" đã được tinh chỉnh bằng phản hồi của con người đưa ra phản hồi độc hại.
📌 Phương pháp kiểm thử đỏ (red-teaming) dựa trên sự tò mò của các nhà nghiên cứu MIT giúp tạo ra nhiều lời nhắc đa dạng và hiệu quả hơn 196% so với chatbot "an toàn", qua đó phát hiện nhanh chóng các lỗ hổng tiềm ẩn. Kỹ thuật này hứa hẹn giảm đáng kể công sức con người cần thiết để đảm bảo một tương lai AI an toàn và đáng tin cậy.
https://news.mit.edu/2024/faster-better-way-preventing-ai-chatbot-toxic-responses-0410
https://arxiv.org/pdf/2402.19464.pdf
#MIT