• Các nhà nghiên cứu từ Đại học Illinois Urbana-Champaign, UC San Diego, Lapis Labs và Center for AI Safety đã phát triển một kỹ thuật huấn luyện mới giúp ngăn chặn việc lạm dụng các mô hình AI nguồn mở.
• Kỹ thuật này được phát triển sau khi mô hình ngôn ngữ lớn Llama 3 của Meta bị bẻ khóa các hạn chế an toàn chỉ sau vài ngày phát hành.
• Phương pháp mới làm phức tạp hóa quá trình sửa đổi mô hình nguồn mở cho các mục đích xấu bằng cách thay đổi các tham số của mô hình.
• Các nhà nghiên cứu đã thử nghiệm kỹ thuật này trên một phiên bản thu nhỏ của Llama 3 và có thể điều chỉnh các tham số để mô hình không thể được huấn luyện trả lời các câu hỏi không mong muốn.
• Mặc dù không hoàn hảo, phương pháp này có thể nâng cao rào cản đối với việc "gỡ bỏ kiểm duyệt" các mô hình AI.
• Mantas Mazeika, một nhà nghiên cứu tham gia dự án, nhấn mạnh tầm quan trọng của việc bảo vệ các mô hình nguồn mở khi AI ngày càng mạnh mẽ hơn.
• Các mô hình nguồn mở như Llama 3 của Meta và Mistral Large 2 đang cạnh tranh với các mô hình đóng tiên tiến từ các công ty như OpenAI và Google.
• Chính phủ Mỹ đang có cách tiếp cận thận trọng nhưng tích cực đối với AI nguồn mở, khuyến nghị phát triển khả năng giám sát rủi ro tiềm ẩn.
• Một số chuyên gia như Stella Biderman từ EleutherAI cho rằng kỹ thuật mới này có thể khó thực thi trong thực tế và đi ngược lại triết lý của phần mềm tự do và sự cởi mở trong AI.
• Biderman cho rằng can thiệp đúng đắn nên tập trung vào dữ liệu huấn luyện thay vì mô hình đã được huấn luyện.
• Kỹ thuật mới này có thể khởi đầu cho nghiên cứu về các biện pháp bảo vệ chống giả mạo, giúp cộng đồng nghiên cứu phát triển các biện pháp bảo vệ mạnh mẽ hơn.
📌 Kỹ thuật mới giúp bảo vệ mô hình AI nguồn mở như Llama 3 khỏi bị lạm dụng, nâng cao rào cản đối với việc gỡ bỏ kiểm duyệt. Mặc dù còn tranh cãi, phương pháp này có thể là bước đầu quan trọng trong việc tăng cường an toàn cho AI nguồn mở đang phát triển nhanh chóng.
https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/