- Nghiên cứu từ 3 trường đại học đã phát hiện ra rằng các mô hình ngôn ngữ lớn (LLMs) có thể bị đầu độc để đưa ra mã dễ bị tấn công.
- Kỹ thuật CodeBreaker cho phép tạo ra các mẫu mã độc hại mà không bị phát hiện bởi các công cụ phân tích tĩnh, dẫn đến việc gợi ý mã dễ bị khai thác cho lập trình viên.
- Kỹ thuật này cải tiến các phương pháp trước đó, giúp ẩn giấu mã độc và dễ dàng chèn backdoor vào mã trong quá trình phát triển.
- Các lập trình viên cần kiểm tra kỹ lưỡng các mã gợi ý từ LLMs thay vì chỉ sao chép và dán mà không xem xét.
- Shenao Yan, một nghiên cứu sinh tiến sĩ tại Đại học Connecticut, nhấn mạnh tầm quan trọng của việc đào tạo lập trình viên để họ có thái độ phản biện đối với các gợi ý mã.
- Nghiên cứu cũng chỉ ra rằng nhiều mã gợi ý trên các nền tảng như StackOverflow đã chứa lỗ hổng bảo mật.
- Kỹ thuật COVERT và TrojanPuzzle đã được phát triển trước đó, nhưng CodeBreaker cho thấy khả năng tấn công thực tế hơn.
- CodeBreaker sử dụng các biến đổi mã để tạo ra mã dễ bị tấn công nhưng vẫn hoạt động bình thường, không bị phát hiện bởi các công cụ phân tích bảo mật.
- Gary McGraw, đồng sáng lập Viện Machine Learning Berryville, cho biết LLMs có thể bị đầu độc nếu dữ liệu huấn luyện của chúng bị nhiễm độc.
- Các lập trình viên cần có công cụ riêng để phát hiện mã độc hại, vì việc xem xét mã trước khi đưa vào hệ thống sản xuất là cần thiết.
- Việc chọn lựa dữ liệu huấn luyện cũng cần được xem xét kỹ lưỡng để không sử dụng mã độc hại được ẩn giấu.
📌 Nghiên cứu mới cho thấy kỹ thuật CodeBreaker có thể tạo ra mã độc mà không bị phát hiện, đe dọa đến an ninh mã nguồn. Các lập trình viên cần thận trọng và kiểm tra kỹ lưỡng mã gợi ý từ AI để tránh lỗ hổng bảo mật.
https://www.darkreading.com/application-security/researchers-turn-code-completion-llms-into-attack-tools