OpenAI công bố nghiên cứu về kỹ thuật đảo ngược để hiểu rõ và kiểm soát ChatGPT

- OpenAI vừa công bố một nghiên cứu nhằm chứng minh họ nghiêm túc trong việc giải quyết các rủi ro của AI bằng cách làm cho các mô hình của họ dễ giải thích hơn.
- Nghiên cứu đề xuất một phương pháp để xem xét bên trong mô hình AI đằng sau ChatGPT, xác định cách mô hình lưu trữ các khái niệm nhất định, bao gồm cả những khái niệm có thể khiến hệ thống AI hoạt động sai.
- Nghiên cứu được thực hiện bởi nhóm "superalignment" gần đây bị giải tán tại OpenAI, chuyên nghiên cứu về rủi ro dài hạn của công nghệ.
- ChatGPT được cung cấp bởi họ mô hình ngôn ngữ lớn GPT, dựa trên phương pháp học máy gọi là mạng nơ-ron nhân tạo. Tuy nhiên, cách thức hoạt động của chúng không thể dễ dàng kiểm tra như các chương trình máy tính thông thường.
- OpenAI chứng minh phương pháp của họ bằng cách xác định các mẫu đại diện cho các khái niệm bên trong GPT-4. Họ cũng phát hành mã liên quan và công cụ trực quan hóa.
- Việc biết một mô hình biểu diễn các khái niệm nhất định như thế nào có thể là bước đầu tiên để điều chỉnh giảm các khái niệm liên quan đến hành vi không mong muốn.
- Nghiên cứu tương tự cũng được công ty Anthropic công bố vào tháng trước. Họ tạo ra một chatbot bị ám ảnh bởi Cầu Cổng Vàng ở San Francisco để chứng minh cách điều chỉnh hành vi của hệ thống AI.
- Giáo sư David Bau từ Đại học Northeastern nhận xét đây là tiến bộ thú vị, nhưng kỹ thuật cần được tinh chỉnh hơn nữa để đáng tin cậy hơn. Ông cũng lưu ý cần nhiều công trình nghiên cứu hơn nữa trong lĩnh vực này.

📌 OpenAI vừa công bố nghiên cứu quan trọng về phương pháp kỹ thuật ngược để hiểu rõ hơn cách thức hoạt động của các mô hình AI như ChatGPT. Mục tiêu là giúp giải thích, kiểm soát tốt hơn và giảm thiểu các rủi ro tiềm ẩn của AI. Tuy nhiên, các chuyên gia nhận định kỹ thuật này vẫn cần cải tiến hơn nữa và cần thêm nhiều nghiên cứu sâu rộng trong lĩnh vực giải thích AI.

https://www.wired.com/story/openai-offers-a-peek-inside-the-guts-of-chatgpt/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo