• OpenAI đã phát triển CriticGPT, một mô hình dựa trên GPT-4, để phát hiện lỗi trong đầu ra mã của ChatGPT.
• Khi được hỗ trợ bởi CriticGPT để đánh giá mã ChatGPT, con người vượt trội hơn 60% so với những người không có sự trợ giúp.
• OpenAI đang bắt đầu tích hợp các mô hình tương tự CriticGPT vào quy trình gắn nhãn RLHF, cung cấp hỗ trợ AI rõ ràng cho người huấn luyện.
• Đây là bước tiến quan trọng để đánh giá đầu ra từ các hệ thống AI tiên tiến, vốn khó đánh giá đối với con người nếu không có công cụ tốt hơn.
• Khi ChatGPT trở nên chính xác hơn, các lỗi của nó trở nên tinh vi hơn, gây khó khăn cho người huấn luyện AI trong việc phát hiện sai sót.
• Đây là một hạn chế cơ bản của RLHF, có thể gây khó khăn trong việc điều chỉnh các mô hình khi chúng dần trở nên có kiến thức hơn bất kỳ người nào có thể cung cấp phản hồi.
• CriticGPT được huấn luyện để viết các đánh giá nhấn mạnh những điểm không chính xác trong câu trả lời của ChatGPT.
• Mặc dù đề xuất của CriticGPT không phải lúc nào cũng chính xác, nhưng nó giúp người huấn luyện phát hiện nhiều vấn đề hơn so với làm việc không có sự trợ giúp của AI.
• Khi con người sử dụng CriticGPT, AI tăng cường kỹ năng của họ, dẫn đến các đánh giá toàn diện hơn so với khi con người làm việc một mình.
• Đồng thời, sự kết hợp này tạo ra ít lỗi ảo hơn so với khi mô hình làm việc độc lập.
• CriticGPT cũng được huấn luyện bằng RLHF, tương tự như ChatGPT, nhưng nó được tiếp xúc với nhiều đầu vào chứa lỗi cần phê bình.
• Người huấn luyện AI được yêu cầu chèn thủ công các lỗi này vào mã do ChatGPT viết và sau đó viết phản hồi mẫu như thể họ đã phát hiện ra lỗi vừa chèn.
• Các thử nghiệm cho thấy CriticGPT có thể phát hiện cả lỗi được chèn và lỗi "tự nhiên" của ChatGPT mà người huấn luyện trước đó đã phát hiện.
• Các đánh giá của CriticGPT được người huấn luyện ưa thích hơn so với đánh giá của ChatGPT trong 63% trường hợp đối với lỗi tự nhiên.
• CriticGPT tạo ra ít "chỉ trích nhỏ nhặt" (những phàn nàn nhỏ không hữu ích) hơn và ít tạo ra các vấn đề ảo hơn.
• OpenAI có thể tạo ra các đánh giá dài hơn và toàn diện hơn bằng cách sử dụng tìm kiếm thời gian thử nghiệm bổ sung đối với mô hình phần thưởng đánh giá.
• Quy trình này cho phép cân bằng giữa việc tìm kiếm vấn đề trong mã một cách tích cực và cấu hình sự đánh đổi giữa độ chính xác-thu hồi giữa các ảo giác và số lượng lỗi được phát hiện.
📌 CriticGPT, mô hình dựa trên GPT-4, giúp phát hiện lỗi trong mã ChatGPT với độ chính xác cao hơn 60%. Nó hỗ trợ người huấn luyện AI đánh giá toàn diện hơn, ít tạo ra lỗi ảo và đang được tích hợp vào quy trình RLHF để nâng cao hiệu quả đánh giá các hệ thống AI tiên tiến.
https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/