- SimpleQA là một chuẩn mực mới nhằm đo lường khả năng cung cấp câu trả lời chính xác của các mô hình ngôn ngữ.
- Vấn đề "ảo giác" trong AI khiến nhiều mô hình thường đưa ra thông tin sai lệch hoặc không có cơ sở.
- Mục tiêu của SimpleQA là tạo ra một tập dữ liệu với độ chính xác cao, bao gồm 4.326 câu hỏi thuộc nhiều lĩnh vực khác nhau như khoa học, công nghệ, thể thao và giải trí.
- Các câu hỏi trong SimpleQA được thiết kế để có một câu trả lời duy nhất, dễ dàng chấm điểm và không thay đổi theo thời gian.
- Tập dữ liệu được xây dựng bởi 2 huấn luyện viên AI độc lập để đảm bảo tính chính xác và sự đồng thuận trong câu trả lời.
- Một huấn luyện viên thứ 3 đã kiểm tra ngẫu nhiên 1.000 câu hỏi và đạt tỷ lệ đồng thuận 94.4%, cho thấy chất lượng cao của tập dữ liệu.
- SimpleQA được thiết kế để thách thức các mô hình tiên tiến như GPT-4o, với tỷ lệ đúng dưới 40% cho các mô hình này.
- Đánh giá được thực hiện bằng cách sử dụng một bộ phân loại ChatGPT để phân loại câu trả lời thành "đúng", "sai" hoặc "không thử".
- Kết quả cho thấy các mô hình lớn hơn như GPT-4o có độ chính xác cao hơn so với các phiên bản nhỏ hơn như GPT-4o-mini.
- Độ tin cậy của các mô hình cũng được đo lường thông qua việc yêu cầu chúng đưa ra mức độ tự tin về câu trả lời của mình.
- Một nghiên cứu cho thấy rằng o1-preview có độ tin cậy cao hơn so với o1-mini và GPT-4o-mini.
- SimpleQA chỉ tập trung vào các câu hỏi ngắn, điều này đặt ra câu hỏi liệu khả năng cung cấp câu trả lời chính xác có tương quan với khả năng viết các phản hồi dài hơn hay không.
📌 SimpleQA là chuẩn mực mới do OpenAI đề xuất để đánh giá khả năng cung cấp thông tin chính xác của AI với 4.326 câu hỏi thuộc nhiều lĩnh vực khác nhau. Tỷ lệ đồng thuận giữa các huấn luyện viên AI đạt 94.4%, cho thấy chất lượng cao của tập dữ liệu này.
https://openai.com/index/introducing-simpleqa/