Điểm thực tế của OpenAI o3 trên FrontierMath chỉ đạt 10%, thấp hơn mức công bố trên 25%

  • OpenAI từng tuyên bố mô hình o3 đạt trên 25% số câu trả lời đúng trong bộ đề toán FrontierMath, vượt xa các đối thủ chỉ đạt dưới 2%.

  • Công bố này dựa trên kết quả thử nghiệm nội bộ, sử dụng phiên bản o3 có cấu hình tính toán mạnh và tối ưu hơn bản phát hành công khai gần đây.

  • Viện Epoch AI (đơn vị xây dựng FrontierMath) vừa công bố kết quả độc lập: o3 chỉ đạt khoảng 10% trên bộ đề này, thấp hơn rất nhiều so với mức công bố trước đó.

  • Epoch AI giải thích chênh lệch là do: (1) OpenAI đánh giá trên bộ đề khác (180 bài so với 290 bài cập nhật); (2) sử dụng cấu hình mạnh hơn; (3) dùng "scaffold" nội bộ nhiều tài nguyên hơn khi benchmark.

  • ARC Prize Foundation xác nhận phiên bản o3 họ kiểm thử trước đây có quy mô lớn hơn bản thương mại, trong khi các bản "o3 compute tier" hiện công khai đều nhỏ hơn và tối ưu cho trò chuyện/chat.

  • Đại diện kỹ thuật OpenAI thừa nhận bản o3 thương mại được tối ưu tốc độ, tính chi phí và phục vụ nhu cầu thực tế, nên điểm benchmark có thể chênh lệch so với bản trình diễn cuối năm 2024.

  • Mặc dù điểm thực tế thấp, các phiên bản o3-mini-high và o4-mini lại có kết quả FrontierMath cao hơn, và OpenAI dự kiến ra mắt bản o3-pro mạnh hơn trong vài tuần tới.

  • Sự kiện này nhấn mạnh việc không nên tin tuyệt đối điểm benchmark do hãng sản xuất AI tự công bố, vì thường có nhiều yếu tố kỹ thuật và thương mại chi phối, ngành AI liên tiếp xuất hiện tranh cãi tương tự.

  • Các trường hợp đình đám khác gần đây gồm: xAI của Elon Musk bị nghi công bố bảng điểm không chuẩn; Meta cũng từng khoe điểm model khác biệt với bản phát hành thật.

  • Năm 2025, nhiều nhà khoa học và cộng đồng tiếp tục kêu gọi minh bạch hóa thử nghiệm, báo cáo tài trợ, đặc biệt khi liên quan đến kiểm thử, phát triển mô hình AI mới.

📌 OpenAI o3 từng được giới thiệu vượt trội với điểm trên 25% FrontierMath, nhưng kết quả độc lập chỉ đạt khoảng 10%. Nguyên nhân chủ yếu do khác biệt phiên bản và điều kiện thử nghiệm. Trường hợp này cho thấy điểm benchmark AI thường gây tranh cãi và không nên tin tuyệt đối vào công bố nhà sản xuất.

https://techcrunch.com/2025/04/20/openais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo