OpenAI o3 và o4-mini – Lột xác tư duy, dẫn đầu bảng xếp hạng

  • OpenAI ra mắt 2 model mới: o3 và o4-mini, tập trung vào khả năng tư duy sâu sắc và sử dụng linh hoạt mọi công cụ của ChatGPT (web search, phân tích file với Python, truy xuất dữ liệu, xử lý hình ảnh, tạo hình…).

  • o3 là model reasoning mạnh nhất hiện tại, dẫn đầu các benchmark lớn: Codeforces (lập trình - ELO: 2.706), SWE-bench, MMMU (giải toán, xử lý đa phương tiện). Đặc biệt, o3 giảm 20% lỗi nghiêm trọng so với o1 trên bài toán thực tế khó; nổi bật ở các lĩnh vực: lập trình, tư vấn kinh doanh, ý tưởng sáng tạo.

  • o4-mini nhỏ gọn nhưng hiệu quả (nhanh, tiết kiệm), đứng đầu AIME 2024/2025 (toán học), vượt trội tiền nhiệm o3-mini cả ở các bài toán phi STEM và lĩnh vực khoa học dữ liệu. Cho phép sử dụng giới hạn cao, phù hợp nhu cầu lớn.

  • Cả hai model nâng cấp rõ về khả năng làm theo hướng dẫn, trả lời xác thực nhờ biết tích hợp thông tin web, đối thoại tự nhiên hơn, cá nhân hóa tốt qua việc tham chiếu “bộ nhớ” hội thoại cũ.

  • So sánh trên dữ liệu thật:

    • Độ chính xác toán học (AIME 2025): o4-mini 92,7%, o3 88,9%, o1 chỉ 79,2%

    • Lập trình Codeforces: o3 (2.706 ELO), o4-mini (2.719), o1 (1.891)

    • Khoa học GPQA Diamond: o3 (24,9%), o4-mini (17,7%), o1 (8,12%)

    • Lý luận đa phương tiện (MMMU): o3 (86,8%), o4-mini (84,3%), o1 (71,8%)

  • Lần đầu tiên, model tư duy bằng hình ảnh – nhận diện, phân tích, thao tác trên ảnh dù mờ/ngược sáng; giải quyết được các bài toán từng “ngoài tầm với” AI truyền thống.

  • Hỗ trợ đầy đủ tích hợp công cụ (function call API, custom tool), tự quyết định khi nào và cách dùng công cụ dựa trên mục đích đầu ra, tối ưu tốc độ (thường dưới 1 phút/lệnh phức tạp).

  • Đào tạo với reinforcement learning quy mô lớn, tối ưu tư duy từng bước (reasoning effort), giúp tăng mạnh năng lực khi cho phép “nghĩ lâu hơn”.

  • Mô hình được kiểm thử an toàn nghiêm ngặt, xây dựng lại dữ liệu huấn luyện an toàn, đạt 99% phát hiện nguy cơ trong các bài toán rủi ro sinh học, tấn công mạng, tự cải tiến AI.

  • Codex CLI: agent lập trình nguồn mở, chạy trực tiếp tại terminal, khai thác tốt năng lực reasoning, hỗ trợ xử lý mã nguồn, hình ảnh ngay từ dòng lệnh; có chương trình hỗ trợ 1 triệu USD cho dự án phát triển ứng dụng với Codex CLI và OpenAI models.

  • Người dùng ChatGPT Plus/Pro/Team sẽ chọn được các model này ngay, API cho dev đã mở, phiên bản Pro chuẩn bị ra mắt.

📌 Hai model mới o3 và o4-mini của OpenAI mang đột phá về tư duy đa chiều, sử dụng toàn diện công cụ, dẫn đầu các bảng xếp hạng AI về toán, lập trình, xử lý hình ảnh với độ chính xác lên tới 93,4% (AIME), khả năng reasoning tăng 20%, hỗ trợ cả API lẫn ứng dụng nguồn mở và kiểm thử an toàn tối đa.

 

https://openai.com/index/introducing-o3-and-o4-mini/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo