OpenAI công bố 2 mô hình AI tạo sinh mới: o3 và o4-mini, nổi bật với khả năng suy nghĩ bằng hình ảnh trong toàn bộ chuỗi tư duy, chứ không chỉ nhận diện đơn thuần.
Mô hình này có thể tự động xoay, phóng to, cắt ghép hình ảnh, xử lý các ảnh mờ/lộn xộn và kết hợp với công cụ như tìm kiếm web, thao tác ảnh nhằm giải quyết nhiều nhiệm vụ phức tạp đa phương thức.
Trí tuệ thị giác của o3 và o4-mini cho phép người dùng: tải ảnh toán học, hình viết tay, bảng hiệu, lịch trình xe buýt hoặc thậm chí mê cung – AI sẽ tự nhận diện, phân tích, đọc nội dung, giải bài toán từng bước hoặc tìm đường đi tối ưu.
Chuỗi suy luận nội bộ của mô hình cực dài: ví dụ, với bài toán vật lý QED, AI phân tích chi tiết sơ đồ, nhận diện các thành phần trong ảnh, phân tích nhãn, xác định phân tán chân không, rồi giải ra biên độ lượng tử M, kèm toàn bộ công thức.
AI vẫn còn hạn chế: đôi khi thực hiện chuỗi suy nghĩ dư thừa, dễ mắc lỗi nhận diện hình ảnh cơ bản hoặc đưa ra nhiều hướng giải khác nhau cho cùng một bài toán.
Hiệu quả vượt trội trên hàng loạt chuẩn benchmark như: MMMU (giải toán đại học), MathVista (toán trực quan), CharXiv (đọc/giải thích biểu đồ khoa học), V* (tìm kiếm hình ảnh…) – đạt 95,7% độ chính xác trên V*.
Đây là bước tiến lớn hướng đến mô hình AI từ cốt lõi đa phương tiện, mở rộng khả năng hiểu và tác động thực tế trong mọi hoạt động chuyên môn và đời sống.
📌 OpenAI o3 và o4-mini lần đầu đưa khả năng "suy nghĩ bằng ảnh" vào chuỗi tư duy AI, giải cả bài toán phức tạp bằng ảnh, tự thao tác ảnh, dẫn đầu các chuẩn benchmark với độ chính xác lên tới 95,7%, đặt nền móng cho AI tạo sinh đa phương thức thế hệ mới.
https://openai.com/index/thinking-with-images/