OpenAI gây sốc với AI biết “suy nghĩ” trên hình ảnh và công cụ lập trình viên mã nguồn mở

  • OpenAI ra mắt hai phiên bản công nghệ lý luận mới: o3 và o4-mini, xử lý cả nhiệm vụ liên quan hình ảnh (phác thảo, poster, sơ đồ, biểu đồ) lẫn văn bản.

  • Marc Chen, trưởng bộ phận nghiên cứu OpenAI, công bố hệ thống cho phép thao tác, cắt ghép, chỉnh sửa hình ảnh phục vụ mục tiêu đề ra.

  • Hệ thống mới có thể tạo ra hình ảnh, tra cứu web và sử dụng các công cụ số khác, hỗ trợ giải quyết đa dạng nhiệm vụ phức tạp.

  • Khác ChatGPT đời đầu, o3 và o4-mini dành thời gian “suy nghĩ”, giải quyết bài toán qua nhiều bước nối tiếp thay vì trả lời tức thì.

  • Ứng dụng công nghệ vào lập trình: lý luận AI đặc biệt hữu ích cho lập trình viên viết mã, giải toán, khoa học.

  • Công nghệ này dựa trên mô hình ngôn ngữ lớn (L.L.M.s), bổ sung quy trình học tăng cường bằng thử-sai để cải thiện khả năng lý luận.

  • Luyện tập qua số lượng lớn bài toán giúp hệ thống học cách xác định phương pháp giải đúng, phát hiện quy luật qua dữ liệu lớn.

  • Hệ thống lý luận mới có thể xử lý nhiệm vụ kết hợp hình ảnh với văn bản, mở rộng phạm vi ứng dụng thực tế.

  • Công nghệ vẫn tồn tại hạn chế: dễ sinh ảo giác (hallucination), trả lời sai lệch khi xử lý thông tin.

  • OpenAI đồng thời giới thiệu Codex CLI, Agent AI mã nguồn mở, hỗ trợ trực tiếp với mã nguồn trên máy tính cá nhân của lập trình viên, cho phép tùy biến và phát triển theo nhu cầu doanh nghiệp.

  • Các sản phẩm mới sẽ có mặt trên ChatGPT Plus (20 USD/tháng, khoảng 500.000 đồng) và ChatGPT Pro (200 USD/tháng, khoảng 5.000.000 đồng).

  • Động thái này đặt OpenAI cạnh tranh trực tiếp với Google, Meta, DeepSeek - các đối thủ đang phát triển công nghệ lý luận tương tự.

  • The New York Times kiện OpenAI và Microsoft vi phạm bản quyền nội dung tin tức; cả hai bên phủ nhận cáo buộc.

📌 OpenAI tạo cú sốc công nghệ với o3, o4-mini – AI lý luận được tăng cường bởi truy xuất dữ liệu ngoài, thao tác trực tiếp trên hình ảnh và văn bản, mở Codex CLI mã nguồn tự do cho lập trình viên, giá thuê dịch vụ từ 20 USD. Công nghệ mới hướng đến lập trình viên, nâng cao khả năng giải bài toán phức tạp nhưng vẫn tồn tại nguy cơ ảo giác thông tin.

 

https://www.nytimes.com/2025/04/16/technology/openai-reasoning-models-o3-o4-mini.html

 

OpenAI giới thiệu công nghệ có thể "lập luận" với hình ảnh

Công ty cũng giới thiệu công cụ mới giúp lập trình viên sử dụng chatbot khi viết mã.

Khác với các phiên bản đầu của chatbot ChatGPT, những hệ thống lập luận này dành một lượng thời gian đáng kể để "suy nghĩ" về câu hỏi trước khi trả lời, thay vì đưa ra phản hồi ngay lập tức. Ảnh: Kelsey McClellan cho The New York Times

Bài viết của Cade Metz

Báo cáo từ San Francisco

16/4/2025, 13:46 ET

Vào tháng 9, OpenAI đã giới thiệu công nghệ AI có thể "lập luận" qua các tác vụ liên quan đến toán học, lập trình và khoa học.

Hiện nay, công nghệ này có thể xử lý các tác vụ tương tự liên quan đến hình ảnh, bao gồm bản phác thảo, áp phích, sơ đồ và biểu đồ.

Vào thứ Tư, công ty đã tiết lộ hai phiên bản mới của công nghệ lập luận có tên OpenAI o3 và OpenAI o4-mini. Mỗi phiên bản có thể xử lý các tác vụ liên quan đến cả hình ảnh và văn bản.

Các hệ thống này có thể "thao tác, cắt và biến đổi hình ảnh phục vụ cho tác vụ bạn muốn thực hiện," Marc Chen, giám đốc nghiên cứu tại OpenAI cho biết khi công bố hệ thống mới trong buổi phát trực tiếp trên internet.

OpenAI cũng cho biết các hệ thống này có thể tạo hình ảnh, tìm kiếm trên web và sử dụng các công cụ kỹ thuật số khác.

Khác với các phiên bản đầu của chatbot ChatGPT, những hệ thống lập luận này dành một lượng thời gian đáng kể để "suy nghĩ" về câu hỏi trước khi trả lời, thay vì đưa ra phản hồi ngay lập tức.

Các hệ thống là một phần trong nỗ lực rộng lớn hơn nhằm xây dựng AI có thể lập luận qua các tác vụ phức tạp. Các công ty như Google, Meta và DeepSeek, một công ty khởi nghiệp Trung Quốc, đang phát triển những công nghệ tương tự.

Mục tiêu là xây dựng các hệ thống có thể giải quyết vấn đề thông qua một loạt các bước, mỗi bước dựa trên bước trước đó, tương tự như cách con người lập luận. Những công nghệ này đặc biệt hữu ích cho các lập trình viên sử dụng hệ thống AI để viết mã.

Các hệ thống lập luận dựa trên công nghệ gọi là mô hình ngôn ngữ lớn, hay LLM. Để xây dựng hệ thống lập luận, các công ty đưa LLM qua một quy trình bổ sung gọi là học tăng cường. Trong quá trình này, hệ thống học hành vi thông qua nhiều lần thử và sai.

Ví dụ, bằng cách giải quyết các bài toán khác nhau, hệ thống có thể học được phương pháp nào dẫn đến câu trả lời đúng và phương pháp nào không. Nếu lặp lại quá trình này với số lượng lớn bài toán, hệ thống có thể xác định các mẫu hình.

Các hệ thống mới nhất của OpenAI đã học cách xử lý các vấn đề liên quan đến cả hình ảnh và văn bản.

Các chuyên gia chỉ ra rằng hệ thống lập luận không nhất thiết lập luận giống như con người. Và giống như các công nghệ AI khác, chúng có thể mắc lỗi và tạo ra thông tin sai lệch - một hiện tượng gọi là ảo giác.

OpenAI cũng giới thiệu một công cụ mới có tên Codex CLI được thiết kế để hỗ trợ hơn nữa các tác vụ lập trình máy tính liên quan đến hệ thống như o3 và o4-mini. Được gọi là tác nhân AI, công cụ này cung cấp phương thức sử dụng các hệ thống AI này kết hợp với mã nguồn hiện có được lưu trữ trên máy cá nhân của lập trình viên.

Công ty cho biết đang mở mã nguồn công cụ này, nghĩa là tự do chia sẻ công nghệ cơ bản với các lập trình viên và doanh nghiệp, cho phép họ sửa đổi và phát triển dựa trên công nghệ.

OpenAI cho biết, bắt đầu từ thứ Tư, các hệ thống mới này sẽ được cung cấp cho bất kỳ ai đăng ký ChatGPT Plus, dịch vụ 20 USD/tháng, hoặc ChatGPT Pro, dịch vụ 200 USD/tháng cung cấp quyền truy cập vào tất cả các công cụ mới nhất của công ty.

(The New York Times đã kiện OpenAI và đối tác Microsoft về vi phạm bản quyền nội dung tin tức liên quan đến hệ thống AI. Cả hai công ty đều phủ nhận các cáo buộc).

OpenAI Unveils Technology That Can ‘Reason’ With Images

The company also introduced a new tool that helps computer programmers use chatbots when writing code.
 
 
Reporting from San Francisco
In September, OpenAI introduced A.I. technology that could “reason” through tasks involving math, coding and science.
Now, this technology can tackle similar tasks that involve images, including sketches, posters, diagrams and graphs.
On Wednesday, the company unveiled two new versions of its reasoning technology called OpenAI o3 and OpenAI o4-mini. Each can handle tasks that involve both images and text.
These systems can “manipulate, crop and transform images in service of the task you want to do,” said Marc Chen, head of research at OpenAI, in announcing the new system during an internet livestream.
 
OpenAI also said that these systems could generate images, search the web and use other digital tools.
Unlike early versions of its ChatGPT chatbot, these reasoning systems spend a significant amount of time “thinking” about a question before answering, rather than providing an instant response.
The systems are part of a wider effort to build A.I. that can reason through complex tasks. Companies like Google, Meta and DeepSeek, a Chinese start-up, are developing similar technologies.
The goal is to build systems that can solve a problem through a series of steps, each one building on the last, similar to how humans reason. These technologies can be particularly useful to computer programmers who use A.I. systems to write code.
The reasoning systems are based on a technology called large language models, or L.L.M.s. To build reasoning systems, companies put L.L.M.s through an additional process called reinforcement learning. During this process, a system learns behavior through extensive trial and error.
OpenAI’s latest systems have learned to handle problems that involve both images and text.
Experts point out that reasoning systems do not necessarily reason like a human. And like other A.I. technologies, they can get things wrong and make stuff up — a phenomenon called hallucination.
OpenAI also unveiled a new tool called Codex CLI that is designed to further facilitate computer programming tasks that involve systems like o3 and o4-mini. Called an A.I. agent, it provides ways of using these A.I. systems in tandem with existing code stored on a programmer’s personal machine.
The company said it is open sourcing this tool, meaning it is freely sharing its underlying technology with programmers and businesses, allowing them to modify and build on the technology.
OpenAI said that, beginning Wednesday, these new systems would be available to anyone who subscribed to ChatGPT Plus, a $20-a-month service, or ChatGPT Pro, a $200-a-month service that provides access to all of the company’s latest tools.
 
(The New York Times has sued OpenAI and its partner, Microsoft, for copyright infringement of news content related to A.I. systems. Both companies have denied the claims).

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo