Tìm hiểu cách ChatGPT có thể tạo hình ảnh ly rượu đầy, đánh dấu bước tiến quan trọng trong khả năng hiểu khái niệm trừu tượng và thuộc tính vật lý của AI.
ChatGPT, GPT-4o, ly rượu đầy, tạo sinh hình ảnh, AI tạo sinh, OpenAI, khái niệm trừu tượng, thuộc tính vật lý, bước đột phá AI
ChatGPT giờ đây có thể tạo hình ảnh ly rượu đầy tràn - Bước tiến đột phá trong hiểu biết vật lý của AI
Cập nhật mới nhất của OpenAI cho GPT-4o đã giới thiệu một bước đột phá đáng chú ý: khả năng tạo hình ảnh ly rượu hoàn toàn đầy, điều mà các mô hình AI trước đây không thể thực hiện.
Vấn đề "ly rượu" từng là một hạn chế cơ bản của AI: dù người dùng yêu cầu rõ ràng thế nào, các hệ thống AI chỉ có thể tạo ra hình ảnh ly rượu nửa đầy hoặc trống rỗng.
Hạn chế này phản ánh sự thiếu hiểu biết của AI về các thuộc tính vật lý. Các mô hình trước không thể trừu tượng hóa khái niệm như thể tích chất lỏng ngoài dữ liệu huấn luyện của chúng.
GPT-4o đã tích hợp khả năng tạo hình ảnh trực tiếp vào mô hình ngôn ngữ. Theo OpenAI: "Chúng tôi luôn tin rằng tạo hình ảnh nên là khả năng chính của các mô hình ngôn ngữ của chúng tôi."
Hệ thống mới được huấn luyện trên sự phân phối chung của hình ảnh và văn bản trực tuyến, phát triển hiểu biết tinh vi hơn về mối quan hệ giữa hình ảnh và ngôn ngữ.
GPT-4o có thể xử lý các yêu cầu phức tạp với 10-20 đối tượng khác nhau, so với giới hạn trước đây là 5-8. Nó cũng hiển thị văn bản chính xác trong hình ảnh và duy trì tính nhất quán trực quan.
Khả năng mới này mở rộng xa hơn ly rượu, chuyển đổi công nghệ tạo hình ảnh AI từ ứng dụng nghệ thuật sang công cụ giao tiếp trực quan thực tế.
Theo nhà nghiên cứu Gabriel Goh của OpenAI: "Đây là một loại công nghệ hoàn toàn mới. Chúng tôi không tách biệt việc tạo hình ảnh và tạo văn bản. Chúng tôi muốn tất cả được thực hiện cùng nhau."
OpenAI đã cung cấp các khả năng này cho người dùng Plus, Pro, Team và Free như trình tạo hình ảnh mặc định trong ChatGPT, với quyền truy cập Enterprise và Edu sắp ra mắt.
Hệ thống cũng tích hợp các tính năng an toàn, bao gồm metadata C2PA xác định hình ảnh được tạo bởi AI và công cụ tìm kiếm nội bộ để xác minh nội dung có nguồn gốc từ mô hình của họ.
📌 Khả năng tạo hình ảnh ly rượu đầy của GPT-4o đánh dấu bước tiến quan trọng trong sự phát triển của AI, cho thấy hệ thống đang bắt đầu phát triển hiểu biết trừu tượng về các khái niệm vật lý, tiến gần hơn đến tư duy khái niệm của con người.
https://www.forbes.com/sites/esatdedezade/2025/03/26/chatgpt-can-now-generate-a-full-glass-of-wine--heres-why-thats-a-big-deal/