- Apple giới thiệu mô hình AI đa phương thức MM1 với khả năng xử lý cả dữ liệu hình ảnh và văn bản, sử dụng bộ dữ liệu gồm các cặp ảnh-chú thích, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản.
- MM1 có thể đếm số lượng vật thể, xác định các bộ phận trong ảnh, thể hiện kiến thức thông thường về các vật dụng hàng ngày và thực hiện các phép tính cơ bản.
- Mô hình hỗ trợ học tập ngữ cảnh, không cần huấn luyện lại hay tinh chỉnh cho từng truy vấn mà hiểu được dựa trên ngữ cảnh. Nó cũng có khả năng lập luận đa ảnh, giải thích và rút ra kết luận từ nhiều hình ảnh.
- Kỹ sư nghiên cứu cấp cao của Apple cho biết MM1 chỉ là "khởi đầu", và công ty đang phát triển thế hệ mô hình tiếp theo.
- Có tin đồn Apple đang đàm phán để cấp phép công nghệ AI Gemini của Google cho dòng iPhone tiếp theo. Điều này cho thấy các sáng kiến AI của Apple có thể chưa tiến triển nhanh như mong đợi.
- MM1 mở ra khả năng tích hợp vào Siri 2.0, cho phép trả lời câu hỏi dựa trên hình ảnh, hoặc cải tiến iMessage với các gợi ý trả lời chính xác hơn dựa trên ảnh được chia sẻ.
📌 Apple đã giới thiệu mô hình AI đa phương thức MM1, có khả năng hiểu và phân tích cả dữ liệu hình ảnh lẫn văn bản. Mô hình này hỗ trợ nhiều tính năng như đếm vật thể, trả lời câu hỏi dựa trên ngữ cảnh ảnh. Đây mới chỉ là bước đầu tiên, Apple đang phát triển thế hệ mô hình tiếp theo và có thể hợp tác với Google để tích hợp AI Gemini vào iPhone mới.
https://www.techspot.com/news/102307-apple-reveals-ai-model-can-interpret-photos-count.html