Apple giới thiệu Ferret-UI: mô hình AI mới có thể hiểu màn hình chính và nâng cấp Siri

- Apple vừa công bố nghiên cứu về Ferret-UI, một mô hình ngôn ngữ lớn đa phương thức (MLLM) mới có khả năng hiểu các màn hình giao diện người dùng trên điện thoại di động.
- Ferret-UI được huấn luyện để nhận diện các thành phần khác nhau trên màn hình chính của người dùng, như biểu tượng ứng dụng và văn bản nhỏ, vốn là thách thức đối với các MLLM trước đây.
- Để khắc phục vấn đề, các nhà nghiên cứu đã thêm tính năng "độ phân giải bất kỳ" vào Ferret, cho phép nó phóng to chi tiết trên màn hình.
- Ferret-UI cũng có "khả năng tham chiếu, gắn kết và lập luận", giúp nó hiểu đầy đủ các màn hình giao diện người dùng và thực hiện các tác vụ khi được chỉ dẫn dựa trên nội dung trên màn hình.
- Trong các bài kiểm tra chuẩn, tác vụ cơ bản và nâng cao, Ferret-UI vượt trội hơn GPT-4V của OpenAI ở hầu hết các tác vụ, ngoại trừ tác vụ "tìm văn bản" trên iPhone.
- Tuy nhiên, GPT-4V có lợi thế nhỉnh hơn trong việc gắn kết cuộc trò chuyện dựa trên phát hiện từ giao diện người dùng, đạt 93.4% so với 91.7% của Ferret.
- Bài báo không đề cập đến kế hoạch của Apple trong việc tận dụng công nghệ này, mà chỉ nêu rộng rãi rằng các khả năng nâng cao của Ferret-UI có tiềm năng tác động tích cực đến các ứng dụng liên quan đến giao diện người dùng.
- Ferret-UI có thể được sử dụng để nâng cấp đáng kể trợ lý ảo Siri, giúp nó thực hiện các tác vụ cho người dùng nhờ sự hiểu biết sâu sắc về màn hình ứng dụng và kiến thức về cách thực hiện một số tác vụ nhất định.

📌Apple vừa công bố nghiên cứu về Ferret-UI, một mô hình ngôn ngữ lớn đa phương thức (MLLM) mới có khả năng hiểu các màn hình giao diện người dùng trên điện thoại di động. Trong các bài kiểm tra chuẩn, tác vụ cơ bản và nâng cao, Ferret-UI vượt trội hơn GPT-4V của OpenAI ở hầu hết các tác vụ, ngoại trừ tác vụ "tìm văn bản" trên iPhone.Với khả năng vượt trội so với các mô hình khác, Ferret-UI có tiềm năng nâng tầm trợ lý ảo Siri, biến nó thành một trợ lý thông minh hơn, có thể chủ động thực hiện nhiều tác vụ cho người dùng.

https://www.zdnet.com/article/apples-new-ai-model-can-understand-your-home-screen-and-supercharge-siri/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo