ByteDance phát hành UI-TARS-1.5 – AI đa phương tiện nguồn mở vượt mặt OpenAI Operator và Claude 3.7

  • ByteDance vừa công bố UI-TARS-1.5, bản cập nhật của framework agent đa phương tiện tập trung vào tương tác giao diện người dùng (GUI) và môi trường game.

  • Mô hình này là AI tạo sinh tích hợp thị giác và ngôn ngữ, có khả năng nhận diện nội dung màn hình và thực hiện các thao tác điều khiển giống người thật như di chuột, gõ phím.

  • UI-TARS-1.5 được huấn luyện end-to-end, không cần gọi hàm hay bổ sung công cụ ngoài, giúp mô hình tương tác trực tiếp với GUI như người dùng thực sự.

  • Cải tiến chính gồm: mã hóa đồng thời hình ảnh màn hình và hướng dẫn văn bản, cơ chế “nghĩ rồi hành động” tách biệt lập kế hoạch và thực thi, không gian hành động thống nhất cho desktop, mobile, game, và tự học qua dữ liệu truy vết (replay trace) thay vì dựa vào dữ liệu mẫu thủ công.

  • Trên benchmark OSWorld (100 bước), UI-TARS-1.5 đạt tỉ lệ thành công 42,5%, vượt OpenAI Operator (36,4%) và Claude 3.7 (28%).

  • Ở Windows Agent Arena (50 bước), mô hình đạt 42,1%, cao hơn nhiều so với baseline trước đó (29,8%).

  • Android World: UI-TARS-1.5 đạt 64,2%, cho thấy khả năng tổng quát hóa lên hệ điều hành di động.

  • ScreenSpot-V2: đạt chính xác 94,2% khi xác định vị trí thành phần GUI, vượt Operator (87,9%) và Claude 3.7 (87,6%).

  • ScreenSpotPro (benchmark phức tạp hơn): đạt 61,6%, cao hơn Operator (23,4%) và Claude 3.7 (27,7%).

  • Trong 14 mini-game Poki, UI-TARS-1.5 hoàn thành nhiệm vụ 100%, chứng tỏ khả năng tổng quát hóa và thích ứng với nhiều cơ chế game khác nhau.

  • Trên Minecraft (MineRL), mô hình đạt 42% thành công nhiệm vụ khai khoáng và 31% nhiệm vụ tiêu diệt mob khi sử dụng module “nghĩ rồi hành động”.

  • UI-TARS-1.5 phát hành nguồn mở theo giấy phép Apache 2.0, có sẵn trên GitHub, Hugging Face, cùng công cụ desktop hỗ trợ điều khiển tự nhiên bằng ngôn ngữ.

  • Dự án cung cấp tài liệu chi tiết, dữ liệu truy vết và bộ công cụ đánh giá để hỗ trợ cộng đồng nghiên cứu và phát triển.

📌 UI-TARS-1.5 của ByteDance là AI tạo sinh đa phương tiện nguồn mở, vượt trội về tự động hóa GUI và game với tỉ lệ thành công 42,5% (OSWorld), 64,2% (Android), 100% (Poki Games), vượt xa OpenAI Operator và Claude 3.7. Mô hình tích hợp thị giác-ngôn ngữ, tự học qua replay trace, mở ra tiềm năng lớn cho tự động hóa tương tác phần mềm.

https://www.marktechpost.com/2025/04/21/bytedance-releases-ui-tars-1-5-an-open-source-multimodal-ai-agent-built-upon-a-powerful-vision-language-model/

Không có file đính kèm.

121

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo