ByteDance phát triển UI-TARS - AI agent mới có khả năng điều khiển máy tính, vượt trội hơn GPT-4 và Claude

-  ByteDance vừa ra mắt UI-TARS - AI agent mới có khả năng điều khiển máy tính và thực hiện các quy trình công việc phức tạp một cách tự động

-  UI-TARS được huấn luyện với khoảng 50 tỷ token và có hai phiên bản: 7B và 72B tham số, hoạt động trên cả PC và MacOS

-  Mô hình đạt hiệu suất vượt trội trong hơn 10 tiêu chuẩn đánh giá GUI, vượt qua GPT-4o của OpenAI, Claude của Anthropic và Gemini của Google

-  Trong bài kiểm tra VisualWebBench, UI-TARS 72B đạt 82,8%, cao hơn GPT-4o (78,5%) và Claude 3.5 (78,2%)

-  UI-TARS-7B đạt điểm cao nhất 93,6% trong WebSRC, trong khi UI-TARS-72B đạt 88,6% trong ScreenQA-short

-  Giao diện của UI-TARS gồm 2 tab: một tab hiển thị quá trình "suy nghĩ" từng bước và tab còn lại thực hiện các hành động tự động

-  Mô hình được huấn luyện trên tập dữ liệu lớn gồm các ảnh chụp màn hình với metadata chi tiết về mô tả phần tử, kiểu, vị trí và chức năng

-  UI-TARS có cả bộ nhớ ngắn hạn và dài hạn, có khả năng suy luận nhanh (System 1) và chậm (System 2)

-  Mô hình được trang bị khả năng sửa lỗi và phản ánh sau hành động để học hỏi và cải thiện hiệu suất

-  Khác với Claude chỉ mạnh trong tác vụ web, UI-TARS thể hiện hiệu suất xuất sắc trên cả web và thiết bị di động

📌 UI-TARS của ByteDance đã thiết lập một cột mốc mới trong lĩnh vực AI agent với khả năng vượt trội GPT-4 và Claude trong các bài kiểm tra GUI. Với điểm số 82,8% trong VisualWebBench và 93,6% trong WebSRC, mô hình chứng minh tiềm năng to lớn trong việc tự động hóa các tác vụ máy tính phức tạp.

https://venturebeat.com/ai/bytedances-ui-tars-can-take-over-your-computer-outperforms-gpt-4o-and-claude/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo