SKETCHPAD: Framework AI cung cấp bảng phác thảo trực quan cho các mô hình ngôn ngữ đa phương thức

- SKETCHPAD là framework mới giúp các mô hình ngôn ngữ đa phương thức (LMs) sử dụng bảng phác thảo trực quan và công cụ vẽ để lập luận giống con người.
- Các phương pháp hiện tại như mô hình chuyển văn bản thành hình ảnh còn hạn chế do không cho phép tương tác động, có độ phức tạp tính toán cao và thiếu linh hoạt trong việc tích hợp các mô hình thị giác chuyên biệt.
- SKETCHPAD cho phép LMs vẽ đường, hộp và dấu, tạo điều kiện cho quá trình lập luận gần với phác thảo của con người hơn. Nó có thể tích hợp các mô hình thị giác chuyên biệt để cải thiện nhận thức và lập luận trực quan.
- Framework hoạt động bằng cách tổng hợp các chương trình tạo phác thảo trực quan làm các bước lập luận trung gian. Nó sử dụng các gói Python phổ biến và tích hợp các mô hình thị giác chuyên biệt.
- Các thử nghiệm cho thấy SKETCHPAD cải thiện đáng kể hiệu suất trên nhiều tác vụ như hình học, thuật toán đồ thị và lập luận trực quan phức tạp. Ví dụ, nó cải thiện độ chính xác từ 37.5% lên 45.8% trên các tác vụ hình học sử dụng GPT-4 Turbo.

📌 SKETCHPAD là framework đột phá giúp cải thiện đáng kể khả năng lập luận của các mô hình ngôn ngữ đa phương thức bằng cách tích hợp công cụ phác thảo trực quan. Giải pháp mới này vượt qua các hạn chế quan trọng của các phương pháp hiện có, mang lại cách tiếp cận hiệu quả và chính xác hơn cho lập luận trực quan, với mức tăng hiệu suất lên tới 12.7% trên các tác vụ toán học và 8.6% trên các tác vụ thị giác.

https://www.marktechpost.com/2024/06/17/sketchpad-an-ai-framework-that-gives-multimodal-language-models-lms-a-visual-sketchpad-and-tools-to-draw-on-the-sketchpad/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo