- Các nhà nghiên cứu từ đại học Notre Dame, phòng thí nghiệm Tencent AI Seattle và đại học Illinois Urbana-Champaign đã phát triển mô hình Leopard - một mô hình ngôn ngữ lớn đa phương thức (MLLM) chuyên xử lý nhiều hình ảnh giàu văn bản
- Leopard giải quyết hai thách thức chính của các mô hình hiện tại:
+ Thiếu bộ dữ liệu huấn luyện chất lượng cao cho kịch bản nhiều hình ảnh
+ Khó cân bằng giữa độ phân giải hình ảnh và độ dài chuỗi thị giác
- Mô hình được huấn luyện trên bộ dữ liệu khoảng 1 triệu điểm dữ liệu đa phương thức chất lượng cao, bao gồm:
+ Tài liệu nhiều trang
+ Bảng biểu và biểu đồ
+ Ảnh chụp màn hình web
- Leopard tích hợp module mã hóa đa hình ảnh độ phân giải cao thích ứng:
+ Tối ưu hóa động phân bổ độ dài chuỗi thị giác
+ Duy trì chi tiết độ phân giải cao
+ Nén chuỗi đặc trưng thị giác dài thành chuỗi ngắn hơn không mất mát
- Kết quả đánh giá cho thấy Leopard vượt trội hơn các mô hình như OpenFlamingo, VILA và Idefics2:
+ Cải thiện trung bình hơn 9,61 điểm trên các bài kiểm tra chuẩn
+ Hiệu suất cao trong các tác vụ như SlideVQA và Multi-page DocVQA
+ Khả năng xử lý tốt các tài liệu nhiều trang và bài thuyết trình
📌 Leopard đánh dấu bước tiến quan trọng trong AI đa phương thức với module mã hóa độ phân giải cao thích ứng và bộ dữ liệu huấn luyện 1 triệu điểm. Mô hình cải thiện 9,61 điểm so với các đối thủ trong xử lý hình ảnh giàu văn bản, mở ra tiềm năng ứng dụng rộng rãi trong giáo dục và nghiên cứu.
https://www.marktechpost.com/2024/11/02/leopard-a-multimodal-large-language-model-mllm-designed-specifically-for-handling-vision-language-tasks-involving-multiple-text-rich-images/