• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.
• NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.
• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.
• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.
• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.
• NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.
• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.
• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.
• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.
• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.
• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.
• NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.
📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.
https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/