- Sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn đa phương thức (MLLM) đặc biệt là những mô hình tích hợp ngôn ngữ và thị giác (LVM).
- MLLM đang cách mạng hóa nhiều lĩnh vực, thúc đẩy việc đánh giá lại các mô hình chuyên biệt.
- Mô hình chuyên biệt như MiVOLO cung cấp giải pháp hiệu quả về chi phí so với các mô hình đa dụng như ShareGPTV.
- Nhóm nghiên cứu từ SaluteDevices giới thiệu MiVOLOv2, mô hình vượt trội so với tất cả các mô hình chuyên biệt và cả phiên bản đầu tiên MiVOLO trong xác định giới tính và tuổi tác.
- MiVOLOv2 sử dụng các đoạn cắt khuôn mặt và cơ thể để dự đoán, trong khi các mô hình khác dự đoán dựa trên lời nhắc và hình ảnh.
- Tập dữ liệu huấn luyện của MiVOLOv2 được mở rộng 40% so với dữ liệu trước đây, chứa hơn 807.694 mẫu.
- MiVOLOv2 vượt trội hơn tất cả các MLLM đa dụng trong ước tính tuổi tác. LLaVA-NeXT 34B dẫn đầu trong số các lựa chọn nguồn mở.
📌 MiVOLOv2 vượt trội so với tất cả các mô hình ngôn ngữ lớn đa phương thức trong ước tính tuổi tác và thành công trong xử lý hình ảnh cá nhân. Kết quả khuyến khích đánh giá toàn diện tiềm năng của các mạng nơ-ron, bao gồm LLaVA và ShareGPT. Nghiên cứu cho thấy các phiên bản chuyên biệt được tinh chỉnh của LLaVA hiệu quả hơn trong lĩnh vực này.
https://www.marktechpost.com/2024/03/12/breaking-new-grounds-in-ai-how-multimodal-large-language-models-are-reshaping-age-and-gender-estimation/