hugging face ra mắt idefics2 - mô hình đa phương thức mã nguồn mở 8 tỷ tham số vượt trội

- Hugging Face giới thiệu Idefics2, một mô hình đa phương thức mã nguồn mở chấp nhận chuỗi đầu vào hình ảnh và văn bản tùy ý, tạo ra đầu ra văn bản.
- Mô hình có thể trả lời câu hỏi về hình ảnh, mô tả nội dung thị giác, tạo câu chuyện dựa trên nhiều hình ảnh hoặc đơn giản là hoạt động như một mô hình ngôn ngữ thuần túy mà không cần đầu vào thị giác.
- Idefics2 chỉ có 8 tỷ tham số nhưng vượt trội hơn đáng kể so với phiên bản tiền nhiệm Idefics1 và các mô hình ngôn ngữ lớn hơn như LLava-Next-34B và MM1-30B-chat trong các tác vụ thị giác.
- Mô hình được huấn luyện trên nhiều bộ dữ liệu công khai như tài liệu web, cặp hình ảnh-chú thích và dữ liệu OCR.
- Idefics2 được tinh chỉnh trên bộ dữ liệu mới "The Cauldron" tổng hợp 50 bộ dữ liệu được tuyển chọn cẩn thận để huấn luyện hội thoại đa dạng.
- Cải tiến kiến trúc quan trọng của Idefics2 là đơn giản hóa việc tích hợp các đặc trưng thị giác vào nền tảng ngôn ngữ thông qua Learned Perceiver Pooling và MLP modality projection.
- Idefics2 thể hiện cách tiếp cận tinh tế hơn trong xử lý hình ảnh, duy trì độ phân giải và tỷ lệ khung hình gốc, khác với các chuẩn thay đổi kích thước thông thường trong thị giác máy tính.

📌 Idefics2 của Hugging Face là một bước tiến ấn tượng trong lĩnh vực mô hình đa phương thức mã nguồn mở. Chỉ với 8 tỷ tham số, mô hình vẫn vượt trội các đối thủ lớn hơn trong các tác vụ thị giác nhờ kiến trúc cải tiến và huấn luyện trên tập dữ liệu đa dạng "The Cauldron".

Citations:
[1] https://analyticsindiamag.com/hugging-face-open-source-idefics-2-8b-multimodal-model/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo