Google DeepMind giới thiệu PaliGemma - mô hình ngôn ngữ-thị giác đa năng 3B

• Google DeepMind vừa công bố PaliGemma, một mô hình ngôn ngữ-thị giác (VLM) mở kết hợp điểm mạnh của dòng mô hình PaLI với gia đình mô hình ngôn ngữ Gemma.

• PaliGemma tích hợp mô hình thị giác SigLIP 400M với mô hình ngôn ngữ Gemma 2B, tạo thành một VLM dưới 3B tham số nhưng có hiệu suất ngang ngửa các mô hình tiền nhiệm lớn hơn nhiều như PaLI-X, PaLM-E và PaLI-3.

• Kiến trúc của PaliGemma gồm 3 thành phần chính: bộ mã hóa hình ảnh SigLIP ViTSo400m, mô hình ngôn ngữ chỉ giải mã Gemma-2B v1.0 và một lớp chiếu tuyến tính.

• Mô hình có thể xử lý nhiều tác vụ khác nhau như phân loại hình ảnh, tạo chú thích và trả lời câu hỏi về hình ảnh thông qua API linh hoạt "hình ảnh+văn bản vào, văn bản ra".

• Quá trình đào tạo PaliGemma trải qua nhiều giai đoạn, bắt đầu từ tiền đào tạo đơn phương thức, sau đó là đào tạo đa phương thức trên nhiều tác vụ đa dạng, tăng độ phân giải và cuối cùng là chuyển giao cho các tác vụ cụ thể.

• PaliGemma đạt hiệu suất ấn tượng trong nhiều tác vụ ngôn ngữ-thị giác. Mô hình xuất sắc trong tạo chú thích hình ảnh, đạt điểm cao trên các bộ dữ liệu chuẩn như COCO-Captions và TextCaps.

• Trong trả lời câu hỏi về hình ảnh, PaliGemma thể hiện hiệu suất mạnh mẽ trên nhiều bộ dữ liệu như VQAv2, GQA và ScienceQA. Mô hình cũng hoạt động tốt trên các tác vụ chuyên biệt như hiểu biểu đồ (ChartQA) và các tác vụ liên quan đến OCR (TextVQA, DocVQA).

• PaliGemma cho thấy cải thiện đáng kể khi tăng độ phân giải hình ảnh từ 224px lên 448px và 896px, đặc biệt là đối với các tác vụ liên quan đến chi tiết tinh vi hoặc nhận dạng văn bản.

• Nghiên cứu cũng giới thiệu CountBenchQA, một bộ dữ liệu mới khắc phục hạn chế của TallyQA trong đánh giá khả năng đếm của các VLM.

• PaliGemma thể hiện khả năng tổng quát hóa zero-shot bất ngờ đối với các hình ảnh 3D từ Objaverse mà không cần đào tạo cụ thể.

• Mô hình đạt hiệu suất tốt nhất trên MMVP, vượt trội đáng kể so với các mô hình lớn hơn như GPT4-V và Gemini.

📌 PaliGemma là VLM mở 3B của Google DeepMind, kết hợp SigLIP và Gemma, đạt hiệu suất vượt trội trong nhiều tác vụ đa phương thức. Mô hình nhỏ gọn này thách thức quan niệm mô hình lớn hơn luôn tốt hơn, mở ra hướng đi mới cho các hệ thống AI hiệu quả và đa năng hơn trong lĩnh vực hiểu biết ngôn ngữ-thị giác.

https://www.marktechpost.com/2024/07/12/google-deepmind-unveils-paligemma-a-versatile-3b-vision-language-model-vlm-with-large-scale-ambitions/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo