DeepSeek-AI ra mắt Janus-Pro 7B - mô hình AI multimodal nguồn mở vượt trội DALL-E 3 và Stable Diffusion

- DeepSeek-AI vừa công bố Janus-Pro, phiên bản cải tiến của framework Janus với hai biến thể: Janus-Pro-1B và Janus-Pro-7B

- Mô hình giới thiệu 3 đổi mới chính:
  -  Chiến lược huấn luyện được tối ưu hóa
  -  Bộ dữ liệu mở rộng chất lượng cao
  -  Các biến thể mô hình lớn hơn

- Kiến trúc của Janus-Pro tách biệt mã hóa hình ảnh cho 2 nhiệm vụ:
  -  Bộ mã hóa hiểu sử dụng phương pháp SigLIP
  -  Bộ mã hóa tạo sinh áp dụng tokenizer VQ
  
- Chiến lược huấn luyện gồm 3 giai đoạn:
  -  Tiền huấn luyện kéo dài trên nhiều bộ dữ liệu đa dạng
  -  Tinh chỉnh hiệu quả với tỷ lệ dữ liệu được điều chỉnh
  -  Tinh chỉnh có giám sát để tối ưu hiệu suất

- Dữ liệu huấn luyện bao gồm:
  -  72 triệu mẫu dữ liệu thẩm mỹ tổng hợp
  -  90 triệu bộ dữ liệu hiểu đa phương thức

- Kết quả benchmark ấn tượng của Janus-Pro 7B:
  -  MMBench: 79,2 điểm (vượt Janus: 69,4, TokenFlow-XL: 68,9, MetaMorph: 75,2)
  -  GenEval: 80% độ chính xác (vượt DALL-E 3: 67%, Stable Diffusion 3: 74%)
  -  DPG-Bench: 84,19 điểm

- Mô hình được mở rộng lên 7 tỷ tham số giúp xử lý đầu vào đa phương thức phức tạp với độ chính xác và hiệu quả cao hơn

📌 Janus-Pro 7B thiết lập chuẩn mực mới cho AI đa phương thức nguồn mở với khả năng vượt trội DALL-E 3 (80% so với 67% trên GenEval). Mô hình tích hợp 72 triệu mẫu dữ liệu tổng hợp và 90 triệu bộ dữ liệu đa phương thức, cho phép xử lý đồng thời text và hình ảnh một cách chính xác.

https://www.marktechpost.com/2025/01/27/deepseek-ai-releases-janus-pro-7b-an-open-source-multimodal-ai-that-beats-dall-e-3-and-stable-diffusion/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo