Qwen2.5-Omni-3B chạy đa phương thức trên PC, laptop phổ thông, hiệu năng đáng kinh ngạc

  • Alibaba vừa ra mắt Qwen2.5-Omni-3B – phiên bản 3 tỷ tham số, nhỏ gọn của mô hình đa phương thức Qwen2.5-Omni, có thể chạy trực tiếp trên PC và laptop phổ thông.

  • Model này giữ trên 90% hiệu năng của phiên bản lớn (7B) dù chỉ bằng ½ số tham số (3B vs 7B).

  • Qwen2.5-Omni-3B xử lý mượt mà cả văn bản, âm thanh, hình ảnh và video; hỗ trợ tạo sinh đồng thời văn bản và âm thanh theo thời gian thực.

  • Tối ưu bộ nhớ GPU mạnh mẽ: xử lý dải input dài 25.000 tokens chỉ cần 28.2 GB VRAM, giảm hơn 50% so với bản 7B (60.2 GB), có thể chạy trên GPU phổ biến 24GB ở desktop/laptop; không cần cụm GPU lớn.

  • Thiết kế kiến trúc tối ưu gồm Thinker-Talker, embedding vị trí tùy biến TMRoPE giúp đồng bộ video-audio.

  • Hiệu suất benchmark:

    • OmniBench (lý luận đa phương thức): 52,2 (so với 56,1 của 7B)

    • VideoBench (hiểu âm thanh): 68,8 (so với 74,1)

    • MMMU (lý luận hình ảnh): 53,1 (so với 59,2)

    • MVBench (lý luận video): 68,7 (so với 70,3)

    • Seed-tts-eval (tạo sinh giọng nói): 92,1 (so với 93,5)

  • Tính năng cá nhân hóa giọng nói: chọn 2 voice (Chelsie nữ, Ethan nam), tùy mục đích ứng dụng.

  • Có thể tắt tạo âm thanh để giảm thêm bộ nhớ, linh hoạt đầu ra văn bản hoặc audio.

  • Hỗ trợ Hugging Face, Docker, vLLM, FlashAttention 2, BF16, lưu trữ trên Hugging Face, GitHub, ModelScope.

  • Nguồn mở cho nghiên cứu, cấm sử dụng thương mại nếu không xin giấy phép riêng từ Alibaba. Được phép thử nghiệm, tinh chỉnh nội bộ.

  • Qwen2.5-Omni-3B phù hợp để làm testbed thử nghiệm tính khả thi, tinh chỉnh pipeline nội bộ, đánh giá kiến trúc trước khi thương mại hóa.

  • Dễ tiếp cận AI đa phương thức cho cá nhân, đội nhóm nghiên cứu nhờ rào cản phần cứng thấp, nhưng cần lưu ý hạn chế pháp lý về thương mại.

📌 Alibaba ra mắt Qwen2.5-Omni-3B – mô hình AI đa phương thức chỉ 3 tỷ tham số, chạy mượt trên laptop/PC phổ thông, giảm VRAM hơn 50%, hiệu năng đạt trên 90% bản lớn, nhưng bị hạn chế sử dụng thương mại nếu chưa xin phép, phù hợp thử nghiệm, nghiên cứu AI đa phương thức.

https://venturebeat.com/ai/qwen-swings-for-a-double-with-2-5-omni-3b-model-that-runs-on-consumer-pcs-laptops/

Không có file đính kèm.

10

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo