Alibaba vừa ra mắt Qwen2.5-Omni-3B – phiên bản 3 tỷ tham số, nhỏ gọn của mô hình đa phương thức Qwen2.5-Omni, có thể chạy trực tiếp trên PC và laptop phổ thông.
Model này giữ trên 90% hiệu năng của phiên bản lớn (7B) dù chỉ bằng ½ số tham số (3B vs 7B).
Qwen2.5-Omni-3B xử lý mượt mà cả văn bản, âm thanh, hình ảnh và video; hỗ trợ tạo sinh đồng thời văn bản và âm thanh theo thời gian thực.
Tối ưu bộ nhớ GPU mạnh mẽ: xử lý dải input dài 25.000 tokens chỉ cần 28.2 GB VRAM, giảm hơn 50% so với bản 7B (60.2 GB), có thể chạy trên GPU phổ biến 24GB ở desktop/laptop; không cần cụm GPU lớn.
Thiết kế kiến trúc tối ưu gồm Thinker-Talker, embedding vị trí tùy biến TMRoPE giúp đồng bộ video-audio.
Hiệu suất benchmark:
OmniBench (lý luận đa phương thức): 52,2 (so với 56,1 của 7B)
VideoBench (hiểu âm thanh): 68,8 (so với 74,1)
MMMU (lý luận hình ảnh): 53,1 (so với 59,2)
MVBench (lý luận video): 68,7 (so với 70,3)
Seed-tts-eval (tạo sinh giọng nói): 92,1 (so với 93,5)
Tính năng cá nhân hóa giọng nói: chọn 2 voice (Chelsie nữ, Ethan nam), tùy mục đích ứng dụng.
Có thể tắt tạo âm thanh để giảm thêm bộ nhớ, linh hoạt đầu ra văn bản hoặc audio.
Hỗ trợ Hugging Face, Docker, vLLM, FlashAttention 2, BF16, lưu trữ trên Hugging Face, GitHub, ModelScope.
Nguồn mở cho nghiên cứu, cấm sử dụng thương mại nếu không xin giấy phép riêng từ Alibaba. Được phép thử nghiệm, tinh chỉnh nội bộ.
Qwen2.5-Omni-3B phù hợp để làm testbed thử nghiệm tính khả thi, tinh chỉnh pipeline nội bộ, đánh giá kiến trúc trước khi thương mại hóa.
Dễ tiếp cận AI đa phương thức cho cá nhân, đội nhóm nghiên cứu nhờ rào cản phần cứng thấp, nhưng cần lưu ý hạn chế pháp lý về thương mại.
📌 Alibaba ra mắt Qwen2.5-Omni-3B – mô hình AI đa phương thức chỉ 3 tỷ tham số, chạy mượt trên laptop/PC phổ thông, giảm VRAM hơn 50%, hiệu năng đạt trên 90% bản lớn, nhưng bị hạn chế sử dụng thương mại nếu chưa xin phép, phù hợp thử nghiệm, nghiên cứu AI đa phương thức.
https://venturebeat.com/ai/qwen-swings-for-a-double-with-2-5-omni-3b-model-that-runs-on-consumer-pcs-laptops/