- Exo Labs đã thành công trong việc chạy các mô hình AI nguồn mở mạnh mẽ trên máy tính Mac M4, bao gồm Meta Llama-3.1 405B, Nvidia Nemotron 70B và Qwen 2.5 Coder-32B
- Alex Cheema, đồng sáng lập Exo Labs (thành lập tháng 3/2024), đã kết nối 4 Mac Mini M4 (giá 599 USD) và 1 Macbook Pro M4 Max (giá 1.599 USD) để chạy mô hình Qwen 2.5 Coder-32B
- Tổng chi phí cụm máy tính khoảng 5.000 USD, rẻ hơn nhiều so với một GPU Nvidia H100 (25.000-30.000 USD)
- Cụm máy Mac Mini M4 đạt tốc độ:
+ 18 token/giây với Qwen 2.5 Coder 32B
+ 8 token/giây với Nemotron-70B
+ Trên 5 token/giây với Llama 3.1-405B khi chạy trên 2 Macbook Pro M3
- Lợi ích của việc chạy AI cục bộ:
+ Bảo mật và quyền riêng tư cao hơn
+ Chi phí thấp hơn
+ Kiểm soát hoàn toàn quá trình xử lý
+ Không cần kết nối internet
- Exo Labs đang phát triển phần mềm doanh nghiệp và sẽ ra mắt trang web benchmark miễn phí để so sánh hiệu năng các cấu hình phần cứng khác nhau
- Chip M4 của Apple có ưu điểm:
+ GPU core nhanh nhất thế giới
+ Hiệu suất cao trong xử lý đơn luồng
+ Tiêu thụ điện năng thấp
📌 Exo Labs đã chứng minh khả năng chạy các mô hình AI nguồn mở lớn trên cụm máy Mac M4 với chi phí chỉ 5.000 USD, mang đến giải pháp tiết kiệm cho việc xử lý AI cục bộ. Tốc độ xử lý đạt 18 token/giây với Qwen 2.5 và 8 token/giây với Nemotron-70B, đảm bảo quyền riêng tư và kiểm soát dữ liệu.
https://venturebeat.com/ai/you-can-now-run-the-most-powerful-open-source-ai-models-locally-on-mac-m4-computers-thanks-to-exo-labs/