DeepSeek AI mạnh hơn OpenAI nhờ 'sparsity'?
- DeepSeek, một mô hình AI mã nguồn mở từ Trung Quốc, đã khiến giới công nghệ sửng sốt khi vượt qua OpenAI trong một số bài kiểm tra nhưng tiêu tốn ít tài nguyên hơn đáng kể.
- Thành công của DeepSeek đến từ "sparsity" (tính thưa thớt) – một kỹ thuật trong học sâu giúp tối ưu hóa việc sử dụng tài nguyên máy tính bằng cách tắt bớt các tham số không cần thiết.
- Sparsity có thể thực hiện theo hai cách:
- Loại bỏ các phần dữ liệu không ảnh hưởng đến kết quả của mô hình.
- Tắt hoàn toàn một số phần của mạng nơ-ron nếu điều đó không làm giảm hiệu suất.
- DeepSeek sử dụng phương pháp thứ hai: bật/tắt linh hoạt các tham số mạng nơ-ron (weights), giúp tiết kiệm đáng kể sức mạnh tính toán mà vẫn đạt kết quả tương đương hoặc tốt hơn.
- Các nghiên cứu của Apple AI đã xác nhận khả năng này, khi nhóm nghiên cứu do Samir Abnar đứng đầu đã thử nghiệm trên bộ công cụ MegaBlocks (Microsoft, Google, Stanford) và phát hiện rằng có một mức tối ưu để bật/tắt tham số giúp tối ưu hóa kết quả.
- Theo nghiên cứu, sparsity có thể định lượng bằng tỷ lệ phần trăm số tham số bị vô hiệu hóa – tỷ lệ này càng cao, mạng càng tiết kiệm tài nguyên mà vẫn giữ được độ chính xác cao.
- Một quy tắc kinh tế cơ bản xuất hiện: Dù với cùng mức chi phí tính toán, AI có thể ngày càng giảm số tham số mà vẫn đảm bảo chất lượng đầu ra.
- Một phát minh quan trọng khác của DeepSeek là "multi-head latent attention", giúp tối ưu hóa bộ nhớ đệm (cache) để giảm tải băng thông và dung lượng nhớ khi xử lý văn bản.
- Không chỉ DeepSeek, nhiều công ty công nghệ lớn như Intel và Nvidia cũng đang tập trung vào sparsity như một xu hướng chủ đạo để tối ưu hóa hiệu suất AI.
- Sparsity không chỉ giúp tiết kiệm tài nguyên, mà còn hoạt động theo hướng ngược lại: Nếu tăng sức mạnh tính toán, độ chính xác của mô hình cũng sẽ được cải thiện đáng kể.
- DeepSeek chỉ là một phần của xu hướng lớn hơn, nơi ngày càng nhiều phòng thí nghiệm AI đang khai thác sparsity để đạt hiệu suất tối ưu mà không cần gia tăng đáng kể chi phí phần cứng.
📌
DeepSeek đã chứng minh rằng sparsity là tương lai của AI, giúp giảm đáng kể tài nguyên mà vẫn đạt độ chính xác cao. Apple AI đã xác nhận rằng có một mức tối ưu để bật/tắt tham số mạng nơ-ron nhằm tối đa hóa hiệu suất. Ngoài DeepSeek, nhiều công ty lớn như Intel và Nvidia cũng đang theo đuổi xu hướng này. AI trong tương lai sẽ ngày càng hiệu quả hơn mà không cần tốn kém thêm tài nguyên, mở ra cơ hội lớn cho các phòng thí nghiệm nhỏ cạnh tranh với những ông lớn. 🚀
https://www.zdnet.com/article/what-is-sparsity-deepseek-ais-secret-revealed-by-apple-researchers/