• MagicDec là phương pháp mới do các nhà nghiên cứu từ Đại học Carnegie Mellon, Moffett AI và Meta AI phát triển, nhằm triển khai speculative decoding để suy luận với thông lượng cao cho các mô hình ngôn ngữ lớn (LLM).
• Phương pháp này dựa trên phân tích kỹ lưỡng về cách các nút thắt cổ chai thay đổi khi kích thước batch và độ dài chuỗi tăng lên. Với các chuỗi trung bình đến dài, việc giải mã LLM vẫn bị giới hạn bởi bộ nhớ ngay cả với batch lớn, với bộ nhớ đệm key-value (KV) trở thành nút thắt cổ chai chính.
• MagicDec giới thiệu hai cải tiến chính:
1) Chiến lược soạn thảo thông minh có thể cải thiện tốc độ khi tăng kích thước batch.
2) Giải quyết nút thắt cổ chai bộ nhớ đệm KV bằng cách sử dụng các mô hình nháp với bộ nhớ đệm KV thưa thớt.
• Hiệu suất của MagicDec rất ấn tượng:
- Tăng tốc lên đến 2 lần cho mô hình LLaMA-2-7B-32K
- Tăng tốc 1,84 lần cho LLaMA-3.1-8B
- Phục vụ kích thước batch từ 32 đến 256 trên 8 GPU NVIDIA A100
- Cải thiện cả thông lượng và giảm độ trễ mà không ảnh hưởng đến độ chính xác, đặc biệt với các chuỗi dài
• MagicDec thách thức quan niệm truyền thống cho rằng speculative decoding không hiệu quả để tăng thông lượng. Phương pháp này mở ra khả năng mới để tối ưu hóa suy luận LLM.
• Nghiên cứu này đánh dấu bước tiến lớn trong việc giải quyết hiệu quả các thách thức khi phục vụ mô hình ngôn ngữ lớn. Nó chứng minh có thể phá vỡ sự đánh đổi giữa độ trễ và thông lượng cho việc tạo ngữ cảnh dài.
• MagicDec sẽ đóng vai trò quan trọng trong việc triển khai rộng rãi các mô hình LLM mạnh mẽ trên nhiều trường hợp sử dụng khác nhau, khi nhu cầu phục vụ LLM hiệu suất cao tiếp tục tăng.
📌 MagicDec đạt được tốc độ tăng gấp 2 lần cho mô hình LLaMA-2-7B-32K và 1,84 lần cho LLaMA-3.1-8B, cải thiện cả thông lượng và độ trễ mà không ảnh hưởng độ chính xác. Phương pháp này mở ra khả năng mới để tối ưu hóa suy luận LLM cho các ứng dụng ngữ cảnh dài.
https://www.marktechpost.com/2024/08/24/magicdec-unlocking-up-to-2x-speedup-in-llama-models-for-long-context-applications/