• Các framework suy luận LLM đã chạm đến "bức tường bộ nhớ" - giới hạn tốc độ do phần cứng áp đặt lên mã bị ràng buộc bởi bộ nhớ.
• Nhà phát triển ứng dụng LLM chỉ cần hiểu bức tường bộ nhớ của hệ thống, chọn framework gần với nó và tiếp tục.
• Các tuyên bố về requests/s và token/s có thể gây hiểu nhầm. Dựa trên MLPerf, kịch bản server và offline sẽ có requests/s cao hơn nhiều so với single stream.
• Lượng tử hóa và thưa thớt là hai phương pháp tối ưu hóa hiệu quả nhất cho deep learning, nhưng cần sử dụng thận trọng vì có thể làm giảm độ chính xác.
• Nên sử dụng các mô hình đã được công bố và xác thực kỹ lưỡng theo định dạng gốc. Ví dụ: Meta công bố Llama 3.1 8B ở định dạng bfloat16 không thưa thớt.
• Bức tường bộ nhớ cho kịch bản Single Stream trên GPU MI250, MI300 và H100 lần lượt là 200, 331 và 209 token/giây.
• MLPerf định nghĩa 4 kịch bản: single-stream, server, offline và multistream. Server và offline cho phép xử lý hàng loạt nên có thể vượt qua bức tường bộ nhớ.
• Các hệ thống suy luận hiện đại sử dụng GPU với bộ nhớ HBM. MI300X hoặc H100 có 192GB hoặc 80GB HBM3, đủ để lưu trữ mô hình 96 tỷ hoặc 40 tỷ tham số ở bfloat16.
• Có thể tăng tốc suy luận bằng cách thay đổi phần cứng như thêm GPU hoặc sử dụng SRAM thay vì DRAM.
• Các hướng nghiên cứu để phá vỡ bức tường bộ nhớ bao gồm: cải tiến lượng tử hóa và thưa thớt, giải mã song song và đầu cơ, thay đổi kiến trúc transformer.
📌 Các framework suy luận LLM đã chạm đến giới hạn bộ nhớ. Nhà phát triển nên chọn framework gần với giới hạn này và tập trung vào ứng dụng. Cần thận trọng khi sử dụng các phương pháp tối ưu hóa để tránh giảm độ chính xác. Nghiên cứu đột phá có thể phá vỡ bức tường bộ nhớ trong tương lai.
https://www.lamini.ai/blog/evaluate-performance-llm-inference-frameworks