Neural Magic: nén thành công phiên bản FP8 được lượng tử hóa hoàn toàn của Llama 3.1 405B

• Neural Magic vừa công bố một bước đột phá quan trọng trong việc nén mô hình AI bằng cách giới thiệu phiên bản FP8 được lượng tử hóa hoàn toàn của mô hình Llama 3.1 405B của Meta.

Mô hình 405 tỷ tham số này có thể chạy trên bất kỳ hệ thống 8xH100 hoặc 8xA100 nào mà không gặp lỗi hết bộ nhớ (OOM) thường gặp với các phiên bản FP8 và FP16 gốc.

• Mô hình mới không chỉ giải quyết các hạn chế về bộ nhớ mà còn tăng tốc độ suy luận lên gấp 2 lần, tận dụng bộ nhớ và khả năng tính toán nhanh hơn.

• Neural Magic cung cấp hai phiên bản chính của mô hình:
- Meta-Llama-3.1-405B-Instruct-FP8-dynamic
- Meta-Llama-3.1-405B-Instruct-FP8

• Phiên bản FP8 được lượng tử hóa hoàn toàn, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, giữ nguyên kiến trúc của Meta-Llama-3.1, được thiết kế cho trò chuyện kiểu trợ lý bằng nhiều ngôn ngữ.

• Mô hình chỉ giới hạn sử dụng bằng tiếng Anh và cho các ứng dụng hợp pháp. Nó được phát hành dưới phiên bản 1.0, được phát triển bởi Neural Magic và hoạt động theo giấy phép llama3.1.

• Quá trình lượng tử hóa giảm số bit trên mỗi tham số từ 16 xuống 8, giảm một nửa kích thước đĩa và yêu cầu bộ nhớ GPU.

• Mô hình có thể được tải và đánh giá trên một nút gồm 8 GPU H100 thay vì yêu cầu nhiều nút.

• Quá trình lượng tử hóa sử dụng lượng tử hóa đối xứng trên mỗi kênh, ánh xạ tuyến tính trên mỗi chiều đầu ra cho các biểu diễn FP8 của trọng số và kích hoạt được lượng tử hóa.

• Các kích hoạt được lượng tử hóa động trên cơ sở mỗi token. Điều này được thực hiện bằng LLM Compressor với 512 chuỗi từ UltraChat.

• Mô hình được lượng tử hóa có thể được triển khai hiệu quả bằng cách sử dụng backend vLLM. Quá trình triển khai sử dụng các thư viện `vllm` và `transformers` trong Python.

• Mô hình được đánh giá trên nhiều benchmark, bao gồm MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande và TruthfulQA.

• Mô hình lượng tử hóa Meta-Llama-3.1-405B-Instruct-FP8-dynamic đạt điểm trung bình 86.55 trên benchmark OpenLLM, gần như tương đương với điểm 86.63 của mô hình chưa lượng tử hóa, cho thấy khả năng phục hồi gần như hoàn hảo 99.91%.

• Neural Magic cung cấp các lệnh chi tiết để tái tạo kết quả đánh giá trên các benchmark khác nhau, minh họa tính mạnh mẽ của mô hình được lượng tử hóa.

• Mô hình đạt tỷ lệ phục hồi 99.91% trên MMLU (5-shot) và 100.2% trên Winogrande (5-shot), nhấn mạnh độ tin cậy và độ chính xác của nó.

📌 Neural Magic đã nén thành công mô hình Llama 3.1 405B của Meta xuống phiên bản FP8, giảm một nửa yêu cầu bộ nhớ và tăng tốc độ suy luận gấp 2 lần. Mô hình mới có thể chạy trên hệ thống 8xH100/A100 đơn lẻ, đạt hiệu suất gần như tương đương với phiên bản gốc trên các benchmark quan trọng.

https://www.marktechpost.com/2024/07/29/neural-magic-releases-fully-quantized-fp8-version-of-metas-llama-3-1-405b-model-fp8-dynamic-quantization-and-fp8-static-quantization/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo