- Lượng tử hóa (quantization) - kỹ thuật giảm số bit cần thiết để biểu diễn thông tin trong mô hình AI đang gặp phải những hạn chế đáng kể
- Nghiên cứu từ Harvard, Stanford, MIT, Databricks và Carnegie Mellon chỉ ra rằng các mô hình được lượng tử hóa hoạt động kém hiệu quả hơn nếu phiên bản gốc được huấn luyện trong thời gian dài với nhiều dữ liệu
- Meta Llama 3 là ví dụ điển hình khi việc lượng tử hóa mô hình này gây ra nhiều tác động tiêu cực hơn so với các mô hình khác
- Chi phí suy luận (inference) là vấn đề lớn:
+ Google ước tính chi 191 triệu USD để huấn luyện mô hình Gemini
+ Nếu sử dụng mô hình để tạo câu trả lời 50 từ cho một nửa số truy vấn Google Search, chi phí có thể lên tới 6 tỷ USD mỗi năm
- Meta đã huấn luyện Llama 3 trên tập dữ liệu 15 nghìn tỷ token, trong khi Llama 2 chỉ sử dụng 2 nghìn tỷ token
- Về độ chính xác:
+ Hầu hết mô hình được huấn luyện ở độ chính xác 16-bit
+ Sau đó được lượng tử hóa xuống 8-bit
+ Nvidia giới thiệu chip Blackwell hỗ trợ độ chính xác 4-bit
- Theo Kumar, độ chính xác dưới 7-8 bit có thể gây suy giảm chất lượng đáng kể, trừ khi mô hình có số lượng tham số cực lớn
📌 Lượng tử hóa không phải giải pháp vạn năng cho việc giảm chi phí AI. Nghiên cứu chỉ ra rằng với mô hình được huấn luyện trên 15 nghìn tỷ token như Llama 3, việc giảm độ chính xác bit xuống dưới 7-8 bit sẽ ảnh hưởng nghiêm trọng đến chất lượng.
https://techcrunch.com/2024/11/17/a-popular-technique-to-make-ai-more-efficient-has-drawbacks/