Nghiên cứu của Meta về "cắt tỉa" mô hình Llama 2 mở ra con đường tạo ra AI gọn nhẹ hơn

- Nghiên cứu mới của các học giả từ phòng thí nghiệm AI của Meta, MIT, Cisco Systems và công ty khởi nghiệp Zyphra cho thấy có thể loại bỏ tới một nửa các lớp sâu nhất của mô hình ngôn ngữ Llama 2 mà chỉ làm giảm hiệu suất rất ít.
- Việc loại bỏ các lớp này giúp giảm 3/4 lượng bộ nhớ cần thiết, cho phép chạy mô hình trên một GPU thông dụng thay vì cần cả giá đỡ máy chủ lớn.
- Các tác giả đã thử nghiệm "cắt tỉa" dần các lớp của mạng nơ-ron, bắt đầu từ các lớp sâu nhất, và nhận thấy có thể loại bỏ tới khoảng một nửa số lớp trước khi hiệu suất sụt giảm đáng kể. 
- Kết quả cho thấy phần lớn kiến thức thiết yếu để đạt điểm số cao nhất không nằm ở các lớp sâu nhất. Tuy nhiên, việc dễ dàng cắt giảm nhiều lớp như vậy cũng gợi ý rằng các mạng nơ-ron lớn có thể chứa nhiều phần chưa được tận dụng triệt để.
- Với Llama-2-70B, việc giảm độ chính xác số (quantization 4-bit) và cắt giảm 50% số lớp giúp mô hình chỉ cần 17.5 GB bộ nhớ và 1.5 × 1010 phép tính dấu phẩy động mỗi token, cho phép huấn luyện và chạy mô hình hiệu quả trên GPU cấp tiêu dùng mà chỉ đánh đổi hiệu suất rất nhỏ.

📌 Nghiên cứu của Meta cho thấy có thể cắt giảm tới 50% số lớp của mô hình Llama 2, tiết kiệm 75% bộ nhớ, mà vẫn giữ được hiệu suất tương đương. Kết quả mở ra tiềm năng tạo ra các mô hình AI gọn nhẹ, hiệu quả hơn, nhưng cũng gợi ý rằng các mạng nơ-ron lớn hiện tại có thể chứa nhiều phần dư thừa chưa được khai thác hết.

https://www.zdnet.com/article/metas-pruning-of-llama-2-model-shows-path-to-slimmer-ai/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo