Microsoft Tạo Đột Phá với Mô Hình Ngôn Ngữ 1-bit LLM và BitNet b1.58

- Microsoft đã giới thiệu mô hình ngôn ngữ mới có tên là 1-bit LLM, với nghiên cứu BitNet đóng góp vào dự án này.
- Mô hình mới này sử dụng chỉ 1.58 bit để biểu diễn mỗi tham số (trọng số), thay vì sử dụng giá trị dấu phẩy động 16-bit (FP16) như các mô hình ngôn ngữ lớn (LLM) truyền thống.
- BitNet b1.58 giới hạn mỗi trọng số chỉ có thể nhận một trong ba giá trị: -1, 0, hoặc 1, giảm đáng kể lượng bit cần sử dụng.
- Mặc dù chỉ sử dụng 1.58 bit cho mỗi tham số, BitNet b1.58 vẫn đạt hiệu suất tương đương với các mô hình truyền thống cùng kích thước và dữ liệu huấn luyện, cả về độ hỗn loạn (perplexity) và hiệu suất công việc cuối cùng.
- Mô hình 1.58-bit LLM này giới thiệu một cách mới để mở rộng và huấn luyện mô hình ngôn ngữ, cân bằng giữa hiệu suất cao và chi phí hiệu quả.
- Nó mở ra khả năng tính toán mới và tiềm năng thiết kế phần cứng chuyên biệt tối ưu cho các mô hình 1-bit LLM.
- Bài báo cũng đề cập đến khả năng hỗ trợ chuỗi dài tự nhiên trong LLMs do BitNet b1.58, và đề xuất nghiên cứu tiếp theo về nén không mất dữ liệu để tăng hiệu quả hơn nữa.
- Cuối năm ngoái, Microsoft đã giới thiệu phiên bản mới của mô hình ngôn ngữ nhỏ (SML) Phi-2 với 2.7 tỷ tham số, vượt trội về khả năng hiểu và lý luận.

📌 Mô hình ngôn ngữ 1-bit LLM của Microsoft, cùng với nghiên cứu BitNet b1.58, đánh dấu một bước tiến quan trọng trong việc phát triển công nghệ AI. Việc giảm lượng bit cần thiết cho mỗi trọng số xuống chỉ còn 1.58 bit không những giúp giảm chi phí về mặt bộ nhớ, độ trễ, thông lượng và tiêu thụ năng lượng mà còn duy trì hiệu suất tương đương với các mô hình truyền thống. Điều này không chỉ mở ra hướng đi mới cho việc mở rộng và huấn luyện mô hình ngôn ngữ mà còn cho thấy tiềm năng trong việc thiết kế phần cứng chuyên biệt. Sự đổi mới này cũng gợi ý về khả năng hỗ trợ chuỗi dài tự nhiên và tiếp tục nghiên cứu về nén không mất dữ liệu, hứa hẹn sẽ mang lại hiệu quả cao hơn nữa trong tương lai.

https://analyticsindiamag.com/microsoft-introduces-1-bit-llm/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo