Nghiên cứu AI này của Apple tiết lộ một bước đột phá trong việc chạy các mô hình ngôn ngữ lớn trên các thiết bị có bộ nhớ hạn chế

  • Nhóm nghiên cứu từ Apple đã phát triển phương pháp mới cho phép các mô hình ngôn ngữ lớn (LLMs) hoạt động hiệu quả trên thiết bị có bộ nhớ DRAM hạn chế.
  • Cách tiếp cận này bao gồm việc lưu trữ tham số LLM trên bộ nhớ flash và chuyển động đến DRAM khi cần thiết trong quá trình suy luận.
  • Cải tiến tập trung vào việc giảm lượng dữ liệu chuyển từ flash và đọc dữ liệu theo khối lớn, liên tục hơn.
  • Kỹ thuật "windowing" giảm lượng dữ liệu chuyển bằng cách tái sử dụng neuron đã kích hoạt trước đó.
  • Kỹ thuật "row-column bundling" tận dụng ưu điểm của bộ nhớ flash trong việc truy cập dữ liệu tuần tự.
  • Kết quả nghiên cứu cho thấy khả năng chạy LLM lớn gấp đôi DRAM có sẵn, tăng tốc độ suy luận 4-5 lần trên CPU và 20-25 lần trên GPU so với phương pháp tải thông thường.
  • Phương pháp này quan trọng trong việc vượt qua thách thức tải và chạy mô hình lớn trên thiết bị có hạn chế về tài nguyên.

📌 Nghiên cứu của Apple cho thấy khả năng chạy LLM lớn gấp đôi DRAM có sẵn, tăng tốc độ suy luận 4-5 lần trên CPU và 20-25 lần trên GPU so với phương pháp tải thông thường. Điều này mở ra giải pháp mới cho việc chạy LLMs trên thiết bị có bộ nhớ hạn chế, điều này có thể áp dụng cho các thiết bị di động và IoT, nâng cao khả năng tiếp cận AI đối với nhiều người dùng hơn.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo