Apple tối ưu hóa LLM cho các trường hợp sử dụng Edge
- Apple công bố bài báo "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", mô tả phương pháp chạy LLMs trên thiết bị vượt quá dung lượng DRAM hiện có. Phương pháp này dựa vào việc lưu trữ tham số mô hình trên bộ nhớ flash và chuyển chúng theo nhu cầu đến DRAM.
- Phương pháp của Apple bao gồm xây dựng mô hình chi phí suy luận phù hợp với hành vi của bộ nhớ flash, tập trung vào hai lĩnh vực quan trọng: giảm lượng dữ liệu chuyển từ flash và đọc dữ liệu trong các khối lớn, liền mạch hơn.
- Trong khuôn khổ này, Apple áp dụng hai kỹ thuật chính: "windowing" giảm lượng dữ liệu chuyển bằng cách tái sử dụng các nơ-ron đã kích hoạt trước đó và "row-column bundling", tận dụng ưu điểm truy cập dữ liệu tuần tự của bộ nhớ flash, tăng kích thước của các khối dữ liệu đọc từ flash.
- Các phương pháp này cho phép chạy mô hình gấp đôi kích thước DRAM có sẵn, với tốc độ suy luận tăng 4-5 lần và 20-25 lần so với phương pháp tải thông thường trên CPU và GPU.
- Nghiên cứu này có ý nghĩa quan trọng khi Apple dự định tích hợp khả năng AI tạo sinh vào iOS 18. Hệ điều hành mới sẽ tận dụng công nghệ AI tạo sinh để cải thiện Siri và ứng dụng Tin nhắn, giúp chúng trả lời câu hỏi và tự động hoàn thành câu với hiệu quả hơn. Apple cũng khám phá khả năng sử dụng AI tạo sinh trong các ứng dụng như Apple Music, Pages, Keynote và Xcode.
- Ngoài ra, Samsung gần đây đã giới thiệu Gauss, LLM của riêng mình cho thiết bị. Gauss dự kiến sẽ được tích hợp vào điện thoại Galaxy S24 sắp ra mắt vào đầu năm 2024. Công ty dự định tích hợp mô hình ngôn ngữ này vào thiết bị như điện thoại, máy tính xách tay và máy tính bảng.
- Google cũng đã công bố LLM của mình cho thiết bị, có tên Gemini Nano, sẽ được giới thiệu trong điện thoại Google Pixel 8 sắp tới, với các khả năng như "Summarize" trong ứng dụng Recorder và "Smart Reply" trong Gboard.
📌 Nghiên cứu của Apple về cách chạy LLMs trên thiết bị với bộ nhớ hạn chế mở ra hướng mới trong việc tích hợp AI tạo sinh vào các thiết bị thông minh. Các phương pháp "windowing" và "row-column bundling" đóng vai trò quan trọng trong việc tăng cường tốc độ và hiệu suất, đồng thời hỗ trợ Apple và các công ty công nghệ khác trong việc mở rộng ứng dụng của AI tạo sinh.