- Apple giới thiệu OpenELM (Open-source Efficient Language Models) gồm 8 mô hình ngôn ngữ lớn (LLMs) hoạt động trực tiếp trên thiết bị thay vì dựa vào máy chủ đám mây.
- Các mô hình OpenELM đã có trên nền tảng chia sẻ mã nguồn AI Hugging Face Hub.
- Theo white paper, Apple sử dụng 2 loại mô hình OpenELM: 4 mô hình pre-trained bằng thư viện CoreNet và 4 mô hình instruction-tuned.
- Apple áp dụng chiến lược layer-wise scaling để tăng cường độ chính xác và hiệu quả.
- Ngoài mô hình cuối cùng, Apple còn cung cấp mã nguồn, log huấn luyện và nhiều phiên bản khác nhau.
- Các nhà nghiên cứu kỳ vọng cách tiếp cận này sẽ thúc đẩy tiến bộ và mang lại "kết quả đáng tin cậy hơn" trong lĩnh vực AI ngôn ngữ tự nhiên.
- OpenELM phá vỡ thông lệ trước đây khi chỉ chia sẻ trọng số mô hình và mã suy luận, huấn luyện trên bộ dữ liệu độc quyền. Giờ đây, Apple chia sẻ toàn bộ framework để huấn luyện và đánh giá mô hình trên bộ dữ liệu công khai.
- Apple phát hành OpenELM nhằm "làm giàu và trao quyền cho cộng đồng nghiên cứu mở" với các mô hình ngôn ngữ tiên tiến. Nhà nghiên cứu có thể khám phá rủi ro, dữ liệu và độ chệch. Nhà phát triển và công ty có thể tùy chỉnh mô hình theo nhu cầu.
- Việc Apple chia sẻ thông tin mở đã trở thành công cụ quan trọng để thu hút các kỹ sư, nhà khoa học và chuyên gia hàng đầu, tạo cơ hội cho các nghiên cứu trước đây không thể thực hiện dưới chính sách bảo mật của Apple.
📌 Apple đã giới thiệu OpenELM với 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị. Việc chia sẻ toàn bộ framework huấn luyện trên dữ liệu công khai đánh dấu bước đột phá so với trước đây, hứa hẹn thúc đẩy nghiên cứu AI và thu hút nhân tài về Apple.
Citations:
[1] https://www.macrumors.com/2024/04/24/apple-ai-open-source-models/