Bên trong Phi 2: Mô hình ngôn ngữ nhỏ của Microsoft
- Microsoft Research phát triển mô hình AI tạo sinh nhỏ gọi là SLM, giảm thiểu sử dụng tài nguyên nhưng vẫn đạt kết quả nhất quán.
- SLM dễ dàng di động, có thể không cần kết nối mạng, được huấn luyện trên dữ liệu riêng tư hoặc cụ thể cho từng lĩnh vực.
- Phi 2, phiên bản mới nhất trong dòng Phi của Microsoft, đã được cấp phép MIT, huấn luyện dựa trên nguồn dữ liệu tổng hợp và thông tin từ web.
- Dữ liệu tổng hợp cung cấp kiến thức cơ bản, cho phép mô hình suy luận và hiểu biết chung, cải thiện phản hồi theo ngữ cảnh của người dùng.
- Phi 2 có hiệu suất sánh ngang và đôi khi vượt trội so với các mô hình lớn hơn, phức tạp hơn.
- Microsoft chú trọng vào chất lượng dữ liệu huấn luyện, sử dụng kiến thức từ các mô hình Phi trước đó để tăng tốc quá trình huấn luyện.
- Phi 2 không cần học củng cố từ con người nhờ curation dữ liệu, giúp giảm thiểu đầu ra độc hại hoặc thiên vị.
- Phiên bản đầu tiên của Phi được thiết kế để tạo mã và đã được huấn luyện trên cơ sở mã có bản quyền linh hoạt.
- Dù có ít tham số hơn GPT 3.5, Phi 2 vẫn cần môi trường huấn luyện chuyên biệt, sử dụng 96 GPU Nvidia A100 và mất 14 ngày để huấn luyện.
- Mô hình SLM nhẹ, có thể tích hợp vào ứng dụng web, nhưng có hạn chế về độ dài token của các lệnh nhập.
📌 Mô hình SLM như Phi 2 của Microsoft Research mở ra hướng tiếp cận mới trong việc phát triển AI tạo sinh, với khả năng đạt hiệu suất cao mà vẫn giảm thiểu nguồn lực cần thiết. Với 2,7 tỷ tham số và quá trình huấn luyện kéo dài 14 ngày cùng 96 GPU Nvidia A100, Phi 2 không chỉ phù hợp với các tổ chức mà còn đáp ứng nhu cầu của các ứng dụng cần mô hình AI nhẹ và nhanh. Sự linh hoạt và kích thước nhỏ gọn của SLM như Phi 2 có tiềm năng lớn trong việc tái định nghĩa giao diện người dùng và tương tác dữ liệu không cấu trúc.