Gemma 3n là dòng mô hình AI tạo sinh nguồn mở mới từ Google, được thiết kế nhẹ và hiệu quả, sử dụng kiến trúc “Matformer” và công nghệ “selective parameter activation” giúp hoạt động với chỉ 2B-4B tham số hiệu quả, giảm tải tính toán.
Mô hình hỗ trợ đầu vào đa phương thức gồm văn bản, hình ảnh (256x256 đến 768x768), âm thanh (6.25 token/giây) và có thể sinh văn bản đầu ra lên đến 32.000 token.
Gemma 3n được huấn luyện trên tập dữ liệu đa dạng khoảng 11.000 tỷ token với hơn 140 ngôn ngữ, bao gồm văn bản web, mã lập trình, toán học, hình ảnh và âm thanh.
Được tối ưu để chạy trên phần cứng hạn chế như CPU, GPU điện thoại với dung lượng mô hình chỉ 2.991 MB và sử dụng chuẩn dynamic_int4 giúp giảm bộ nhớ sử dụng.
Hiệu suất đo trên các benchmark nổi bật:
HellaSwag: 72,2% (E2B), 78,6% (E4B)
TriviaQA: 60,8% (E2B), 70,2% (E4B)
HumanEval (mã): 66,5% (E2B), 75,0% (E4B)
MMLU (ngôn ngữ): 60,1% (E2B), 64,9% (E4B)
Mô hình được đào tạo bằng phần cứng TPU (TPUv4p, TPUv5e) và phần mềm JAX cùng ML Pathways để dễ dàng triển khai và huấn luyện ở quy mô lớn.
Về an toàn, mô hình vượt qua nhiều đánh giá về nội dung nhạy cảm (CSAM, bạo lực, định kiến), với số vi phạm chính sách nghiêm trọng giảm rõ rệt so với các bản Gemma trước.
Hạn chế gồm: vẫn có thể thiên lệch do dữ liệu huấn luyện, xử lý ngôn ngữ mơ hồ kém và chưa có khả năng lý luận giống con người.
📌 Gemma 3n của Google là mô hình AI tạo sinh nguồn mở hiệu suất cao, được thiết kế để hoạt động hiệu quả trên thiết bị tài nguyên thấp. Với khả năng xử lý văn bản, hình ảnh và âm thanh, được huấn luyện từ 11.000 tỷ token trong hơn 140 ngôn ngữ, Gemma 3n đạt 78,6% trên HellaSwag và 75% trên HumanEval. Đây là bước tiến mạnh mẽ hướng đến AI từ cốt lõi dễ tiếp cận và an toàn.
https://huggingface.co/google/gemma-3n-E2B-it-litert-preview