- AI21 Labs giới thiệu Jamba, một mô hình AI tạo sinh và phân tích văn bản mới, có khả năng xử lý ngữ cảnh dài hơn hầu hết các mô hình hiện nay.
- Jamba được huấn luyện trên dữ liệu công khai và độc quyền, có thể viết văn bản bằng tiếng Anh, Pháp, Tây Ban Nha và Bồ Đào Nha.
- Mô hình có thể xử lý tới 140.000 token (khoảng 105.000 từ) chỉ với một GPU có ít nhất 80GB bộ nhớ.
- Điểm độc đáo của Jamba là sự kết hợp giữa hai kiến trúc mô hình: transformer và mô hình trạng thái không gian (SSM).
- Phần lõi của Jamba sử dụng mô hình nguồn mở Mamba, giúp đạt hiệu suất gấp 3 lần so với các mô hình transformer cùng kích thước khi xử lý ngữ cảnh dài.
- Jamba được phát hành theo giấy phép Apache 2.0, tuy nhiên phiên bản hiện tại chưa có các biện pháp bảo vệ và giảm thiểu sai lệch. Phiên bản an toàn hơn sẽ sớm ra mắt.
- Mô hình cho thấy tiềm năng của kiến trúc SSM ngay cả trong giai đoạn đầu phát triển.
📌 Jamba, mô hình AI mới của AI21 Labs, nổi bật với khả năng xử lý ngữ cảnh lên tới 140.000 token chỉ với một GPU 80GB. Kết hợp kiến trúc transformer và SSM, Jamba đạt hiệu suất vượt trội gấp 3 lần so với các mô hình tương đương, hứa hẹn tiềm năng lớn cho kiến trúc SSM trong tương lai.
https://techcrunch.com/2024/03/28/ai21-labs-new-text-generating-ai-model-is-more-efficient-than-most/