• Mistral AI vừa phát hành 3 mô hình ngôn ngữ mã nguồn mở mới: Mistral NeMo, Codestral Mamba và Mathstral.
• Mistral NeMo là mô hình đa năng 12 tỷ tham số, có cửa sổ ngữ cảnh 128.000 token và hỗ trợ nhiều ngôn ngữ. Nó có hiệu suất mạnh mẽ trên 11 ngôn ngữ bao gồm tiếng Trung, Nhật, Ả Rập và Hindi.
• NeMo sử dụng bộ tokenizer mới tên Tekken, giúp nén hiệu quả hơn mã nguồn và ngôn ngữ tự nhiên.
• Trên các bài kiểm tra chuẩn như MMLU và Winogrande, NeMo vượt trội so với các mô hình cùng kích thước như Gemma 2 9B và Llama 3 8B.
• Codestral Mamba là mô hình 7 tỷ tham số dựa trên kiến trúc Mamba, một giải pháp thay thế cho Transformer phổ biến. Mamba cho phép suy luận nhanh hơn và độ dài ngữ cảnh lý thuyết vô hạn.
• Mistral tuyên bố Codestral Mamba có khả năng phản hồi nhanh bất kể độ dài đầu vào và hiệu suất ngang bằng với các mô hình Transformer lớn hơn như CodeLlama 34B.
• Mathstral là mô hình 7 tỷ tham số được tinh chỉnh cho toán học và STEM, phát triển cùng tổ chức phi lợi nhuận Project Numina.
• Mathstral đạt kết quả tốt nhất trong phân khúc kích thước của nó trên nhiều bài kiểm tra, bao gồm 63,47% trên MMLU và 56,6% trên MATH.
• Cả 3 mô hình đều được cấp phép Apache 2.0, cho phép sử dụng tự do.
• Các mô hình có sẵn để tải xuống trên Huggingface hoặc thông qua SDK mistral-inference của Mistral.
• NeMo và Mamba cũng có thể truy cập qua API la Plateforme của Mistral AI.
• NeMo được hỗ trợ bởi dịch vụ suy luận NIM của NVIDIA, trong khi Mamba có thể triển khai bằng TensorRT-LLM.
• Cộng đồng trên Hacker News thảo luận về tiềm năng của các mô hình này cho các ứng dụng như trợ lý lập trình ngoại tuyến, đồng thời cũng nêu ra một số lo ngại về yêu cầu phần cứng và rủi ro pháp lý khi sử dụng mô hình cục bộ cho tạo mã.
📌 Mistral AI đã tạo bước đột phá với 3 mô hình ngôn ngữ mã nguồn mở mạnh mẽ: NeMo 12B đa năng, Mamba 7B cho tạo mã nhanh, và Mathstral 7B cho toán học. Các mô hình này vượt trội so với đối thủ cùng cỡ, hỗ trợ đa ngôn ngữ và được cấp phép tự do, mở ra nhiều khả năng ứng dụng AI tạo sinh.
https://www.infoq.com/news/2024/08/mistral-ai-models/