Mistral AI ra mắt Mixtral 8x22B - Mô hình AI mã nguồn mở mạnh mẽ với kiến trúc MoE thưa

- Mistral AI, một công ty khởi nghiệp AI mã nguồn mở có trụ sở tại Paris, đã ra mắt mô hình ngôn ngữ lớn mới nhất của mình, Mixtral 8x22B. Mô hình này được kỳ vọng sẽ vượt trội hơn mô hình trước đó của công ty, Mixtral 8x7B, vốn đã được đánh giá cao so với các đối thủ nổi tiếng như GPT-3.5 của OpenAI và Llama 2 của Meta Platforms Inc.

- Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, cho phép xử lý và tham chiếu một lượng lớn văn bản cùng lúc. Mô hình này cũng có kích thước tham số lên tới 176 tỷ, tức số lượng biến nội bộ mà nó sử dụng để đưa ra quyết định và dự đoán.

- Mistral AI được thành lập bởi các nhà nghiên cứu AI từ Google và Meta. Công ty đã huy động được 415 triệu đô la vào tháng 12 và được định giá hơn 2 tỷ đô la. Mixtral 8x22B được phát hành thông qua liên kết torrent trên nền tảng truyền thông xã hội X và sau đó có sẵn trên các nền tảng Hugging Face và Together AI.

- Mixtral 8x22B sử dụng kiến trúc "mixture-of-experts" (MoE) thưa, cho phép nó thực hiện tính toán hiệu quả và mang lại hiệu suất cao trên nhiều tác vụ khác nhau. Mặc dù có kích thước rất lớn, mô hình này chỉ yêu cầu khoảng 44 tỷ tham số hoạt động cho mỗi lần truyền tiến, giúp nó nhanh hơn và tiết kiệm chi phí hơn so với các mô hình có kích thước tương tự.

Kết luận: Việc ra mắt Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, kích thước tham số lên tới 176 tỷ là một cột mốc quan trọng cho AI tạo sinh mã nguồn mở. Tuy nhiên, Mistral AI cũng nhận một số chỉ trích vì không thể ngăn chặn việc sử dụng công nghệ của mình vào mục đích có hại.

 

https://siliconangle.com/2024/04/10/mistralai-debuts-mixtral-8x22b-one-powerful-open-source-ai-models-yet/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo