- Cerebras Systems đã ra mắt chip CS-3 thế hệ thứ ba vào mùa xuân năm 2024, đánh dấu một bước đột phá trong lĩnh vực AI inference.
- Chip CS-3 sử dụng công nghệ Wafer-Scale Engine (WSE), có kích thước lớn gấp 56 lần GPU lớn nhất hiện nay và chứa 4 triệu tỷ transistor.
- CS-3 có khả năng xử lý 1.800 token mỗi giây cho mô hình Llama 3.1 8B, nhanh hơn nhiều so với các giải pháp dựa trên GPU hiện tại.
- Dự báo thị trường AI inference sẽ đạt 90,6 tỷ USD vào năm 2030, cho thấy nhu cầu ngày càng tăng về công nghệ này.
- Cerebras có giá khởi điểm chỉ 0.10 USD cho mỗi triệu token, tạo ra một lựa chọn cạnh tranh cho các doanh nghiệp.
- Công ty đã nhận được sự chú ý từ các lãnh đạo ngành như Kim Branson từ GlaxoSmithKline và Denis Yarats từ Perplexity nhờ vào tốc độ và hiệu suất vượt trội của CS-3.
- Cerebras đang đối mặt với sự cạnh tranh từ Nvidia và Groq; Nvidia vẫn là nhà cung cấp hàng đầu nhưng đang bị thách thức bởi các sản phẩm mới.
- Groq cũng cung cấp một đơn vị xử lý ngôn ngữ (LPU) tập trung vào AI inference, tuy nhiên không đạt được tốc độ của Cerebras.
- Các doanh nghiệp cần đánh giá lại khối lượng công việc AI của họ để xem liệu họ có thể tận dụng lợi thế từ các chip chuyên dụng như CS-3 hay không.
- Cerebras Cloud cung cấp mô hình giá linh hoạt cho phép người dùng thử nghiệm công nghệ mới mà không cần đầu tư lớn ban đầu.
📌 Các chip chuyên dụng như Cerebras CS-3 đang thay đổi cách thức xử lý AI inference với hiệu suất vượt trội và chi phí hợp lý. Doanh nghiệp nên cân nhắc chuyển đổi để tận dụng những lợi ích này trong bối cảnh thị trường AI ngày càng phát triển.
https://venturebeat.com/ai/how-cerebras-is-breaking-the-gpu-bottleneck-on-ai-inference/