- Startup AI Cerebras ra mắt WSE-3, chip lớn nhất từ trước đến nay cho AI tạo sinh. Chip có kích thước bằng một tấm bán dẫn wafer, tăng gấp đôi hiệu năng để xử lý các mô hình ngôn ngữ lớn với hàng chục nghìn tỷ tham số.
- WSE-3 tăng gấp đôi tốc độ thực hiện lệnh, từ 62,5 petaFLOPS lên 125 petaFLOPS. Nó thu nhỏ bóng bán dẫn từ 7nm xuống 5nm, tăng số lượng bóng bán dẫn từ 2,6 nghìn tỷ trong WSE-2 lên 4 nghìn tỷ.
- WSE-3 có kích thước gấp 57 lần GPU H100 của Nvidia, có 52 lần số lõi, 800 lần bộ nhớ trên chip, băng thông bộ nhớ gấp 7.000 lần và băng thông fabric gấp hơn 3.700 lần.
- Máy tính CS-3 của Cerebras với WSE-3 có thể xử lý mô hình ngôn ngữ lớn lý thuyết 24 nghìn tỷ tham số, gấp 10 lần các công cụ AI tạo sinh hàng đầu như GPT-4 của OpenAI.
- Một cụm 2.048 CS-3 có thể huấn luyện mô hình ngôn ngữ lớn Llama 2 70 tỷ tham số của Meta nhanh hơn 30 lần so với cụm huấn luyện AI của Meta: 1 ngày so với 30 ngày.
- Cerebras hợp tác với Qualcomm để sử dụng bộ xử lý AI 100 cho quá trình suy luận (inference), áp dụng 4 kỹ thuật để giảm chi phí suy luận như loại bỏ 80% tính toán không cần thiết, sử dụng phiên bản nhỏ hơn của mô hình để dự đoán và phiên bản lớn hơn để kiểm tra, chuyển đổi đầu ra thành MX6 chỉ cần một nửa bộ nhớ, chọn tập hợp con các tham số để biên dịch và chạy trên AI 100.
- Thị trường suy luận được dự kiến sẽ trở thành trọng tâm của cuộc chạy đua vũ trang trong AI khi suy luận chuyển từ trung tâm dữ liệu ra các thiết bị biên (edge) như máy chủ doanh nghiệp và thiết bị di động.
📌 Chip WSE-3 mới của Cerebras tăng gấp đôi hiệu năng lên 125 petaFLOPS, có 4 nghìn tỷ bóng bán dẫn, vượt trội so với GPU H100 của Nvidia. Nó có thể xử lý mô hình ngôn ngữ 24 nghìn tỷ tham số và huấn luyện Llama 2 nhanh hơn 30 lần so với Meta. Cerebras cũng hợp tác với Qualcomm để tối ưu hóa quá trình suy luận trên chip AI 100, hướng tới thị trường thiết bị biên đang phát triển.
Citations:
[1]https://www.zdnet.com/article/ai-startup-cerebras-unveils-the-largest-chip-yet-for-generative-ai/