Khám phá cụm máy tính siêu cấp AI Colossus của Elon Musk với 100.000 GPU

• Siêu máy tính AI Colossus của xAI đã hoàn thành sau 122 ngày lắp đặt và hoạt động được gần 2 tháng

• Cấu trúc phần cứng:
- Mỗi máy chủ GPU sử dụng Nvidia HGX H100 chứa 8 GPU H100
- Mỗi rack chứa 8 máy chủ (64 GPU/rack)
- Tổng cộng hơn 1.500 rack GPU, xấp xỉ 200 dãy rack
- Lắp đặt 100.000 GPU chỉ trong 3 tuần

• Hệ thống làm mát:
- Sử dụng công nghệ làm mát bằng chất lỏng
- Mỗi máy chủ có hệ thống làm mát hot-swappable
- Có manifold 1U giữa các HGX H100
- Mỗi rack có hệ thống bơm dự phòng

• Kết nối mạng:
- Mỗi card đồ họa có NIC riêng 400GbE
- Mỗi máy chủ có thêm NIC 400Gb
- Tổng băng thông mỗi máy chủ HGX H100 đạt 3,6 Terabit/giây
- Sử dụng kết nối Ethernet thay vì InfiniBand

• Nguồn điện:
- Mỗi máy chủ có 4 nguồn điện dự phòng
- Sử dụng pin Tesla Megapack (3,9 MWh/pin) làm bộ đệm năng lượng
- 14 máy phát diesel được lắp đặt vào tháng 7

• Kế hoạch nâng cấp:
- Giai đoạn tiếp theo sẽ thêm 50.000 GPU H100 và 50.000 GPU H200
- Mục tiêu cuối cùng là đạt 300.000 GPU H200

📌 Colossus là siêu máy tính AI lớn nhất thế giới với 100.000 GPU H100, được sử dụng để huấn luyện chatbot Grok 3 và các mô hình AI tương lai. Hệ thống có kiến trúc độc đáo với làm mát bằng chất lỏng và băng thông mạng 3,6 Terabit/giây cho mỗi máy chủ.

https://www.tomshardware.com/desktops/servers/first-in-depth-look-at-elon-musks-100-000-gpu-ai-cluster-xai-colossus-reveals-its-secrets

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo