• Siêu máy tính AI Colossus của xAI đã hoàn thành sau 122 ngày lắp đặt và hoạt động được gần 2 tháng
• Cấu trúc phần cứng:
- Mỗi máy chủ GPU sử dụng Nvidia HGX H100 chứa 8 GPU H100
- Mỗi rack chứa 8 máy chủ (64 GPU/rack)
- Tổng cộng hơn 1.500 rack GPU, xấp xỉ 200 dãy rack
- Lắp đặt 100.000 GPU chỉ trong 3 tuần
• Hệ thống làm mát:
- Sử dụng công nghệ làm mát bằng chất lỏng
- Mỗi máy chủ có hệ thống làm mát hot-swappable
- Có manifold 1U giữa các HGX H100
- Mỗi rack có hệ thống bơm dự phòng
• Kết nối mạng:
- Mỗi card đồ họa có NIC riêng 400GbE
- Mỗi máy chủ có thêm NIC 400Gb
- Tổng băng thông mỗi máy chủ HGX H100 đạt 3,6 Terabit/giây
- Sử dụng kết nối Ethernet thay vì InfiniBand
• Nguồn điện:
- Mỗi máy chủ có 4 nguồn điện dự phòng
- Sử dụng pin Tesla Megapack (3,9 MWh/pin) làm bộ đệm năng lượng
- 14 máy phát diesel được lắp đặt vào tháng 7
• Kế hoạch nâng cấp:
- Giai đoạn tiếp theo sẽ thêm 50.000 GPU H100 và 50.000 GPU H200
- Mục tiêu cuối cùng là đạt 300.000 GPU H200
📌 Colossus là siêu máy tính AI lớn nhất thế giới với 100.000 GPU H100, được sử dụng để huấn luyện chatbot Grok 3 và các mô hình AI tương lai. Hệ thống có kiến trúc độc đáo với làm mát bằng chất lỏng và băng thông mạng 3,6 Terabit/giây cho mỗi máy chủ.
https://www.tomshardware.com/desktops/servers/first-in-depth-look-at-elon-musks-100-000-gpu-ai-cluster-xai-colossus-reveals-its-secrets