- Azure đã phát triển từ sử dụng một thiết kế máy chủ tiêu chuẩn duy nhất đến nhiều loại máy chủ khác nhau, bao gồm GPU và bộ tăng tốc AI.
- Quy mô của các hệ thống cần thiết để chạy các nền tảng AI này là rất lớn. Siêu máy tính huấn luyện AI đầu tiên của Microsoft có 10.000 GPU Nvidia V100 và xếp thứ 5 trong bảng xếp hạng siêu máy tính toàn cầu. Đến tháng 11/2023, phiên bản mới nhất có 14.400 GPU H100 và xếp thứ 3.
- Tính đến tháng 6/2024, Microsoft có hơn 30 siêu máy tính tương tự trên toàn thế giới. Mô hình nguồn mở Llama-3-70B cần 6,4 triệu giờ GPU để huấn luyện, tương đương 730 năm trên một GPU. Nhưng với siêu máy tính AI của Microsoft, một lần chạy huấn luyện chỉ mất khoảng 27 ngày.
- Microsoft đã phát triển bộ tăng tốc suy luận Maia của riêng mình, sử dụng hệ thống làm mát chất lỏng kín mới. Project POLCA của Azure nhằm tăng hiệu quả bằng cách cho phép nhiều hoạt động suy luận chạy cùng lúc.
- Microsoft đã đầu tư đáng kể vào các kết nối InfiniBand băng thông cao, sử dụng 1,2TBps kết nối nội bộ trong máy chủ và 400Gbps giữa các GPU riêng lẻ trong các máy chủ khác nhau.
- Project Forge cung cấp công cụ quản lý tài nguyên và lan truyền tải trên các loại tính toán AI khác nhau. Nó xem tất cả các bộ tăng tốc AI có sẵn trong Azure như một nhóm duy nhất, gọi là One Pool.
- Project Flywheel có thể đảm bảo hiệu suất bằng cách xen kẽ các hoạt động từ nhiều lời nhắc trên các GPU ảo. Azure hiện có thể có VM bảo mật hoàn toàn, bao gồm cả GPU, với các thông điệp được mã hóa giữa CPU và môi trường thực thi đáng tin cậy của GPU.
📌 Microsoft đang đầu tư mạnh mẽ vào cơ sở hạ tầng và nền tảng AI, với hơn 30 siêu máy tính trên toàn cầu, mỗi máy có tới 14.400 GPU H100. Các công nghệ như bộ tăng tốc suy luận Maia, mạng InfiniBand 1,2TBps, Project Forge và Project Flywheel giúp tăng hiệu quả, độ tin cậy và bảo mật cho cả quá trình huấn luyện và suy luận AI quy mô lớn.
https://www.infoworld.com/article/3715661/inside-todays-azure-ai-cloud-data-centers.html