Khi doanh nghiệp xây dựng các sản phẩm tạo sự khác biệt trên thị trường bằng AI, họ đang bắt đầu xây dựng "nhà máy AI" - những khoản đầu tư cơ sở hạ tầng quy mô lớn với khả năng tính toán hiệu suất cao, lưu trữ chuyên biệt và mạng được thiết kế cho đào tạo và suy luận khối lượng lớn.
Nhà máy AI ngày càng trở nên phức tạp với khả năng lập lịch và cung cấp động các tài nguyên giá trị cao như GPU cho nhiều nhóm và khối lượng công việc khác nhau. Quy mô tiếp nhận dữ liệu và đào tạo mô hình tạo ra lưu lượng đông-tây khổng lồ, trong khi suy luận thường liên quan đến lưu lượng bắc-nam.
Khi trung tâm dữ liệu bắt đầu mở rộng quy mô, các kiến trúc sư mạng nhận ra rằng việc cố gắng chạy dịch vụ trên mạng phẳng hoặc phân đoạn tối thiểu có thể dẫn đến nhiều vấn đề như hiệu suất và không thể thực thi chính sách.
Nhiều người thuê truy cập cùng một GPU hoặc tài nguyên tính toán có thể tạo ra vấn đề cô lập người thuê hoặc thậm chí bão hòa mạng. Việc giới thiệu phân đoạn mạng trong các cụm AI giúp quản lý quyền truy cập lưu lượng, ngăn chặn các vấn đề này.
Khi tất cả lưu lượng xuất phát từ một vài nút cụm, gần như không thể cô lập các mối đe dọa hoặc thực thi quyền truy cập tối thiểu. Ngoài ra, việc xác định nguyên nhân gốc rễ của các vấn đề về hiệu suất hoặc vi phạm bảo mật trở nên cực kỳ khó khăn và làm tăng độ phức tạp trong vận hành.
Phân đoạn mạng giải quyết những vấn đề này bằng cách cô lập hợp lý các khối lượng công việc, luồng dữ liệu và người thuê, mang lại nhiều lợi ích chính: bảo mật, hiệu suất và tuân thủ.
Về bảo mật, phân đoạn mạng giúp các nhóm bảo mật dễ dàng áp dụng chính sách, phát hiện bất thường và ngăn chặn vi phạm. Phương pháp này phù hợp với nguyên tắc zero trust và giảm bề mặt đe dọa.
Về hiệu suất, mạng phân đoạn giúp cân bằng tải lưu lượng và phân bổ tài nguyên hiệu quả hơn, điều quan trọng cho khối lượng công việc AI nơi thời gian đến hiểu biết là quan trọng.
Về tuân thủ, phân đoạn mạng giúp đơn giản hóa việc tuân thủ bằng cách đảm bảo dữ liệu nhạy cảm vẫn ở trong các vùng an toàn, trong khi khối lượng công việc ít nhạy cảm hơn có thể được phân đoạn trong các khu vực bảo mật thấp hơn.
Để tích hợp phân đoạn mạng hiệu quả, việc bảo toàn ngữ cảnh người thuê trên các mạng là điều cần thiết. Doanh nghiệp nên sử dụng các phương pháp như bộ điều phối hoặc proxy mạng chuyên dụng để giữ lại danh tính người thuê khi lưu lượng rời khỏi và quay lại cụm AI.
Việc áp dụng tăng tốc phần cứng như đơn vị xử lý dữ liệu (DPU) hoặc card giao diện mạng chuyên dụng có thể cải thiện hiệu suất và giải phóng tài nguyên tính toán, giúp GPU tập trung vào các tác vụ đào tạo và suy luận.
Đồng thời, việc tận dụng kiểm soát truy cập dựa trên vai trò (RBAC) và chính sách bảo mật tập trung là điều cần thiết. Nhà máy AI của bất kỳ tổ chức nào cần có vai trò được xác định rõ ràng giữa các nhóm mạng, bảo mật và kỹ thuật nền tảng.
Đầu tư vào khả năng quan sát và khắc phục sự cố đảm bảo nỗ lực phân đoạn mang lại ROI tích cực cho doanh nghiệp xây dựng nhà máy AI. Phân đoạn có thể trở nên hiệu quả nhất khi các nhóm giám sát và phản ứng với các vấn đề bảo mật và hiệu suất trong thời gian thực.
📌 Phân đoạn mạng là chiến lược nền tảng cho nhà máy AI hiện đại, giúp cô lập khối lượng công việc, bảo vệ danh tính người thuê và giảm bề mặt đe dọa. Doanh nghiệp áp dụng phương pháp này sẽ khai thác tiềm năng AI mà không ảnh hưởng đến hiệu suất hoặc bảo mật.
https://www.thefastmode.com/expert-opinion/40649-why-your-ai-factory-needs-a-network-segmentation-strategy