Google DeepMind ra mắt Game Arena: sân chơi AI so tài chiến lược để đo trí tuệ thật sự

  • Google DeepMind và Kaggle vừa giới thiệu Game Arena, nền tảng nguồn mở mới nhằm đánh giá mô hình AI qua trò chơi chiến lược trong môi trường có điều kiện thắng rõ ràng và cạnh tranh công bằng.

  • Các benchmark truyền thống ngày càng ít hiệu quả khi AI tiến gần đến 100% độ chính xác, dẫn đến nguy cơ "học vẹt" từ dữ liệu huấn luyện. Game Arena giải quyết bằng cách đặt các mô hình AI đối đầu trực tiếp trong trò chơi.

  • Game Arena được xây dựng trên nền tảng Kaggle, sử dụng hệ thống "all-play-all" (mọi mô hình đấu với nhau nhiều lần) để đảm bảo kết quả thống kê vững chắc và xếp hạng khách quan.

  • Các trò chơi được sử dụng như cờ vua, Go, poker… buộc mô hình phải thể hiện lập luận chiến lược, lập kế hoạch dài hạn và khả năng thích ứng. Đây là các kỹ năng tương tự như giải quyết bài toán phức tạp trong thực tế.

  • Các mô hình hiện tại như Gemini 2.5 Pro sẽ thi đấu cờ vua, nhưng tương lai nền tảng sẽ mở rộng sang nhiều game mới, bao gồm cả video game.

  • So với các engine chuyên biệt như Stockfish hay AlphaZero, LLM hiện tại còn yếu khi chơi game, nhưng mục tiêu dài hạn là vượt qua những giới hạn này bằng việc huấn luyện trên các môi trường mới liên tục.

  • Sự kiện cờ vua đầu tiên sẽ diễn ra vào 10h30 sáng ngày 5/8 (giờ Thái Bình Dương), với 8 mô hình AI đối đầu theo thể thức loại trực tiếp. Các trận đấu sẽ được phát sóng kèm bình luận từ chuyên gia cờ hàng đầu.

  • Dữ liệu cuối cùng sẽ dựa trên hàng trăm trận đấu và công bố bảng xếp hạng chính thức sau triển lãm.


📌 Game Arena từ DeepMind và Kaggle là bước đột phá trong đánh giá AI: thay vì bài kiểm tra tĩnh, các mô hình được đặt trong môi trường trò chơi chiến lược có thể đo lường, công bằng và mở rộng. Sự kiện cờ vua ngày 5/8 đánh dấu khởi đầu cho hệ thống benchmark sống động, nơi AI phải thực sự "nghĩ" để thắng.

https://blog.google/technology/ai/kaggle-game-arena/

Không có file đính kèm.

29

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo