Google DeepMind công bố Gemini Robotics On-Device, mô hình AI Vision-Language-Action (VLA) mới cho phép robot hoạt động hoàn toàn không cần cloud, xử lý tác vụ với độ chính xác cao và phản ứng tức thì.
Carolina Parada, Giám đốc bộ phận Robotics của Google DeepMind, cho biết mô hình này giúp robot trở nên đáng tin cậy hơn trong môi trường phức tạp hoặc mất kết nối.
Trước đây, Gemini Robotics hoạt động theo mô hình lai: mô hình nhỏ chạy trên thiết bị kết hợp với mô hình lớn trên cloud. Giờ đây, bản On-Device có thể chạy độc lập với hiệu suất gần tương đương.
AI tạo sinh giúp robot có thể xử lý các nhiệm vụ hoàn toàn mới dựa trên khả năng hiểu đa phương thức từ Gemini, tương tự như cách AI có thể sinh văn bản, hình ảnh hay viết code.
Google phát hành mô hình kèm theo SDK đầy đủ, cho phép các nhà phát triển tùy chỉnh robot với chỉ 50-100 lần "demonstration" (trình diễn điều khiển thủ công để huấn luyện).
Mô hình này có thể xử lý tốt các tác vụ phức tạp về thao tác như buộc dây giày hoặc gấp áo—những nhiệm vụ từng rất khó đối với AI robot. Tuy nhiên, các tác vụ đa bước phức tạp như làm sandwich vẫn cần mô hình mạnh hơn.
On-Device phù hợp cho môi trường hạn chế kết nối hoặc yêu cầu cao về quyền riêng tư, như bệnh viện hoặc các cơ sở công nghiệp.
Để đảm bảo an toàn, Google sử dụng cấu trúc ba lớp: mô hình Gemini để tư duy và đánh giá an toàn, VLA để sinh ra các phương án hành động, và bộ điều khiển thấp đảm nhận các kiểm soát vật lý như lực, tốc độ và giới hạn chuyển động.
Tuy nhiên, bản On-Device chỉ là VLA nên các nhà phát triển cần tự xây dựng hệ thống an toàn. Google khuyến nghị nên tích hợp với API Gemini Live để bổ sung lớp an toàn và sử dụng bộ điều khiển vật lý có kiểm soát.
Mô hình Gemini Robotics hiện tại vẫn dựa trên Gemini 2.0, trong khi chatbot đã chuyển sang Gemini 2.5 với nhiều cải tiến vượt bậc, hứa hẹn thế hệ robot tiếp theo còn mạnh hơn nữa.
Chương trình thử nghiệm hiện đang mở cho các nhà phát triển đăng ký tham gia Trusted Tester Program của Google.
📌 Google khiến giới công nghệ bất ngờ với Gemini Robotics On-Device: robot AI hoạt động không cần cloud, vẫn có thể tự buộc dây giày, gấp áo với chỉ 50-100 lần huấn luyện. Độ chính xác gần bằng mô hình cloud, tốc độ phản hồi cực nhanh và ưu tiên quyền riêng tư. Tuy nhiên, yếu tố an toàn yêu cầu nhà phát triển tự xây dựng thêm. AI robot của Google chính thức bước sang kỷ nguyên độc lập.
https://arstechnica.com/google/2025/06/google-releases-first-cloud-free-ai-robotics-model/