Đội ngũ gồm cựu nghiên cứu viên DeepSeek, Microsoft, Stanford, Northwestern, University of Washington vừa công bố RAGEN – phương pháp huấn luyện và đánh giá AI agent mới, giúp tăng độ tin cậy, giảm hiện tượng "sập" khi huấn luyện reinforcement learning.
RAGEN tập trung vào các tình huống tương tác đa lượt, nơi AI phải thích nghi, ghi nhớ và suy luận trong điều kiện bất định, thay vì chỉ giải quyết tác vụ tĩnh như toán học hay sinh mã code.
Framework cốt lõi StarPO (State-Thinking-Actions-Reward Policy Optimization) gồm hai pha: rollout (AI tạo ra chuỗi tương tác hoàn chỉnh có suy luận) và update (tối ưu hóa dựa trên tổng thưởng chuẩn hóa), giúp quá trình học ổn định, dễ giải thích hơn so với phương pháp PPO truyền thống.
Đội ngũ sử dụng các biến thể Qwen 1.5 và Qwen 2.5 (nguồn mở, khả năng tuân thủ chỉ dẫn tốt) làm nền tảng cho mọi thử nghiệm, đảm bảo khả năng so sánh và tái lập.
RAGEN kiểm tra AI agent qua ba môi trường: Bandit (rủi ro-ngắn hạn), Sokoban (giải đố nhiều lượt, quyết định không thể đảo ngược), Frozen Lake (kế hoạch thích nghi, ngẫu nhiên), tập trung vào khả năng ra quyết định, không dựa vào kiến thức thực tế.
Vấn đề lớn là "Echo Trap": AI ban đầu suy luận tốt, nhưng RL truyền thống thưởng cho các lối tắt, khiến AI lặp lại hành vi, mất khả năng suy luận – biểu hiện qua biến động thưởng, gradient spike, mất dấu vết suy luận.
Để khắc phục, nhóm phát triển StarPO-S với ba cải tiến: lọc rollout dựa vào độ bất định, loại bỏ KL penalty (cho phép AI khám phá tự do hơn), PPO clipping bất đối xứng (tăng cường học từ chuỗi thưởng cao). Kết quả: giảm hoặc loại bỏ hiện tượng sập, tăng hiệu suất trên cả ba bài toán.
Ba yếu tố then chốt giúp RL ổn định: đa dạng tình huống ban đầu, cho phép nhiều hành động mỗi lượt, và làm mới dữ liệu rollout liên tục để tránh học từ tín hiệu lỗi thời.
Demo trực quan trên Github cho phép quan sát toàn bộ quá trình suy nghĩ – hành động của AI, tăng minh bạch.
Tuy nhiên, dấu vết suy luận dễ mất đi trong các bài toán nhiều lượt nếu không có thưởng trực tiếp cho quá trình này, cho thấy cần thiết kế thưởng tinh vi hơn.
RAGEN, StarPO, StarPO-S đã công bố nguồn mở trên Github, nhưng chưa có license rõ ràng, có thể hạn chế quyền sử dụng.
RAGEN dễ dàng mở rộng môi trường mới, phù hợp cho doanh nghiệp muốn tự thiết kế bài toán huấn luyện AI agent.
Thách thức còn lại: khả năng mở rộng cho các tác vụ thực tế, duy trì suy luận lâu dài, thiết kế thưởng phù hợp cho các workflow doanh nghiệp.
📌 RAGEN là phương pháp RL mới giúp AI agent suy luận tốt hơn, chống sập khi huấn luyện, thử nghiệm thành công trên Qwen, ba môi trường khác nhau. Framework StarPO-S cải thiện hiệu suất, tăng minh bạch, dễ mở rộng môi trường mới, đã công bố nguồn mở nhưng chưa có license rõ ràng.
https://venturebeat.com/ai/former-deepseeker-and-collaborators-release-new-method-for-training-reliable-ai-agents-ragen/