Deep Research Agent - thế hệ AI mới kết hợp LLM với khả năng lập kế hoạch, suy luận, truy xuất dữ liệu

  • Deep Research (DR) Agent là thế hệ AI từ cốt lõi dựa trên mô hình ngôn ngữ lớn (LLM) với khả năng lập kế hoạch linh hoạt, truy xuất nhiều vòng, sử dụng công cụ liên tục và tạo báo cáo phân tích có cấu trúc.

  • DR Agent vượt xa phương pháp Retrieval-Augmented Generation (RAG) truyền thống bằng khả năng suy luận sâu, lập kế hoạch dài hạn, truy xuất đa nguồn và sử dụng công cụ phức tạp.

  • Hai phương pháp truy xuất chính: API-based (truy xuất nhanh, có cấu trúc) và Browser-based (truy xuất nội dung động, phức tạp từ web).

  • Công cụ tích hợp gồm: Code Interpreter, Data Analytics và xử lý Multimodal (text, hình ảnh, audio, video).

  • Các kiến trúc workflow chia thành:

    • Static workflow: chuỗi nhiệm vụ cố định (ví dụ AI Scientist, Agent Laboratory).

    • Dynamic workflow: lập kế hoạch và phân bổ nhiệm vụ động, phù hợp với các tình huống phức tạp, gồm single-agent hoặc multi-agent.

  • Giao thức Model Context Protocol (MCP) và Agent-to-Agent (A2A) giúp DR Agents tương tác với công cụ và các agent khác một cách tiêu chuẩn hóa và mở rộng.

  • Các kỹ thuật tối ưu hóa gồm: Prompt Engineering, Supervised Fine-tuning (SFT) và Reinforcement Learning (RL). Đặc biệt, Group Relative Policy Optimization (GRPO) vượt trội hơn PPO trong tối ưu RL.

  • Non-parametric continual learning giúp agent tự học và tiến hóa bằng cách cập nhật bộ nhớ ngoài và workflow thay vì thay đổi trọng số mô hình.

  • Ứng dụng mạnh mẽ trong công nghiệp: OpenAI DR, Gemini DR, Perplexity DR, Grok DeepSearch, Microsoft Copilot Researcher & Analyst, Qwen Deep Research.

  • Các benchmark nổi bật gồm: GAIA, HotpotQA, 2WikiMultiHopQA, HLE (Humanity’s Last Exam) — thước đo quan trọng cho khả năng suy luận chuyên sâu.

  • Agent nổi bật đạt hiệu suất cao trên benchmark GAIA: H2O.ai DR (79.73%), Alita (75.42%), Gemini DR (trên 75%).


📌 Deep Research Agent đang trở thành trụ cột công nghệ AI mới, vượt qua giới hạn của RAG và các chatbot truyền thống. Với khả năng lập kế hoạch động, truy xuất đa nguồn, sử dụng công cụ code, data và multimodal, cùng các kỹ thuật tối ưu như RL và Non-parametric continual learning, các agent như OpenAI DR, Gemini DR và Grok đạt hiệu suất cao trên benchmark GAIA (tới 79.73%). Đây là hướng phát triển cốt lõi cho nền tảng AI trong thập kỷ tới.

 

https://arxiv.org/html/2506.18096v1

Không có file đính kèm.

29

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo