Alibaba ra mắt QwenLong-L1 – khung RL mới giúp LLM xử lý và suy luận từ văn bản cực dài

  • Alibaba ra mắt QwenLong-L1, một khung học tăng cường (reinforcement learning - RL) giúp mô hình ngôn ngữ lớn (LLM) giải quyết bài toán suy luận với văn bản siêu dài – thách thức mà các AI hiện tại như GPT hay Gemini vẫn gặp khó khăn.

  • Trong khi nhiều mô hình chỉ hiệu quả với văn bản khoảng 4.000 tokens, QwenLong-L1 xử lý được ngữ cảnh lên đến 120.000 tokens, phù hợp với tài liệu pháp lý, báo cáo tài chính và hợp đồng phức tạp trong doanh nghiệp.

  • QwenLong-L1 triển khai 3 giai đoạn huấn luyện:

    • Supervised Fine-Tuning (SFT): tạo nền tảng hiểu ngữ cảnh dài.

    • Curriculum-Guided RL: tăng độ dài văn bản theo từng giai đoạn, giúp mô hình thích nghi ổn định.

    • Retrospective Sampling: ưu tiên học từ các bài toán khó để cải thiện khả năng suy luận đa bước.

  • Cơ chế phần thưởng kết hợp kiểm chứng chặt chẽ (rule-based) và đánh giá ngữ nghĩa (LLM-as-a-judge), giúp AI đưa ra đáp án chính xác mà vẫn linh hoạt trong diễn đạt.

  • QwenLong-L1-32B đạt hiệu suất ngang ngửa Claude 3.7 Sonnet Thinking, vượt OpenAI o3-mini, Qwen3-235B-A22B, Gemini 2.0 Flash Thinking – dù kích thước mô hình nhỏ hơn.

  • Các kỹ năng đặc biệt hình thành sau RL gồm: grounding (liên kết câu trả lời với nguồn văn bản), subgoal setting (phân rã câu hỏi), backtracking (quay lại sửa sai) và verification (tự kiểm tra kết quả).

  • Thực nghiệm trong các tác vụ hỏi-đáp tài liệu dài (DocQA) cho thấy mô hình xử lý hiệu quả, loại bỏ thông tin gây nhiễu và dẫn đến câu trả lời chính xác hơn.

  • Ứng dụng tiềm năng: phân tích hồ sơ pháp lý, đánh giá rủi ro tài chính, hỗ trợ khách hàng từ lịch sử tương tác dài. Alibaba đã công khai mã nguồn và trọng số của mô hình.


📌 QwenLong-L1 của Alibaba đánh dấu bước đột phá trong xử lý văn bản siêu dài, giúp AI hiểu sâu và suy luận logic trên hàng trăm nghìn tokens. Mô hình 32B của họ vượt qua Gemini 2.0 Flash Thinking và sánh ngang Claude 3.7, mở ra tương lai cho ứng dụng AI trong tài chính, pháp lý và doanh nghiệp.

https://venturebeat.com/ai/qwenlong-l1-solves-long-context-reasoning-challenge-that-stumps-current-llms/

Không có file đính kèm.

100

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo