Alibaba vừa công bố ZeroSearch – công nghệ cho phép các mô hình ngôn ngữ lớn (LLM) mô phỏng kết quả tìm kiếm mà không cần kết nối internet hoặc API của các công cụ như Google hay Bing.
Thay vì gửi truy vấn tới máy chủ tìm kiếm thực, ZeroSearch huấn luyện mô hình tạo ra tài liệu “giả lập” gồm cả nội dung hữu ích và nhiễu dựa trên truy vấn đầu vào.
Phương pháp này sử dụng kỹ thuật huấn luyện có giám sát nhẹ và chiến lược "curriculum rollout" – cho mô hình làm quen từ dữ liệu đơn giản đến phức tạp, mô phỏng quá trình người dùng xử lý thông tin hỗn tạp từ internet.
Alibaba nhận định các LLM hiện nay đã có nền tảng kiến thức rộng và đủ khả năng “tự tạo” tài liệu liên quan, giúp chúng trở nên linh hoạt hơn mà không cần truy cập dữ liệu trực tuyến thực tế.
Ưu điểm nổi bật nhất của ZeroSearch là tiết kiệm chi phí huấn luyện AI. Với 64.000 truy vấn, chi phí qua SerpAPI là 586,70 USD, trong khi ZeroSearch chỉ tốn 70,80 USD với mô hình 14B chạy trên 4 GPU A100 – giảm đến 88%.
Trong thử nghiệm, mô hình 7B sử dụng ZeroSearch cho kết quả tương đương Google Search, trong khi mô hình 14B thậm chí vượt trội Google về hiệu năng truy xuất.
ZeroSearch tương thích với nhiều loại LLM như Qwen-2.5, LLaMA-3.2, và hoạt động tốt trên cả mô hình gốc lẫn mô hình đã được tinh chỉnh theo hướng dẫn.
Hệ thống hỗ trợ nhiều thuật toán học tăng cường (Reinforcement Learning) như PPO, GRPO và Reinforce++, giúp linh hoạt trong áp dụng.
Toàn bộ mã nguồn, mô hình huấn luyện và tập dữ liệu ZeroSearch đã được công bố công khai trên GitHub và Hugging Face, góp phần vào hệ sinh thái AI nguồn mở toàn cầu.
Bước đi này của Alibaba đặt nền móng cho một tương lai AI “tự lực” – có thể tìm kiếm, tổng hợp thông tin mà không phụ thuộc vào hệ sinh thái Google hoặc chi phí API đắt đỏ.
Trong khi OpenAI hay Google Gemini vẫn dùng dữ liệu trực tuyến hoặc tích hợp tìm kiếm, ZeroSearch hướng đến mô hình AI “đóng” mà vẫn hiệu quả và rẻ hơn.
📌 ZeroSearch của Alibaba đánh dấu bước đột phá khi cắt 88% chi phí huấn luyện AI, thay thế tìm kiếm thực bằng mô phỏng truy vấn thông minh. Mô hình 14B thậm chí vượt hiệu năng Google Search, hoạt động tốt trên nhiều nền tảng LLM và hoàn toàn không cần kết nối internet. Với mã nguồn mở trên GitHub và Hugging Face, ZeroSearch mở ra kỷ nguyên AI tiết kiệm, mạnh mẽ và độc lập.
https://www.techrepublic.com/article/news-alibaba-zerosearch-ai-training-costs/