• Nghiên cứu mới từ DeepMind và Đại học California, Berkeley khám phá cách cải thiện hiệu suất của mô hình ngôn ngữ lớn (LLM) bằng cách phân bổ chiến lược tài nguyên tính toán trong quá trình suy luận.
• Mục tiêu là tối ưu hóa việc sử dụng tính toán thời gian suy luận để LLM đạt được cải thiện hiệu suất đáng kể mà không cần mô hình lớn hơn hoặc đào tạo trước mở rộng.
• Các nhà nghiên cứu định nghĩa "chiến lược tối ưu hóa tính toán thời gian kiểm tra" là chiến lược chọn siêu tham số tương ứng với chiến lược thời gian kiểm tra cho lợi ích hiệu suất tối đa trên một prompt nhất định.
• Hai chiến lược chính được khám phá:
1) Sửa đổi phân phối đề xuất: tinh chỉnh LLM để lặp đi lặp lại sửa đổi câu trả lời trong các tình huống dựa trên lập luận phức tạp.
2) Tối ưu hóa trình xác minh: đào tạo mô hình phần thưởng dựa trên quy trình để đánh giá tính chính xác của từng bước trong câu trả lời.
• Các thử nghiệm được thực hiện trên MATH benchmark sử dụng mô hình PaLM-2.
• Đối với các vấn đề dễ hơn, cho phép mô hình lặp đi lặp lại tinh chỉnh câu trả lời ban đầu hiệu quả hơn việc tạo nhiều mẫu song song.
• Đối với các vấn đề khó hơn, lấy mẫu lại nhiều phản hồi song song hoặc triển khai tìm kiếm cây đối với mô hình phần thưởng dựa trên quy trình hiệu quả hơn.
• Bằng cách phân bổ thích hợp tính toán thời gian kiểm tra, hiệu suất được cải thiện đáng kể, vượt qua baseline best-of-N trong khi chỉ sử dụng khoảng 25% tính toán.
• So sánh mô hình nhỏ hơn với tính toán thời gian kiểm tra bổ sung và mô hình lớn hơn 14 lần với nhiều đào tạo trước hơn:
- Đối với câu hỏi dễ và trung bình, mô hình nhỏ hơn hoạt động tương đương với mô hình lớn hơn.
- Đối với câu hỏi khó nhất, tính toán đào tạo trước bổ sung hiệu quả hơn.
• Nghiên cứu gợi ý rằng việc mở rộng quy mô tính toán thời gian kiểm tra có thể thay thế một phần việc mở rộng quy mô đào tạo trước trong một số trường hợp.
• Hướng nghiên cứu trong tương lai bao gồm khám phá các chiến lược phức tạp hơn kết hợp các kỹ thuật sửa đổi và tìm kiếm khác nhau, phát triển các phương pháp hiệu quả hơn để ước tính độ khó của câu hỏi.
📌 Nghiên cứu của DeepMind và UC Berkeley cho thấy tối ưu hóa tính toán thời gian suy luận có thể cải thiện đáng kể hiệu suất LLM mà không cần mô hình lớn hơn. Phương pháp này có thể thay thế một phần việc mở rộng quy mô đào tạo trước, tiết kiệm tài nguyên trong khi vẫn đạt hiệu suất tương đương.
https://venturebeat.com/ai/deepmind-and-uc-berkeley-shows-how-to-make-the-most-of-llm-inference-time-compute/