- Hugging Face công bố nghiên cứu mới chứng minh mô hình Llama 3 chỉ với 3B tham số có thể vượt trội hơn phiên bản 70B trong việc giải quyết bài toán phức tạp
- Kỹ thuật này được lấy cảm hứng từ OpenAI o1, tập trung vào việc mở rộng quy mô tính toán trong thời gian kiểm thử
- Các phương pháp suy luận chính được sử dụng:
+ Majority voting: Gửi cùng một prompt nhiều lần và chọn câu trả lời được bình chọn nhiều nhất
+ Best-of-N: Sử dụng mô hình đánh giá để chọn câu trả lời tốt nhất từ nhiều phương án
+ Weighted Best-of-N: Phiên bản cải tiến có tính đến độ nhất quán của câu trả lời
- Nghiên cứu đã sử dụng process reward model (PRM) để đánh giá không chỉ kết quả cuối cùng mà còn cả quá trình suy luận
- Các thuật toán tìm kiếm được tích hợp:
+ Beam search: Hướng dẫn mô hình tạo câu trả lời theo từng bước
+ Diverse Verifier Tree Search (DVTS): Đảm bảo đa dạng hóa các nhánh phản hồi
+ Chiến lược mở rộng quy mô tối ưu: Lựa chọn phương pháp phù hợp dựa trên độ khó của bài toán
- Hạn chế của kỹ thuật:
+ Cần sử dụng mô hình PRM riêng biệt để xác minh
+ Chỉ hiệu quả với các bài toán có thể đánh giá rõ ràng như lập trình và toán học
+ Chưa phù hợp với các tác vụ mang tính chủ quan như viết sáng tạo
📌 Hugging Face đã chứng minh mô hình ngôn ngữ 3B có thể đạt hiệu suất vượt trội hơn mô hình 70B trong giải toán phức tạp nhờ kỹ thuật mở rộng quy mô thời gian kiểm thử. Tuy nhiên, phương pháp này vẫn cần một mô hình PRM riêng biệt và chỉ hiệu quả với các bài toán có thể đánh giá khách quan.
https://venturebeat.com/ai/hugging-face-shows-how-test-time-scaling-helps-small-language-models-punch-above-their-weight/
Hugging Face chỉ ra cách mở rộng khả năng tính toán trong thời gian kiểm tra giúp các mô hình ngôn ngữ nhỏ đạt hiệu suất vượt trội
Ben Dickson
@BenDee983
Ngày 20/12/2024, 12:46 PM
Trong một nghiên cứu mới, các nhà nghiên cứu từ Hugging Face đã chứng minh cách các mô hình ngôn ngữ nhỏ (SLM) có thể được cấu hình để vượt trội hơn so với các mô hình lớn hơn nhiều. Phát hiện của họ cho thấy mô hình Llama 3 với 3 tỷ tham số có thể vượt qua phiên bản 70 tỷ của cùng mô hình trong các bài toán toán học phức tạp.
Hugging Face đã ghi chép toàn bộ quy trình và cung cấp lộ trình cho các doanh nghiệp muốn tạo ra các mô hình suy luận tùy chỉnh của riêng mình.
Công trình này lấy cảm hứng từ OpenAI o1, sử dụng thêm "khả năng suy nghĩ" để giải các bài toán phức tạp về toán học, lập trình và suy luận.
Ý tưởng chính của các mô hình như o1 là mở rộng "khả năng tính toán trong thời gian kiểm tra," nghĩa là sử dụng thêm các chu kỳ tính toán trong giai đoạn suy luận để kiểm tra và xác minh các câu trả lời và đường suy luận trước khi đưa ra câu trả lời cuối cùng. Phương pháp này đặc biệt hữu ích khi không đủ bộ nhớ để chạy một mô hình lớn.
Vì o1 là một mô hình riêng và OpenAI giữ kín thông tin về cách hoạt động nội bộ, các nhà nghiên cứu đã cố gắng phỏng đoán và tìm cách tái tạo quy trình. Hiện đã có một số lựa chọn thay thế mã nguồn mở cho o1.
Nghiên cứu của Hugging Face dựa trên một báo cáo từ DeepMind phát hành vào tháng 8, nghiên cứu sự đánh đổi giữa tính toán trong giai đoạn suy luận và huấn luyện trước. Báo cáo này cung cấp hướng dẫn toàn diện về cách cân bằng tài nguyên tính toán để đạt hiệu suất tốt nhất trong giới hạn ngân sách cố định.
Bên cạnh việc sử dụng thêm khả năng tính toán trong thời gian kiểm tra, sự thành công của kỹ thuật này phụ thuộc vào hai yếu tố chính: mô hình thưởng để đánh giá câu trả lời của SLM và thuật toán tìm kiếm để tối ưu hóa đường dẫn cải thiện câu trả lời.
Cách đơn giản nhất để sử dụng mở rộng tính toán trong thời gian kiểm tra là "bỏ phiếu đa số," trong đó một câu hỏi được gửi đến mô hình nhiều lần và câu trả lời được chọn là câu nhận nhiều phiếu nhất. Tuy nhiên, phương pháp này chỉ hữu ích với các vấn đề đơn giản, và lợi ích sẽ giảm nhanh chóng khi đối mặt với các bài toán phức tạp hoặc những nhiệm vụ có lỗi lặp lại.
Một phương pháp suy luận nâng cao hơn là "Best-of-N." Trong kỹ thuật này, SLM tạo ra nhiều câu trả lời, nhưng thay vì bỏ phiếu đa số, một mô hình thưởng sẽ được sử dụng để đánh giá và chọn câu trả lời tốt nhất. "Weighted Best-of-N," phiên bản tinh chỉnh hơn của phương pháp này, đưa thêm yếu tố nhất quán để chọn các câu trả lời tự tin và xuất hiện thường xuyên hơn.
Các nhà nghiên cứu đã sử dụng một "mô hình thưởng theo quy trình" (PRM) để đánh giá câu trả lời của SLM không chỉ dựa trên kết quả cuối cùng mà còn qua các giai đoạn nó trải qua. Kết quả cho thấy Weighted Best-of-N và PRM giúp Llama-3.2 1B đạt hiệu suất gần ngang với Llama-3.2 8B trên bài kiểm tra MATH-500 đầy thách thức.
Để cải thiện hơn nữa hiệu suất của mô hình, các nhà nghiên cứu đã bổ sung các thuật toán tìm kiếm vào quá trình suy luận của mô hình. Thay vì tạo ra câu trả lời trong một lần duy nhất, họ sử dụng "tìm kiếm beam," một thuật toán hướng dẫn quá trình trả lời của mô hình từng bước.
Tại mỗi bước, SLM tạo ra nhiều câu trả lời từng phần. Thuật toán tìm kiếm sử dụng mô hình thưởng để đánh giá các câu trả lời này và chọn một tập hợp để tiếp tục khám phá. Quá trình lặp lại cho đến khi mô hình sử dụng hết ngân sách suy luận hoặc đạt được câu trả lời đúng. Phương pháp này giúp ngân sách suy luận tập trung vào các câu trả lời tiềm năng nhất.
Mặc dù tìm kiếm beam cải thiện hiệu suất của mô hình trong các vấn đề phức tạp, nhưng lại kém hiệu quả với các vấn đề đơn giản. Để giải quyết, nhóm nghiên cứu đã bổ sung hai yếu tố mới vào chiến lược suy luận của họ:
Kết hợp các kỹ thuật này đã giúp Llama-3.2 1B vượt trội hơn so với mô hình 8B, và khi áp dụng cho Llama-3.2 3B, nhóm nghiên cứu đã vượt qua cả mô hình 70B lớn hơn.
Mở rộng khả năng tính toán trong thời gian kiểm tra thay đổi động lực chi phí của mô hình. Doanh nghiệp giờ đây có thể quyết định phân bổ tài nguyên tính toán phù hợp với điều kiện, ví dụ: khi thiếu bộ nhớ hoặc có thể chấp nhận thời gian phản hồi chậm hơn để sử dụng mô hình nhỏ với độ chính xác cao hơn.
Tuy nhiên, kỹ thuật này cũng có hạn chế. Ví dụ, trong thí nghiệm của Hugging Face, các nhà nghiên cứu đã sử dụng mô hình Llama-3.1-8B được huấn luyện đặc biệt làm PRM, yêu cầu chạy song song hai mô hình (dù hiệu quả hơn nhiều so với mô hình 70B). Họ thừa nhận rằng "chén thánh" của mở rộng khả năng kiểm tra là "tự xác minh," nơi mô hình tự đánh giá câu trả lời của chính nó thay vì dựa vào bộ kiểm tra bên ngoài. Đây vẫn là một lĩnh vực nghiên cứu mở.
Kỹ thuật này cũng bị giới hạn ở các vấn đề có thể đánh giá câu trả lời rõ ràng, như toán học và lập trình. Việc tạo ra các mô hình thưởng và công cụ kiểm tra cho các nhiệm vụ chủ quan như sáng tạo nội dung hoặc thiết kế sản phẩm đòi hỏi thêm nghiên cứu.
Tuy nhiên, rõ ràng là mở rộng tính toán trong thời gian kiểm tra đã thu hút nhiều sự quan tâm và hoạt động nghiên cứu, và chúng ta có thể kỳ vọng sẽ thấy thêm nhiều công cụ và kỹ thuật mới trong những tháng tới. Doanh nghiệp nên theo dõi sát sao sự phát triển trong lĩnh vực này.