• Google AI và Đại học Tel Aviv đã phát triển CoverBench - một bộ benchmark mới nhằm đánh giá khả năng xác minh các tuyên bố phức tạp của mô hình ngôn ngữ (LM) trong nhiều lĩnh vực và loại hình suy luận khác nhau.
• CoverBench giải quyết những hạn chế của các phương pháp hiện có bằng cách cung cấp định dạng thống nhất và bộ 733 ví dụ đa dạng đòi hỏi suy luận phức tạp, bao gồm hiểu ngữ cảnh dài, suy luận nhiều bước và phân tích định lượng.
• Benchmark này bao gồm các tập dữ liệu từ 9 nguồn khác nhau như FinQA, QRData, TabFact, MultiHiertt, HybridQA, ContractNLI, PubMedQA, TACT và Feverous, bao quát nhiều lĩnh vực như tài chính, Wikipedia, y sinh, pháp lý và thống kê.
• CoverBench chuyển đổi các tác vụ hỏi đáp thành các tuyên bố khai báo, chuẩn hóa biểu diễn bảng và tạo ra các ví dụ phủ định bằng cách sử dụng các mô hình như GPT-4.
• Bộ dữ liệu cuối cùng chứa các ngữ cảnh đầu vào dài, trung bình 3.500 token, thách thức khả năng của các mô hình hiện tại.
• Kết quả đánh giá cho thấy các LM cạnh tranh hiện nay gặp khó khăn đáng kể với các tác vụ được trình bày, đạt hiệu suất gần với baseline ngẫu nhiên trong nhiều trường hợp.
• Mô hình hoạt động tốt nhất như Gemini 1.5 Pro đạt điểm Macro-F1 là 62,1, cho thấy vẫn còn nhiều dư địa để cải thiện.
• Ngược lại, các mô hình như Gemma-1.1-7b-it hoạt động kém hơn nhiều, nhấn mạnh độ khó của benchmark này.
• CoverBench đặt ra một tiêu chuẩn mới cho việc xác minh tuyên bố, thúc đẩy ranh giới của những gì LM có thể đạt được trong các tác vụ suy luận phức tạp.
📌 Google AI và Đại học Tel Aviv đã phát triển CoverBench - bộ benchmark thách thức gồm 733 ví dụ đa dạng để đánh giá khả năng xác minh tuyên bố phức tạp của mô hình ngôn ngữ. Kết quả cho thấy ngay cả các mô hình tốt nhất như Gemini 1.5 Pro cũng chỉ đạt điểm Macro-F1 62,1, cho thấy còn nhiều dư địa cải thiện trong lĩnh vực này.
https://www.marktechpost.com/2024/08/08/google-ai-introduces-coverbench-a-challenging-benchmark-focused-on-verifying-language-model-lm-outputs-in-complex-reasoning-settings/