- LOFT là một bộ dữ liệu đánh giá toàn diện cho các mô hình ngôn ngữ ngữ cảnh dài (LCLM), nhằm khắc phục những hạn chế của các phương pháp đánh giá hiện tại.
- Bộ dữ liệu bao gồm 6 tác vụ trên 35 tập dữ liệu đa phương thức (văn bản, hình ảnh, âm thanh), với độ dài ngữ cảnh tăng dần lên đến 1 triệu token và có thể mở rộng hơn nữa.
- LOFT tập trung vào 4 lĩnh vực mà LCLM có tiềm năng gây đột phá: truy xuất đa phương thức, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), truy vấn cơ sở dữ liệu không cần SQL và học trong ngữ cảnh nhiều shot.
- Các tác vụ chính của LOFT gồm: truy xuất, RAG, lập luận kiểu SQL và học trong ngữ cảnh nhiều shot (ICL). Bộ dữ liệu được thiết kế với 3 giới hạn độ dài ngữ cảnh: 32k, 128k và 1M token.
- Kết quả ban đầu cho thấy Gemini 1.5 Pro hoạt động tốt trong truy xuất văn bản, hình ảnh và âm thanh, thường sánh ngang hoặc vượt trội hơn các mô hình chuyên biệt. Nó cũng xuất sắc trong các tác vụ RAG đa bước nhưng gặp khó khăn với các tập dữ liệu đa mục tiêu ở quy mô lớn hơn.
- Các tác vụ lập luận kiểu SQL cho thấy tiềm năng nhưng cần cải thiện. Kết quả ICL nhiều shot khác nhau, với Gemini 1.5 Pro và Claude 3 Opus hoạt động mạnh mẽ ở các lĩnh vực khác nhau.
- LOFT làm nổi bật khả năng ngày càng tăng của LCLM trên nhiều tác vụ và phương thức khác nhau, đồng thời xác định các lĩnh vực cần cải thiện, đặc biệt là mở rộng ra các ngữ cảnh lớn hơn và lập luận phức tạp.
📌 LOFT là một bộ dữ liệu đánh giá toàn diện và có khả năng mở rộng động lên đến 1 tỷ token, đảm bảo tính phù hợp liên tục khi LCLM phát triển. Kết quả ban đầu cho thấy LCLM thể hiện khả năng truy xuất cạnh tranh so với các hệ thống chuyên biệt. Tuy nhiên, bài kiểm tra cũng cho thấy còn nhiều không gian để cải thiện khả năng lập luận ngữ cảnh dài, đặc biệt khi các mô hình truy cập vào các cửa sổ ngữ cảnh dài hơn.
https://www.marktechpost.com/2024/06/23/loft-a-comprehensive-ai-benchmark-for-evaluating-long-context-language-models/