Prometheus-Eval và Prometheus 2 thiết lập tiêu chuẩn mới trong đánh giá mô hình ngôn ngữ lớn (LLM) và đổi mới nguồn mở

- Prometheus-Eval là một công cụ đánh giá mô hình ngôn ngữ tiên tiến, cung cấp khung đánh giá mạnh mẽ và minh bạch.
- Nó hỗ trợ cả phương pháp chấm điểm tuyệt đối (từ 1 đến 5) và tương đối (so sánh các câu trả lời).
- Prometheus-Eval mô phỏng được đánh giá của con người và các mô hình đánh giá độc quyền, đảm bảo tính công bằng và khả năng tiếp cận.
- Prometheus 2, phiên bản cải tiến của Prometheus-Eval, đạt độ tương quan Pearson từ 0.6 đến 0.7 với GPT-4-1106 trên thang đo Likert 5 điểm.
- Prometheus 2 đạt độ đồng thuận từ 72% đến 85% với đánh giá của con người trên nhiều bộ dữ liệu xếp hạng theo cặp.
- Phiên bản Prometheus 2 (8x7B) chỉ yêu cầu 16 GB VRAM, phù hợp để chạy trên GPU tiêu dùng, giúp mở rộng khả năng sử dụng.
- Phiên bản nhẹ hơn Prometheus 2 (7B) đạt ít nhất 80% hiệu suất so với mô hình 8x7B.
- Gói Prometheus-Eval cung cấp giao diện đơn giản để đánh giá các cặp hướng dẫn-phản hồi bằng Prometheus 2, hỗ trợ chấm điểm hàng loạt.

📌 Prometheus-Eval và Prometheus 2 đáp ứng nhu cầu cấp thiết về công cụ đánh giá đáng tin cậy và minh bạch trong NLP. Prometheus 2 cung cấp khả năng đánh giá tiên tiến với các chỉ số hiệu suất ấn tượng, cho phép các nhà nghiên cứu đánh giá mô hình tự tin hơn với công cụ toàn diện và dễ tiếp cận.

https://www.marktechpost.com/2024/05/22/prometheus-eval-and-prometheus-2-setting-new-standards-in-llm-evaluation-and-open-source-innovation-with-state-of-the-art-evaluator-language-model/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo