Prometheus 2 là mô hình ngôn ngữ nguồn mở mới, được thiết kế để đánh giá các mô hình ngôn ngữ khác

- Nhóm nghiên cứu từ KAIST AI, LG AI Research, Carnegie Mellon University, MIT, Allen Institute for AI và University of Illinois Chicago giới thiệu Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới.
- Prometheus 2 được phát triển để cung cấp đánh giá minh bạch, có thể mở rộng và kiểm soát được, đồng thời đạt chất lượng tương đương với các mô hình độc quyền.
- Mô hình được tạo ra bằng cách kết hợp hai mô hình đánh giá: một mô hình được huấn luyện chuyên biệt cho đánh giá trực tiếp và một mô hình cho xếp hạng theo cặp.
- Nhóm nghiên cứu sử dụng bộ dữ liệu Preference Collection mới với 1.000 tiêu chí đánh giá để tinh chỉnh khả năng của mô hình.
- Trên 4 bài kiểm tra xếp hạng theo cặp (HHH Alignment, MT Bench Human Judgment, Auto-J Eval và Preference Bench), Prometheus 2 vượt trội hơn các mô hình nguồn mở hiện có, đạt độ chính xác trên 85%.
- Prometheus 2 thu hẹp khoảng cách hiệu suất với các công cụ đánh giá độc quyền như GPT-4 trên nhiều bài kiểm tra. Mô hình giảm một nửa sự khác biệt tương quan giữa con người và GPT-4 trên bài kiểm tra FLASK và đạt độ chính xác 84% trong đánh giá HHH Alignment.

📌 Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới, đạt hiệu suất vượt trội so với các mô hình nguồn mở hiện có trên nhiều bài kiểm tra, thu hẹp đáng kể khoảng cách với GPT-4. Kết hợp hai mô hình đánh giá trực tiếp và xếp hạng theo cặp, Prometheus 2 đạt độ chính xác trên 85% và giảm một nửa sự khác biệt tương quan so với GPT-4 trên bài kiểm tra FLASK.

Citations:
[1] https://www.marktechpost.com/2024/05/04/prometheus-2-an-open-source-language-model-that-closely-mirrors-human-and-gpt-4-judgements-in-evaluating-other-language-models/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo