AI deepfake-ảo giác-ANTT 2024-01-30 17:20:55

Quốc gia ảo giác: Mô hình AI yêu thích của bạn điên đến mức nào?

Huggingface ra mắt Hallucinations Leaderboard, bảng xếp hạng các mô hình ngôn ngữ lớn (LLM) dựa trên khả năng tạo ra nội dung không đúng sự thật.
Bảng xếp hạng này nhằm giúp các nhà nghiên cứu và kỹ sư xác định các mô hình đáng tin cậy nhất và thúc đẩy sự phát triển của LLM theo hướng tạo ra nội dung chính xác và trung thực hơn.
Có hai loại ảo giác chính trong LLM: ảo giác về thực tế và ảo giác về sự trung thực.
Bảng xếp hạng sử dụng Language Model Evaluation Harness của EleutherAI để đánh giá hiệu suất của LLM trên nhiều tác vụ khác nhau.
Dựa trên kết quả sơ bộ, các mô hình có ít ảo giác nhất bao gồm Meow (Dựa trên Solar), Stable Beluga của Stability AI và LlaMA-2 của Meta.
📌 Huggingface ra mắt Hallucinations Leaderboard, bảng xếp hạng các mô hình ngôn ngữ lớn dựa trên khả năng tạo ra nội dung không đúng sự thật. Bảng xếp hạng này nhằm giúp các nhà nghiên cứu và kỹ sư xác định các mô hình đáng tin cậy nhất và thúc đẩy sự phát triển của LLM theo hướng tạo ra nội dung chính xác và trung thực hơn.

Không có file đính kèm.

Nguồn tham khảo

171

AI coding assistant

AI giáo dục

AI giáo dục

AI so sánh

AI doanh nghiệp

AI so sánh

AI kiến thức-khóa học

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI