AI deepfake-ảo giác-ANTT 2024-08-16 04:53:09

Các LLM tốt nhất hiện nay chỉ có thể tạo văn bản không có ảo giác khoảng 35% thời gian

• Một nghiên cứu gần đây từ các nhà nghiên cứu tại Cornell, Đại học Washington, Waterloo và viện nghiên cứu phi lợi nhuận AI2 đã tiến hành đánh giá mức độ ảo giác của các mô hình AI như GPT-4o, Gemini, Claude bằng cách kiểm tra thực tế so với các nguồn đáng tin cậy.

• Kết quả cho thấy không có mô hình nào hoạt động xuất sắc trên tất cả các chủ đề. Các mô hình ít ảo giác nhất một phần là do từ chối trả lời các câu hỏi mà chúng có thể trả lời sai.

• Theo Wenting Zhao, nghiên cứu sinh tiến sĩ tại Cornell và đồng tác giả nghiên cứu, ngay cả các mô hình tốt nhất hiện nay cũng chỉ có thể tạo ra văn bản không có ảo giác khoảng 35% thời gian.

• Nghiên cứu đã đánh giá hơn một chục mô hình phổ biến khác nhau, bao gồm GPT-4o, Llama 3 70B, Mixtral 8x22B, Command R+, Sonar Large, Gemini 1.5 Pro và Claude 3 Opus.

• GPT-4o và GPT-3.5 của OpenAI có hiệu suất gần như nhau về tỷ lệ câu hỏi trả lời chính xác. Các mô hình của OpenAI ít ảo giác nhất, tiếp theo là Mixtral 8x22B, Command R và các mô hình Sonar của Perplexity.

• Các câu hỏi liên quan đến người nổi tiếng và tài chính gây khó khăn nhất cho các mô hình, trong khi câu hỏi về địa lý và khoa học máy tính dễ trả lời nhất.

• Kích thước mô hình không ảnh hưởng nhiều; các mô hình nhỏ hơn như Claude 3 Haiku ảo giác với tần suất gần như tương đương các mô hình lớn hơn như Claude 3 Opus.

• Zhao cho rằng vấn đề ảo giác sẽ "tồn tại trong thời gian dài" và các phương pháp hiện tại để giảm thiểu ảo giác có hiệu quả hạn chế.

• Một giải pháp tạm thời có thể là lập trình các mô hình để từ chối trả lời thường xuyên hơn. Claude 3 Haiku chỉ trả lời khoảng 72% câu hỏi được hỏi, chọn không trả lời phần còn lại.

• Zhao đề xuất các nhà cung cấp nên tập trung nhiều thời gian và nỗ lực hơn vào nghiên cứu giảm thiểu ảo giác, bao gồm kiểm tra thực tế có sự tham gia của con người và trích dẫn trong quá trình phát triển mô hình.

• Cần phát triển các chính sách và quy định để đảm bảo các chuyên gia luôn tham gia vào quá trình xác minh và xác nhận thông tin do các mô hình AI tạo sinh tạo ra.

📌 Nghiên cứu mới cho thấy ngay cả các mô hình AI tốt nhất vẫn có tỷ lệ ảo giác cao, chỉ tạo ra văn bản không ảo giác 35% thời gian. Các chuyên gia đề xuất giải pháp như kiểm tra thực tế có sự tham gia của con người và phát triển công cụ kiểm tra sự thật nâng cao để giảm thiểu vấn đề này.

https://techcrunch.com/2024/08/14/study-suggests-that-even-the-best-ai-models-hallucinate-a-bunch/

Không có file đính kèm.

Nguồn tham khảo

103

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

Các LLM tốt nhất hiện nay chỉ có thể tạo văn bản không có ảo giác khoảng 35% thời gian

Thảo luận

Follow Us

Tin phổ biến

TAG