- Các công cụ và ứng dụng AI đang trở nên phổ biến trong cuộc sống hàng ngày, nhưng đôi khi chúng phát sinh thông tin sai lệch được gọi là "ảo giác".
- Ảo giác xảy ra khi một mô hình ngôn ngữ lớn (LLM) phát hiện các mẫu hoặc đối tượng không tồn tại, dẫn đến các thông tin không chính xác.
- Bảng xếp hạng dưới đây chỉ ra 15 mô hình AI có tỷ lệ ảo giác thấp nhất, được cập nhật tính đến ngày 11 tháng 12 năm 2024 và dựa trên dữ liệu từ Vectara.
- Tỷ lệ ảo giác được tính bằng cách tóm tắt 1.000 tài liệu ngắn với mỗi LLM, sử dụng một mô hình để phát hiện ảo giác, từ đó cho ra tỷ lệ phần trăm tóm tắt không chính xác.
- Các mô hình có tỷ lệ ảo giác thấp nhất bao gồm:
- Zhipu AI GLM-4-9B-Chat (1,3%, Trung Quốc)
- Google Gemini-2.0-Flash-Exp (1,3%, Hoa Kỳ)
- OpenAI-o1-mini (1,4%, Hoa Kỳ)
- GPT-4o (1,5%, Hoa Kỳ)
- GPT-4o-mini (1,7%, Hoa Kỳ)
- GPT-4-Turbo (1,7%, Hoa Kỳ)
- GPT-4 (1,8%, Hoa Kỳ)
- GPT-3.5-Turbo (1,9%, Hoa Kỳ)
- DeepSeek-V2.5 (2,4%, Trung Quốc)
- Microsoft Orca-2-13b (2,5%, Hoa Kỳ)
- Các mô hình nhỏ hơn như Zhipu AI GLM-4-9B-Chat và OpenAI-o1-mini có tỷ lệ ảo giác rất thấp.
- Theo Vectara, các mô hình nhỏ đôi khi đạt tỷ lệ ảo giác tốt hơn hoặc tương đương với các mô hình lớn hơn.
- Đo lường tỷ lệ ảo giác đang ngày càng trở nên quan trọng, đặc biệt trong các lĩnh vực như y tế, luật pháp và tài chính.
- Mặc dù các mô hình lớn thường vượt trội hơn nhưng chúng cũng có nhược điểm như chi phí cao và độ phức tạp.
- Mô hình nhỏ đang thu hẹp khoảng cách, với một số mô hình như Mistral 8x7B đã giảm ảo giác trong văn bản sinh ra.
- Google Gemini 2.0 nhẹ nhàng vượt trội hơn OpenAI GPT-4 với sự khác biệt tỷ lệ ảo giác chỉ 0,2%.
- Nhiều biến thể của GPT-4 nằm trong khoảng 1,5% đến 1,8%, thể hiện sự chú trọng vào độ chính xác.
📌 Theo các dữ liệu, mô hình Zhipu AI GLM-4-9B-Chat và Google Gemini 2.0 có tỷ lệ ảo giác thấp nhất, chỉ 1,3%, cho thấy xu hướng phát triển các mô hình nhỏ với độ chính xác cao đang gia tăng.
https://www.visualcapitalist.com/ranked-ai-models-with-the-lowest-hallucination-rates/