Ai tạo sinh giải quyết các câu hỏi y khoa tốt hơn như thế nào - nhờ RAG

  • Các nhà nghiên cứu tại Stanford đã phát triển một hệ thống tên là Almanac, sử dụng công nghệ RAG (retrieval-augmented generation) để cải thiện khả năng trả lời các câu hỏi y khoa của các mô hình ngôn ngữ lớn (LLM).
  • Almanac sử dụng một bộ dữ liệu mới gồm 314 câu hỏi y khoa được biên soạn bởi các bác sĩ có chứng chỉ hành nghề, gọi là ClinicalQA, để đánh giá hiệu suất của các LLM.
  • Almanac đạt điểm cao hơn ChatGPT-4, Bing của Microsoft và Bard của Google trong các bài kiểm tra về độ chính xác, đầy đủ, mức độ ưu tiên và an toàn của câu trả lời.
  • Almanac cũng vượt trội hơn các hệ thống khác trong việc chống lại các câu hỏi đánh lừa, chỉ trả lời sai 7% trong khi ChatGPT-4 trả lời sai tới 93%.

📌 Almanac, một hệ thống sử dụng công nghệ RAG, đã chứng minh khả năng vượt trội trong việc cải thiện độ chính xác, đầy đủ, mức độ ưu tiên và an toàn của các câu trả lời y khoa so với các mô hình ngôn ngữ lớn khác như ChatGPT-4, Bing và Bard. Trong các bài kiểm tra, Almanac đạt điểm cao hơn đáng kể về độ chính xác (67% so với 30-50% của các hệ thống khác), đầy đủ (70% so với 30-50%), mức độ ưu tiên (70% so với 30-50%) và an toàn (100% so với 7-93%). Almanac cũng vượt trội hơn các hệ thống khác trong việc chống lại các câu hỏi đánh lừa, chỉ trả lời sai 7% trong khi ChatGPT-4 trả lời sai tới 93%. Với những kết quả ấn tượng này, Almanac hứa hẹn sẽ trở thành công cụ hỗ trợ đắc lực cho các bác sĩ trong việc chẩn đoán và điều trị hiệu quả hơn.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo