- Hugging Face, một startup AI, đã giới thiệu Open Medical-LLM, một bài kiểm tra đánh giá mới để chuẩn hóa việc đánh giá hiệu suất của các mô hình AI tạo sinh trong các tác vụ liên quan đến y tế.
- Open Medical-LLM là sự hợp tác giữa các nhà nghiên cứu từ Open Life Science AI và Nhóm Xử lý Ngôn ngữ Tự nhiên của Đại học Edinburgh.
- Bài kiểm tra này tổng hợp các bộ dữ liệu kiểm tra hiện có như MedQA, PubMedQA và nhiều bộ dữ liệu khác.
- Clémentine Fourrier, nhà nghiên cứu tại Hugging Face, cho rằng các bảng xếp hạng chỉ nên là điểm khởi đầu để khám phá một trường hợp sử dụng cụ thể, sau đó cần có giai đoạn kiểm tra kỹ lưỡng hơn để xem xét các hạn chế và tính phù hợp của mô hình trong điều kiện thực tế.
- Các mô hình y tế không nên được bệnh nhân sử dụng độc lập mà thay vào đó nên đóng vai trò là công cụ hỗ trợ cho các chuyên gia y tế.
- Kinh nghiệm từ nỗ lực của Google trong việc giới thiệu công cụ sàng lọc bệnh võng mạc tiểu đường tại Thái Lan là một câu chuyện cảnh báo. Mặc dù có độ chính xác lý thuyết cao, công cụ này đã không khả thi trong thử nghiệm thực tế.
- Đáng chú ý là không có thiết bị y tế liên quan đến AI nào trong số 139 thiết bị được FDA Hoa Kỳ phê duyệt sử dụng AI tạo sinh.
📌 Open Medical-LLM của Hugging Face là một bước tiến quan trọng trong việc đánh giá tiêu chuẩn hóa hiệu suất của AI tạo sinh trong y tế. Tuy nhiên, các bảng xếp hạng chỉ nên là điểm khởi đầu, và cần có các thử nghiệm kỹ lưỡng trong điều kiện thực tế trước khi triển khai rộng rãi. Kinh nghiệm từ công cụ sàng lọc của Google tại Thái Lan cho thấy tầm quan trọng của việc kiểm tra tính khả thi và tương thích với thực tiễn.
Citations:
[1] https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-generative-ai-on-health-tasks/