- Trong giai đoạn 2012-2022, tỷ lệ trung bình các bài báo khoa học sử dụng AI trong 20 lĩnh vực đã tăng gấp 4 lần, bao gồm kinh tế học, địa chất học, khoa học chính trị và tâm lý học.
- Mặc dù có nhiều kỳ vọng rằng AI có thể đẩy nhanh khám phá khoa học, việc áp dụng vội vàng công nghệ này đang gây ra nhiều hậu quả nghiêm trọng, đặc biệt khi các công cụ AI được sử dụng bởi các nhà nghiên cứu có kiến thức hạn chế về khoa học máy tính.
- Một vấn đề phổ biến trong nghiên cứu sử dụng AI là hiện tượng "rò rỉ dữ liệu" (leakage), khi thông tin từ dữ liệu đánh giá ảnh hưởng không đúng cách đến quá trình huấn luyện mô hình, khiến mô hình chỉ ghi nhớ mẫu dữ liệu thay vì nắm bắt quy luật có ý nghĩa.
- Qua điều tra, các tác giả phát hiện các bài báo sử dụng học máy trong ít nhất 30 lĩnh vực khoa học đều bị ảnh hưởng bởi vấn đề rò rỉ dữ liệu, từ tâm thần học, sinh học phân tử đến bảo mật máy tính.
- Trong đại dịch COVID-19, một đánh giá hệ thống về 415 nghiên cứu tuyên bố AI có thể chẩn đoán bệnh qua X-quang ngực cho thấy chỉ 62 nghiên cứu đáp ứng tiêu chuẩn chất lượng cơ bản, và ngay cả trong số đó vẫn tồn tại nhiều lỗi.
- Một số nghiên cứu COVID-19 sử dụng dữ liệu huấn luyện trong đó tất cả ca dương tính là người lớn và ca âm tính là trẻ em 1-5 tuổi, khiến mô hình AI chỉ học cách phân biệt người lớn và trẻ em thay vì phát hiện COVID.
- Các tác giả cảnh báo rằng khoa học không chỉ là tập hợp các sự kiện hay phát hiện, mà tiến bộ khoa học thực sự đến từ các lý thuyết giải thích tập hợp các phát hiện và các mô hình khái niệm để hiểu và điều tra một lĩnh vực.
- Việc sử dụng quá mức AI có thể tạo ra ảo tưởng về tiến bộ trong khi thực tế làm chậm sự tiến bộ thực sự, tương tự như mô hình vũ trụ lấy Trái đất làm trung tâm từng rất chính xác trong dự đoán chuyển động hành tinh nhưng về cơ bản là sai.
- Các tác giả đề xuất nhiều giải pháp: đào tạo chuyên sâu về học máy, sử dụng công cụ như REFORMS (bộ khuyến nghị dựa trên sự đồng thuận cho khoa học dựa trên học máy), phân biệt rõ giữa sản xuất các phát hiện đơn lẻ và tiến bộ trong hiểu biết khoa học.
- Các cơ quan tài trợ được khuyến nghị ưu tiên chất lượng hơn số lượng, phân bổ nguồn lực cho việc cải thiện đào tạo, khuyến khích nỗ lực tái tạo kết quả và mở rộng các sáng kiến tổng hợp bằng chứng.
📌 Việc sử dụng AI trong khoa học đang tăng gấp 4 lần trong thập kỷ qua nhưng tiềm ẩn nhiều rủi ro. Hiện tượng rò rỉ dữ liệu ảnh hưởng đến 30 lĩnh vực khoa học, tạo ra ảo tưởng tiến bộ. Cần đào tạo chuyên sâu, công cụ kiểm tra như REFORMS và ưu tiên chất lượng hơn số lượng nghiên cứu.
https://www.nature.com/articles/d41586-025-01067-2
#NATURE
Không có các quy trình rõ ràng để phát hiện lỗi, vai trò ngày càng lớn của trí tuệ nhân tạo trong khoa học có thể gây hại nhiều hơn lợi ích.
Tác giả: Arvind Narayanan & Sayash Kapoor
Việc sử dụng trí tuệ nhân tạo (AI) đang bùng nổ trong nhiều lĩnh vực khoa học. Trong giai đoạn 2012-2022, tỷ lệ trung bình các bài báo khoa học sử dụng AI, trên 20 lĩnh vực, đã tăng gấp 4 lần (xem 'Sự gia tăng của AI trong nghiên cứu'), bao gồm kinh tế học, địa chất học, khoa học chính trị và tâm lý học.
Nhiều người hy vọng AI có thể đẩy nhanh khám phá khoa học, vì tốc độ đạt được những tiến bộ cơ bản dường như đang chậm lại: mặc dù có nhiều tài trợ, xuất bản và nhân lực hơn, chúng ta đang đạt được tiến bộ với tốc độ chậm hơn.
Nhưng việc vội vàng áp dụng AI có những hậu quả. Khi việc sử dụng nó lan rộng — trong dự báo dịch bệnh, dự đoán kết quả cuộc sống của con người và dự đoán các cuộc nội chiến — cần có sự thận trọng và tự kiểm điểm. Trong khi các phương pháp thống kê nói chung có nguy cơ bị sử dụng sai, AI mang những rủi ro lớn hơn do tính phức tạp và đặc tính hộp đen của nó. Các lỗi đang ngày càng phổ biến, đặc biệt khi các công cụ có sẵn được sử dụng bởi các nhà nghiên cứu có kiến thức hạn chế về khoa học máy tính. Các nhà nghiên cứu dễ đánh giá quá cao khả năng dự đoán của mô hình AI, từ đó tạo ra ảo tưởng về tiến bộ trong khi làm chậm những tiến bộ thực sự.
Trong bài viết này, chúng tôi thảo luận về những nguy hiểm và đề xuất một số giải pháp. Việc thiết lập các hướng dẫn khoa học rõ ràng về cách sử dụng các công cụ và kỹ thuật này là việc cấp bách.
Có nhiều cách AI có thể được triển khai trong khoa học. Nó có thể được sử dụng để lọc hiệu quả qua các nghiên cứu trước đây, hoặc tìm kiếm không gian vấn đề (ví dụ: các ứng viên thuốc) cho một giải pháp sau đó có thể được xác minh bằng các phương tiện thông thường.
Một cách sử dụng khác của AI là xây dựng mô hình học máy về hiện tượng quan tâm, và nghiên cứu nó để có kiến thức về thế giới. Các nhà nghiên cứu gọi đây là khoa học dựa trên học máy; nó có thể được xem như một nâng cấp của mô hình thống kê thông thường. Mô hình hóa học máy là chiếc cưa xích so với chiếc rìu tay của thống kê — mạnh mẽ và tự động hơn, nhưng nguy hiểm nếu sử dụng không chính xác.
Sự gia tăng của AI trong nghiên cứu [Mô tả biểu đồ]
Mối quan tâm chính của chúng tôi là về các phương pháp dựa trên mô hình, trong đó AI được sử dụng để đưa ra dự đoán hoặc kiểm tra giả thuyết về cách một hệ thống hoạt động. Một nguồn lỗi phổ biến là "rò rỉ", một vấn đề phát sinh khi thông tin từ dữ liệu đánh giá của mô hình tác động không đúng đến quá trình đào tạo. Khi điều này xảy ra, mô hình học máy có thể chỉ ghi nhớ các mẫu trong dữ liệu đánh giá thay vì nắm bắt các mẫu có ý nghĩa đằng sau hiện tượng quan tâm. Điều này hạn chế khả năng áp dụng thực tế của các mô hình đó và tạo ra ít giá trị về mặt kiến thức khoa học.
Thông qua điều tra và tổng hợp bằng chứng hiện có, chúng tôi phát hiện các bài báo sử dụng học máy trong ít nhất 30 lĩnh vực khoa học — từ tâm thần học và sinh học phân tử đến bảo mật máy tính — đều bị ảnh hưởng bởi vấn đề rò rỉ. Đây là một dạng "dạy theo đề thi", hoặc tệ hơn, tiết lộ câu trả lời trước kỳ thi.
Ví dụ, trong đại dịch COVID-19, hàng trăm nghiên cứu tuyên bố rằng AI có thể chẩn đoán bệnh này chỉ bằng X-quang ngực hoặc chụp CT. Một đánh giá hệ thống về 415 nghiên cứu như vậy cho thấy chỉ có 62 nghiên cứu đáp ứng các tiêu chuẩn chất lượng cơ bản. Ngay cả trong số đó, các khiếm khuyết vẫn phổ biến, bao gồm phương pháp đánh giá kém, dữ liệu trùng lặp và thiếu rõ ràng về việc liệu các trường hợp "dương tính" có phải từ người được chẩn đoán y tế xác nhận hay không.
Trong hơn một chục nghiên cứu, các nhà nghiên cứu đã sử dụng bộ dữ liệu đào tạo trong đó tất cả các trường hợp dương tính COVID là ở người lớn, và các trường hợp âm tính là ở trẻ em từ 1 đến 5 tuổi. Kết quả là, mô hình AI chỉ học cách phân biệt giữa người lớn và trẻ em, nhưng các nhà nghiên cứu đã sai lầm kết luận rằng họ đã phát triển một công cụ phát hiện COVID-19.
Rất khó để phát hiện lỗi như thế này một cách có hệ thống vì việc đánh giá độ chính xác dự đoán rất phức tạp và chưa được chuẩn hóa. Mã nguồn máy tính có thể dài hàng nghìn dòng. Lỗi có thể khó phát hiện, và một lỗi duy nhất có thể gây tốn kém. Vì vậy, chúng tôi cho rằng cuộc khủng hoảng tái tạo trong khoa học dựa trên học máy vẫn đang trong giai đoạn đầu.
Với một số nghiên cứu hiện đang sử dụng các mô hình ngôn ngữ lớn trong nghiên cứu — ví dụ, bằng cách sử dụng chúng làm đại diện cho người tham gia trong các thí nghiệm tâm lý — có thêm nhiều cách mà nghiên cứu có thể không tái tạo được. Các mô hình này nhạy cảm với đầu vào; những thay đổi nhỏ trong cách diễn đạt lời nhắc có thể gây ra những thay đổi đáng kể đối với đầu ra. Và vì các mô hình thường được sở hữu và vận hành bởi các công ty tư nhân, việc truy cập chúng có thể bị hạn chế bất cứ lúc nào, khiến các nghiên cứu như vậy khó tái tạo.
Tự đánh lừa bản thân
Một rủi ro lớn hơn từ việc vội vàng áp dụng AI và học máy nằm ở việc dòng phát hiện, ngay cả khi không có lỗi, cũng có thể không dẫn đến tiến bộ khoa học thực sự.
Để hiểu rủi ro đó, hãy xem xét tác động của một bài báo cực kỳ có ảnh hưởng từ năm 2001, trong đó nhà thống kê Leo Breiman đã mô tả một cách sắc sảo những khác biệt về văn hóa và phương pháp luận giữa các lĩnh vực thống kê và học máy.
Ông mạnh mẽ ủng hộ lĩnh vực sau, bao gồm việc áp dụng các mô hình học máy thay vì các mô hình thống kê đơn giản hơn, với độ chính xác dự đoán được ưu tiên hơn các câu hỏi về việc mô hình đại diện cho tự nhiên trung thực như thế nào. Theo quan điểm của chúng tôi, sự ủng hộ này không đề cập đến những hạn chế đã biết của phương pháp học máy. Bài báo không phân biệt đủ giữa việc sử dụng các mô hình học máy trong kỹ thuật và trong khoa học tự nhiên. Mặc dù Breiman nhận thấy rằng các mô hình hộp đen như vậy có thể hoạt động tốt trong kỹ thuật, chẳng hạn như phân loại tàu ngầm bằng dữ liệu sonar, chúng khó sử dụng hơn trong khoa học tự nhiên, trong đó việc giải thích tự nhiên (chẳng hạn như các nguyên tắc đằng sau sự lan truyền của sóng âm trong nước) là toàn bộ trọng tâm.
Sự nhầm lẫn này vẫn còn phổ biến, và quá nhiều nhà nghiên cứu bị thu hút bởi thành công thương mại của AI. Nhưng chỉ vì một phương pháp mô hình hóa tốt cho kỹ thuật, không có nghĩa là nó tốt cho khoa học.
Có một châm ngôn cũ rằng "mọi mô hình đều sai, nhưng một số mô hình có ích". Phải mất nhiều công sức để chuyển đổi kết quả từ mô hình thành các tuyên bố về thế giới. Bộ công cụ học máy giúp dễ dàng xây dựng mô hình, nhưng không nhất thiết làm cho việc trích xuất kiến thức về thế giới dễ dàng hơn, và thậm chí có thể làm cho nó khó khăn hơn. Kết quả là, chúng ta có nguy cơ sản xuất nhiều hơn nhưng hiểu ít hơn.
Khoa học không chỉ đơn thuần là tập hợp các sự kiện hoặc phát hiện. Tiến bộ khoa học thực sự diễn ra thông qua các lý thuyết, giải thích một tập hợp các phát hiện, và các mô hình, là các công cụ khái niệm để hiểu và điều tra một lĩnh vực. Khi chúng ta chuyển từ phát hiện sang lý thuyết rồi đến mô hình, mọi thứ trở nên trừu tượng hơn, rộng hơn và ít thích hợp cho tự động hóa. Chúng tôi nghi ngờ rằng sự phổ biến nhanh chóng của các phát hiện khoa học dựa trên AI đã không thúc đẩy — và thậm chí có thể đã cản trở — những tiến bộ ở các cấp độ cao hơn này.
Nếu các nhà nghiên cứu trong một lĩnh vực lo ngại về khiếm khuyết trong các bài báo riêng lẻ, chúng ta có thể đo lường mức độ phổ biến của chúng bằng cách phân tích một mẫu các bài báo. Nhưng khó tìm được bằng chứng xác thực rằng các cộng đồng khoa học nói chung đang quá nhấn mạnh vào độ chính xác dự đoán với cái giá của sự hiểu biết, vì không thể tiếp cận thế giới đối lập. Tuy nhiên, trong lịch sử, đã có nhiều ví dụ về các lĩnh vực bị mắc kẹt trong vết xe đổ ngay cả khi chúng xuất sắc trong việc tạo ra các phát hiện riêng lẻ. Trong số đó có thuật giả kim trước hóa học, thiên văn học trước cuộc cách mạng Copernicus và địa chất học trước kiến tạo mảng.
Câu chuyện của thiên văn học đặc biệt liên quan đến AI. Mô hình vũ trụ với Trái đất ở trung tâm đã cực kỳ chính xác trong việc dự đoán chuyển động của các hành tinh, nhờ vào các thủ thuật như "vòng tròn ngoại tâm" — giả định rằng các hành tinh di chuyển theo đường tròn mà tâm của chúng quay quanh Trái đất theo một quỹ đạo tròn lớn hơn. Trên thực tế, nhiều máy chiếu thiên văn hiện đại sử dụng phương pháp này để tính toán quỹ đạo.
Ngày nay, AI giỏi tạo ra những thứ tương đương với vòng tròn ngoại tâm. Trong điều kiện khác nhau, việc có thể ép ra nhiều giá trị dự đoán hơn từ các lý thuyết có khiếm khuyết và các mô hình không đầy đủ sẽ giúp chúng tồn tại lâu hơn, cản trở tiến bộ khoa học thực sự.
Các con đường phía trước
Chúng tôi đã chỉ ra hai vấn đề chính với việc sử dụng AI trong khoa học: khiếm khuyết trong các nghiên cứu riêng lẻ và các vấn đề nhận thức luận với việc áp dụng AI rộng rãi.
Sau đây là những ý tưởng tạm thời để cải thiện độ tin cậy của các nghiên cứu khoa học dựa trên học máy và tránh ảo tưởng về tiến bộ. Chúng tôi đưa ra những ý kiến này như những điểm khởi đầu cho cuộc thảo luận, thay vì các giải pháp đã được chứng minh.
Đào tạo, công cụ và động lực. Học máy không phải là công nghệ cắm và chạy cho các nhà khoa học mà là một tập hợp các phương pháp đòi hỏi chuyên môn sâu và đào tạo liên tục. Các khóa học về phương pháp định lượng nên đào tạo các nhà nghiên cứu về học máy cùng với thống kê, và đảm bảo rằng các sai lầm phổ biến và biện pháp giảm thiểu được nghiên cứu.
Có những công cụ mà tác giả có thể sử dụng để dễ dàng phát hiện hoặc tránh khiếm khuyết, chẳng hạn như rò rỉ, trong công việc của họ. Ví dụ, chúng tôi đã tập hợp một nhóm 19 tác giả từ khoa học máy tính, toán học, khoa học xã hội và nghiên cứu sức khỏe, và giới thiệu REFORMS, một tập hợp các khuyến nghị dựa trên sự đồng thuận cho khoa học dựa trên học máy dưới dạng danh sách kiểm tra và bộ hướng dẫn kèm theo.
Phương pháp nhiệm vụ chung, đảm bảo rằng các nhà nghiên cứu không tự chấm điểm công việc của mình khi đánh giá mô hình — đôi khi bằng cách sử dụng một bộ dữ liệu đánh giá bí mật — có thể hữu ích trong một số trường hợp.
Các động lực cho các thực hành khoa học tính toán tốt hơn có thể đi một chặng đường dài. Những thay đổi như vậy có thể liên quan đến việc đảm bảo sự sẵn có của mã và dữ liệu để giúp việc xác minh dễ dàng hơn, hoặc sâu hơn, chẳng hạn như tăng cường hợp tác giữa các chuyên gia lĩnh vực và các chuyên gia học máy.
Tách biệt sản xuất khỏi tiến bộ. Để giải quyết các thách thức nhận thức luận, cần có những thay đổi sâu sắc hơn. Những điều này nên được hướng dẫn bởi sự phân biệt rõ ràng giữa việc sản xuất các phát hiện riêng lẻ và tiến bộ trong trạng thái hiểu biết khoa học.
Khi dòng thác các phát hiện dựa trên AI tiếp tục, một phương pháp có thể giúp lấp đầy khoảng trống là mở rộng nỗ lực tổng hợp bằng chứng, thu thập bằng chứng từ các phát hiện riêng lẻ. Các đánh giá hệ thống có thể tổng hợp bằng chứng và phát hiện các khiếm khuyết đã biết. Cũng có nhu cầu quan trọng cho các tổng hợp ít hệ thống hơn, phê phán hơn, đặt câu hỏi về các phương pháp được chấp nhận, tiếp nhận các hình thức bằng chứng đa dạng, đối mặt với các tuyên bố dường như không tương thích và lý thuyết hóa các phát hiện hiện tại.
Đặt lại kỳ vọng. Các tuyên bố khoa học từ nghiên cứu dựa trên học máy nên được đối xử tạm thời cho đến khi chúng có thể được tái tạo một cách nghiêm ngặt. Mặc dù điều này áp dụng cho tất cả các phương pháp khác trong khoa học, cần thêm sự thận trọng trong lĩnh vực này.
Trong nghiên cứu AI, không giống như trong khoa học dựa trên học máy, bản thân các mô hình là chủ đề nghiên cứu, không phải hiện tượng cơ bản của bộ dữ liệu. Mục tiêu là dự đoán, và giải thích thường là mục tiêu thứ yếu xa. Bằng cách tiếp xúc tương đối ít với thế giới thực, nghiên cứu AI tận hưởng khả năng tái tạo không ma sát.
Trong các lĩnh vực khoa học mà giải thích là mục tiêu chính, chúng ta không nên kỳ vọng có thể bắt chước tốc độ và bản chất của tiến bộ trong AI, nơi các nhà nghiên cứu có thể nhanh chóng xác minh và xây dựng dựa trên phát hiện của nhau. Trong hầu hết các lĩnh vực khoa học, AI không có khả năng là giải pháp cho những lo ngại về sự chậm lại của tiến bộ.
Tài trợ chất lượng hơn số lượng. Các cơ quan tài trợ có rất nhiều quyền lực và trách nhiệm để thay đổi cách AI được áp dụng trong khoa học. Nhà tài trợ nên hướng tới chất lượng hơn số lượng. Cụ thể, các chương trình tài trợ AI cho khoa học nên phân bổ một phần nguồn lực cho các hoạt động chúng tôi khuyến nghị ở đây, như cải thiện đào tạo, khuyến khích nỗ lực tái tạo và mở rộng các sáng kiến tổng hợp bằng chứng.