Khoảng 50 năm trước, Homebrew Computer Club bắt đầu gặp gỡ tại Menlo Park, California, thúc đẩy văn hóa hợp tác và chia sẻ phần mềm - những giá trị đã định hình phong trào nguồn mở nhưng hiện đang bị một số công ty AI xuyên tạc.
Nhiều mô hình AI nền tảng được gắn nhãn "nguồn mở" chỉ vì kiến trúc của chúng được cung cấp miễn phí, trong khi rất ít thông tin về cách huấn luyện các mô hình này được tiết lộ.
Stefano Maffulli, giám đốc điều hành của Open Source Initiative (OSI), đã ưu tiên làm rõ ý nghĩa thực sự của thuật ngữ "nguồn mở" trong kỷ nguyên AI kể từ năm 2022.
Phần mềm nguồn mở truyền thống bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo và thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học chia sẻ dữ liệu và giải pháp một cách tự do.
Các giấy phép nguồn mở thông thường được xây dựng xung quanh mã nguồn, nhưng hệ thống AI khác biệt vì phụ thuộc nhiều vào dữ liệu huấn luyện, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật.
Phân tích của OSI cho thấy nhiều mô hình ngôn ngữ lớn phổ biến như Llama2, Llama 3.x (Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI) không tương thích với nguyên tắc nguồn mở.
Ngược lại, các mô hình như OLMo của Allen Institute for AI và dự án cộng đồng LLM360's CrystalCoder tuân thủ tốt hơn tầm nhìn nguồn mở của OSI.
Một số công ty có thể đang lạm dụng nhãn nguồn mở để tránh các quy định được đề xuất trong Đạo luật AI 2024 của Liên minh Châu Âu, vốn miễn trừ phần mềm miễn phí và nguồn mở khỏi sự giám sát nghiêm ngặt.
Thực tiễn này - các công ty tuyên bố mở trong khi hạn chế truy cập vào các thành phần chính như thông tin về dữ liệu huấn luyện - được gọi là "openwashing".
Năm 2022, OSI đã khởi động nỗ lực phát triển định nghĩa AI nguồn mở (OSAID), dẫn đến OSAID 1.0, tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.
OSAID giới thiệu khái niệm "thông tin dữ liệu" - yêu cầu công bố tất cả dữ liệu khi có thể về mặt pháp lý, hoặc ít nhất là tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị bộ dữ liệu huấn luyện.
Các nhà nghiên cứu nên đánh giá nghiêm túc các mô hình AI công khai và kiểm tra xem nhà phát triển có đang công bố tất cả chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.
Chính phủ và cơ quan tài trợ có thể thúc đẩy cộng đồng khoa học áp dụng các công cụ AI khuyến khích sự cởi mở và khả năng tái tạo thực sự, như Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phải phát hành dữ liệu và phần mềm nghiên cứu theo giấy phép mở.
📌 Thuật ngữ "nguồn mở" đang bị lạm dụng trong lĩnh vực AI khi nhiều công ty chỉ công khai kiến trúc nhưng giấu dữ liệu huấn luyện. OSAID 1.0 của OSI đặt ra tiêu chuẩn mới cho AI thực sự mở, đòi hỏi minh bạch về dữ liệu và quy trình, bảo vệ tính toàn vẹn khoa học và khả năng tái tạo nghiên cứu.
https://www.nature.com/articles/d41586-025-00930-6
#NATURE
Nhiều công ty đang sử dụng sai nhãn 'mã nguồn mở'. Cộng đồng khoa học, vốn dựa vào tính minh bạch và khả năng tái tạo, phải chống lại xu hướng này.
Tác giả: Stefano Maffulli
Cách đây khoảng 50 năm, Câu lạc bộ Máy tính Homebrew — một nhóm những người đam mê và sở thích máy tính tự làm — bắt đầu gặp gỡ tại Menlo Park, California, nuôi dưỡng một nền văn hóa hợp tác, trao đổi kiến thức và chia sẻ phần mềm một cách cởi mở. Những giá trị này, vốn đã giúp định hình phong trào mã nguồn mở, hiện đang bị một số công ty trí tuệ nhân tạo (AI) lạm dụng.
Nhiều mô hình AI nền tảng được dán nhãn là 'mã nguồn mở' vì kiến trúc của chúng, bao gồm cấu trúc và thiết kế của mạng nơ-ron, được cung cấp miễn phí. Tuy nhiên, rất ít thông tin được tiết lộ về cách các mô hình được đào tạo. Với tư cách là giám đốc điều hành của Sáng kiến Mã nguồn Mở (OSI) có trụ sở tại Palo Alto, California, ưu tiên của tôi từ năm 2022 là làm rõ thuật ngữ này thực sự có nghĩa gì trong kỷ nguyên AI.
Hàng thập kỷ tiếp cận miễn phí các phần mềm không độc quyền — như R Studio cho điện toán thống kê và OpenFOAM cho động lực học chất lỏng — đã thúc đẩy khám phá khoa học. Phần mềm mã nguồn mở bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo. Nó cũng thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học tự do chia sẻ dữ liệu và giải pháp.
Các giấy phép mã nguồn mở thông thường được xây dựng xung quanh mã nguồn, dễ dàng chia sẻ với sự minh bạch hoàn toàn, nhưng hệ thống AI thì khác. Chúng phụ thuộc nhiều vào dữ liệu đào tạo, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật, như thông tin chăm sóc sức khỏe.
Khi AI thúc đẩy các khám phá trong các lĩnh vực từ genomics đến mô hình hóa khí hậu, việc thiếu một sự đồng thuận mạnh mẽ về AI mã nguồn mở là gì và không phải là gì khiến chúng ta lo ngại. Trong tương lai, cộng đồng khoa học có thể thấy quyền truy cập của mình bị giới hạn vào các hệ thống doanh nghiệp đóng và các mô hình không thể xác minh.
Để các hệ thống AI phù hợp với phần mềm mã nguồn mở điển hình, chúng phải duy trì quyền tự do sử dụng, nghiên cứu, sửa đổi và chia sẻ các mô hình cơ bản của chúng. Mặc dù nhiều mô hình AI sử dụng nhãn 'mã nguồn mở' được tự do sử dụng và chia sẻ, nhưng không có khả năng truy cập dữ liệu đào tạo và mã nguồn hạn chế nghiêm trọng việc nghiên cứu và sửa đổi sâu hơn. Ví dụ, một phân tích của OSI phát hiện ra rằng một số mô hình ngôn ngữ lớn phổ biến, như Llama2 và Llama 3.x (phát triển bởi Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI), không tương thích với các nguyên tắc mã nguồn mở. Ngược lại, các mô hình như OLMo, được phát triển bởi Viện AI Allen, một tổ chức phi lợi nhuận ở Seattle, Washington, và các dự án do cộng đồng lãnh đạo như CrystalCoder của LLM360 — một mô hình ngôn ngữ được điều chỉnh để thực hiện cả nhiệm vụ lập trình và ngôn ngữ tự nhiên — ủng hộ tầm nhìn về mã nguồn mở của OSI tốt hơn.
Lý do chính khiến một số công ty có thể đang sử dụng sai nhãn mã nguồn mở là để tránh các quy định được đề xuất theo Đạo luật AI 2024 của Liên minh Châu Âu, miễn trừ phần mềm miễn phí và mở khỏi sự giám sát nghiêm ngặt. Thực tiễn này — các công ty tuyên bố sự cởi mở trong khi hạn chế quyền truy cập vào các thành phần chính như thông tin về dữ liệu đào tạo — được gọi là openwashing.
Để chống lại xu hướng này, vào năm 2022, OSI đã khởi động một nỗ lực kéo dài nhiều năm để phát triển định nghĩa AI mã nguồn mở (OSAID), thu thập ý kiến từ người tạo nội dung, chuyên gia pháp lý, nhà hoạch định chính sách và người tiêu dùng bị ảnh hưởng bởi AI. Chúng tôi tổ chức các hội thảo trên khắp Châu Mỹ, Châu Âu, Châu Á và Châu Phi, dẫn đến OSAID 1.0 (xem go.nature.com/4hh49dv), tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.
Một thách thức chính trong việc định nghĩa AI mã nguồn mở liên quan đến sự sẵn có của dữ liệu đào tạo. OSI đã giới thiệu khái niệm 'thông tin dữ liệu' — yêu cầu phát hành tất cả dữ liệu khi có thể theo pháp luật. Nhưng nếu chúng không thể được phân phối vì lý do pháp lý hoặc kỹ thuật, thông tin dữ liệu yêu cầu các nhà phát triển tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị của các bộ dữ liệu đào tạo. Điều này duy trì tính minh bạch, cho phép các nhà nghiên cứu đánh giá chất lượng dữ liệu và, nếu cần, sao chép quá trình đào tạo với dữ liệu thay thế, gần như tương đương.
Để thúc đẩy cuộc thảo luận về dữ liệu cơ bản cung cấp cho các hệ thống AI, OSI và tổ chức phi lợi nhuận Open Future có trụ sở tại Amsterdam đã phát hành một báo cáo vào tháng 2 năm nay (xem go.nature.com/4j2mxs5) kêu gọi chuyển từ 'dữ liệu mở' sang mô hình dữ liệu-commons toàn diện hơn.
Các nhà nghiên cứu và những người dựa vào AI cho công việc thực nghiệm có thể bắt đầu bằng cách tham gia với OSAID 1.0, một tài liệu đang sống. Họ phải đánh giá nghiêm ngặt các mô hình AI có sẵn công khai và kiểm tra xem các nhà phát triển có đang phát hành tất cả các chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.
Chính phủ và các cơ quan tài trợ có nhiều quyền lực để thúc đẩy cộng đồng khoa học hướng tới việc áp dụng các công cụ và kỹ thuật AI khuyến khích sự cởi mở thực sự và khả năng tái tạo. Ví dụ, Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phát hành dữ liệu và phần mềm liên quan đến nghiên cứu theo giấy phép mở, và các quốc gia như Ý yêu cầu phần mềm mã nguồn mở cho quản lý công. Bằng cách áp dụng các tiêu chuẩn đúng đắn, các cơ quan công quyền có thể đảm bảo rằng việc triển khai AI trong khoa học chứng minh là hữu ích hơn là có hại.