Sự thật về AI "nguồn mở": Khi các công ty lớn che giấu dữ liệu huấn luyện dưới vỏ bọc minh bạch

  • Khoảng 50 năm trước, Homebrew Computer Club bắt đầu gặp gỡ tại Menlo Park, California, thúc đẩy văn hóa hợp tác và chia sẻ phần mềm - những giá trị đã định hình phong trào nguồn mở nhưng hiện đang bị một số công ty AI xuyên tạc.

  • Nhiều mô hình AI nền tảng được gắn nhãn "nguồn mở" chỉ vì kiến trúc của chúng được cung cấp miễn phí, trong khi rất ít thông tin về cách huấn luyện các mô hình này được tiết lộ.

  • Stefano Maffulli, giám đốc điều hành của Open Source Initiative (OSI), đã ưu tiên làm rõ ý nghĩa thực sự của thuật ngữ "nguồn mở" trong kỷ nguyên AI kể từ năm 2022.

  • Phần mềm nguồn mở truyền thống bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo và thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học chia sẻ dữ liệu và giải pháp một cách tự do.

  • Các giấy phép nguồn mở thông thường được xây dựng xung quanh mã nguồn, nhưng hệ thống AI khác biệt vì phụ thuộc nhiều vào dữ liệu huấn luyện, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật.

  • Phân tích của OSI cho thấy nhiều mô hình ngôn ngữ lớn phổ biến như Llama2, Llama 3.x (Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI) không tương thích với nguyên tắc nguồn mở.

  • Ngược lại, các mô hình như OLMo của Allen Institute for AI và dự án cộng đồng LLM360's CrystalCoder tuân thủ tốt hơn tầm nhìn nguồn mở của OSI.

  • Một số công ty có thể đang lạm dụng nhãn nguồn mở để tránh các quy định được đề xuất trong Đạo luật AI 2024 của Liên minh Châu Âu, vốn miễn trừ phần mềm miễn phí và nguồn mở khỏi sự giám sát nghiêm ngặt.

  • Thực tiễn này - các công ty tuyên bố mở trong khi hạn chế truy cập vào các thành phần chính như thông tin về dữ liệu huấn luyện - được gọi là "openwashing".

  • Năm 2022, OSI đã khởi động nỗ lực phát triển định nghĩa AI nguồn mở (OSAID), dẫn đến OSAID 1.0, tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.

  • OSAID giới thiệu khái niệm "thông tin dữ liệu" - yêu cầu công bố tất cả dữ liệu khi có thể về mặt pháp lý, hoặc ít nhất là tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị bộ dữ liệu huấn luyện.

  • Các nhà nghiên cứu nên đánh giá nghiêm túc các mô hình AI công khai và kiểm tra xem nhà phát triển có đang công bố tất cả chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.

  • Chính phủ và cơ quan tài trợ có thể thúc đẩy cộng đồng khoa học áp dụng các công cụ AI khuyến khích sự cởi mở và khả năng tái tạo thực sự, như Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phải phát hành dữ liệu và phần mềm nghiên cứu theo giấy phép mở.

📌 Thuật ngữ "nguồn mở" đang bị lạm dụng trong lĩnh vực AI khi nhiều công ty chỉ công khai kiến trúc nhưng giấu dữ liệu huấn luyện. OSAID 1.0 của OSI đặt ra tiêu chuẩn mới cho AI thực sự mở, đòi hỏi minh bạch về dữ liệu và quy trình, bảo vệ tính toàn vẹn khoa học và khả năng tái tạo nghiên cứu.

https://www.nature.com/articles/d41586-025-00930-6

#NATURE

AI 'mã nguồn mở' không thực sự mở — đây là cách các nhà nghiên cứu có thể lấy lại thuật ngữ này

Nhiều công ty đang sử dụng sai nhãn 'mã nguồn mở'. Cộng đồng khoa học, vốn dựa vào tính minh bạch và khả năng tái tạo, phải chống lại xu hướng này.

Tác giả: Stefano Maffulli

Cách đây khoảng 50 năm, Câu lạc bộ Máy tính Homebrew — một nhóm những người đam mê và sở thích máy tính tự làm — bắt đầu gặp gỡ tại Menlo Park, California, nuôi dưỡng một nền văn hóa hợp tác, trao đổi kiến thức và chia sẻ phần mềm một cách cởi mở. Những giá trị này, vốn đã giúp định hình phong trào mã nguồn mở, hiện đang bị một số công ty trí tuệ nhân tạo (AI) lạm dụng.

Nhiều mô hình AI nền tảng được dán nhãn là 'mã nguồn mở' vì kiến trúc của chúng, bao gồm cấu trúc và thiết kế của mạng nơ-ron, được cung cấp miễn phí. Tuy nhiên, rất ít thông tin được tiết lộ về cách các mô hình được đào tạo. Với tư cách là giám đốc điều hành của Sáng kiến Mã nguồn Mở (OSI) có trụ sở tại Palo Alto, California, ưu tiên của tôi từ năm 2022 là làm rõ thuật ngữ này thực sự có nghĩa gì trong kỷ nguyên AI.

Hàng thập kỷ tiếp cận miễn phí các phần mềm không độc quyền — như R Studio cho điện toán thống kê và OpenFOAM cho động lực học chất lỏng — đã thúc đẩy khám phá khoa học. Phần mềm mã nguồn mở bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo. Nó cũng thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học tự do chia sẻ dữ liệu và giải pháp.

Các giấy phép mã nguồn mở thông thường được xây dựng xung quanh mã nguồn, dễ dàng chia sẻ với sự minh bạch hoàn toàn, nhưng hệ thống AI thì khác. Chúng phụ thuộc nhiều vào dữ liệu đào tạo, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật, như thông tin chăm sóc sức khỏe.

Khi AI thúc đẩy các khám phá trong các lĩnh vực từ genomics đến mô hình hóa khí hậu, việc thiếu một sự đồng thuận mạnh mẽ về AI mã nguồn mở là gì và không phải là gì khiến chúng ta lo ngại. Trong tương lai, cộng đồng khoa học có thể thấy quyền truy cập của mình bị giới hạn vào các hệ thống doanh nghiệp đóng và các mô hình không thể xác minh.

Để các hệ thống AI phù hợp với phần mềm mã nguồn mở điển hình, chúng phải duy trì quyền tự do sử dụng, nghiên cứu, sửa đổi và chia sẻ các mô hình cơ bản của chúng. Mặc dù nhiều mô hình AI sử dụng nhãn 'mã nguồn mở' được tự do sử dụng và chia sẻ, nhưng không có khả năng truy cập dữ liệu đào tạo và mã nguồn hạn chế nghiêm trọng việc nghiên cứu và sửa đổi sâu hơn. Ví dụ, một phân tích của OSI phát hiện ra rằng một số mô hình ngôn ngữ lớn phổ biến, như Llama2 và Llama 3.x (phát triển bởi Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI), không tương thích với các nguyên tắc mã nguồn mở. Ngược lại, các mô hình như OLMo, được phát triển bởi Viện AI Allen, một tổ chức phi lợi nhuận ở Seattle, Washington, và các dự án do cộng đồng lãnh đạo như CrystalCoder của LLM360 — một mô hình ngôn ngữ được điều chỉnh để thực hiện cả nhiệm vụ lập trình và ngôn ngữ tự nhiên — ủng hộ tầm nhìn về mã nguồn mở của OSI tốt hơn.

Lý do chính khiến một số công ty có thể đang sử dụng sai nhãn mã nguồn mở là để tránh các quy định được đề xuất theo Đạo luật AI 2024 của Liên minh Châu Âu, miễn trừ phần mềm miễn phí và mở khỏi sự giám sát nghiêm ngặt. Thực tiễn này — các công ty tuyên bố sự cởi mở trong khi hạn chế quyền truy cập vào các thành phần chính như thông tin về dữ liệu đào tạo — được gọi là openwashing.

Để chống lại xu hướng này, vào năm 2022, OSI đã khởi động một nỗ lực kéo dài nhiều năm để phát triển định nghĩa AI mã nguồn mở (OSAID), thu thập ý kiến từ người tạo nội dung, chuyên gia pháp lý, nhà hoạch định chính sách và người tiêu dùng bị ảnh hưởng bởi AI. Chúng tôi tổ chức các hội thảo trên khắp Châu Mỹ, Châu Âu, Châu Á và Châu Phi, dẫn đến OSAID 1.0 (xem go.nature.com/4hh49dv), tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.

Một thách thức chính trong việc định nghĩa AI mã nguồn mở liên quan đến sự sẵn có của dữ liệu đào tạo. OSI đã giới thiệu khái niệm 'thông tin dữ liệu' — yêu cầu phát hành tất cả dữ liệu khi có thể theo pháp luật. Nhưng nếu chúng không thể được phân phối vì lý do pháp lý hoặc kỹ thuật, thông tin dữ liệu yêu cầu các nhà phát triển tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị của các bộ dữ liệu đào tạo. Điều này duy trì tính minh bạch, cho phép các nhà nghiên cứu đánh giá chất lượng dữ liệu và, nếu cần, sao chép quá trình đào tạo với dữ liệu thay thế, gần như tương đương.

Để thúc đẩy cuộc thảo luận về dữ liệu cơ bản cung cấp cho các hệ thống AI, OSI và tổ chức phi lợi nhuận Open Future có trụ sở tại Amsterdam đã phát hành một báo cáo vào tháng 2 năm nay (xem go.nature.com/4j2mxs5) kêu gọi chuyển từ 'dữ liệu mở' sang mô hình dữ liệu-commons toàn diện hơn.

Các nhà nghiên cứu và những người dựa vào AI cho công việc thực nghiệm có thể bắt đầu bằng cách tham gia với OSAID 1.0, một tài liệu đang sống. Họ phải đánh giá nghiêm ngặt các mô hình AI có sẵn công khai và kiểm tra xem các nhà phát triển có đang phát hành tất cả các chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.

Chính phủ và các cơ quan tài trợ có nhiều quyền lực để thúc đẩy cộng đồng khoa học hướng tới việc áp dụng các công cụ và kỹ thuật AI khuyến khích sự cởi mở thực sự và khả năng tái tạo. Ví dụ, Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phát hành dữ liệu và phần mềm liên quan đến nghiên cứu theo giấy phép mở, và các quốc gia như Ý yêu cầu phần mềm mã nguồn mở cho quản lý công. Bằng cách áp dụng các tiêu chuẩn đúng đắn, các cơ quan công quyền có thể đảm bảo rằng việc triển khai AI trong khoa học chứng minh là hữu ích hơn là có hại.

 

‘Open source’ AI isn’t truly open — here’s how researchers can reclaim the term

 
Many firms are misusing the ‘open source’ label. The scientific community, which relies on transparency and replicability, must resist this trend.
 
 
Some 50 years ago this month, the Homebrew Computer Club — a do-it-yourself group of computer enthusiasts and hobbyists — began meeting in Menlo Park, California, fostering a culture of collaboration, knowledge exchange and the open sharing of software. These values, which helped to shape the open-source movement, are now being subverted by some artificial intelligence (AI) companies.
AI firms must play fair when they use academic data in training
Many foundational AI models are labelled as ‘open source’ because their architecture, including the neural networks’ structure and design, is made freely available. Yet, little information is disclosed about how the models were trained. As the executive director of the Open Source Initiative (OSI) based in Palo Alto, California, my priority since 2022 has been clarifying what the term actually means in the AI era.
Decades of free access to non-proprietary software — such as R Studio for statistical computing and OpenFOAM for fluid dynamics — has hastened scientific discovery. Open-source software protects research integrity by ensuring reproducibility. It also fosters global collaboration, allowing scientists to freely share data and solutions.
Conventional open-source licences are built around source code, which is easy to share with full transparency, but AI systems are different. They rely heavily on training data, often from proprietary sources or that are protected by privacy laws, such as health-care information.
As AI drives discoveries in fields ranging from genomics to climate modelling, the lack of a robust consensus on what is and isn’t open-source AI is worrying. In the future, the scientific community could find its access limited to closed corporate systems and unverifiable models.
For AI systems to align with typical open-source software, they must uphold the freedom to use, study, modify and share their underlying models. Although many AI models that use the ‘open source’ tag are free to use and share, the inability to access the training data and source code severely restricts deeper study and modification . For example, an analysis by OSI found that several popular large language models, such as Llama2 and Llama 3.x (developed by Meta), Grok (X), Phi-2 (Microsoft) and Mixtral (Mistral AI), are incompatible with open-source principles. By contrast, models such as OLMo, developed by the Allen Institute for AI, a non-profit organization in Seattle, Washington, and community-led projects such as LLM360’s CrystalCoder — a language model tailored to perform both programming and natural-language tasks — better uphold OSI’s vision of open source.
The main reason why some companies might be misusing the open-source label is to sidestep proposed regulations under the European Union’s 2024 AI Act, which exempts free and open software from strict scrutiny. This practice — companies claiming openness while restricting access to key components such as information about the training data — is called openwashing.
To combat this trend, in 2022, OSI launched a multi-year effort to develop an open-source AI definition (OSAID), gathering input from content creators, legal specialists, policymakers and consumers who are affected by AI. We held workshops across the Americas, Europe, Asia and Africa, leading to OSAID 1.0 (see go.nature.com/4hh49dv), the first formal standard for truly open AI systems.
Related
How to harness AI’s potential in research — responsibly and ethically
A key challenge in defining open-source AI concerns the availability of training data. OSI introduced the concept of ‘data information’ — mandating the release of all data when legally possible. But if they cannot be distributed for legal or technical reasons, data information requires developers to disclose the sources, characteristics and preparation methods of training data sets. This preserves transparency, allowing researchers to assess data quality and, if needed, replicate the training process with alternative, nearly equivalent data.
To advance the discussion about the underlying data that feed AI systems, OSI and the Amsterdam-based non-profit organization Open Future released a white paper this February (see go.nature.com/4j2mxs5) calling for a transition from ‘open data’ to a more inclusive data-commons model.
Researchers and those who rely on AI for empirical work can make a start by engaging with OSAID 1.0, which is a living document. They must rigorously evaluate publicly available AI models and probe whether the developers are releasing all the necessary details, data and tools required to build an analogous AI system.
Governments and funding agencies have a lot of power to nudge scientific communities towards adopting AI tools and techniques that encourage genuine openness and replicability. For instance, the US National Institutes of Health requires grantees to release research-associated data and software under an open licence, and countries such as Italy mandate open-source software for public administration. By adopting the right standards, public authorities can ensure that the deployment of AI in science proves to be useful rather than harmful.

 

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo