• Harvard công bố bộ dữ liệu chất lượng cao gồm gần 1 triệu cuốn sách thuộc phạm vi công cộng để huấn luyện mô hình ngôn ngữ lớn và các công cụ AI khác.
• Dự án được thực hiện bởi Sáng kiến dữ liệu thể chế (IDI) mới thành lập của Harvard, với tài trợ từ Microsoft và OpenAI.
• Bộ dữ liệu chứa sách được scan từ dự án Google Books không còn được bảo vệ bản quyền, lớn gấp 5 lần bộ dữ liệu Books3 nổi tiếng.
• Nội dung đa dạng về thể loại, thời đại và ngôn ngữ, bao gồm các tác phẩm kinh điển và sách giáo khoa hiếm.
• Greg Leppert, giám đốc điều hành IDI, cho biết dự án nhằm "san bằng sân chơi" bằng cách cung cấp cho công chúng quyền truy cập vào kho nội dung chất lượng cao.
• Microsoft hỗ trợ dự án phù hợp với niềm tin về giá trị của việc tạo ra "các nguồn dữ liệu có thể truy cập" cho các startup AI sử dụng.
• Dự án này xuất hiện trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang diễn ra.
• IDI cũng đang hợp tác với Thư viện công cộng Boston để scan hàng triệu bài báo thuộc phạm vi công cộng.
• Cách phát hành chính xác bộ dữ liệu sách vẫn chưa được quyết định, Harvard đang đề nghị Google hợp tác phân phối công khai.
• Nhiều dự án tương tự đang được triển khai, như Common Corpus của startup AI Pháp Pleis và Source.Plus của Spawning cho dữ liệu hình ảnh.
• Ed Newton-Rex, cựu giám đốc Stability AI, cho rằng các bộ dữ liệu này cho thấy không cần phải sử dụng trái phép tài liệu có bản quyền để xây dựng mô hình AI chất lượng cao.
• Tuy nhiên, ông vẫn lo ngại liệu các dự án này có thực sự thay đổi hiện trạng huấn luyện AI hay không.
📌 Harvard công bố bộ dữ liệu gần 1 triệu cuốn sách miễn phí để huấn luyện AI, được tài trợ bởi OpenAI và Microsoft. Dự án nhằm tạo sân chơi bình đẳng trong ngành AI, đồng thời đặt ra câu hỏi về tương lai của việc sử dụng dữ liệu có bản quyền trong phát triển AI.
https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
Harvard công bố bộ dữ liệu huấn luyện AI miễn phí khổng lồ do OpenAI và Microsoft tài trợ
Dự án được lãnh đạo với mục tiêu cho phép tất cả mọi người tiếp cận kho tàng sách thuộc phạm vi công cộng, nhằm "bình đẳng hóa sân chơi" trong ngành công nghiệp AI.
Ngày thứ Năm, Đại học Harvard thông báo sẽ phát hành một bộ dữ liệu chất lượng cao gồm gần một triệu cuốn sách thuộc phạm vi công cộng, cho phép bất kỳ ai cũng có thể sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) và các công cụ AI khác. Bộ dữ liệu này được tạo ra bởi Sáng kiến Dữ liệu của Viện (Institutional Data Initiative) mới được thành lập của Harvard, với nguồn tài trợ từ Microsoft và OpenAI. Nó bao gồm các cuốn sách được quét từ dự án Google Books, những cuốn sách không còn được bảo vệ bởi bản quyền.
Bộ dữ liệu này lớn gấp năm lần so với bộ dữ liệu Books3 nổi tiếng, vốn từng được sử dụng để huấn luyện các mô hình AI như Llama của Meta. Cơ sở dữ liệu này bao trùm nhiều thể loại, thời đại, và ngôn ngữ, bao gồm các tác phẩm kinh điển của Shakespeare, Charles Dickens, và Dante, cũng như những sách giáo khoa toán học tiếng Séc ít được biết đến và từ điển bỏ túi tiếng Wales.
Greg Leppert, giám đốc điều hành của Sáng kiến Dữ liệu của Viện, cho biết dự án này nhằm "bình đẳng hóa sân chơi" bằng cách cung cấp cho công chúng, bao gồm cả các công ty AI nhỏ và các nhà nghiên cứu cá nhân, quyền truy cập vào những kho lưu trữ nội dung được tinh chỉnh và sàng lọc mà trước đây chỉ có các công ty công nghệ lớn mới có đủ nguồn lực để xây dựng. "Dữ liệu này đã trải qua quá trình xem xét nghiêm ngặt," ông nói.
Leppert tin rằng cơ sở dữ liệu thuộc phạm vi công cộng này có thể được sử dụng cùng với các tài liệu có giấy phép khác để xây dựng các mô hình trí tuệ nhân tạo. "Tôi nghĩ về nó giống như cách mà Linux đã trở thành hệ điều hành nền tảng cho rất nhiều thứ trên thế giới," ông nhận định, lưu ý rằng các công ty vẫn cần sử dụng thêm dữ liệu huấn luyện để tạo ra sự khác biệt giữa các mô hình của họ với các đối thủ cạnh tranh.
Burton Davis, phó chủ tịch và phó cố vấn chung về sở hữu trí tuệ của Microsoft, nhấn mạnh rằng sự hỗ trợ của công ty đối với dự án này phù hợp với niềm tin rộng lớn hơn của họ về giá trị của việc tạo ra các "nguồn dữ liệu có thể tiếp cận được" dành cho các công ty AI khởi nghiệp sử dụng và được "quản lý vì lợi ích công cộng." Nói cách khác, Microsoft không nhất thiết lên kế hoạch thay thế tất cả dữ liệu huấn luyện AI mà họ đã sử dụng bằng các nguồn dữ liệu công cộng như những cuốn sách trong cơ sở dữ liệu mới của Harvard. “Chúng tôi sử dụng dữ liệu công khai để phục vụ mục đích huấn luyện các mô hình của mình,” Davis nói.
Trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang được đưa ra tòa, tương lai của cách các công cụ trí tuệ nhân tạo được xây dựng vẫn còn đang chờ quyết định. Nếu các công ty AI thắng kiện, họ sẽ có thể tiếp tục thu thập dữ liệu từ Internet mà không cần ký thỏa thuận cấp phép với chủ sở hữu bản quyền. Nhưng nếu thua, các công ty AI có thể buộc phải đại tu cách thức xây dựng mô hình của mình.
Nhiều dự án như cơ sở dữ liệu của Harvard đang tiếp tục tiến hành với giả định rằng — bất kể điều gì xảy ra — nhu cầu đối với các tập dữ liệu công cộng sẽ tiếp tục tăng.
Ngoài kho sách, Sáng kiến Dữ liệu của Viện cũng đang hợp tác với Thư viện Công cộng Boston để quét hàng triệu bài báo từ các tờ báo hiện đã thuộc phạm vi công cộng, và tổ chức này cũng sẵn sàng hợp tác với các dự án tương tự trong tương lai. Phương thức phát hành bộ dữ liệu sách hiện vẫn chưa được quyết định.
Sáng kiến Dữ liệu của Viện đã yêu cầu Google hợp tác trong việc phân phối công khai, nhưng gã khổng lồ tìm kiếm này vẫn chưa chính thức đồng ý, dù Harvard cho biết họ lạc quan về khả năng hợp tác. (Google không phản hồi các yêu cầu bình luận của WIRED.)
Dù bộ dữ liệu của IDI được phát hành dưới hình thức nào, nó sẽ gia nhập hàng loạt các dự án, công ty khởi nghiệp, và sáng kiến khác hứa hẹn cung cấp cho các công ty quyền truy cập vào những tài liệu huấn luyện AI chất lượng cao mà không gặp rủi ro vi phạm bản quyền.
Mùa xuân năm ngoái, startup AI của Pháp Pleis đã phát hành một tập dữ liệu công cộng của riêng mình, Common Corpus, chứa khoảng 3-4 triệu sách và bộ sưu tập định kỳ, theo điều phối viên dự án Pierre-Carl Langlais. Được Bộ Văn hóa Pháp hậu thuẫn, Common Corpus đã được tải xuống hơn 60 000 lần trong tháng này trên nền tảng mã nguồn mở Hugging Face. Tuần trước, Pleis thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này, mà Langlais cho biết là “mô hình đầu tiên từng được huấn luyện hoàn toàn trên dữ liệu mở và tuân thủ Đạo luật AI của EU.”
Các nỗ lực cũng đang được thực hiện để tạo ra các tập dữ liệu hình ảnh tương tự. Startup AI Spawning đã phát hành Source.Plus vào mùa hè này, bao gồm hình ảnh công cộng từ Wikimedia Commons và một loạt các bảo tàng, kho lưu trữ.
Ed Newton-Rex, cựu giám đốc Stability AI và hiện điều hành một tổ chức phi lợi nhuận chuyên chứng nhận các công cụ AI được đào tạo một cách đạo đức, cho rằng sự gia tăng các tập dữ liệu như thế này cho thấy không cần phải "ăn cắp" tài liệu có bản quyền để xây dựng các mô hình AI chất lượng cao.
Tuy nhiên, Newton-Rex vẫn có những e ngại liệu các dự án như IDI có thực sự thay đổi hiện trạng đào tạo hay không. “Các tập dữ liệu này sẽ chỉ có tác động tích cực nếu chúng được sử dụng, có thể kết hợp với việc cấp phép các dữ liệu khác, để thay thế cho các tác phẩm có bản quyền đã bị thu thập trái phép,” ông nói. "Nếu chúng chỉ được thêm vào, như một phần của một tập dữ liệu cũng bao gồm tác phẩm không được cấp phép, thì lợi ích chủ yếu vẫn thuộc về các công ty AI."
However IDI’s dataset is released, it will be joining a host of similar projects, startups, and initiatives that promise to give companies access to substantial and high-quality AI training materials without the risk of running into copyright issues. Firms like Calliope Networks and ProRata have emerged to issue licenses and design compensation schemes designed to get creators and rightholders paid for providing AI training data.