Harvard tung "bom tấn" dữ liệu: Gần 1 triệu cuốn sách miễn phí để huấn luyện AI

• Harvard công bố bộ dữ liệu chất lượng cao gồm gần 1 triệu cuốn sách thuộc phạm vi công cộng để huấn luyện mô hình ngôn ngữ lớn và các công cụ AI khác.

• Dự án được thực hiện bởi Sáng kiến dữ liệu thể chế (IDI) mới thành lập của Harvard, với tài trợ từ Microsoft và OpenAI.

Bộ dữ liệu chứa sách được scan từ dự án Google Books không còn được bảo vệ bản quyền, lớn gấp 5 lần bộ dữ liệu Books3 nổi tiếng.

• Nội dung đa dạng về thể loại, thời đại và ngôn ngữ, bao gồm các tác phẩm kinh điển và sách giáo khoa hiếm.

Greg Leppert, giám đốc điều hành IDI, cho biết dự án nhằm "san bằng sân chơi" bằng cách cung cấp cho công chúng quyền truy cập vào kho nội dung chất lượng cao.

• Microsoft hỗ trợ dự án phù hợp với niềm tin về giá trị của việc tạo ra "các nguồn dữ liệu có thể truy cập" cho các startup AI sử dụng.

• Dự án này xuất hiện trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang diễn ra.

IDI cũng đang hợp tác với Thư viện công cộng Boston để scan hàng triệu bài báo thuộc phạm vi công cộng.

• Cách phát hành chính xác bộ dữ liệu sách vẫn chưa được quyết định, Harvard đang đề nghị Google hợp tác phân phối công khai.

• Nhiều dự án tương tự đang được triển khai, như Common Corpus của startup AI Pháp Pleis và Source.Plus của Spawning cho dữ liệu hình ảnh.

• Ed Newton-Rex, cựu giám đốc Stability AI, cho rằng các bộ dữ liệu này cho thấy không cần phải sử dụng trái phép tài liệu có bản quyền để xây dựng mô hình AI chất lượng cao.

• Tuy nhiên, ông vẫn lo ngại liệu các dự án này có thực sự thay đổi hiện trạng huấn luyện AI hay không.

📌 Harvard công bố bộ dữ liệu gần 1 triệu cuốn sách miễn phí để huấn luyện AI, được tài trợ bởi OpenAI và Microsoft. Dự án nhằm tạo sân chơi bình đẳng trong ngành AI, đồng thời đặt ra câu hỏi về tương lai của việc sử dụng dữ liệu có bản quyền trong phát triển AI.

https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/

 

Harvard công bố bộ dữ liệu huấn luyện AI miễn phí khổng lồ do OpenAI và Microsoft tài trợ
Dự án được lãnh đạo với mục tiêu cho phép tất cả mọi người tiếp cận kho tàng sách thuộc phạm vi công cộng, nhằm "bình đẳng hóa sân chơi" trong ngành công nghiệp AI.

 

Ngày thứ Năm, Đại học Harvard thông báo sẽ phát hành một bộ dữ liệu chất lượng cao gồm gần một triệu cuốn sách thuộc phạm vi công cộng, cho phép bất kỳ ai cũng có thể sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) và các công cụ AI khác. Bộ dữ liệu này được tạo ra bởi Sáng kiến Dữ liệu của Viện (Institutional Data Initiative) mới được thành lập của Harvard, với nguồn tài trợ từ Microsoft và OpenAI. Nó bao gồm các cuốn sách được quét từ dự án Google Books, những cuốn sách không còn được bảo vệ bởi bản quyền.

Bộ dữ liệu này lớn gấp năm lần so với bộ dữ liệu Books3 nổi tiếng, vốn từng được sử dụng để huấn luyện các mô hình AI như Llama của Meta. Cơ sở dữ liệu này bao trùm nhiều thể loại, thời đại, và ngôn ngữ, bao gồm các tác phẩm kinh điển của Shakespeare, Charles Dickens, và Dante, cũng như những sách giáo khoa toán học tiếng Séc ít được biết đến và từ điển bỏ túi tiếng Wales.

Greg Leppert, giám đốc điều hành của Sáng kiến Dữ liệu của Viện, cho biết dự án này nhằm "bình đẳng hóa sân chơi" bằng cách cung cấp cho công chúng, bao gồm cả các công ty AI nhỏ và các nhà nghiên cứu cá nhân, quyền truy cập vào những kho lưu trữ nội dung được tinh chỉnh và sàng lọc mà trước đây chỉ có các công ty công nghệ lớn mới có đủ nguồn lực để xây dựng. "Dữ liệu này đã trải qua quá trình xem xét nghiêm ngặt," ông nói.

Leppert tin rằng cơ sở dữ liệu thuộc phạm vi công cộng này có thể được sử dụng cùng với các tài liệu có giấy phép khác để xây dựng các mô hình trí tuệ nhân tạo. "Tôi nghĩ về nó giống như cách mà Linux đã trở thành hệ điều hành nền tảng cho rất nhiều thứ trên thế giới," ông nhận định, lưu ý rằng các công ty vẫn cần sử dụng thêm dữ liệu huấn luyện để tạo ra sự khác biệt giữa các mô hình của họ với các đối thủ cạnh tranh.

Tạo ra một nguồn dữ liệu "công bằng" cho AI

Burton Davis, phó chủ tịch và phó cố vấn chung về sở hữu trí tuệ của Microsoft, nhấn mạnh rằng sự hỗ trợ của công ty đối với dự án này phù hợp với niềm tin rộng lớn hơn của họ về giá trị của việc tạo ra các "nguồn dữ liệu có thể tiếp cận được" dành cho các công ty AI khởi nghiệp sử dụng và được "quản lý vì lợi ích công cộng." Nói cách khác, Microsoft không nhất thiết lên kế hoạch thay thế tất cả dữ liệu huấn luyện AI mà họ đã sử dụng bằng các nguồn dữ liệu công cộng như những cuốn sách trong cơ sở dữ liệu mới của Harvard. “Chúng tôi sử dụng dữ liệu công khai để phục vụ mục đích huấn luyện các mô hình của mình,” Davis nói.

Trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang được đưa ra tòa, tương lai của cách các công cụ trí tuệ nhân tạo được xây dựng vẫn còn đang chờ quyết định. Nếu các công ty AI thắng kiện, họ sẽ có thể tiếp tục thu thập dữ liệu từ Internet mà không cần ký thỏa thuận cấp phép với chủ sở hữu bản quyền. Nhưng nếu thua, các công ty AI có thể buộc phải đại tu cách thức xây dựng mô hình của mình.

Nhiều dự án như cơ sở dữ liệu của Harvard đang tiếp tục tiến hành với giả định rằng — bất kể điều gì xảy ra — nhu cầu đối với các tập dữ liệu công cộng sẽ tiếp tục tăng.

Mở rộng hợp tác để phát hành dữ liệu công cộng

Ngoài kho sách, Sáng kiến Dữ liệu của Viện cũng đang hợp tác với Thư viện Công cộng Boston để quét hàng triệu bài báo từ các tờ báo hiện đã thuộc phạm vi công cộng, và tổ chức này cũng sẵn sàng hợp tác với các dự án tương tự trong tương lai. Phương thức phát hành bộ dữ liệu sách hiện vẫn chưa được quyết định.

Sáng kiến Dữ liệu của Viện đã yêu cầu Google hợp tác trong việc phân phối công khai, nhưng gã khổng lồ tìm kiếm này vẫn chưa chính thức đồng ý, dù Harvard cho biết họ lạc quan về khả năng hợp tác. (Google không phản hồi các yêu cầu bình luận của WIRED.)

Dù bộ dữ liệu của IDI được phát hành dưới hình thức nào, nó sẽ gia nhập hàng loạt các dự án, công ty khởi nghiệp, và sáng kiến khác hứa hẹn cung cấp cho các công ty quyền truy cập vào những tài liệu huấn luyện AI chất lượng cao mà không gặp rủi ro vi phạm bản quyền.

Các dự án dữ liệu công cộng khác

Mùa xuân năm ngoái, startup AI của Pháp Pleis đã phát hành một tập dữ liệu công cộng của riêng mình, Common Corpus, chứa khoảng 3-4 triệu sách và bộ sưu tập định kỳ, theo điều phối viên dự án Pierre-Carl Langlais. Được Bộ Văn hóa Pháp hậu thuẫn, Common Corpus đã được tải xuống hơn 60 000 lần trong tháng này trên nền tảng mã nguồn mở Hugging Face. Tuần trước, Pleis thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này, mà Langlais cho biết là “mô hình đầu tiên từng được huấn luyện hoàn toàn trên dữ liệu mở và tuân thủ Đạo luật AI của EU.”

Các nỗ lực cũng đang được thực hiện để tạo ra các tập dữ liệu hình ảnh tương tự. Startup AI Spawning đã phát hành Source.Plus vào mùa hè này, bao gồm hình ảnh công cộng từ Wikimedia Commons và một loạt các bảo tàng, kho lưu trữ.

Ed Newton-Rex, cựu giám đốc Stability AI và hiện điều hành một tổ chức phi lợi nhuận chuyên chứng nhận các công cụ AI được đào tạo một cách đạo đức, cho rằng sự gia tăng các tập dữ liệu như thế này cho thấy không cần phải "ăn cắp" tài liệu có bản quyền để xây dựng các mô hình AI chất lượng cao.

Tuy nhiên, Newton-Rex vẫn có những e ngại liệu các dự án như IDI có thực sự thay đổi hiện trạng đào tạo hay không. “Các tập dữ liệu này sẽ chỉ có tác động tích cực nếu chúng được sử dụng, có thể kết hợp với việc cấp phép các dữ liệu khác, để thay thế cho các tác phẩm có bản quyền đã bị thu thập trái phép,” ông nói. "Nếu chúng chỉ được thêm vào, như một phần của một tập dữ liệu cũng bao gồm tác phẩm không được cấp phép, thì lợi ích chủ yếu vẫn thuộc về các công ty AI."

Harvard Is Releasing a Massive Free AI Training Dataset Funded by OpenAI and Microsoft

The project’s leader says that allowing everyone to access the collection of public-domain books will help “level the playing field” in the AI industry.
 
Harvard University announced Thursday it’s releasing a high-quality dataset of nearly one million public-domain books that could be used by anyone to train large language models and other AI tools. The dataset was created by Harvard’s newly formed Institutional Data Initiative with funding from both Microsoft and OpenAI. It contains books scanned as part of the Google Books project that are no longer protected by copyright.
Around five times the size of the notorious Books3 dataset that was used to train AI models like Meta’s Llama, the Institutional Data Initiative's database spans genres, decades, and languages, with classics from Shakespeare, Charles Dickens, and Dante included alongside obscure Czech math textbooks and Welsh pocket dictionaries. Greg Leppert, executive director of the Institutional Data Initiative, says the project is an attempt to “level the playing field” by giving the general public, including small players in the AI industry and individual researchers, access to the sort of highly-refined and curated content repositories that normally only established tech giants have the resources to assemble. “It's gone through rigorous review,” he says.
 
 
Leppert believes the new public domain database could be used in conjunction with other licensed materials to build artificial intelligence models. “I think about it a bit like the way that Linux has become a foundational operating system for so much of the world,” he says, noting that companies would still need to use additional training data to differentiate their models from those of their competitors.

Burton Davis, Microsoft’s vice president and deputy general counsel for intellectual property, emphasized that the company’s support for the project was in line with its broader beliefs about the value of creating “pools of accessible data” for AI startups to use that are “managed in the public’s interest.” In other words, Microsoft isn’t necessarily planning to swap out all of the AI training data it has used in its own models with public domain alternatives like the books in the new Harvard database. “We use publicly available data for the purposes of training our models,” Davis says.
As dozens of lawsuits filed over the use of copyrighted data for training AI wind their way through the courts, the future of how artificial intelligence tools are built hangs in the balance. If AI companies win their cases, they’ll be able to keep scraping the internet without needing to enter into licensing agreements with copyright holders. But if they lose, AI companies could be forced to overhaul how their models get made. A wave of projects like the Harvard database are plowing forward under the assumption that—no matter what happens—there will be an appetite for public domain datasets.
In addition to the trove of books, the Institutional Data Initiative is also working with the Boston Public Library to scan millions of articles from different newspapers now in the public domain, and it says it’s open to forming similar collaborations down the line. The exact way the books dataset will be released is not settled. The Institutional Data Initiative has asked Google to work together on public distribution, but the search giant hasn’t publicly agreed to host it yet, though Harvard says it’s optimistic it will. (Google did not respond to WIRED’s requests for comment.)
 

However IDI’s dataset is released, it will be joining a host of similar projects, startups, and initiatives that promise to give companies access to substantial and high-quality AI training materials without the risk of running into copyright issues. Firms like Calliope Networks and ProRata have emerged to issue licenses and design compensation schemes designed to get creators and rightholders paid for providing AI training data.

 
There are also other new public-domain projects. Last spring, the French AI startup Pleis rolled out its own public-domain dataset, Common Corpus, which contains an estimated 3 to 4 million books and periodical collections, according to project coordinator Pierre-Carl Langlais. Backed by the French Ministry of Culture, the Common Corpus has been downloaded over 60,000 times this month alone on the open source AI platform Hugging Face. Last week, Pleis announced that it is releasing its first set of large language models trained on this dataset, which Langlais told WIRED constitute the first models “ever trained exclusively on open data and compliant with the [EU] AI Act.”
Efforts are underway to create similar mage datasets as well. AI startup Spawning released its own this summer called Source.Plus, which contains public-domain images from Wikimedia Commons as well as a variety of museums and archives. Several significant cultural institutions have long made their own archives accessible to the public as standalone projects, like the Metropolitan Museum of Art.
Ed Newton-Rex, a former executive at Stability AI who now runs a nonprofit that certifies ethically-trained AI tools, says the rise of these datasets shows that there’s no need to steal copyrighted materials to build high-performing and quality AI models. OpenAI previously told lawmakers in the United Kingdom that it would be “impossible” to create products like ChatGPT without using copyrighted works. “Large public domain datasets like these further demolish the 'necessity defense' some AI companies use to justify scraping copyrighted work to train their models,” Newton-Rex says.
But he still has reservations about whether the IDI and projects like it will actually change the training status quo. “These datasets will only have a positive impact if they're used, probably in conjunction with licensing other data, to replace scraped copyrighted work. If they're just added to the mix, one part of a dataset that also includes the unlicensed life's work of the world's creators, they'll overwhelmingly benefit AI companies,” he says.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo