AI data

View All

AI data 2025-08-12 23:15:57

UAE dùng AI để xây kho ngôn ngữ tiếng Ả Rập lớn nhất thế giới

UAE triển khai chiến lược quốc gia bảo tồn và hiện đại hóa tiếng Ả Rập bằng AI, kết hợp bảo tồn di sản ngôn ngữ với nâng cao hiện diện kỹ thuật số toàn cầu.
Từ điển lịch sử tiếng Ả Rập: do Học viện Ngôn ngữ Ả Rập Sharjah phát triển, gồm 127 tập, 20 triệu từ, tích hợp GPT cho tra cứu tương tác, hỗ trợ đọc, viết, chuyển đổi nội dung thành video và tính năng cộng tác qua Emirates Scholar Research Centre.
Kho tri thức số: Quỹ Tri thức Mohammed bin Rashid Al Maktoum vận hành, lưu trữ hơn 800.000 đầu sách, 8,5 triệu tài nguyên số từ 18+ thư viện, chuẩn hóa dữ liệu để mở rộng truy cập toàn cầu.
Từ điển AI của Trung tâm Ngôn ngữ Ả Rập Abu Dhabi: từ điển Ả Rập–Anh đầu tiên dùng AI, chứa 7.000+ thuật ngữ hiện đại, phát âm tự động, định nghĩa đơn giản, công cụ ngôn ngữ học tính toán.
BAREC (Balanced Arabic Readability Corpus): bộ ngữ liệu 10 triệu từ để đánh giá độ dễ đọc, hỗ trợ học tiếng Ả Rập, chú giải về chính tả, ngữ pháp, từ vựng, mã nguồn mở cho cộng đồng nghiên cứu.
Falcon Arabic: mô hình AI ngôn ngữ bản địa do TII phát triển, huấn luyện trên dữ liệu tiếng Ả Rập chuẩn và phương ngữ, tối ưu hiệu suất, phát triển hoàn toàn tại UAE. Phiên bản nhỏ gọn Falcon H1 vượt hiệu năng so với các mô hình cùng kích thước của Meta và Alibaba.
Ứng dụng AI trong xuất bản: khu “Digital square” tại Hội sách quốc tế Abu Dhabi, trình diễn ứng dụng AI trong số hóa và đổi mới sách, giáo trình, tài liệu học tập.
AI trong lớp học: tích hợp công cụ AI vào giảng dạy tiếng Ả Rập, kết hợp bảo tồn truyền thống và năng lực số.
Hợp tác quốc tế: thỏa thuận AI ký trong chuyến thăm của Tổng thống Mỹ Donald Trump, cho phép UAE tiếp cận chip AI Mỹ tiên tiến, tăng năng lực phát triển AI nội địa.

📌 UAE đang dùng AI để tạo kho ngôn ngữ tiếng Ả Rập lớn nhất thế giới, với 20 triệu từ, 800.000 sách, mô hình Falcon Arabic và bộ dữ liệu BAREC. Chiến lược này kết hợp bảo tồn di sản với phát triển công nghệ, đưa tiếng Ả Rập lên vị thế mạnh mẽ trong kỷ nguyên số.

https://timesofindia.indiatimes.com/world/middle-east/how-the-uae-is-using-artificial-intelligence-to-build-the-worlds-largest-arabic-language-resources/articleshow/123237801.cms

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-08-05 07:55:03

AI đang "Mỹ hóa" tiếng Anh Anh, khiến người dùng thay đổi cách viết

Một khảo sát từ nền tảng học ngôn ngữ Babbel.com với 500.000 người tham gia cho thấy 77% tin rằng tiếng Anh Anh đang bị "Mỹ hóa" do ảnh hưởng từ các công cụ AI.
51% người dùng cho biết họ đã ngừng sử dụng dấu câu như dấu chấm phẩy và dấu phẩy Oxford vì chúng khiến văn bản trông giống như được viết bởi AI.
37% cố tình tránh sử dụng dấu câu chính xác để văn bản của họ "nghe giống con người hơn", tránh bị cho là máy móc hoặc công thức.
Cùng tỷ lệ 37% lo ngại rằng thế hệ tương lai sẽ học ngữ pháp từ AI thay vì giáo dục truyền thống, dẫn đến sự sai lệch trong chuẩn ngôn ngữ.
Noël Wolf, chuyên gia ngôn ngữ của Babbel, nhận định rằng các công cụ viết AI đang thay đổi cách sử dụng ngữ pháp – không chỉ về dấu câu mà cả về chính tả và cấu trúc ngôn ngữ.
Ví dụ, cách viết kiểu Mỹ như "organize" (thay vì "organise") đang dần trở nên phổ biến hơn do AI thường mặc định sử dụng tiếng Anh Mỹ.
Các dấu câu từng thể hiện phong cách viết rõ ràng như em dash (—) hay dấu Oxford comma giờ đây lại trở thành dấu hiệu dễ nhận biết của văn bản tạo sinh (AI-generated text).
Do đó, người viết có xu hướng lược bỏ các dấu câu “mang màu sắc AI” để giữ lại vẻ tự nhiên và cá nhân cho văn bản.
Dù vậy, bà Wolf cho rằng sự thay đổi này là cơ hội để nhìn lại quá trình tiến hóa của ngôn ngữ, đồng thời đặt ra những câu hỏi về rõ ràng, mục đích và biểu đạt cá nhân trong kỷ nguyên AI.

📌 Khảo sát của Babbel tiết lộ 77% người dùng tin rằng AI đang "Mỹ hóa" tiếng Anh Anh, trong khi 51% đã bỏ dấu câu như dấu chấm phẩy vì sợ bị hiểu nhầm là văn bản AI. Xu hướng này phản ánh cách AI không chỉ hỗ trợ mà còn định hình lại cách con người viết và sử dụng ngôn ngữ.

https://www.telegraph.co.uk/news/2025/08/03/ai-is-americanising-british-english/

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-07-26 08:06:50

Microsoft thừa nhận không thể đảm bảo chủ quyền dữ liệu cho khách hàng tại Pháp và EU

Tại buổi điều trần trước Thượng viện Pháp ngày 18/6/2025, đại diện Microsoft thừa nhận không thể đảm bảo dữ liệu người dùng tại EU không bị truy cập bởi chính phủ Mỹ nếu có yêu cầu pháp lý hợp lệ dựa theo Đạo luật CLOUD Act.
Đạo luật CLOUD Act của Mỹ cho phép chính phủ yêu cầu dữ liệu từ các công ty công nghệ Mỹ, dù dữ liệu được lưu trữ ở nước ngoài. Microsoft, AWS và Google từng ủng hộ luật này từ năm 2018.
Anton Carniaux – Giám đốc pháp lý Microsoft Pháp – cho biết họ có cam kết phản kháng các yêu cầu không chính đáng và yêu cầu được thông báo cho khách hàng nếu bị buộc phải chia sẻ dữ liệu.
Tuy nhiên, khi bị chất vấn rằng có thể đảm bảo dữ liệu của công dân Pháp không bị truyền về Mỹ mà không có sự đồng ý của chính phủ Pháp hay không, Carniaux trả lời thẳng: "Không thể đảm bảo."
Dù Microsoft nói chưa từng có yêu cầu nào như vậy ảnh hưởng đến khách hàng công hoặc doanh nghiệp tại EU, lời thừa nhận trên đã dấy lên làn sóng lo ngại về chủ quyền dữ liệu ở châu Âu.
CEO Civo nhận định đây là bằng chứng rõ ràng rằng các nhà cung cấp đám mây Mỹ không thể đảm bảo chủ quyền dữ liệu thực sự tại EU, và đây là rủi ro nghiêm trọng đối với an ninh quốc gia, quyền riêng tư và cạnh tranh doanh nghiệp.
AWS phản hồi bằng cách khẳng định Cloud Act không cho phép truy cập dữ liệu "tự động", mà cần lệnh từ tòa án liên bang với chứng cứ rõ ràng, nhưng thừa nhận luật này áp dụng cho cả công ty nước ngoài có hoạt động tại Mỹ.
Google, Microsoft và AWS hiện đang triển khai các dịch vụ "sovereign cloud" tại châu Âu, song điều này chưa đủ xoa dịu sự nghi ngờ ngày càng lớn từ các chính trị gia và kỹ sư công nghệ EU.
Trong bối cảnh chính quyền Trump quay trở lại, thái độ không thân thiện với đồng minh, cùng chính sách thuế thất thường càng làm gia tăng áp lực đòi hỏi hạ tầng số độc lập tại châu Âu.
Nhiều nhà vận động và chuyên gia công nghệ đang kêu gọi Ủy ban châu Âu xây dựng cơ sở hạ tầng số có chủ quyền, tránh phụ thuộc vào các "hyperscaler" Mỹ, điều này sẽ cần thời gian và đầu tư lớn.
Trong khi đó, các công ty Mỹ đang đẩy mạnh chiến dịch giữ chân khách hàng châu Âu, cam kết xây thêm trung tâm dữ liệu và cải thiện kiểm soát nội bộ – một nỗ lực giữ chân hàng tỷ USD doanh thu.

📌 Microsoft công khai thừa nhận trước Thượng viện Pháp rằng họ không thể đảm bảo dữ liệu khách hàng EU sẽ được bảo vệ khỏi yêu cầu từ chính phủ Mỹ theo CLOUD Act. Dù có cam kết minh bạch và chống truy cập trái phép, luật pháp Mỹ vẫn áp đảo, gây ra làn sóng lo ngại về chủ quyền số ở châu Âu. Châu Âu đang đứng trước bước ngoặt, hoặc đẩy mạnh phát triển hạ tầng số tự chủ, hoặc tiếp tục phụ thuộc vào Big Tech Mỹ trong thế bất đối xứng.

https://www.theregister.com/2025/07/25/microsoft_admits_it_cannot_guarantee/

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-07-21 00:05:01

Các công ty AI đang chuyển từ thuê lao động giá rẻ ở châu Phi và châu Á sang chi mạnh cho chuyên gia cao cấp

Các công ty AI hàng đầu như Scale AI, Turing và Toloka đang từ bỏ mô hình thuê lao động giá rẻ tại châu Phi và châu Á để chuyển sang tuyển dụng chuyên gia được trả lương cao trong các lĩnh vực như sinh học, tài chính, vật lý và lập trình.
Lao động dán nhãn truyền thống từng được trả dưới 2 USD/giờ để thực hiện các nhiệm vụ đơn giản như xác định vật thể trong ảnh, loại bỏ nội dung phản cảm, mô tả hình ảnh, hoặc chọn câu trả lời trôi chảy.
Tuy nhiên, các mô hình AI mới như OpenAI o3 và Google Gemini 2.5 yêu cầu loại dữ liệu huấn luyện có độ phức tạp cao, dẫn đến sự thay đổi hướng sang “dữ liệu từ chuyên gia thật sự”.
Dữ liệu chất lượng từ chuyên gia hiện đóng vai trò thiết yếu giúp các mô hình AI giải quyết bài toán tư duy (reasoning), lập luận theo chuỗi (chain-of-thought) và đưa ra lời giải như con người.
Toloka cho biết phần lớn công việc gán nhãn thủ công có thể tự động hóa, và các dự án mới cần chuyên gia kiểm tra chất lượng nội dung AI tạo ra.
Turing AI cho biết họ trả cho chuyên gia cao hơn 20-30% so với lương hiện tại để thu hút nhân lực hàng đầu từ nhiều lĩnh vực.
Ví dụ, một bài toán vật lý cần cả nhà vật lý, kỹ sư phần mềm và nhà khoa học dữ liệu hợp tác xây mô phỏng, viết mã, kiểm thử, và phân tích kết quả.
Meta đã đầu tư 15 tỉ USD vào Scale AI vào tháng 6/2025, nâng định giá công ty lên 29 tỉ USD. Turing gọi vốn 111 triệu USD vào tháng 3, và Toloka được Bezos rót 72 triệu USD vào tháng 5.
Turing nhấn mạnh mục tiêu hiện nay là mô phỏng quá trình con người thực hiện công việc tri thức để huấn luyện AI làm tốt hơn cả chuyên gia đa ngành.

📌 Ngành AI đang bước vào giai đoạn thay máu toàn diện khi lao động giá rẻ dán nhãn dữ liệu bị thay thế bởi chuyên gia được trả lương cao nhằm tạo ra bộ dữ liệu huấn luyện tinh vi hơn. Việc này giúp các mô hình mới vượt qua rào cản lập luận phức tạp và tiến gần hơn đến siêu trí tuệ. Các công ty AI sẵn sàng chi hàng tỷ USD cho dữ liệu chất lượng, không chỉ cho máy tính và mô hình.

--> Việt Nam cần chuyển dịch từ cung cấp nhân công giá rẻ sang đào tạo lực lượng chuyên gia có khả năng tham gia chuỗi giá trị AI cao cấp, đồng thời hỗ trợ khởi nghiệp AI và tăng cường hợp tác liên ngành để không bị bỏ lại phía sau.

https://www.ft.com/content/e17647f0-4c3b-49b4-a031-b56158bbb3b8

AI groups spend to replace low-cost ‘data labellers’ with high-paid experts

Industry moves away from paying gig economy workers in Africa and Asia in push to build ‘smarter’ models

Melissa Heikkilä in London

Top artificial intelligence groups are replacing low-cost “data labellers” in Africa and Asia with highly paid industry specialists, in the latest push to build “smarter” and more powerful models.

Companies such as Scale AI, Turing and Toloka are hiring top experts in fields such as biology and finance to help AI groups create more sophisticated training data that is crucial for developing the next generation of AI systems.

The rise of so-called “reasoning” models such as OpenAI’s o3 and Google’s Gemini 2.5 has accelerated the move away from employing thousands of low-cost workers in countries such as Kenya and the Philippines, who are typically paid less than $2 an hour to undertake the time-consuming task of annotating the huge datasets used to train AI models.

“The AI industry was for a long time heavily focused on the models and compute, and data has always been an overseen part of AI,” said Olga Megorskaya, chief executive and co-founder of Dutch group Toloka. “Finally, [the industry] is accepting the importance of the data for training.”

This shift has led to a surge of investor interest in data labelling start-ups. In June, Meta invested $15bn in the US group Scale AI, doubling its valuation to $29bn, as part of a push to catch up with its rivals.

In March, California-based Turing AI raised $111mn at a $2.2bn valuation, while Jeff Bezos’ personal firm Bezos Expeditions in May led a $72mn investment round for Toloka.

Previously data labellers would handle simple tasks, such as drawing boxes on images to identify objects, describing what images represent, selecting fluent ways to express things and weeding out bad answers from data sets that often contained violent or graphic content.

Because AI models need more data to perform better, these workers were expected to process tasks in seconds and complete hundreds of tasks during a work day to create vast datasets.

Now, the demand for these tasks has dropped significantly as many of these tasks can be automated, said Megorskaya.

Joan Kinyua, the president of the Data Labelers Association in Kenya, said they were now being tasked with jobs that relied on localised language skills and knowledge. The group has also seen jobs where human labellers were tasked with conducting a final quality control check for AI-generated content.

As leading AI groups such as OpenAI, Anthropic and Google attempt to develop models that they claim will exceed human intelligence, there is a new push to focus on the quality of these datasets and hiring experts to examine complex problems.

“What these models now need is data of a real human using the models to do knowledge work, and getting feedback on when the model is failing,” said Jonathan Siddharth, co-founder and chief executive of data labelling company Turing AI.

To ensure that models perform well in a wide variety of fields from coding to physics and finance, deep-pocketed AI companies are now willing to pay for more sophisticated datasets and experts from around the world.

In order to attract talent from different industries, Turing pays experts 20-30 per cent more than their current jobs, said Siddharth. While budgets for data are only around 10-15 per cent of the hundreds of billions of dollars AI companies spend on computing power, it remains an “enormous amount of money”, he added.

New features and capabilities, such as chain-of-thought, which shows how AI models solve problems step-by-step, are developed by having human experts show how they break down problems, said Toloka’s Megorskaya.

Experienced software engineers might also be asked to come up with tasks that are relevant for their field, and then solve them by writing code, debugging it and checking for security vulnerabilities.

Meanwhile, validating a physics theory would require contributions from a physicist to articulate how to build a simulator to test whether the theory is true, a software engineer to code the simulator, and a data scientist to analyse the results of the simulation.

“The result of this is the model’s not just going to be better than a physicist. It’s going to be better than a superposition of somebody who’s at the top in physics, computer science and data science,” said Turing’s Siddharth.

Không có file đính kèm.

Nguồn tham khảo

AI data AI bản quyền 2025-07-11 00:22:14

FlexOlmo: Mô hình AI đầu tiên cho phép rút dữ liệu ra sau khi huấn luyện

FlexOlmo là mô hình ngôn ngữ lớn mới do Allen Institute for AI (Ai2) phát triển, cho phép chủ dữ liệu rút dữ liệu khỏi mô hình ngay cả sau khi đã huấn luyện.
Mô hình này phá vỡ nguyên lý truyền thống rằng “dữ liệu đã dùng thì không thể gỡ”, bằng cách cho phép huấn luyện theo cách chia tách và hợp nhất các sub-model độc lập.
Cơ chế hoạt động dựa trên kiến trúc mixture of experts, cho phép kết hợp nhiều mô hình nhỏ, trong đó mỗi mô hình có thể được huấn luyện riêng biệt với dữ liệu riêng.
Người đóng góp dữ liệu sao chép một mô hình “anchor” công khai, huấn luyện với dữ liệu cá nhân, rồi gửi bản kết hợp thay vì phải chia sẻ dữ liệu thô.
Điều này giúp giữ quyền sở hữu dữ liệu, cho phép rút sub-model nếu có tranh chấp pháp lý hoặc không hài lòng với việc sử dụng mô hình cuối.
FlexOlmo không yêu cầu huấn luyện đồng bộ – việc đóng góp và huấn luyện có thể diễn ra hoàn toàn độc lập.
Ai2 đã thử nghiệm bằng cách xây dựng mô hình 37 tỷ tham số trên tập dữ liệu Flexmix, bao gồm sách và nội dung từ web độc quyền.
Mô hình này vượt trội so với từng mô hình riêng lẻ và tốt hơn 10% so với các phương pháp hợp nhất mô hình trước đó trên các benchmark phổ biến.
FlexOlmo còn giúp các công ty truy cập dữ liệu nhạy cảm mà không cần tiết lộ công khai, nhưng Ai2 cảnh báo vẫn có rủi ro khôi phục dữ liệu – cần đến các kỹ thuật như differential privacy.
Trong bối cảnh tranh cãi về quyền sở hữu dữ liệu huấn luyện AI ngày càng gay gắt, mô hình như FlexOlmo mở ra hướng đi mới cân bằng giữa tiến bộ công nghệ và quyền lợi dữ liệu.

📌 FlexOlmo mang đến một đột phá lớn trong lĩnh vực AI tạo sinh bằng cách cho phép các chủ sở hữu dữ liệu rút dữ liệu khỏi mô hình sau huấn luyện mà không cần retrain. Với 37 tỷ tham số và hiệu suất cao hơn 10% so với phương pháp cũ, mô hình này giúp cân bằng giữa phát triển AI và kiểm soát dữ liệu cá nhân, mở ra tương lai mới cho AI nguồn mở và hợp tác.

https://www.wired.com/story/flexolmo-ai-model-lets-data-owners-take-control/

A New Kind of AI Model Lets Data Owners Take Control

A novel approach from the Allen Institute for AI enables data to be removed from an artificial intelligence model even after it has already been used for training.

A new kind of large language model, developed by researchers at the Allen Institute for AI (Ai2), makes it possible to control how training data is used even after a model has been built.

The new model, called FlexOlmo, could challenge the current industry paradigm of big artificial intelligence companies slurping up data from the web, books, and other sources—often with little regard for ownership—and then owning the resulting models entirely. Once data is baked into an AI model today, extracting it from that model is a bit like trying to recover the eggs from a finished cake.

“Conventionally, your data is either in or out,” says Ali Farhadi, CEO of Ai2, based in Seattle, Washington. “Once I train on that data, you lose control. And you have no way out, unless you force me to go through another multi-million-dollar round of training.”

Ai2’s avant-garde approach divides up training so that data owners can exert control. Those who want to contribute data to a FlexOlmo model can do so by first copying a publicly shared model known as the “anchor.” They then train a second model using their own data, combine the result with the anchor model, and contribute the result back to whoever is building the third and final model.

Contributing in this way means that the data itself never has to be handed over. And because of how the data owner’s model is merged with the final one, it is possible to extract the data later on. A magazine publisher might, for instance, contribute text from its archive of articles to a model but later remove the sub-model trained on that data if there is a legal dispute or if the company objects to how a model is being used.

“The training is completely asynchronous,” says Sewon Min, a research scientist at Ai2 who led the technical work. “Data owners do not have to coordinate, and the training can be done completely independently.”

The FlexOlmo model architecture is what’s known as a “mixture of experts,” a popular design that is normally used to simultaneously combine several sub-models into a bigger, more capable one. A key innovation from Ai2 is a way of merging sub-models that were trained independently. This is achieved using a new scheme for representing the values in a model so that its abilities can be merged with others when the final combined model is run.

To test the approach, the FlexOlmo researchers created a dataset they call Flexmix from proprietary sources including books and websites. They used the FlexOlmo design to build a model with 37 billion parameters, about a tenth of the size of the largest open source model from Meta. They then compared their model to several others. They found that it outperformed any individual model on all tasks and also scored 10 percent better at common benchmarks than two other approaches for merging independently trained models.

The result is a way to have your cake—and get your eggs back, too. “You could just opt out of the system without any major damage and inference time,” Farhadi says. “It’s a whole new way of thinking about how to train these models.”

Percy Liang, an AI researcher at Stanford, says the Ai2 approach seems like a promising idea. “Providing more modular control over data—especially without retraining—is a refreshing direction that challenges the status quo of thinking of language models as monolithic black boxes,” he says. “Openness of the development process—how the model was built, what experiments were run, how decisions were made—is something that’s missing.”

Farhadi and Min say that the FlexOlmo approach might also make it possible for AI firms to access sensitive private data in a more controlled way, because that data does not need to be disclosed in order to build the final model. However, they warn that it may be possible to reconstruct data from the final model, so a technique like differential privacy, which allows data to be contributed with mathematically guaranteed privacy, might be required to ensure data is kept safe.

Ownership of the data used to train large AI models has become a big legal issue in recent years. Some publishers are suing large AI companies while others are cutting deals to grant access to their content. (WIRED parent company Condé Nast has a deal in place with OpenAI.)

In June, Meta won a major copyright infringement case when a federal judge ruled that the company did not violate the law by training its open source model on text from books by 13 authors.

Min says it may well be possible to build new kinds of open models using the FlexOlmo approach. “I really think the data is the bottleneck in building the state of the art models,” she says. “This could be a way to have better shared models where different data owners can codevelop, and they don’t have to sacrifice their data privacy or control.”

Không có file đính kèm.

Nguồn tham khảo

AI pháp lý-quản trị-chủ quyền AI data AI cybersecurity 2025-07-10 08:58:15

Làn sóng đòi chủ quyền dữ liệu từ các nước đang phát triển đe dọa mô hình kinh doanh toàn cầu của Big Tech

Nigeria, Việt Nam, Ấn Độ, Nam Phi và nhiều quốc gia đang phát triển đang buộc các tập đoàn công nghệ lớn như Google, Microsoft và Amazon phải lưu trữ dữ liệu công dân trong nước, thay vì vận hành từ các trung tâm dữ liệu ở nước ngoài.
Nigeria yêu cầu các hãng đưa ra thời hạn cụ thể để xây trung tâm dữ liệu tại nước này, từ chối miễn trừ trước đây, đồng thời đe dọa ngừng hoạt động nếu không tuân thủ.
Ấn Độ yêu cầu các công ty thanh toán lưu trữ dữ liệu tài chính trong nước; Việt Nam bắt buộc doanh nghiệp nước ngoài có văn phòng và lưu dữ liệu tối thiểu 24 tháng nội địa.
Microsoft phản hồi bằng cách triển khai "edge nodes" tại Nigeria để giảm độ trễ và hỗ trợ "data residency", nhưng Amazon và Google từ chối bình luận.
Các nước đang phát triển đã nhận ra giá trị to lớn của dữ liệu công dân, trước đây bị các Big Tech khai thác mà không đem lại lợi ích kinh tế tương xứng.
Nhiều quốc gia châu Phi đang đầu tư hàng trăm triệu USD để xây trung tâm dữ liệu quốc gia, với sự hỗ trợ của Ngân hàng Phát triển châu Phi và Ngân hàng Thế giới:
- Congo nhận 77 triệu USD cho trung tâm dữ liệu đầu tiên khu vực Trung Phi
- Cabo Verde có dự án 60 triệu USD
- Raxio Group nhận 100 triệu USD từ IFC để mở rộng hạ tầng tại 6 quốc gia châu Phi
Nam Phi là quốc gia duy nhất tại châu Phi hiện có trung tâm dữ liệu của cả Amazon, Microsoft và Google, nhờ vào cơ sở hạ tầng vượt trội và thị trường lớn.
Tại Nigeria, các trung tâm dữ liệu nội địa như MainOne, Rack Centre, Galaxy Backbone, Huawei ngày càng đạt chuẩn quốc tế và phục vụ ngân hàng, fintech và viễn thông.
MTN mới khánh thành trung tâm dữ liệu lớn nhất Tây Phi trị giá 235 triệu USD, đồng thời ra mắt dịch vụ đám mây cạnh tranh với Amazon, Google.
Tuy nhiên, rào cản lớn nhất vẫn là khung pháp lý thiếu ổn định, khiến các hãng công nghệ do dự đầu tư hạ tầng lâu dài tại nhiều quốc gia như Nigeria.
Các chuyên gia cảnh báo rằng chủ quyền dữ liệu chỉ thật sự hiệu quả nếu đi kèm kiểm soát quyền truy cập của công ty nước ngoài, tránh chỉ là "lưu dữ liệu tại chỗ nhưng vẫn bị kiểm soát bởi bên ngoài".

📌 Làn sóng chủ quyền dữ liệu đang lan rộng từ Nigeria đến Việt Nam, khiến các Big Tech phải xây trung tâm dữ liệu nội địa hoặc rút khỏi thị trường. Nigeria, Ấn Độ và nhiều nước khác yêu cầu dữ liệu công dân phải được lưu tại chỗ, gây áp lực lớn lên mô hình thu lợi từ dữ liệu toàn cầu của Amazon, Google và Microsoft. Tuy nhiên, sự thiếu ổn định pháp lý vẫn là rào cản lớn trong việc hiện thực hóa chủ quyền dữ liệu toàn diện.

https://restofworld.org/2025/big-tech-data-sovereignty/

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI data 2025-07-10 08:43:48

Doanh nghiệp nhỏ đừng chạy theo AI khổng lồ: Bối cảnh và dữ liệu riêng là then chốt

Tương lai của AI đối với doanh nghiệp nhỏ không nằm ở mô hình lớn hơn, mà ở khả năng cung cấp bối cảnh tốt hơn — tích hợp dữ liệu, thương hiệu và mục tiêu để tạo ra kết quả AI cá nhân hóa và có chiến lược.
Model Context Protocol (MCP) là một khái niệm mới nổi cho phép nhiều mô hình AI khác nhau hoạt động dựa trên một nguồn bối cảnh chung – chính là dữ liệu và mục tiêu của doanh nghiệp bạn.
Vấn đề hiện tại là các doanh nghiệp nhỏ đang sử dụng AI theo cách rời rạc: một công cụ cho nội dung mạng xã hội, một công cụ quản lý khách hàng, một chatbot AI khác trên website. Các công cụ này không kết nối nên kết quả đầu ra thường chung chung và thiếu chiều sâu.
Hầu hết công cụ AI hiện tại chỉ hoạt động trên nền tảng kiến thức tổng quát, không hiểu chi tiết cụ thể của doanh nghiệp, dẫn đến hiệu suất thấp và mất thời gian xử lý thủ công.
MCP khắc phục điều này bằng cách tạo ra một chuẩn giao tiếp thống nhất cho các mô hình AI, cho phép chúng hiểu và hoạt động theo cùng một dữ liệu gốc – tạo ra kết quả phù hợp và tối ưu.
Để chuẩn bị cho làn sóng AI tiếp theo, doanh nghiệp nhỏ cần:
- Xác định rõ nhận diện thương hiệu của mình.
- Tổ chức và chuẩn hóa dữ liệu nội bộ.
- Tạo hệ thống cung cấp bối cảnh rõ ràng cho các công cụ AI.
- Hợp tác với các nhà cung cấp công nghệ có thể tùy chỉnh theo nhu cầu doanh nghiệp.
- Thử nghiệm thường xuyên, duy trì văn hóa đổi mới sáng tạo.
- Thiết lập chính sách bảo mật và quyền riêng tư dữ liệu, nhằm bảo vệ thông tin khách hàng và uy tín doanh nghiệp.
Bối cảnh chính là yếu tố giúp AI hiểu doanh nghiệp như một nhân viên kỳ cựu chứ không phải chỉ là một công cụ máy móc trả lời chung chung.

📌 Thay vì chạy theo mô hình AI khổng lồ, doanh nghiệp nhỏ nên tập trung vào cung cấp ngữ cảnh rõ ràng để AI tạo ra kết quả có chiều sâu và phù hợp. Khái niệm Model Context Protocol (MCP) sẽ giúp các công cụ AI hoạt động đồng bộ, tăng tính cá nhân hóa và hiệu quả. Bước chuẩn bị gồm nhận diện thương hiệu rõ ràng, tổ chức dữ liệu, thử nghiệm liên tục và bảo mật mạnh mẽ là nền tảng để đón làn sóng AI chiến lược tiếp theo.

https://www.entrepreneur.com/science-technology/how-to-prepare-for-the-next-wave-of-ai-innovation/493801

Không có file đính kèm.

Nguồn tham khảo

AI data AI startup-M&A 2025-07-09 08:26:56

AI đang thúc đẩy làn sóng thâu tóm trong ngành dữ liệu, với những thương vụ tỷ USD

Ngành dữ liệu toàn cầu đang bước vào giai đoạn tái cấu trúc quy mô lớn, dẫn đầu bởi sự trỗi dậy của AI và nhu cầu tích hợp dữ liệu để hỗ trợ các ứng dụng trí tuệ nhân tạo.
Trong 2 tháng qua, Databricks mua Neon với giá 1 tỷ USD, còn Salesforce thâu tóm Informatica với giá 8 tỷ USD – cả hai thương vụ đều nhằm củng cố nền tảng dữ liệu cho chiến lược AI.
Theo các chuyên gia, thành công của AI phụ thuộc lớn vào chất lượng dữ liệu đầu vào – yếu tố mà các nhà đầu tư mạo hiểm đã nhấn mạnh từ lâu.
Gaurav Dhillon, nhà sáng lập SnapLogic và cựu CEO Informatica, cho rằng “muốn làm chủ AI, doanh nghiệp phải xây lại toàn bộ nền tảng dữ liệu”.
Tuy nhiên, ông cũng cảnh báo rằng nhiều công ty được mua lại được xây dựng trước thời kỳ AI hậu-ChatGPT, nên có thể không thích ứng nhanh với thị trường AI hiện đại.
Từ năm 2020–2024, đã có hơn 300 tỷ USD rót vào 24.000 startup dữ liệu, tạo ra một hệ sinh thái rời rạc, chắp vá – nguyên nhân chính khiến các tập đoàn lớn phải thâu tóm để bịt lỗ hổng dữ liệu.
Ví dụ điển hình là thương vụ Fivetran mua lại Census vào tháng 5/2025 nhằm tạo ra giải pháp dữ liệu hai chiều hoàn chỉnh. Trước đó, khách hàng Fivetran phải dùng thêm dịch vụ ngoài để xuất dữ liệu.
Theo chuyên gia Sanjeev Mohan, tính không tương thích giữa các hệ thống dữ liệu là lý do chính thúc đẩy làn sóng sáp nhập. Đặc biệt, việc thiếu chuẩn hóa metadata gây chồng chéo và rối loạn thông tin.
Thị trường đầu tư mạo hiểm cũng góp phần đẩy nhanh xu hướng này. Trong bối cảnh khó gọi vốn và IPO trầm lắng, nhiều startup chọn bán mình là con đường khả thi nhất.
Salesforce được cho là đã giảm giá so với đàm phán năm ngoái khi mua Informatica, nhưng thương vụ vẫn được hội đồng quản trị ủng hộ vì đây là lựa chọn tối ưu.
Derek Hernandez (PitchBook) nhận định: “Các công ty dữ liệu độc lập không còn nhiều động lực để tồn tại riêng lẻ, khi thị trường đòi hỏi tích hợp chặt chẽ giữa dữ liệu và AI”.
Điều này đặt ra câu hỏi chiến lược: Liệu ngành dữ liệu và ngành AI sẽ tiếp tục độc lập hay sáp nhập là xu hướng tất yếu để chiếm lĩnh thị trường AI tương lai?

📌 Với hơn 300 tỷ USD đầu tư và hàng loạt thương vụ tỷ đô như Salesforce – Informatica (8 tỷ USD) hay Databricks – Neon (1 tỷ USD), ngành dữ liệu đang trải qua làn sóng hợp nhất lớn chưa từng có dưới sức ép từ AI. Tuy nhiên, chuyên gia cảnh báo rằng nhiều nền tảng dữ liệu cũ không phù hợp với thị trường AI hậu-ChatGPT, và chỉ sự tích hợp sâu giữa dữ liệu và AI mới tạo ra giá trị bền vững trong cuộc đua trí tuệ nhân tạo.

https://techcrunch.com/2025/07/07/ai-is-forcing-the-data-industry-to-consolidate-but-thats-not-the-whole-story/

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-07-04 12:31:46

Trung Quốc đang xây dựng một “đế chế dữ liệu” quy mô quốc gia để thúc đẩy AI và nền kinh tế số

Trung Quốc hiện có hơn 1,1 tỷ người dùng internet – tạo ra lượng dữ liệu lớn nhất thế giới, cộng với mạng lưới camera nhận diện khuôn mặt, xe tự lái và công nghệ bay đang phát triển.
Không chỉ sở hữu khối lượng dữ liệu khổng lồ, Trung Quốc còn tích hợp việc quản lý dữ liệu vào chiến lược phát triển kinh tế và an ninh quốc gia.
Chủ tịch Tập Cận Bình gọi dữ liệu là "nguồn lực cơ bản" mang tính cách mạng trong cạnh tranh toàn cầu, đặt nó ngang hàng với lao động, vốn và đất đai.
Kể từ năm 2021, Trung Quốc ban hành các quy định tương tự GDPR châu Âu, nhưng giờ đây đã đi theo hướng riêng: yêu cầu mọi cấp chính quyền chia sẻ dữ liệu, định giá tài sản dữ liệu tại doanh nghiệp nhà nước và cho phép giao dịch trên sàn dữ liệu nhà nước.
Một bước đi lớn là hệ thống ID số toàn dân dự kiến ra mắt ngày 15/07/2025. Mỗi người dân sẽ có một sổ cái ghi lại toàn bộ hoạt động online – nhưng các công ty công nghệ chỉ thấy dòng ký tự vô danh.
Điều này làm suy giảm vai trò kiểm soát của các công ty công nghệ tư nhân và chuyển trung tâm quyền lực dữ liệu về tay nhà nước – dẫn tới khả năng giám sát tập trung chưa từng có.
Hệ thống “đại dương dữ liệu quốc gia” sẽ tích hợp dữ liệu cá nhân, công nghiệp, chính phủ, giúp đào tạo mô hình AI nhanh hơn và tạo điều kiện cho các startup nhỏ gia nhập thị trường.
Nhưng rủi ro cũng rõ ràng: chính phủ Trung Quốc có lịch sử quản lý dữ liệu cá nhân kém, từng để rò rỉ 1 tỷ bản ghi dữ liệu ở Thượng Hải.
Việc bóp nghẹt sở hữu dữ liệu của khu vực tư nhân có thể làm suy giảm động lực đổi mới và lợi nhuận doanh nghiệp.
Mô hình này có thể hiệu quả về mặt kinh tế nhưng bị ví như “thiên đường cho Big Brother” – gợi nhớ đến xã hội bị giám sát toàn diện.

📌

Trung Quốc đang định hình một "đế chế dữ liệu" toàn diện, tích hợp dữ liệu cá nhân, doanh nghiệp và chính phủ để dẫn đầu cuộc đua AI. Với hệ thống ID số ra mắt ngày 15/07/2025 và yêu cầu chia sẻ dữ liệu toàn quốc, quốc gia này có thể tạo ra mô hình AI từ cốt lõi với lợi thế quy mô khổng lồ. Tuy nhiên, mô hình này đe dọa quyền riêng tư và làm mờ ranh giới giữa kiểm soát công nghệ và giám sát xã hội.

https://www.economist.com/leaders/2025/07/03/china-is-building-an-entire-empire-on-data

China is building an entire empire on data

It will change the online economy and the evolution of artificial intelligence

Jul 3rd 2025|3 min read

CHINA’S 1.1BN internet users churn out more data than anyone else on Earth. So does the country’s vast network of facial-recognition cameras. As autonomous cars speed down roads and flying ones criss-cross the skies, the quality and value of the information flowing from emerging technologies will soar. Yet the volume of data is not the only thing setting China apart. The government is also embedding data management into the economy and national security. That has implications for China, and holds lessons for democracies.

China’s planners see data as a factor of production, alongside labour, capital and land. Xi Jinping, the president, has called data a foundational resource “with a revolutionary impact” on international competition. The scope of this vision is unparalleled, affecting everything from civil liberties to the profits of internet firms and China’s pursuit of the lead in artificial intelligence.

Mr Xi’s vision is being enacted fast. In 2021 China released rules modelled on Europe’s General Data Protection Regulation (GDPR). Now it is diverging quickly from Western norms. All levels of government are to marshal the data resources they have. A sweeping project to assess the data piles at state-owned firms is under way. The idea is to value them as assets, and add them to balance-sheets or trade them on state-run exchanges. On June 3rd the State Council released new rules to compel all levels of government to share data.

Another big step is a digital ID, due to be launched on July 15th. Under this, the central authorities could control a ledger of every person’s websites and apps. Connecting someone’s name with their online activity will become harder for the big tech firms which used to run the system. They will see only an anonymised stream of digits and letters. Chillingly, however, the ledger may one day act as a panopticon for the state.

China’s ultimate goal appears to be to create an integrated national data ocean, covering not just consumers but industrial and state activity, too. The advantages are obvious, and include economies of scale for training AI models and lower barriers to entry for small new firms.

Some of the disadvantages are equally clear, however. The state has a poor record of managing personal data: Shanghai’s police lost 1bn records to a hacker. If private firms lose control over the data they create, profits could suffer, diminishing the incentives to innovate. Although the digital-ID scheme may supersede the existing clunkier online surveillance system, in which low-level enforcers abuse their enormous powers, the new approach looks a lot like a paradise for Big Brother.

Most countries are grappling with how to manage and control data. According to some reports, the Trump administration may consider hiring Palantir, a private tech firm, to consolidate government data pools. The European Union may have to update its GDPR rules. India’s Aadhaar system for IDs emphasises privacy at the possible expense of boosting the economy.

All countries need scale and efficiency in data management. Yet for democracies the task is harder, because they must build in checks and balances that safeguard property rights, privacy and civil liberties. As it embraces its vast experiment, China will put less weight on such things and could build an efficient and dystopian system of surveillance. For decades it has been a “fast follower” of Western innovations. If China now races ahead in showing the financial value of its national data ocean, its method of centralisation will pose not just an economic challenge, but also a political one. ■

Không có file đính kèm.

Nguồn tham khảo

AI data AI việc làm 2025-07-02 01:18:31

Cuốn sách "The AI Con" tiết lộ sự thật hàng triệu lao động vô hình đằng sau AI

Cuốn sách The AI Con của Alex Hanna và Emily M. Bender tiết lộ rằng AI hiện đại phụ thuộc vào hàng triệu lao động vô hình, làm công việc dán nhãn dữ liệu, kiểm duyệt và kiểm tra nội dung độc hại.
Ví dụ, hãng xe tự lái Cruise thừa nhận robotaxi của họ phải nhờ người điều khiển từ xa 2–4% thời gian trong các tình huống phức tạp.
Công việc bao gồm:
- Vẽ khung quanh đối tượng trong ảnh để huấn luyện xe tự lái.
- Đánh giá mức độ hữu ích, phản cảm hoặc sai lệch của phản hồi từ mô hình ngôn ngữ.
- Gắn nhãn các nội dung bạo lực, khiêu dâm hoặc phát ngôn thù ghét.
ImageNet, bộ dữ liệu nền tảng cho AI thị giác, được tạo nên nhờ 50.000 lao động từ 167 quốc gia, thực hiện trên nền tảng Amazon Mechanical Turk (MTurk) trong hơn 2,5 năm, với hơn 14 triệu hình ảnh.
Các công ty như Sama, Remotasks, Prolific hoạt động dưới mô hình thuê ngoài, đẩy trách nhiệm và điều kiện lao động tồi tệ xuống tầng thấp nhất.
Lao động phải tiếp xúc với nội dung cực kỳ độc hại nhưng không nhận được hỗ trợ tâm lý đầy đủ. Ví dụ, một nhân viên tại Sama cho biết sau 5 tháng, gia đình không còn nhận ra anh sau khi tiếp xúc quá lâu với nội dung tra tấn và bạo lực.
Công việc redteaming cũng phổ biến: thử nghiệm AI bằng cách đặt các câu hỏi khiêu khích, bạo lực hoặc đạo đức để kiểm tra phản ứng.
Tình trạng mất việc đột ngột, khóa tài khoản mà không có lý do là rất phổ biến, như vụ Remotasks chặn toàn bộ lao động tại Kenya, Rwanda, Nam Phi vào năm 2024.
Công việc này lẽ ra có thể bền vững nếu có bảo vệ quyền lợi lao động, hỗ trợ tâm lý và mức lương xứng đáng.

📌 Cuốn The AI Con vạch trần rằng AI không hoàn toàn là phép màu công nghệ, mà được xây dựng trên lưng của hàng triệu lao động vô hình, đối mặt với nội dung độc hại mỗi ngày với mức lương rẻ mạt. Công nghiệp AI hiện đại tồn tại nhờ bóc lột dữ liệu và sức lao động giá rẻ toàn cầu.

https://restofworld.org/2025/the-ai-con-book-invisible-labor/

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-07-02 01:11:09

Trung Quốc bùng nổ nhu cầu dữ liệu AI: Nghề dán nhãn dữ liệu lên ngôi giữa cuộc đua công nghệ

Cuộc đua phát triển ứng dụng AI đang khiến nhu cầu dữ liệu huấn luyện tại Trung Quốc tăng vọt, đặc biệt sau thành công của DeepSeek, chatbot Trung Quốc có khả năng cạnh tranh với ChatGPT nhưng chi phí huấn luyện thấp hơn nhiều.
Sapien AI, công ty Canada, đặt văn phòng tại Shenyang (Trung Quốc) để tận dụng chi phí thấp và chính sách hỗ trợ địa phương. Họ thuê hơn 60 nhân viên chỉ để dán nhãn dữ liệu bản đồ cho dự án xe tự lái.
Rogier Creemers, chuyên gia tại Đại học Leiden, nhận định Trung Quốc coi dữ liệu như tài nguyên chiến lược, tương tự dầu mỏ hoặc khoáng sản.
Từ năm 2024, Trung Quốc siết chặt kiểm soát xuất khẩu dữ liệu số: mọi xuất khẩu dữ liệu số phải được cơ quan quản lý không gian mạng phê duyệt.
Olga Megorskaya, CEO Toloka (công ty Hà Lan), so sánh AI đời đầu như trẻ 2 tuổi chỉ học sách tranh, còn AI hiện tại giống sinh viên đại học cần dữ liệu chuyên sâu, kỹ thuật và phức tạp hơn.
Các thành phố công nghiệp cũ như Shenyang đang chuyển mình thành trung tâm dữ liệu AI nhờ chính sách hỗ trợ lãi suất thấp, văn phòng giá rẻ và ưu đãi cho doanh nghiệp.
Nghề dán nhãn dữ liệu, kiểm tra chất lượng dữ liệu trở thành công việc phổ biến cho giới trẻ, đặc biệt khi tỷ lệ thất nghiệp thanh niên tại Trung Quốc vẫn ở mức cao.
Huang Rui (21 tuổi), chuyên viên kiểm tra dữ liệu tại Sapien AI, cho biết công việc này phù hợp với những người có tính cách tỉ mỉ, chú ý chi tiết cao.
Chen, CEO Sapien AI, thừa nhận công việc có phần nhàm chán nhưng cực kỳ cần thiết cho sự phát triển AI.

📌 Trung Quốc trở thành điểm nóng dữ liệu AI khi nhu cầu huấn luyện mô hình bùng nổ. Chính sách hạn chế xuất khẩu dữ liệu khiến các công ty nước ngoài như Sapien AI phải đặt văn phòng tại Trung Quốc. Nghề dán nhãn dữ liệu trở thành công việc mới cho giới trẻ giữa làn sóng chuyển đổi số.

https://www.npr.org/2025/06/29/nx-s1-5422330/the-race-to-create-ai-applications-is-creating-demand-for-training-data-in-china

Không có file đính kèm.

Nguồn tham khảo

AI pháp lý-quản trị-chủ quyền AI data AI doanh nghiệp 2025-06-29 21:05:57

Báo cáo toàn cầu cho thấy 2/3 lãnh đạo doanh nghiệp nhận định chủ quyền dữ liệu và AI là điều bắt buộc

Báo cáo toàn cầu do EDB thực hiện vào tháng 2/2025 cho thấy gần 2/3 lãnh đạo cấp cao trên toàn cầu xác định rằng chủ quyền dữ liệu và AI không còn là lựa chọn, mà là yếu tố sống còn cho doanh nghiệp.
Tỷ lệ nhận thức hiện tại về mức độ “bắt buộc” của chủ quyền dữ liệu dao động từ 11% (Pháp) đến 27% (Ả Rập Saudi và UAE). Dự báo trong 3 năm tới, Đức sẽ dẫn đầu với 69%, tiếp theo là Mỹ và Saudi. Nhật Bản, Anh và Ý sẽ tụt lại phía sau.
Động lực chính không phải địa chính trị mà là phá vỡ silo dữ liệu, chiếm tỷ lệ áp đảo 2:1 so với các lý do khác.
Thứ tự ba lý do chính:
- 46% chuyển workloads sang mô hình hybrid để phá vỡ silo dữ liệu.
- 40% chuyển AI và dữ liệu sang nền tảng mã nguồn mở.
- 48% tích hợp bảo mật và hạ tầng cho môi trường hybrid.
Kết quả cho thấy công thức vận hành của doanh nghiệp dẫn đầu AI gồm: hạ tầng hybrid, mã nguồn mở và bảo mật tích hợp.
Ngành tài chính - ngân hàng - bảo hiểm chịu áp lực lớn nhất, với 50% lãnh đạo đồng thuận rằng AI và dữ liệu cần hội tụ, chủ quyền là bắt buộc, nhằm cung cấp trải nghiệm kiểu Amazon cho khách hàng.
Chúng ta đang bước vào giai đoạn các doanh nghiệp buộc phải trở thành nền tảng AI và dữ liệu có chủ quyền của chính mình, thay vì dựa vào các giải pháp rời rạc.
Một tương lai với thêm 50 doanh nghiệp kiểu Amazon, tạo ra 100 nghìn tỷ USD giá trị vốn hóa mới, đang nằm trong tầm tay với điều kiện doanh nghiệp kiểm soát được dữ liệu và AI.
Báo cáo đầy đủ sẽ công bố cuối năm 2025, bao gồm dữ liệu từ 13 nền kinh tế (48 nghìn tỷ USD GDP), cung cấp khung ra quyết định cho doanh nghiệp về AI, dữ liệu và chiến lược nền tảng.

📌 2/3 lãnh đạo doanh nghiệp toàn cầu xác định chủ quyền AI và dữ liệu là điều bắt buộc. 46% đang chuyển sang hạ tầng hybrid, 40% ưu tiên mã nguồn mở và 48% tích hợp bảo mật sâu. Đặc biệt, ngành tài chính ghi nhận 50% lãnh đạo hướng tới mô hình AI chủ quyền để đạt tham vọng như Amazon. Tương lai doanh nghiệp thuộc về những ai làm chủ dữ liệu ngay từ bây giờ.

https://venturebeat.com/ai/ai-and-data-sovereignty-are-now-non-negotiable-for-enterprise-leaders-global-survey-finds/

Không có file đính kèm.

Nguồn tham khảo

AI data AI bản quyền 2025-06-27 08:30:34

Anthropic đã tiêu hủy hàng triệu cuốn sách in để huấn luyện AI Claude

Vào tháng 2/2024, công ty AI Anthropic đã thuê Tom Turvey, cựu giám đốc đối tác của dự án Google Books, để dẫn đầu chiến dịch quét và số hóa “tất cả sách trên thế giới”.
Anthropic chi hàng triệu USD để mua sách in, sau đó cắt bỏ bìa, tháo rời từng trang để quét thành file PDF có thể đọc máy, sau đó vứt bỏ bản gốc vật lý.
Khác với Google Books sử dụng công nghệ quét không phá hủy, Anthropic chọn phương pháp quét phá hủy nhằm tiết kiệm chi phí và thời gian trong bối cảnh cạnh tranh khốc liệt của ngành AI.
Theo hồ sơ tòa án, ban đầu Anthropic đã sử dụng các bản sách lậu trên mạng để huấn luyện AI, nhưng sau đó lo ngại rủi ro pháp lý nên chuyển sang phương thức mua sách vật lý.
Việc này dựa vào nguyên lý “first-sale doctrine” (quyền sử dụng sau bán): mua sách rồi có thể sử dụng bản đó theo ý mình, bao gồm cả việc phá hủy để số hóa.
Tòa án, dưới sự chủ trì của thẩm phán William Alsup, phán quyết rằng hành vi này được coi là “fair use” (sử dụng hợp lý) vì Anthropic đã mua hợp pháp sách, không phân phối lại dữ liệu mà chỉ dùng nội bộ để huấn luyện AI.
Thẩm phán ví hành động này như việc chuyển đổi định dạng để tiết kiệm không gian, và coi đây là hành vi mang tính “chuyển đổi”.
Anthropic mua sách cũ với số lượng lớn từ các nhà bán lẻ lớn, không có ghi nhận về việc phá hủy sách hiếm hay quý hiếm.
Quy trình số hóa của Anthropic đi ngược lại với các mô hình bảo tồn văn hóa như Internet Archive hay OpenAI-Harvard, vốn sử dụng phương pháp quét không phá hủy để bảo tồn sách cổ và tài liệu quý.
Trong khi Harvard đang bảo tồn các bản thảo từ thế kỷ 15 để huấn luyện AI, thì hàng triệu cuốn sách bị phá hủy đã góp phần tạo nên Claude – AI có khả năng giúp người dùng viết văn, thảo luận văn học và xử lý kiến thức.

📌 Anthropic chi hàng triệu USD mua sách in rồi tiêu hủy để huấn luyện AI Claude, bất chấp tranh cãi đạo đức. Quy trình quét phá hủy giúp tiết kiệm chi phí so với quét không phá hủy. Tòa án Mỹ xác nhận hành vi này là “fair use” nhờ mua hợp pháp và không phân phối lại. Đây là trường hợp điển hình về cơn khát dữ liệu chất lượng cao trong cuộc đua AI hiện nay.

https://arstechnica.com/ai/2025/06/anthropic-destroyed-millions-of-print-books-to-build-its-ai-models/

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI data 2025-06-27 05:41:49

BCG khuyến nghị doanh nghiệp nên khai thác dữ liệu bị bỏ qua để tối ưu hóa giá trị AI

Tại hội nghị VentureBeat Transform 2025, BCG nhấn mạnh việc triển khai AI doanh nghiệp vấp phải thách thức lớn nhất nằm ở dữ liệu – đặc biệt là dữ liệu bị bỏ qua hoặc chưa chuẩn hóa.
Braden Holstege, Giám đốc BCG, chia sẻ rằng doanh nghiệp cần xem xét kỹ các yếu tố như phơi nhiễm dữ liệu, ngân sách AI cho từng người, quyền truy cập và quản trị rủi ro.
Ví dụ, một khách hàng đã sử dụng LLM để phân tích dữ liệu về tỷ lệ rời bỏ khách hàng, khiếu nại và phản hồi tích cực – các insight mà trước đây NLP không thể khai thác.
Dữ liệu không đồng nhất: Từ giao dịch, tài liệu, phản hồi khách hàng cho đến trace data trong quá trình phát triển ứng dụng đều có giá trị cho AI.
Susan Etlinger, nhà phân tích ngành, nhấn mạnh AI-ready data là yếu tố sống còn, giúp doanh nghiệp nhận ra những khả năng mới trong quá trình vận hành AI.
Báo cáo từ Gartner:
- 60% dự án AI sẽ bị hủy bỏ trước năm 2026 nếu thiếu dữ liệu AI-ready.
- 63% các lãnh đạo dữ liệu thừa nhận chưa có quy trình quản lý dữ liệu phù hợp.
Awais Sher Bajwa, Giám đốc dữ liệu và AI ngân hàng Bank of America, cảnh báo doanh nghiệp cần giải quyết các vấn đề như AI model drift và đảm bảo quá trình triển khai AI là hợp tác, không cần ép buộc người dùng cuối vốn đã quen với chatbot.
Về hạ tầng, doanh nghiệp phải cân nhắc giữa cloud, on-prem và hybrid. Các nhà cung cấp như Nvidia, AMD, NeoClouds mang lại nhiều lựa chọn tiết kiệm hơn nhưng đòi hỏi cân bằng giữa chi phí, bảo mật và tối ưu hóa.
Holstege nhấn mạnh rằng mô hình nguồn mở như Llama, Mistral tuy tiết kiệm chi phí license nhưng yêu cầu compute cao hơn và phức tạp trong quản lý dữ liệu.

📌 Boston Consulting Group cảnh báo doanh nghiệp có thể thất bại tới 60% dự án AI đến năm 2026 nếu bỏ qua dữ liệu AI-ready. Việc tận dụng dữ liệu bị lãng quên như trace data, phản hồi khách hàng giúp khai phá giá trị AI thực sự. Tuy nhiên, doanh nghiệp cần cân nhắc chi phí tính toán, bảo mật và lựa chọn hạ tầng phù hợp giữa cloud, on-prem hoặc hybrid, đặc biệt khi sử dụng mô hình nguồn mở như Llama và Mistral.

https://venturebeat.com/ai/boston-consulting-group-to-unlock-enterprise-ai-value-start-with-the-data-youve-been-ignoring/

Không có file đính kèm.

Nguồn tham khảo

AI tương lai AI data 2025-06-23 06:13:21

Cựu CEO Scale AI – Alexandr Wang – chia sẻ với tạp chí TIME về sứ mệnh tại Meta

Ngày 12/6/2025, Alexandr Wang chính thức từ chức CEO Scale AI để đảm nhận vị trí lãnh đạo phòng AI siêu trí tuệ tại Meta. Thương vụ đi kèm khoản đầu tư 14,3 tỷ USD từ Meta vào Scale, nhưng "món hời thật sự là Wang", không phải công ty.
Mặc dù không xuất thân từ giới học thuật AI đỉnh cao, Wang – 28 tuổi – có tham vọng mãnh liệt và hiểu sâu về dữ liệu huấn luyện AI, từng được Sam Altman đánh giá cao và từng sống cùng thời gian dài trong đại dịch.
Trả lời TIME, Wang cho rằng tương lai kinh tế sẽ chuyển sang mô hình “agentic” – nơi doanh nghiệp, chính phủ và thậm chí cả chiến tranh đều do AI agent điều hành, con người chỉ còn vai trò giám sát.
Ông khẳng định quá trình chuyển đổi này sẽ phức tạp, cần chuẩn bị hạ tầng, chính sách và quy định chặt chẽ để tránh gián đoạn xã hội.
Về dữ liệu, Wang cho rằng ngành AI luôn có “điểm mù” và chính những điểm yếu của mô hình tạo ra nhu cầu không ngừng cho dữ liệu mới. Do đó, công việc gắn nhãn dữ liệu không biến mất mà còn gia tăng.
Mô hình AI hiện nay tuy ấn tượng ở bề nổi, nhưng khi ứng dụng thực tế thì lộ rõ thiếu sót. Từ đó, nhu cầu cải tiến bằng dữ liệu vẫn tiếp diễn vô tận.
Mặc dù Scale AI đối mặt với sự chỉ trích về việc trả chậm cho hơn 240.000 lao động hợp đồng, Wang cho rằng công ty đang cải tiến liên tục. Lucy Guo – đồng sáng lập Scale – từng rời đi vì bất đồng về vấn đề đối xử với lực lượng này.
Wang nhìn nhận thành công của Scale đến từ việc coi dữ liệu là trụ cột thứ ba cùng với thuật toán và phần cứng. Công ty đã giúp xây dựng các nền tảng cho doanh nghiệp và chính phủ triển khai AI trên dữ liệu nội bộ.
Mặc dù OpenAI và Google đang cắt quan hệ với Scale vì thương vụ Meta, Wang khẳng định thị trường “AI data” vẫn tăng trưởng mạnh, và Scale sẽ đóng vai trò nền tảng dữ liệu cho thế giới AI agent trong tương lai.

📌 Alexandr Wang rời Scale AI để dẫn dắt tham vọng “AI siêu trí tuệ” tại Meta với khoản đầu tư 14,3 tỷ USD. Ông cảnh báo rằng AI càng phát triển, các thiếu sót càng bộc lộ rõ, dẫn tới nhu cầu dữ liệu ngày càng lớn. Với tầm nhìn về một thế giới do AI agent điều hành, Wang coi dữ liệu là trụ cột sống còn và không ngừng thúc đẩy tốc độ cải tiến bất chấp rủi ro xã hội.

https://time.com/7296215/alexandr-wang-interview/

Không có file đính kèm.

Nguồn tham khảo

AI data AI pháp lý-quản trị-chủ quyền 2025-06-09 08:08:19

Chính phủ Anh từ chối yêu cầu buộc các công ty AI tiết lộ dữ liệu huấn luyện

Chính phủ Anh tuyên bố sẽ không buộc các công ty AI tiết lộ nội dung bản quyền được dùng trong quá trình huấn luyện mô hình, bất chấp yêu cầu mạnh mẽ từ Thượng viện.
Hôm thứ Tư, các thành viên Thượng viện đã bỏ phiếu 221–116 để thông qua sửa đổi trong đạo luật dữ liệu nhằm yêu cầu minh bạch về dữ liệu huấn luyện AI.
Tuy nhiên, chính phủ đã bác bỏ sửa đổi này vào thứ Sáu, thay vào đó cam kết công bố đánh giá tác động kinh tế và báo cáo kỹ thuật về tương lai bản quyền và AI.
Beeban Kidron, đạo diễn và thành viên độc lập của Thượng viện, cáo buộc chính phủ “nói dối Quốc hội và ngành sáng tạo”, cho rằng họ đã rút bỏ mọi biện pháp bảo vệ quyền tác giả khỏi đạo luật dữ liệu.
Hiệp hội Truyền thông Tin tức (NMA) cảnh báo rằng có thể sẽ tiếp tục đưa sửa đổi vào khi dự luật quay lại Thượng viện vào tuần tới.
Kidron nói chính phủ đang "phá hoại ngành công nghiệp lớn thứ hai nước Anh", đồng thời làm xói mòn niềm tin của nhiều lĩnh vực vào chính phủ.
CEO NMA, Owen Meredith, nhấn mạnh chính phủ cần bổ sung quyền minh bạch vào đạo luật, điều này ảnh hưởng tới niềm tin trong ngành trị giá 126 tỷ bảng Anh (~160 tỷ USD).
Các nghệ sĩ lớn như Elton John, Paul McCartney, Kate Bush và các tổ chức như National Theatre đã công khai chỉ trích lập trường của chính phủ về bản quyền AI.
Cuộc tham vấn đang diễn ra về thay đổi chính sách bản quyền có 4 phương án:
1. Cho phép AI dùng tác phẩm bản quyền không xin phép
2. Cho phép “opt-out” cho nghệ sĩ
3. Giữ nguyên hiện trạng
4. Bắt buộc xin giấy phép (Kidron đề xuất)
Bộ trưởng Công nghệ Peter Kyle tuyên bố phương án miễn trừ kèm quyền opt-out không còn là lựa chọn ưu tiên, nhưng chưa có đảm bảo cụ thể về việc yêu cầu cấp phép.

📌 Chính phủ Anh gây tranh cãi dữ dội khi từ chối yêu cầu minh bạch dữ liệu huấn luyện AI, bất chấp Thượng viện và các nghệ sĩ lớn kêu gọi bảo vệ bản quyền. Với ngành sáng tạo trị giá 126 tỷ bảng đang bị đe dọa, các tổ chức như NMA và nhiều nhân vật nổi tiếng tiếp tục kêu gọi điều chỉnh luật dữ liệu để yêu cầu các công ty AI xin phép khi sử dụng nội dung có bản quyền.

https://www.theguardian.com/law/2025/jun/06/uk-government-signals-it-will-not-force-tech-firms-to-disclose-how-they-train-ai

Không có file đính kèm.

Nguồn tham khảo

AI data Semi-Cloud-DC-Green 2025-06-07 09:25:03

Trung Quốc sẽ thành lập 10 khu thí điểm dữ liệu quốc gia cạnh tranh với Mỹ trong cuộc đua AI

Trung Quốc thông báo sẽ thành lập 10 khu thí điểm dữ liệu quốc gia tại các địa phương như Bắc Kinh, Chiết Giang, An Huy nhằm thúc đẩy nền kinh tế số và tăng tốc trong cuộc đua AI với Mỹ.
Theo Đài truyền hình trung ương CCTV, sáng kiến này khuyến khích chính quyền địa phương dẫn đầu trong việc phát triển thị trường dữ liệu và nuôi dưỡng các doanh nghiệp hoạt động trong lĩnh vực dữ liệu.
Mục tiêu của các khu dữ liệu là tích hợp kinh tế thực và kinh tế số, mở khóa giá trị kinh tế thông qua ứng dụng dữ liệu trên diện rộng.
Trung Quốc hiện có hơn 190.000 doanh nghiệp dữ liệu, với quy mô thị trường vượt 2.000 tỷ NDT (278,4 tỷ USD) và dự kiến đạt 7.500 tỷ NDT (~1.044 tỷ USD) vào năm 2030.
Kế hoạch hành động 3 năm (2024–2026) do 17 cơ quan chính phủ ban hành đặt mục tiêu gấp đôi khối lượng giao dịch dữ liệu và xây dựng hơn 300 kịch bản ứng dụng tiêu biểu trong các ngành nghề.
Tại cuối năm 2024, Bắc Kinh đã công bố bản kế hoạch tăng trưởng ngành dữ liệu, với mục tiêu tăng trưởng trên 15%/năm đến năm 2029, đồng thời đặt ưu tiên vào trí tuệ nhân tạo và công nghệ liên quan đến dữ liệu.
Ông Luan Jie (Phó Cục trưởng Vụ Chính sách và Quy hoạch – NDA) cho biết, gần 500 công ty con công nghệ số đã được các doanh nghiệp nhà nước trung ương thành lập theo kế hoạch 3 năm.
Khoảng 66% doanh nghiệp hàng đầu trong các ngành đã mua dữ liệu, giúp rút ngắn chu kỳ phát triển và thu mua hơn 30%, giảm thời gian luân chuyển hàng tồn từ 3 tháng xuống chỉ 1 tháng.
Trong nông nghiệp, việc ứng dụng dữ liệu đã giúp một số doanh nghiệp tăng năng suất cây trồng lên 5,5%.

📌 Trung Quốc chuẩn bị triển khai 10 khu dữ liệu quốc gia nhằm tăng tốc nền kinh tế số trị giá 2.000 tỷ NDT, đặt mục tiêu đạt 7.500 tỷ NDT vào 2030. Kế hoạch này giúp cắt giảm 30% thời gian phát triển sản phẩm và nâng năng suất nông nghiệp 5,5%, là đòn bẩy chiến lược trong cuộc đua AI toàn cầu với Mỹ.

https://www.scmp.com/economy/china-economy/article/3313325/china-eyes-10-new-national-data-zones-digital-economy-push-ai-race-us

Không có file đính kèm.

Nguồn tham khảo

119

AI data AI models AI mở-nguồn mở 2025-06-04 07:11:27

DeepSeek bị nghi ngờ sử dụng dữ liệu của Gemini (Google) để huấn luyện mô hình AI R1 mới nhất

DeepSeek ra mắt phiên bản cập nhật mô hình AI R1, nổi bật về toán học và lập trình nhưng không công bố nguồn dữ liệu huấn luyện.
Một nhà phát triển tại Melbourne, Sam Paech, tung bằng chứng cho thấy mô hình R1-0528 của DeepSeek có xu hướng dùng từ ngữ giống Gemini 2.5 Pro của Google, nghi ngờ đã dùng dữ liệu Gemini để huấn luyện.
Nhận định bổ sung từ nhà sáng lập SpeechMap cho rằng "dấu vết suy nghĩ" của R1-0528 giống Gemini.
DeepSeek từng bị nghi dùng dữ liệu từ các AI đối thủ: tháng 12/2024, mô hình DeepSeek V3 thường tự nhận là ChatGPT, có thể do dùng log chat của ChatGPT huấn luyện.
Đầu 2025, OpenAI thông báo phát hiện DeepSeek sử dụng kỹ thuật distillation để trích xuất dữ liệu từ mô hình mạnh hơn. Microsoft cũng phát hiện lượng lớn dữ liệu bị sao chép thông qua tài khoản nhà phát triển OpenAI nghi liên quan DeepSeek.
OpenAI cấm sử dụng kết quả đầu ra để xây dựng AI cạnh tranh, nhưng distillation lại phổ biến trong ngành.
Việc các mô hình AI dùng từ ngữ, biểu đạt giống nhau không hiếm do dữ liệu web ngày càng "ô nhiễm" bởi nội dung do AI tạo, khiến khó lọc và phân loại dữ liệu sạch cho huấn luyện.
Chuyên gia Nathan Lambert từ AI2 cho rằng DeepSeek có thể đã chủ động dùng API Gemini để tạo dữ liệu tổng hợp, do thiếu GPU nhưng có nguồn vốn lớn, tận dụng “nhiều tính toán hơn” theo cách riêng.
Để ngăn distillation, các công ty AI tăng cường bảo mật: OpenAI bắt buộc xác minh ID cho tổ chức truy cập mô hình nâng cao (không hỗ trợ Trung Quốc).
Google và Anthropic bắt đầu tóm tắt (summarize) các "trace" mô hình để gây khó khăn cho việc huấn luyện đối thủ từ dấu vết Gemini, bảo vệ lợi thế cạnh tranh.
Sự kiện hé lộ căng thẳng cạnh tranh, chạy đua công nghệ và nâng cấp bảo mật trong thế giới AI tạo sinh.

📌 DeepSeek bị nghi dùng dữ liệu Gemini (Google) để huấn luyện AI R1-0528 mới, với bằng chứng về dấu vết từ ngữ và cách vận hành tương đồng; từng có tiền sử dùng dữ liệu ChatGPT. Các ông lớn AI tăng cường bảo mật, OpenAI cấm distillation, Google/Anthropic tóm tắt trace để bảo vệ dữ liệu. Cạnh tranh AI toàn cầu ngày càng phức tạp và gay gắt.

https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model/

Không có file đính kèm.

Nguồn tham khảo

AI chính phủ AI đạo đức AI data 2025-05-26 00:48:54

Chính phủ Mỹ dùng chatbot Grok của Elon Musk: Xung đột lợi ích hay tội phạm liên bang?

Grok, chatbot do công ty xAI của Elon Musk phát triển, hiện đang được một bộ phận chính phủ Mỹ sử dụng, cụ thể là Đội ngũ Hiệu quả Chính phủ (DOGE) – một nhóm do Musk lập ra.
Grok ban đầu ra đời như một đối trọng “chống thức tỉnh” (anti-woke) với ChatGPT, nhưng lại bị cả phe bảo thủ chỉ trích vì không đủ cực đoan.
Theo Reuters, Grok đang được sử dụng để xử lý và phân tích dữ liệu chính phủ, thậm chí có thể tham gia vào việc soạn thảo báo cáo, gây lo ngại lớn về bảo mật dữ liệu và quyền riêng tư.
Các chuyên gia đạo đức, bao gồm Richard Painter – cố vấn của cựu Tổng thống George W. Bush – cảnh báo rằng nếu Musk trực tiếp quyết định áp dụng Grok, điều đó có thể vi phạm luật xung đột lợi ích liên bang.
Luật này nghiêm cấm quan chức chính phủ tham gia vào những quyết định có thể mang lại lợi ích tài chính cá nhân, và vi phạm có thể bị xử phạt tiền hoặc thậm chí phạt tù, dù hiếm khi được áp dụng nghiêm khắc.
Ngoài Grok, nhiều người chỉ trích rằng Musk đang lợi dụng ảnh hưởng chính trị để trục lợi, từ việc giúp Trump tái đắc cử cho đến việc né tránh 2,37 tỷ USD tiền phạt và chế tài liên bang nhờ chính sách nới lỏng dưới chính quyền mới.
Starlink cũng bị cho là đang được “ép” để các quốc gia bị áp thuế bắt buộc sử dụng, cho thấy mức độ lũng đoạn của Musk trong chính sách quốc tế và thương mại.
DOGE – tổ chức cải cách chi tiêu mà Musk dẫn đầu – được cho là không đạt được hiệu quả tiết kiệm ngân sách như cam kết, và nhiều khoản cắt giảm lại gây thiệt hại lâu dài cho các dịch vụ công.

📌 Chatbot Grok của Elon Musk đang bị chính phủ Mỹ sử dụng để xử lý dữ liệu liên bang, dẫn đến nghi ngờ vi phạm đạo đức và luật xung đột lợi ích. Reuters cho rằng hành động này có thể cấu thành tội phạm liên bang, trong khi Musk tiếp tục bị chỉ trích vì lợi dụng chính quyền để né chế tài và trục lợi chính trị – tài chính.

https://gizmodo.com/elons-doge-is-reportedly-using-grok-ai-with-government-data-2000606753

Không có file đính kèm.

Nguồn tham khảo

AI nghiên cứu AI models AI data 2025-05-17 08:36:52

Mô hình AI như ChatGPT có thể dần suy giảm hiệu suất do "sụp đổ mô hình"

Từ khi ChatGPT được công bố năm 2022, người dùng đã tạo ra lượng lớn văn bản AI đăng tải lên mạng, khiến các mô hình mới có nguy cơ được huấn luyện trên dữ liệu không còn thuần túy từ con người.
Hiện tượng “sụp đổ mô hình” (model collapse) xảy ra khi văn bản máy sinh ra làm sai lệch phân phối ngôn ngữ so với thực tế, dẫn đến các mô hình mới trở nên kém chính xác.
Nghiên cứu chỉ ra việc dùng dữ liệu tổng hợp liên tục có thể khiến mô hình "quên" những thông tin ít xuất hiện (sự kiện vùng đuôi), gây ra lỗi hoặc thiên vị.
Không chỉ LLM mà các mô hình tạo ảnh như Stable Diffusion, hay autoencoder và Gaussian Mixture Model cũng có thể bị ảnh hưởng nếu tái huấn luyện nhiều vòng với dữ liệu máy tạo.
Việc trộn lẫn dữ liệu thực và dữ liệu tổng hợp làm chậm lại sự suy giảm hiệu suất, nhưng lại đòi hỏi tài nguyên tính toán lớn hơn.
Phân biệt văn bản thật với văn bản AI là cực kỳ khó khăn và vẫn chưa có giải pháp hiệu quả.
Giải pháp tiềm năng: chọn lọc dữ liệu tổng hợp chất lượng cao thông qua điểm đánh giá nội bộ từ LLM hoặc phản hồi từ người dùng, tương tự phương pháp RLHF.
Một nghiên cứu dự đoán thế giới sẽ cạn kiệt dữ liệu văn bản gốc để huấn luyện AI trong khoảng 2026–2032.
Câu hỏi đặt ra là liệu dữ liệu tổng hợp chất lượng cao có thể thúc đẩy cải tiến mô hình, tạo thành "vòng lặp tích cực" thay vì sụp đổ.
Tuy chưa có bằng chứng chắc chắn, nhưng các nhà nghiên cứu cho rằng có tiềm năng nếu kiểm soát được chất lượng dữ liệu sinh ra.
Ngoài ra, việc mất các thông tin vùng đuôi có thể làm AI trở nên thiên vị, xoá bỏ tiếng nói của nhóm thiểu số — một vấn đề chưa được nghiên cứu đầy đủ do thiếu minh bạch từ các công ty AI.
Các chuyên gia cảnh báo vấn đề này nghiêm trọng nhưng không phải thảm hoạ sắp tới, mà cần quản lý thận trọng từ các công ty phát triển AI.

📌 Mô hình AI đang đối mặt nguy cơ “sụp đổ mô hình” do tự học từ chính dữ liệu mình tạo ra. Nếu không chọn lọc kỹ, chất lượng mô hình sẽ suy giảm, xóa bỏ các chi tiết ít phổ biến và gây thiên vị. Tuy nhiên, việc kiểm duyệt dữ liệu tổng hợp có thể tạo ra một “vòng lặp cải tiến” khả thi. Dự đoán đến 2032, thế giới có thể hết dữ liệu mới để huấn luyện AI.

https://cacm.acm.org/news/the-collapse-of-gpt/

Không có file đính kèm.

Nguồn tham khảo

AI data AI pháp lý-quản trị-chủ quyền 2025-05-09 17:36:08

OpenAI triển khai chương trình lưu trữ dữ liệu tại chỗ ở châu Á cho ChatGPT và API

OpenAI vừa công bố triển khai chương trình lưu trữ dữ liệu tại chỗ (data residency) dành riêng cho khu vực châu Á, sau khi chương trình tương tự được ra mắt tại châu Âu vào tháng 2.
Chương trình áp dụng cho các sản phẩm ChatGPT Enterprise, ChatGPT Edu, và OpenAI API, giúp doanh nghiệp và tổ chức trong khu vực tuân thủ yêu cầu về chủ quyền dữ liệu địa phương.
Các khách hàng đủ điều kiện sử dụng API, cũng như người đăng ký mới của ChatGPT Enterprise và Edu, có thể lựa chọn lưu trữ dữ liệu tại các quốc gia được hỗ trợ, bao gồm:
- Nhật Bản
- Ấn Độ
- Singapore
- Hàn Quốc
Dữ liệu của khách hàng sẽ được lưu trữ tĩnh (at rest) tại các quốc gia trên, đồng thời giữ tính bảo mật, riêng tư và thuộc sở hữu hoàn toàn của người dùng, theo xác nhận từ OpenAI.
Công ty khẳng định việc thiết lập quyền lưu trữ dữ liệu tại chỗ giúp các tổ chức kiểm soát dữ liệu tốt hơn và tăng tính an tâm khi sử dụng các sản phẩm AI tạo sinh của OpenAI.
Việc triển khai chương trình này là một phần trong kế hoạch mở rộng hoạt động toàn cầu, cùng với sáng kiến "OpenAI for Countries" – một chương trình nhằm xây dựng hạ tầng kỹ thuật và dịch vụ phù hợp cho từng quốc gia.
Với chương trình mới, OpenAI không chỉ tăng cường sự hiện diện ở châu Á, mà còn thể hiện nỗ lực phản hồi yêu cầu chính sách dữ liệu ngày càng nghiêm ngặt tại từng quốc gia.

📌 OpenAI chính thức ra mắt chương trình lưu trữ dữ liệu tại chỗ tại châu Á, áp dụng cho ChatGPT Enterprise, Edu và API, hỗ trợ lưu trữ tại Nhật Bản, Ấn Độ, Singapore và Hàn Quốc. Đây là một phần trong chiến lược mở rộng toàn cầu của OpenAI và sáng kiến "OpenAI for Countries", nhằm nâng cao kiểm soát dữ liệu và tuân thủ quy định địa phương.

https://techcrunch.com/2025/05/08/openai-launches-a-data-residency-program-in-asia/

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI data 2025-05-09 00:28:17

Doanh nghiệp muốn thành công với AI cần Enterprise Intelligence Architecture – với 4 tầng dữ liệu

Tại hội nghị Directions thường niên lần thứ 60 của IDC, nhà phân tích Marlanna Bozicevich chia sẻ mô hình Enterprise Intelligence Architecture (Kiến trúc Trí tuệ Doanh nghiệp) gồm 4 tầng dữ liệu để giúp tổ chức sẵn sàng cho AI.
Bốn tầng gồm: data plane (dữ liệu thô), data control plane (quản lý dữ liệu), data synthesis plane (tổng hợp dữ liệu), và business activity plane (hoạt động kinh doanh).
AI được xem là công cụ tăng năng suất trong quản lý dữ liệu, thông qua tự động hóa tác vụ lặp lại, giao diện ngôn ngữ tự nhiên và AI tác nhân (agentic AI) có khả năng hành động tự chủ.
Ba mục tiêu chính của lãnh đạo CNTT trong AI là: nâng cao năng suất, đảm bảo AI có trách nhiệm, và triển khai AI tác nhân.
Marlanna nhấn mạnh cần hiểu AI không chỉ tiêu thụ dữ liệu, mà còn có thể cải thiện chất lượng dữ liệu bằng cách hỗ trợ các vai trò như kỹ sư dữ liệu, nhà khoa học dữ liệu và quản lý dữ liệu.
Khái niệm "AI for data / data for AI" cho thấy sự liên kết hai chiều: AI giúp cải thiện quy trình dữ liệu, trong khi dữ liệu sạch giúp AI hoạt động hiệu quả hơn trên toàn tổ chức.
Bà cũng đề xuất cần xem dữ liệu như một sản phẩm, tức là dữ liệu phải có chất lượng, tiêu chuẩn hóa và khả năng trao đổi giữa các AI agents.
Để triển khai AI mang lại ROI, doanh nghiệp phải đầu tư vào cấu trúc dữ liệu có thể học liên tục và cộng tác quy mô lớn, thúc đẩy văn hóa dữ liệu và nâng cao hiểu biết về dữ liệu trong tổ chức.
Kiến trúc này là cầu nối giữa dữ liệu và kết quả kinh doanh, đảm bảo dữ liệu được thu thập, xử lý, lưu trữ và truy cập một cách hiệu quả và phù hợp với mục tiêu AI.

📌 Để AI tạo sinh mang lại hiệu quả thực tế, tổ chức phải đầu tư vào Enterprise Intelligence Architecture với 4 tầng dữ liệu cốt lõi. Mô hình này giúp xử lý và sử dụng dữ liệu một cách chiến lược, thúc đẩy năng suất, chuẩn hóa dữ liệu như sản phẩm và tạo ra nền tảng cho AI tác nhân hoạt động hiệu quả trong toàn doanh nghiệp.

https://www.cio.com/article/3978635/how-to-build-an-ai-ready-organization-the-enterprise-intelligence-architecture.html?amp=1

Không có file đính kèm.

Nguồn tham khảo

AI data AI models 2025-05-06 07:35:22

90% dữ liệu AI tạo sinh hiện nay là tiếng Anh Mỹ, gây ra bất công và làm lu mờ những biến thể tiếng Anh khác

90% dữ liệu đào tạo của AI tạo sinh hiện nay xuất phát từ tiếng Anh, chủ yếu là tiếng Anh Mỹ dòng chính (mainstream American English).
Tiếng Anh Mỹ chiếm ưu thế do lịch sử, kinh tế, công nghệ và sự thống trị của các tập đoàn công nghệ Mỹ như Google, Meta, Microsoft, OpenAI.
Các sản phẩm AI như autocorrect, chuyển giọng nói thành văn bản, hay trợ lý viết bằng AI đều dựa trên dữ liệu tiếng Anh Mỹ, dẫn đến loại trừ hoặc “sửa” các biến thể tiếng Anh khác.
Nghiên cứu cho thấy người nói tiếng Anh không thuộc dòng chính cảm thấy thất vọng khi các công nghệ AI đều dùng giọng Mỹ, gây khó chịu và cảm giác bị loại trừ.
Ví dụ thực tế: Một nhà ngôn ngữ gọi điện cho các chủ nhà bằng 3 phương ngữ khác nhau tại Mỹ, kết quả chỉ giọng Mỹ dòng chính mới nhận được nhiều lời mời xem nhà – chứng tỏ thiên vị ngôn ngữ không chỉ tồn tại ngoài đời mà còn được củng cố bởi AI.
Khi AI được ứng dụng rộng rãi, hậu quả của thiên vị này càng nghiêm trọng: Ứng viên dùng tiếng Anh Ấn Độ có thể bị hệ thống AI chấm điểm hồ sơ thấp, phần mềm nhận diện giọng nói bỏ sót từ vựng quan trọng trong văn hóa bản địa.
Các biến thể tiếng Anh như tiếng Anh bản địa Úc, Anh Ấn Độ, Anh Singapore… đều có cấu trúc, từ vựng và “luật” riêng, nhưng thường bị xem là “tiếng Anh hỏng” hoặc bị loại ra khỏi tập dữ liệu huấn luyện.
AI đa ngôn ngữ trên lý thuyết nhưng lại đơn ngữ trong thực tế do thiếu dữ liệu các biến thể tiếng Anh.
Để hướng tới công bằng ngôn ngữ, cần phát triển AI công nhận sự đa dạng tiếng Anh, hợp tác giữa các nhà ngôn ngữ học, kỹ sư, giáo viên và cộng đồng địa phương.
Mục tiêu là thay đổi công nghệ cho phù hợp với người dùng, không phải “sửa” người dùng theo tiêu chuẩn tiếng Anh Mỹ.

📌 Khoảng 90% dữ liệu AI tạo sinh hiện nay là tiếng Anh Mỹ, gây ra bất công và làm lu mờ những biến thể tiếng Anh khác. Các hệ thống AI cần thay đổi để tôn trọng đa dạng ngôn ngữ, tránh duy trì “ảo giác” về tiếng Anh tiêu chuẩn và tạo ra kết quả công bằng cho toàn cầu.

https://theconversation.com/ai-systems-are-built-on-english-but-not-the-kind-most-of-the-world-speaks-249710

Không có file đính kèm.

Nguồn tham khảo

AI & công nghệ khác AI data 2025-04-19 04:51:24

Google kết hợp máy tính lượng tử với AI để vượt mặt đối thủ

Các nhà khoa học của Alphabet đang phát triển máy tính lượng tử tiên tiến nhất thế giới tại Santa Barbara, California, với mục tiêu kết hợp sức mạnh giữa lượng tử và AI.
Julian Kelly, giám đốc phần cứng Google Quantum AI, nhận định AI và lượng tử sẽ bổ sung cho nhau, mở ra khả năng giải quyết các vấn đề chưa từng có.
Google từng bị cho là chậm chân so với OpenAI khi ChatGPT nổi lên cuối năm 2022, nhưng cuối năm 2024, Google công bố chip lượng tử Willow với khả năng giải quyết bài toán benchmark vượt xa máy tính cổ điển.
Willow giúp giảm lỗi theo cấp số nhân khi bổ sung thêm lượng tử bit (qubit), được đánh giá là “cột mốc của lĩnh vực” bởi John Preskill của Viện Công nghệ California.
Chip Willow mở ra cơ hội để Google dẫn đầu kỷ nguyên công nghệ tiếp theo, đặc biệt trong bối cảnh AI ngày càng cạn kiệt dữ liệu chất lượng cao để học.
Một ứng dụng tiềm năng: lượng tử có thể tạo dữ liệu mới và độc đáo, giúp AI tiếp tục phát triển khi nguồn dữ liệu hiện tại gần như đã bị khai thác hết.
Ví dụ AlphaFold, sản phẩm của Google DeepMind đoạt Nobel Hóa học 2024, đã tạo ra bước tiến lớn nhờ sử dụng dữ liệu liên quan đến cơ học lượng tử.
Kelly nhận định máy tính lượng tử có thể tạo dữ liệu đặc thù về lượng tử cơ học, giúp AI đào sâu hiểu biết về thế giới vi mô và phát triển mạnh hơn.
Kelly tin rằng Google chỉ cần khoảng 5 năm nữa để phát triển ứng dụng thực tiễn đầu tiên chỉ có thể giải quyết bằng máy tính lượng tử.
Thách thức lớn nhất để Google “soán ngôi” nền tảng công nghệ tiếp theo là biến đột phá lượng tử thành sản phẩm thương mại tạo lợi nhuận thực tế.

📌 Google đang tăng tốc để đối đầu OpenAI bằng chip lượng tử Willow, có thể tạo dữ liệu huấn luyện mới cho AI, giảm lỗi vượt trội. Willow hướng đến giải quyết bài toán mà máy tính cổ điển chịu thua, dự kiến chỉ 5 năm nữa Google có thể trình làng ứng dụng thực tiễn đầu tiên nhờ lượng tử.

https://www.cnbc.com/2025/04/18/how-quantum-computing-could-supercharge-googles-ai-ambitions.html

Không có file đính kèm.

Nguồn tham khảo

AI data AI riêng tư 2025-04-15 05:21:58

Apple sẽ phân tích dữ liệu người dùng trực tiếp trên thiết bị để nâng cấp công nghệ AI mà không xâm phạm quyền riêng tư

Apple sẽ bắt đầu phân tích dữ liệu trên thiết bị của khách hàng nhằm cải thiện nền tảng trí tuệ nhân tạo, đảm bảo thông tin người dùng được bảo vệ đồng thời giúp công ty bắt kịp với đối thủ AI.
Hiện tại, Apple chủ yếu huấn luyện mô hình AI bằng dữ liệu tổng hợp - thông tin mô phỏng đầu vào thực tế mà không chứa chi tiết cá nhân, nhưng phương pháp này không luôn phản ánh chính xác dữ liệu khách hàng thực tế.
Công nghệ mới sẽ so sánh dữ liệu tổng hợp với mẫu email gần đây của người dùng trong ứng dụng email iPhone, iPad và Mac, giúp xác định phần nào trong bộ dữ liệu tổng hợp phù hợp nhất với tin nhắn thực tế.
Những hiểu biết này sẽ cải thiện các tính năng liên quan đến văn bản trong nền tảng Apple Intelligence, như tóm tắt thông báo, khả năng tổng hợp suy nghĩ trong Writing Tools, và tổng kết tin nhắn người dùng.
Hệ thống mới sẽ được triển khai trong phiên bản beta sắp tới của iOS và iPadOS 18.5 và macOS 15.5, với bản beta thứ hai đã được cung cấp cho nhà phát triển vào ngày 14/4/2025.
Apple cũng đang áp dụng các phương pháp bảo vệ quyền riêng tư để cải thiện mô hình cho các tính năng Apple Intelligence khác như Image Playground, Image Wand, Memories Creation và Visual Intelligence.
Công ty đã sử dụng công nghệ "differential privacy" để cải thiện tính năng Genmoji, giúp xác định các prompt phổ biến trong khi đảm bảo các prompt độc đáo hoặc hiếm không bị phát hiện.
Các tính năng này chỉ dành cho người dùng đã chọn tham gia phân tích thiết bị và khả năng cải thiện sản phẩm, được quản lý trong tab Privacy and Security trong ứng dụng Settings.
Đội ngũ trí tuệ nhân tạo của Apple đã có nhiều biến động trong vài tháng qua, với việc Bloomberg News đưa tin về các khó khăn của tổ chức, vấn đề lãnh đạo, sản phẩm bị trì hoãn và thay đổi lãnh đạo.
Vào tháng 3, Apple đã cải tổ một phần ban lãnh đạo nhóm AI, tước bỏ trách nhiệm về Siri từ giám đốc John Giannandrea và giao nhóm trợ lý giọng nói cho Mike Rockwell và Craig Federighi.

📌 Apple đang triển khai chiến lược phân tích dữ liệu trên thiết bị để cải thiện AI mà không xâm phạm quyền riêng tư. Phương pháp so sánh dữ liệu tổng hợp với email thực tế sẽ được áp dụng trong iOS/iPadOS 18.5 và macOS 15.5, giúp Apple bắt kịp với đối thủ như OpenAI và Google.

https://www.bloomberg.com/news/articles/2025-04-14/apple-to-analyze-user-data-on-devices-to-bolster-ai-technology

Apple sẽ phân tích dữ liệu người dùng trên thiết bị để tăng cường công nghệ AI

Large language models là công nghệ cốt lõi của AI hiện đại và chúng cung cấp năng lượng cho các tính năng trong Apple Intelligence.

Bởi Mark Gurman Ngày 14 tháng 4 năm 2025 lúc 7:00 PM UTC Cập nhật ngày 14 tháng 4 năm 2025 lúc 7:16 PM UTC

Điểm chính:

Apple sẽ phân tích dữ liệu trên thiết bị của khách hàng để cải thiện nền tảng trí tuệ nhân tạo, đồng thời đảm bảo dữ liệu người dùng vẫn ở trên thiết bị và không được sử dụng trực tiếp để đào tạo các mô hình AI.
Cách tiếp cận mới sẽ giúp Apple bắt kịp các đối thủ AI bằng cách sử dụng email thực tế để kiểm tra dữ liệu tổng hợp và cải thiện các tính năng liên quan đến văn bản trong nền tảng Apple Intelligence.
Công ty sẽ triển khai hệ thống mới trong phiên bản beta sắp tới của iOS và iPadOS 18.5 và macOS 15.5, đồng thời cũng đang mang đến những cách cải thiện các tính năng Apple Intelligence khác mà vẫn đảm bảo quyền riêng tư.

Apple Inc. sẽ bắt đầu phân tích dữ liệu trên thiết bị của khách hàng nhằm cải thiện nền tảng trí tuệ nhân tạo, một động thái được thiết kế để bảo vệ thông tin người dùng đồng thời vẫn giúp công ty bắt kịp các đối thủ AI.

Hiện nay, Apple thường đào tạo các mô hình AI sử dụng dữ liệu tổng hợp — thông tin được tạo ra để mô phỏng đầu vào thực tế mà không có bất kỳ chi tiết cá nhân nào. Nhưng dữ liệu tổng hợp này không phải lúc nào cũng đại diện cho dữ liệu khách hàng thực tế, khiến các hệ thống AI hoạt động không hiệu quả.

Cách tiếp cận mới sẽ giải quyết vấn đề đó đồng thời đảm bảo dữ liệu người dùng vẫn ở trên thiết bị và không được sử dụng trực tiếp để đào tạo mô hình AI. Ý tưởng là giúp Apple bắt kịp với các đối thủ như OpenAI và Alphabet Inc., vốn có ít hạn chế về quyền riêng tư hơn.

Công nghệ hoạt động như sau: Nó lấy dữ liệu tổng hợp mà Apple đã tạo và so sánh với mẫu email gần đây của người dùng trong ứng dụng email iPhone, iPad và Mac. Bằng cách sử dụng email thực tế để kiểm tra đầu vào giả, Apple có thể xác định những mục nào trong bộ dữ liệu tổng hợp phù hợp nhất với tin nhắn thực tế.

Những hiểu biết này sẽ giúp công ty cải thiện các tính năng liên quan đến văn bản trong nền tảng Apple Intelligence, chẳng hạn như tóm tắt trong thông báo, khả năng tổng hợp suy nghĩ trong Writing Tools và tóm tắt tin nhắn của người dùng.

"Khi tạo dữ liệu tổng hợp, mục tiêu của chúng tôi là tạo ra các câu hoặc email tổng hợp có chủ đề hoặc phong cách đủ giống với thực tế để giúp cải thiện mô hình tóm tắt của chúng tôi, nhưng không cần Apple thu thập email từ thiết bị," công ty viết trong một bài đăng trên blog machine learning vào hôm thứ Hai.

Large language models là công nghệ cốt lõi của AI hiện đại và chúng cung cấp năng lượng cho các tính năng trong Apple Intelligence, mà công ty đã phát hành vào năm ngoái. Ngoài việc sử dụng dữ liệu tổng hợp, Apple đã đào tạo các mô hình của mình với thông tin được cấp phép từ bên thứ ba hoặc tìm thấy bằng cách quét internet mở.

Việc phụ thuộc vào dữ liệu tổng hợp đã có những hạn chế, với các công cụ của công ty hiểu sai ý tưởng trong thông báo và không thể cung cấp bản tóm tắt chính xác của văn bản trong một số trường hợp.

Hệ thống mới về mặt lý thuyết có thể cải thiện mô hình của Apple, một bước quan trọng để trở thành đối thủ cạnh tranh nghiêm túc trong lĩnh vực AI đang phát triển. Nhóm trí tuệ nhân tạo của công ty đã thấy sản phẩm của họ tụt hậu so với đối thủ, thúc đẩy một cuộc cải tổ quản lý gần đây cho trợ lý giọng nói Siri và các nỗ lực liên quan.

Công ty sẽ triển khai hệ thống mới trong phiên bản beta sắp tới của iOS và iPadOS 18.5 và macOS 15.5. Bản beta thứ hai của những phiên bản sắp tới đã được cung cấp cho các nhà phát triển vào đầu ngày thứ Hai.

Nhà sản xuất iPhone cũng cho biết họ đang mang đến những cách cải thiện các mô hình được sử dụng để cung cấp năng lượng cho các tính năng Apple Intelligence khác như Image Playground, Image Wand, Memories Creation và Visual Intelligence mà vẫn đảm bảo quyền riêng tư.

Công ty đã dựa vào công nghệ gọi là differential privacy để giúp cải thiện tính năng Genmoji, cho phép người dùng tạo emoji tùy chỉnh. Hệ thống này "xác định các lời nhắc phổ biến và mẫu lời nhắc, đồng thời cung cấp đảm bảo toán học rằng các lời nhắc độc đáo hoặc hiếm không bị phát hiện," công ty cho biết trong bài đăng blog.

Ý tưởng là theo dõi cách mô hình phản hồi trong các tình huống nhiều người dùng đưa ra cùng một yêu cầu — chẳng hạn, yêu cầu một con khủng long mang cặp — và cải thiện kết quả trong những trường hợp đó.

Các tính năng chỉ dành cho người dùng đã chọn tham gia vào khả năng phân tích thiết bị và cải thiện sản phẩm. Những tùy chọn này được quản lý trong tab Privacy and Security trong ứng dụng Settings trên các thiết bị của công ty.

"Dựa trên nhiều năm kinh nghiệm sử dụng các kỹ thuật như differential privacy, cũng như các kỹ thuật mới như tạo dữ liệu tổng hợp, chúng tôi có thể cải thiện các tính năng Apple Intelligence đồng thời bảo vệ quyền riêng tư cho người dùng tham gia vào chương trình phân tích thiết bị," công ty cho biết.

Nhóm trí tuệ nhân tạo của Apple đã trong tình trạng xáo trộn trong vài tháng qua, với Bloomberg News đầu tiên đưa tin về các vấn đề của tổ chức, vấn đề lãnh đạo, sự chậm trễ sản phẩm và thay đổi điều hành.

Vào tháng 3, Apple đã cải tổ một phần quản lý nhóm AI, loại bỏ trách nhiệm về Siri từ giám đốc John Giannandrea và giao nhóm trợ lý giọng nói cho Mike Rockwell, người sáng tạo Vision Pro, và giám đốc phần mềm Craig Federighi. Công ty dự định công bố các nâng cấp Apple Intelligence vào tháng 6 nhưng sẽ không triển khai các tính năng được mong đợi từ lâu cho Siri cho đến năm sau.

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-04-12 03:31:19

Google tham gia cùng OpenAI áp dụng Model Context Protocol (MCP) của Anthropic

- Google vừa thông báo thông qua bài đăng trên X rằng họ sẽ hỗ trợ Model Context Protocol (MCP) của Anthropic, cho phép hệ thống AI bao gồm các agent truy cập kho dữ liệu, không gian phát triển và ứng dụng doanh nghiệp để hoạt động hiệu quả hơn.

- Hỗ trợ này sẽ áp dụng cho các mô hình Gemini và bộ công cụ phát triển phần mềm (SDK) của Google, đánh dấu một bước tiến quan trọng trong việc hợp tác giữa các đối thủ lớn trong ngành AI.

- Thông báo này tiếp nối quyết định của OpenAI vào ngày 26 tháng 3 khi họ tuyên bố áp dụng MCP, bắt đầu với SDK của mình. CEO Sam Altman cũng cho biết MCP cuối cùng sẽ có mặt trên ChatGPT phiên bản máy tính và ứng dụng di động, tuy nhiên chưa rõ thời điểm cụ thể.

- Các AI agent - những trợ lý giúp hoàn thành nhiều loại nhiệm vụ, đôi khi một cách tự động - ngày càng phát triển mạnh mẽ và ấn tượng, nhưng chúng chỉ hiệu quả khi có quyền truy cập vào dữ liệu cần thiết.

- Trong môi trường doanh nghiệp và bảo mật cao, các agent cần được tích hợp riêng biệt với từng hệ thống và nguồn dữ liệu, điều này tốn thời gian và khó mở rộng quy mô.

- MCP mà Anthropic đã phát hành dưới dạng nguồn mở vào cuối năm ngoái, giải quyết vấn đề này bằng cách cung cấp một tiêu chuẩn duy nhất. Anthropic cũng cung cấp các máy chủ được xây dựng sẵn cho phần mềm doanh nghiệp thông dụng như Google Drive, GitHub và Slack.

- Demis Hassabis, đồng sáng lập và CEO của Google DeepMind, nhận xét: "MCP là một giao thức tốt và nhanh chóng trở thành tiêu chuẩn mở cho kỷ nguyên AI agent. Chúng tôi rất vui mừng thông báo rằng chúng tôi sẽ hỗ trợ giao thức này cho các mô hình Gemini và SDK của chúng tôi."

- Ngoài Google và OpenAI, nhiều công ty khác cũng đã áp dụng MCP bao gồm Block, Apollo, Zed, Replit, Codeium và Sourcegraph.

- Xu hướng sử dụng nhiều công cụ nguồn mở hơn, kể cả ở cấp doanh nghiệp, có thể báo hiệu một sự thay đổi lớn trong ngành công nghệ, đặc biệt khi ngày càng nhiều công ty đầu tư vào AI agent như mũi nhọn công nghệ tiếp theo.

- Tuy nhiên, Hassabis chưa làm rõ thời điểm Google sẽ bắt đầu hỗ trợ MCP.

📌 Lần đầu tiên, 3 gã khổng lồ AI - Google, OpenAI và Anthropic - hợp tác thông qua Model Context Protocol, tạo tiêu chuẩn chung cho AI agent truy cập dữ liệu. Sự hợp tác này mở ra kỷ nguyên mới cho phát triển AI agent, với nhiều công ty công nghệ khác cũng đang nhanh chóng tham gia.

https://www.zdnet.com/article/google-joins-openai-in-adopting-anthropics-protocol-for-connecting-ai-agents-why-it-matters/

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI data 2025-04-04 06:44:02

Khoảng cách dữ liệu AI: Tại sao trí thông minh, không phải thuật toán, sẽ quyết định thành công của AI doanh nghiệp

- AI đang biến đổi các ngành công nghiệp với tốc độ chưa từng có, từ khoa học đời sống, dịch vụ tài chính đến ô tô và sản xuất, nhưng nhiều tổ chức vẫn gặp khó khăn trong việc mở rộng quy mô AI thành công.

- Lý do chính khiến các doanh nghiệp không thành công với AI không phải là do thuật toán phức tạp hay sức mạnh tính toán, mà là cách họ quản lý và di chuyển dữ liệu trong môi trường ngày càng phức tạp.

- Giả định rằng đột phá AI chỉ đến từ thuật toán tinh vi hơn hoặc GPU mạnh mẽ là sai lầm, vì mô hình AI chỉ hiệu quả bằng dữ liệu cung cấp cho chúng.

- Hầu hết tổ chức vận hành với kiến trúc dữ liệu phân mảnh, nơi các kho dữ liệu riêng biệt, hệ thống lưu trữ chậm và quy trình làm việc không hiệu quả tạo ra sự chậm trễ lớn trong xử lý AI.

- Mô hình ngôn ngữ lớn (LLM), AI tạo sinh và suy luận thời gian thực đòi hỏi truy cập nhanh vào các tập dữ liệu khổng lồ, nhưng nếu đường ống dữ liệu không theo kịp tốc độ xử lý GPU, mô hình AI sẽ thiếu thông tin cần thiết.

- Doanh nghiệp thành công với AI có kiến trúc dữ liệu thống nhất, cung cấp liền mạch dữ liệu có cấu trúc và phi cấu trúc cho ứng dụng AI theo thời gian thực.

- Doanh nghiệp tụt hậu với AI thường dựa vào lưu trữ lỗi thời và đường ống phân mảnh, khiến các nhóm AI phải dành nhiều thời gian quản lý dữ liệu hơn là tạo ra thông tin chi tiết.

- Các nhà lãnh đạo AI ưu tiên tự động hóa thông minh trong quy trình dữ liệu, giảm thời gian đến thông tin chi tiết và tối ưu hóa việc sử dụng tài nguyên.

- Để khai thác tiềm năng đầy đủ của AI, doanh nghiệp nên áp dụng nền tảng dữ liệu thông minh, hiệu suất cao hỗ trợ đổi mới AI.

- Khi nâng cấp trí thông minh AI, các tổ chức cần tránh những cạm bẫy phổ biến như kho dữ liệu riêng biệt, nút thắt cổ chai và quy trình làm việc không hiệu quả.

- Thành công của trí thông minh AI không chỉ về công nghệ mà còn về con người, với các vai trò như kỹ sư dữ liệu, chuyên gia MLOps và kiến trúc sư trí thông minh AI.

- Tốc độ dữ liệu và tính toàn vẹn dữ liệu đều quan trọng cho thành công của AI, đòi hỏi quản trị tự động, kiểm soát truy cập và khung tuân thủ.

- Trí thông minh AI phải hoạt động hài hòa với hệ thống doanh nghiệp hiện có, sử dụng tiêu chuẩn mở, API và kiến trúc lai để ngăn chặn vấn đề tương thích.

- Tổ chức nên xem xét các phương pháp hay nhất, tiêu chuẩn ngành và thậm chí các phương pháp tự làm khi đánh giá nhu cầu trí thông minh AI của họ.

- Nếu sáng kiến AI không mang lại kết quả như mong đợi, đã đến lúc nhìn xa hơn thuật toán và sức mạnh tính toán, tập trung vào cách quản lý và di chuyển dữ liệu.

- Tương lai của AI thuộc về những người có thể làm cho dữ liệu hoạt động thông minh hơn, không chỉ là nhanh hơn.

📌 Thành công của AI doanh nghiệp phụ thuộc vào khả năng quản lý dữ liệu thông minh, không phải chỉ thuật toán hay GPU mạnh. Các tổ chức cần kiến trúc dữ liệu thống nhất, tự động hóa quy trình và cân bằng giữa tốc độ, bảo mật và tuân thủ để dẫn đầu cuộc cách mạng AI.

https://www.forbes.com/councils/forbestechcouncil/2025/04/02/the-ai-data-divide-why-intelligence-not-algorithms-will-determine-enterprise-ai-success/

Không có file đính kèm.

Nguồn tham khảo

AI data AI manufacturing AI doanh nghiệp 2025-04-04 06:26:55

Cách AI giúp khai thác dữ liệu sản xuất trong ngành khoa học đời sống

- Trong sản xuất khoa học đời sống, nhiều dữ liệu giá trị vẫn bị mắc kẹt trong bảng tính, phân tán qua nhiều hệ thống hoặc không được thu thập, tạo ra điểm mù về hiệu suất thiết bị và quy trình sản xuất.

- Một phương pháp mới đang nổi lên: tích hợp dữ liệu quản lý tài sản, sản xuất theo lô và hệ thống chất lượng, sau đó tăng cường bằng AI.

- Dữ liệu tài sản cung cấp cơ hội độc đáo vì đây là nơi duy nhất tổ chức có thể truy cập dữ liệu hiệu suất thiết bị đến cấp số sê-ri, tiết lộ không chỉ hiệu suất mà còn chi phí vận hành và thách thức bảo trì.

- Hiện tại, các hệ thống quản lý tài sản (AMS), hệ thống thực thi sản xuất (MES) và hệ thống quản lý chất lượng (QMS) thường hoạt động riêng biệt, trong khi dữ liệu hiệu suất thiết bị quan trọng nằm trong bảng tính cơ bản.

- Tích hợp các luồng dữ liệu này cho phép nhà sản xuất tối ưu hóa hoạt động theo cách trước đây không thể thực hiện được, như theo dõi hiệu suất thiết bị cụ thể tại các địa điểm sản xuất khác nhau.

- Ví dụ: với phân tích dữ liệu tích hợp, nếu phân tích cho thấy không có sự thay đổi hiệu suất trong 3 năm, hệ thống có thể đề xuất kéo dài khoảng thời gian bảo trì từ 3 tháng lên 8 tháng.

- Machine learning và AI kết hợp với cảm biến IoT có thể cách mạng hóa phương pháp sản xuất truyền thống, cho phép đánh giá thời gian thực về quy trình, mẫu sử dụng và hiệu suất.

- Khi khiếu nại khách hàng được lưu trữ trong QMS và tích hợp với các hệ thống khác, AI có thể đẩy nhanh việc xác định vấn đề cốt lõi, phát hiện thiết bị hoặc lô hàng nào gây ra vấn đề.

- Lợi ích kinh doanh vượt ra ngoài hiệu quả hoạt động: AI có thể đề xuất quyết định tốt hơn về mua sắm thiết bị, lập lịch bảo trì và tối ưu hóa quy trình.

- Đối với nhà sản xuất khoa học đời sống, sự hội tụ dữ liệu sản xuất không chỉ về hiệu quả mà còn về việc tạo ra môi trường sản xuất thông minh, phản ứng nhanh và tiết kiệm chi phí hơn.

📌 AI đang mở khóa dữ liệu sản xuất trong ngành khoa học đời sống bằng cách tích hợp ba hệ thống riêng biệt: quản lý tài sản, sản xuất theo lô và quản lý chất lượng. Kết quả là tối ưu hóa bảo trì, giảm chi phí và nâng cao chất lượng sản phẩm, tạo lợi thế cạnh tranh cho doanh nghiệp tiên phong.

https://www.forbes.com/councils/forbesbusinessdevelopmentcouncil/2025/04/02/how-to-unlock-manufacturing-data-with-ai/

Không có file đính kèm.

Nguồn tham khảo

131

AI data 2025-04-04 00:45:58

Wikipedia đang đối mặt với chi phí tăng cao do các bot AI liên tục quét dữ liệu, chiếm dụng băng thông

- Wikipedia đang phải đối mặt với chi phí tăng cao do các bot AI liên tục quét dữ liệu từ trang web để huấn luyện mô hình AI, gây áp lực lớn lên băng thông của trang.

- Wikimedia Foundation cảnh báo rằng "các yêu cầu tự động đối với nội dung của chúng tôi đã tăng theo cấp số nhân", gây gián đoạn truy cập và buộc Wikipedia phải bổ sung thêm năng lực, làm tăng hóa đơn trung tâm dữ liệu.

- Kể từ tháng 1/2024, băng thông sử dụng để tải xuống nội dung đa phương tiện đã tăng 50%, không phải từ người đọc mà từ các chương trình tự động liên tục tải xuống "hình ảnh được cấp phép mở để cung cấp cho các mô hình AI".

- Ít nhất 65% lưu lượng tiêu tốn tài nguyên đến từ bot, một tỷ lệ không cân xứng khi tổng lượt xem trang từ bot chỉ chiếm khoảng 35% tổng số.

- Bot thường thu thập dữ liệu từ các bài viết Wikipedia ít phổ biến và thậm chí quét "các hệ thống quan trọng trong cơ sở hạ tầng dành cho nhà phát triển, chẳng hạn như nền tảng đánh giá mã hoặc trình theo dõi lỗi".

- Để đối phó, Wikipedia đã áp đặt giới hạn tốc độ "tùy từng trường hợp" đối với các trình thu thập dữ liệu AI vi phạm, hoặc thậm chí cấm chúng hoàn toàn.

- Wikimedia Foundation đang phát triển kế hoạch "Sử dụng hạ tầng có trách nhiệm", nhấn mạnh rằng áp lực mạng từ bot AI là "không bền vững".

- Tổ chức này dự định thu thập phản hồi từ cộng đồng Wikipedia về cách tốt nhất để nhận diện lưu lượng từ bot AI và lọc quyền truy cập của chúng, bao gồm yêu cầu người vận hành bot phải xác thực khi quét dữ liệu với khối lượng lớn.

- Reddit đã đối mặt với tình huống tương tự vào năm 2023, khi Microsoft quét dữ liệu của Reddit mà không thông báo. Reddit sau đó đã chặn Microsoft và quyết định tính phí các nhà phát triển bên thứ ba để truy cập API của mình.

- Wikimedia Foundation nhấn mạnh: "Nội dung của chúng tôi miễn phí, cơ sở hạ tầng của chúng tôi thì không: Chúng tôi cần hành động ngay bây giờ để thiết lập lại sự cân bằng lành mạnh."

📌 Wikimedia Foundation cảnh báo về việc bot AI đang làm tăng chi phí hạ tầng khi băng thông tải nội dung đa phương tiện tăng 50% từ tháng 1/2024. Với 65% lưu lượng tiêu tốn tài nguyên đến từ bot, tổ chức đang phát triển kế hoạch "Sử dụng hạ tầng có trách nhiệm" để đảm bảo tính bền vững.

https://www.pcmag.com/news/wikipedia-faces-flood-of-ai-bots-that-are-eating-bandwidth-raising-costs

Không có file đính kèm.

Nguồn tham khảo

AI data Semi-Cloud-DC-Green 2025-03-31 00:49:25

Kỷ nguyên dữ liệu: Cuộc cách mạng 4 nghìn tỷ USD đang thay đổi trật tự quyền lực toàn cầu

Dữ liệu đã trở thành tài nguyên quý giá hơn dầu mỏ, kể câu chuyện về sự hội tụ của kinh tế, công nghệ, địa chính trị và AI trong cuộc đua giành quyền lực toàn cầu.
Khả năng thu thập và xử lý dữ liệu đã tăng cường khả năng kiểm soát sự phát triển của AI và định hướng địa chính trị, đặt dữ liệu vào vị trí trung tâm trong cuộc cạnh tranh quyền lực giữa các quốc gia.
Sự nổi lên của dữ liệu như một tài nguyên có giá trị bắt nguồn từ các xu hướng thường bị bỏ qua trong nửa thế kỷ qua: sự phát triển của dịch vụ như nền tảng thương mại xuyên biên giới, toàn cầu hóa và công nghệ phá bỏ rào cản.
Adam Smith, nhà kinh tế học người Scotland, từng coi "người hầu" là "không sản xuất ra giá trị nào" vì ông không thể tìm ra cách định giá dịch vụ theo đơn vị trao đổi.
Hòa bình sau chiến tranh đã phá bỏ rào cản di cư và chuyển tiền quốc tế, cho phép người lao động có thể giao dịch dịch vụ của họ trên toàn cầu.
Công nghệ đã biến đổi nền kinh tế toàn cầu, mở ra kỷ nguyên dữ liệu. Giờ đây, dịch vụ không chỉ có thể được định giá và tính toán bằng dữ liệu, mà bản thân dữ liệu ngày càng có thể được giao dịch.
Hiện nay, dữ liệu là nền tảng cho ngành dịch vụ trị giá 4 nghìn tỷ USD, chiếm hai phần ba nền kinh tế toàn cầu, một nửa thương mại toàn cầu tính theo giá trị gia tăng, và một nửa việc làm toàn cầu.
Thương mại dịch vụ không thể diễn ra nếu không có dữ liệu và quá trình toàn cầu hóa thầm lặng vẫn đang diễn ra trong lĩnh vực dịch vụ.
Dữ liệu hiện đang di chuyển qua khoảng 600 cáp ngầm dưới đại dương, qua vệ tinh quay quanh Trái đất, và chiếm tỷ trọng ngày càng tăng về điện năng và nước so với tất cả các tài nguyên khác.
Trong kỷ nguyên dữ liệu, "người hầu" (dịch vụ) mà Adam Smith từng coi là không tạo ra giá trị có thể trở thành "người chủ" - một sự đảo ngược hoàn toàn so với quan điểm kinh tế cổ điển.

📌 Dữ liệu đã trở thành tài nguyên chiến lược, hỗ trợ ngành dịch vụ 4 nghìn tỷ USD chiếm 2/3 nền kinh tế toàn cầu. Từ cáp ngầm đến vệ tinh, dữ liệu đang định hình lại quyền lực toàn cầu, đảo ngược hoàn toàn quan điểm kinh tế cổ điển của Adam Smith.

https://www.hinrichfoundation.com/research/wp/digital/age-of-data/

Không có file đính kèm.

Nguồn tham khảo

AI riêng tư AI data 2025-03-29 20:05:24

AI Chatbot nào thu thập nhiều dữ liệu về bạn nhất?

https://www.visualcapitalist.com/ranked-which-ai-chatbots-collect-the-most-data-about-you/

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI data OpenAI ChatGPT 2025-03-28 07:58:39

OpenAI nâng cấp ChatGPT với khả năng tham chiếu dữ liệu nội bộ

OpenAI vừa bổ sung tính năng tham chiếu nguồn kiến thức nội bộ cho ChatGPT, đáp ứng yêu cầu từ lâu của người dùng.
Người dùng ChatGPT Team (một trong những gói trả phí của công ty) có thể kết nối cơ sở dữ liệu kiến thức nội bộ trực tiếp vào nền tảng trong giai đoạn beta này.
Tính năng mới cho phép người dùng thực hiện tìm kiếm ngữ nghĩa dữ liệu, liên kết trực tiếp đến nguồn nội bộ trong câu trả lời, nhận ngữ cảnh cập nhật và liên quan nhất, đồng thời đảm bảo ChatGPT hiểu được thuật ngữ nội bộ của công ty.
Hiện tại, quản trị viên ChatGPT Team có thể kết nối Google Drive với ChatGPT, nhưng theo Nate Gonzales (quản lý sản phẩm tại OpenAI), đội ngũ đang phát triển các kết nối tiếp theo để hỗ trợ tất cả nguồn kiến thức nội bộ chính.
Theo thời gian, mô hình sẽ học ngôn ngữ độc đáo của tổ chức - tên dự án, từ viết tắt và thuật ngữ đặc thù của nhóm - đồng thời tôn trọng quyền người dùng.
Bằng cách kết nối cơ sở kiến thức nội bộ, ChatGPT Team có thể trở nên giá trị hơn đối với người dùng đã sử dụng nền tảng này để hỏi về chiến lược hoặc phân tích.
Nhiều công ty với nền tảng AI, chatbot, agent hoặc ứng dụng đều coi kho kiến thức nội bộ độc quyền của họ là yếu tố khác biệt, đây cũng là lý do tìm kiếm doanh nghiệp đang là lĩnh vực đang phát triển của AI doanh nghiệp.
Các công ty như Glean cung cấp cách sử dụng AI để tìm thông tin trong doanh nghiệp. ServiceNow đã mua lại MoveWorks nhằm tăng cường khả năng tìm kiếm doanh nghiệp.
OpenAI đã cho phép người dùng tải tài liệu trực tiếp từ Google Drive hoặc OneDrive của Microsoft. Google đưa sức mạnh của Gemini vào sản phẩm Workspace, và Perplexity đã bổ sung khả năng sử dụng tài liệu nội bộ làm nguồn dữ liệu.
Quyền kiểm soát đối với nguồn dữ liệu sẽ khác nhau tùy theo người dùng. Chỉ quản trị viên mới có thể thêm kết nối dữ liệu, nhưng người dùng từ nhóm nhỏ hơn có thể cấu hình khi nào ChatGPT sẽ sử dụng cơ sở kiến thức nội bộ và ổ đĩa nào.
OpenAI cho biết ChatGPT "hoàn toàn tôn trọng cài đặt và quyền tổ chức hiện có", vì vậy người dùng không có quyền truy cập vào ổ đĩa hoặc tài liệu cụ thể không thể buộc ChatGPT đọc những tài liệu đó.

📌 OpenAI đã bổ sung tính năng tham chiếu dữ liệu nội bộ cho ChatGPT Team, cho phép kết nối Google Drive và sắp tới là nhiều nguồn dữ liệu khác. Tính năng này tôn trọng quyền người dùng, học thuật ngữ nội bộ và nâng cao khả năng tìm kiếm doanh nghiệp, đáp ứng nhu cầu từ lâu của người dùng doanh nghiệp.

https://venturebeat.com/ai/chatgpt-gets-smarter-openai-adds-internal-data-referencing/

Không có file đính kèm.

Nguồn tham khảo

AI nghiên cứu AI data 2025-03-27 01:11:09

Databricks: Mô hình AI tự cải thiện mà không cần dữ liệu sạch, vượt mặt cả GPT-4o của OpenAI

Databricks đã phát triển một kỹ thuật học máy giúp nâng cao hiệu suất của mô hình AI mà không cần dữ liệu được gắn nhãn sạch sẽ.
Jonathan Frankle, giám đốc khoa học AI tại Databricks, xác định rằng "dữ liệu bẩn" là thách thức chính mà khách hàng gặp phải khi triển khai AI đáng tin cậy.
Phương pháp mới của Databricks kết hợp học tăng cường với dữ liệu huấn luyện tổng hợp (do AI tạo ra), tương tự như cách OpenAI, Google và DeepSeek đã sử dụng để cải thiện các mô hình của họ.
Kỹ thuật này tận dụng phương pháp "best-of-N", cho phép ngay cả mô hình yếu cũng có thể đạt điểm cao trong một nhiệm vụ cụ thể nếu được thử đủ nhiều lần.
Databricks đã huấn luyện một mô hình để dự đoán kết quả best-of-N nào mà người kiểm tra sẽ thích hơn. Mô hình phần thưởng này (DBRM) sau đó được sử dụng để cải thiện hiệu suất của các mô hình khác.
Phương pháp Test-time Adaptive Optimization (TAO) của Databricks sử dụng DBRM để chọn đầu ra tốt nhất từ một mô hình, tạo dữ liệu huấn luyện tổng hợp để tinh chỉnh mô hình đó.
Nghiên cứu của Databricks cho thấy phương pháp TAO cải thiện hiệu quả hơn khi được mở rộng lên các mô hình lớn hơn, có khả năng cao hơn.
Khi thử nghiệm trên FinanceBench, một tiêu chuẩn đánh giá khả năng trả lời câu hỏi tài chính, Llama 3.1B (mô hình nhỏ nhất của Meta) đạt 68,4%, trong khi GPT-4o của OpenAI đạt 82,1%.
Sử dụng kỹ thuật TAO, Databricks đã cải thiện điểm số của Llama 3.1B lên 82,8%, vượt qua cả mô hình của OpenAI.
Christopher Amato, nhà khoa học máy tính tại Đại học Northeastern, đánh giá ý tưởng này "rất hứa hẹn" và có thể cho phép gắn nhãn dữ liệu dễ mở rộng hơn, nhưng cũng cảnh báo rằng học tăng cường đôi khi có thể hoạt động không thể đoán trước.
Databricks đang sử dụng kỹ thuật TAO để tăng hiệu suất mô hình AI của khách hàng và giúp họ xây dựng các agent đầu tiên, bao gồm cả một ứng dụng theo dõi sức khỏe yêu cầu độ chính xác y tế cao.

📌 Databricks đã phát triển phương pháp TAO kết hợp học tăng cường và dữ liệu tổng hợp, giúp mô hình AI cải thiện mà không cần dữ liệu sạch. Khi thử nghiệm, Llama 3.1B sử dụng TAO đạt 82,8% trên FinanceBench, vượt qua GPT-4o (82,1%) của OpenAI, mở ra khả năng triển khai AI đáng tin cậy trong nhiều lĩnh vực.

https://www.wired.com/story/databricks-has-a-trick-that-lets-ai-models-improve-themselves/

Không có file đính kèm.

Nguồn tham khảo

123

AI data AI cybersecurity 2025-03-23 09:43:48

Cloudflare giới thiệu AI Labyrinth - công cụ mới chống lại bot thu thập dữ liệu web trái phép

Cloudflare vừa công bố AI Labyrinth - công cụ mới chống lại bot thu thập dữ liệu web trái phép để huấn luyện AI.
Thay vì chặn bot, AI Labyrinth dẫn dụ chúng vào mạng lưới các trang giả mạo được tạo bởi AI, nhằm làm chậm, gây nhầm lẫn và lãng phí tài nguyên của bot.
Cloudflare xử lý hơn 50 tỷ yêu cầu từ bot thu thập dữ liệu mỗi ngày. Công ty cho rằng việc chặn bot thường dẫn đến cuộc chạy đua vũ trang bất tận khi kẻ tấn công liên tục thay đổi chiến thuật.
AI Labyrinth hoạt động như một "bẫy mật" thế hệ mới, thu hút bot AI vào mạng lưới các trang giả mạo ngày càng sâu, trong khi người dùng thông thường sẽ không theo các liên kết này.
Công cụ này giúp Cloudflare dễ dàng xác định các bot độc hại và phát hiện các mẫu bot mới.
Nội dung giả mạo được tạo ra dựa trên các chủ đề đa dạng và sự thật khoa học, nhưng không liên quan đến trang web bị thu thập dữ liệu.
Quản trị viên website có thể kích hoạt AI Labyrinth trong phần cài đặt Bot Management trên bảng điều khiển Cloudflare.
Cloudflare dự định phát triển "toàn bộ mạng lưới các URL được liên kết" khiến bot khó phân biệt đâu là thật, đâu là giả.
AI Labyrinth có điểm tương đồng với Nepenthes - công cụ nhằm làm bot thu thập dữ liệu lạc lối trong "địa ngục dữ liệu rác do AI tạo ra" trong nhiều tháng.

📌 Cloudflare ra mắt AI Labyrinth để chống lại việc thu thập dữ liệu web trái phép. Thay vì chặn, công cụ này dẫn dụ bot vào mê cung các trang giả do AI tạo ra, xử lý 50 tỷ yêu cầu/ngày. Đây là bước đi mới trong cuộc chiến bảo vệ dữ liệu web.

https://www.theverge.com/news/634345/cloudflare-ai-labyrinth-web-scraping-bots-training-data

Không có file đính kèm.

Nguồn tham khảo

153

AI data 2025-03-22 10:24:42

Microsoft sắp trả tiền cho những người vô tình bị "lấy cắp" dữ liệu để huấn luyện AI?

Microsoft đang khởi động một dự án nghiên cứu nhằm ước tính ảnh hưởng của các mẫu dữ liệu huấn luyện cụ thể đối với nội dung tạo ra bởi mô hình AI tạo sinh.
Thông tin này được tiết lộ qua một thông báo tuyển dụng thực tập sinh nghiên cứu từ tháng 12 và mới được chia sẻ lại trên LinkedIn.
Dự án sẽ cố gắng chứng minh rằng các mô hình có thể được huấn luyện theo cách cho phép ước tính hiệu quả tác động của dữ liệu cụ thể (như hình ảnh và sách) đến đầu ra của chúng.
Mục tiêu là tạo ra "động lực, sự công nhận và tiềm năng trả tiền" cho những người đóng góp dữ liệu có giá trị cho các mô hình AI trong tương lai.
Microsoft hiện đang đối mặt với ít nhất 2 thách thức pháp lý từ chủ sở hữu bản quyền: The New York Times kiện Microsoft và OpenAI vì đã huấn luyện mô hình trên hàng triệu bài báo của họ, và một số nhà phát triển phần mềm cáo buộc GitHub Copilot sử dụng trái phép tác phẩm được bảo vệ của họ.
Jaron Lanier, nhà khoa học liên ngành tại Microsoft Research, được cho là có liên quan đến nỗ lực nghiên cứu này. Ông đã viết về khái niệm "phẩm giá dữ liệu", kết nối "nội dung số" với "con người muốn được công nhận vì đã tạo ra nó".
Một số công ty đã thử nghiệm phương pháp này: Bria tuyên bố "theo chương trình" bồi thường cho chủ sở hữu dữ liệu dựa trên "ảnh hưởng tổng thể" của họ; Adobe và Shutterstock cũng thưởng tiền thường xuyên cho những người đóng góp bộ dữ liệu.
Các phòng thí nghiệm AI lớn hiếm khi thiết lập chương trình thanh toán cho người đóng góp cá nhân ngoài việc ký thỏa thuận cấp phép với nhà xuất bản và nền tảng. Thay vào đó, họ cung cấp phương tiện cho chủ sở hữu bản quyền "từ chối" việc huấn luyện.
Dự án của Microsoft có thể chỉ là một bằng chứng về khái niệm, tương tự như công nghệ mà OpenAI đã tuyên bố đang phát triển vào tháng 5 năm ngoái nhưng vẫn chưa ra mắt.
Microsoft cũng có thể đang cố gắng "rửa đạo đức" hoặc ngăn chặn các quyết định pháp lý có thể gây gián đoạn hoạt động kinh doanh AI của họ, đặc biệt khi các phòng thí nghiệm AI hàng đầu như Google và OpenAI đang vận động chính phủ Mỹ làm suy yếu bảo vệ bản quyền liên quan đến phát triển AI.

📌 Microsoft đang nghiên cứu cách ghi nhận đóng góp dữ liệu trong AI, nhằm tạo cơ chế trả tiền cho người sáng tạo nội dung. Dự án này xuất hiện khi công ty đang đối mặt với các vụ kiện bản quyền từ The New York Times và các nhà phát triển phần mềm, trong bối cảnh tranh luận về sử dụng hợp lý dữ liệu huấn luyện AI.

https://techcrunch.com/2025/03/21/microsoft-is-exploring-a-way-to-credit-contributors-to-ai-training-data/

Không có file đính kèm.

Nguồn tham khảo

129

AI data AI bản quyền 2025-03-22 10:11:18

Cách các công ty công nghệ lớn như Meta và OpenAI sử dụng sách lậu để huấn luyện AI

Hiện nay quyền tiếp cận văn học miễn phí đang bị tấn công từ hai phía: các công ty công nghệ lớn và chính quyền Trump.
Tạp chí The Atlantic đã phân tích và tạo kho dữ liệu công khai được sử dụng để huấn luyện AI, tập trung vào LibGen - kho lưu trữ tài liệu lậu với gần 7,5 triệu sách và 81 triệu bài báo học thuật.
LibGen (Library Genesis) được coi là "thư viện ngầm" vì tính chất bất hợp pháp nhưng mở. Mặc dù chứa nhiều tài liệu có bản quyền, nó cũng giúp các nhà khoa học tiếp cận công trình học thuật mà không phải trả phí cao cho các nhà xuất bản.
Tài liệu tòa án từ vụ kiện tập thể do nghệ sĩ hài Sarah Silverman khởi xướng tiết lộ Meta đã chọn sử dụng kho lưu trữ lậu thay vì cấp phép sách để huấn luyện AI.
Một nhà nghiên cứu cấp cao của Meta, Melanie Kambadur, đã nói rằng công ty cần sách "càng sớm càng tốt" vì "sách thực sự quan trọng hơn dữ liệu web" để huấn luyện AI.
Theo The Atlantic, Meta đã sử dụng torrent để tải xuống LibGen, điều này vi phạm trực tiếp luật bản quyền. Tuy nhiên, Meta lại tự hào thông báo người dùng đã tải xuống mô hình AI Llama của họ 1 tỷ lần.
Nhiều tác giả không hài lòng khi phát hiện tác phẩm của họ bị sử dụng để huấn luyện AI. Michael Livingston tìm thấy 16 cuốn sách và nhiều bài viết của ông được dùng để huấn luyện Llama 3.
Trong khi đó, ngày 14/3, Tổng thống Trump đã ban hành sắc lệnh hành pháp sẽ thực sự "giết chết" Viện Dịch vụ Bảo tàng và Thư viện (IMLS) - cơ quan cung cấp tài trợ cho thư viện công cộng trên khắp Hoa Kỳ.
Nhiều thư viện ở Mỹ phụ thuộc vào tài trợ liên bang cho các dịch vụ cơ bản, bao gồm cả dịch vụ số như Libby và Hoopla, cho phép người dùng mượn sách điện tử hoặc sách nói từ thư viện địa phương.
Jeff Jankowski, Chủ tịch Hoopla Digital, cảnh báo rằng nếu không có tài trợ liên bang, một số thư viện có thể thu hẹp hoặc hủy bỏ dịch vụ số của họ.

📌 Các gã khổng lồ công nghệ như Meta đang sử dụng hàng triệu sách lậu từ LibGen để huấn luyện AI, trong khi chính quyền Trump cắt giảm tài trợ cho IMLS - cơ quan hỗ trợ thư viện công cộng. Hậu quả kép này đang đe dọa nghiêm trọng quyền tiếp cận văn học miễn phí của người dân Mỹ.

https://gizmodo.com/search-the-database-of-pirated-books-ai-trained-on-2000579078

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI data 2025-03-18 06:48:51

Cách thức Selecta sử dụng AI giúp các nhà lãnh đạo doanh nghiệp đưa ra quyết định dựa trên dữ liệu thực tế

Trong thời đại bùng nổ thông tin, các nhà lãnh đạo doanh nghiệp đang phải đối mặt với 2 thách thức lớn: lọc ra những sự kiện quan trọng và phân tích chúng một cách hiệu quả.
Selecta là nền tảng được hỗ trợ bởi AI, được thiết kế để phân tích hàng chục nghìn nguồn thông tin mỗi giờ, biên soạn thông tin liên quan thành các bài viết và cung cấp dữ liệu phân tích cho người dùng dựa trên ngành công nghiệp của họ.
Vitaly Vinogradow, CEO và người sáng lập Selecta, có hơn một thập kỷ kinh nghiệm trong lĩnh vực AI tạo sinh, computer vision, và AI/ML tại các công ty nổi tiếng như Revolut.
Khác với các trang tổng hợp tin tức thông thường chỉ tổng hợp tiêu đề, Selecta phân tích khối lượng dữ liệu khổng lồ, diễn giải và cung cấp các báo cáo phân tích chuyên sâu.
Hệ thống AI của Selecta phân tích các sự kiện, xác định mẫu thông tin và trình bày dữ liệu ở định dạng cấu trúc dễ sử dụng, giúp người dùng tiết kiệm thời gian và đưa ra quyết định dựa trên dữ liệu thực tế thay vì phỏng đoán.
Theo Vinogradow, 2 xu hướng chính trong ngành AI hiện nay là multimodal LLMs (mô hình ngôn ngữ lớn có khả năng xử lý nhiều loại dữ liệu từ văn bản đến hình ảnh và video) và trợ lý AI.
Đối tượng người dùng chính của Selecta bao gồm chủ doanh nghiệp, lãnh đạo cấp cao và quản lý cấp trung, những người phụ thuộc vào thông tin kịp thời về ngành.
Các tính năng mới sắp được bổ sung vào nền tảng bao gồm: trợ lý AI để cá nhân hóa đề xuất, báo cáo hàng quý và hàng năm về tất cả các ngành, theo dõi lĩnh vực kinh doanh ngách, và công cụ phân tích các nguồn thông tin nội bộ.
Trong 5 năm tới, Selecta đặt mục tiêu trở thành nguồn tài nguyên được hỗ trợ bởi AI để hỗ trợ các ấn phẩm truyền thông truyền thống, với kế hoạch mở rộng sang thị trường quốc tế, ưu tiên Hoa Kỳ trước tiên rồi đến các quốc gia châu Âu.
Vinogradow khuyên các startup mới trong lĩnh vực AI nên mạnh dạn thử nghiệm, chấp nhận sai lầm là không thể tránh khỏi, và thành công chỉ đến từ nhiều lần thử nghiệm.

📌 Selecta đang sử dụng AI để xử lý hàng chục nghìn nguồn tin mỗi giờ, tạo ra báo cáo phân tích kinh doanh được cá nhân hóa cho lãnh đạo doanh nghiệp. Với hai xu hướng chính là multimodal LLMs và trợ lý AI, công ty đặt mục tiêu mở rộng toàn cầu trong 5 năm tới.

https://readwrite.com/ai-in-business-media/

Không có file đính kèm.

Nguồn tham khảo

AI data AI doanh nghiệp 2025-03-17 05:24:34

Cách doanh nghiệp đối mặt với "chủ nghĩa dữ liệu" (dataism)

Khi phòng thí nghiệm AI nhỏ của Trung Quốc - DeepSeek - công bố mô hình ngôn ngữ lớn R1 vượt trội ChatGPT với chi phí thấp hơn nhiều, thị trường chứng khoán đã mất 1.000 tỷ USD chỉ trong một ngày. DeepSeek, được thành lập bởi nhà quản lý quỹ đầu cơ Liang Wenfeng, đã tiết lộ cách xây dựng mô hình có khả năng tự học và cải thiện mà không cần sự giám sát của con người.
Sự kiện này phản ánh cuộc đua công nghệ giữa Trung Quốc và Mỹ, nhưng đáng chú ý hơn là xu hướng "chủ nghĩa dữ liệu" (dataism) đang ảnh hưởng sâu sắc đến tương lai của nguồn nhân lực. Chủ nghĩa dữ liệu tin rằng việc thu thập ngày càng nhiều dữ liệu và cung cấp cho các thuật toán mạnh mẽ sẽ giúp doanh nghiệp khám phá sự thật, đưa ra quyết định đúng đắn và tạo ra giá trị.
Quan điểm này thách thức nhiều nền tảng của lý thuyết quản lý và tương tác kinh tế giữa lao động và vốn. Doanh nghiệp đang phải đối mặt với tương lai của "công việc tri thức", thách thức nhân khẩu học và vấn đề quay trở lại nơi làm việc.
Quản lý nguồn nhân lực đang đối diện với sự gián đoạn ở cấp độ cá nhân, công ty và xã hội với quy mô chưa từng thấy kể từ cách mạng công nghiệp. Thay vì đặt AI đối lập với con người, thách thức thực sự là tính toán phức tạp giữa tự động hóa và tăng cường đồng thời.
Theo David Autor, nhà kinh tế học tại MIT, tự động hóa là máy móc thay thế công việc của con người, trong khi tăng cường là công nghệ giúp con người làm được nhiều việc đa dạng hơn, chất lượng hơn hoặc năng suất cao hơn.
Nghiên cứu của Autor cho thấy từ năm 1940, sự tương tác giữa tự động hóa và tăng cường đã tạo ra tỷ lệ đáng kể các công việc mới ở Mỹ. Tuy nhiên, những công việc mới này bị phân cực giữa việc làm lương cao và thu nhập thấp, khi công việc trung bình dần biến mất.
Thành công trong quản lý sự cân bằng này phụ thuộc vào hiệu quả của quản lý nguồn nhân lực trong thiết kế công việc sáng tạo và nguyên tắc "tối ưu hóa chung" - đảm bảo hệ thống tổ chức được tối ưu hóa có chủ đích cho việc tạo ra giá trị (lời hứa của chủ nghĩa dữ liệu) cũng như chất lượng trải nghiệm làm việc của con người.

📌 Sự hé lộ của DeepSeek đã gây chấn động khi xóa sổ 1.000 tỷ USD giá trị thị trường, kích hoạt cuộc tranh luận về "chủ nghĩa dữ liệu" trong doanh nghiệp. Doanh nghiệp đang ở ngã ba đường, vừa tận dụng sức mạnh thuật toán vừa duy trì giá trị con người, trong bối cảnh công việc bị phân cực giữa lương cao và lương thấp.

https://www.ft.com/content/a561756d-2427-4965-9040-f16e91f6b4a4

#FT

Trường kinh doanh nghiên cứu tình huống: Các công ty sẽ điều hướng lời hứa và mối đe dọa của chủ nghĩa dữ liệu như thế nào?
Sử dụng sức mạnh của thuật toán để đưa ra quyết định và tạo ra giá trị đòi hỏi phải xác định lại vai trò của quản lý

Tom Davis
Xuất bản cách đây 2 giờ

Khi một phòng thí nghiệm trí tuệ nhân tạo nhỏ của Trung Quốc cho thấy vào tháng 1 rằng họ có thể xây dựng một mô hình ngôn ngữ lớn vượt qua ChatGPT của OpenAI với chi phí chỉ bằng một phần nhỏ, thế giới công nghệ đã rơi vào hỗn loạn và 1 nghìn tỷ USD đã bốc hơi khỏi thị trường chứng khoán chỉ trong một ngày.

DeepSeek, được thành lập bởi nhà quản lý quỹ đầu cơ Liang Wenfeng, đã phát hành mô hình R1 và chi tiết cách xây dựng một mô hình có thể tự động học hỏi và cải thiện mà không cần sự giám sát của con người.

Tiết lộ này đã nắm bắt được tinh thần cạnh tranh giữa Trung Quốc và Mỹ trong cuộc đua giành vị trí thống trị công nghệ toàn cầu. Tuy nhiên, ít sự chú ý hơn đã được dành cho yếu tố ngầm làm nền tảng cho cuộc cạnh tranh hiện đại này: sự trỗi dậy của “chủ nghĩa dữ liệu” (dataism) và những tác động của nó đối với tương lai của nguồn nhân lực.

Chủ nghĩa dữ liệu là niềm tin rằng bằng cách thu thập ngày càng nhiều dữ liệu và cung cấp cho các thuật toán ngày càng mạnh mẽ, các doanh nghiệp có thể khám phá ra sự thật, đưa ra quyết định đúng đắn và tạo ra giá trị.

Quan điểm này thách thức nhiều nền tảng của lý thuyết quản lý — và sự tương tác kinh tế giữa lao động và vốn — trong khi làm dấy lên kỳ vọng cao hơn đối với AI tạo sinh.

Các doanh nghiệp đang vật lộn với tương lai của “công việc tri thức”, một cuộc khủng hoảng nhân khẩu học đang đến gần và những thách thức trong việc quay lại làm việc tại văn phòng. Một số người đã dự đoán các hậu quả khác, chẳng hạn như sự suy thoái thành một xã hội hậu biết chữ và sự suy yếu của doanh nghiệp với tư cách là động lực cho sự phát triển của con người.

Quản lý nguồn nhân lực đang đối mặt với sự gián đoạn ở cấp độ cá nhân, công ty hoặc xã hội ở quy mô chưa từng thấy kể từ cuộc cách mạng công nghiệp. Làm thế nào để điều hướng cả lời hứa và mối đe dọa của chủ nghĩa dữ liệu là vấn đề cấp bách nhất của ngành này.

Chủ nghĩa dữ liệu không nhất thiết phải đối lập với nguồn nhân lực trong viễn cảnh tưởng tượng về cuộc chiến giữa robot và con người. Thay vào đó, quản lý nguồn nhân lực phải giải quyết bài toán phức tạp giữa tự động hóa và gia tăng giá trị cùng lúc.

“Bạn có thể coi tự động hóa là một cỗ máy tiếp nhận các đầu vào của công việc và thực hiện công việc thay cho người lao động,” David Autor, nhà kinh tế học tại Viện Công nghệ Massachusetts (MIT), cho biết. “Gia tăng giá trị là một công nghệ giúp tăng cường sự đa dạng của các công việc mà con người có thể làm, nâng cao chất lượng của các công việc hoặc nâng cao năng suất của họ.”

Nghiên cứu quản lý nguồn nhân lực

Đây là một phần của loạt bài nghiên cứu tình huống dành cho các trường kinh doanh về các tình huống kinh doanh phức tạp. Hãy đọc văn bản và các bài viết từ FT và các nguồn khác được đề xuất ở cuối bài (và được liên kết trong bài) trước khi xem xét các câu hỏi được đặt ra. Loạt bài này là một phần của bộ sưu tập “nghiên cứu tình huống tức thời” của FT nhằm khám phá các thách thức trong kinh doanh.

Nghiên cứu của Autor cho thấy rằng một trong những kết quả của sự tương tác giữa tự động hóa và gia tăng giá trị ở Mỹ kể từ năm 1940 là sự xuất hiện của một tỷ lệ đáng kể các công việc mới — từ kỹ sư công nghiệp đến người vận hành lò phản ứng hạt nhân và nhà phát triển ứng dụng di động.

Tuy nhiên, “công việc mới đang bị phân hóa rõ rệt [giữa công việc được trả lương cao và công việc thu nhập thấp]”, Autor nói. “Khi các công việc cũ ở tầng trung bị xóa bỏ, công việc mới đã phát triển ở cả hai đầu.”

Sự phân hóa này đại diện cho một yếu tố đóng góp quan trọng khác vào tính cấp thiết ngày càng tăng của các chức năng quản lý nguồn nhân lực.

Thành công trong việc cân bằng tinh tế này sẽ phụ thuộc phần lớn vào hiệu quả của quản lý nguồn nhân lực trong việc thiết kế công việc sáng tạo và tối ưu hóa “hệ thống kỹ thuật – xã hội” — đảm bảo rằng các hệ thống tổ chức được tối ưu hóa có chủ đích để tạo ra giá trị (lời hứa của chủ nghĩa dữ liệu) cũng như cải thiện trải nghiệm công việc của con người.

Việc tận dụng tiềm năng của chủ nghĩa dữ liệu, tất nhiên, sẽ cần đến con người, nhưng cách thức mà hai yếu tố này tương tác để tạo ra giá trị kinh doanh vẫn đang được định hình — và phụ thuộc đáng kể vào lĩnh vực quản lý nguồn nhân lực.

Một số khía cạnh của mối quan hệ này sẽ được thúc đẩy bởi sự tiến hóa nội tại của công việc tri thức và sự ổn định liên quan đến công việc từ xa. Các khía cạnh khác sẽ bị tác động bởi những yếu tố bên ngoài như cuộc đua AI toàn cầu và những thay đổi nhân khẩu học trên toàn thế giới.

Quá trình này sẽ diễn ra dưới tác động thay đổi của tự động hóa và gia tăng giá trị.

Khi sự tiến hóa này diễn ra, điều thường được coi là một cuộc cạnh tranh “một mất, một còn” để giành quyền bá chủ về chủ quyền có thể được nhìn nhận song song như một bước chuyển đổi trong cách định hình lại vai trò của nguồn nhân lực trong kinh doanh.

Business school teaching case study: how will companies navigate the promise and threat of dataism?
Using the power of algorithms to inform decisions and create value demands new definitions of the role of management
A tunnel perspective, moving past hundreds of small digital screens

Tom Davis
Published
2 hours ago

Roula Khalaf, Editor of the FT, selects her favourite stories in this weekly newsletter.
When a small Chinese artificial intelligence lab showed in January how to build a large language model that outperformed OpenAI’s ChatGPT at a fraction of the cost, the tech world went into a tailspin and $1tn was wiped off the stock market in a day.
DeepSeek, founded by hedge fund manager Liang Wenfeng, released its R1 model and detailed how to build on a budget a model that can automatically learn and improve itself without human supervision.
The revelation captured the zeitgeist of China and the US jockeying for global supremacy in technology. Far less attention, however, has been paid to the creep underpinning this modern-day struggle: the rise of “dataism” and its implications for the future of human capital.
Dataism is the belief that by gathering ever more data and feeding it to ever more powerful algorithms alone, businesses can uncover the truth, make the right decisions and create value.
This view challenges many of the foundations of management theory — and the economic interplay between labour and capital — while raising loftier expectations for generative AI.
Businesses are grappling with the future of “knowledge work”, a looming demographic cliff and return to work challenges. Some have postulated other consequences, such as a descent into a post-literate society and a faltering of business as a driver of human development.
A hand holding a smartphone showing a chat app with the words “Hi, I’m DeepSeek. How can I help you today?”
DeepSeek’s lower-cost, higher-performance AI model sent shockwaves through the tech world © Greg Baker/AFP via Getty Images
Human capital management faces disruption at the level of the individual, company or society on a scale not seen since the industrial revolution. How it navigates both the promise and threat of dataism is its most pressing issue.
Dataism need not be at odds with human capital in an imagined robots versus people future. Rather, human capital management is faced with ciphering through the complex calculus of automation and augmentation simultaneously.
“You can think of automation as a machine that takes a job’s inputs and does it for the worker,” says David Autor, Massachusetts Institute of Technology economist, and “augmentation as a technology that increases the variety of things that people can do, the quality of things people can do, or their productivity”.
This is part of a series of regular business school teaching case studies devoted to business dilemmas. Read the text and the articles from the FT and elsewhere suggested at the end (and linked to within the piece) before considering the questions raised. The series forms part of a wide-ranging collection of FT “instant teaching case studies” that explore business challenges
Autor’s research shows that one outcome of the interplay between automation and augmentation in the US since 1940 has been the creation of a significant percentage of jobs that represent new types of work — from industrial engineers to nuclear reactor operators and mobile app developers.
However, “the new work is bifurcated [between high-paying and lower-income jobs]”, Autor says. “As old work has been erased in the middle, new work has grown on either side.”
In turn, that bifurcation represents another significant contributor to the increasing urgency faced by human capital management functions.
Success in managing this delicate balancing act will depend largely on human capital management’s efficacy in achieving innovative work design and the sociotechnical systems principle of “joint optimisation” — ensuring that organisational systems are intentionally optimised for value creation (the promise of dataism) as well as quality in humans’ work experience.
Capitalising on the potential of dataism will, of course, require humans, but how those two protagonists interact in generating business value is still playing out — and with significant dependencies on the field of human capital management.
Some aspects of that relationship will be driven intrinsically as knowledge work evolves and détente is reached regarding remote work. Others will be driven by forces such as the global AI race and demographic shifts across the developed world.
This will take place against the shifting forces of automation and augmentation.
As that evolution unfolds, what is frequently framed as a zero-sum competition for sovereign hegemony can be seen in parallel as a step change in reframing the role of human capital in business.

Không có file đính kèm.

Nguồn tham khảo

AI data 2025-03-13 01:45:10

Tại sao trích xuất dữ liệu từ PDF vẫn là cơn ác mộng với chuyên gia dữ liệu?

Hàng tỷ tài liệu kỹ thuật số chứa thông tin quý giá đang bị "mắc kẹt" trong định dạng PDF, gây khó khăn cho việc phân tích dữ liệu tự động. Theo nghiên cứu, khoảng 80-90% dữ liệu tổ chức trên thế giới được lưu trữ dưới dạng phi cấu trúc, nhiều trong số đó nằm trong các định dạng khó trích xuất.
Derek Willis, giảng viên Báo chí Dữ liệu và Tính toán tại Đại học Maryland, giải thích rằng PDF là "sản phẩm in ấn" hơn là kỹ thuật số, với nhiều file PDF chỉ đơn thuần là "hình ảnh thông tin", đòi hỏi công nghệ nhận dạng ký tự quang học (OCR) để chuyển đổi.
Vấn đề trở nên nghiêm trọng hơn với các layout hai cột, bảng biểu, biểu đồ và tài liệu quét có chất lượng hình ảnh kém. Điều này ảnh hưởng đặc biệt tới các lĩnh vực phụ thuộc vào tài liệu và hồ sơ cũ như nghiên cứu khoa học, tài liệu lịch sử, dịch vụ khách hàng và văn học kỹ thuật.
Công nghệ OCR truyền thống đã tồn tại từ những năm 1970, với Ray Kurzweil tiên phong phát triển các hệ thống thương mại như Kurzweil Reading Machine năm 1976. Những hệ thống này hoạt động bằng cách nhận dạng mẫu pixel sáng tối và khớp chúng với hình dạng ký tự đã biết.
Các mô hình ngôn ngữ lớn (LLM) đa phương thức hiện đại như ChatGPT phân tích tài liệu bằng cách nhận biết mối quan hệ giữa các yếu tố hình ảnh và hiểu các dấu hiệu ngữ cảnh, cho phép xử lý tài liệu toàn diện hơn.
Theo Willis, mô hình Google Gemini 2.0 Flash Pro Experimental hiện dẫn đầu trong lĩnh vực này, xử lý được các PDF phức tạp mà các mô hình khác như Mistral OCR gặp khó khăn. Kích thước cửa sổ ngữ cảnh lớn cho phép tải lên tài liệu lớn và xử lý từng phần.
Tuy nhiên, LLM cũng gây ra nhiều vấn đề mới trong xử lý tài liệu. Nhà nghiên cứu AI Simon Willison cảnh báo về nguy cơ "vô tình làm theo hướng dẫn" và lỗi diễn giải bảng biểu có thể gây ra hậu quả nghiêm trọng, như khớp sai dữ liệu với tiêu đề.
Những vấn đề về độ tin cậy trở nên đặc biệt nghiêm trọng khi xử lý báo cáo tài chính, tài liệu pháp lý hoặc hồ sơ y tế, nơi một lỗi nhỏ có thể gây nguy hiểm. Điều này đòi hỏi sự giám sát cẩn thận của con người, hạn chế giá trị của những công cụ này cho việc trích xuất dữ liệu tự động hoàn toàn.
Động lực của các công ty AI trong việc mở khóa PDF có thể liên quan đến việc thu thập dữ liệu huấn luyện. Willis nhận xét rằng thông báo của Mistral là bằng chứng rõ ràng cho thấy tài liệu là một phần chiến lược lớn của họ, vì nó có thể cung cấp dữ liệu huấn luyện bổ sung.

📌 Trích xuất dữ liệu từ PDF vẫn là thách thức lớn với 80-90% dữ liệu tổ chức thế giới ở dạng phi cấu trúc. Mô hình AI đa phương thức như Google Gemini đang dẫn đầu giải pháp nhưng vẫn cần giám sát con người để tránh các lỗi nghiêm trọng trong tài liệu quan trọng.

https://arstechnica.com/ai/2025/03/why-extracting-data-from-pdfs-is-still-a-nightmare-for-data-experts/

Không có file đính kèm.

Nguồn tham khảo

AI chính phủ AI data 2025-03-10 21:08:17

Mối đe dọa của DOGE - dữ liệu chính phủ có thể cung cấp sức mạnh phi thường cho công ty AI của Elon Musk

Bộ phận hiệu quả chính phủ (DOGE) đã có quyền truy cập vào ít nhất bảy cơ sở dữ liệu liên bang nhạy cảm, bao gồm của Sở thuế vụ và Cơ quan an sinh xã hội, gây lo ngại về an ninh mạng và vi phạm quyền riêng tư.
Dù phát ngôn viên Nhà Trắng khẳng định dữ liệu DOGE thu thập không được dùng để huấn luyện mô hình AI của Musk, nhiều bằng chứng cho thấy nhân viên DOGE đồng thời giữ vị trí tại ít nhất một công ty của Musk.
Tại Cục hàng không liên bang, nhân viên SpaceX có địa chỉ email chính phủ, tạo kênh để dữ liệu liên bang có thể chảy đến các doanh nghiệp của Musk, bao gồm xAI.
Dữ liệu chính phủ đối với các nhà phát triển AI giống như "Chén Thánh" vì chứa hồ sơ được xác minh về hành vi con người thực tế trên quy mô toàn dân.
Khác với dữ liệu internet chứa hành vi dự định, cơ sở dữ liệu chính phủ nắm bắt quyết định thực tế và hậu quả của chúng: hồ sơ Medicare tiết lộ lựa chọn chăm sóc sức khỏe, dữ liệu IRS và Kho bạc cho thấy quyết định tài chính và tác động dài hạn.
Giá trị đặc biệt của dữ liệu chính phủ nằm ở tính dọc và độ tin cậy - tuân theo quy trình chuẩn hóa, kiểm toán thường xuyên và đáp ứng yêu cầu pháp lý về tính chính xác.
Mô hình AI được đào tạo trên dữ liệu chính phủ toàn diện có thể hiểu mối quan hệ thực tế giữa chính sách và kết quả, theo dõi hậu quả không mong muốn và dự đoán tác động của các thay đổi đề xuất.
Với dữ liệu Medicare và Medicaid, một công ty AI có thể thống trị ngành y tế bằng cách xác định mô hình điều trị thành công, hiểu tác động của các can thiệp và ảnh hưởng đến chính sách.
Dữ liệu Kho bạc có thể là giải thưởng giá trị nhất, cho phép dự báo kinh tế và dự đoán thị trường phi thường, mô hình hóa tác động của thay đổi quy định.
Dữ liệu cơ sở hạ tầng chính phủ giúp hiểu mối liên hệ giữa các mẫu giao thông, sử dụng năng lượng, chính sách nhà ở và thời gian ứng phó khẩn cấp, cho phép phát triển hệ thống "thành phố thông minh".
Một công ty như xAI với tài nguyên của Musk và quyền truy cập ưu tiên qua DOGE có thể vượt qua các trở ngại kỹ thuật và chính trị dễ dàng hơn đối thủ, tạo ra mối đe dọa cho dân chủ.

📌 Nếu một công ty tư nhân như xAI có quyền tiếp cận những dữ liệu chính phủ, họ sẽ có lợi thế vô song trong việc phát triển AI có khả năng dự đoán và ảnh hưởng đến hành vi ở cấp độ dân số, đe dọa biến người Mỹ từ công dân thành thần dân kỹ thuật số.

https://gizmodo.com/doge-threat-how-government-data-would-give-an-ai-company-extraordinary-power-2000573609

Không có file đính kèm.

Nguồn tham khảo

204

AI chính phủ AI data 2025-03-06 23:36:42

Mối đe dọa DOGE: Dữ liệu chính phủ có thể biến xAI thành "siêu AI" thống trị thế giới

DOGE (Bộ hiệu quả chính phủ) đã có quyền truy cập vào ít nhất 7 cơ sở dữ liệu nhạy cảm của liên bang Mỹ, bao gồm của Sở thuế vụ và Cục quản lý an sinh xã hội.
Điều này gây lo ngại về khả năng dữ liệu được sử dụng để huấn luyện hệ thống AI của công ty tư nhân, đặc biệt là xAI của Elon Musk.
Nhân viên của SpaceX đang làm việc tại Cục hàng không liên bang với địa chỉ email chính phủ, tạo ra kênh để dữ liệu có thể chuyển đến các công ty của Musk.
Dữ liệu chính phủ cực kỳ giá trị cho việc phát triển AI vì chứa thông tin xác thực về hành vi thực tế của toàn bộ dân số theo thời gian.
Các cơ sở dữ liệu chính phủ bao gồm thông tin về y tế, tài chính, giáo dục, việc làm của toàn bộ dân số, không chỉ những người hoạt động trên mạng.
Một mô hình AI được huấn luyện trên dữ liệu chính phủ có thể hiểu được mối quan hệ thực tế giữa các chính sách và kết quả, theo dõi hậu quả không mong muốn qua các phân khúc dân số khác nhau.
Công ty như xAI có thể sử dụng mô hình này để kiểm soát cách mọi người hiểu và quản lý các hệ thống xã hội phức tạp.
Dữ liệu Medicare và Medicaid có thể giúp xây dựng mô hình AI chi phối ngành y tế bằng cách xác định các mô hình điều trị thành công.
Dữ liệu Kho bạc có thể giúp phát triển khả năng dự báo kinh tế và dự đoán thị trường vượt trội.
Dữ liệu cơ sở hạ tầng có thể giúp xây dựng hệ thống "thành phố thông minh" mà chính quyền thành phố sẽ phụ thuộc vào.
Việc tập trung dữ liệu chưa từng có vào tay một công ty tư nhân với chương trình nghị sự chính trị rõ ràng đặt ra thách thức lớn cho nền cộng hòa.

📌 DOGE có quyền truy cập vào 7 cơ sở dữ liệu nhạy cảm của chính phủ Mỹ, gây lo ngại dữ liệu có thể được dùng để huấn luyện AI của công ty tư nhân như xAI. Điều này có thể tạo ra lợi thế cạnh tranh khổng lồ và khả năng kiểm soát các hệ thống xã hội phức tạp, đe dọa nền dân chủ.

https://theconversation.com/doge-threat-how-government-data-would-give-an-ai-company-extraordinary-power-250907

Không có file đính kèm.

Nguồn tham khảo

134

OpenAI ChatGPT AI data 2025-02-28 23:55:46

Tìm hiểu cách OpenAI sử dụng dữ liệu của bạn

Kể từ ngày 1 tháng 3 năm 2023, dữ liệu gửi đến API của OpenAI không được sử dụng để huấn luyện hoặc cải thiện các mô hình OpenAI (trừ khi bạn rõ ràng chọn chia sẻ dữ liệu).
Để xác định hành vi lạm dụng, dữ liệu API có thể được lưu giữ tối đa 30 ngày, sau đó sẽ bị xóa (trừ khi luật pháp yêu cầu khác).
Đối với khách hàng đáng tin cậy có ứng dụng nhạy cảm, tùy chọn lưu trữ dữ liệu bằng không có thể được áp dụng. Với tùy chọn này, nội dung yêu cầu và phản hồi không được lưu trong cơ chế ghi log và chỉ tồn tại trong bộ nhớ để phục vụ yêu cầu.
Chính sách dữ liệu này không áp dụng cho các dịch vụ tiêu dùng không phải API của OpenAI như ChatGPT hoặc DALL·E Labs.
Endpoint /v1/chat/completions không sử dụng dữ liệu để huấn luyện, lưu giữ 30 ngày và đủ điều kiện cho lưu trữ dữ liệu bằng không, ngoại trừ đầu vào hình ảnh, lược đồ cung cấp cho Structured Outputs, hoặc đầu ra âm thanh.
Các endpoint API Assistants (/v1/assistants, /v1/threads, v.v.) không sử dụng dữ liệu để huấn luyện, lưu giữ 30 ngày và không đủ điều kiện cho lưu trữ dữ liệu bằng không.
API xử lý hình ảnh (/v1/images/generations, /v1/images/edits, /v1/images/variations) không sử dụng dữ liệu để huấn luyện, lưu giữ 30 ngày và không đủ điều kiện cho lưu trữ dữ liệu bằng không.
Các endpoint /v1/embeddings, /v1/audio/speech, /v1/completions, và /v1/realtime đủ điều kiện cho lưu trữ dữ liệu bằng không.
/v1/audio/transcriptions và /v1/audio/translations có chính sách lưu trữ dữ liệu bằng không mặc định.
Đối với API Assistants, các đối tượng bị xóa sau 30 ngày kể từ khi bạn xóa qua API hoặc dashboard. Các đối tượng không bị xóa sẽ được lưu giữ vô thời hạn.
Dữ liệu đánh giá sẽ bị xóa sau 30 ngày kể từ khi xóa qua dashboard, nếu không sẽ được lưu giữ vô thời hạn.

📌 OpenAI không sử dụng dữ liệu API để huấn luyện mô hình kể từ ngày 1/3/2023. Phần lớn API lưu giữ dữ liệu 30 ngày, một số hỗ trợ lưu trữ bằng không cho ứng dụng nhạy cảm. Chính sách này không áp dụng cho ChatGPT hoặc DALL·E Labs.

https://platform.openai.com/docs/guides/your-data

Không có file đính kèm.

Nguồn tham khảo

102

AI việc làm AI data 2025-02-21 17:00:10

Các nhà báo đang đào tạo mô hình AI cho Meta và OpenAI thông qua nền tảng Outlier với mức lương 35 USD/giờ

Scale AI, công ty định giá 13,8 tỷ USD tại San Francisco, đang vận hành nền tảng Outlier từ 2023 với khách hàng lớn như OpenAI, Meta và Microsoft
Carla McCanna, tốt nghiệp cao học báo chí từ Đại học Northwestern, được tuyển dụng với mức lương 35 USD/giờ để đào tạo mô hình AI
Ngành báo chí Mỹ cắt giảm gần 5.000 việc làm trong năm 2024, tăng 59% so với năm trước
Các nhà báo được tuyển dụng để:
Gắn nhãn dữ liệu huấn luyện
Soạn thảo các lệnh kiểm tra
Đánh giá độ chính xác và ngữ pháp của nội dung AI
Thực hiện quy trình học tăng cường với phản hồi của con người (RLHF)
Outlier tuyển dụng nhà báo đa ngôn ngữ bao gồm: Thái, Hà Lan, Hindi, Thụy Điển và các phương ngữ như Tây Ban Nha (Mexico), Pháp (Canada)
Eliza Partika, nhà báo tự do tại Glendale làm việc với mức lương 17-20 USD/giờ, đánh giá các cuộc trò chuyện thực từ Meta AI hoặc ChatGPT
Cory Clark, phóng viên địa phương tại Philadelphia với hơn 10 năm kinh nghiệm, chuyển sang làm việc toàn thời gian cho Outlier
Thách thức của công việc:
Thu nhập không ổn định do nhu cầu công việc thất thường
Vấn đề thanh toán lương
Phải xử lý các chủ đề nhạy cảm và gây sốc
Nhiều vụ kiện về tác động tâm lý được đệ trình

📌 Scale AI đang xây dựng lực lượng nhà báo toàn cầu để đào tạo AI với mức lương từ 17-35 USD/giờ. Trong bối cảnh ngành báo chí cắt giảm 5.000 việc làm năm 2024, xu hướng này tạo cơ hội việc làm mới cho các nhà báo, mặc dù vẫn tồn tại những thách thức về tính ổn định và điều kiện làm việc.

https://www.niemanlab.org/2025/02/meet-the-journalists-training-ai-models-for-meta-and-openai/

Gặp gỡ các nhà báo đang đào tạo mô hình AI cho Meta và OpenAI

Nền tảng việc làm thời vụ Outlier là một trong nhiều công ty đang thu hút các nhà báo tham gia huấn luyện các mô hình ngôn ngữ lớn (LLM).

Andrew Deck
Ngày 20/02/2025, 2:54 chiều

Vào tháng 12, Carla McCanna nhận được một tin nhắn từ một nhà tuyển dụng tại Outlier, một công ty chuyên về dữ liệu huấn luyện AI.

McCanna, một sinh viên mới tốt nghiệp Trường Báo chí Medill thuộc Đại học Northwestern, chưa từng nghe đến công ty này trước đó. Tuy nhiên, tin nhắn được gửi qua Handshake, một cổng thông tin tuyển dụng do trường đại học của cô quản lý. “Nhà tuyển dụng nói rằng kỹ năng của tôi phù hợp với vai trò chuyên gia viết lách và tôi sẽ tham gia đào tạo mô hình AI để tối ưu hóa độ chính xác và hiệu suất,” McCanna kể lại.

Vào thời điểm đó, McCanna không có bất kỳ kinh nghiệm nào về dữ liệu, học máy hay ngành công nghệ. Những kỹ năng mà nhà tuyển dụng đề cập chính là kinh nghiệm làm báo của cô – kỹ năng viết chuyên nghiệp, nghiên cứu và kiểm chứng thông tin. Cô từng thực tập tại The Dallas Morning News và tạp chí D Magazine, đồng thời lấy bằng thạc sĩ báo chí vào tháng 8 năm ngoái.

Tuy nhiên, thị trường việc làm ngành báo chí đang ngày càng thu hẹp, khiến sự cạnh tranh trở nên khốc liệt hơn. (Năm 2024, ngành báo chí Mỹ – vốn đã gặp nhiều khó khăn – cắt giảm gần 5.000 việc làm, tăng 59% so với năm trước, theo báo cáo hàng năm của Challenger, Gray & Christmas.) “Tôi thích làm cho các tạp chí, viết bài chuyên sâu về văn hóa và âm nhạc, nhưng những công việc đó trên LinkedIn có đến hàng nghìn người ứng tuyển,” McCanna chia sẻ. “Trong khi tôi vẫn đang tìm kiếm một công việc viết lách toàn thời gian, thì công việc tại Outlier có vẻ rất ổn – hoàn toàn từ xa và thu nhập tốt nếu duy trì ổn định.”

Trong vài tháng qua, McCanna làm việc gần như toàn thời gian cho Outlier, nhận các dự án trên nền tảng này với mức thù lao khoảng 35 USD/giờ. Công việc này nhanh chóng trở thành nguồn thu nhập chính của cô, thậm chí cô còn giới thiệu nó cho nhiều bạn cùng lớp tại Medill. “Nhiều người trong số chúng tôi vẫn đang tìm việc. Tôi đã 3 lần kể với bạn bè về công việc này và họ đều nói, ‘Hãy gửi thông tin cho tôi ngay!’” cô nói. “Thị trường rất khó khăn lúc này, và nhiều đồng nghiệp của tôi cũng có chung cảm nhận.”

Từ nhà báo đến người huấn luyện AI

McCanna chỉ là một trong số rất nhiều nhà báo mà Outlier đã tiếp cận trong năm qua để mời tham gia công việc dữ liệu từ xa, bán thời gian. Tôi đã nói chuyện với nhiều nhà báo địa phương, phóng viên ảnh và phóng viên đài phát thanh trên khắp nước Mỹ, những người cũng nhận được lời mời tương tự từ công ty này hoặc biết về nền tảng thông qua mạng lưới các nhà báo tự do.

Một số người trong số họ tham gia Outlier để có thêm thu nhập, trong khi số khác thậm chí đã từ bỏ hẳn công việc báo chí do thiếu cơ hội làm nhân viên chính thức hoặc nguồn bài tự do ngày càng giảm sút.

Một số người, như McCanna, là những nhà báo trẻ mới vào nghề. Nhưng cũng có những phóng viên đã có hơn một thập kỷ kinh nghiệm. Điểm chung của tất cả họ? Trước năm ngoái, không ai từng nghe đến Outlier hay thậm chí biết rằng công việc kiểu này tồn tại.

Ra mắt vào năm 2023, Outlier là một nền tảng thuộc sở hữu và vận hành bởi Scale AI – một công ty chuyên về gán nhãn dữ liệu có trụ sở tại San Francisco, được định giá 13,8 tỷ USD. Khách hàng của Scale AI bao gồm các tập đoàn AI lớn nhất thế giới như OpenAI, Meta và Microsoft.

Outlier, cùng với các nền tảng tương tự như CrowdGen và Remotasks, sử dụng mạng lưới nhân công từ xa để cải thiện mô hình AI của khách hàng. Người lao động được trả lương theo giờ để thực hiện các nhiệm vụ như:

Gán nhãn dữ liệu huấn luyện
Soạn thảo các câu hỏi kiểm tra mô hình
Chấm điểm độ chính xác thực tế và ngữ pháp của đầu ra AI

Kết quả làm việc của họ sau đó được đưa trở lại mô hình AI để nâng cao hiệu suất thông qua quy trình gọi là học tăng cường có phản hồi từ con người (RLHF – Reinforcement Learning with Human Feedback). Vòng lặp phản hồi từ con người này đóng vai trò cốt lõi trong việc phát triển các mô hình như GPT của OpenAI và Llama của Meta.

Các công ty AI đẩy mạnh tuyển dụng nhà báo để huấn luyện mô hình AI

Nhiều công ty dữ liệu huấn luyện AI, bao gồm Appen, Data Annotation và Scale AI, đang tích cực tìm kiếm nhà báo để tham gia vào công việc dữ liệu, với hàng loạt tin tuyển dụng công khai gần đây.

Ngoài các tin nhắn tuyển dụng trực tiếp, tôi cũng tìm thấy hàng chục tin tuyển dụng công khai gần đây, cho thấy xu hướng ngày càng tăng trong việc thuê nhà báo làm việc với dữ liệu AI. Các tin đăng này đến từ những công ty hàng đầu trong ngành, như Appen, Data Annotation và chính Scale AI. Hầu hết các vị trí đều ưu tiên ứng viên có kinh nghiệm báo chí, thường liệt kê nhà báo cùng với biên tập viên, biên tập viên soát lỗi và nhà văn kỹ thuật.

“Mặc dù việc tuyển dụng nhà báo không phải điều mới đối với chúng tôi, nhưng chúng tôi nhận thấy họ là những cộng tác viên xuất sắc, chủ yếu nhờ vào kỹ năng viết lách và hiểu ngữ cảnh văn bản,” Joe Osborne, người phát ngôn của Scale AI, cho biết. “Bản chất linh hoạt và từ xa của công việc này cũng phù hợp với nhu cầu và lịch trình của họ.” Osborne cũng nói rằng công ty đang cập nhật danh sách tuyển dụng “fact checker” (người kiểm chứng thông tin) thành “AI trainer” (người huấn luyện AI) để làm rõ rằng công việc kiểm chứng trên nền tảng Outlier không phải là một hình thức kiểm duyệt nội dung trực tiếp.

Nhiều tin tuyển dụng mà tôi tìm thấy tập trung vào việc tìm kiếm chuyên gia ngôn ngữ, bao gồm những nhà báo nói các ngôn ngữ và phương ngữ ít được đại diện trong dữ liệu huấn luyện của các công ty AI lớn. Có các vị trí tuyển dụng dành cho người kiểm chứng thông tin biết tiếng Thái, Hà Lan, Hindi và Thụy Điển, cũng như các phương ngữ như “tiếng Tây Ban Nha (Mexico)” và “tiếng Pháp (Canada).” Trong khi đó, các nhà báo nói tiếng Anh thường phù hợp với các vai trò tổng quát hơn, như “người đánh giá bài viết AI,” “nhà văn tự do” hoặc “người kiểm chứng thông tin.”

Từ nhà báo tự do đến người huấn luyện AI

Eliza Partika, một nhà báo tự do sống tại Glendale, California, đã tìm thấy một tin tuyển dụng tương tự trên LinkedIn vào mùa xuân năm 2024. Trước đó, cô viết bài thường xuyên cho các tờ báo địa phương như AfroLA và Crescenta Valley Weekly. Sau khi gia nhập nền tảng Outlier, công việc này trở thành một nguồn thu nhập “hết sức hữu ích”, với mức lương trung bình từ 17-20 USD/giờ.

“Đây là một công việc tự do mà tôi có thể quay lại bất cứ lúc nào, nên tôi làm khi có thể,” cô nói.

Hầu hết công việc của Partika trên Outlier diễn ra trong những phiên làm việc kéo dài 30 phút, yêu cầu cô xem xét các đoạn hội thoại thực, được ẩn danh, từ các sản phẩm AI như Meta AI hoặc ChatGPT, sau đó đánh giá phản hồi của mô hình theo một bộ tiêu chí có sẵn.

“Nếu một người dùng yêu cầu Meta AI viết một thư xin việc dựa trên mô tả công việc, tôi sẽ phải kiểm tra xem thư có tích hợp đúng các kinh nghiệm được yêu cầu hay không, có đảm bảo ngữ pháp chính xác và có sử dụng đúng giọng điệu phù hợp hay không,” cô giải thích.

Nhiều cuộc trò chuyện liên quan đến các chủ đề thực tế như văn học, toán học và sức khỏe. “Nếu có ai hỏi về ý nghĩa bài độc thoại của Hamlet, tôi phải đảm bảo AI trả lời đúng về bài độc thoại này và phân tích của AI phù hợp với quan điểm hiện tại về chủ đề đó,” cô nói. “Nếu là một dữ kiện khoa học hay toán học, tôi sẽ tra cứu lại.”

Công việc kiểm chứng thông tin và rủi ro tiềm ẩn

Tất cả những người đóng góp cho Outlier mà tôi đã phỏng vấn đều cho biết phần lớn công việc của họ liên quan đến kiểm chứng thông tin, bao gồm:

Xác định lỗi sai hoặc "ảo giác" của mô hình
Phát hiện khi chatbot sử dụng nguồn thông tin không chính xác trên internet

Nhiều người so sánh công việc này với việc "kiểm tra nhanh" một bài báo, tập trung vào các chi tiết quan trọng như số liệu, danh từ riêng và thông tin thực tế.

“Tôi không phải phỏng vấn ai cả, nhưng kỹ năng nghiên cứu, kiến thức lịch sử, hiểu biết chính trị, khả năng lập luận, kiểm chứng thông tin và trình độ ngôn ngữ của tôi – tất cả đều có thể áp dụng vào công việc này,” Cory Clark, một nhà báo địa phương và phóng viên ảnh tự do tại Philadelphia, chia sẻ.

Clark đã làm việc tự do trong hơn một thập kỷ, viết bài cho The Philadelphia Inquirer và cung cấp ảnh cho các hãng tin như Associated Press, AFP, Getty Images và Sipa Press.

Tuy nhiên, ngày càng khó để duy trì thu nhập từ báo chí, và năm ngoái, Clark ngừng tìm kiếm các dự án báo chí mới để làm việc cho Outlier. Anh biết đến nền tảng này sau khi một đồng nghiệp tại The Local – một tờ báo khu vực ở Tây Bắc Philadelphia – giới thiệu cho anh. “Đây là một công việc rất phù hợp với các nhà báo,” anh nói.

Những thách thức của công việc huấn luyện AI

Giống như bất kỳ nền tảng việc làm thời vụ nào, làm việc cho Outlier không phải lúc nào cũng ổn định. Mùa hè năm ngoái, Clark gặp khó khăn khi tìm các dự án mới trên nền tảng và cuối cùng phải kiếm thêm một công việc bán thời gian khác. Sự dao động về nhu cầu tuyển dụng khiến thu nhập từ Outlier không phải lúc nào cũng chắc chắn.

Công ty cũng từng vấp phải tranh cãi về vấn đề thanh toán, bao gồm cáo buộc vào năm ngoái về việc chậm trả lương hàng loạt cho số giờ làm việc trên nền tảng.

Ngoài ra, công việc kiểm duyệt AI đôi khi đòi hỏi nhân viên phải tiếp xúc với nội dung nhạy cảm hoặc gây khó chịu.

“Không ít lần tôi phải xem các nội dung mang tính chất khiêu dâm hoặc nhạy cảm. Chúng tôi được yêu cầu không đánh giá các cuộc trò chuyện đó mà chỉ cần gắn cờ cảnh báo,” Partika cho biết.

Tháng trước, một số nhân viên của Outlier đã đệ đơn kiện Scale AI, cáo buộc rằng công việc của họ gây ảnh hưởng tâm lý nghiêm trọng mà không có bất kỳ hỗ trợ hoặc biện pháp bảo vệ nào.

Lý do nhiều nhà báo từ chối làm việc cho AI

Đối với nhiều nhà báo, lý do từ chối công việc tại một công ty huấn luyện dữ liệu AI không chỉ là tiền bạc, mà còn là vấn đề nguyên tắc nghề nghiệp.

Celia Hack, một phóng viên tại đài phát thanh KMUW ở Wichita, Kansas, đã nhận được một tin nhắn từ nhà tuyển dụng Outlier trên LinkedIn vào tháng 2 năm 2024.

Cô không hứng thú với lời mời này, thậm chí còn chụp lại tin nhắn và đăng lên Twitter với dòng trạng thái:

“Khi họ đề nghị trả tiền để bạn giúp AI khiến công việc báo chí của chính bạn trở nên lỗi thời.”

Nhà báo tranh luận về việc tham gia huấn luyện AI

Nhiều nhà báo vẫn băn khoăn về công việc này, trong khi số khác xem đây là cơ hội để hiểu và thích nghi với AI trong ngành truyền thông.

"Tôi không biết có người thực sự được tuyển dụng để làm công việc đó," Celia Hack chia sẻ trong một cuộc gọi gần đây.

Dù không lo lắng rằng công nghệ AI sẽ thay thế công việc của mình với tư cách là một phóng viên tin tức địa phương, cô vẫn cảm thấy bất ngờ trước tin nhắn từ nhà tuyển dụng. “Thành thật mà nói, tôi vẫn chưa hoàn toàn hiểu công việc đó thực sự trông như thế nào.”

Hack không phải là người đầu tiên đặt ra câu hỏi này. Các nhà báo tôi đã phỏng vấn cho biết công việc của họ tại Outlier thường cần phải giải thích rõ ràng với bạn bè và đồng nghiệp trong ngành.

“Phản ứng đầu tiên của mọi người thường là ‘Ôi trời ơi, vậy là cậu đang giúp AI chiếm lĩnh ngành này sao?’” McCanna, cựu sinh viên Northwestern, kể lại.

Nhưng thay vì xem công việc này như việc "đào tạo người thay thế", McCanna nhìn nhận đây là một tài sản quý giá, giúp cô nâng cao hiểu biết về các công cụ AI – điều đang ngày càng trở nên quan trọng trong môi trường làm việc.

“Khi thực sự làm công việc này, bạn sẽ nhận ra rằng các mô hình AI vẫn rất cần con người... Tôi nghĩ sẽ còn rất, rất lâu nữa chúng mới có thể thực sự viết như con người.”

Chuyển từ nghi ngờ sang chấp nhận?

Trong khi đó, Cory Clark đang tích cực giới thiệu Outlier cho các nhà báo khác. Ngay cả những người ban đầu hoài nghi cũng dần thay đổi suy nghĩ.

“Ban đầu họ không tin tưởng vào khía cạnh AI của công việc này, nhưng tôi đã phân tích cho họ: Dù muốn hay không, đây chính là tương lai – hoặc nó sẽ trở thành công cụ hỗ trợ chúng ta, hoặc một ngày nào đó sẽ thay thế chúng ta.”

Một trong những người bạn của Clark là một phóng viên ảnh ở New York.

“Tôi nói với cậu ấy: ‘Này, cậu đang phải trả hàng nghìn đô tiền thuê nhà mỗi tháng. Tớ biết không phải lúc nào cậu cũng kiếm đủ tiền từ công việc tự do.’”

“Outlier là một cách để bù đắp khoản thiếu hụt đó.”

Meet the journalists training AI models for Meta and OpenAI
The gig work platform Outlier is one of several companies courting journalists to train large language models (LLMs).
By Andrew Deck Feb. 20, 2025, 2:54 p.m.
In December, Carla McCanna received a message from a recruiter at the AI training data company Outlier.

McCanna, a recent graduate of Northwestern University’s Medill School of Journalism, had never heard of the company, but the message came through Handshake, a recruiting portal hosted by the university. “The recruiter said my skills align with a writing expert role and that I’d be training AI models to optimize accuracy and efficiency,” McCanna told me.

At the time, McCanna had no experience in data work, machine learning, or the tech industry. The skills the recruiter alluded to were her journalism experience — her professional writing, research, and fact-checking abilities. She’d worked internships at The Dallas Morning News and the monthly D Magazine, and last August, she earned her master’s degree in journalism.

Staff jobs are scarce, though, and the competition for them is daunting. (In 2024, the already beleaguered U.S. news industry cut nearly 5,000 jobs, up 59% from the previous year, according to an annual report from Challenger, Gray & Christmas.) “I’m most interested in magazines, feature writing, or culture and music writing, those jobs on LinkedIn get thousands of applicants,” McCanna told me. “While I’m looking for that full-time writing position, this [Outlier job] seemed great, because it’s completely remote and it’s good pay if you’re consistent with it.”

For the past couple months, McCanna has been working close to full-time for Outlier, picking up projects on its gig platform at about $35 per hour. Data work has quickly become her primary source of income and a hustle she’s recommended to other Medill classmates. “A lot of us are still looking for jobs. Three times I told someone what I do, and they’re like, please send it to me,” she said. “It’s hard right now, and a lot of my colleagues are saying the same thing.”

McCanna is just one of many journalists who has been courted by Outlier to take on part-time, remote data work over the past year. I spoke to local news writers, photojournalists, and radio reporters across the U.S. who received similar recruitment messages from the company or heard about the platform through word-of-mouth among freelance journalists.

Several of them told me they have taken on Outlier projects to supplement their income or replace their work in journalism entirely, because of dwindling staff jobs or freelance assignments drying up. Some are early-career journalists like McCanna, but others are reporters with over a decade of experience. One thing they all had in common? Before last year they’d never heard of Outlier or even knew that this type of work existed.

Launched back in 2023, Outlier is a platform owned and managed by Scale AI, a San Francisco-based data annotation company valued at $13.8 billion. It counts among its customers the world’s largest AI companies, including OpenAI, Meta, and Microsoft. Outlier, and similar platforms like CrowdGen and Remotasks, use networks of remote human workers to improve the AI models of their clients. Workers are paid by the hour for tasks like labeling training data, drafting test prompts, and grading the factual accuracy and grammar of outputs. Often their work is fed back into an AI model to improve its performance, through a process called reinforcement learning with human feedback (RLHF). This human feedback loop has been core to building models like OpenAI’s GPT and Meta’s Llama.

Aside from direct recruitment messages, I also found dozens of recent public job postings that underscore this growing trend of hiring journalists for data work. These posts came from the AI industry’s leading training data companies including Appen, Data Annotation, and Scale AI itself. All of the openings list journalists as preferred candidates, often alongside editors, copy editors, and technical writers.
“Though our recruitment efforts with journalists aren’t new, we find they make great general contributors largely because of their writing and text comprehension skills,” said Joe Osborne, a spokesperson for Scale AI. “The remote and flexible nature of the work also tends to suit their needs and schedules.” Osborne also said the company is currently updating its “fact checker” job listings with the title “AI trainer,” to clarify that fact-checking on Outlier is not a form of direct content moderation.

Many job posts I found are looking for language experts, including journalists who speak languages and dialects less represented in the training data of major AI companies. I found posts for fact checkers internationally who speak Thai, Dutch, Hindi, and Swedish, as well as dialects like “Spanish (Mexico)” and “French (Canada).” English-speaking journalists tended to qualify for more generalist job postings; these were often listed with titles like “AI writing evaluator,” “freelance writer,” and “fact checker.”

Eliza Partika, a freelance journalist based in Glendale, California, came across a similar post on LinkedIn in the spring of 2024. Partika had been contributing regularly to local news outlets like AfroLA and Crescenta Valley Weekly. After onboarding, Outlier gigs became an “incredibly helpful” source of income for her with most projects averaging between $17-$20 per hour. “It’s a freelance gig that I can come back to any time, so I plug in whenever I can,” she said.

Most of Partika’s work on Outlier takes place in 30-minute blocks and requires reviewing real, anonymized chat histories from products like Meta AI or ChatGPT. She then rates the model’s responses using a rubric. “If a user asks Meta AI to write a cover letter based on a job description, it would be my job to verify that the responding cover letter incorporated experiences specified in the job description, made grammatical sense, and used the proper tone for a cover letter,” she told me.

Frequently, these chats veer into more factual topics, including literature, math, and health. “If they ask what Hamlet’s soliloquy means, I have to verify that the AI responds with something about Hamlet’s soliloquy, but also that the analysis aligns with current thoughts on the subject,” she added. “If it’s a science fact, or math, I look it up.”
All the Outlier contributors I spoke to mentioned their work indexes heavily on fact-checking, including identifying hallucinations by models or marking when chatbots pull from incorrect sources on the internet. Many of them compared it to “spot checking” a story, focusing on key details like figures, proper nouns, and stated facts.
“I don’t have to interview anybody, but my research skills, my knowledge of history, my knowledge of politics, my reasoning skills, my fact-checking abilities, obviously the mastery of the English language, all of those skills [transfer],” said Cory Clark, who has been working as a local news reporter and freelance photojournalist in Philadelphia for over a decade. Clark has regularly freelanced for The Philadelphia Inquirer and photo wire services like the Associated Press, AFP, Getty Images, and Sipa Press.

Clark told me it has become increasingly difficult to support his family with his freelance journalism work, and last year he stopped pursuing new freelance assignments to work for Outlier. He heard about the platform after a colleague at The Local, a Northwest Philadelphia outlet, recommended it to him. “It’s a job that’s really well-suited for journalists,” he said.

Like any gig platform work, contracting for Outlier has not been without its challenges. Last summer, Clark said he struggled to find new projects on the platform and ultimately had to find another part-time job. Similar ebbs and flows in demand for workers can make income from Outlier inconsistent. The company has also come under fire for payroll issues, including accusations last year of mass non-payment for hours logged on the site.

Other workers told me their AI reviews often entail dealing with heavy or disturbing topics. “Quite often the content I look at is explicit or sensitive. We are asked not to rate those chats, and to flag them for sensitive content,” Partika said. Last month, Outlier workers filed a string of lawsuits against Scale AI, alleging their work had taken a psychological toll without providing proper support or safeguards.

For many journalists, though, the reason not to work for an AI training data company is more existential. Celia Hack, a reporter for the KMUW radio station in Wichita, Kansas, received a message from an Outlier recruiter on LinkedIn in February 2024. She wasn’t receptive to the outreach, instead taking to Twitter to post a screenshot of the recruiter’s message. Her tweet: “when they offer to pay you to help make your journalism job become obsolete.”

“I didn’t know about people actually getting hired to do that type of work,” she told me on a recent call, explaining that while she doesn’t worry about AI technologies displacing her own job as a local news journalist, the recruiter’s message still caught her off guard. “Honestly, I’m still kind of confused what that type of work would even look like.”

Hack isn’t the first to ask this question. The journalists I spoke to say their work for Outlier often takes some explaining to friends and peers in the industry. “People’s immediate reaction is usually, oh my god, so you’re helping the AI take over?” said McCanna, the recent Northwestern grad. Rather than training a replacement, McCanna sees her data work as an asset, growing her knowledge of AI tools as they continue to embed in the workplace. “Actually doing this work you realize AI models still need us … I think it’s going to be a really, really long time until they can truly write like humans.”

Clark, meanwhile, says he has been pitching Outlier to other journalists. Even those who were initially icy have warmed up to the idea. “They didn’t trust the AI aspect of it, but I laid it out, I was like, look, one way or another, this is the future, whether it’s as a tool for us or an eventual replacement for us.”

One of those friends is a photojournalist based in New York City. “I was like, dude, you pay thousands of dollars a month for your rent. I know you can’t always make that as a freelancer,” he said. “Outlier is a way to supplement that.”

Photo of clickworker by Max Gruber via Better Images of AI used under a Creative Commons license.
Andrew Deck is a staff writer covering AI at Nieman Lab. Have tips about how AI is being used in your newsroom? You can reach Andrew via email, Bluesky, or Signal (+1 203-841-6241).

Không có file đính kèm.

Nguồn tham khảo

236

AI data AI mở-nguồn mở 2025-02-16 09:34:47

Liệu chữ Hán có phải là chìa khóa bí mật đằng sau thành công của DeepSeek?

- DeepSeek, một công ty khởi nghiệp AI của Trung Quốc, đang thu hút sự chú ý toàn cầu với mô hình ngôn ngữ lớn nguồn mở có hiệu suất cao và tiết kiệm chi phí

- Các chuyên gia trong ngành cho rằng việc tích hợp chữ Hán trong giai đoạn tiền đào tạo là yếu tố quan trọng tạo nên thành công của mô hình

- Theo chuyên gia viễn thông Xiang Ligang, chữ Hán có khả năng truyền tải thông tin tối đa với chi phí tối thiểu

- Đặc tính đa phương thức của chữ Hán, kết hợp yếu tố hình ảnh với ý nghĩa, cung cấp nguồn tư liệu học tập phong phú cho các mô hình AI

- Mặc dù DeepSeek chưa công bố nguồn dữ liệu đào tạo, các chuyên gia phỏng đoán dữ liệu tiếng Trung bao gồm nhiều loại tài liệu:
+ Văn học cổ điển
+ Biệt ngữ internet
+ Bài báo học thuật
+ Tài liệu chính phủ
+ Phương ngữ

- Sự đa dạng trong dữ liệu đào tạo tạo nền tảng ngôn ngữ toàn diện, góp phần nâng cao hiệu suất của mô hình

📌 DeepSeek đang chứng minh tiềm năng vượt trội của mô hình ngôn ngữ lớn nguồn mở dựa trên nền tảng chữ Hán. Đặc tính mật độ thông tin cao và tính đa phương thức của chữ Hán giúp tối ưu hóa hiệu suất và chi phí trong xử lý AI.

https://www.malaymail.com/news/tech-gadgets/2025/02/15/deepseeks-rise-is-the-chinese-language-the-secret-ingredient-to-its-ai-edge/166793

Không có file đính kèm.

Nguồn tham khảo

102

AI mở-nguồn mở AI data 2025-02-01 00:52:48

Chatbot DeepSeek của Trung quốc - Công cụ tuyên truyền thông qua AI tạo sinh

- DeepSeek, chatbot miễn phí từ Trung quốc, đã thu hút hàng triệu lượt tải xuống và gây chấn động thị trường chứng khoán cùng các công ty công nghệ lớn như Nvidia

- Theo nghiên cứu của NewsGuard - công ty theo dõi thông tin sai lệch trực tuyến, DeepSeek được xem như một "cỗ máy thông tin sai lệch" khi đưa ra các câu trả lời phản ánh quan điểm của đảng Cộng sản Trung quốc

- Chatbot này đã cung cấp thông tin sai lệch về phát biểu của cựu tổng thống Jimmy Carter liên quan đến vấn đề Đài Loan, bằng cách biên tập có chọn lọc để ủng hộ lập trường của Trung quốc

- Về vấn đề đàn áp người Duy Ngô Nhĩ ở Tân cương (được Liên hợp quốc năm 2022 đánh giá có thể cấu thành tội ác chống nhân loại), Cybernews phát hiện chatbot tuyên bố chính sách của Trung quốc "được cộng đồng quốc tế công nhận và ca ngợi rộng rãi"

- The New York Times cũng tìm thấy các ví dụ tương tự khi kiểm tra câu trả lời của DeepSeek về cách Trung quốc xử lý đại dịch Covid-19 và quan điểm về cuộc chiến Nga-Ukraine

- Giống như mọi công ty Trung Quốc khác, DeepSeek phải tuân thủ kiểm duyệt và kiểm soát nghiêm ngặt của chính phủ, nhằm hạn chế các ý kiến phản đối lãnh đạo đảng Cộng sản

📌 Chatbot DeepSeek là ví dụ điển hình về việc lạm dụng AI tạo sinh để phục vụ mục đích tuyên truyền. Với hàng triệu lượt tải, ứng dụng này đang lan truyền thông tin theo định hướng của đảng Cộng sản Trung quốc về các vấn đề nhạy cảm như Tân cương, Đài loan và đại dịch Covid-19.

https://www.nytimes.com/2025/01/31/technology/deepseek-chinese-propaganda.html

Không có file đính kèm.

Nguồn tham khảo

138

AI data AI cybersecurity 2025-01-30 13:15:37

DeepSeek để lộ hơn 1 triệu bản ghi bao gồm dữ liệu người dùng và khóa API

- Công ty Wiz phát hiện cơ sở dữ liệu quan trọng của DeepSeek bị để lộ trên internet, chứa hơn 1 triệu bản ghi bao gồm nhật ký hệ thống, câu hỏi người dùng và mã xác thực API

- DeepSeek là công ty AI tạo sinh của Trung Quốc, đang tạo áp lực cạnh tranh lớn với các công ty AI của Mỹ

- Sau khi Wiz thông báo, DeepSeek đã khóa cơ sở dữ liệu trong vòng 30 phút, tuy nhiên không rõ liệu dữ liệu đã bị khai thác hay không

- Cơ sở dữ liệu bị lộ là loại ClickHouse nguồn mở, thường dùng cho phân tích máy chủ

- Dữ liệu bị lộ bao gồm:
- Lộ trình người dùng trong hệ thống DeepSeek
- Câu hỏi và tương tác của người dùng
- Khóa API xác thực
- Hầu hết nội dung bằng tiếng Trung

- Hạ tầng DeepSeek được thiết kế rất giống OpenAI, từ cấu trúc đến định dạng khóa API

- DeepSeek đang thu hút sự chú ý từ các cơ quan quản lý:
- Cơ quan bảo vệ dữ liệu Italy yêu cầu làm rõ về nguồn dữ liệu huấn luyện
- Hải quân Mỹ cảnh báo nhân viên không sử dụng DeepSeek vì lo ngại an ninh
- OpenAI điều tra cáo buộc DeepSeek sử dụng dữ liệu ChatGPT để huấn luyện mô hình

📌 Lỗ hổng bảo mật nghiêm trọng của DeepSeek để lộ hơn 1 triệu bản ghi dữ liệu người dùng, cho thấy những rủi ro bảo mật tiềm ẩn của các công ty AI mới nổi. Sự việc càng thu hút sự giám sát chặt chẽ hơn từ các cơ quan quản lý toàn cầu về quyền riêng tư và an ninh quốc gia.

https://www.wired.com/story/exposed-deepseek-database-revealed-chat-prompts-and-internal-data/

Cơ sở dữ liệu DeepSeek bị lộ đã tiết lộ các lời nhắc trò chuyện và dữ liệu nội bộ

DeepSeek có trụ sở tại Trung Quốc đã bùng nổ về mức độ phổ biến, thu hút sự giám sát ngày càng nhiều. Điển hình là các nhà nghiên cứu bảo mật đã phát hiện hơn 1 triệu bản ghi, bao gồm dữ liệu người dùng và khóa API, trong một cơ sở dữ liệu mở.

Nền tảng AI tạo sinh của Trung Quốc, DeepSeek, đã có một tuần tăng trưởng thần tốc, làm dấy lên sự cạnh tranh và tạo áp lực thị trường đối với các công ty AI tại Mỹ, kéo theo sự giám sát chặt chẽ hơn đối với dịch vụ này. Giữa làn sóng quan tâm, các nhà nghiên cứu từ công ty bảo mật đám mây Wiz đã công bố phát hiện vào thứ Tư rằng DeepSeek đã để lộ một trong những cơ sở dữ liệu quan trọng trên internet, làm rò rỉ nhật ký hệ thống, các lời nhắc do người dùng gửi và thậm chí cả mã thông báo xác thực API của người dùng—tổng cộng hơn 1 triệu bản ghi—cho bất kỳ ai tình cờ tìm thấy cơ sở dữ liệu này.

DeepSeek là một công ty tương đối mới và hầu như không thể liên lạc được với báo chí cũng như các tổ chức khác trong tuần này. Do đó, công ty chưa phản hồi ngay lập tức yêu cầu bình luận của WIRED về vụ lộ dữ liệu. Các nhà nghiên cứu của Wiz cho biết họ cũng không chắc chắn về cách tiết lộ phát hiện này cho công ty và chỉ đơn giản là gửi thông tin về phát hiện này vào thứ Tư đến mọi địa chỉ email và hồ sơ LinkedIn của DeepSeek mà họ có thể tìm thấy hoặc đoán được. Họ vẫn chưa nhận được phản hồi, nhưng trong vòng nửa giờ sau khi họ cố gắng liên hệ hàng loạt, cơ sở dữ liệu đã bị khóa và không còn khả dụng đối với những người dùng không được ủy quyền. Hiện chưa rõ liệu có bên độc hại hoặc bên được ủy quyền nào đã truy cập hoặc tải xuống bất kỳ dữ liệu nào hay không.

“Ai cũng có thể mắc sai lầm, nhưng đây là một sai lầm nghiêm trọng, vì mức độ nỗ lực rất thấp nhưng mức độ truy cập mà chúng tôi có được lại rất cao,” Ami Luttwak, CTO của Wiz, nói với WIRED. “Tôi cho rằng điều này có nghĩa là dịch vụ này chưa đủ trưởng thành để có thể sử dụng với bất kỳ dữ liệu nhạy cảm nào.”

Các cơ sở dữ liệu bị lộ có thể được truy cập công khai trên internet là một vấn đề tồn tại từ lâu mà các tổ chức và nhà cung cấp dịch vụ đám mây đã dần tìm cách giải quyết. Tuy nhiên, các nhà nghiên cứu của Wiz lưu ý rằng cơ sở dữ liệu DeepSeek mà họ phát hiện có thể được nhìn thấy gần như ngay lập tức mà không cần quét hoặc thăm dò nhiều.

“Thông thường, khi tìm thấy kiểu lộ dữ liệu như thế này, đó là một dịch vụ bị bỏ quên, và chúng tôi phải mất hàng giờ quét mới phát hiện ra,” Nir Ohfeld, trưởng bộ phận nghiên cứu lỗ hổng bảo mật tại Wiz, cho biết. Nhưng lần này, “nó ở ngay trước cửa.” Ohfeld bổ sung rằng “mức độ phức tạp kỹ thuật của lỗ hổng này gần như tối thiểu.”

Các nhà nghiên cứu cho biết kho dữ liệu họ tìm thấy có vẻ là một loại cơ sở dữ liệu mã nguồn mở thường được sử dụng để phân tích máy chủ, gọi là cơ sở dữ liệu ClickHouse. Và thông tin bị lộ cũng xác nhận điều này, vì có các tệp nhật ký chứa đường dẫn mà người dùng đã đi qua trong hệ thống DeepSeek, các lời nhắc mà họ đã nhập cũng như các tương tác khác với dịch vụ, và cả khóa API được sử dụng để xác thực. Các lời nhắc mà nhóm nghiên cứu nhìn thấy đều bằng tiếng Trung, nhưng họ lưu ý rằng cũng có khả năng cơ sở dữ liệu này chứa lời nhắc bằng các ngôn ngữ khác. Các nhà nghiên cứu khẳng định họ chỉ thực hiện đánh giá tối thiểu cần thiết để xác nhận phát hiện mà không làm tổn hại quyền riêng tư của người dùng, nhưng họ suy đoán rằng kẻ xấu có thể tận dụng quyền truy cập sâu vào cơ sở dữ liệu này để di chuyển ngang sang các hệ thống khác của DeepSeek và thực thi mã trong những phần khác của cơ sở hạ tầng công ty.

"Thật sốc khi xây dựng một mô hình AI nhưng lại để ngỏ cửa hậu hoàn toàn từ góc độ bảo mật," nhà nghiên cứu bảo mật độc lập Jeremiah Fowler cho biết. Fowler không tham gia vào nghiên cứu của Wiz nhưng chuyên phát hiện các cơ sở dữ liệu bị lộ. "Dữ liệu vận hành kiểu này và khả năng bất kỳ ai có kết nối internet đều có thể truy cập rồi thao túng nó là một rủi ro lớn đối với tổ chức và người dùng."

Các hệ thống của DeepSeek dường như được thiết kế rất giống với OpenAI, theo các nhà nghiên cứu của Wiz chia sẻ với WIRED vào thứ Tư. Họ cho rằng điều này có thể giúp khách hàng mới dễ dàng chuyển sang sử dụng DeepSeek mà không gặp khó khăn. Toàn bộ cơ sở hạ tầng của DeepSeek dường như mô phỏng OpenAI, đến mức ngay cả định dạng khóa API cũng tương tự.

Các nhà nghiên cứu của Wiz cho biết họ không rõ liệu có ai khác phát hiện cơ sở dữ liệu bị lộ trước họ hay không, nhưng điều đó hoàn toàn có thể xảy ra do mức độ dễ tìm thấy của nó. Fowler, nhà nghiên cứu độc lập, cũng lưu ý rằng cơ sở dữ liệu dễ bị tấn công này "chắc chắn" đã bị phát hiện nhanh chóng—nếu chưa bị phát hiện từ trước—bởi các nhà nghiên cứu khác hoặc thậm chí cả tin tặc.

"Tôi nghĩ đây là một hồi chuông cảnh tỉnh cho làn sóng sản phẩm và dịch vụ AI mà chúng ta sẽ thấy trong tương lai gần, và cách mà họ xử lý vấn đề an ninh mạng một cách nghiêm túc."

DeepSeek đã tạo ra ảnh hưởng toàn cầu trong tuần qua, với hàng triệu người đổ xô sử dụng dịch vụ, đẩy ứng dụng này lên vị trí đầu bảng trên kho ứng dụng của Apple và Google. Hệ quả của sự bùng nổ này đã khiến giá cổ phiếu của các công ty AI tại Mỹ giảm hàng tỷ USD và làm dấy lên lo ngại trong giới lãnh đạo doanh nghiệp trên toàn quốc. Vào thứ Tư, các nguồn tin từ OpenAI nói với Financial Times rằng họ đang điều tra cáo buộc DeepSeek sử dụng đầu ra của ChatGPT để huấn luyện mô hình của mình.

Cùng lúc đó, DeepSeek ngày càng thu hút sự chú ý của các nhà lập pháp và cơ quan quản lý trên toàn cầu, khi họ bắt đầu đặt câu hỏi về chính sách bảo mật của công ty, tác động của việc kiểm duyệt nội dung, và liệu quyền sở hữu của Trung Quốc có đặt ra mối lo ngại về an ninh quốc gia hay không.

Cơ quan bảo vệ dữ liệu của Ý đã gửi một loạt câu hỏi đến DeepSeek, yêu cầu cung cấp thông tin về nguồn dữ liệu huấn luyện, liệu thông tin cá nhân của người dùng có nằm trong đó hay không, và cơ sở pháp lý để công ty sử dụng những thông tin này. Theo báo cáo của WIRED Italy, ứng dụng DeepSeek dường như đã không thể tải xuống tại Ý sau khi các câu hỏi được gửi đi.

Các mối liên hệ của DeepSeek với Trung Quốc cũng đang làm dấy lên lo ngại về an ninh. Theo CNBC, vào cuối tuần trước, Hải quân Mỹ đã phát cảnh báo đến nhân sự, khuyến cáo không được sử dụng dịch vụ của DeepSeek "dưới bất kỳ hình thức nào." Email này yêu cầu nhân viên không tải xuống, cài đặt hoặc sử dụng mô hình DeepSeek, đồng thời cảnh báo về những "vấn đề tiềm ẩn liên quan đến bảo mật và đạo đức."

Tuy nhiên, bất chấp những tranh cãi, vụ lộ dữ liệu cho thấy gần như tất cả các công nghệ dựa trên cơ sở dữ liệu đám mây đều có thể bị tổn thương do những sai sót bảo mật đơn giản.

"AI là biên giới mới trong mọi lĩnh vực liên quan đến công nghệ và an ninh mạng," Ohfeld từ Wiz nhận định, "thế nhưng, chúng ta vẫn thấy những lỗ hổng cũ như cơ sở dữ liệu bị để mở trên internet."

Exposed DeepSeek Database Revealed Chat Prompts and Internal Data
China-based DeepSeek has exploded in popularity, drawing greater scrutiny. Case in point: Security researchers found more than 1 million records, including user data and API keys, in an open database.

The Chinese generative artificial intelligence platform DeepSeek has had a meteoric rise this week, stoking rivalries and generating market pressure for United States–based AI companies, which in turn has invited scrutiny of the service. Amid the hype, researchers from the cloud security firm Wiz published findings on Wednesday that show that DeepSeek left one of its critical databases exposed on the internet, leaking system logs, user prompt submissions, and even users’ API authentication tokens—totaling more than 1 million records—to anyone who came across the database.
DeepSeek is a relatively new company and has been virtually unreachable to press and other organizations this week. In turn, the company did not immediately respond to WIRED’s request for comment about the exposure. The Wiz researchers say that they themselves were unsure about how to disclose their findings to the company and simply sent information about the discovery on Wednesday to every DeepSeek email address and LinkedIn profile they could find or guess. The researchers have yet to receive a reply, but within a half hour of their mass contact attempt, the database they found was locked down and became inaccessible to unauthorized users. It is unclear whether any malicious actors or authorized parties accessed or downloaded any of the data.
“The fact that mistakes happen is correct, but this is a dramatic mistake, because the effort level is very low and the access level that we got is very high,” Ami Luttwak, the CTO of Wiz tells WIRED. “I would say that it means that the service is not mature to be used with any sensitive data at all.”

Exposed databases that are accessible to anyone on the open internet are a long-standing problem that institutions and cloud providers have slowly worked to address. But the Wiz researchers note that the DeepSeek database they found was visible almost immediately with minimal scanning or probing.
“Usually when we find this kind of exposure, it’s in some neglected service that takes us hours to find—hours of scanning,” says Nir Ohfeld, the head of vulnerability research at Wiz. But this time, “here it was at the front door.” Ohfeld adds that the “technical difficulty of this vulnerability is the bare minimum.”
The researchers say that the trove they found appears to have been a type of open source database typically used for server analytics called a ClickHouse database. And the exposed information supported this, given that there were log files that contained the routes or paths users had taken through DeepSeek’s systems, the users’ prompts and other interactions with the service, and the API keys they had used to authenticate. The prompts the researchers saw were all in Chinese, but they note that it is possible the database also contained prompts in other languages. The researchers say they did the absolute minimum assessment needed to confirm their findings without unnecessarily compromising user privacy, but they speculate that it may even have been possible for a malicious actor to use such deep access to the database to move laterally into other DeepSeek systems and execute code in other parts of the company’s infrastructure.

“It's pretty shocking to build an AI model and leave the backdoor wide open from a security perspective,” says independent security researcher Jeremiah Fowler, who was not involved in the Wiz research but specializes in discovering exposed databases. “This type of operational data and the ability for anyone with an internet connection to access it and then manipulate it is a major risk to the organization and users.”
DeepSeek’s systems are seemingly designed to be very similar to OpenAI’s, the researchers told WIRED on Wednesday, perhaps to make it easier for new customers to transition to using DeepSeek without difficulty. The entire DeepSeek infrastructure appears to mimic OpenAI’s, they say, down to details like the format of the API keys.
The Wiz researchers say they don’t know if anyone else found the exposed database before they did, but it wouldn’t be surprising, given how simple it was to discover. Fowler, the independent researcher, also notes that the vulnerable database would have “definitely” been found quickly—if it wasn’t already—whether by other researchers or bad actors.
“I think this is a wake-up call for the wave of AI products and services we will see in the near future and how seriously they take cybersecurity,” he says.
DeepSeek has made a global impact over the past week, with millions of people flocking to the service and pushing it to the top of Apple’s and Google’s app stores. The resulting shock waves have wiped billions from the stock prices of US-based AI companies and spooked executives at firms across the country. On Wednesday, sources at OpenAI told the Financial Times that it was looking into DeepSeek’s alleged use of ChatGPT outputs to train its models.
At the same time, DeepSeek has increasingly drawn the attention of lawmakers and regulators around the world, who have started to ask questions about the company’s privacy policies, the impact of its censorship, and whether its Chinese ownership provides national security concerns.
Italy’s data protection regulator sent DeepSeek a series of questions asking about where it obtained its training data, if people’s personal information was included in this, and the firm’s legal grounding for using this information. As WIRED Italy reported, the DeepSeek app appeared to be unavailable to download within the country following the questions being sent.
DeepSeek’s Chinese connections also appear to be raising security concerns. At the end of last week, according to CNBC reporting, the US Navy issued an alert to its personnel warning them not to use DeepSeek’s services “in any capacity.” The email said Navy members of staff should not download, install, or use the model, and raised concerns of “potential security and ethical” issues.
However, despite the hype, the exposed data shows that almost all technologies relying on cloud-hosted databases can be vulnerable through simple security lapses. “AI is the new frontier in everything related to technology and cybersecurity,” Wiz’s Ohfeld says, “and still we see the same old vulnerabilities like databases left open on the internet.”

Không có file đính kèm.

Nguồn tham khảo

194

AI data AI pháp lý-quản trị-chủ quyền 2025-01-28 16:22:40

Cách chatbot DeepSeek của Trung Quốc kiểm duyệt các câu hỏi nhạy cảm về chính trị và lịch sử

- DeepSeek, ứng dụng chatbot của Trung Quốc đã vượt qua ChatGPT để trở thành ứng dụng miễn phí phổ biến nhất trên Apple Store tại Mỹ và Anh

- Sự ra mắt của DeepSeek đã khiến cổ phiếu công nghệ Mỹ giảm mạnh do khả năng hoạt động hiệu quả như ChatGPT nhưng tiêu tốn ít tài nguyên hơn

- AI tạo sinh của Trung Quốc bị cấm chứa nội dung vi phạm "giá trị xã hội chủ nghĩa cốt lõi" theo quy định của ủy ban tiêu chuẩn an ninh mạng quốc gia

- DeepSeek từ chối trả lời nhiều câu hỏi nhạy cảm về chính trị Trung Quốc như:
+ Sự kiện Thiên An Môn 1989
+ Vụ việc của Hồ Cẩm Đào năm 2022
+ So sánh Tập Cận Bình với gấu Pooh
+ Phong trào Ô Dù

- Người dùng đã tìm ra cách để DeepSeek trả lời bằng cách sử dụng ký tự đặc biệt hoặc mã leetspeak

- Về vấn đề Đài Loan, DeepSeek khẳng định đây là lãnh thổ không thể tách rời của Trung Quốc, trong khi ChatGPT và Gemini đưa ra góc nhìn đa chiều hơn

- Với câu hỏi về quần đảo Trường Sa, DeepSeek tuyên bố chủ quyền của Trung Quốc là "không thể tranh cãi"

- Khi đề cập đến Đạt Lai Lạt Ma, DeepSeek nhấn mạnh Tibet là "một phần không thể tách rời của Trung Quốc từ thời cổ đại"

📌 DeepSeek nổi lên như đối thủ cạnh tranh của ChatGPT với 1 triệu lượt tải trong tuần đầu ra mắt, nhưng bị giới hạn bởi kiểm duyệt chặt chẽ của Trung Quốc. Chatbot này từ chối trả lời hoặc đưa ra quan điểm một chiều về các vấn đề nhạy cảm như Thiên An Môn, Đài Loan và Tibet.

https://www.theguardian.com/technology/2025/jan/28/we-tried-out-deepseek-it-works-well-until-we-asked-it-about-tiananmen-square-and-taiwan

Không có file đính kèm.

Nguồn tham khảo

178

AI data 2025-01-28 15:26:30

Lộ video DeepSeek tự xóa câu trả lời về biến cố Thiên An Môn - AI Trung Quốc kiểm duyệt

- Deepseek, startup AI của Trung Quốc, tuyên bố phát triển được trợ lý AI có hiệu suất tương đương ChatGPT với chi phí thấp hơn nhiều

- Thông tin này khiến cổ phiếu của Nvidia giảm khoảng 15% trong sáng thứ Hai

- Khi người dùng hỏi về bức ảnh nổi tiếng "Tank Man" tại Thiên An Môn, DeepSeek bắt đầu trả lời nhưng sau đó nhanh chóng xóa và thay thế bằng thông báo lỗi chung

- Chatbot từ chối trả lời các câu hỏi liên quan đến:
+ Chỉ trích chính phủ Trung Quốc
+ Chủ tịch Tập Cận Bình
+ Vấn đề Đài Loan
+ Sự kiện Thiên An Môn 1989

- Một số người dùng cho biết có thể vượt qua kiểm duyệt bằng cách hỏi chi tiết về các sự kiện năm 1989

- OpenAI cũng đang có xu hướng nới lỏng một số quy tắc:
+ Gỡ bỏ ngôn ngữ ủng hộ "AI không thiên vị chính trị"
+ Điều chỉnh tài liệu để "tinh gọn" hơn

- Tổng thống Donald Trump vừa ký sắc lệnh yêu cầu ngành AI phát triển các hệ thống "không có thiên kiến ý thức hệ"

- Elon Musk thành lập xAI nhằm phát triển AI "chống woke" nhưng chưa đạt kết quả khả quan

📌 DeepSeek thể hiện rõ cơ chế kiểm duyệt AI tại Trung Quốc qua việc tự động xóa câu trả lời về Thiên An Môn, trong khi các nền tảng phương Tây như ChatGPT đang có xu hướng nới lỏng kiểm soát nội dung. Cổ phiếu Nvidia giảm 15% sau thông tin về hiệu suất của DeepSeek.

https://futurism.com/deepseek-ai-answer-tiananmen-square-massacre

Không có file đính kèm.

Nguồn tham khảo

AI market AI data 2025-01-22 20:40:11

Cạn kiệt tri thức nhân loại: Cuộc chiến dữ liệu AI bùng nổ, ai sẽ thống trị tương lai?

- Cuộc chiến về chip AI đang nhường chỗ cho cuộc chiến mới về dữ liệu, khi nguồn dữ liệu có sẵn để đào tạo các mô hình AI ngày càng khan hiếm.

- Đầu năm 2025, Elon Musk chỉ ra rằng các công ty AI đã cạn kiệt dữ liệu để đào tạo mô hình và đã "khai thác hết" tổng lượng kiến thức của con người.

- Năm 2023, một nhóm nghệ sĩ hình ảnh đã kiện Stability AI, MidJourney và DeviantArt vì sử dụng tác phẩm của họ để đào tạo AI mà không được sự đồng ý.

- Musk cáo buộc các công ty như OpenAI "cào" dữ liệu của Twitter (nay là X) mà không xin phép, dẫn đến việc X thắt chặt quy định về giá và quyền truy cập API.

- Reddit tăng giá API đáng kể, gây khó khăn cho các công ty như OpenAI và Anthropic vốn phụ thuộc vào nội dung người dùng tạo ra trên Reddit để đào tạo mô hình AI.

- Cuộc chiến dữ liệu tập trung vào việc thu thập các bộ dữ liệu phù hợp để đào tạo AI, thay vì sản xuất phần cứng mạnh mẽ nhất như trong cuộc chiến chip.

- Các công ty lớn như Google và Microsoft có thể vẫn mua được dữ liệu từ các gã khổng lồ tập trung, nhưng với chi phí cao. Các công ty nhỏ hơn gặp khó khăn trong việc tiếp cận bộ dữ liệu đào tạo.

- Harvard đã tiên phong trong nỗ lực xin sự đồng ý của người dùng để đóng góp dữ liệu, cung cấp bộ dữ liệu truy cập mở để sử dụng công khai.

- Dữ liệu tổng hợp đang được các công ty như Meta, Microsoft, Google và OpenAI sử dụng để tinh chỉnh mô hình, nhưng gặp phải vấn đề như "ảo giác" mô hình.

- Thu thập dữ liệu phi tập trung là một giải pháp tiềm năng, với quá trình được ghi lại trên blockchain để đảm bảo tính toàn vẹn và người đóng góp được khuyến khích bằng tiền điện tử.

- Chất lượng dữ liệu là yếu tố quan trọng để tránh mô hình thiên vị và không chính xác. Các phương pháp đảm bảo chất lượng bao gồm xác thực dữ liệu nghiêm ngặt, chiến lược giảm thiểu thiên vị và tuân thủ các tiêu chuẩn.

- Các quy định quốc gia về quyền riêng tư và an toàn dữ liệu cần cân bằng giữa quyền cá nhân, đổi mới công nghệ và an ninh quốc gia.

- Giải pháp phi tập trung có thể tạo ra một hệ sinh thái dữ liệu công bằng hơn, nơi cá nhân kiểm soát dữ liệu của mình, doanh nghiệp tiếp cận bộ dữ liệu có đạo đức và chất lượng cao, và sự đổi mới phát triển mà không ảnh hưởng đến quyền riêng tư hoặc bảo mật.

📌 Cuộc chiến dữ liệu AI đang nổi lên như thách thức mới, thay thế cuộc chiến chip. Khan hiếm dữ liệu đào tạo chất lượng và hợp pháp đe dọa sự phát triển AI. Giải pháp phi tập trung như blockchain và tiền điện tử có tiềm năng tạo ra hệ sinh thái dữ liệu công bằng và sáng tạo hơn cho tương lai AI.

https://www.forbes.com/sites/digital-assets/2025/01/20/from-chip-war-to-data-war-ais-next-battleground-explained/

Không có file đính kèm.

Nguồn tham khảo

103

AI data AI doanh nghiệp AI cybersecurity 2025-01-20 20:02:21

8,5% câu hỏi AI tạo sinh từ nhân viên chứa dữ liệu nhạy cảm của doanh nghiệp

- Nghiên cứu của Harmonic phân tích hàng ngàn câu hỏi nhập vào các nền tảng AI tạo sinh như Microsoft Copilot, OpenAI ChatGPT, Google Gemini, Anthropic's Clause và Perplexity.

- Kết quả cho thấy 8,5% câu hỏi chứa dữ liệu nhạy cảm, gây rủi ro bảo mật cho doanh nghiệp.

- Dữ liệu nhạy cảm được chia thành 5 loại chính:
- Dữ liệu khách hàng: chiếm 45,77%
- Dữ liệu nhân viên: 27%
- Thông tin pháp lý và tài chính: 14,88%
- Thông tin bảo mật: 6,88%
- Mã nguồn nhạy cảm: 5,64%

- Dữ liệu khách hàng bị rò rỉ nhiều nhất, bao gồm thông tin thanh toán, xác thực, hồ sơ khách hàng, giao dịch, thẻ tín dụng.

- Dữ liệu nhân viên bị lộ gồm đánh giá hiệu suất, quyết định tuyển dụng, thưởng, hồ sơ việc làm, thông tin cá nhân, lương.

- Thông tin pháp lý và tài chính bị lộ ít hơn nhưng gây rủi ro lớn, bao gồm chi tiết đường ống bán hàng, thông tin sáp nhập và mua lại, dữ liệu tài chính.

- Thông tin bảo mật và mã nguồn bảo mật chiếm tỷ lệ thấp nhưng đang tăng nhanh và gây lo ngại. Bao gồm kết quả kiểm tra thâm nhập, cấu hình mạng, kế hoạch sao lưu.

- Các chuyên gia cho rằng doanh nghiệp khó có thể từ bỏ AI tạo sinh vì lợi ích cạnh tranh.

- Stephen Kowski, CTO tại SlashNext Email Security+, cho rằng không áp dụng AI tạo sinh sẽ khiến doanh nghiệp mất lợi thế về hiệu quả, năng suất và đổi mới.

- Tuy nhiên, Kris Bondi, CEO của Mimoto, cho rằng sử dụng AI chỉ vì muốn dùng AI sẽ thất bại nếu không phục vụ nhu cầu thực sự.

- Để giảm thiểu rủi ro, Harmonic đề xuất các giải pháp:
- Triển khai hệ thống theo dõi đầu vào AI tạo sinh theo thời gian thực
- Xác định và sử dụng các gói trả phí cho công việc
- Giám sát toàn diện các công cụ AI
- Phân loại dữ liệu nhạy cảm
- Tạo và thực thi quy trình làm việc
- Đào tạo nhân viên về thực hành tốt nhất và rủi ro khi sử dụng AI tạo sinh

📌 Nghiên cứu cho thấy 8,5% câu hỏi AI tạo sinh chứa dữ liệu nhạy cảm, chủ yếu là thông tin khách hàng (45,77%) và nhân viên (27%). Doanh nghiệp cần cân bằng giữa lợi ích cạnh tranh và rủi ro bảo mật khi áp dụng AI, đồng thời triển khai các giải pháp quản trị AI hiệu quả.

https://www.darkreading.com/threat-intelligence/employees-sensitive-data-genai-prompts

Không có file đính kèm.

Nguồn tham khảo

128

AI pháp lý-quản trị-chủ quyền AI data 2025-01-16 17:21:50

WEF: Vượt qua sự phân mảnh - Tối ưu hóa AI vì lợi ích chung

- AI đang phát triển nhanh chóng nhưng sự phân mảnh và căng thẳng toàn cầu vẫn tồn tại.
- Để tận dụng tối đa lợi ích của AI, cần giảm sự phân mảnh dữ liệu trên toàn cầu và trong nội bộ các công ty.
- 3 bước quan trọng để giảm phân mảnh dữ liệu bao gồm:
1. Bắt đầu từ cấp độ công ty: Di cư đám mây giúp dữ liệu trở nên dễ tiếp cận cho AI và đảm bảo dữ liệu được cấu trúc và sạch sẽ.
2. Tạo ra hệ sinh thái công nghiệp: Các công ty cần hợp tác và chia sẻ thông tin để tối ưu hóa năng suất và khả năng đổi mới.
3. Xây dựng khung chính sách quốc tế: Giảm rào cản dữ liệu giữa các quốc gia và thiết lập quy định công nghệ đồng bộ giữa các cường quốc kinh tế.
- Sự tin tưởng là yếu tố quan trọng để giảm sự phân mảnh và thúc đẩy hợp tác giữa các công ty quốc tế.
- Xây dựng các "liên minh tin tưởng" sẽ khuyến khích chia sẻ dữ liệu thường xuyên hơn.
- 3 yếu tố cốt lõi bao gồm: di cư đám mây, mạng lưới kinh doanh và môi trường toàn cầu hài hòa dựa trên sự tin tưởng.
- Hành động theo từng bước sẽ làm giảm sự phân mảnh và tăng cường liên kết, từ đó tối đa hóa tiềm năng của AI cho nhiều đối tượng.

📌 Tối ưu hóa AI yêu cầu giảm sự phân mảnh dữ liệu toàn cầu, xây dựng hệ sinh thái công nghiệp và thiết lập khung chính sách quốc tế. Điều này sẽ tạo ra lợi ích lớn hơn cho các tổ chức và thúc đẩy sự phát triển bền vững.

https://www.weforum.org/stories/2025/01/ai-fragmentation-optimize-benefits/

#WEF

Không có file đính kèm.

Nguồn tham khảo

111

AI bản quyền AI data 2025-01-16 17:17:34

Meta bị kiện vì sử dụng nội dung có bản quyền để huấn luyện mô hình AI

- Meta đang đối mặt với một vụ kiện lớn vì sử dụng nội dung có bản quyền để huấn luyện các mô hình AI Llama, theo tài liệu nội bộ vừa được công bố.
- Trong một loạt các email nội bộ, Ahmad Al-Dahle, phó giám đốc AI tạo sinh của Meta, nhấn mạnh mục tiêu phát triển AI phải vượt qua GPT-4 của OpenAI.
- Một email từ Sony Theakanath, giám đốc sản phẩm của Meta, xác nhận công ty đã được phép sử dụng trang web vi phạm bản quyền LibGen để huấn luyện mô hình Llama3.
- Theakanath cho rằng LibGen là "cần thiết" để đạt được các số liệu tiên tiến, và cho biết OpenAI cũng như Mistral có thể đang sử dụng nguồn dữ liệu tương tự.
- Vụ kiện nhóm do tác giả Richard Kadrey và nghệ sĩ hài Sarah Silverman dẫn đầu cáo buộc Meta vi phạm luật sở hữu trí tuệ khi sử dụng nội dung trái phép.
- Meta lập luận rằng việc sử dụng nội dung có bản quyền trong dữ liệu huấn luyện nên được coi là hợp pháp theo quy định "sử dụng hợp lý".
- Một số biện pháp "giảm thiểu" đã được đề xuất để sử dụng LibGen, bao gồm việc loại bỏ dữ liệu bị đánh dấu rõ ràng là ăn cắp và không nhắc đến nguồn dữ liệu từ trang này.
- Meta đã thảo luận về các rủi ro về chính sách liên quan đến việc sử dụng LibGen, lo ngại rằng nó có thể ảnh hưởng đến vị thế đàm phán của công ty với các cơ quan quản lý.
- Nhiều tài liệu nội bộ đề xuất các cách để loại bỏ thông tin bản quyền trong dữ liệu từ LibGen, như xóa các tiêu đề bản quyền và danh sách tác giả.
- Dù Meta đã sử dụng nhiều loại tài liệu công khai từ năm 2007, cuộc đua với các đối thủ như OpenAI đang trở nên khốc liệt hơn bao giờ hết.
- Một số nhà lãnh đạo trong ngành cho rằng đã có "bức tường dữ liệu", tức là thiếu dữ liệu mới để huấn luyện các mô hình ngôn ngữ lớn, nhưng cũng có những tiếng nói phản bác điều này.

📌 Meta đang chịu sức ép lớn do vụ kiện liên quan đến việc sử dụng dữ liệu trái phép từ LibGen để huấn luyện AI, nhằm cạnh tranh với OpenAI. Các tài liệu cho thấy công ty đã thảo luận về việc che giấu thông tin bản quyền và chiến lược để đạt được kết quả tốt nhất trong lĩnh vực này.

https://www.theverge.com/2025/1/14/24343692/meta-lawsuit-copyright-lawsuit-llama-libgen

Không có file đính kèm.

Nguồn tham khảo

213

AI data 2025-01-13 20:43:46

Cạn kiệt dữ liệu thật - Các công ty công nghệ đang đặt cược vào dữ liệu tổng hợp để huấn luyện AI

- Elon Musk tuyên bố nguồn dữ liệu do con người tạo ra để huấn luyện các mô hình AI như ChatGPT đã cạn kiệt, dự báo trước đó cho thấy dữ liệu thật sẽ hết trong 2-8 năm tới

- Lý do chính: con người không thể tạo ra dữ liệu mới (văn bản, video, hình ảnh) đủ nhanh để đáp ứng nhu cầu khổng lồ của các mô hình AI

- Dữ liệu thật có những hạn chế:
+ Chứa lỗi chính tả và nội dung không nhất quán
+ Có thể mang định kiến cao
+ Tốn 80% thời gian để xử lý và chuẩn bị
+ Nguồn cung đang ngày càng khan hiếm

- Dữ liệu tổng hợp là giải pháp thay thế:
+ Do thuật toán tạo ra như văn bản từ ChatGPT hay hình ảnh từ DALL-E
+ Tiết kiệm chi phí và nhanh hơn
+ Giải quyết vấn đề quyền riêng tư
+ Nguồn cung không giới hạn

- Thách thức của dữ liệu tổng hợp:
+ Mô hình AI có thể "sụp đổ" khi phụ thuộc quá nhiều vào dữ liệu tổng hợp
+ Tạo ra nhiều "ảo giác" - thông tin sai lệch
+ Có thể quá đơn giản, thiếu chi tiết và sự đa dạng

- Giải pháp đề xuất:
+ Cần có hệ thống theo dõi và xác thực dữ liệu huấn luyện AI toàn cầu
+ Trang bị hệ thống theo dõi metadata
+ Duy trì giám sát của con người trong quá trình huấn luyện
+ Sử dụng thuật toán AI để kiểm tra và xác minh dữ liệu

📌 Dữ liệu thật dự kiến cạn kiệt trong 2-8 năm tới. Gartner dự báo đến năm 2030, dữ liệu tổng hợp sẽ trở thành nguồn dữ liệu chính để huấn luyện AI. Để thành công, cần có hệ thống theo dõi toàn cầu và duy trì sự giám sát của con người.

https://theconversation.com/tech-companies-are-turning-to-synthetic-data-to-train-ai-models-but-theres-a-hidden-cost-246248

Không có file đính kèm.

Nguồn tham khảo

AI data Semi-Cloud-DC-Green 2025-01-09 11:00:59

Mô hình AI tương lai có thể không cần trung tâm dữ liệu khổng lồ để đào tạo

- Mô hình AI hiện tại thường yêu cầu trung tâm dữ liệu lớn với hàng chục ngàn GPU. Sự cạnh tranh giữa các tỷ phú công nghệ như Elon Musk và Mark Zuckerberg đang diễn ra mạnh mẽ.
- Musk sở hữu khoảng 100.000 GPU trong một trung tâm dữ liệu và dự kiến mua thêm 200.000, trong khi Zuckerberg có kế hoạch đạt 350.000 GPU.
- Việc tăng số lượng GPU không đảm bảo hiệu suất tốt hơn do sự phức tạp trong việc đồng bộ hóa dữ liệu và thời gian xử lý không hiệu quả.
- Các nhà khoa học máy tính đang tìm kiếm giải pháp ít tốn kém hơn cho việc đào tạo mô hình AI trong tương lai, có thể bao gồm việc phân phối đào tạo giữa các trung tâm dữ liệu nhỏ.
- Phương pháp DiLoCo, được phát triển bởi Arthur Douillard từ Google DeepMind, cho phép đào tạo trên nhiều trung tâm dữ liệu mà không cần liên kết chặt chẽ giữa các GPU.
- DiLoCo giảm tải thông tin chia sẻ 500 lần giữa các "hòn đảo" trung tâm dữ liệu, cải thiện hiệu suất đào tạo.
- Mặc dù mô hình tập trung có thể đạt được hiệu suất cao hơn, nhưng mô hình phân tán thể hiện khả năng tổng quát tốt hơn khi được thử nghiệm với dữ liệu chưa gặp bao giờ.
- Vincent Weisser từ Prime Intellect đã áp dụng DiLoCo để đào tạo mô hình Intellect-1 với 10 tỷ thông số trên 30 cụm GPU ở 8 thành phố trên 3 lục địa.
- Trong các thử nghiệm, cụm GPU hoạt động hiệu quả 83% thời gian, tốt hơn nhiều so với mô hình tập trung.
- Prime Intellect đã sử dụng mỗi cụm gồm 8 GPU và chưa đến 14 cụm hoạt động cùng một lúc, cho thấy sự khả thi của mô hình phân tán ngay cả khi quy mô nhỏ.
- Một trong những mục tiêu chính của việc phân phối đào tạo là làm giảm sự tập trung quyền lực trong lĩnh vực AI, trong khi vẫn giữ chi phí thấp hơn so với các trung tâm dữ liệu lớn.
- Một viễn cảnh tương lai là việc sử dụng máy tính tiêu dùng như iPhone để tham gia vào quá trình đào tạo AI, mặc dù điều này đòi hỏi các bước đột phá về công nghệ.

📌 Mô hình AI trong tương lai có thể không cần trung tâm dữ liệu khổng lồ, thay vào đó là phương pháp phân phối đào tạo giữa các trung tâm nhỏ góp phần giảm chi phí và cải thiện hiệu suất. Các nghiên cứu như DiLoCo cho thấy tiềm năng của phương pháp này.

https://www.economist.com/science-and-technology/2025/01/08/training-ai-models-might-not-need-enormous-data-centres

Huấn luyện các mô hình AI có thể không cần trung tâm dữ liệu khổng lồ

Cuối cùng, các mô hình có thể được huấn luyện mà không cần bất kỳ phần cứng chuyên dụng nào
Một mạng lưới trái tim pixel
Minh họa: Mariaelena Caputi
Ngày 8 tháng 1 năm 2025

Chia sẻ
Từng có thời, những người giàu nhất thế giới thi đua về du thuyền, máy bay phản lực và đảo tư nhân. Giờ đây, cuộc cạnh tranh "đo lường sức mạnh" được chuyển sang các cụm máy tính. Cách đây chỉ 18 tháng, OpenAI đã huấn luyện GPT-4, khi đó là mô hình ngôn ngữ lớn (LLM) tiên tiến nhất, trên một mạng lưới khoảng 25.000 bộ xử lý đồ họa (GPU) tiên tiến nhất của Nvidia. Hiện tại, Elon Musk và Mark Zuckerberg, lần lượt là giám đốc của X và Meta, đang “khoe” số chip của họ: Musk tuyên bố sở hữu 100.000 GPU trong một trung tâm dữ liệu và dự định mua thêm 200.000. Zuckerberg nói rằng anh sẽ đạt 350.000 GPU.

Cuộc đua xây dựng các cụm máy tính lớn hơn để phát triển các mô hình trí tuệ nhân tạo (AI) ngày càng mạnh mẽ không thể kéo dài mãi. Mỗi chip bổ sung không chỉ tăng khả năng xử lý mà còn làm tăng gánh nặng tổ chức để giữ cho toàn bộ cụm máy hoạt động đồng bộ. Càng nhiều chip, càng tốn thời gian để các chip trong trung tâm dữ liệu trao đổi dữ liệu hơn là làm công việc hữu ích. Đơn giản chỉ tăng số lượng GPU sẽ dẫn đến lợi ích giảm dần.

Do đó, các nhà khoa học máy tính đang tìm kiếm những cách thông minh hơn, ít tốn tài nguyên hơn để huấn luyện các mô hình AI trong tương lai. Giải pháp có thể là từ bỏ các cụm máy tính tùy chỉnh khổng lồ (và chi phí đầu tư ban đầu liên quan) hoàn toàn, thay vào đó phân phối nhiệm vụ huấn luyện giữa nhiều trung tâm dữ liệu nhỏ hơn. Một số chuyên gia cho rằng, đây có thể là bước đầu tiên hướng tới một mục tiêu tham vọng hơn: huấn luyện các mô hình AI mà không cần bất kỳ phần cứng chuyên dụng nào.

Việc huấn luyện một hệ thống AI hiện đại bao gồm việc nạp dữ liệu—ví dụ như các câu văn hoặc cấu trúc của một protein—với một số phần bị ẩn đi. Mô hình sẽ đoán nội dung của các phần bị ẩn. Nếu đoán sai, mô hình sẽ được tinh chỉnh qua một quy trình toán học gọi là “lan truyền ngược” (backpropagation) để trong lần dự đoán tiếp theo, kết quả sẽ gần đúng hơn một chút.

Tôi biết bạn đang gặp rắc rối
Vấn đề xuất hiện khi muốn làm việc “song song”—để 2, hoặc 200.000 GPU thực hiện lan truyền ngược cùng lúc. Sau mỗi bước, các chip phải chia sẻ dữ liệu về các thay đổi mà chúng đã thực hiện. Nếu không, sẽ không có một lần huấn luyện duy nhất, mà sẽ có 200.000 chip huấn luyện 200.000 mô hình riêng lẻ. Bước này, gọi là “lưu trữ tạm thời” (checkpointing), có thể trở nên phức tạp rất nhanh. Chỉ có một liên kết giữa 2 chip, nhưng có tới 190 liên kết giữa 20 chip và gần 20 tỷ liên kết đối với 200.000 chip. Thời gian cần để lưu trữ tạm thời tăng lên tương ứng. Trong các đợt huấn luyện lớn, khoảng một nửa thời gian thường được dành cho bước này.

Tất cả thời gian bị lãng phí đó đã khiến Arthur Douillard, một kỹ sư tại Google DeepMind, nảy ra một ý tưởng. Tại sao không giảm bớt số lần lưu trữ tạm thời? Vào cuối năm 2023, anh cùng các đồng nghiệp đã công bố một phương pháp mang tên “Distributed Low-Communication Training of Language Models” (Huấn luyện mô hình ngôn ngữ phân tán với giao tiếp thấp), hay DiLoCo. Thay vì huấn luyện trên 100.000 GPU, tất cả đều giao tiếp với nhau ở mọi bước, DiLoCo mô tả cách phân phối việc huấn luyện trên các “đảo” khác nhau, mỗi đảo vẫn là một trung tâm dữ liệu cỡ lớn. Trong nội bộ các đảo, lưu trữ tạm thời vẫn diễn ra như bình thường, nhưng giữa các đảo, gánh nặng giao tiếp giảm tới 500 lần.

Có những sự đánh đổi. Các mô hình được huấn luyện theo cách này dường như khó đạt được hiệu năng đỉnh như các mô hình được huấn luyện trong các trung tâm dữ liệu đơn lẻ. Nhưng điều thú vị là, tác động này dường như chỉ tồn tại khi các mô hình được đánh giá trên các nhiệm vụ mà chúng đã được huấn luyện: dự đoán dữ liệu bị thiếu. Khi được yêu cầu thực hiện các dự đoán chưa từng được đưa ra trước đó, các mô hình dường như tổng quát hóa tốt hơn. Khi yêu cầu trả lời một câu hỏi lý luận có dạng không nằm trong dữ liệu huấn luyện, chúng có thể vượt trội so với các mô hình được huấn luyện theo cách truyền thống. Điều này có thể là do mỗi đảo tính toán có sự tự do nhất định để phát triển theo hướng riêng của nó giữa các bước lưu trữ, trước khi bị kéo trở lại nhiệm vụ. Giống như một nhóm sinh viên đại học chăm chỉ tự lập nhóm nghiên cứu thay vì chỉ tham dự các bài giảng chung, kết quả cuối cùng có thể kém tập trung vào nhiệm vụ cụ thể, nhưng lại có trải nghiệm rộng hơn.

Vincent Weisser, người sáng lập Prime Intellect, một phòng thí nghiệm AI mã nguồn mở, đã áp dụng DiLoCo và phát triển nó. Vào tháng 11 năm 2024, nhóm của ông hoàn thành việc huấn luyện Intellect-1, một mô hình ngôn ngữ lớn với 10 tỷ tham số, có thể so sánh với Llama 2 được huấn luyện tập trung của Meta (ra mắt năm 2023).

Nhóm của Weisser đã tạo OpenDiLoCo, một phiên bản chỉnh sửa nhẹ từ bản gốc của Douillard, và triển khai để huấn luyện một mô hình mới bằng cách sử dụng 30 cụm GPU tại 8 thành phố trên 3 châu lục. Trong các thử nghiệm, các GPU hoạt động 83% thời gian—so với 100% trong kịch bản cơ bản khi tất cả GPU nằm trong cùng một tòa nhà. Khi việc huấn luyện giới hạn ở các trung tâm dữ liệu tại Mỹ, chúng hoạt động tới 96% thời gian. Thay vì lưu trữ ở mỗi bước huấn luyện, cách tiếp cận của Weisser chỉ lưu trữ mỗi 500 bước. Và thay vì chia sẻ toàn bộ thông tin về mỗi thay đổi, cách tiếp cận này “lượng tử hóa” các thay đổi, loại bỏ ba phần tư dữ liệu ít quan trọng nhất.

Đối với các phòng thí nghiệm tiên tiến nhất, với các trung tâm dữ liệu đơn lẻ đã được xây dựng, chưa có lý do cấp bách để chuyển sang phương pháp huấn luyện phân tán. Nhưng theo thời gian, Douillard cho rằng cách tiếp cận này sẽ trở thành tiêu chuẩn. Những lợi thế là rõ ràng, và những hạn chế—ít nhất là theo các đợt huấn luyện nhỏ đã hoàn thành đến nay—dường như khá ít.

Đối với một phòng thí nghiệm mã nguồn mở như Prime Intellect, cách tiếp cận phân tán còn mang lại lợi ích khác. Các trung tâm dữ liệu đủ lớn để huấn luyện một mô hình 10 tỷ tham số rất hiếm. Sự khan hiếm này đẩy giá truy cập lên cao—nếu chúng thậm chí còn có sẵn trên thị trường, thay vì bị các công ty sở hữu chúng tích trữ. Tuy nhiên, các cụm nhỏ hơn lại dễ tiếp cận hơn. Mỗi cụm GPU trong số 30 cụm Prime Intellect sử dụng chỉ có 8 GPU, với tối đa 14 cụm trực tuyến tại bất kỳ thời điểm nào. Tài nguyên này nhỏ hơn gấp 1.000 lần so với các trung tâm dữ liệu của các phòng thí nghiệm hàng đầu, nhưng cả Weisser lẫn Douillard đều không thấy lý do gì cách tiếp cận của họ không thể mở rộng quy mô.

Đối với Weisser, động lực phân tán việc huấn luyện cũng là để phân tán quyền lực—không chỉ theo nghĩa điện năng. “Điều cực kỳ quan trọng là điều này không nằm trong tay một quốc gia hay một công ty duy nhất,” ông nói. Tuy nhiên, phương pháp này không hoàn toàn miễn phí—một cụm GPU 8 chiếc mà ông sử dụng có giá 600.000 USD; tổng mạng lưới mà Prime Intellect triển khai sẽ có giá 18 triệu USD. Nhưng công trình của ông là một dấu hiệu, ít nhất, rằng việc huấn luyện các mô hình AI có khả năng không cần phải tiêu tốn hàng tỷ USD.

Và nếu chi phí có thể giảm thêm nữa thì sao? Giấc mơ của các nhà phát triển theo đuổi AI thực sự phi tập trung là loại bỏ nhu cầu về chip huấn luyện chuyên dụng. Tính theo teraflop, một con số đo lường số lượng thao tác mà một con chip có thể thực hiện trong một giây, một trong những con chip mạnh nhất của Nvidia mạnh hơn khoảng 300 chiếc iPhone cao cấp. Nhưng trên thế giới có nhiều iPhone hơn là GPU. Điều gì sẽ xảy ra nếu chúng (và các máy tính tiêu dùng khác) có thể được đưa vào làm việc, thực hiện các đợt huấn luyện khi chủ nhân đang ngủ?

Sự đánh đổi sẽ rất lớn. Sự dễ dàng trong việc làm việc với các con chip hiệu năng cao là, ngay cả khi được phân phối khắp thế giới, chúng vẫn là cùng một kiểu chip hoạt động ở cùng một tốc độ. Điều này sẽ không còn nữa. Tệ hơn, không chỉ tiến trình huấn luyện cần được tập hợp và phân phối lại ở mỗi bước lưu trữ, mà dữ liệu huấn luyện cũng phải như vậy, bởi vì phần cứng tiêu dùng điển hình không thể lưu trữ các terabyte dữ liệu cần thiết cho một mô hình ngôn ngữ lớn tiên tiến. Những đột phá tính toán mới sẽ cần thiết, Nic Lane từ Flower, một trong những phòng thí nghiệm đang cố gắng hiện thực hóa cách tiếp cận này, cho biết.

Tuy nhiên, lợi ích có thể cộng dồn, với cách tiếp cận này dẫn đến các mô hình tốt hơn, Lane nhận định. Cũng giống như việc huấn luyện phân tán giúp mô hình tổng quát hóa tốt hơn, các mô hình được huấn luyện trên các tập dữ liệu “chia nhỏ”, nơi chỉ có một phần dữ liệu huấn luyện được cung cấp cho mỗi GPU, có thể hoạt động tốt hơn khi gặp phải các đầu vào bất ngờ trong thế giới thực. Tất cả điều này có thể buộc các tỷ phú phải tìm thứ khác để tranh đua. ■

Training AI models might not need enormous data centres
Eventually, models could be trained without any dedicated hardware at all
A network of pixelated hearts
Illustration: Mariaelena Caputi
Jan 8th 2025

Share
Once, the world’s richest men competed over yachts, jets and private islands. Now, the size-measuring contest of choice is clusters. Just 18 months ago, OpenAI trained GPT-4, its then state-of-the-art large language model (LLM), on a network of around 25,000 then state-of-the-art graphics processing units (GPUs) made by Nvidia. Now Elon Musk and Mark Zuckerberg, bosses of X and Meta respectively, are waving their chips in the air: Mr Musk says he has 100,000 GPUs in one data centre and plans to buy 200,000. Mr Zuckerberg says he’ll get 350,000.
This contest to build ever-bigger computing clusters for ever-more-powerful artificial-intelligence (AI) models cannot continue for ever. Each extra chip adds not only processing power but also to the organisational burden of keeping the whole cluster synchronised. The more chips there are, the more time the data centre’s chips will spend shuttling data around rather than doing useful work. Simply increasing the number of GPUs will provide diminishing returns.
Computer scientists are therefore looking for cleverer, less resource-intensive ways to train future AI models. The solution could lie with ditching the enormous bespoke computing clusters (and their associated upfront costs) altogether and, instead, distributing the task of training between many smaller data centres. This, say some experts, could be the first step towards an even more ambitious goal—training AI models without the need for any dedicated hardware at all.
Training a modern AI system involves ingesting data—sentences, say, or the structure of a protein—that has had some sections hidden. The model makes a guess at what the hidden sections might contain. If it makes the wrong guess, the model is tweaked by a mathematical process called backpropagation so that, the next time it tries the same prediction, it will be infinitesimally closer to the correct answer.
I knew you were trouble
The problems come when you want to be able to work “in parallel”—to have two, or 200,000 GPUs working on backpropagation at the same time. After each step, the chips share data about the changes they have made. If they didn’t, you wouldn’t have a single training run, you’d have 200,000 chips training 200,000 models on their own. That step, called “checkpointing”, can get complicated fast. There is only one link between two chips, but 190 between 20 chips and almost 20bn for 200,000 chips. The time it takes to checkpoint grows commensurately. For big training runs, around half the time can often be spent on checkpointing.
All that wasted time gave Arthur Douillard, an engineer at Google DeepMind, an idea. Why not just do fewer checkpoints? In late 2023, he and his colleagues published a method for “Distributed Low-Communication Training of Language Models”, or DiLoCo. Rather than training on 100,000 GPUs, all of which speak to each other at every step, DiLoCo describes how to distribute training across different “islands”, each still a sizeable data centre. Within the islands, checkpointing continues as normal, but across them, the communication burden drops 500-fold.
There are trade-offs. Models trained this way seem to struggle to hit the same peak performance as those trained in monolithic data centres. But interestingly, that impact seems to exist only when the models are rated on the same tasks they are trained on: predicting the missing data.
When they are turned to predictions that they’ve never been asked to make before, they seem to generalise better. Ask them to answer a reasoning question in a form not in the training data, and pound for pound they may outclass the traditionally trained models. That could be an artefact of each island of compute being slightly freer to spiral off in its own direction between checkpointing runs, when they get hauled back on task. Like a cohort of studious undergraduates forming their own research groups rather than being lectured to en masse, the end result is slightly less focused on the task at hand, but with a much wider experience as a result.
Vincent Weisser, founder of Prime Intellect, an open-source AI lab, has taken DiLoCo and run with it. In November 2024, his team completed training on Intellect-1, a 10bn-parameter LLM comparable to Meta’s centrally trained Llama 2 (released in 2023).
Mr Weisser’s team built OpenDiLoCo, a lightly modified version of Mr Douillard’s original, and set it to work training a new model using 30 GPU clusters in eight cities across three continents. In his trials, the GPUs ended up actively working for 83% of the time—that’s compared with 100% in the baseline scenario, in which all the GPUs were in the same building. When training was limited to data centres in America, they were actively working for 96% of the time. Instead of checkpointing every training step, Mr Weisser’s approach checkpoints only every 500 steps. And instead of sharing all the information about every change, it “quantises” the changes, dropping the least significant three-quarters of the data.
For the most advanced labs, with monolithic data centres already built, there is no pressing reason to make the switch to distributed training yet. But, given time, Mr Douillard thinks that his approach will become the norm. The advantages are clear, and the downsides—at least, those illustrated by the small training runs that have been completed so far—seem to be fairly limited.
For an open-source lab like Prime Intellect, the distributed approach has other benefits. Data centres big enough to train a 10bn-parameter model are few and far between. That scarcity drives up prices to access their compute—if it is even available on the open market at all, rather than hoarded by the companies that have built them. Smaller clusters are readily available, however. Each of the 30 clusters Prime Intellect used was a rack of just eight GPUs, with up to 14 of the clusters online at any given time. This resource is a thousand times smaller than data centres used by frontier labs, but neither Mr Weisser nor Mr Douillard see any reason why their approach would not scale.
For Mr Weisser, the motivation for distributing training is also to distribute power—and not just in the electrical sense. “It’s extremely important that it’s not in the hands of one nation, one corporation,” he says. The approach is hardly a free-for-all, though—one of the eight-GPU clusters he used in his training run costs $600,000; the total network deployed by Prime Intellect would cost $18m to buy. But his work is a sign, at least, that training capable AI models does not have to cost billions of dollars.
And what if the costs could drop further still? The dream for developers pursuing truly decentralised AI is to drop the need for purpose-built training chips entirely. Measured in teraflops, a count of how many operations a chip can do in a second, one of Nvidia’s most capable chips is roughly as powerful as 300 or so top-end iPhones. But there are a lot more iPhones in the world than GPUs. What if they (and other consumer computers) could all be put to work, churning through training runs while their owners sleep?
The trade-offs would be enormous. The ease of working with high-performance chips is that, even when distributed around the world, they are at least the same model operating at the same speed. That would be lost. Worse, not only would the training progress need to be aggregated and redistributed at each checkpoint step, so would the training data itself, since typical consumer hardware is unable to store the terabytes of data that goes into a cutting-edge LLM. New computing breakthroughs would be required, says Nic Lane of Flower, one of the labs trying to make that approach a reality.
The gains, though, could add up, with the approach leading to better models, reckons Mr Lane. In the same way that distributed training makes models better at generalising, models trained on “sharded” datasets, where only portions of the training data are given to each GPU, could perform better when confronted with unexpected input in the real world. All of which would leave the billionaires needing something else to compete over. ■

Không có file đính kèm.

Nguồn tham khảo

231

AI data AI mở-nguồn mở 2024-12-28 09:27:50

Deepseek v3 từ Trung quốc, nhận nhầm mình là ChatGPT

- Deepseek, phòng thí nghiệm AI từ Trung quốc vừa phát hành mô hình AI nguồn mở Deepseek v3, vượt trội so với nhiều đối thủ trong các bài kiểm tra phổ biến

- Mô hình này thể hiện hiện tượng kỳ lạ khi tự nhận mình là Chatgpt và khẳng định là phiên bản của GPT-4 được phát hành năm 2023

- Trong 8 lần thử nghiệm, Deepseek v3 tự nhận là Chatgpt (v4) 5 lần và chỉ nhận đúng là Deepseek v3 3 lần

- Khi được hỏi về API của Deepseek, mô hình này lại đưa ra hướng dẫn sử dụng API của OpenAI

- Mike Cook, nghiên cứu viên tại King's College London, cho rằng hiện tượng này có thể do mô hình được huấn luyện trên dữ liệu có chứa phản hồi từ Chatgpt

- Điều khoản dịch vụ của OpenAI cấm người dùng sử dụng đầu ra để phát triển các mô hình cạnh tranh

- Sam Altman, CEO OpenAI, đã đăng bài chỉ trích: "Sao chép điều gì đó đã hoạt động thì tương đối dễ. Làm điều mới mẻ, rủi ro và khó khăn khi không biết liệu nó có hoạt động hay không mới thực sự khó"

- Theo ước tính, 90% nội dung web có thể được tạo bởi AI vào năm 2026

- Heidy Khlaaf, nhà khoa học trưởng về AI tại AI Now Institute, cho rằng việc "chưng cất" kiến thức từ mô hình hiện có có thể giúp tiết kiệm chi phí cho các nhà phát triển

📌 Deepseek v3 từ Trung quốc cho thấy vấn đề nghiêm trọng về dữ liệu huấn luyện AI khi tự nhận mình là Chatgpt trong 5/8 lần thử nghiệm. Hiện tượng này cảnh báo về nguy cơ 90% nội dung web sẽ do AI tạo ra vào 2026, ảnh hưởng đến chất lượng dữ liệu huấn luyện trong tương lai.

https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/

Không có file đính kèm.

Nguồn tham khảo

141

AI mở-nguồn mở AI data 2024-12-22 05:30:38

Hugging Face ra mắt FineMath - kho dữ liệu 50 tỷ token định hình lại cách máy tính học toán

- Hugging Face vừa công bố FineMath - bộ dữ liệu nguồn mở toàn diện nhằm cải thiện khả năng tiếp cận nội dung toán học chất lượng cao cho người học và nhà nghiên cứu

- FineMath gồm 2 phiên bản chính:
+ FineMath-3+: 34 tỷ token từ 21,4 triệu tài liệu, định dạng Markdown và LaTeX
+ FineMath-4+: 9,6 tỷ token từ 6,7 triệu tài liệu, tập trung vào nội dung chất lượng cao với giải thích chi tiết

- Quy trình tạo FineMath gồm nhiều giai đoạn:
+ Trích xuất dữ liệu thô từ CommonCrawl sử dụng công cụ Resiliparse
+ Đánh giá bằng bộ phân loại tùy chỉnh dựa trên Llama-3.1-70B-Instruct
+ Loại bỏ trùng lặp và đánh giá đa ngôn ngữ
+ Khắc phục vấn đề lọc ký hiệu LaTeX không chính xác

- Hiệu suất vượt trội trên các benchmark:
+ Cải thiện đáng kể về khả năng lập luận và độ chính xác toán học
+ Kết hợp với InfiMM-WebMath tạo bộ dữ liệu khoảng 50 tỷ token
+ Tích hợp dễ dàng vào các pipeline học máy

- Kế hoạch phát triển trong tương lai:
+ Mở rộng hỗ trợ ngôn ngữ ngoài tiếng Anh
+ Cải thiện trích xuất và bảo toàn ký hiệu toán học
+ Phát triển các chỉ số đánh giá chất lượng nâng cao
+ Tạo các tập con chuyên biệt cho từng cấp độ giáo dục

📌 Hugging Face đã tạo bước đột phá với FineMath - bộ dữ liệu nguồn mở 50 tỷ token cho AI học toán. Dataset này bao gồm 34 tỷ token từ FineMath-3+ và 9,6 tỷ token từ FineMath-4+, hỗ trợ cải thiện hiệu suất trên các benchmark như GSM8k và MATH.

https://www.marktechpost.com/2024/12/20/hugging-face-releases-finemath-the-ultimate-open-math-pre-training-dataset-with-50b-tokens/

Không có file đính kèm.

Nguồn tham khảo

133

AI pháp lý-quản trị-chủ quyền AI data 2024-12-21 09:25:44

Ủy ban bảo vệ dữ liệu châu Âu (EDPB) đã công bố ý kiến về bảo vệ dữ liệu trong mô hình AI

- Ủy ban bảo vệ dữ liệu châu Âu (EDPB) đã công bố ý kiến về bảo vệ dữ liệu trong mô hình AI, đáp ứng yêu cầu từ Ủy ban bảo vệ dữ liệu Ireland.

- Hướng dẫn giải quyết 3 vấn đề chính: khi nào mô hình AI được coi là ẩn danh, khi nào công ty có thể xử lý dữ liệu cá nhân mà không cần sự đồng ý, và hậu quả của việc xử lý dữ liệu trái phép trong quá trình phát triển AI.

- Mô hình AI được coi là ẩn danh nếu khả năng truy nguyên dữ liệu cá nhân được sử dụng để đào tạo là "không đáng kể". Các biện pháp để chứng minh tính ẩn danh bao gồm: hạn chế thu thập dữ liệu cá nhân, áp dụng biện pháp kỹ thuật mạnh để ngăn tái nhận dạng, đảm bảo dữ liệu được ẩn danh đầy đủ.

- Công ty có thể xử lý dữ liệu cá nhân mà không cần sự đồng ý dựa trên cơ sở "lợi ích hợp pháp" nếu đáp ứng 3 tiêu chí: tính hợp pháp, tính cần thiết và cân bằng lợi ích. Các biện pháp giảm thiểu tác động bao gồm: biện pháp bảo vệ kỹ thuật, giả danh hóa, che giấu dữ liệu, cơ chế thực thi quyền của chủ thể dữ liệu.

- Hậu quả của việc xử lý dữ liệu trái phép trong phát triển AI sẽ ảnh hưởng đến cách mô hình được phép hoạt động. Cơ quan có thẩm quyền sẽ đánh giá từng trường hợp cụ thể.

- Hướng dẫn này rất quan trọng đối với các công ty công nghệ vì có thể ảnh hưởng đến cách thực thi luật bảo mật ở EU. Vi phạm GDPR có thể bị phạt tới 20 triệu euro hoặc 4% doanh thu hàng năm.

- Nhiều công ty AI đã gặp khó khăn trong việc tuân thủ GDPR do cần lượng lớn dữ liệu cá nhân để đào tạo mô hình. Các vụ việc gần đây liên quan đến OpenAI, Meta, Clearview AI và X cho thấy những thách thức này.

📌 EDPB đưa ra hướng dẫn mới về bảo vệ dữ liệu trong AI, giải quyết vấn đề ẩn danh, xử lý dữ liệu không cần đồng ý và hậu quả xử lý trái phép. Công ty có thể bị phạt tới 20 triệu euro nếu vi phạm. Nhiều doanh nghiệp lớn đã gặp khó khăn tuân thủ.

https://www.techrepublic.com/article/eu-guidance-ai-privacy-laws/

Không có file đính kèm.

Nguồn tham khảo

145

AI data AI minh bạch 2024-12-21 09:08:58

Báo cáo của ODI năm 2024: Chỉ sổ minh bạch dữ liệu AI (AIDTI) của 22 mô hình

Báo cáo của Open Data Institute (ODI) năm 2024 tập trung vào việc xây dựng chỉ số AI Data Transparency Index (AIDTI) để đánh giá mức độ minh bạch dữ liệu trong phát triển AI.
Chỉ số AIDTI dựa trên nhu cầu minh bạch từ hai nhóm chính: các nhà phát triển và các nhà nghiên cứu AI có trách nhiệm (RAI). Báo cáo đánh giá 7 khía cạnh minh bạch, bao gồm nguồn gốc dữ liệu, phương pháp thu thập, tiền xử lý, tác động môi trường, và chuỗi cung ứng nhân sự.
Trong số 22 mô hình AI được đánh giá:
- 5 mô hình đạt mức "cao" về minh bạch.
- 6 mô hình đạt mức "trung bình".
- 11 mô hình chỉ đạt mức "thấp".
Báo cáo chỉ ra rằng các mô hình có mức minh bạch cao thường công bố rõ ràng về nguồn dữ liệu và áp dụng các tiêu chuẩn nhất quán như thẻ mô hình (model cards) từ Hugging Face.
Các lĩnh vực bị đánh giá thấp bao gồm thông tin về chuỗi cung ứng nhân sự và việc sử dụng dữ liệu cá nhân hoặc bản quyền trong quá trình đào tạo.
Chỉ 9 trong số 22 mô hình cung cấp thông tin về tác động môi trường, mặc dù đây là vấn đề ngày càng nhận được sự quan tâm.
Các nhà phát triển gặp khó khăn trong việc cung cấp thông tin toàn diện do chi phí cao và sự phức tạp của chuỗi cung ứng AI toàn cầu.
Báo cáo khuyến nghị:
- Xây dựng tiêu chuẩn vàng để đáp ứng nhu cầu đa dạng của người dùng.
- Tiếp tục thúc đẩy quy định và chuẩn hóa yêu cầu minh bạch.
- Mở rộng nghiên cứu và cải thiện chất lượng thông tin minh bạch.
- Tăng cường áp dụng minh bạch không chỉ trong phát triển mà cả triển khai và giám sát hệ thống AI.
Báo cáo cũng hướng tới việc tạo ra hệ thống minh bạch tương tác, hỗ trợ dữ liệu đọc máy, giúp các bên liên quan dễ dàng truy cập thông tin minh bạch hơn.

📌 ODI nhấn mạnh tính cấp thiết của minh bạch dữ liệu AI để đảm bảo trách nhiệm và tin cậy trong hệ sinh thái AI. Chỉ số AIDTI đánh giá 22 mô hình, tiết lộ nhiều thiếu sót và đề xuất cải thiện qua nghiên cứu, tiêu chuẩn hóa, và áp dụng hệ thống hỗ trợ tương tác.

https://theodi.cdn.ngo/media/documents/Building_a_user-centric_AI_data_transparency_approach.pdf

Không có file đính kèm.

Nguồn tham khảo

164

AI data 2024-12-19 07:33:36

MIT: 70% dữ liệu video AI đến từ một nguồn duy nhất, 90% dữ liệu AI đến từ phương Tây

• Nhóm Data Provenance Initiative, bao gồm hơn 50 nhà nghiên cứu từ học viện và công nghiệp, đã kiểm tra gần 4.000 bộ dữ liệu công khai trải dài trên 600 ngôn ngữ, 67 quốc gia trong 3 thập kỷ.

• Đầu những năm 2010, dữ liệu AI đến từ nhiều nguồn đa dạng như bách khoa toàn thư, web, biên bản nghị viện, báo cáo thời tiết. Các bộ dữ liệu được tuyển chọn cẩn thận cho từng nhiệm vụ cụ thể.

• Sau năm 2017, khi kiến trúc transformer ra đời, ngành AI bắt đầu thu thập dữ liệu ồ ạt từ internet. Từ 2018, web trở thành nguồn chính cho dữ liệu âm thanh, hình ảnh và video.

• YouTube hiện chiếm hơn 70% dữ liệu cho các mô hình video và giọng nói, tạo lợi thế lớn cho Alphabet (công ty mẹ của Google).

• Hơn 90% bộ dữ liệu được phân tích đến từ châu Âu và Bắc Mỹ, chưa đến 4% đến từ châu Phi.

• Các công ty lớn như OpenAI và Google đã ký các thỏa thuận độc quyền chia sẻ dữ liệu với các nhà xuất bản, diễn đàn lớn như Reddit và các nền tảng mạng xã hội.

• Nhiều bộ dữ liệu có giấy phép hạn chế hoặc điều khoản đính kèm, hạn chế việc sử dụng cho mục đích thương mại.

• Sự thống trị của tiếng Anh trong dữ liệu huấn luyện một phần do internet vẫn sử dụng hơn 90% tiếng Anh.

• Các mô hình AI đa phương thức có thể chỉ thể hiện được góc nhìn phương Tây, như trong trường hợp mô tả đám cưới, do thiếu dữ liệu từ các nền văn hóa khác.

📌 Quyền lực dữ liệu AI đang tập trung vào một số ít công ty công nghệ lớn với YouTube chiếm 70% dữ liệu video/âm thanh. 90% dữ liệu đến từ phương Tây, tạo nguy cơ áp đặt góc nhìn phương Tây lên công nghệ AI toàn cầu.

https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

#MIT

Nguồn dữ liệu để xây dựng AI đến từ đâu
Các phát hiện mới cho thấy nguồn dữ liệu đang tập trung quyền lực vào tay các công ty công nghệ mạnh nhất.

Bởi Melissa Heikkilä & Stephanie Arnett
Ngày 18 tháng 12 năm 2024

AI phụ thuộc hoàn toàn vào dữ liệu. Khối lượng dữ liệu khổng lồ cần thiết để huấn luyện các thuật toán quyết định những gì AI có thể làm. Nhưng vấn đề nằm ở chỗ: các nhà phát triển và nhà nghiên cứu AI không thực sự biết rõ về nguồn gốc của dữ liệu mà họ đang sử dụng. Việc thu thập dữ liệu cho AI hiện tại vẫn còn khá sơ sài so với sự tinh vi của việc phát triển mô hình AI. Các tập dữ liệu lớn thường thiếu thông tin rõ ràng về nội dung của chúng và nguồn gốc từ đâu.

Sáng kiến Nguồn gốc Dữ liệu (Data Provenance Initiative), một nhóm hơn 50 nhà nghiên cứu từ cả giới học thuật và ngành công nghiệp, đã cố gắng giải quyết vấn đề này. Họ đặt ra câu hỏi đơn giản: Dữ liệu để xây dựng AI đến từ đâu?

Nhóm đã kiểm tra gần 4.000 tập dữ liệu công khai trải dài hơn 600 ngôn ngữ, 67 quốc gia và ba thập kỷ. Các dữ liệu này đến từ 800 nguồn khác nhau và gần 700 tổ chức.

Các phát hiện chính: Tập trung quyền lực vào các công ty lớn

Những phát hiện được chia sẻ độc quyền với MIT Technology Review cho thấy một xu hướng đáng lo ngại: việc thu thập dữ liệu AI đang tập trung quyền lực một cách áp đảo vào tay một số ít công ty công nghệ lớn.

Vào đầu những năm 2010, các tập dữ liệu đến từ nhiều nguồn đa dạng, như bách khoa toàn thư, biên bản nghị viện, báo cáo thời tiết, và các cuộc gọi hội nghị. Lúc đó, dữ liệu được chọn lọc và thu thập để phù hợp với từng nhiệm vụ cụ thể.

Tuy nhiên, sau khi các kiến trúc transformers — nền tảng của các mô hình ngôn ngữ lớn — ra đời vào năm 2017, hiệu suất AI càng cao khi mô hình và tập dữ liệu càng lớn. Từ năm 2018, web đã trở thành nguồn dữ liệu chi phối, dẫn đến sự chênh lệch ngày càng lớn giữa dữ liệu thu thập tự động và dữ liệu được chọn lọc kỹ càng.

"Trong việc phát triển mô hình nền tảng, quy mô và tính đa dạng của dữ liệu từ web là yếu tố quan trọng nhất," Shayne Longpre, một nhà nghiên cứu tại MIT, nhận định.

Sự tập trung dữ liệu trên YouTube

Với các mô hình AI tạo sinh đa phương thức, chẳng hạn như video và hình ảnh, YouTube đã trở thành nguồn dữ liệu lớn nhất. Đối với các mô hình video, hơn 70% dữ liệu âm thanh và hình ảnh đều đến từ một nguồn duy nhất: YouTube.

Việc này mang lại lợi thế to lớn cho Google, công ty mẹ của YouTube. Trong khi dữ liệu văn bản được phân tán trên nhiều nền tảng, dữ liệu video lại tập trung cực kỳ cao vào một nền tảng duy nhất. Điều này đặt ra câu hỏi về việc Google sẽ làm thế nào để chia sẻ dữ liệu này với các đối thủ cạnh tranh.

"Chúng ta không nên coi dữ liệu là một tài nguyên tự nhiên, mà là thứ được tạo ra qua các quy trình cụ thể," Sarah Myers West, giám đốc điều hành tại AI Now Institute, cho biết.

Tính đại diện và sự thiếu công bằng

Sự tập trung dữ liệu vào một số ít nền tảng cũng đặt ra câu hỏi liệu những mô hình AI này có phản ánh đầy đủ kinh nghiệm và sự đa dạng của con người hay không.

Ví dụ, các video trên YouTube thường được tải lên để nhắm đến một khán giả cụ thể, với cách hành xử trong video mang tính chất biểu diễn. Sara Hooker, phó chủ tịch nghiên cứu tại Cohere, nhận định: "Dữ liệu này có nắm bắt được tất cả các sắc thái của con người và cách chúng ta tồn tại không?"

Ngoài ra, hơn 90% dữ liệu mà nhóm nghiên cứu phân tích đến từ Châu Âu và Bắc Mỹ, trong khi chưa đến 4% đến từ Châu Phi. Điều này dẫn đến việc các mô hình AI chỉ phản ánh một phần thế giới, bỏ qua các ngôn ngữ và văn hóa khác.

Hooker cũng lưu ý rằng khi các mô hình AI được yêu cầu tạo ra hình ảnh hoặc âm thanh về một sự kiện như đám cưới, chúng thường chỉ thể hiện được các đám cưới phương Tây. Điều này củng cố định kiến và áp đặt một thế giới quan tập trung vào Mỹ, đồng thời loại trừ các ngôn ngữ và văn hóa khác.

Rủi ro từ sự không rõ ràng

Các công ty AI thường không công khai dữ liệu mà họ đã sử dụng để huấn luyện mô hình. Một phần là để bảo vệ lợi thế cạnh tranh, nhưng cũng vì bản chất phức tạp và không minh bạch của cách dữ liệu được đóng gói và phân phối.

"Sự thiếu nhất quán trong nguồn gốc dữ liệu khiến các nhà phát triển khó đưa ra quyết định đúng về dữ liệu cần sử dụng," Hooker nói. Điều này cũng khiến gần như không thể chắc chắn rằng các mô hình đã không sử dụng dữ liệu có bản quyền.

Gần đây, các công ty lớn như OpenAI và Google đã ký hợp đồng độc quyền với các nhà xuất bản, diễn đàn lớn như Reddit và các nền tảng mạng xã hội. Điều này tạo ra một hệ sinh thái dữ liệu không bình đẳng, khi các công ty nhỏ hơn, phi lợi nhuận hoặc các nhà nghiên cứu khó có thể tiếp cận nguồn dữ liệu này.

Kết luận

Các phát hiện này nêu bật những thách thức quan trọng trong việc xây dựng AI công bằng và toàn diện, đồng thời cảnh báo rằng việc tập trung quyền lực dữ liệu vào tay một số ít công ty có thể tái định hình cơ sở hạ tầng của thế giới theo hướng phục vụ lợi ích của họ. "Chúng ta đang sử dụng những mô hình này trên toàn cầu, nhưng thế giới thực sự không được phản ánh đầy đủ trong các mô hình," Hooker kết luận.

Không có file đính kèm.

Nguồn tham khảo

166

OpenAI ChatGPT AI riêng tư AI data 2024-12-19 07:22:00

Ủy ban bảo vệ dữ liệu châu Âu (EDPB) đưa ra ý kiến về việc sử dụng dữ liệu cá nhân trong phát triển AI tạo sinh

• Ủy ban bảo vệ dữ liệu châu Âu (EDPB) vừa công bố ý kiến về cách các nhà phát triển AI có thể sử dụng dữ liệu cá nhân mà không vi phạm luật bảo mật của khối này[1].

• EDPB đưa ra hướng dẫn về 3 vấn đề chính:
- Xác định tính ẩn danh của mô hình AI
- Xem xét cơ sở pháp lý cho việc xử lý dữ liệu
- Đánh giá tính hợp pháp của các mô hình được huấn luyện trái phép[1].

• OpenAI đã gặp rắc rối với ChatGPT tại nhiều quốc gia châu Âu:
- Italy: Kết luận sơ bộ về vi phạm GDPR
- Ba Lan và Áo: Khiếu nại về cơ sở pháp lý xử lý dữ liệu và vấn đề ảo giác[1].

• Về tính ẩn danh của mô hình:
- Cần đánh giá từng trường hợp cụ thể
- Mô hình phải "rất khó có khả năng" nhận dạng cá nhân
- Cần áp dụng các biện pháp kỹ thuật như chọn lọc dữ liệu nguồn, lọc dữ liệu và áp dụng các phương pháp bảo vệ quyền riêng tư[1].

• Về cơ sở pháp lý "lợi ích chính đáng":
- Phải đáp ứng ba tiêu chí: mục đích hợp pháp, tính cần thiết và cân bằng quyền lợi
- Cần xem xét kỳ vọng hợp lý của chủ thể dữ liệu
- Có thể áp dụng biện pháp giảm thiểu rủi ro[1].

• Về mô hình được huấn luyện bất hợp pháp:
- Đánh giá theo từng trường hợp
- Có thể hợp pháp hóa nếu đảm bảo ẩn danh trong giai đoạn triển khai
- Cần thận trọng để tránh lạm dụng hệ thống[1].

📌 EDPB đặt ra khuôn khổ pháp lý chặt chẽ cho AI tạo sinh tại châu Âu, với mức phạt có thể lên tới 4% doanh thu toàn cầu. Các nhà phát triển AI phải chứng minh tính ẩn danh của mô hình và đảm bảo cơ sở pháp lý phù hợp cho việc xử lý dữ liệu cá nhân.

Citations:
[1] https://techcrunch.com/2024/12/18/eu-privacy-body-weighs-in-on-some-tricky-genai-lawfulness-questions/

Cơ quan Bảo vệ Dữ liệu EU cân nhắc các câu hỏi khó về tính hợp pháp của AI tạo sinh
Natasha Lomas
8:18 AM PST · Ngày 18 tháng 12 năm 2024

Ủy ban Bảo vệ Dữ liệu Châu Âu (EDPB) đã công bố ý kiến vào thứ Tư về cách các nhà phát triển AI có thể sử dụng dữ liệu cá nhân để phát triển và triển khai các mô hình AI, chẳng hạn như mô hình ngôn ngữ lớn (LLM), mà không vi phạm luật bảo mật của khối EU. Ủy ban đóng vai trò định hướng quan trọng trong việc áp dụng các luật này, cung cấp hướng dẫn hỗ trợ việc thực thi quy định, vì vậy các quan điểm của họ rất quan trọng.

Những vấn đề mà ý kiến của EDPB đề cập bao gồm liệu các mô hình AI có thể được coi là ẩn danh (điều này có nghĩa là luật bảo mật sẽ không áp dụng); liệu cơ sở pháp lý "lợi ích hợp pháp" có thể được sử dụng để xử lý dữ liệu cá nhân một cách hợp pháp trong quá trình phát triển và triển khai các mô hình AI (điều này có nghĩa là không cần tìm kiếm sự đồng ý của cá nhân); và liệu các mô hình AI được phát triển bằng dữ liệu xử lý bất hợp pháp có thể được triển khai hợp pháp hay không.

Vấn đề cơ sở pháp lý

Câu hỏi về cơ sở pháp lý nào phù hợp để đảm bảo các mô hình AI tuân thủ Quy định Bảo vệ Dữ liệu Chung (GDPR) vẫn là một vấn đề nóng bỏng. OpenAI từng gặp rắc rối khi ChatGPT bị cho là vi phạm GDPR. Không tuân thủ các quy định về bảo mật có thể dẫn đến mức phạt lên đến 4% doanh thu toàn cầu hàng năm hoặc yêu cầu thay đổi cách các công cụ AI hoạt động.

Năm ngoái, cơ quan bảo vệ dữ liệu của Ý phát hiện sơ bộ rằng chatbot của OpenAI vi phạm GDPR. Từ đó, các khiếu nại khác cũng đã được nộp ở Ba Lan và Áo, tập trung vào cơ sở pháp lý cho việc xử lý dữ liệu, xu hướng tạo ra thông tin sai và việc không thể sửa chữa thông tin sai lệch về cá nhân.

Những điểm chính trong ý kiến của EDPB

Tính ẩn danh của mô hình

EDPB xác định rằng mô hình AI chỉ có thể được coi là ẩn danh nếu "rất khó có khả năng" xác định danh tính cá nhân từ dữ liệu được sử dụng để tạo mô hình hoặc thông qua các truy vấn. Tuy nhiên, điều này phải được đánh giá "dựa trên từng trường hợp cụ thể."

Ý kiến cũng cung cấp một danh sách không đầy đủ các phương pháp mà nhà phát triển có thể sử dụng để đảm bảo tính ẩn danh, bao gồm:

Chọn nguồn dữ liệu đào tạo để hạn chế thu thập dữ liệu cá nhân.
Lọc dữ liệu trong giai đoạn chuẩn bị trước đào tạo.
Áp dụng các kỹ thuật bảo vệ quyền riêng tư như differential privacy.

Lợi ích hợp pháp

Cơ sở pháp lý "lợi ích hợp pháp" có thể là lựa chọn hàng đầu của các nhà phát triển AI vì nó không yêu cầu sự đồng ý của từng cá nhân, điều không khả thi với khối lượng dữ liệu khổng lồ mà LLM sử dụng. Tuy nhiên, EDPB nhấn mạnh rằng cần có bài kiểm tra ba bước để xác định tính phù hợp của cơ sở này:

Mục đích hợp pháp: Ví dụ, tạo mô hình AI hỗ trợ hội thoại hoặc cải thiện phát hiện mối đe dọa thông tin có thể được coi là mục đích hợp pháp.
Tính cần thiết: Việc xử lý phải thực sự đạt được mục đích hợp pháp và không có cách nào ít xâm phạm hơn để đạt được điều đó.
Cân bằng quyền lợi cá nhân: Xem xét tác động của việc xử lý dữ liệu đến quyền lợi cá nhân, bao gồm kỳ vọng hợp lý của họ và các biện pháp giảm thiểu rủi ro.

Mô hình được đào tạo bất hợp pháp

Một điểm nhấn quan trọng khác trong ý kiến là cách xử lý các mô hình AI được đào tạo trên dữ liệu bất hợp pháp. EDPB gợi ý rằng nếu dữ liệu cá nhân được ẩn danh trước khi triển khai mô hình, GDPR có thể không áp dụng cho hoạt động tiếp theo của mô hình. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng cách tiếp cận này có thể tạo tiền lệ nguy hiểm, tiềm ẩn việc hợp pháp hóa việc thu thập dữ liệu không có cơ sở pháp lý.

Tác động đến ngành công nghệ

Ý kiến của EDPB cung cấp hướng dẫn quan trọng cho các cơ quan giám sát trong việc điều chỉnh AI tạo sinh, đồng thời đưa ra các tín hiệu cho các nhà phát triển về cách họ có thể thiết kế và phát triển để giảm thiểu rủi ro pháp lý. Tuy nhiên, EDPB cũng nhấn mạnh rằng sẽ không có giải pháp chung cho mọi trường hợp, và việc tuân thủ GDPR sẽ đòi hỏi sự điều chỉnh cẩn thận trong từng tình huống cụ thể.

Không có file đính kèm.

Nguồn tham khảo

158

AI data Semi-Cloud-DC-Green 2024-12-13 15:46:00

Canada đầu tư 240 triệu CAD (169 triệu USD) để mở rộng trung tâm dữ liệu AI

- Chính phủ Canada công bố đầu tư 240 triệu CAD (tương đương 169 triệu USD) để hỗ trợ startup AI Cohere mở rộng khả năng tính toán tại trung tâm dữ liệu.

- Khoản đầu tư này nhằm xây dựng một trung tâm dữ liệu AI hiện đại tại Canada, dự kiến hoạt động vào năm 2025.

- Trung tâm dữ liệu mới sẽ sử dụng GPU Nvidia và hợp tác với CoreWeave từ New Jersey trong quá trình xây dựng.

- Kế hoạch của chính phủ là biến cơ sở hạ tầng này thành nền tảng quan trọng cho hệ sinh thái AI tại Canada.

- Khoản đầu tư ban đầu nhằm thu hút vốn đầu tư tư nhân đáng kể, tạo ra một cơ sở trị giá nhiều tỷ đô la.

- Đây là một phần trong chiến lược điện toán AI chủ quyền trị giá 2,4 tỷ CAD được công bố trong ngân sách năm 2024 của Canada.

- Chính phủ kỳ vọng sẽ đầu tư 700 triệu CAD vào các trung tâm dữ liệu mới hoặc mở rộng, với khoản đầu tư vào Cohere là bước đầu tiên.

- Các khối lượng công việc AI yêu cầu nhiều tài nguyên phần cứng hơn so với các khối lượng công việc trung tâm dữ liệu thông thường.

- Công nghệ AI cần các công nghệ tăng tốc đặc biệt và GPU, hiệu suất CPU cao hơn, cũng như nguồn điện và hệ thống làm mát tốt hơn.

- Chrystia Freeland, Phó Thủ tướng Canada, nhấn mạnh rằng khoản đầu tư này sẽ tạo ra nhiều việc làm tốt với mức lương cao hơn cho người dân Canada.

- Cohere, được thành lập năm 2019, đã nhanh chóng trở thành một lực lượng hàng đầu trong lĩnh vực AI tạo sinh và các mô hình ngôn ngữ lớn.

- Công ty phát triển các mô hình AI tập trung vào doanh nghiệp nhằm giải quyết các thách thức kinh doanh như chatbot và hệ thống quản lý nội dung.

- Thị trường trung tâm dữ liệu tại Canada dự kiến sẽ tăng trưởng với tỷ lệ tăng trưởng hàng năm kép (CAGR) đạt 11.7% từ 2024 đến 2030, đạt 22.4 tỷ USD vào năm 2030.

- Canada hiện có nhiều nhà điều hành trung tâm dữ liệu toàn cầu như Equinix và Vantage Data Centers cùng với các nhà cung cấp đám mây lớn như Amazon Web Services (AWS).

📌 Chính phủ Canada đầu tư 240 triệu CAD vào Cohere để xây dựng trung tâm dữ liệu AI mới. Dự kiến đến năm 2030, thị trường trung tâm dữ liệu sẽ đạt 22.4 tỷ USD với CAGR 11.7%.

https://www.datacenterknowledge.com/ai-data-centers/canada-invests-240m-to-advance-ai-data-center-capacity

Không có file đính kèm.

Nguồn tham khảo

107

AI data 2024-12-13 05:22:17

Harvard tung "bom tấn" dữ liệu: Gần 1 triệu cuốn sách miễn phí để huấn luyện AI

• Harvard công bố bộ dữ liệu chất lượng cao gồm gần 1 triệu cuốn sách thuộc phạm vi công cộng để huấn luyện mô hình ngôn ngữ lớn và các công cụ AI khác.

• Dự án được thực hiện bởi Sáng kiến dữ liệu thể chế (IDI) mới thành lập của Harvard, với tài trợ từ Microsoft và OpenAI.

• Bộ dữ liệu chứa sách được scan từ dự án Google Books không còn được bảo vệ bản quyền, lớn gấp 5 lần bộ dữ liệu Books3 nổi tiếng.

• Nội dung đa dạng về thể loại, thời đại và ngôn ngữ, bao gồm các tác phẩm kinh điển và sách giáo khoa hiếm.

• Greg Leppert, giám đốc điều hành IDI, cho biết dự án nhằm "san bằng sân chơi" bằng cách cung cấp cho công chúng quyền truy cập vào kho nội dung chất lượng cao.

• Microsoft hỗ trợ dự án phù hợp với niềm tin về giá trị của việc tạo ra "các nguồn dữ liệu có thể truy cập" cho các startup AI sử dụng.

• Dự án này xuất hiện trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang diễn ra.

• IDI cũng đang hợp tác với Thư viện công cộng Boston để scan hàng triệu bài báo thuộc phạm vi công cộng.

• Cách phát hành chính xác bộ dữ liệu sách vẫn chưa được quyết định, Harvard đang đề nghị Google hợp tác phân phối công khai.

• Nhiều dự án tương tự đang được triển khai, như Common Corpus của startup AI Pháp Pleis và Source.Plus của Spawning cho dữ liệu hình ảnh.

• Ed Newton-Rex, cựu giám đốc Stability AI, cho rằng các bộ dữ liệu này cho thấy không cần phải sử dụng trái phép tài liệu có bản quyền để xây dựng mô hình AI chất lượng cao.

• Tuy nhiên, ông vẫn lo ngại liệu các dự án này có thực sự thay đổi hiện trạng huấn luyện AI hay không.

📌 Harvard công bố bộ dữ liệu gần 1 triệu cuốn sách miễn phí để huấn luyện AI, được tài trợ bởi OpenAI và Microsoft. Dự án nhằm tạo sân chơi bình đẳng trong ngành AI, đồng thời đặt ra câu hỏi về tương lai của việc sử dụng dữ liệu có bản quyền trong phát triển AI.

https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/

Harvard công bố bộ dữ liệu huấn luyện AI miễn phí khổng lồ do OpenAI và Microsoft tài trợ
Dự án được lãnh đạo với mục tiêu cho phép tất cả mọi người tiếp cận kho tàng sách thuộc phạm vi công cộng, nhằm "bình đẳng hóa sân chơi" trong ngành công nghiệp AI.

Ngày thứ Năm, Đại học Harvard thông báo sẽ phát hành một bộ dữ liệu chất lượng cao gồm gần một triệu cuốn sách thuộc phạm vi công cộng, cho phép bất kỳ ai cũng có thể sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) và các công cụ AI khác. Bộ dữ liệu này được tạo ra bởi Sáng kiến Dữ liệu của Viện (Institutional Data Initiative) mới được thành lập của Harvard, với nguồn tài trợ từ Microsoft và OpenAI. Nó bao gồm các cuốn sách được quét từ dự án Google Books, những cuốn sách không còn được bảo vệ bởi bản quyền.

Bộ dữ liệu này lớn gấp năm lần so với bộ dữ liệu Books3 nổi tiếng, vốn từng được sử dụng để huấn luyện các mô hình AI như Llama của Meta. Cơ sở dữ liệu này bao trùm nhiều thể loại, thời đại, và ngôn ngữ, bao gồm các tác phẩm kinh điển của Shakespeare, Charles Dickens, và Dante, cũng như những sách giáo khoa toán học tiếng Séc ít được biết đến và từ điển bỏ túi tiếng Wales.

Greg Leppert, giám đốc điều hành của Sáng kiến Dữ liệu của Viện, cho biết dự án này nhằm "bình đẳng hóa sân chơi" bằng cách cung cấp cho công chúng, bao gồm cả các công ty AI nhỏ và các nhà nghiên cứu cá nhân, quyền truy cập vào những kho lưu trữ nội dung được tinh chỉnh và sàng lọc mà trước đây chỉ có các công ty công nghệ lớn mới có đủ nguồn lực để xây dựng. "Dữ liệu này đã trải qua quá trình xem xét nghiêm ngặt," ông nói.

Leppert tin rằng cơ sở dữ liệu thuộc phạm vi công cộng này có thể được sử dụng cùng với các tài liệu có giấy phép khác để xây dựng các mô hình trí tuệ nhân tạo. "Tôi nghĩ về nó giống như cách mà Linux đã trở thành hệ điều hành nền tảng cho rất nhiều thứ trên thế giới," ông nhận định, lưu ý rằng các công ty vẫn cần sử dụng thêm dữ liệu huấn luyện để tạo ra sự khác biệt giữa các mô hình của họ với các đối thủ cạnh tranh.

Tạo ra một nguồn dữ liệu "công bằng" cho AI

Burton Davis, phó chủ tịch và phó cố vấn chung về sở hữu trí tuệ của Microsoft, nhấn mạnh rằng sự hỗ trợ của công ty đối với dự án này phù hợp với niềm tin rộng lớn hơn của họ về giá trị của việc tạo ra các "nguồn dữ liệu có thể tiếp cận được" dành cho các công ty AI khởi nghiệp sử dụng và được "quản lý vì lợi ích công cộng." Nói cách khác, Microsoft không nhất thiết lên kế hoạch thay thế tất cả dữ liệu huấn luyện AI mà họ đã sử dụng bằng các nguồn dữ liệu công cộng như những cuốn sách trong cơ sở dữ liệu mới của Harvard. “Chúng tôi sử dụng dữ liệu công khai để phục vụ mục đích huấn luyện các mô hình của mình,” Davis nói.

Trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang được đưa ra tòa, tương lai của cách các công cụ trí tuệ nhân tạo được xây dựng vẫn còn đang chờ quyết định. Nếu các công ty AI thắng kiện, họ sẽ có thể tiếp tục thu thập dữ liệu từ Internet mà không cần ký thỏa thuận cấp phép với chủ sở hữu bản quyền. Nhưng nếu thua, các công ty AI có thể buộc phải đại tu cách thức xây dựng mô hình của mình.

Nhiều dự án như cơ sở dữ liệu của Harvard đang tiếp tục tiến hành với giả định rằng — bất kể điều gì xảy ra — nhu cầu đối với các tập dữ liệu công cộng sẽ tiếp tục tăng.

Mở rộng hợp tác để phát hành dữ liệu công cộng

Ngoài kho sách, Sáng kiến Dữ liệu của Viện cũng đang hợp tác với Thư viện Công cộng Boston để quét hàng triệu bài báo từ các tờ báo hiện đã thuộc phạm vi công cộng, và tổ chức này cũng sẵn sàng hợp tác với các dự án tương tự trong tương lai. Phương thức phát hành bộ dữ liệu sách hiện vẫn chưa được quyết định.

Sáng kiến Dữ liệu của Viện đã yêu cầu Google hợp tác trong việc phân phối công khai, nhưng gã khổng lồ tìm kiếm này vẫn chưa chính thức đồng ý, dù Harvard cho biết họ lạc quan về khả năng hợp tác. (Google không phản hồi các yêu cầu bình luận của WIRED.)

Dù bộ dữ liệu của IDI được phát hành dưới hình thức nào, nó sẽ gia nhập hàng loạt các dự án, công ty khởi nghiệp, và sáng kiến khác hứa hẹn cung cấp cho các công ty quyền truy cập vào những tài liệu huấn luyện AI chất lượng cao mà không gặp rủi ro vi phạm bản quyền.

Các dự án dữ liệu công cộng khác

Mùa xuân năm ngoái, startup AI của Pháp Pleis đã phát hành một tập dữ liệu công cộng của riêng mình, Common Corpus, chứa khoảng 3-4 triệu sách và bộ sưu tập định kỳ, theo điều phối viên dự án Pierre-Carl Langlais. Được Bộ Văn hóa Pháp hậu thuẫn, Common Corpus đã được tải xuống hơn 60 000 lần trong tháng này trên nền tảng mã nguồn mở Hugging Face. Tuần trước, Pleis thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này, mà Langlais cho biết là “mô hình đầu tiên từng được huấn luyện hoàn toàn trên dữ liệu mở và tuân thủ Đạo luật AI của EU.”

Các nỗ lực cũng đang được thực hiện để tạo ra các tập dữ liệu hình ảnh tương tự. Startup AI Spawning đã phát hành Source.Plus vào mùa hè này, bao gồm hình ảnh công cộng từ Wikimedia Commons và một loạt các bảo tàng, kho lưu trữ.

Ed Newton-Rex, cựu giám đốc Stability AI và hiện điều hành một tổ chức phi lợi nhuận chuyên chứng nhận các công cụ AI được đào tạo một cách đạo đức, cho rằng sự gia tăng các tập dữ liệu như thế này cho thấy không cần phải "ăn cắp" tài liệu có bản quyền để xây dựng các mô hình AI chất lượng cao.

Tuy nhiên, Newton-Rex vẫn có những e ngại liệu các dự án như IDI có thực sự thay đổi hiện trạng đào tạo hay không. “Các tập dữ liệu này sẽ chỉ có tác động tích cực nếu chúng được sử dụng, có thể kết hợp với việc cấp phép các dữ liệu khác, để thay thế cho các tác phẩm có bản quyền đã bị thu thập trái phép,” ông nói. "Nếu chúng chỉ được thêm vào, như một phần của một tập dữ liệu cũng bao gồm tác phẩm không được cấp phép, thì lợi ích chủ yếu vẫn thuộc về các công ty AI."

Harvard Is Releasing a Massive Free AI Training Dataset Funded by OpenAI and Microsoft

The project’s leader says that allowing everyone to access the collection of public-domain books will help “level the playing field” in the AI industry.

Harvard University announced Thursday it’s releasing a high-quality dataset of nearly one million public-domain books that could be used by anyone to train large language models and other AI tools. The dataset was created by Harvard’s newly formed Institutional Data Initiative with funding from both Microsoft and OpenAI. It contains books scanned as part of the Google Books project that are no longer protected by copyright.

Around five times the size of the notorious Books3 dataset that was used to train AI models like Meta’s Llama, the Institutional Data Initiative's database spans genres, decades, and languages, with classics from Shakespeare, Charles Dickens, and Dante included alongside obscure Czech math textbooks and Welsh pocket dictionaries. Greg Leppert, executive director of the Institutional Data Initiative, says the project is an attempt to “level the playing field” by giving the general public, including small players in the AI industry and individual researchers, access to the sort of highly-refined and curated content repositories that normally only established tech giants have the resources to assemble. “It's gone through rigorous review,” he says.

Leppert believes the new public domain database could be used in conjunction with other licensed materials to build artificial intelligence models. “I think about it a bit like the way that Linux has become a foundational operating system for so much of the world,” he says, noting that companies would still need to use additional training data to differentiate their models from those of their competitors.

Burton Davis, Microsoft’s vice president and deputy general counsel for intellectual property, emphasized that the company’s support for the project was in line with its broader beliefs about the value of creating “pools of accessible data” for AI startups to use that are “managed in the public’s interest.” In other words, Microsoft isn’t necessarily planning to swap out all of the AI training data it has used in its own models with public domain alternatives like the books in the new Harvard database. “We use publicly available data for the purposes of training our models,” Davis says.

As dozens of lawsuits filed over the use of copyrighted data for training AI wind their way through the courts, the future of how artificial intelligence tools are built hangs in the balance. If AI companies win their cases, they’ll be able to keep scraping the internet without needing to enter into licensing agreements with copyright holders. But if they lose, AI companies could be forced to overhaul how their models get made. A wave of projects like the Harvard database are plowing forward under the assumption that—no matter what happens—there will be an appetite for public domain datasets.

In addition to the trove of books, the Institutional Data Initiative is also working with the Boston Public Library to scan millions of articles from different newspapers now in the public domain, and it says it’s open to forming similar collaborations down the line. The exact way the books dataset will be released is not settled. The Institutional Data Initiative has asked Google to work together on public distribution, but the search giant hasn’t publicly agreed to host it yet, though Harvard says it’s optimistic it will. (Google did not respond to WIRED’s requests for comment.)

However IDI’s dataset is released, it will be joining a host of similar projects, startups, and initiatives that promise to give companies access to substantial and high-quality AI training materials without the risk of running into copyright issues. Firms like Calliope Networks and ProRata have emerged to issue licenses and design compensation schemes designed to get creators and rightholders paid for providing AI training data.

There are also other new public-domain projects. Last spring, the French AI startup Pleis rolled out its own public-domain dataset, Common Corpus, which contains an estimated 3 to 4 million books and periodical collections, according to project coordinator Pierre-Carl Langlais. Backed by the French Ministry of Culture, the Common Corpus has been downloaded over 60,000 times this month alone on the open source AI platform Hugging Face. Last week, Pleis announced that it is releasing its first set of large language models trained on this dataset, which Langlais told WIRED constitute the first models “ever trained exclusively on open data and compliant with the [EU] AI Act.”

Efforts are underway to create similar mage datasets as well. AI startup Spawning released its own this summer called Source.Plus, which contains public-domain images from Wikimedia Commons as well as a variety of museums and archives. Several significant cultural institutions have long made their own archives accessible to the public as standalone projects, like the Metropolitan Museum of Art.

Ed Newton-Rex, a former executive at Stability AI who now runs a nonprofit that certifies ethically-trained AI tools, says the rise of these datasets shows that there’s no need to steal copyrighted materials to build high-performing and quality AI models. OpenAI previously told lawmakers in the United Kingdom that it would be “impossible” to create products like ChatGPT without using copyrighted works. “Large public domain datasets like these further demolish the 'necessity defense' some AI companies use to justify scraping copyrighted work to train their models,” Newton-Rex says.

But he still has reservations about whether the IDI and projects like it will actually change the training status quo. “These datasets will only have a positive impact if they're used, probably in conjunction with licensing other data, to replace scraped copyrighted work. If they're just added to the mix, one part of a dataset that also includes the unlicensed life's work of the world's creators, they'll overwhelmingly benefit AI companies,” he says.

Không có file đính kèm.

Nguồn tham khảo

159

AI data AI tương lai 2024-12-13 05:17:25

Tạp chí NATURE: AI sắp cạn kiệt dữ liệu huấn luyện từ Internet vào năm 2028

- Các nhà nghiên cứu dự báo đến năm 2028, kích thước tập dữ liệu huấn luyện AI sẽ bằng với tổng lượng văn bản công khai trực tuyến

- Số lượng token dùng để huấn luyện mô hình ngôn ngữ lớn đã tăng gấp 100 lần từ năm 2020, từ hàng trăm tỷ lên hàng chục nghìn tỷ token

- Tổng lượng dữ liệu văn bản trên Internet ước tính khoảng 3.100 nghìn tỷ token, tăng trưởng chậm dưới 10% mỗi năm

- Các nhà cung cấp nội dung đang thắt chặt quyền truy cập:
+ Tỷ lệ chặn trình thu thập web tăng từ dưới 3% năm 2023 lên 20-33% năm 2024
+ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023

- Các giải pháp thay thế đang được nghiên cứu:
+ Khai thác dữ liệu riêng tư như tin nhắn WhatsApp, bản ghi YouTube
+ Tập trung vào dữ liệu chuyên biệt như thiên văn học, gen
+ Sử dụng dữ liệu tổng hợp do AI tạo ra (OpenAI tạo ra 100 tỷ từ mỗi ngày)
+ Phát triển mô hình nhỏ hơn, chuyên biệt hơn thay vì mô hình đa năng lớn

- Hiệu quả sử dụng dữ liệu đang được cải thiện:
+ Năng lượng tính toán cần thiết giảm một nửa mỗi 8 tháng
+ Việc đọc lại dữ liệu 4 lần cho kết quả tương đương với đọc cùng lượng dữ liệu mới
+ OpenAI đang tập trung vào học tăng cường và tư duy sâu hơn thay vì mở rộng dữ liệu

📌 Khủng hoảng dữ liệu huấn luyện AI sẽ đến vào năm 2028 khi nhu cầu dữ liệu vượt quá nguồn cung từ Internet. Các giải pháp đang được triển khai bao gồm tạo dữ liệu tổng hợp (100 tỷ từ/ngày), khai thác dữ liệu chuyên biệt và cải tiến hiệu quả sử dụng dữ liệu.

https://www.nature.com/articles/d41586-024-03990-2

#NATURE

Cuộc cách mạng AI đang cạn kiệt dữ liệu. Các nhà nghiên cứu có thể làm gì?
AI developers are rapidly picking the Internet clean to train large language models such as those behind ChatGPT. Here’s how they are trying to get around the problem.
Nicola Jones
Twitter Facebook Email

Internet là một đại dương kiến thức khổng lồ của con người, nhưng nó không phải là vô hạn. Và các nhà nghiên cứu trí tuệ nhân tạo (AI) gần như đã khai thác cạn kiệt nó.

Thập kỷ qua chứng kiến sự phát triển vượt bậc của AI, phần lớn được thúc đẩy bởi việc mở rộng kích thước mạng nơ-ron và huấn luyện chúng trên lượng dữ liệu ngày càng lớn. Phương pháp mở rộng quy mô này tỏ ra rất hiệu quả trong việc làm cho các mô hình ngôn ngữ lớn (LLM) — như các mô hình đứng sau chatbot ChatGPT — trở nên thông minh hơn trong việc tái hiện ngôn ngữ đối thoại và phát triển các thuộc tính mới như khả năng suy luận. Nhưng một số chuyên gia nói rằng chúng ta đang dần đạt đến giới hạn của sự mở rộng này. Một phần là vì nhu cầu năng lượng tính toán tăng mạnh, nhưng quan trọng hơn, các nhà phát triển LLM đang cạn kiệt các tập dữ liệu thông thường dùng để huấn luyện các mô hình này.

Một nghiên cứu nổi bật được công bố năm nay đã đưa ra một con số cụ thể về vấn đề này: các nhà nghiên cứu tại Epoch AI, một viện nghiên cứu ảo, dự đoán rằng vào khoảng năm 2028, kích thước trung bình của các tập dữ liệu dùng để huấn luyện một mô hình AI sẽ đạt mức bằng tổng lượng văn bản công khai được ước tính có trên Internet. Nói cách khác, AI có thể cạn kiệt dữ liệu huấn luyện trong khoảng bốn năm tới (xem mục "Cạn kiệt dữ liệu"). Đồng thời, các chủ sở hữu dữ liệu — như các nhà xuất bản báo chí — bắt đầu siết chặt việc kiểm soát nội dung của họ, làm giảm quy mô của “kho dữ liệu chung”. Điều này tạo ra một cuộc khủng hoảng trong khả năng tiếp cận dữ liệu, theo Shayne Longpre, một nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), người dẫn đầu Sáng kiến Nguồn gốc Dữ liệu, một tổ chức cộng đồng thực hiện kiểm toán các tập dữ liệu AI.

Nút thắt cổ chai sắp xảy ra trong việc huấn luyện dữ liệu có thể đã bắt đầu xuất hiện. “Tôi nghi ngờ rằng điều đó đã xảy ra,” Longpre nhận định.

Cạn kiệt dữ liệu
Biểu đồ cho thấy dự đoán về lượng dữ liệu văn bản được sử dụng để huấn luyện các mô hình ngôn ngữ lớn và lượng văn bản có sẵn trên Internet, cho thấy rằng vào năm 2028, các nhà phát triển sẽ sử dụng các tập dữ liệu có kích thước tương đương với tổng lượng văn bản có sẵn.
Nguồn: Ref. 1

Mặc dù các chuyên gia cho rằng những hạn chế này có thể làm chậm lại sự cải thiện nhanh chóng của các hệ thống AI, nhưng các nhà phát triển đang tìm kiếm cách khắc phục. “Tôi không nghĩ rằng có ai ở các công ty AI lớn đang hoảng sợ,” Pablo Villalobos, một nhà nghiên cứu tại Epoch AI ở Madrid và là tác giả chính của nghiên cứu dự đoán về cuộc khủng hoảng dữ liệu năm 2028, nói. “Hoặc ít nhất họ không e-mail tôi nếu họ đang như vậy.”

Ví dụ, các công ty AI lớn như OpenAI và Anthropic, cả hai đều ở San Francisco, California, đã công khai thừa nhận vấn đề trong khi gợi ý rằng họ có kế hoạch đối phó, bao gồm tạo dữ liệu mới và tìm kiếm các nguồn dữ liệu không truyền thống. Một phát ngôn viên của OpenAI nói với Nature: “Chúng tôi sử dụng nhiều nguồn khác nhau, bao gồm dữ liệu công khai, hợp tác để tiếp cận dữ liệu không công khai, tạo dữ liệu tổng hợp và dữ liệu từ các huấn luyện viên AI.”

Dẫu vậy, cuộc khủng hoảng dữ liệu có thể buộc phải thay đổi loại mô hình AI tạo sinh mà mọi người xây dựng, có thể chuyển trọng tâm từ các LLM lớn, đa năng sang các mô hình nhỏ hơn, chuyên biệt hơn.

Hàng nghìn tỷ từ
Việc phát triển LLM trong thập kỷ qua đã chứng minh sự thèm khát dữ liệu khổng lồ của nó. Mặc dù một số nhà phát triển không công bố thông số kỹ thuật của các mô hình mới nhất của họ, Villalobos ước tính rằng số lượng "token" (các phần của từ) được sử dụng để huấn luyện LLM đã tăng gấp 100 lần kể từ năm 2020, từ hàng trăm tỷ lên hàng chục nghìn tỷ.

AI, liệu càng lớn có càng tốt?
Điều đó có thể chiếm một phần lớn những gì có trên Internet, mặc dù tổng số lượng lớn đến mức khó xác định — Villalobos ước tính tổng lượng văn bản có trên Internet hiện nay là 3 100 nghìn tỷ token. Các dịch vụ web crawler thường thu thập nội dung này, sau đó loại bỏ dữ liệu trùng lặp và lọc ra nội dung không mong muốn (như nội dung khiêu dâm) để tạo ra các tập dữ liệu sạch hơn: một tập dữ liệu phổ biến có tên RedPajama chứa hàng chục nghìn tỷ từ. Một số công ty hoặc tổ chức học thuật tự thực hiện quy trình thu thập và làm sạch để tạo các tập dữ liệu riêng phù hợp với nhu cầu huấn luyện. Một phần nhỏ của Internet được coi là có chất lượng cao, chẳng hạn như văn bản được biên tập bởi con người, có tính xã hội chấp nhận được, thường thấy trong sách hoặc các bài báo.

Tốc độ tăng trưởng nội dung có thể sử dụng trên Internet tăng chậm một cách đáng ngạc nhiên: bài báo của Villalobos ước tính nó tăng dưới 10% mỗi năm, trong khi kích thước các tập dữ liệu huấn luyện AI tăng hơn gấp đôi hàng năm. Nếu tiếp tục xu hướng này, các đường biểu diễn sẽ giao nhau vào khoảng năm 2028.

Giải pháp để tìm kiếm dữ liệu

Cuộc khủng hoảng dữ liệu đặt ra một vấn đề lớn đối với chiến lược mở rộng quy mô AI thông thường. Mặc dù có thể mở rộng sức mạnh tính toán hoặc tăng số lượng tham số của một mô hình mà không tăng dữ liệu huấn luyện, nhưng điều này thường khiến AI hoạt động chậm và tốn kém hơn, theo Longpre — một điều không được ưa chuộng.

Nếu mục tiêu là tìm thêm dữ liệu, một lựa chọn có thể là thu thập dữ liệu không công khai, chẳng hạn như tin nhắn WhatsApp hoặc bản ghi âm của các video trên YouTube. Dù tính hợp pháp của việc thu thập dữ liệu bên thứ ba theo cách này chưa được kiểm chứng, các công ty vẫn có quyền truy cập vào dữ liệu riêng của mình. Một số công ty mạng xã hội nói rằng họ sử dụng dữ liệu của chính mình để huấn luyện các mô hình AI. Ví dụ, Meta ở Menlo Park, California, cho biết dữ liệu âm thanh và hình ảnh thu thập bởi kính thực tế ảo Meta Quest của họ được sử dụng để huấn luyện AI. Tuy nhiên, các chính sách có sự khác biệt: điều khoản dịch vụ của nền tảng hội nghị video Zoom tuyên bố rằng họ sẽ không sử dụng nội dung của khách hàng để huấn luyện AI, trong khi dịch vụ chuyển đổi giọng nói OtterAI cho biết họ sử dụng dữ liệu âm thanh và bản ghi đã được ẩn danh và mã hóa để huấn luyện.

Tuy nhiên, theo Villalobos, nội dung độc quyền này chỉ có thể chứa thêm khoảng 1 nghìn tỷ token văn bản. Vì phần lớn trong số này là dữ liệu chất lượng thấp hoặc trùng lặp, ông cho rằng đây chỉ đủ để trì hoãn nút thắt cổ chai dữ liệu thêm khoảng một năm rưỡi, ngay cả khi một AI duy nhất có thể tiếp cận toàn bộ dữ liệu này mà không gây ra các vấn đề pháp lý liên quan đến quyền riêng tư hoặc bản quyền. “Ngay cả khi lượng dữ liệu tăng lên gấp mười lần cũng chỉ kéo dài thêm khoảng ba năm mở rộng,” ông nói.

Một lựa chọn khác có thể là tập trung vào các tập dữ liệu chuyên biệt, chẳng hạn như dữ liệu thiên văn hoặc dữ liệu gen, vốn đang tăng trưởng nhanh chóng. Fei-Fei Li, một nhà nghiên cứu AI nổi tiếng tại Đại học Stanford, California, đã công khai ủng hộ chiến lược này. Tại một hội nghị công nghệ của Bloomberg vào tháng 5, bà cho rằng những lo ngại về việc thiếu dữ liệu quá tập trung vào các định nghĩa hẹp về dữ liệu, trong khi vẫn còn rất nhiều thông tin chưa được khai thác trong các lĩnh vực như y tế, môi trường và giáo dục.

Tuy nhiên, Villalobos nói rằng vẫn chưa rõ liệu những tập dữ liệu này có khả dụng hay hữu ích cho việc huấn luyện các mô hình LLM hay không. “Có vẻ như có một mức độ học chuyển giao giữa nhiều loại dữ liệu,” ông nói. “Tuy nhiên, tôi không quá lạc quan về cách tiếp cận này.”

Mở rộng sang các loại dữ liệu khác

Khả năng huấn luyện AI trên các loại dữ liệu khác ngoài văn bản, chẳng hạn như video hoặc hình ảnh chưa gắn nhãn, có thể mở ra cơ hội khai thác lượng dữ liệu phong phú hơn. Một số mô hình đã có thể huấn luyện ở một mức độ nhất định trên video hoặc hình ảnh không gắn nhãn. Việc mở rộng và cải thiện các khả năng này có thể mở ra nguồn dữ liệu phong phú hơn nhiều.

Yann LeCun, nhà khoa học trưởng về AI tại Meta và là nhà khoa học máy tính tại Đại học New York, được xem là một trong những người sáng lập AI hiện đại, đã nhấn mạnh những khả năng này trong một bài thuyết trình hồi tháng 2 tại một hội nghị AI ở Vancouver, Canada. Việc sử dụng 10¹³ token để huấn luyện một LLM hiện đại có vẻ rất nhiều: một người sẽ mất 170 000 năm để đọc hết lượng dữ liệu đó, LeCun tính toán. Nhưng ông nói, một đứa trẻ 4 tuổi đã hấp thụ một lượng dữ liệu lớn gấp 50 lần chỉ bằng cách quan sát các vật thể trong cuộc sống hàng ngày.

Tương tự, dữ liệu phong phú như vậy có thể được khai thác bằng cách sử dụng các hệ thống AI ở dạng robot, học hỏi từ chính các trải nghiệm cảm giác của chúng. “Chúng ta sẽ không bao giờ đạt được AI ở mức con người chỉ bằng cách huấn luyện trên ngôn ngữ — điều đó sẽ không xảy ra,” LeCun nói.

Tạo dữ liệu mới

Nếu không thể tìm được dữ liệu, người ta có thể tạo ra thêm dữ liệu. Một số công ty AI trả tiền cho người dùng để tạo nội dung cho AI huấn luyện; một số khác sử dụng dữ liệu tổng hợp do AI tạo ra. Đây là một nguồn dữ liệu tiềm năng khổng lồ: hồi đầu năm nay, OpenAI cho biết họ tạo ra 100 tỷ từ mỗi ngày — tức hơn 36 nghìn tỷ từ mỗi năm, tương đương với kích thước hiện tại của các tập dữ liệu huấn luyện AI. Sản lượng này đang tăng nhanh.

Tận dụng hiệu quả

Ngoài ra, chiến lược thay thế là từ bỏ quan niệm “càng lớn càng tốt”. Mặc dù các nhà phát triển vẫn tiếp tục xây dựng các mô hình lớn hơn, nhiều người đang theo đuổi các mô hình nhỏ gọn và hiệu quả hơn, tập trung vào các nhiệm vụ cụ thể. Những mô hình này đòi hỏi dữ liệu được tinh chỉnh, chuyên biệt hơn và các kỹ thuật huấn luyện tốt hơn.

Làm nhiều hơn với ít hơn

Nỗ lực AI hiện nay đã dần chuyển sang việc làm nhiều hơn với ít hơn. Một nghiên cứu năm 2024 kết luận rằng nhờ những cải tiến trong thuật toán, sức mạnh tính toán cần thiết để một LLM đạt được hiệu năng tương tự đã giảm một nửa khoảng mỗi tám tháng.

Điều này, cùng với các con chip máy tính chuyên dụng cho AI và các cải tiến phần cứng khác, mở ra cơ hội sử dụng tài nguyên tính toán theo cách khác: một chiến lược là để một mô hình AI "đọc lại" tập dữ liệu huấn luyện của nó nhiều lần. Dù nhiều người nghĩ rằng máy tính có khả năng ghi nhớ hoàn hảo và chỉ cần “đọc” tài liệu một lần, nhưng các hệ thống AI hoạt động theo cách thống kê, điều này có nghĩa là việc đọc lại dữ liệu giúp cải thiện hiệu năng, theo Niklas Muennighoff, nghiên cứu sinh tại Đại học Stanford và là thành viên của Sáng kiến Nguồn gốc Dữ liệu. Trong một bài báo năm 2023 được công bố khi ông còn làm việc tại công ty AI HuggingFace ở New York, ông và các đồng nghiệp đã chỉ ra rằng một mô hình học được nhiều như nhau từ việc đọc lại một tập dữ liệu bốn lần so với việc đọc cùng một lượng dữ liệu mới — mặc dù lợi ích của việc đọc lại giảm nhanh sau đó.

Mặc dù OpenAI chưa tiết lộ thông tin về kích thước mô hình hoặc tập dữ liệu huấn luyện cho LLM mới nhất của họ, o1, công ty đã nhấn mạnh rằng mô hình này dựa vào một cách tiếp cận mới: dành nhiều thời gian hơn cho việc học tăng cường (quá trình mà mô hình nhận phản hồi về các câu trả lời tốt nhất của mình) và suy nghĩ kỹ hơn về mỗi phản hồi. Các quan sát chỉ ra rằng mô hình này chuyển trọng tâm khỏi việc tiền huấn luyện với các tập dữ liệu khổng lồ và tập trung hơn vào quá trình huấn luyện và suy diễn. Đây là một cách tiếp cận mới trong chiến lược mở rộng, theo Longpre, mặc dù đây là một chiến lược tốn kém về tính toán.

Có thể rằng các LLM, sau khi đọc gần hết Internet, không cần thêm dữ liệu để trở nên thông minh hơn. Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania, người nghiên cứu về bảo mật AI, cho rằng những tiến bộ trong tương lai có thể đến từ khả năng tự phản ánh của một AI. “Bây giờ nó đã có một cơ sở tri thức nền tảng, có lẽ lớn hơn bất kỳ cá nhân nào, điều nó cần chỉ là ngồi lại và suy nghĩ,” Zou nhận định. “Tôi nghĩ chúng ta có thể đã khá gần với điểm đó.”

Villalobos cho rằng tất cả các yếu tố này — từ dữ liệu tổng hợp, tập dữ liệu chuyên biệt, đến việc đọc lại và tự phản ánh — sẽ đóng góp vào việc tiến xa hơn. “Sự kết hợp giữa khả năng tự suy nghĩ và khả năng tương tác với thế giới thực theo nhiều cách — có lẽ đó là điều sẽ thúc đẩy những đột phá tiếp theo.”

Nature 636, 290-292 (2024)
doi: https://doi.org/10.1038/d41586-024-03990-2

Không có file đính kèm.

Nguồn tham khảo

119

AI robotics-auto-agents AI data 2024-12-10 15:26:52

Databricks nâng tầm AI: Tạo dữ liệu tổng hợp để cải thiện hiệu suất agent

- Databricks vừa công bố khả năng tạo dữ liệu tổng hợp nhằm đơn giản hóa quá trình đánh giá hiệu suất của các AI agent trong môi trường doanh nghiệp.
- Mục tiêu chính là giúp các nhà phát triển có thể nhanh chóng tạo ra tập dữ liệu nhân tạo chất lượng cao để đánh giá các hệ thống agent đang phát triển.
- Giải pháp này giúp giảm thiểu thời gian tương tác với các chuyên gia và tăng tốc quy trình đưa các agent vào sản xuất.
- Mặc dù chi tiết hơn về cách hoạt động của dữ liệu tổng hợp vẫn chưa được công bố, công ty cho biết thử nghiệm nội bộ cho thấy cải thiện đáng kể về hiệu suất của các AI agent.
- Databricks đã tiếp nhận MosaicML và tích hợp công nghệ này vào nền tảng Đánh giá Dữ liệu, cho phép doanh nghiệp xây dựng và triển khai các giải pháp máy học và AI tạo sinh trên dữ liệu của họ.
- Tính năng Đánh giá Agent hiện có hai khả năng chính: cho phép chuyên gia tự định nghĩa tập dữ liệu và tạo ra một thước đo để đánh giá chất lượng phản hồi của AI agent.
- Dữ liệu tổng hợp giúp rút ngắn thời gian xây dựng tập dữ liệu đánh giá, do đó giảm khối lượng công việc của các chuyên gia.
- Hệ thống mới cho phép các nhà phát triển tạo ra tập dữ liệu đánh giá trong vài phút thay vì hàng giờ.
- Thử nghiệm nội bộ cho thấy hiệu suất của AI agent được cải thiện gần gấp đôi trong khả năng tìm kiếm tài liệu liên quan.
- Quy trình tạo dữ liệu chỉ cần 4 bước đơn giản, giúp tạo dữ liệu một cách nhanh chóng mà không cần chuyển đổi sang môi trường bên ngoài.
- Nhiều doanh nghiệp đã sử dụng API dữ liệu tổng hợp và ghi nhận sự cải thiện 60% trong chất lượng phản hồi của mô hình trước khi nhờ sự can thiệp của các chuyên gia.
- Databricks dự định mở rộng Đánh giá Agent với các tính năng cho phép chuyên gia chỉnh sửa dữ liệu tổng hợp và quản lý vòng đời của tập dữ liệu đánh giá.
- Các giải pháp mới dự kiến sẽ thúc đẩy việc áp dụng Mosaic AI của Databricks, củng cố vị thế của công ty trong lĩnh vực dữ liệu và AI tạo sinh.
- Snowflake cũng đang theo kịp với các sản phẩm AI của mình, bao gồm việc hợp tác với Anthropic để phát triển ứng dụng AI.

📌 Databricks ra mắt API tạo dữ liệu tổng hợp, giúp giảm 60% thời gian cải thiện đại lý AI và nâng cao hiệu suất gần gấp đôi trong việc tìm kiếm tài liệu. Công ty dự kiến mở rộng tính năng này trong tương lai.

https://venturebeat.com/data-infrastructure/databricks-makes-ai-agent-evaluation-a-breeze-with-new-synthetic-data-capabilities/

Không có file đính kèm.

Nguồn tham khảo

147

AI data AI riêng tư 2024-11-27 05:12:23

Microsoft lên tiếng: Không dùng tài liệu Word của người dùng để huấn luyện AI

- Gần đây xuất hiện nhiều lo ngại về việc Microsoft thu thập dữ liệu từ tài liệu Word và bảng tính Excel để huấn luyện hệ thống AI

- Microsoft đã giới thiệu tính năng Connected Experiences vào tháng 10, được kích hoạt mặc định trong menu Options với 3 tùy chọn:
+ Turn On Experiences That Analyze Your Content
+ Turn On Experiences That Download Online Content
+ Turn On All Connected Experiences

- Người phát ngôn Microsoft khẳng định:
+ Không sử dụng dữ liệu khách hàng từ Microsoft 365 để huấn luyện mô hình ngôn ngữ lớn
+ Connected Services không liên quan đến quá trình huấn luyện AI
+ Đây là tính năng tiêu chuẩn ngành nhằm kết nối internet để nâng cao năng suất

- Connected Experiences cung cấp các tính năng hữu ích:
+ Đề xuất thông tin và hình ảnh liên quan từ web khi soạn thảo
+ Hỗ trợ cộng tác thời gian thực và tích hợp lưu trữ đám mây
+ Công cụ Editor trong Word giúp kiểm tra ngữ pháp và văn phong

- Người dùng có thể tắt Connected Services bằng cách:
+ Mở menu File trong Word/Excel
+ Chọn Options > Trust Center > Trust Center Settings
+ Vào Privacy Options > Privacy Settings
+ Bỏ chọn 3 tùy chọn trong phần Connected Experiences

📌 Microsoft đã chính thức phủ nhận việc sử dụng dữ liệu người dùng từ Microsoft 365 để huấn luyện AI. Tính năng Connected Experiences chỉ nhằm cải thiện trải nghiệm người dùng thông qua kết nối internet và có thể dễ dàng tắt đi trong cài đặt.

https://www.howtogeek.com/is-microsoft-using-your-word-documents-to-train-ai/

Không có file đính kèm.

Nguồn tham khảo

143

AI tools AI data 2024-11-27 05:08:47

Model Context Protocol (MCP) - giao thức nguồn mở kết nối AI Claude với dữ liệu thực tế của doanh nghiệp

- Anthropic AI vừa công bố Model Context Protocol (MCP), một giao thức nguồn mở giúp kết nối trợ lý AI Claude với dữ liệu thực tế

- MCP giải quyết hạn chế lớn của hệ thống AI: không thể truy cập thông tin trong các công cụ phân mảnh, hệ thống cũ và bộ dữ liệu rời rạc

- Cơ chế hoạt động của MCP:
+ Máy chủ MCP cho phép nhà phát triển chia sẻ dữ liệu để AI truy cập
+ Ứng dụng AI kết nối trực tiếp với máy chủ MCP
+ Anthropic cung cấp SDK, máy chủ có sẵn và kho nguồn mở hỗ trợ triển khai

- Tính năng chính:
+ Tương thích phổ biến với Google Drive, Slack, GitHub, Postgres
+ Claude 3.5 Sonnet đơn giản hóa việc triển khai máy chủ
+ Các công ty lớn như Block và Apollo đã áp dụng MCP

- Hướng dẫn bắt đầu cho nhà phát triển:
+ Cài đặt máy chủ MCP qua ứng dụng Claude Desktop
+ Làm theo hướng dẫn nhanh để xây dựng máy chủ tùy chỉnh
+ Đóng góp vào kho nguồn mở để mở rộng tích hợp

- MCP tạo ra giải pháp thiết thực cho việc cô lập dữ liệu AI, giúp doanh nghiệp xây dựng công cụ AI thông minh hơn với phản hồi và thông tin chi tiết phù hợp

📌 Model Context Protocol của Anthropic AI mang đến giải pháp đột phá kết nối AI với hệ thống thực tế. Giao thức nguồn mở này đã thu hút các công ty lớn như Block và Apollo áp dụng, hứa hẹn thay đổi cách doanh nghiệp tích hợp và tận dụng công nghệ AI.

https://aitoolsclub.com/anthropic-ai-introduces-mcp-the-key-to-connecting-ai-assistants-and-business-tools/

Không có file đính kèm.

Nguồn tham khảo

213

AI data AI doanh nghiệp 2024-11-04 06:50:00

Tại sao các công ty nên tập trung vào mục tiêu nhỏ và cụ thể khi áp dụng AI tạo sinh?

- Chet Kapoor, chủ tịch kiêm CEO của Datastax khẳng định: không thể có AI mà không có dữ liệu phi cấu trúc ở quy mô lớn

- Tại sự kiện Techcrunch Disrupt 2024, các chuyên gia thảo luận về tầm quan trọng của:
+ Chất lượng dữ liệu
+ Vai trò của dữ liệu thời gian thực trong AI tạo sinh
+ Ưu tiên product-market fit hơn là quy mô trong giai đoạn đầu của AI

- Các đội ngũ SWAT đang viết hướng dẫn về cách xây dựng ứng dụng AI tạo sinh, thay vì đọc sách hướng dẫn có sẵn

- Vanessa Larco từ quỹ đầu tư NEA đề xuất cách tiếp cận thực tế:
+ Xác định rõ mục tiêu cần đạt được
+ Tìm kiếm dữ liệu phù hợp với mục tiêu
+ Không nên áp dụng AI tạo sinh cho toàn bộ công ty ngay từ đầu
+ Tập trung vào các ứng dụng nội bộ với mục tiêu cụ thể

- George Fraser, CEO của Fivetran nhấn mạnh:
+ Chỉ giải quyết các vấn đề hiện tại
+ 99% chi phí đổi mới thường đến từ những thứ không hiệu quả
+ Fivetran có khách hàng lớn như OpenAI và Salesforce

- Chet Kapoor ví von giai đoạn hiện tại là "kỷ nguyên Angry Birds của AI tạo sinh":
+ Năm 2024: các doanh nghiệp đưa các ứng dụng nhỏ, nội bộ vào sản xuất
+ Năm 2025: dự đoán là năm của sự chuyển đổi, với các ứng dụng thực sự thay đổi quỹ đạo phát triển của doanh nghiệp

📌 AI tạo sinh đang trong giai đoạn sơ khai giống như thời kỳ đầu của web và smartphone. Các chuyên gia khuyến nghị doanh nghiệp nên bắt đầu từ các dự án nhỏ, nội bộ với 99% chi phí đổi mới đến từ những thử nghiệm không thành công.

https://techcrunch.com/2024/11/03/genai-suffers-from-data-overload-so-companies-should-focus-on-smaller-specific-goals/

Không có file đính kèm.

Nguồn tham khảo

142

AI so sánh AI data 2024-10-29 07:13:32

Thất vọng với công cụ phân tích dữ liệu mới của Claude - Không thể so sánh với ChatGPT

• Anthropic vừa công bố Claude 3.5 Sonnet hỗ trợ phân tích dữ liệu, tương tự như Advanced Data Analysis của ChatGPT

• Claude cung cấp tính năng phân tích dữ liệu miễn phí cho tất cả người dùng, trong khi ChatGPT yêu cầu gói Plus hoặc Enterprise với phí 20 USD/tháng trở lên

• Claude sử dụng JavaScript để viết và chạy mã phân tích, trong khi ChatGPT dùng Python. JavaScript có ưu thế về trực quan hóa dữ liệu web nhưng kém hơn Python về machine learning và AI

• Giới hạn nghiêm trọng của Claude:
- Chỉ cho phép tải lên 5 file cùng lúc
- Giới hạn 30MB dung lượng file
- Chỉ xử lý được khoảng 2.000 dòng (25 ký tự/dòng) với bản miễn phí
- Bản Pro (20 USD/tháng) chỉ tăng giới hạn lên 5 lần, tương đương 10.000 dòng

• So sánh với ChatGPT Plus:
- Xử lý được 69.215 bản ghi (50 ký tự/dòng)
- Phân tích được 170.000+ dòng mã G-code
- Không gặp giới hạn với các tập dữ liệu lớn

• Thử nghiệm thực tế với Claude:
- Chỉ có thể phân tích bộ dữ liệu nhỏ 85 bản ghi
- Biểu đồ tròn bị cắt nhãn dữ liệu
- Khả năng phân tích cơ bản về phân phối và xu hướng

📌 Claude không đáp ứng được kỳ vọng về phân tích dữ liệu khi so với ChatGPT Plus. Với giới hạn chỉ 2.000 dòng (bản free) và 10.000 dòng (bản Pro), công cụ này chỉ phù hợp cho demo công nghệ, không thực sự hữu ích cho phân tích dữ liệu chuyên nghiệp.

https://www.zdnet.com/article/how-claudes-new-ai-data-analysis-tool-compares-to-chatgpts-version-hint-it-doesnt/

Không có file đính kèm.

Nguồn tham khảo

166

AI nhỏ AI tools AI data 2024-10-29 06:43:50

Microsoft Asia ra mắt SPEED - Framework AI giúp tiết kiệm 90% chi phí tạo dữ liệu embedding so với GPT-4

• Embedding văn bản đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), chuyển đổi văn bản thành vector số để máy tính có thể hiểu và xử lý

• Thách thức lớn nhất là việc tạo ra lượng lớn dữ liệu huấn luyện chất lượng cao, khi các phương pháp hiện tại phụ thuộc vào các mô hình độc quyền như GPT-4 với chi phí rất cao

• Các nhà nghiên cứu từ Trường Trí tuệ nhân tạo Gaoling và Microsoft đã phát triển framework SPEED, sử dụng mô hình nguồn mở nhỏ để tạo dữ liệu embedding chất lượng cao

• SPEED hoạt động thông qua 3 thành phần chính:
- Generator cấp thấp tạo dữ liệu tổng hợp ban đầu
- Generator cấp cao tối ưu chất lượng dựa trên tín hiệu đánh giá từ GPT-4
- Data revisor tinh chỉnh và nâng cao chất lượng đầu ra

• Kết quả ấn tượng của SPEED:
- Chỉ sử dụng 45.000 lệnh gọi API so với 500.000 của E5mistral
- Tiết kiệm hơn 90% chi phí
- Điểm trung bình 63,4 trên bộ đánh giá MTEB
- Hiệu suất cao trong nhiều tác vụ:
+ Phân loại: 78,4
+ Phân cụm: 49,3
+ Phân loại cặp: 88,2
+ Xếp hạng lại: 60,8
+ Truy xuất: 56,5
+ So sánh ngữ nghĩa: 85,5
+ Tóm tắt: 31,1

📌 Framework SPEED của Microsoft Asia đã tạo ra bước đột phá trong việc tạo dữ liệu embedding chất lượng cao với chi phí thấp, tiết kiệm 90% chi phí so với phương pháp truyền thống, đạt điểm trung bình 63,4 trên MTEB và hoạt động hiệu quả trên nhiều tác vụ NLP khác nhau.

https://www.marktechpost.com/2024/10/28/microsoft-asia-research-introduces-speed-an-ai-framework-that-aligns-open-source-small-models-8b-to-efficiently-generate-large-scale-synthetic-embedding-data/

Không có file đính kèm.

Nguồn tham khảo

151

AI data 2024-10-26 06:47:42

Cựu nhân viên OpenAI tố cáo công ty vi phạm bản quyền trong việc thu thập dữ liệu

• Suchir Balaji, cựu nhà nghiên cứu AI tại OpenAI (làm việc đến tháng 8/2024), đã lên tiếng tố cáo công ty vi phạm luật bản quyền

• Balaji từng phụ trách thu thập dữ liệu cho mô hình GPT-4 multimodal của OpenAI, ban đầu anh coi đây chỉ là dự án nghiên cứu và không nghĩ nó sẽ trở thành chatbot tích hợp công cụ tạo ảnh AI

• Cựu nhân viên này cho biết anh bị thu hút bởi nghiên cứu AI vì tin công nghệ này có thể mang lại lợi ích cho thế giới, nhưng giờ đây anh nghĩ nó gây hại nhiều hơn lợi

• Theo Balaji, OpenAI đang đe dọa chính những đối tượng mà công ty lấy dữ liệu để xây dựng sản phẩm - bao gồm cá nhân, doanh nghiệp và các dịch vụ internet

• OpenAI xây dựng các sản phẩm như ChatGPT và DALL-E bằng cách lấy dữ liệu từ web và đưa vào chương trình machine learning để học hỏi

• Phía OpenAI khẳng định việc sử dụng dữ liệu công khai của họ được bảo vệ bởi nguyên tắc "fair use" (sử dụng hợp lý) và các tiền lệ pháp lý

• Tuy nhiên, lập luận về fair use chưa được kiểm chứng tại tòa án và OpenAI đang đối mặt nhiều vụ kiện, chủ yếu từ các tác giả văn bản, bao gồm The New York Times

• Balaji phản bác rằng hoạt động của OpenAI không đáp ứng tiêu chí fair use vì công ty đang sao chép dữ liệu có bản quyền và tổng hợp lại

📌 Cựu nhân viên OpenAI đã công khai chỉ trích việc thu thập dữ liệu của công ty, cho rằng đây là hành vi vi phạm bản quyền. Vấn đề này đang gây tranh cãi lớn khi OpenAI phải đối mặt với nhiều vụ kiện, trong khi vẫn bảo vệ quan điểm về việc sử dụng dữ liệu hợp pháp theo nguyên tắc fair use.

https://petapixel.com/2024/10/25/former-openai-employee-condemns-the-companys-data-scraping-practices/

Không có file đính kèm.

Nguồn tham khảo

150

AI data 2024-10-26 06:21:22

Claude AI cải thiện việc truy cập kho lưu trữ Nghị viện châu Âu

• Nghị viện châu Âu tích hợp Claude AI của Anthropic vào hệ thống lưu trữ thông qua công cụ mới có tên Archibot

• Kho lưu trữ bao gồm hàng triệu tài liệu từ năm 1952 đến nay, gồm hồ sơ lập pháp, tài liệu hành chính, biên bản đàm phán và thư từ lịch sử

• Từ 10.000 tài liệu ban đầu, kho lưu trữ đã phát triển lên đến hàng triệu tài liệu, đòi hỏi công cụ điều hướng tiên tiến hơn

• Archibot giúp:
- Tìm kiếm tài liệu liên quan nhanh chóng
- Tổng hợp báo cáo toàn diện
- Phân tích xu hướng trên bộ dữ liệu lớn

• Hệ thống hỗ trợ đa ngôn ngữ, mở rộng từ tiếng Pháp ban đầu sang nhiều ngôn ngữ khác

• Đối tượng hưởng lợi chính:
- Nhà nghiên cứu phân tích xu hướng lịch sử
- Nhà hoạch định chính sách xây dựng luật mới
- Giáo viên phát triển giáo trình
- Công dân quan tâm đến quá trình lập pháp

• Claude AI duy trì kiểm soát chặt chẽ việc sử dụng dữ liệu, đảm bảo quyền riêng tư và độ tin cậy

• Sáng kiến này củng cố các nguyên tắc dân chủ về:
- Tính minh bạch trong quản trị
- Công dân được thông tin đầy đủ
- Sự tham gia của công chúng vào quá trình chính trị

📌 Claude AI đã chuyển đổi kho lưu trữ Nghị viện châu Âu từ 10.000 tài liệu ban đầu thành hệ thống thông minh chứa hàng triệu tài liệu, với khả năng truy cập đa ngôn ngữ toàn cầu. Hệ thống mới Archibot tăng cường hiệu quả nghiên cứu và hoạch định chính sách, đồng thời thúc đẩy sự tham gia dân chủ trong kỷ nguyên số.

https://www.geeky-gadgets.com/how-claude-ai-is-transforming-european-parliament-archive-access/

Không có file đính kèm.

Nguồn tham khảo

139

AI data AI pháp lý-quản trị-chủ quyền 2024-10-21 01:17:32

Cách tiếp cận 2 hướng của Trung Quốc đối với việc phát triển AI

• Đảng Cộng sản Trung Quốc (ĐCSTQ) đang theo đuổi mục tiêu trở thành nhà lãnh đạo thế giới trong phát triển và triển khai các mô hình AI.

• Mỹ và các công ty Mỹ hiện vẫn dẫn đầu trong phát triển phần cứng và phần mềm tiên tiến cho các mô hình AI mạnh mẽ hơn.

• Tuy nhiên, việc tiếp cận dữ liệu đang trở thành mối quan ngại ngày càng lớn đối với các nhà phát triển AI Mỹ do các vụ kiện cáo liên quan đến bản quyền.

• ĐCSTQ đang áp dụng cách tiếp cận hai hướng đối với quản trị AI:
- Kiểm soát chặt chẽ dữ liệu đầu vào và đầu ra của các mô hình tạo sinh công khai.
- Áp đặt ít hoặc không có hạn chế đối với phát triển và triển khai mô hình trong doanh nghiệp, nghiên cứu và quân sự.

• Cục Quản lý Không gian mạng Trung Quốc (CAC) đã ban hành hướng dẫn về hạn chế và quy tắc đào tạo mô hình AI tạo sinh.

• Ủy ban Kỹ thuật Tiêu chuẩn hóa An ninh Thông tin Quốc gia (NISSTC) gần đây đã công bố dự thảo quy định mới về phát triển và sử dụng AI tạo sinh.

• Các quy định này miễn trừ cho các nhà phát triển không cung cấp dịch vụ tạo sinh cho công chúng khỏi các hạn chế về truy cập dữ liệu, tính minh bạch và kiểm tra an toàn.

• ĐCSTQ đang tận dụng AI để phục vụ tham vọng toàn cầu thông qua giám sát kỹ thuật số và thao túng các công nghệ lưỡng dụng.

• Trung Quốc đã xuất khẩu phần cứng và phần mềm do họ sản xuất trên toàn thế giới, được sử dụng để triển khai giám sát bằng AI.

• Các hệ thống AI có thể được sử dụng để giành lợi thế trong xung đột vũ trang, với máy bay không người lái tự động ngày càng phổ biến trong chiến tranh.

• Các công ty Trung Quốc như DJI và Autel là nhà lãnh đạo thế giới về phần cứng và phần mềm máy bay không người lái.

• Các nhà phát triển mô hình AI hàng đầu của Mỹ đang phải đối mặt với các vụ kiện liên quan đến việc sử dụng tác phẩm có bản quyền trong đào tạo mô hình.

• Để cạnh tranh với Trung Quốc, Mỹ và các đồng minh nên đặt cược vào sự cởi mở, đầu tư khu vực tư nhân và hành động chính phủ có mục tiêu.

• Các quốc gia như Nhật Bản, Singapore và Israel đã làm rõ luật của họ liên quan đến khai thác văn bản và dữ liệu để thúc đẩy phát triển AI.

• Các nhà hoạch định chính sách Mỹ cần xem xét các khuôn khổ để giải quyết mối quan ngại của chủ sở hữu quyền mà không cắt đứt quyền truy cập vào dữ liệu đào tạo công khai.

📌 ĐCSTQ áp dụng chiến lược hai hướng trong phát triển AI: kiểm soát chặt mô hình công khai nhưng tự do cho mục đích quân sự và công nghiệp. Mỹ cần đảm bảo quyền tiếp cận dữ liệu đào tạo và thúc đẩy đổi mới để duy trì vị thế dẫn đầu, tránh mất lợi thế chiến lược do hạn chế quá mức về bản quyền.

https://nationalinterest.org/blog/techland/ccp%E2%80%99s-two-track-approach-ai-training-213289

Không có file đính kèm.

Nguồn tham khảo

161

AI riêng tư AI data 2024-10-17 00:03:59

LinkedIn bị buộc phải dừng thu thập dữ liệu người dùng Hong Kong cho AI

• LinkedIn đã tạm dừng thu thập dữ liệu người dùng Hong Kong cho mô hình AI tạo sinh sau khi cơ quan giám sát quyền riêng tư của thành phố bày tỏ lo ngại.

• Văn phòng ủy viên bảo vệ dữ liệu cá nhân (PCPD) cho biết LinkedIn đã phản hồi các câu hỏi về cài đặt mặc định cho phép thu thập dữ liệu người dùng Hong Kong để đào tạo các mô hình AI.

• LinkedIn xác nhận đã tạm dừng sử dụng dữ liệu cá nhân của người dùng Hong Kong cho mục đích này từ ngày 11/10/2024.

• Trước đó vào tháng 9, LinkedIn đã cập nhật chính sách quyền riêng tư, cho phép mặc định sử dụng dữ liệu và nội dung của người dùng để đào tạo AI tạo sinh của nền tảng.

• Người dùng phải tự tắt tùy chọn này trong cài đặt tài khoản nếu không muốn chia sẻ thông tin.

• Công ty đã tạm dừng thu thập dữ liệu người dùng Anh vào tháng trước sau khi cơ quan quản lý quyền riêng tư của nước này bày tỏ lo ngại tương tự.

• Francis Fong Po-kiu, chủ tịch danh dự của Liên đoàn công nghệ thông tin Hong Kong, cảnh báo về nguy cơ rò rỉ dữ liệu người dùng khi các công ty công nghệ thu thập thông tin để đào tạo mô hình AI.

• Ông đặt câu hỏi về cách che giấu dữ liệu cá nhân và liệu có thông tin nào bị rò rỉ trong quá trình này không.

• Fong cho rằng việc sử dụng tính năng AI tạo sinh trên các nền tảng mạng xã hội là xu hướng ngày càng phổ biến, khiến các cơ quan quản lý quyền riêng tư ngày càng lo ngại về an toàn dữ liệu cá nhân trực tuyến.

• Người phát ngôn của LinkedIn cho biết công ty luôn sử dụng một số hình thức tự động hóa cho các sản phẩm và minh bạch với người dùng về lựa chọn và việc sử dụng dữ liệu của họ.

• LinkedIn tin rằng người dùng nên có khả năng kiểm soát dữ liệu của mình, vì vậy họ đang cung cấp tùy chọn từ chối đào tạo mô hình AI ở các quốc gia thực hiện việc này.

• Công ty cho biết nhu cầu về các công cụ hỗ trợ viết bằng AI là rất cao.

• Việc sử dụng dữ liệu thành viên cho mô hình AI tạo sinh đã bị dừng ở Khu vực kinh tế châu Âu, Vương quốc Anh, Thụy Sĩ, Hong Kong và Trung Quốc đại lục.

📌 LinkedIn đã tạm dừng thu thập dữ liệu người dùng Hong Kong cho AI tạo sinh từ 11/10/2024 sau khi cơ quan giám sát quyền riêng tư bày tỏ lo ngại. Công ty cam kết minh bạch và cho phép người dùng kiểm soát dữ liệu, đồng thời đã dừng thu thập dữ liệu ở nhiều khu vực khác như châu Âu và Trung Quốc.

https://www.scmp.com/news/hong-kong/society/article/3282452/linkedin-suspends-collecting-hong-kong-users-data-genai-privacy-watchdog

Không có file đính kèm.

Nguồn tham khảo

151

AI data 2024-10-15 09:11:38

Chiến lược dữ liệu cho các nhà lãnh đạo AI

- Doanh nghiệp bắt đầu thực hiện các bước quan trọng để tận dụng giá trị thực từ AI tạo sinh.
- Năm 2023 chứng kiến sự ngạc nhiên của khách hàng với AI tạo sinh; năm 2024 là thời điểm triển khai quy mô lớn các chương trình AI có trách nhiệm.
- Một số nỗ lực AI tạo sinh vẫn còn khiêm tốn, chủ yếu tập trung vào việc tăng năng suất và giảm bớt công việc tẻ nhạt.
- Nhiều doanh nghiệp có tham vọng lớn hơn, muốn thay đổi cách thức hoạt động và sản phẩm của mình.
- Sự kỳ vọng vào AI tạo sinh có thể làm thay đổi mô hình kinh doanh và sản phẩm do khả năng khai thác dữ liệu khổng lồ từ nguồn dữ liệu chưa cấu trúc.
- Theo Baris Gultekin, 80-90% dữ liệu toàn cầu là chưa cấu trúc; AI mở ra cơ hội cho các tổ chức khai thác thông tin từ loại dữ liệu này.
- Khảo sát từ MIT Technology Review Insights cho thấy 72% giám đốc điều hành ưu tiên khả năng tăng hiệu quả và năng suất của công nghệ AI tạo sinh.
- 55% cho rằng nó sẽ tăng tính cạnh tranh trên thị trường; 47% mong muốn cải thiện sản phẩm và dịch vụ.
- Chỉ 30% coi công nghệ này là yếu tố chính thúc đẩy doanh thu tăng lên.
- Hơn một nửa số công ty xem việc tìm kiếm con đường mới để cạnh tranh là một trong ba mục tiêu hàng đầu của họ.
- Chakraborty nhấn mạnh rằng có sự giao thoa giữa hiệu quả và đổi mới trong hoạt động hiện tại.
- Các chiến dịch marketing đang được tái thiết kế nhờ sức mạnh của AI tạo sinh, tạo ra hiệu quả mới và đổi mới sản phẩm.
- Một khách hàng của Snowflake đã sử dụng AI để cung cấp 700.000 trang nghiên cứu cho đội ngũ của họ, giúp tăng tốc độ đổi mới.
- Sự phát triển của chatbot là ví dụ điển hình về ảnh hưởng của AI tạo sinh, với 44% giám đốc điều hành nhận thấy sự cải thiện trong sự hài lòng của khách hàng.
- Gần một phần ba số người tham gia khảo sát (30%) cho rằng cả tăng năng suất và đổi mới đều nằm trong ba loại giá trị hàng đầu mà họ mong muốn từ AI tạo sinh.
- Một số công ty đang "đặt cược lớn" vào đổi mới toàn diện với AI tạo sinh, đặc biệt trong ngành dược phẩm.

📌 Năm 2024 chứng kiến sự chuyển mình mạnh mẽ trong ứng dụng AI tạo sinh. Doanh nghiệp không có chiến lược dữ liệu sẽ khó khăn trong việc cạnh tranh. Hơn 72% giám đốc điều hành mong muốn tăng hiệu quả và năng suất thông qua công nghệ này.

https://www.technologyreview.com/2024/10/14/1105249/data-strategies-for-ai-leaders/

#MIT

Không có file đính kèm.

Nguồn tham khảo

133

AI data AI startup-M&A 2024-10-05 08:32:01

Reducto gọi vốn thành công phát triển AI đọc hiểu tài liệu phức tạp như PDF, bảng tính

• Reducto vừa huy động được 8,4 triệu USD trong vòng gọi vốn hạt giống do First Round Capital dẫn đầu

• Startup này được thành lập năm 2023 và là thành viên của khóa mùa đông 2024 của Y Combinator

• Các nhà đầu tư khác tham gia vòng gọi vốn bao gồm Y Combinator, BoxGroup, SVAngel, Liquid2 và một số nhà đầu tư thiên thần nổi tiếng

• Reducto phát triển công nghệ AI giúp đọc hiểu các tài liệu phức tạp như PDF và bảng tính, vốn là thách thức đối với các mô hình ngôn ngữ lớn hiện nay

• Công ty đã huấn luyện nhiều mô hình về các dấu hiệu trực quan trong tài liệu như khoảng cách giữa các đoạn văn, tab trong danh sách để hiểu cấu trúc phân cấp

• Mục tiêu là xây dựng công cụ AI tạo sinh mô phỏng thị giác và khả năng đọc của con người

• Reducto cung cấp công nghệ cho các công ty khác, với khách hàng bao gồm startup công nghệ pháp lý Leya, một công ty AI chăm sóc sức khỏe, một startup giai đoạn sau xử lý tài liệu cho các cơ quan chính phủ Mỹ và một công ty công nghệ lớn

• Có nhiều startup tập trung vào phân tích PDF nhưng chủ yếu phục vụ cá nhân, trong khi Reducto nhắm vào thị trường doanh nghiệp

• Humata AI, một startup trong lĩnh vực này, đã gọi vốn 3,5 triệu USD từ Gradient Ventures của Google vào năm ngoái

• ChatGPT Store của OpenAI cũng giới thiệu nhiều nhà phát triển AI xử lý PDF

📌 Reducto gọi vốn thành công 8,4 triệu USD để phát triển công nghệ AI đọc hiểu tài liệu phức tạp như PDF, bảng tính. Startup này nhắm tới cải thiện khả năng phân tích tài liệu của các mô hình ngôn ngữ lớn, với mục tiêu trở thành cầu nối giữa dữ liệu của con người và LLM.

https://www.businessinsider.com/pitch-deck-ai-pdf-startup-reducto-vc-funding-first-round

Không có file đính kèm.

Nguồn tham khảo

146

AI data AI benchmark 2024-10-03 03:02:50

Google phát hành bộ dữ liệu FRAMES đánh giá toàn diện các ứng dụng AI tạo sinh có RAG

• Google và Đại học Harvard đã phát triển bộ dữ liệu FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) gồm 824 câu hỏi đa bước thách thức để đánh giá các hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).

• FRAMES đánh giá 3 khả năng cốt lõi của hệ thống RAG: tính chính xác, khả năng truy xuất và suy luận. Các câu hỏi bao gồm nhiều chủ đề từ lịch sử, thể thao đến hiện tượng khoa học.

• Khoảng 36% câu hỏi yêu cầu suy luận qua nhiều ràng buộc, 20% đòi hỏi so sánh số học, và 16% cần phân biệt thời gian. Mỗi câu hỏi cần từ 2-15 bài viết Wikipedia để trả lời.

• Phương pháp truy xuất đơn bước truyền thống chỉ đạt độ chính xác 0,40, trong khi phương pháp truy xuất đa bước mới cải thiện đáng kể lên 0,66.

• Phương pháp mới tạo ra nhiều truy vấn tìm kiếm theo các bước lặp lại, mỗi truy vấn truy xuất các tài liệu xếp hạng cao nhất và thêm vào ngữ cảnh của mô hình.

• Mô hình tiên tiến nhất đạt độ chính xác 0,40 trong kịch bản đánh giá một bước, cải thiện lên 0,45 với hai tài liệu bổ sung và 0,47 với bốn tài liệu.

• Oracle Prompt, nơi tất cả tài liệu cần thiết có trong ngữ cảnh, cho độ chính xác 0,73, cho thấy tiềm năng của hệ thống truy xuất hoàn hảo.

• Nghiên cứu nhấn mạnh nhu cầu phát triển thêm các hệ thống RAG, đặc biệt là cải thiện cơ chế truy xuất và khả năng suy luận.

• Kết quả cung cấp nền tảng vững chắc cho công việc trong tương lai tập trung vào cải thiện tích hợp truy xuất đa tài liệu phức tạp và tinh chỉnh khung suy luận.

• Bộ dữ liệu FRAMES cung cấp bức tranh rõ ràng hơn về hiệu suất của hệ thống RAG trong các ứng dụng thực tế, mở đường cho các đổi mới trong tương lai.

📌 Google phát hành FRAMES - bộ dữ liệu 824 câu hỏi đa bước để đánh giá toàn diện hệ thống RAG. Phương pháp truy xuất đa bước mới cải thiện độ chính xác từ 0,40 lên 0,66. Tuy nhiên, vẫn còn thách thức trong suy luận số học và xử lý bảng biểu.

https://www.marktechpost.com/2024/10/01/google-releases-frames-a-comprehensive-evaluation-dataset-designed-to-test-retrieval-augmented-generation-rag-applications-on-factuality-retrieval-accuracy-and-reasoning/

Không có file đính kèm.

Nguồn tham khảo

174

AI data AI doanh nghiệp 2024-09-30 04:08:32

Redbird ra mắt nền tảng chat AI tự động hóa 90% công việc phân tích dữ liệu trong doanh nghiệp

• Redbird, công ty có trụ sở tại New York, đã công bố nền tảng chat mới sử dụng "agent chuyên biệt" để giúp doanh nghiệp xử lý phần lớn các tác vụ trong chuỗi giá trị phân tích, từ thu thập và xử lý dữ liệu đến khoa học dữ liệu và tạo ra các insights.

• Nền tảng này cho phép người dùng đưa ra yêu cầu bằng ngôn ngữ tự nhiên để nhận được phân tích từ dữ liệu gần như theo thời gian thực. Theo CEO Erin Tavgac, công nghệ này có thể đảm nhận hơn 90% công việc business intelligence của doanh nghiệp.

• Redbird đã hoạt động trong lĩnh vực phân tích từ năm 2018 dưới tên Cube Analytics, cung cấp bộ công cụ no-code để tự động hóa các tác vụ phân tích. Đầu năm nay, họ đã bổ sung giao diện hội thoại cho phép đặt câu hỏi bằng ngôn ngữ tự nhiên.

• Hệ thống agent mới hoạt động dựa trên bộ công cụ end-to-end của Redbird để điều phối và thực hiện các tác vụ phân tích phức tạp. Quản trị viên cần chọn một mô hình ngôn ngữ lớn làm nền tảng và tải lên dữ liệu, logic nghiệp vụ và mẫu báo cáo của tổ chức để tùy chỉnh hệ thống.

• Các agent có thể trích xuất dữ liệu từ hơn 100 nguồn khác nhau, thực hiện xử lý nâng cao, tạo báo cáo và thực hiện các hành động cần thiết dựa trên kết quả phân tích.

• Redbird vẫn duy trì giao diện kéo thả no-code ban đầu như một tùy chọn phụ, cho phép người dùng kiểm tra chi tiết quy trình làm việc nếu cần.

• Công ty đã thu hút được 8 trong số 50 thương hiệu Fortune và hơn 30 khách hàng doanh nghiệp vừa và lớn trong vài tháng qua, bao gồm Mondelez International, USA Today, Bobcat Company và Johnson & Johnson.

• Redbird đang cung cấp công nghệ theo mô hình SaaS với phí cấp phép dựa trên mức sử dụng và tạo ra doanh thu 7 chữ số.

• Trong tương lai, công ty sẽ tiếp tục phát triển các agent AI tiên tiến hơn và mở rộng sang mô hình "Large Action Model" cho phép thực hiện các hành động phức tạp hơn dựa trên kết quả phân tích.

📌 Redbird đã phát triển nền tảng chat AI mới có khả năng tự động hóa 90% công việc phân tích dữ liệu trong doanh nghiệp. Công nghệ này đã thu hút được nhiều khách hàng lớn và đang tạo ra doanh thu 7 chữ số. Redbird đang hướng tới việc phát triển các agent AI tiên tiến hơn trong tương lai.

https://venturebeat.com/data-infrastructure/redbird-supercharges-analytics-pipeline-with-ai-agents-handles-90-of-workload/

Không có file đính kèm.

Nguồn tham khảo

139

AI đạo đức AI minh bạch AI data 2024-09-25 01:59:43

84% chuyên gia ủng hộ bắt buộc công khai việc sử dụng AI trong sản phẩm

• Theo khảo sát của MIT Sloan Management Review và Boston Consulting Group, 84% chuyên gia AI quốc tế ủng hộ việc bắt buộc các công ty phải công khai về việc sử dụng AI trong sản phẩm và dịch vụ của họ.

• Các chuyên gia cho rằng việc công khai thúc đẩy tính minh bạch, là nền tảng của khuôn khổ AI có trách nhiệm hiệu quả. Nó giúp khách hàng đưa ra quyết định sáng suốt và tăng cường niềm tin.

• Công khai cũng được xem là nghĩa vụ đạo đức của các công ty đối với khách hàng. Nó giúp người dùng đánh giá rủi ro và tìm cách giảm thiểu, ví dụ như kiểm tra kết quả đầu ra của mô hình ngôn ngữ lớn trước khi sử dụng.

• Ngoài nghĩa vụ đạo đức, việc công khai còn giúp xây dựng niềm tin với khách hàng, nhà đầu tư và nhân viên. Đây có thể là yếu tố quan trọng trong việc lựa chọn và gắn bó với một công ty.

• Tuy nhiên, việc thực hiện công khai hiệu quả cũng gặp nhiều thách thức. Chưa có định nghĩa rõ ràng để phân biệt AI với phần mềm hay hệ thống ra quyết định khác, gây khó khăn trong việc xác định khi nào cần công khai.

• Một số chuyên gia cảnh báo việc công khai có thể làm lộ bí mật cạnh tranh. Họ khuyến nghị không nên bao gồm thông tin về sở hữu trí tuệ hoặc bí mật thương mại trong phần công khai.

• Việc giải thích AI bằng ngôn ngữ thân thiện với người dùng cũng là thách thức lớn. Công khai kém chất lượng có thể làm suy yếu tính minh bạch và trách nhiệm giải trình.

• Các chuyên gia đồng ý rằng công ty nên công khai khi khách hàng tương tác với AI và khi AI được sử dụng trong các quyết định quan trọng. Đặc biệt trong các lĩnh vực như y tế, tài chính và tuyển dụng.

• Nhiều chuyên gia cho rằng công ty cũng nên công khai về dữ liệu liên quan đến AI, bao gồm cách quản lý và bảo vệ dữ liệu được thu thập bởi các ứng dụng AI.

• Các khuyến nghị cho việc công khai AI bao gồm: cân nhắc các nguyên tắc AI có trách nhiệm cốt lõi, làm cho việc công khai dễ hiểu, vượt xa yêu cầu pháp lý, và công bố chi tiết về thực hành AI có trách nhiệm.

📌 84% chuyên gia ủng hộ bắt buộc công khai việc sử dụng AI trong sản phẩm để tăng cường minh bạch và niềm tin của khách hàng. Tuy nhiên, việc thực hiện hiệu quả gặp nhiều thách thức về định nghĩa, bảo mật và truyền đạt. Các công ty nên cân nhắc công khai khi AI tác động đến quyết định quan trọng và dữ liệu cá nhân.

https://sloanreview.mit.edu/article/artificial-intelligence-disclosures-are-key-to-customer-trust/

#MIT

Không có file đính kèm.

Nguồn tham khảo

143

AI data AI bản quyền 2024-09-23 20:41:44

Cloudflare ra mắt marketplace cho phép các website thu phí từ AI bots khi truy vấn dữ liệu

- Cloudflare công bố kế hoạch ra mắt một marketplace trong năm tới, cho phép chủ sở hữu website bán quyền truy vấn dữ liệu cho các nhà cung cấp mô hình AI.

- Marketplace này là một phần trong kế hoạch lớn của CEO Cloudflare, Matthew Prince, nhằm giúp các nhà xuất bản kiểm soát cách thức và thời gian các AI bots truy vấn nội dung của họ.

- Cloudflare đồng thời ra mắt công cụ miễn phí mang tên **AI Audit** giúp người dùng quan sát hoạt động của các AI bots trên trang web của mình. AI Audit cung cấp bảng điều khiển để xem thống kê lý do, thời điểm và tần suất các mô hình AI truy cập website.

- Chủ website có thể dùng AI Audit để chặn hoặc cho phép một số AI bots cụ thể, tùy thuộc vào thỏa thuận hoặc nhu cầu.

- Một ví dụ của AI Audit cho thấy người dùng có thể theo dõi AI bots của các công ty lớn như OpenAI, Meta, Amazon, và những nhà cung cấp mô hình AI khác đang truy vấn dữ liệu của website họ bao nhiêu lần.

- Công cụ này giải quyết vấn đề lớn mà các nhà xuất bản nhỏ đang đối mặt khi AI truy vấn quá nhiều dữ liệu, khiến mô hình kinh doanh của họ bị đe dọa vì giảm lượt truy cập.

- Một số trang web nhỏ bị cáo buộc AI bots của startup như Perplexity đã truy vấn trái phép dù họ đã sử dụng **Robots Exclusion Protocol**.

- Cloudflare cũng cung cấp nút bấm một lần để chặn mọi AI bots nếu chủ sở hữu cảm thấy dữ liệu của họ bị đánh cắp mà không được bồi thường.

- Các nhà xuất bản lớn như TIME, Condé Nast, và The Atlantic, dù có thỏa thuận cấp phép với OpenAI, cũng có ít thông tin về tần suất truy vấn từ ChatGPT trên trang của họ.

- Marketplace của Cloudflare sẽ cho phép cả các nhà xuất bản nhỏ đạt được thỏa thuận tương tự như các đơn vị lớn, cho phép họ định giá nội dung truy vấn bởi các mô hình AI.

- Chi tiết về mức giá cụ thể hoặc hình thức thanh toán (bằng tiền hoặc tín dụng) vẫn chưa được Cloudflare tiết lộ rõ ràng, nhưng ý tưởng là các trang web có thể kiếm tiền từ nội dung bị truy vấn.

📌 Cloudflare đang phát triển một marketplace cho phép các website nhỏ thu phí từ AI bots khi truy vấn dữ liệu. Họ cũng giới thiệu công cụ AI Audit giúp chặn hoặc cho phép AI bots. Đây là bước đi quan trọng để bảo vệ quyền lợi nhà xuất bản, nhất là các trang nhỏ bị tổn thương bởi AI bots.

https://techcrunch.com/2024/09/23/cloudflares-new-marketplace-lets-websites-charge-ai-bots-for-scraping/

Không có file đính kèm.

Nguồn tham khảo

147

AI data 2024-09-23 00:41:52

30 thống kê AI gây sốc năm 2024: AI đang thay đổi thế giới như thế nào?

1. Tỷ lệ áp dụng AI trong các tổ chức đã tăng vọt từ 50% lên 72% vào năm 2024, cho thấy sự chuyển biến đáng kể trong cách doanh nghiệp tiếp cận AI.

2. AI tạo sinh được sử dụng nhiều nhất trong marketing và bán hàng (34%) và phát triển sản phẩm/dịch vụ (23%). Các ứng dụng phổ biến bao gồm hỗ trợ nội dung marketing, marketing cá nhân hóa và phát triển thiết kế.

3. 35% người được khảo sát đã thử AI tạo sinh ít nhất một lần. Việc sử dụng thường xuyên ngoài công việc tăng từ 16% lên 26%, trong khi số người không tiếp xúc với AI tạo sinh giảm từ 18% xuống 8%.

4. 79% lãnh đạo đồng ý rằng AI rất quan trọng để duy trì khả năng cạnh tranh, nhưng 59% lo ngại về cách đo lường lợi ích năng suất từ AI.

5. Tuân thủ, rủi ro và quản trị là những rào cản lớn nhất đối với việc áp dụng AI tạo sinh. 30% lãnh đạo gặp khó khăn trong quản lý rủi ro và tuân thủ, 36% thiếu mô hình quản trị rõ ràng.

6. Nhân viên thuộc mọi thế hệ đang sử dụng công cụ AI cá nhân để nâng cao năng suất: 85% Gen Z, 78% Millennials, 76% Gen X và 73% Baby Boomers.

7. Thị trường AI dự kiến sẽ tăng từ 184 tỷ USD vào năm 2024 lên 826 tỷ USD vào năm 2030, cho thấy sự tăng trưởng mạnh mẽ.

8. Doanh thu phần mềm AI toàn cầu dự kiến đạt gần 100 tỷ USD vào năm 2025.

9. Ngành ngân hàng và bán lẻ dẫn đầu về chi tiêu cho AI, với ngân hàng đầu tư 20,6 tỷ USD và bán lẻ 19,7 tỷ USD vào năm 2023.

10. 67% tổ chức dự kiến sẽ tăng đầu tư vào AI trong 3 năm tới. 42% báo cáo tiết kiệm chi phí và 59% thấy tăng doanh thu nhờ sử dụng AI.

11. 41% nhà tiếp thị sử dụng AI tạo sinh để tự động hóa các tác vụ như viết bài, đăng mạng xã hội và trang đích.

12. 34% giám đốc marketing cho biết AI đang cải thiện trải nghiệm khách hàng.

13. 68% nhà tiếp thị cho rằng AI có tác động tích cực đến sự nghiệp của họ.

14. 77% người tiêu dùng lo ngại về việc mất việc làm do AI trong 12 tháng tới.

15. 47% tin rằng AI sẽ cắt giảm nhiều việc làm hơn là tạo ra trong 3 năm tới.

16. Việc làm liên quan đến AI chiếm 1,6% tổng số việc làm được đăng tuyển ở Mỹ năm 2023, giảm từ 2% năm 2022.

17. 74% chuyên gia IT dự đoán nhu cầu về kỹ năng phân tích dữ liệu sẽ tăng cao nhất do sự phát triển của AI tạo sinh.

18. Python là kỹ năng hàng đầu trong bộ công nghệ khoa học dữ liệu.

19. 66% lãnh đạo nói họ sẽ không thuê người không có kỹ năng AI.

20. 71% lãnh đạo thích thuê ứng viên ít kinh nghiệm hơn nhưng có kỹ năng AI.

21. Các nghề nghiệp có nguy cơ bị ảnh hưởng bởi AI cao nhất là: người vận hành máy (46%), nhân viên dịch vụ khách hàng (42%), công nhân kho bãi (41%) và nhà thiết kế đồ họa (40%).

22. Số lượng quy định liên quan đến AI ở Mỹ đã tăng từ 1 vào năm 2016 lên 25 vào năm 2023.

23. 68,5% lãnh đạo doanh nghiệp cho rằng nhân viên không nên sử dụng công cụ AI mà không có sự cho phép.

24. 55% tổ chức tránh một số trường hợp sử dụng AI tạo sinh do lo ngại về dữ liệu.

25. Tỷ lệ người coi quyền riêng tư dữ liệu là nguyên tắc đạo đức chính cho công nghệ mới nổi giảm từ 19% xuống 7%.

26. 39% người được khảo sát tò mò về AI, trong khi 37% lo lắng.

27. 39% người được khảo sát tin rằng AI có tiềm năng tốt nhất trong các công nghệ mới nổi, tăng từ 33% năm 2022.

28. 57% người được khảo sát cho rằng AI có khả năng gây ra rủi ro đạo đức nghiêm trọng, tăng từ 41% năm 2022.

29. 76% lo ngại về việc AI gây ra thông tin sai lệch trên trang web của công ty.

30. 80% khách hàng cho rằng việc con người xác thực kết quả đầu ra của AI là quan trọng, nhấn mạnh nhu cầu giám sát của con người.

📌 AI đang phát triển nhanh chóng, mở ra cơ hội đổi mới và hiệu quả. Tỷ lệ áp dụng tăng từ 50% lên 72% vào năm 2024. Thị trường AI dự kiến đạt 826 tỷ USD vào năm 2030. Tuy nhiên, vẫn còn lo ngại về mất việc làm, đạo đức và quy định. Cần cân bằng giữa khai thác tiềm năng và quản lý rủi ro của AI.

https://www.jeffbullas.com/ai-stats/

Không có file đính kèm.

Nguồn tham khảo

215

AI data 2024-09-20 10:23:14

Các bot AI như OpenAI và Anthropic đang gây rối và làm tăng chi phí cho các trang web

- Các bot AI từ OpenAI và Anthropic đang gây ra sự tắc nghẽn lớn cho nhiều trang web, làm tăng chi phí vận hành và ảnh hưởng tiêu cực đến các nhà sáng tạo độc lập.

- Edd Coates, người sáng lập Game UI Database, đã trải qua tình trạng tắc nghẽn nghiêm trọng khi lưu lượng truy cập từ một địa chỉ IP của OpenAI làm chậm trang web của anh.
- Trang web của Coates đã bị tải lại 200 lần mỗi giây, dẫn đến lỗi 502 Bad Gateway và thời gian tải trang tăng gấp 3 lần.
- Chi phí cho băng thông đám mây của Coates đã tăng lên 850 USD mỗi ngày do lưu lượng truy cập khổng lồ từ bot AI.
- Một nghiên cứu cho thấy nguồn dữ liệu huấn luyện AI có thể cạn kiệt vào năm 2032, dẫn đến cuộc đua thu thập dữ liệu giữa các công ty công nghệ.
- Joshua Gross, nhà sáng lập Planetary, cũng gặp phải tình trạng tương tự khi lưu lượng truy cập từ bot AI làm tăng gấp đôi chi phí máy chủ của khách hàng.
- Số lượng các trang web áp dụng hạn chế robots.txt đối với bot AI đã tăng mạnh từ tháng 4 năm 2023 đến tháng 4 năm 2024.
- Theo nghiên cứu, 25.9% trong số các hạn chế này là dành cho OpenAI, trong khi 13.3% dành cho Anthropic và 9.8% cho Google.
- Nhiều chủ sở hữu trang web lo ngại về việc dữ liệu của họ bị sử dụng để huấn luyện mô hình mà không có sự đồng ý.
- David Senecal từ Akamai cho biết rằng việc thu thập dữ liệu bằng bot AI có thể gây ra vấn đề về tài sản trí tuệ và làm sai lệch các chỉ số quan trọng như tỷ lệ chuyển đổi.
- Roberto Di Cosmo, giám đốc Software Heritage, đã chứng kiến sự gia tăng chưa từng có của bot AI làm tắc nghẽn cơ sở dữ liệu mã nguồn mở của mình.
- Tania Cohen từ 360Giving cho biết tổ chức phi lợi nhuận của cô đã bị ngừng hoạt động do bot AI gây ra lưu lượng truy cập quá lớn.

📌 Cuộc chiến giữa các công ty AI và chủ sở hữu trang web đang gia tăng với những tác động tiêu cực rõ rệt. Các bot AI không chỉ làm tăng chi phí mà còn gây khó khăn cho những nhà sáng tạo độc lập như Edd Coates.

https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

Không có file đính kèm.

Nguồn tham khảo

189

AI riêng tư AI data 2024-09-19 07:27:36

Linkedin lén lút lấy dữ liệu người dùng để huấn luyện AI - cách ngăn chặn ngay

• LinkedIn vừa tiết lộ đang sử dụng dữ liệu người dùng để huấn luyện các mô hình AI của mình mà không có sự đồng ý rõ ràng từ người dùng.

• Dữ liệu được sử dụng bao gồm thông tin trang cá nhân, bài đăng và các nội dung khác trên LinkedIn.

• LinkedIn khẳng định không gửi dữ liệu người dùng cho OpenAI, nhưng có sử dụng các mô hình của OpenAI thông qua dịch vụ Azure AI của Microsoft.

• Hiện tại, các chính sách của LinkedIn như Điều khoản Trang, Thỏa thuận Người dùng, Chính sách Quyền riêng tư và Chính sách Bản quyền không đề cập đến AI.

• LinkedIn đang cập nhật Thỏa thuận Người dùng và Chính sách Quyền riêng tư để công khai việc sử dụng dữ liệu cho AI.

• Người dùng EU được tự động loại trừ khỏi việc thu thập dữ liệu cho AI "cho đến khi có thông báo mới".

• Một số người dùng cho rằng Microsoft nên trả tiền cho việc khai thác dữ liệu của họ trên LinkedIn.

• Người dùng có thể tắt cài đặt này bằng cách vào Cài đặt > Quyền riêng tư dữ liệu > Dữ liệu để cải thiện AI tạo sinh.

• LinkedIn thuộc sở hữu của Microsoft, công ty có mối quan hệ tài chính chặt chẽ với OpenAI.

• Chính sách hiện tại của LinkedIn cấm người dùng sử dụng phần mềm, thiết bị, script hoặc robot để thu thập dữ liệu từ nền tảng.

• LinkedIn cũng cấm người dùng bán hoặc kiếm lợi từ bất kỳ dữ liệu nào được đăng tải trên nền tảng.

• Việc sử dụng dữ liệu cho AI đã gây ra tranh cãi, với một số người dùng kêu gọi tắt tính năng này ngay lập tức.

• Ido Banai, CEO của VectorField, cho rằng người dùng nên được trả tiền mỗi khi dữ liệu của họ được sử dụng để huấn luyện máy học.

📌 LinkedIn đang âm thầm sử dụng dữ liệu người dùng để huấn luyện AI mà không có sự đồng ý rõ ràng. Người dùng EU được bảo vệ tốt hơn, trong khi những người khác cần chủ động tắt cài đặt này. Vấn đề này làm dấy lên tranh cãi về quyền riêng tư và bồi thường cho việc sử dụng dữ liệu cá nhân trong thời đại AI.

https://www.pcmag.com/news/linkedin-is-quietly-training-ai-on-your-data-heres-how-to-stop-it

Không có file đính kèm.

Nguồn tham khảo

180

AI data AI models AI mở-nguồn mở 2024-09-14 07:45:32

DataGemma: Mô hình AI mới của Google giải quyết vấn đề ảo giác bằng dữ liệu thực tế từ Data Commons

• Google giới thiệu DataGemma - mô hình AI nguồn mở đầu tiên được thiết kế để giải quyết vấn đề ảo giác của các mô hình ngôn ngữ lớn (LLM) bằng cách kết nối chúng với dữ liệu thống kê thực tế từ Data Commons.

• Data Commons là một đồ thị kiến thức công khai chứa hơn 240 tỷ điểm dữ liệu từ các tổ chức uy tín như Liên Hợp Quốc, WHO, CDC và các Cục Thống kê.

• DataGemma sử dụng hai phương pháp chính để nâng cao độ chính xác của LLM:

1. RIG (Tạo sinh được xen kẽ bởi truy xuất): Chủ động truy vấn nguồn đáng tin cậy và kiểm tra thông tin với Data Commons. Khi được yêu cầu tạo phản hồi, mô hình được lập trình để xác định các trường hợp dữ liệu thống kê và truy xuất câu trả lời từ Data Commons.

2. RAG (Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài): Cho phép mô hình ngôn ngữ kết hợp thông tin liên quan ngoài dữ liệu huấn luyện. DataGemma truy xuất thông tin ngữ cảnh liên quan từ Data Commons trước khi mô hình bắt đầu tạo phản hồi.

• Kết quả sơ bộ cho thấy cải thiện đáng kể về độ chính xác của mô hình ngôn ngữ khi xử lý các sự kiện số học, giảm thiểu ảo giác cho người dùng.

• Google đang tiếp tục nghiên cứu và cam kết hoàn thiện các phương pháp này, với mục tiêu cuối cùng là tích hợp chức năng nâng cao này vào cả mô hình Gemma và Gemini.

• Bằng cách chia sẻ nghiên cứu và công khai mô hình DataGemma, Google hy vọng thúc đẩy việc áp dụng rộng rãi hơn các kỹ thuật dựa trên Data Commons để làm nền tảng cho LLM trong dữ liệu thực tế.

• Các nhà nghiên cứu và nhà phát triển có thể bắt đầu với DataGemma bằng cách sử dụng các notebook khởi động nhanh cho cả phương pháp RIG và RAG.

📌 DataGemma là mô hình AI nguồn mở đầu tiên kết nối LLM với 240 tỷ điểm dữ liệu thực tế từ Data Commons. Sử dụng phương pháp RIG và RAG, DataGemma giúp giảm ảo giác AI và nâng cao độ chính xác khi xử lý dữ liệu số học, hướng tới tương lai AI đáng tin cậy hơn.

https://blog.google/technology/ai/google-datagemma-ai-llm/

Không có file đính kèm.

Nguồn tham khảo

161

AI data AI riêng tư 2024-09-13 23:36:05

Meta khởi động lại việc sử dụng bài đăng công khai trên Facebook và Instagram của người dùng Anh để huấn luyện AI

• Meta xác nhận sẽ khởi động lại kế hoạch sử dụng bài đăng công khai trên Facebook và Instagram của người dùng Anh để huấn luyện hệ thống AI của mình.

• Công ty tuyên bố đã "kết hợp phản hồi từ cơ quan quản lý" vào cách tiếp cận "từ chối tham gia" đã được sửa đổi để "minh bạch hơn nữa".

• Meta cho rằng việc này sẽ giúp các mô hình AI tạo sinh của họ "phản ánh văn hóa, lịch sử và thành ngữ của Anh".

• Từ tuần tới, người dùng Anh sẽ bắt đầu thấy thông báo trong ứng dụng giải thích về kế hoạch này. Meta dự định bắt đầu sử dụng nội dung công khai để huấn luyện AI trong những tháng tới.

• Động thái này diễn ra 3 tháng sau khi Meta tạm dừng kế hoạch do áp lực từ cơ quan quản lý ở Anh, với Văn phòng Ủy viên Thông tin (ICO) nêu lo ngại về cách Meta có thể sử dụng dữ liệu người dùng Anh.

• Ủy ban Bảo vệ Dữ liệu Ireland, cơ quan quản lý quyền riêng tư chính của Meta tại EU, cũng phản đối kế hoạch của Meta. Chưa rõ khi nào Meta sẽ khởi động lại nỗ lực huấn luyện AI ở EU.

• Meta đã sử dụng nội dung do người dùng tạo ra ở các thị trường như Mỹ để tăng cường AI, nhưng các quy định về quyền riêng tư toàn diện của châu Âu đã tạo ra thách thức.

• Trước đó vào tháng 5, Meta bắt đầu thông báo cho người dùng ở châu Âu về thay đổi chính sách quyền riêng tư sắp tới, nói rằng họ sẽ bắt đầu sử dụng nội dung từ bình luận, tương tác với công ty, cập nhật trạng thái, ảnh và chú thích đi kèm để huấn luyện AI.

• Tổ chức phi lợi nhuận về quyền riêng tư noyb đã đệ đơn khiếu nại với các quốc gia thành viên EU, cho rằng Meta vi phạm nhiều khía cạnh của Quy định Bảo vệ Dữ liệu Chung (GDPR) của EU.

• Meta vẫn giữ cách tiếp cận "từ chối tham gia" thay vì "chọn tham gia", khiến người dùng phải chủ động từ chối việc sử dụng thông tin của họ. Công ty nói rằng họ dựa vào cơ sở pháp lý "lợi ích hợp pháp" trong GDPR.

• Meta tuyên bố đã đơn giản hóa biểu mẫu từ chối lần này, kết hợp phản hồi từ ICO. Tuy nhiên, công ty chưa giải thích cụ thể cách thức đơn giản hóa.

• ICO cho biết sẽ "theo dõi tình hình" khi Meta tiến hành kế hoạch sử dụng dữ liệu của Anh để huấn luyện mô hình AI.

📌 Meta tiếp tục kế hoạch sử dụng dữ liệu người dùng Anh để huấn luyện AI, bất chấp lo ngại về quyền riêng tư. Công ty tuyên bố đã cải thiện tính minh bạch và quy trình từ chối, nhưng vẫn giữ cách tiếp cận "từ chối tham gia" gây tranh cãi. ICO sẽ giám sát chặt chẽ việc tuân thủ luật bảo vệ dữ liệu của Meta.

https://techcrunch.com/2024/09/13/meta-reignites-plans-to-train-ai-using-uk-users-public-facebook-and-instagram-posts/

Không có file đính kèm.

Nguồn tham khảo

261

AI data 2024-09-09 01:24:56

AWS: 57% nội dung web do robot tạo ra, chủ yếu là dịch máy

• Một nghiên cứu mới từ AWS cho thấy 57% nội dung văn bản trên internet hiện đã được tạo ra bởi AI.

• Phần lớn nội dung được xuất bản trên web là bản dịch được tạo bởi Dịch máy (Machine Translation), một loại AI tập trung vào việc dịch văn bản.

• Việc này không chỉ có hại cho người dùng và người sáng tạo nội dung, mà còn cản trở việc huấn luyện các mô hình AI tạo sinh.

• Các mô hình ngôn ngữ lớn (LLM) dựa vào nội dung do con người và chuyên gia tạo ra để cung cấp thông tin chính xác hơn. Việc sao chép văn bản bằng AI và chỉ thông qua dịch thuật ảnh hưởng đến hiệu suất của AI tạo sinh.

• Nghiên cứu của AWS nhấn mạnh rằng các bản dịch thường có lỗi vì chúng xuất phát từ các văn bản được viết kém chất lượng. Hậu quả là những nội dung dịch này sẽ cung cấp thông tin không chính xác hoặc kém chất lượng cho người dùng.

• Ngoài ra còn có vấn đề là LLM sẽ "tái chế" nội dung cho việc huấn luyện của chính nó - tức là AI đang huấn luyện AI, gần giống như một mô hình kim tự tháp.

• Nghiên cứu chỉ ra rằng chất lượng và độ chính xác của các phản hồi được tạo ra bởi LLM suy giảm theo thời gian.

• Đối với những người sử dụng ChatGPT, Gemini, Copilot hoặc các AI khác cho các tác vụ đơn giản hơn, sự suy giảm chất lượng này có thể không được nhận ra. Tuy nhiên, vào cuối năm 2023 và đầu năm 2024, đã có trường hợp ChatGPT bị "lười biếng". Một số độc giả đã phàn nàn về sự suy giảm chất lượng nhất định của các AI tạo sinh.

• Nghiên cứu của AWS đề xuất một giải pháp: sử dụng các công nghệ để phát hiện nội dung được tạo ra bởi Dịch máy (MT). Khác với các công cụ dịch thuật cơ bản chỉ dịch từng từ một, MT sử dụng AI để đánh giá ngữ cảnh của văn bản.

📌 Nghiên cứu của AWS tiết lộ 57% nội dung web do AI tạo ra, chủ yếu qua dịch máy. Điều này gây ra vòng luẩn quẩn khi AI huấn luyện AI, dẫn đến suy giảm chất lượng thông tin và hiệu suất của các mô hình ngôn ngữ lớn theo thời gian. Giải pháp đề xuất là phát triển công nghệ phát hiện nội dung do máy tạo.

https://betechwise.com/57-of-content-on-the-web-was-created-by-robots-study-shows/

Nội dung bài báo:

https://arxiv.org/pdf/2401.05749

• Nghiên cứu chỉ ra rằng một lượng lớn nội dung trên web được dịch sang nhiều ngôn ngữ, và chất lượng thấp của các bản dịch đa ngữ này cho thấy chúng có khả năng được tạo ra bằng dịch máy (MT).

• Nội dung được tạo bởi máy và song ngữ không chỉ chiếm ưu thế trong các bản dịch ở các ngôn ngữ ít tài nguyên, mà còn chiếm một phần lớn tổng số nội dung web ở những ngôn ngữ đó.

• Có bằng chứng về sự thiên vị trong việc lựa chọn loại nội dung được dịch sang nhiều ngôn ngữ, phù hợp với việc nội dung tiếng Anh chất lượng thấp được dịch hàng loạt sang nhiều ngôn ngữ ít tài nguyên thông qua MT.

• Nghiên cứu đặt ra những lo ngại nghiêm trọng về việc huấn luyện các mô hình như mô hình ngôn ngữ đa ngữ lớn trên cả dữ liệu đơn ngữ và song ngữ được thu thập từ web.

• Các tác giả đã tạo ra bộ dữ liệu đa ngữ lớn nhất từ trước đến nay, bao gồm 6,4 tỷ câu duy nhất trong 90 ngôn ngữ để phân tích.

• Phân tích cho thấy nội dung đa ngữ có xu hướng ngắn hơn và đơn giản hơn. Ví dụ, độ dài trung bình của câu tiếng Anh giảm từ 103,7 ký tự ở nội dung song ngữ xuống còn 59,9 ký tự ở nội dung đa ngữ (8+ ngôn ngữ).

• Chất lượng của các bản dịch đa ngữ thấp hơn đáng kể so với các bản dịch song ngữ. Điểm CometQE trung bình giảm 6,2 điểm từ nội dung song ngữ đến nội dung đa ngữ (8+ ngôn ngữ).

• Có sự thay đổi đáng kể trong phân bố chủ đề khi so sánh nội dung song ngữ với nội dung đa ngữ. Ví dụ, tỷ lệ nội dung thuộc chủ đề "Hội thoại & Ý kiến" tăng từ 22,5% ở nội dung song ngữ lên 40,1% ở nội dung đa ngữ (8+ ngôn ngữ).

• Nghiên cứu cũng chỉ ra rằng các công cụ như LASER có xu hướng ưu tiên đầu ra của MT hơn là bản dịch của con người, với điểm tương đồng cosine cao hơn khoảng 2,8% cho đầu ra MT.

• Các phát hiện này giải thích tại sao MT cho các ngôn ngữ ít tài nguyên lại khó khăn, và tại sao việc lọc nhiễu từ dữ liệu song ngữ thu thập từ web lại có lợi cho việc huấn luyện MT.

📌 Nghiên cứu phát hiện 57,1% câu trong bộ dữ liệu 6,4 tỷ câu/90 ngôn ngữ là đa ngữ, với chất lượng và độ phức tạp thấp hơn. Điều này gây lo ngại về chất lượng dữ liệu huấn luyện cho các mô hình ngôn ngữ đa ngữ và MT cho ngôn ngữ ít tài nguyên, đồng thời nhấn mạnh tầm quan trọng của việc lọc dữ liệu web.

Không có file đính kèm.

Nguồn tham khảo

132

AI data AI riêng tư 2024-09-08 12:24:42

X có thể bị phạt vì sử dụng dữ liệu người dùng châu Âu để huấn luyện chatbot AI Grok mà không có sự đồng ý

• Ủy ban Bảo vệ Dữ liệu Ireland (DPC) đã kết thúc thủ tục tòa án liên quan đến việc X xử lý dữ liệu người dùng để đào tạo chatbot AI Grok.

• DPC sẽ xem xét các khiếu nại được đệ trình theo Quy định Bảo vệ Dữ liệu Chung (GDPR) của EU và có thể áp dụng các biện pháp trừng phạt nếu phát hiện vi phạm.

• X đã đồng ý ngừng xử lý dữ liệu cho việc đào tạo Grok vào đầu tháng 8/2024 và cam kết xóa dữ liệu người dùng châu Âu thu thập từ 7/5/2024 đến 1/8/2024.

• Tuy nhiên, X không bị yêu cầu xóa các mô hình AI đã được đào tạo bằng dữ liệu này.

• Các hình phạt theo GDPR có thể lên tới 4% doanh thu hàng năm toàn cầu. Với doanh thu của X đang sụt giảm mạnh, mức phạt này có thể gây tổn thất lớn.

• Các nhà quản lý cũng có quyền yêu cầu thay đổi hoạt động để chấm dứt vi phạm, nhưng quá trình điều tra và thực thi có thể kéo dài nhiều năm.

• Vẫn chưa rõ liệu GDPR có thể yêu cầu xóa mô hình AI được đào tạo bằng dữ liệu xử lý bất hợp pháp hay không.

• Các công cụ AI tạo sinh như Grok có nguy cơ tạo ra thông tin sai lệch, đe dọa quyền và tự do cơ bản của người dùng.

• Giám đốc đối ngoại toàn cầu của X, Nick Pickles, đã rời công ty sau 10 năm làm việc.

• X đang đối mặt với nhiều thách thức khác như bị cấm ở Brazil, chỉ trích ở Anh về vai trò trong việc lan truyền thông tin sai lệch, và điều tra theo khung quản lý nội dung của EU.

📌 X đối mặt nguy cơ bị phạt nặng vì sử dụng trái phép dữ liệu người dùng châu Âu cho AI Grok. Mặc đã ngừng thu thập, X vẫn có thể dùng mô hình AI đã đào tạo. Vụ việc đặt ra thách thức cho việc quản lý AI tạo sinh theo GDPR.

https://techcrunch.com/2024/09/06/elon-musks-x-could-still-face-sanctions-for-training-grok-on-europeans-data/

Không có file đính kèm.

Nguồn tham khảo

136

AI cybersecurity AI data 2024-09-07 02:28:58

Đầu độc dữ liệu là mối đe dọa nghiêm trọng đối với AI tạo sinh, khó phát hiện và ngăn chặn

• Các nhà nghiên cứu tại JFrog phát hiện 100 mô hình AI/ML độc hại được tải lên Hugging Face, làm nổi bật vấn đề đầu độc và thao túng dữ liệu.

• Đầu độc dữ liệu nhắm vào dữ liệu huấn luyện của mô hình AI/ML, khó phát hiện và ngăn chặn. Có thể thực hiện mà không cần hack theo cách truyền thống.

• Có hai loại tấn công: trước khi triển khai (đầu độc dữ liệu huấn luyện) và sau khi triển khai (sửa đổi dữ liệu đầu vào). Cả hai đều rất khó phát hiện và phòng ngừa.

• Các mô hình độc hại trên Hugging Face chứa payload đáng ngờ, có thể do các nhà nghiên cứu tạo ra để chứng minh lỗ hổng.

• Vấn đề tái tạo mô hình AI làm phức tạp việc phát hiện mã độc, do lượng dữ liệu huấn luyện khổng lồ và khó hiểu.

• Hậu quả có thể bao gồm thực thi mã độc, tạo ra vector tấn công lừa đảo mới và phân loại sai đầu ra của mô hình.

• Các biện pháp bảo vệ bao gồm: kiểm tra chuỗi cung ứng dữ liệu, làm sạch dữ liệu, sử dụng nhiều thuật toán, kiểm tra độ mạnh mẽ của hệ thống AI.

• Cần xem xét toàn bộ hệ sinh thái AI như một phần của không gian đe dọa, giám sát đầu vào/đầu ra và phát hiện bất thường.

• Kiểm tra rủi ro của hệ thống AI trong quy trình kinh doanh rộng hơn, bao gồm quản trị dữ liệu và hành vi AI trong các ứng dụng cụ thể.

• Chuyên gia khuyến nghị thực hiện kiểm tra thâm nhập và mô phỏng tấn công đầu độc dữ liệu để đánh giá khả năng phòng thủ.

• Không có cách nào bảo vệ 100% mô hình AI khỏi đầu độc dữ liệu. Cách duy nhất là xác thực tất cả đầu ra dự đoán, nhưng rất tốn kém về mặt tính toán.

📌 Đầu độc dữ liệu là mối đe dọa nghiêm trọng đối với AI tạo sinh, khó phát hiện và ngăn chặn. Cần áp dụng nhiều biện pháp bảo vệ như kiểm tra chuỗi cung ứng dữ liệu, làm sạch dữ liệu, sử dụng nhiều thuật toán và giám sát toàn diện hệ sinh thái AI để giảm thiểu rủi ro.

https://www.techradar.com/pro/data-poisoning-attacks-sounding-the-alarm-on-genais-silent-killer

Không có file đính kèm.

Nguồn tham khảo

134

AI data AI đạo đức AI bản quyền 2024-09-06 04:01:31

Liên minh Nhà cung cấp Dữ liệu (DPA) đề xuất hệ thống opt-in cho việc cấp phép dữ liệu AI

• Liên minh Nhà cung cấp Dữ liệu (DPA) được thành lập vào mùa hè năm nay, gồm 7 công ty cấp phép AI như Rightsify, Pixta và Calliope Networks. (Ít nhất 5 thành viên mới sẽ được công bố vào mùa thu) Mục tiêu là chuẩn hóa và công bằng hóa ngành công nghiệp AI.

• DPA ủng hộ hệ thống opt-in, yêu cầu sự đồng ý rõ ràng của người sáng tạo và chủ sở hữu quyền trước khi sử dụng dữ liệu. Đây là sự thay đổi lớn so với cách hoạt động hiện tại của hầu hết các công ty AI lớn.

• Alex Bestall, CEO của Rightsify, cho rằng hệ thống opt-in không chỉ đạo đức hơn mà còn thực tế hơn, giúp tránh các vụ kiện tụng.

• Ed Newton-Rex từ tổ chức phi lợi nhuận Fairly Trained ủng hộ quan điểm của DPA, cho rằng hệ thống opt-out hiện tại "về cơ bản không công bằng với người sáng tạo".

• DPA phản đối việc cấp phép bắt buộc từ chính phủ, thay vào đó ủng hộ cách tiếp cận "thị trường tự do" để các bên đàm phán trực tiếp.

• Liên minh đề xuất 5 cấu trúc bồi thường tiềm năng, bao gồm mô hình đăng ký, (trong đó phí được trả cho mỗi lần sử dụng) và cấp phép "dựa trên kết quả", trong đó tiền bản quyền gắn liền với lợi nhuận.

• DPA ủng hộ việc sử dụng dữ liệu tổng hợp có kiểm soát, với điều kiện phải cấp phép đúng cách cho thông tin tiền đào tạo và đánh giá thường xuyên để giảm thiểu sai lệch.

• Shayne Longpre từ Data Provenance Initiative lo ngại tiêu chuẩn opt-in có thể khó thực hiện do khối lượng dữ liệu lớn cần thiết cho các mô hình AI hiện đại.

• Bill Rosenblatt, chuyên gia về bản quyền, cho rằng việc chuẩn hóa cấu trúc bồi thường là điều tích cực, giúp quá trình cấp phép trở nên dễ dàng và thuận tiện hơn.

• Sự tồn tại của DPA cho thấy thời kỳ "miền Tây hoang dã" của AI đang dần kết thúc, mặc dù vẫn cần sự ủng hộ từ các công ty lớn trong ngành.

📌 Liên minh Nhà cung cấp Dữ liệu (DPA) đề xuất hệ thống opt-in và 5 mô hình bồi thường cho việc cấp phép dữ liệu AI, nhằm bảo vệ quyền lợi người sáng tạo. Mặc dù đối mặt với thách thức về khối lượng dữ liệu cần thiết, DPA đánh dấu bước chuyển quan trọng hướng tới chuẩn hóa và đạo đức hóa ngành công nghiệp AI.

https://www.wired.com/story/dataset-providers-alliance-ethical-generative-ai-licensing/

Không có file đính kèm.

Nguồn tham khảo

141

AI data 2024-09-06 03:49:28

AWS Summit New York 2024 tập trung vào việc phổ cập hóa dữ liệu và AI

• AWS Summit New York 2024 tập trung vào việc phổ cập hóa dữ liệu và AI, với bài phát biểu chính của Tiến sĩ Matt Wood, phó chủ tịch phụ trách sản phẩm AI tại AWS.

• AWS giới thiệu bộ công cụ GenAI stack gồm 3 lớp: cơ sở hạ tầng, mô hình AI và ứng dụng, phù hợp cho cả người dùng không chuyên và nhà phát triển có kinh nghiệm.

• Về cơ sở hạ tầng, AWS giới thiệu các phiên bản mới được hỗ trợ bởi chip AI như Trainium và Inferentia, cũng như phiên bản EC2 sử dụng GPU Nvidia H100.

• Ở lớp mô hình AI, Amazon Bedrock cung cấp nền tảng để phát triển và triển khai ứng dụng AI tạo sinh với nhiều tính năng mới như tinh chỉnh mô hình, mở rộng nguồn dữ liệu cho RAG và cải thiện tìm kiếm vector.

• Lớp ứng dụng AI bao gồm Amazon Q cho phép người dùng không chuyên tạo nhanh ứng dụng AI an toàn bằng lệnh ngôn ngữ tự nhiên. AWS App Studio giúp các chuyên gia kỹ thuật tạo, triển khai và quản lý ứng dụng doanh nghiệp nhanh chóng hơn.

• AWS tập trung vào việc mở rộng khả năng tiếp cận AI và phân tích dữ liệu cho doanh nghiệp, doanh nghiệp nhỏ và startup thông qua các sáng kiến và dịch vụ mới.

• Amazon Q cho phép người dùng tương tác với dữ liệu bằng ngôn ngữ tự nhiên, loại bỏ nhu cầu kỹ năng kỹ thuật cao và cung cấp thông tin chi tiết do AI tạo ra.

• AWS App Studio và SageMaker Studio giúp phát triển AI dễ tiếp cận hơn với các tính năng không cần code và low-code.

• Các ví dụ thực tế về ứng dụng AI của AWS trong nhiều ngành như tài chính, y tế, sản xuất, bán lẻ và chuỗi cung ứng được trình bày tại hội nghị.

• Chương trình GAI Accelerator của Deloitte và AWS nhằm đẩy nhanh việc phát triển và triển khai các giải pháp AI tạo sinh trong nhiều ngành và chức năng khác nhau.

• Chương trình tập trung vào việc kết hợp chuyên môn ngành của Deloitte với các công nghệ AWS như SageMaker, Bedrock và Amazon Q.

📌 AWS Summit New York 2024 thể hiện cam kết của AWS trong việc phổ cập hóa AI và dữ liệu thông qua bộ công cụ GenAI stack toàn diện, các dịch vụ mới và sáng kiến hợp tác. Sự kiện nhấn mạnh tiềm năng của AI trong việc thúc đẩy đổi mới và tăng trưởng kinh doanh trên nhiều lĩnh vực.

https://www.forbes.com/sites/moorinsights/2024/09/04/aws-summit-new-york-2024-democratizing-data-and-ai/

Không có file đính kèm.

Nguồn tham khảo

125

AI data 2024-09-04 22:56:24

Tạp chí Nature: 57% nội dung Internet là AI sinh ra

• Một nghiên cứu mới được công bố trên tạp chí Nature cho thấy 57% nội dung trên internet hiện nay được tạo ra bởi AI.

• Các nhà nghiên cứu từ Đại học Cambridge và Oxford cảnh báo rằng số lượng nội dung do AI tạo ra ngày càng tăng và việc các công cụ AI phụ thuộc quá nhiều vào chính những nội dung này sẽ dẫn đến kết quả tất yếu là các phản hồi chất lượng thấp cho các truy vấn.

• Nghiên cứu chỉ ra rằng các phản hồi do AI tạo ra cho các truy vấn sẽ suy giảm về giá trị và độ chính xác sau mỗi lần thử.

• Theo Tiến sĩ Ilia Shumailov từ Đại học Oxford, hiện tượng "sụp đổ mô hình" (model collapse) xảy ra nhanh chóng và khó nhận biết. Ban đầu nó ảnh hưởng đến dữ liệu thiểu số, sau đó ảnh hưởng đến sự đa dạng của đầu ra và giảm phương sai.

• Các nhà nghiên cứu cho rằng sự suy giảm chất lượng phản hồi của chatbot là do "quá liều vòng lặp" nội dung do AI tạo ra. Các mô hình AI phụ thuộc vào thông tin trên internet để đào tạo, nếu thông tin đó do AI tạo ra và không chính xác, quá trình đào tạo sẽ kém hiệu quả, dẫn đến việc tạo ra câu trả lời sai và thông tin sai lệch.

• Sam Altman, CEO của OpenAI, thừa nhận không thể tạo ra các công cụ như ChatGPT mà không sử dụng nội dung có bản quyền, mặc dù luật bản quyền không cấm việc sử dụng nội dung để đào tạo các mô hình AI.

• Các nhà nghiên cứu đã sử dụng một wiki được hỗ trợ bởi AI đã được đào tạo trước để đưa ra kết luận. Họ đào tạo công cụ này bằng cách sử dụng chính đầu ra của nó và ngay lập tức nhận thấy sự suy giảm chất lượng thông tin được tạo ra.

• Vấn đề này có thể bắt nguồn từ việc gia tăng số lượng bài viết do AI tạo ra được xuất bản trực tuyến mà không qua kiểm tra thực tế.

📌 Nghiên cứu cho thấy 57% nội dung internet do AI tạo ra, gây suy giảm chất lượng kết quả tìm kiếm. Hiện tượng "sụp đổ mô hình" AI xảy ra nhanh chóng, ảnh hưởng tiêu cực đến độ chính xác và đa dạng của thông tin. Cần có biện pháp kiểm soát để đảm bảo chất lượng nội dung trực tuyến.

https://www.windowscentral.com/software-apps/sam-altman-indicated-its-impossible-to-create-chatgpt-without-copyrighted-material

Không có file đính kèm.

Nguồn tham khảo

148

AI data 2024-09-04 06:00:51

Meta thông báo cho người dùng Brazil về việc sử dụng dữ liệu cá nhân để huấn luyện AI

• Meta Platforms sẽ thông báo cho người dùng Brazil về việc sử dụng dữ liệu cá nhân của họ để huấn luyện AI tạo sinh, bắt đầu từ ngày 4/9/2024.

• Người dùng sẽ nhận được thông báo qua email và thông báo trên Facebook và Instagram. Họ có quyền từ chối cho phép Meta sử dụng dữ liệu của mình để huấn luyện AI.

• Động thái này diễn ra sau khi Cơ quan Bảo vệ Dữ liệu Quốc gia Brazil (ANPD) yêu cầu Meta phải công khai thông tin về việc sử dụng dữ liệu cá nhân.

• Vào tháng 7/2024, ANPD đã tạm dừng chính sách quyền riêng tư mới của Meta liên quan đến việc sử dụng dữ liệu cá nhân để huấn luyện AI. Tuy nhiên, lệnh cấm này đã được dỡ bỏ vào ngày 1/9/2024 sau khi Meta đồng ý công khai thông tin.

• Cũng trong tháng 7, Meta đã chủ động tạm dừng sử dụng các công cụ AI tạo sinh tại Brazil, bao gồm cả công cụ tạo sticker AI phổ biến trên WhatsApp. Brazil là thị trường lớn thứ hai của WhatsApp.

• Meta cho biết đã quyết định tạm dừng các công cụ này trong khi đang đàm phán với ANPD để giải quyết các thắc mắc của cơ quan này về việc sử dụng AI tạo sinh.

• Khi được hỏi liệu có khôi phục lại các công cụ AI sau khi ANPD dỡ bỏ lệnh cấm hay không, Meta chỉ khẳng định lại rằng việc tạm dừng được thực hiện trong quá trình đàm phán với ANPD.

• Động thái của Meta phản ánh xu hướng ngày càng tăng về việc minh bạch hóa cách các công ty công nghệ lớn sử dụng dữ liệu cá nhân để phát triển công nghệ AI.

• Việc này cũng cho thấy các cơ quan quản lý đang tăng cường giám sát đối với hoạt động của các nền tảng mạng xã hội lớn, đặc biệt là trong lĩnh vực AI đang phát triển nhanh chóng.

📌 Meta buộc phải thông báo cho 130 triệu người dùng Brazil về việc sử dụng dữ liệu cá nhân để huấn luyện AI tạo sinh. Người dùng có quyền từ chối, phản ánh xu hướng minh bạch hóa và tăng cường giám sát đối với hoạt động AI của các công ty công nghệ lớn.

https://www.reuters.com/technology/artificial-intelligence/meta-inform-brazilians-how-it-uses-their-personal-data-train-ai-2024-09-03/

Không có file đính kèm.

Nguồn tham khảo

123

AI data 2024-09-02 18:52:00

Hướng dẫn ngắn gọn về trí tuệ dữ liệu và xu hướng AI mới nhất cho doanh nghiệp

• Trí tuệ dữ liệu: Sử dụng AI để trích xuất thông tin chính xác, phù hợp và độc đáo từ dữ liệu độc quyền, giúp doanh nghiệp tạo lợi thế cạnh tranh trên thị trường.

• Silo dữ liệu: Thông tin cần thiết cho trí tuệ dữ liệu thường bị mắc kẹt trong các ứng dụng và hệ thống trong doanh nghiệp, dẫn đến quyết định dựa trên thông tin hạn chế hoặc không chính xác.

• Data Lakehouse: Kiến trúc mới cho dữ liệu doanh nghiệp, dựa trên các dự án nguồn mở như Apache Spark, Delta Lake và MLflow. Loại bỏ silo dữ liệu và cho phép xây dựng kho thông tin thống nhất.

• Nền tảng trí tuệ dữ liệu: Kết hợp AI với kiến trúc lakehouse để tạo ra động cơ vận hành mới cho doanh nghiệp. Xử lý toàn bộ vòng đời dữ liệu từ tích hợp đến phát triển và triển khai các khối lượng công việc phân tích và AI.

• Quản trị dữ liệu: Kiểm soát và theo dõi dữ liệu để đảm bảo sử dụng phù hợp. Unity Catalog của Databricks quản lý quản trị thông qua một framework duy nhất.

• Xử lý ngôn ngữ tự nhiên: Cho phép người dùng đặt câu hỏi về dữ liệu bằng ngôn ngữ tự nhiên, ví dụ CEO có thể tạo thông tin kinh doanh cần thiết bằng câu hỏi như "Doanh số của tôi trong năm tới trông như thế nào?"

• Dân chủ hóa dữ liệu: Cho phép người dùng không chuyên về kỹ thuật tự tạo thông tin thông minh, thúc đẩy ra quyết định tốt hơn. Cần quản trị mạnh mẽ để mở rộng an toàn đối tượng người dùng có thể truy cập và sử dụng dữ liệu.

• Báo cáo State of Data + AI gần đây cung cấp thông tin về tiến trình của doanh nghiệp trong hành trình trí tuệ dữ liệu.

• Các thuật ngữ như "quản trị dữ liệu", "AI tạo sinh" và "mô hình ngôn ngữ lớn" đang trở nên phổ biến trong môi trường làm việc.

• Lãnh đạo doanh nghiệp cần hiểu ý nghĩa thực sự của các xu hướng, kỹ thuật và công nghệ này, cũng như vai trò của chúng trong tương lai của tổ chức.

• Data Lakehouse loại bỏ hệ sinh thái đóng và định dạng độc quyền, cho phép doanh nghiệp xây dựng kho thông tin thống nhất bao gồm cả tài sản có cấu trúc và phi cấu trúc.

• Nền tảng trí tuệ dữ liệu cung cấp quản trị thống nhất và tăng cường hợp tác giữa các nhà phát triển để cung cấp và liên tục cải thiện các giải pháp kỹ thuật số động lực thúc đẩy giá trị kinh doanh.

📌 Trí tuệ dữ liệu đang định hình lại cách doanh nghiệp vận hành. Bằng cách kết hợp AI, kiến trúc lakehouse và quản trị thống nhất, các công ty có thể khai thác dữ liệu hiệu quả hơn, dân chủ hóa quyền truy cập và thúc đẩy ra quyết định dựa trên dữ liệu trong toàn tổ chức.

https://www.databricks.com/blog/short-guide-understanding-data-intelligence

Không có file đính kèm.

Nguồn tham khảo

145

AI data 2024-09-02 01:40:18

Apple gặp khó khi các trang web lớn đồng loạt chặn bot thu thập dữ liệu AI

• Nhiều trang web lớn đang chặn bot của Apple thu thập dữ liệu để huấn luyện AI, theo báo cáo của Wired.

• Các công ty truyền thông đã thay đổi file robots.txt để chặn Applebot bao gồm The New York Times, The Atlantic, The Financial Times, Gannett, Vox Media và Condé Nast.

• Mạng xã hội như Facebook, Instagram và Tumblr cũng xác nhận đã chặn Apple thu thập dữ liệu từ trang web của họ.

• Một số công ty như Vox, Condé Nast và The Atlantic đã ký thỏa thuận cấp phép nội dung với OpenAI.

• The New York Times đang kiện OpenAI về vi phạm bản quyền.

• Facebook và Instagram thuộc sở hữu của Meta - đối thủ cạnh tranh của Apple trong lĩnh vực AI.

• Apple đã ký thỏa thuận với OpenAI để tích hợp ChatGPT vào các sản phẩm của họ.

• Ngành công nghiệp AI đang cạnh tranh gay gắt về quyền truy cập vào dữ liệu huấn luyện chất lượng cao do con người tạo ra.

• Các trang web đã chặn cụ thể "Apple-Extended" - một bot thu thập dữ liệu của Apple để huấn luyện các mô hình AI nền tảng.

• Việc chặn Applebot-Extended không ngăn cản Applebot gốc thu thập dữ liệu cho Siri và Spotlight của Apple.

• Sự phân biệt này cho thấy Apple thận trọng về vấn đề bản quyền và sở hữu trí tuệ trong kỷ nguyên AI.

• The New York Times không phải công ty duy nhất kiện các nhà phát triển AI.

• Apple có thể muốn tránh thu thập dữ liệu gây tranh cãi hoặc đang trong vụ kiện, đặc biệt khi họ đã hợp tác với OpenAI.

• Động thái này của Apple được ví như "con chim hoàng yến trong mỏ than" trị giá hàng tỷ đô la, phản ánh xu hướng trong ngành AI.

📌 Apple đối mặt với thách thức lớn khi nhiều trang web hàng đầu chặn bot thu thập dữ liệu AI của họ. Điều này phản ánh cuộc cạnh tranh khốc liệt về nguồn dữ liệu chất lượng cao trong ngành AI, với các thỏa thuận và vụ kiện đang định hình lại cách thức hoạt động của ngành.

https://futurism.com/the-byte/apple-ai-training

Cụm từ "con chim hoàng yến trong mỏ than" khi áp dụng cho Apple, ám chỉ hành động thận trọng của họ trong việc thu thập dữ liệu AI là dấu hiệu cảnh báo sớm về các vấn đề pháp lý và đạo đức sắp tới trong ngành. Điều này có thể dẫn đến những thay đổi lớn trong cách các công ty AI tiếp cận việc thu thập và sử dụng dữ liệu.

Cụm từ "con chim hoàng yến trong mỏ than" xuất phát từ một thực tế lịch sử trong ngành khai thác than. Thợ mỏ thường mang theo chim hoàng yến xuống hầm mỏ như một hệ thống cảnh báo sớm về khí độc. Chim hoàng yến rất nhạy cảm với khí độc. Nếu chim ngừng hót hoặc chết, đó là dấu hiệu cho thợ mỏ biết cần phải sơ tán ngay lập tức.

Không có file đính kèm.

Nguồn tham khảo

130

AI data 2024-09-01 00:06:37

cuộc chiến dữ liệu web: ai sẽ thắng - các công ty ai hay chủ sở hữu trang web?

• Báo cáo mới từ Data Provenance Initiative chỉ ra rằng nhiều tổ chức cảm thấy bị đe dọa bởi AI tạo sinh đang có biện pháp ngăn chặn việc thu thập dữ liệu của họ.

• Robots.txt là một tệp máy đọc được mà các bot thu thập sử dụng để xác định có nên thu thập các phần nhất định của một trang web hay không. Gần đây, nhiều trang web đã bắt đầu sử dụng robots.txt để hạn chế bot, đặc biệt là các trang web kiếm tiền từ quảng cáo và paywall.

• Trong vòng chưa đầy một năm, khoảng 5% dữ liệu trong bộ dữ liệu C4 phổ biến đã bị thu hồi nếu tuân thủ các tùy chọn của các trang web cơ sở. Con số này tăng lên 25% đối với 2.000 trang web hàng đầu trong bộ dữ liệu.

• Sự phân bố dữ liệu huấn luyện cho các mô hình tôn trọng robots.txt đang nhanh chóng chuyển dịch từ các trang tin tức chất lượng cao, trang web học thuật, diễn đàn và mạng xã hội sang các trang web tổ chức và cá nhân cũng như thương mại điện tử và blog.

• Các công ty AI lớn có thể sẽ cấp phép dữ liệu trực tiếp hoặc đầu tư nhiều hơn vào việc thu thập dữ liệu liên tục từ các nguồn có giá trị do người dùng tạo ra như YouTube, GitHub và Reddit.

• Dữ liệu tổng hợp đang được các công ty lớn sử dụng với số lượng lớn. Nó có cả cơ hội và thách thức, bao gồm nguy cơ suy thoái mô hình do huấn luyện trên dữ liệu tổng hợp kém chất lượng.

• Vẫn còn nhiều dữ liệu chưa khai thác, nhưng phần lớn bị ẩn trong các tệp PDF, kênh độc quyền hoặc định dạng khó trích xuất. Các công ty sẽ đầu tư nhiều hơn vào việc tìm cách trích xuất dữ liệu này.

• Xu hướng hạn chế trong robots.txt và điều khoản dịch vụ dự kiến sẽ tiếp tục tăng, nhưng có thể bị ảnh hưởng bởi các yếu tố bên ngoài như luật pháp, chính sách công ty và áp lực cộng đồng.

• Cần có các tiêu chuẩn mới để cho phép người tạo nội dung thể hiện tùy chọn của họ về việc sử dụng dữ liệu một cách chi tiết hơn. Tuy nhiên, không rõ ai sẽ là người tạo ra hoặc thực thi các tiêu chuẩn này.

📌 Cuộc chiến dữ liệu web đang leo thang giữa các công ty AI và chủ sở hữu trang web. 25% dữ liệu từ 2.000 trang web hàng đầu đã bị hạn chế trong vòng 1 năm. Các công ty AI lớn có thể sẽ cấp phép dữ liệu trực tiếp hoặc tìm kiếm nguồn dữ liệu thay thế như dữ liệu tổng hợp, trong khi vẫn cần có tiêu chuẩn mới về quyền sử dụng dữ liệu.

Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/c712ee64-82b4-4d1b-9f76-7c735850c3ec/paste.txt

https://spectrum.ieee.org/web-crawling

Không có file đính kèm.

Nguồn tham khảo

120

AI data 2024-08-31 23:53:54

AI tạo sinh có thể khiến sách giấy cũ trở nên quý giá hơn bao giờ hết

• AI tạo sinh đang tràn ngập internet với nội dung có thể sai lệch nhưng rất thuyết phục. Các hệ thống AI như ChatGPT có thể tạo ra hàng nghìn từ mỗi phút mà không cần kiểm duyệt của chuyên gia.

• Theo nghiên cứu của Originality AI, khoảng 14% kết quả tìm kiếm Google hiện nay là do AI tạo ra. Con số này có thể còn cao hơn trong tương lai gần.

• Việc sử dụng nguồn thông tin trực tuyến bị ảnh hưởng bởi AI có thể dẫn đến nguy cơ vô tình lan truyền thông tin sai lệch, ngay cả khi có chuyên gia biên tập.

• Sách do AI tạo ra đang tràn ngập các cửa hàng trực tuyến như Amazon. Điều này có thể gây nguy hiểm, ví dụ như sách về hái nấm do AI viết có thể khiến người đọc ăn phải nấm độc.

• Sách giấy xuất bản trước thời kỳ ChatGPT có thể trở nên cực kỳ quý giá. Đây là bản ghi vĩnh viễn về kiến thức của con người trước khi bị ảnh hưởng bởi AI.

• Các tài liệu về khoa học, y tế, kỹ thuật và lịch sử sẽ đặc biệt quan trọng để đối chiếu với thông tin do AI tạo ra.

• Việc bảo tồn các bản sao điện tử của tài liệu trước thời AI cũng quan trọng không kém. Có thể tạo mã hash để đảm bảo tính toàn vẹn của các tài liệu này.

• Với sự xuất hiện của hình ảnh và video do AI tạo ra, việc lưu giữ các đĩa vật lý có thể trở nên cần thiết.

• Mặc dù AI mang lại nhiều lợi ích tiềm năng, nhưng cần phải cẩn trọng để không làm sai lệch kiến thức nhân loại tích lũy qua hàng nghìn năm.

📌 AI tạo sinh đang làm thay đổi cách chúng ta tiếp cận thông tin. Khoảng 14% kết quả tìm kiếm Google hiện do AI tạo ra. Sách giấy và tài liệu trước thời AI có thể trở nên vô cùng quý giá để bảo tồn kiến thức nhân loại không bị ảnh hưởng bởi nội dung AI thiếu kiểm chứng.

https://www.howtogeek.com/generative-ai-could-make-old-paper-books-more-valuable-than-ever/

Không có file đính kèm.

Nguồn tham khảo

145

AI data 2024-08-26 23:52:25

Khi AI tự đầu độc chính mình: nguy cơ sụp đổ của các mô hình AI

• Dữ liệu do AI tạo ra đang tràn ngập internet với khoảng 100 tỷ từ mỗi ngày, tương đương 1 triệu cuốn tiểu thuyết, được tạo bởi OpenAI.

• Nội dung do AI tạo ra xuất hiện dưới nhiều hình thức như đánh giá nhà hàng, hồ sơ hẹn hò, bài đăng mạng xã hội và thậm chí cả bài báo. NewsGuard đã xác định hơn 1.000 trang web sản xuất các bài báo do AI tạo ra với nhiều lỗi.

• Khi các công ty AI thu thập dữ liệu từ web để đào tạo các mô hình mới, họ có khả năng vô tình sử dụng nội dung do chính AI tạo ra, tạo thành một vòng phản hồi không mong muốn.

• Nghiên cứu cho thấy khi AI tạo sinh được đào tạo trên chính đầu ra của nó, chất lượng có thể giảm đáng kể. Ví dụ về việc nhận dạng chữ số viết tay cho thấy sau 30 thế hệ, các chữ số hội tụ thành một hình dạng duy nhất.

• Hiện tượng này được gọi là "sự sụp đổ mô hình", dẫn đến phạm vi đầu ra AI hẹp hơn theo thời gian. Điều này có thể ảnh hưởng đến các ứng dụng như chatbot tư vấn y tế hoặc trợ lý dạy sử học AI.

• Khi được đào tạo trên đầu ra của chính mình, mô hình ngôn ngữ lớn tạo ra câu trả lời kém chất lượng hơn, thậm chí lặp lại các cụm từ một cách vô nghĩa sau vài thế hệ.

• Vấn đề tương tự cũng xảy ra với các mô hình tạo hình ảnh AI, dẫn đến hình ảnh bị biến dạng với các mẫu nhăn nheo và ngón tay bị méo mó.

• Sự sụp đổ mô hình xảy ra vì dữ liệu do AI tạo ra thường là bản sao kém chất lượng của dữ liệu thực. Điều này dẫn đến phân phối thống kê hẹp hơn của đầu ra AI theo thời gian.

• Vấn đề này có thể làm chậm sự phát triển của AI, đòi hỏi nhiều năng lượng và tiền bạc hơn để đào tạo các mô hình mới.

• Sự sụp đổ mô hình cũng có thể dẫn đến sự xói mòn đa dạng trong đầu ra AI, ảnh hưởng đến các khía cạnh như đa dạng khuôn mặt trong hình ảnh được tạo ra hoặc đa dạng ngôn ngữ trong văn bản.

• Các giải pháp tiềm năng bao gồm việc trả tiền cho dữ liệu chất lượng cao, phát triển các công cụ phát hiện đầu ra AI tốt hơn và sử dụng thủy vân AI.

• Một số công ty đang xem xét sử dụng dữ liệu do AI tạo ra để đào tạo các mô hình trong tương lai, nhưng điều này có thể dẫn đến hậu quả không mong muốn.

📌 AI tạo sinh đang tạo ra 100 tỷ từ mỗi ngày, gây ra nguy cơ "sụp đổ mô hình" khi các công ty vô tình sử dụng dữ liệu AI để đào tạo mô hình mới. Hiện tượng này có thể làm giảm chất lượng, đa dạng và hiệu quả của AI, đòi hỏi các giải pháp như dữ liệu chất lượng cao và công cụ phát hiện nội dung AI.

https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html

Không có file đính kèm.

Nguồn tham khảo

139

AI data 2024-08-26 11:53:21

Meta ra mắt một web crawler mới cho việc huấn luyện AI

- Meta đã ra mắt một web crawler mới có tên "Meta External Agent" vào tháng trước, nhằm thu thập dữ liệu từ Internet để phục vụ cho việc huấn luyện AI.
- Crawler này hoạt động bằng cách sao chép các dữ liệu công khai từ các trang web, bao gồm văn bản trong các bài báo và cuộc thảo luận trực tuyến.
- Theo các công ty theo dõi bot, Meta External Agent tương tự như GPTBot của OpenAI, cũng được sử dụng để thu thập dữ liệu cho AI.
- Meta đã cập nhật trang web dành cho nhà phát triển để công bố sự tồn tại của crawler mới này vào cuối tháng 7, nhưng chưa có thông báo chính thức nào từ công ty.
- Một phát ngôn viên của Meta cho biết công ty đã có một crawler khác trước đây, nhưng crawler mới này được sử dụng với mục đích khác nhau.
- Việc thu thập dữ liệu từ web để huấn luyện AI là một thực tiễn gây tranh cãi, dẫn đến nhiều vụ kiện từ các nghệ sĩ và tác giả về việc sử dụng nội dung của họ mà không có sự đồng ý.
- Khoảng 25% các trang web phổ biến nhất hiện nay đã chặn GPTBot, trong khi chỉ 2% chặn bot mới của Meta.
- Để chặn một web scraper, các trang web cần sử dụng robots.txt để chỉ dẫn bot không thu thập thông tin từ trang của họ, nhưng việc này không hoàn toàn hiệu quả.
- Các scraper thường được sử dụng để thu thập số lượng lớn dữ liệu văn bản từ web, phục vụ cho việc huấn luyện các mô hình AI như LLM.
- Llama, một trong những mô hình LLM lớn nhất của Meta, sử dụng dữ liệu từ nhiều nguồn khác nhau, bao gồm cả Common Crawl.
- Mark Zuckerberg đã tuyên bố rằng dữ liệu mà Meta thu thập cho việc huấn luyện AI lớn hơn cả dữ liệu từ Common Crawl.
- Sự ra đời của crawler mới cho thấy Meta có thể cần thêm dữ liệu để cải thiện và mở rộng khả năng của Llama và Meta AI.
- Công ty dự kiến sẽ chi tới 40 tỷ USD trong năm nay cho cơ sở hạ tầng AI và các chi phí liên quan.

📌 Meta đã ra mắt "Meta External Agent" để thu thập dữ liệu cho AI, với chỉ 2% trang web chặn bot này. Công ty dự kiến chi 40 tỷ USD cho AI, cho thấy nhu cầu dữ liệu ngày càng tăng để cải thiện mô hình LLM.

https://www.thestar.com.my/tech/tech-news/2024/08/21/reports-a-new-web-crawler-launched-by-meta-last-month-is-quietly-scraping-the-web-for-ai-training-data

Không có file đính kèm.

Nguồn tham khảo

202

AI data 2024-08-26 05:18:13

Con người thay đổi hành vi khi biết mình đang huấn luyện AI: Vậy ai đang thực sự huấn luyện ai?

• Các nhà nghiên cứu tại Đại học Washington phát hiện ra rằng con người thay đổi hành vi của mình khi biết hành động của họ đang được sử dụng để huấn luyện AI.

• Những thay đổi này có thể kéo dài và tạo ra thói quen mới ở người huấn luyện, kể cả những xu hướng hoặc thiên kiến mà họ không nhận thức được.

• Tiến sĩ Philip R.O. Payne, Giám đốc Viện Tin học WashU, nhấn mạnh tầm quan trọng của việc hiểu và giảm thiểu những thiên kiến này trong quá trình huấn luyện AI.

• Nghiên cứu sử dụng "Trò chơi tối hậu thư" (Ultimatum Game), trong đó người chơi quyết định cách chia 10 USD và người còn lại có thể chấp nhận hoặc từ chối.

• Kết quả cho thấy những người được thông báo rằng cách chơi của họ sẽ được sử dụng để dạy AI có xu hướng từ chối nhiều hơn các đề nghị không công bằng, ngay cả khi điều này làm giảm lợi ích tài chính của họ.

• Xu hướng này vẫn tiếp tục ngay cả khi người tham gia được thông báo rằng họ sẽ không chơi với AI được huấn luyện trong tương lai.

• Thay đổi hành vi này kéo dài đến 2-3 ngày sau, ngay cả khi người tham gia được thông báo rõ ràng rằng họ không còn huấn luyện AI nữa.

• Lauren Treiman, nghiên cứu sinh tại WashU, chỉ ra rằng việc cải thiện hành vi khi huấn luyện AI có thể có mặt trái, ví dụ như trong trường hợp xe tự lái quá hoàn hảo có thể gây nguy hiểm ở những nơi người lái thường vượt đèn vàng.

• Nghiên cứu đặt ra câu hỏi về định nghĩa của sự công bằng trong các tình huống phức tạp hơn và làm thế nào để tạo ra AI công bằng và trung thực nhất có thể.

• Các nhà nghiên cứu nhấn mạnh tầm quan trọng của việc hiểu rõ hơn về tương tác giữa con người và AI, đặc biệt là trong quá trình huấn luyện, để đo lường và giảm thiểu thiên kiến.

📌 Nghiên cứu của Đại học Washington cho thấy con người thay đổi hành vi khi huấn luyện AI, tạo ra thói quen mới kéo dài 2-3 ngày. Kết quả từ "Trò chơi tối hậu thư" cho thấy người chơi sẵn sàng hy sinh lợi ích để dạy AI công bằng hơn, đặt ra câu hỏi về định nghĩa công bằng trong AI và cách giảm thiểu thiên kiến.

https://www.stltoday.com/news/local/metro/we-train-ai-ai-might-be-training-us-too-washu-researchers-find/article_b2e5483a-5b3e-11ef-8e5b-cbc8375cb778.html

Không có file đính kèm.

Nguồn tham khảo

165

AI data 2024-08-25 05:08:10

Baidu chặn Google và Bing thu thập dữ liệu: Cuộc chiến dữ liệu AI nóng lên

• Baidu, gã khổng lồ tìm kiếm Internet Trung Quốc, đã bắt đầu chặn các công cụ tìm kiếm trực tuyến của Google và Microsoft Bing thu thập nội dung từ dịch vụ kiểu Wikipedia của Baidu.

• Cập nhật gần đây của file robots.txt của Baidu Baike đã chặn hoàn toàn khả năng của các trình thu thập dữ liệu Googlebot và Bingbot lập chỉ mục nội dung từ nền tảng Trung Quốc này.

• Cập nhật này dường như đã được thực hiện vào ngày 8/8, theo ghi nhận của dịch vụ lưu trữ internet Wayback Machine.

• Trước đó cùng ngày, Baidu Baike vẫn cho phép Google và Bing duyệt và lập chỉ mục kho lưu trữ trực tuyến gần 30 triệu mục của mình, chỉ có một phần trang web bị hạn chế truy cập.

• Động thái này cho thấy nỗ lực gia tăng của Baidu nhằm bảo vệ tài sản trực tuyến của mình, khi nhu cầu về khối lượng lớn dữ liệu để đào tạo và xây dựng các mô hình và ứng dụng AI ngày càng tăng.

• Trước đó, nền tảng tổng hợp tin tức xã hội Reddit của Mỹ cũng đã chặn các công cụ tìm kiếm khác, ngoại trừ Google, lập chỉ mục các bài đăng và thảo luận trực tuyến của mình vào tháng 7.

• Google có thỏa thuận trị giá hàng triệu đô la với Reddit cho phép thu thập dữ liệu từ nền tảng mạng xã hội này để đào tạo các dịch vụ AI của mình.

• Ngay cả Microsoft năm ngoái cũng đe dọa cắt quyền truy cập vào dữ liệu tìm kiếm internet của mình, vốn được cấp phép cho các nhà điều hành công cụ tìm kiếm đối thủ, nếu họ không ngừng sử dụng nó làm cơ sở cho chatbot và các dịch vụ AI tạo sinh khác.

• Hiện tại, phiên bản tiếng Trung của Wikipedia có 1,43 triệu mục, vẫn cho phép các trình thu thập dữ liệu công cụ tìm kiếm truy cập.

• Sau khi Baidu Baike cập nhật robots.txt, khảo sát của Post trên Google và Bing vào thứ Sáu vẫn tìm thấy nhiều mục từ dịch vụ kiểu Wikipedia này trong kết quả tìm kiếm, có thể do nội dung được lưu trong bộ nhớ đệm cũ.

• Hơn hai năm sau khi OpenAI ra mắt ChatGPT, nhiều nhà phát triển AI lớn trên thế giới đang ký kết thỏa thuận với các nhà xuất bản nội dung để tiếp cận nội dung chất lượng cho các dự án AI tạo sinh của họ.

• Ví dụ, OpenAI đã ký thỏa thuận với tạp chí Time của Mỹ vào tháng 6, cho phép truy cập toàn bộ nội dung lưu trữ từ hơn 100 năm lịch sử của tạp chí này.

📌 Baidu chặn Google và Bing thu thập dữ liệu từ Baidu Baike, phản ánh xu hướng bảo vệ dữ liệu trong cuộc đua AI. Các nền tảng lớn như Reddit, Microsoft cũng có động thái tương tự. Nhu cầu dữ liệu chất lượng cho AI tạo sinh tăng cao, thúc đẩy các thỏa thuận chia sẻ dữ liệu giữa các công ty công nghệ và nhà xuất bản.

https://finance.yahoo.com/news/baidu-blocks-google-bing-scraping-093000944.html

Không có file đính kèm.

Nguồn tham khảo

143

AI models AI mở-nguồn mở AI data 2024-08-21 00:44:15

Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM, đẩy mạnh khả năng hiểu hình ảnh

• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.

• Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.

• Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.

• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.

• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.

• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.

• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.

• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.

• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.

• Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.

📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.

https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/

Không có file đính kèm.

Nguồn tham khảo

138

AI data 2024-08-15 07:26:20

Snowflake vừa ra mắt Cortex Analyst, hệ thống AI tự động hóa phân tích dữ liệu

- Snowflake đã công bố ra mắt Cortex Analyst, một hệ thống AI tự động hóa cho phân tích dữ liệu, hiện đang trong giai đoạn thử nghiệm công khai.
- Cortex Analyst được giới thiệu lần đầu tại hội nghị Data Cloud Summit vào tháng 6, là dịch vụ quản lý hoàn toàn cho phép người dùng tương tác với dữ liệu bằng ngôn ngữ tự nhiên.
- Người dùng chỉ cần đặt câu hỏi kinh doanh bằng tiếng Anh đơn giản, hệ thống sẽ tự động chuyển đổi các yêu cầu thành câu lệnh SQL, thực hiện truy vấn và cung cấp câu trả lời cần thiết.
- Hệ thống sử dụng nhiều mô hình ngôn ngữ lớn (LLM) để đảm bảo độ chính xác trong việc cung cấp thông tin, đạt khoảng 90%, cao hơn nhiều so với các dịch vụ hiện có như Databricks.
- Cortex Analyst giải quyết vấn đề mà các bảng điều khiển BI truyền thống gặp phải, cho phép người dùng truy cập thông tin nhanh chóng mà không cần phụ thuộc vào các nhà phân tích.
- Snowflake cho biết, độ chính xác của các mô hình hiện tại chỉ đạt khoảng 51%, trong khi các dịch vụ như Databricks chỉ đạt 79%. Cortex Analyst đã cải thiện đáng kể con số này.
- Hệ thống này phân tích ý định của câu hỏi, xác định khả năng trả lời và tạo ra câu lệnh SQL chính xác, đồng thời kiểm tra độ chính xác trước khi trả lời cho người dùng.
- Người dùng cần cung cấp mô tả ngữ nghĩa về cấu trúc dữ liệu trong quá trình thiết lập để đảm bảo các mô hình hiểu rõ ngữ cảnh và thuật ngữ cụ thể.
- Hiện tại, Cortex Analyst có thể được tích hợp qua REST API vào bất kỳ ứng dụng nào, giúp các nhà phát triển linh hoạt trong việc triển khai.
- Trong giai đoạn thử nghiệm riêng, khoảng 40-50 doanh nghiệp, bao gồm Bayer, đã triển khai Cortex Analyst để tăng tốc quy trình phân tích.
- Snowflake dự kiến sẽ bổ sung thêm nhiều tính năng mới trong thời gian tới, bao gồm hỗ trợ cho các cuộc hội thoại đa vòng và các bảng dữ liệu phức tạp hơn.

📌 Snowflake ra mắt Cortex Analyst, một hệ thống AI tự động hóa phân tích dữ liệu với độ chính xác lên tới 90%, giúp doanh nghiệp dễ dàng truy cập thông tin và đưa ra quyết định nhanh chóng. Dịch vụ này hiện đang trong giai đoạn thử nghiệm công khai với khoảng 40-50 doanh nghiệp tham gia.

https://venturebeat.com/data-infrastructure/snowflake-launches-cortex-analyst-an-agentic-ai-system-for-accurate-data-analytics/

Không có file đính kèm.

Nguồn tham khảo

112

AI data 2024-08-12 11:37:05

WaitGPT tăng cường độ chính xác của phân tích dữ liệu lên 83%

- WaitGPT là một công cụ mới được giới thiệu bởi các nhà nghiên cứu từ Đại học Khoa học và Công nghệ Hong Kong, Đại học California San Diego và Đại học Minnesota.
- Công cụ này chuyển đổi cách trình bày và tương tác với mã được tạo bởi LLM trong phân tích dữ liệu. Thay vì chỉ hiển thị mã thô, WaitGPT chuyển đổi mã thành biểu diễn trực quan, cập nhật theo thời gian thực.
- WaitGPT phá vỡ mã phân tích dữ liệu thành các thao tác dữ liệu riêng lẻ, được biểu diễn trực quan dưới dạng các nút trong sơ đồ luồng động. Mỗi nút tương ứng với một thao tác dữ liệu cụ thể và được liên kết với các nút khác dựa trên thứ tự thực thi.
- Công cụ thực hiện mã dòng theo dòng, cập nhật sơ đồ trực quan để phản ánh trạng thái hiện tại của dữ liệu và các thao tác đang được thực hiện.
- Nghiên cứu người dùng kỹ lưỡng với 12 người tham gia đã chỉ ra rằng WaitGPT cải thiện đáng kể khả năng phát hiện lỗi trong phân tích. 83% người tham gia nhận ra và sửa chữa thành công các vấn đề so với chỉ 50% khi sử dụng các phương pháp truyền thống.
- Thời gian cần thiết để phát hiện lỗi được giảm tới 50%, cho thấy hiệu quả của công cụ trong việc tăng cường sự tự tin và độ chính xác của người dùng.

📌 WaitGPT cung cấp biểu diễn trực quan thời gian thực của mã và các thao tác của nó, giải quyết thách thức đảm bảo độ tin cậy và chính xác trong phân tích dữ liệu, tăng cường khả năng giám sát và điều chỉnh quá trình phân tích của người dùng.

https://www.marktechpost.com/2024/08/11/waitgpt-enhancing-data-analysis-accuracy-by-83-with-real-time-visual-code-monitoring-and-error-detection-in-llm-powered-tools/

Không có file đính kèm.

Nguồn tham khảo

109

AI riêng tư AI data 2024-08-12 11:24:43

Các bản ghi công khai không nên được sử dụng cho hệ thống AI

- Các bản ghi công khai như hồ sơ tòa án, khai báo tài chính chứa nhiều thông tin cá nhân nhạy cảm và có thể không chính xác, ví dụ như tội nói dối trong các vụ ly hôn.
- Việc sử dụng dữ liệu này để phân tích tâm lý học hoặc đánh giá rủi ro tài chính có thể ảnh hưởng bất công đến cơ hội việc làm, nhà ở của những người liên quan.
- Dữ liệu cá nhân có thể bị lạm dụng bởi những kẻ lừa đảo hoặc chính phủ đàn áp.
- Các mô hình AI thường là hộp đen, khó giải thích quyết định và cá nhân ít có quyền kiểm soát dữ liệu của mình một khi đã vào mô hình.
- Cần có các quy định pháp lý hạn chế thu thập, sử dụng và lưu trữ dữ liệu cá nhân, đặc biệt là trong bối cảnh máy tính lượng tử, AI tạo sinh và tin tặc ngày càng tinh vi.

📌 Các bản ghi công khai chứa nhiều thông tin cá nhân nhạy cảm và thiên lệch, không nên được sử dụng để huấn luyện hệ thống AI vì nhiều rủi ro về quyền riêng tư, an ninh và công bằng. Cần có các quy định pháp lý nghiêm ngặt hạn chế việc này.

https://thehill.com/opinion/technology/4820294-ai-data-public-records-privacy/

Không có file đính kèm.

Nguồn tham khảo

164

AI nghiên cứu AI data 2024-08-11 19:14:07

Giới hạn định dạng ảnh hưởng tới khả năng suy luận của mô hình ngôn ngữ lớn như thế nào?

• Nghiên cứu từ Appier AI Research và Đại học Quốc gia Đài Loan điều tra tác động của việc áp đặt giới hạn định dạng lên khả năng suy luận và hiệu suất tổng thể của các mô hình ngôn ngữ lớn (LLM).

• Các phương pháp tạo cấu trúc hiện tại bao gồm giải mã có ràng buộc, hướng dẫn giới hạn định dạng (FRI) và phương pháp ngôn ngữ tự nhiên sang định dạng (NL-to-Format).

• Nghiên cứu so sánh 3 cách tiếp cận: chế độ JSON, FRI và NL-to-Format trên nhiều tác vụ khác nhau như suy luận và phân loại.

• Kết quả cho thấy các ràng buộc định dạng nghiêm ngặt hơn như chế độ JSON dẫn đến suy giảm đáng kể khả năng suy luận của LLM.

• Trong các tác vụ suy luận như GSM8K và Last Letter Concatenation, hiệu suất của LLM kém hơn đáng kể khi áp dụng ràng buộc định dạng nghiêm ngặt so với các phương pháp linh hoạt hơn.

• Thứ tự các khóa trong đầu ra có cấu trúc và việc tách biệt quá trình suy luận khỏi việc tuân thủ định dạng đóng vai trò quan trọng trong việc duy trì khả năng của LLM.

• Đối với các tác vụ suy luận, phương pháp chế độ JSON thường dẫn đến độ chính xác thấp hơn do cấu trúc cứng nhắc có thể làm gián đoạn quá trình suy luận của mô hình.

• Phương pháp NL-to-Format cho kết quả tương đương với phản hồi ngôn ngữ tự nhiên không bị giới hạn, cho thấy việc cho phép LLM tạo nội dung tự do trước khi định dạng có thể bảo toàn khả năng suy luận.

• Đối với các tác vụ phân loại, chế độ JSON đôi khi cải thiện hiệu suất bằng cách giới hạn không gian trả lời, từ đó giảm lỗi trong việc lựa chọn câu trả lời.

• Sự khác biệt về hiệu suất giữa các tác vụ nhấn mạnh sự cần thiết phải cân nhắc kỹ lưỡng khi áp dụng giới hạn định dạng trong các ứng dụng LLM.

• Phương pháp đề xuất có khả năng mở rộng hiệu quả, duy trì hiệu suất và độ chính xác bất kể kích thước tập dữ liệu.

• Các thử nghiệm nghiêm ngặt cho thấy phương pháp này vượt trội hơn các kỹ thuật truyền thống về cả tốc độ và độ chính xác trên nhiều chỉ số.

• Hiệu suất được cải thiện được cho là nhờ thiết kế sáng tạo của mạng nơ-ron và tối ưu hóa kỹ lưỡng các quy trình phân tích.

• Nghiên cứu không chỉ đóng góp vào diễn ngôn học thuật về phân tích dữ liệu mà còn mở đường cho các ứng dụng thực tế có thể tận dụng những tiến bộ này để đạt được kết quả chính xác và hiệu quả hơn.

📌 Nghiên cứu chỉ ra rằng giới hạn định dạng nghiêm ngặt như JSON mode làm giảm khả năng suy luận của LLM, trong khi phương pháp NL-to-Format bảo toàn hiệu suất tốt hơn. Kết quả khác nhau giữa các tác vụ suy luận và phân loại, đòi hỏi cân nhắc kỹ lưỡng khi áp dụng giới hạn định dạng trong ứng dụng LLM thực tế.

https://www.marktechpost.com/2024/08/09/balancing-act-the-impact-of-format-restrictions-on-reasoning-in-large-language-models/

Không có file đính kèm.

Nguồn tham khảo

153

AI data 2024-08-11 08:24:03

Lớp ngữ nghĩa phổ quát trong việc giúp AI hiểu dữ liệu

• AI tạo sinh và mô hình ngôn ngữ lớn (LLM) bùng nổ từ năm 2023, nhưng nhiều dự án AI vẫn đang bị mắc kẹt ở giai đoạn thử nghiệm. Khảo sát của Constellation Research và AWS cho thấy chưa đến 1/5 tổ chức có dự án AI trên toàn bộ phòng ban hoặc doanh nghiệp.

• Nguyên nhân chính khiến các dự án AI bị trì hoãn là do chúng phụ thuộc nhiều vào dữ liệu chính xác, được tối ưu hóa hiệu suất và đáng tin cậy.

• Để giải quyết vấn đề này, các tổ chức cần một nguồn dữ liệu đáng tin cậy duy nhất. Lớp ngữ nghĩa phổ quát (universal semantic layer) đóng vai trò quan trọng, nằm giữa nguồn dữ liệu và người dùng cuối.

• Lớp ngữ nghĩa phổ quát thiết lập tất cả các chỉ số và metadata, mang lại tính nhất quán và chính xác cho mọi trải nghiệm dữ liệu, bao gồm cả AI ứng dụng.

• Nó giúp các công cụ AI hiểu được bối cảnh và định nghĩa kinh doanh, tránh ảo tưởng. Lớp ngữ nghĩa giới hạn những gì LLM có thể sử dụng để trả lời truy vấn và cung cấp ngữ cảnh.

• Để triển khai lớp ngữ nghĩa phổ quát, các nhóm dữ liệu cần phát triển logic kinh doanh và thông tin đưa vào mô hình dữ liệu ngữ nghĩa. Họ bắt đầu bằng cách hiểu các vấn đề thực tế của công ty, thu thập thông tin cần thiết và mã hóa mối quan hệ giữa các thông tin.

• Các kỹ thuật được sử dụng bao gồm: mô hình hóa dữ liệu, kiểm soát truy cập, bộ nhớ đệm và tiền tổng hợp, API tích hợp, quản lý metadata và phân lớp dữ liệu ngữ nghĩa.

• Việc áp dụng lớp ngữ nghĩa phổ quát đòi hỏi quản lý thay đổi. Cần lập bản đồ trạng thái hiện tại và tương lai, áp dụng phương pháp tiếp cận theo từng giai đoạn, cập nhật quy trình làm việc và đào tạo người dùng.

• Lớp ngữ nghĩa phổ quát là nền tảng thiết yếu để bất kỳ trải nghiệm dữ liệu AI nào hoạt động an toàn, đáng tin cậy và không có ảo tưởng.

📌 Lớp ngữ nghĩa phổ quát đóng vai trò then chốt trong việc giúp AI hiểu và xử lý dữ liệu chính xác. Nó tạo ra nguồn dữ liệu đáng tin cậy duy nhất, đảm bảo tính nhất quán và an toàn cho các dự án AI. Việc triển khai đòi hỏi sự thay đổi quản lý nhưng mang lại lợi ích lớn về độ chính xác dữ liệu và hiệu quả AI.

https://www.forbes.com/sites/forbestechcouncil/2024/08/09/how-a-universal-semantic-layer-helps-ai-understand-data/

Không có file đính kèm.

Nguồn tham khảo

132

AI data 2024-08-07 23:58:24

Tại sao doanh nghiệp cần xây dựng văn hóa dữ liệu chất lượng trong thời đại data-centric?

• Dữ liệu đóng vai trò quan trọng trong việc ra quyết định chiến lược và nâng cao hiệu quả hoạt động của doanh nghiệp. Tuy nhiên, việc duy trì chất lượng dữ liệu ngày càng phức tạp khi khối lượng dữ liệu tăng lên nhanh chóng.

• Quản trị dữ liệu kém và chất lượng dữ liệu thấp khiến các tổ chức tốn trung bình 12,9 triệu USD mỗi năm, dẫn đến chiến lược sai lầm, hoạt động kém hiệu quả và bỏ lỡ cơ hội.

• Quản trị dữ liệu là khung quan trọng để đảm bảo chất lượng dữ liệu và sự tham gia của người dùng bằng cách thiết lập các chính sách, quy trình và tiêu chuẩn quản lý tài sản dữ liệu.

• Khi được trang bị thông tin chính xác và đáng tin cậy, tổ chức có thể ra quyết định tốt hơn, cải thiện bảo mật dữ liệu, có dữ liệu kịp thời và tăng độ tin cậy.

• Để triển khai chương trình Quản trị Dữ liệu hiệu quả, bước đầu tiên là thiết lập tầm nhìn và mục tiêu rõ ràng phù hợp với mục tiêu chiến lược của tổ chức.

• Lãnh đạo doanh nghiệp cần đầu tư vào công nghệ và công cụ phù hợp để hỗ trợ các hoạt động quản trị dữ liệu như lập danh mục dữ liệu, quản lý metadata và giám sát chất lượng dữ liệu.

• AI, máy học và xử lý ngôn ngữ tự nhiên có thể nâng cao đáng kể và tự động hóa các tác vụ quản trị dữ liệu, mang lại hiệu quả và độ chính xác cho quy trình.

• Các công cụ dựa trên AI có thể tự động hóa việc lập danh mục dữ liệu bằng cách gắn thẻ và phân loại tài sản dữ liệu một cách thông minh, giúp dễ dàng quản lý và truy xuất thông tin.

• Thuật toán máy học có thể được sử dụng để liên tục giám sát chất lượng dữ liệu, tự động phát hiện các bất thường và mâu thuẫn, đồng thời đề xuất các hành động khắc phục.

• Xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng để hợp lý hóa quản lý metadata bằng cách diễn giải và tổ chức dữ liệu phi cấu trúc, đảm bảo tài liệu toàn diện.

• Bằng cách tận dụng AI, doanh nghiệp có thể giảm công sức thủ công trong quản trị dữ liệu, giảm thiểu lỗi và duy trì dữ liệu chất lượng cao, cuối cùng tạo ra môi trường quản lý dữ liệu đáng tin cậy và hiệu quả hơn.

📌 Xây dựng văn hóa chất lượng dữ liệu là yếu tố then chốt giúp doanh nghiệp thành công trong thời đại lấy dữ liệu làm trung tâm (data-centric). Dữ liệu chất lượng cao là nền tảng cho việc ra quyết định hiệu quả, tối ưu hóa hoạt động và đổi mới chiến lược. Các tổ chức đầu tư vào chất lượng dữ liệu không chỉ giảm thiểu rủi ro và chi phí mà còn tạo ra cơ hội tăng trưởng và lợi thế cạnh tranh bền vững.

https://www.techradar.com/pro/why-businesses-must-foster-a-data-quality-culture

Không có file đính kèm.

Nguồn tham khảo

120

AI data AI bản quyền 2024-08-07 00:01:07

Nvidia bị phát hiện thu thập dữ liệu video trái phép từ YouTube và Netflix để huấn luyện AI

• Theo tài liệu rò rỉ, Nvidia đã sử dụng hàng triệu video từ YouTube, Netflix và các nguồn khác để huấn luyện mô hình AI cho nền tảng Omniverse, xe tự lái và avatar kỹ thuật số.

• Dự án nội bộ mang tên mã Cosmos của Nvidia đã sử dụng hàng chục máy tính ảo trên Amazon Web Service (AWS) để tải xuống lượng video khổng lồ, tích lũy hơn 30 triệu URL chỉ trong vòng một tháng.

• Nhân viên Nvidia đã thảo luận nhiều về luật bản quyền và quyền sử dụng, tìm cách né tránh vi phạm trực tiếp. Ví dụ, họ sử dụng dịch vụ đám mây của Google để tải bộ dữ liệu YouTube-8M thay vì tải trực tiếp video.

• Một nhân viên tiết lộ họ đã "thông báo trước với Google/YouTube về việc tải xuống và dùng Google Cloud như một lợi thế", vì Google sẽ mất doanh thu quảng cáo khi video bị tải về để huấn luyện AI.

• Nvidia tuyên bố "tuân thủ đầy đủ cả tinh thần và chữ viết của luật bản quyền" khi được hỏi về khía cạnh pháp lý và đạo đức của việc sử dụng tài liệu có bản quyền để huấn luyện AI.

• Một số bộ dữ liệu chỉ được phép sử dụng cho mục đích học thuật, nhưng tài liệu rò rỉ cho thấy Nvidia có ý định sử dụng cho mục đích thương mại.

• Nvidia không phải công ty duy nhất làm điều này. OpenAI và Runway cũng bị cáo buộc cố ý sử dụng tài liệu có bản quyền và được bảo vệ để huấn luyện mô hình AI.

• Thú vị là Nvidia thậm chí còn gặp khó khăn khi sử dụng video gameplay từ dịch vụ GeForce Now của chính họ do "rào cản kỹ thuật và quy định".

• Các mô hình AI cần được huấn luyện trên hàng tỷ điểm dữ liệu. Một số bộ dữ liệu có quy tắc sử dụng rõ ràng, trong khi một số khác có hạn chế lỏng lẻo hơn.

• Ngoài vấn đề bản quyền, nội dung video thường chứa dữ liệu cá nhân. Mặc dù không có luật liên bang duy nhất ở Mỹ áp dụng trực tiếp, nhưng có nhiều quy định về thu thập và sử dụng dữ liệu cá nhân. Ở EU, Quy định Bảo vệ Dữ liệu Chung (GDPR) quy định rõ ràng cách sử dụng dữ liệu như vậy.

• Câu hỏi đặt ra là nếu một công ty như Nvidia bị phát hiện vi phạm các quy định khi huấn luyện mô hình AI, liệu hệ thống đó có bị chặn ở các quốc gia cụ thể không? Nvidia có sẵn sàng tạo mô hình mới, được huấn luyện với tất cả quyền được cấp, chỉ cho những địa điểm đó không?

• Cần có sự minh bạch hơn về việc sử dụng dữ liệu có bản quyền và dữ liệu cá nhân cho mục đích thương mại trong lĩnh vực AI. Nếu các công ty công nghệ không bị buộc phải chịu trách nhiệm, việc thu thập dữ liệu sẽ tiếp tục diễn ra một cách tùy tiện.

📌 Nvidia thu thập 30 triệu URL video trong 1 tháng để huấn luyện AI, gây tranh cãi về bản quyền và quyền riêng tư. Công ty tuyên bố tuân thủ luật pháp nhưng vẫn đặt ra câu hỏi về đạo đức và tính minh bạch trong việc sử dụng dữ liệu cho AI thương mại.

https://www.pcgamer.com/software/ai/geforce-gpu-giant-has-been-data-scraping-80-years-worth-of-videos-every-day-for-ai-training-to-unlock-various-downstream-applications-critical-to-nvidia/

Không có file đính kèm.

Nguồn tham khảo

126

AI data AI mở-nguồn mở 2024-08-05 05:40:45

Magpie-Ultra: Bộ dữ liệu mới 50.000 cặp chỉ dẫn-phản hồi từ Llama 3.1 405B

• Argilla vừa phát hành bộ dữ liệu Magpie-Ultra gồm 50.000 cặp chỉ dẫn-phản hồi cho huấn luyện có giám sát (SFT) các mô hình AI.

• Bộ dữ liệu được tạo ra tổng hợp bằng mô hình Llama 3.1 405B-Instruct và các mô hình Llama khác như Llama-Guard-3-8B và Meta-Llama-3.1-8B-Instruct.

• Nội dung đa dạng bao gồm lập trình, toán học, phân tích dữ liệu, viết sáng tạo, tư vấn và brainstorming, với các chỉ dẫn và phản hồi mang tính thách thức.

• Quy trình tạo dữ liệu sử dụng công cụ distilabel và tuân theo phương pháp Magpie được mô tả trong bài báo "Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing".

• So với phiên bản Magpie gốc 1 triệu cặp, phiên bản này tập trung hơn với 50.000 cặp chất lượng cao sử dụng các mô hình Llama 3.1 mới nhất.

• Quy trình tạo dữ liệu sử dụng nhiều mô hình khác nhau cho các bước tạo chỉ dẫn, tạo phản hồi, đánh giá chất lượng và phân loại an toàn.

• Toàn bộ quá trình tạo dữ liệu mất khoảng 111 giờ trên một máy 8xH100, trong đó 60 giờ để tạo cặp chỉ dẫn-phản hồi và 51 giờ cho các bước bổ sung.

• Cấu trúc dữ liệu bao gồm nhiều cột thông tin phong phú như chỉ dẫn, phản hồi từ mô hình instruct và base, ý định, kiến thức yêu cầu, độ khó, đánh giá chất lượng và phân loại.

• Bộ dữ liệu tích hợp kiểm tra an toàn sử dụng Llama-Guard-3-8B và cung cấp thông tin embedding cho mỗi chỉ dẫn.

• Magpie-Ultra có thể được sử dụng cho Huấn luyện có giám sát (SFT) hoặc Tối ưu hóa ưu tiên trực tiếp (DPO) tùy thuộc vào chênh lệch điểm giữa phản hồi của mô hình instruct và base.

• Phiên bản hiện tại chưa được lọc, một phiên bản đã lọc dự kiến sẽ được phát hành trong tương lai.

• Mặc dù còn một số hạn chế như chưa cân bằng dữ liệu, Magpie-Ultra vẫn là nguồn tài nguyên quý giá để nâng cao khả năng AI trong nhiều lĩnh vực.

📌 Magpie-Ultra cung cấp 50.000 cặp chỉ dẫn-phản hồi chất lượng cao từ Llama 3.1 405B, bao gồm nhiều chủ đề đa dạng. Bộ dữ liệu này mở ra cơ hội huấn luyện AI tiên tiến thông qua SFT hoặc DPO, đóng góp quan trọng cho sự phát triển của các mô hình ngôn ngữ lớn.

https://www.marktechpost.com/2024/08/04/magpie-ultra-dataset-released-harnessing-llama-3-1-405b-for-diverse-ai-instruction-response-pairs/

Không có file đính kèm.

Nguồn tham khảo

138

AI data 2024-08-04 07:40:49

AI sẽ không cạn kiệt dữ liệu: bài học từ lịch sử ngành dầu mỏ

• Nhiều người đang đặt câu hỏi liệu bong bóng AI có sắp vỡ hay không, khi giá cổ phiếu của các công ty công nghệ lớn chưa thể lấy lại đỉnh cao giữa năm. Tuy nhiên, lịch sử cho thấy đầu tư vào công nghệ mới có thể mang lại lợi nhuận lớn trong dài hạn, như trường hợp của Amazon.

• Một số người hoài nghi cho rằng AI sẽ sớm gặp phải bức tường do thiếu dữ liệu để huấn luyện. Tuy nhiên, tác giả cho rằng điều này không đúng và so sánh dữ liệu với dầu mỏ.

• Giống như dầu mỏ, dữ liệu cũng có độ khó và chi phí khai thác khác nhau. Khi giá dầu tăng cao, các nhà sản xuất được khuyến khích sử dụng các phương pháp đắt đỏ hơn để khai thác nguồn dự trữ mới. Điều tương tự cũng xảy ra với dữ liệu.

• Hiện tại, khoảng 96-99,8% dữ liệu trực tuyến không thể truy cập được bởi các công cụ tìm kiếm. Ngoài ra, phần lớn tài liệu in chưa được số hóa và có rất nhiều thông tin chưa được thu thập.

• Khi các mô hình AI thông minh hơn cho phép ứng dụng rộng rãi hơn, sẽ có động lực mạnh mẽ để khai thác các nguồn dữ liệu đắt đỏ hơn. Điều này đang thúc đẩy sự phát triển của ngành công nghiệp dữ liệu huấn luyện mới.

• Các công ty và tổ chức phi lợi nhuận có thể tận dụng cơ hội này để kiếm lợi từ dữ liệu độc quyền của họ. OpenAI đã chi hàng trăm triệu USD để cấp phép dữ liệu huấn luyện.

• Cuộc cạnh tranh về dữ liệu chất lượng cao có thể ảnh hưởng đến chính trị giữa các siêu cường. Các quy định về quyền riêng tư ở châu Âu có thể cản trở sự phát triển AI, trong khi Trung Quốc có lợi thế về dữ liệu nhờ hệ thống giám sát rộng rãi.

• Các kỹ thuật mới như tạo dữ liệu tổng hợp và tự học có thể giảm sự phụ thuộc của ngành AI vào lượng lớn dữ liệu. Tuy nhiên, trong ngắn hạn, bong bóng thị trường AI có thể vỡ trước khi AI đủ thông minh để đáp ứng kỳ vọng cao.

📌 AI sẽ không cạn kiệt dữ liệu nhờ khả năng khai thác nguồn dữ liệu mới và phát triển kỹ thuật học hiệu quả hơn. Mặc dù có thể có bong bóng ngắn hạn, tiềm năng dài hạn của AI vẫn rất lớn, tương tự như ngành dầu mỏ đã liên tục vượt qua dự đoán về cạn kiệt nguồn cung.

https://time.com/7006382/ai-training-data-oil/

#TIME

Không có file đính kèm.

Nguồn tham khảo

122

AI data 2024-08-02 23:59:55

Google Cloud mở rộng khả năng AI tạo sinh cho công cụ cơ sở dữ liệu và phân tích dữ liệu

• Google Cloud công bố nhiều cập nhật mới cho các dịch vụ cơ sở dữ liệu và phân tích dữ liệu tại sự kiện Google Cloud Next ở Tokyo, nhằm tích hợp thêm tính linh hoạt trong việc sử dụng và truy cập dữ liệu, đẩy nhanh việc triển khai và áp dụng AI tạo sinh.

• Spanner - cơ sở dữ liệu quan hệ của Google, được bổ sung hỗ trợ dữ liệu đồ thị và vector. Điều này cho phép xây dựng các mối quan hệ ngữ nghĩa phức tạp và hỗ trợ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).

• Bigtable được thêm hỗ trợ SQL, giúp truy vấn dữ liệu dễ dàng hơn.

• BigQuery và Looker - nền tảng phân tích dữ liệu và trí tuệ kinh doanh, được tích hợp AI Gemini với hơn 20 tính năng mới như tạo mã, giải thích và đề xuất thông minh.

• Tính năng Data Canvas mới trên BigQuery kết hợp trải nghiệm người dùng với AI, tạo ra quá trình phân tích tương tác và được hỗ trợ bởi AI.

• Looker tập trung vào việc xây dựng các agent AI chuyên sâu để chọn dữ liệu, thực hiện phân tích và tóm tắt thông tin.

• Spanner, vốn được sử dụng trong hầu hết các sản phẩm của Google như Search, Gmail, YouTube, nay trở thành cơ sở dữ liệu đa mô hình thực sự với khả năng xử lý dữ liệu quan hệ, đồ thị và vector.

• Các cập nhật này nhằm giúp các tổ chức khai thác tối đa giá trị từ dữ liệu hiện có, mà không cần di chuyển dữ liệu sang hệ thống mới.

• Gerrit Kazmaier, GM & VP phụ trách Phân tích Dữ liệu tại Google Cloud nhấn mạnh tầm quan trọng của dữ liệu chất lượng cao trong việc xây dựng AI xuất sắc.

• Andi Gutmans, một lãnh đạo khác của Google Cloud, nhấn mạnh lợi thế của việc đưa các công nghệ nội bộ của Google ra thị trường doanh nghiệp.

📌 Google Cloud mở rộng khả năng AI tạo sinh cho các công cụ cơ sở dữ liệu và phân tích. Spanner hỗ trợ dữ liệu đồ thị và vector, BigQuery và Looker tích hợp Gemini AI với 20+ tính năng mới. Các cập nhật nhằm tăng cường xử lý dữ liệu đa dạng, thúc đẩy triển khai AI trong doanh nghiệp.

https://venturebeat.com/ai/google-cloud-expands-gen-ai-power-for-database-and-data-analytics-tools/

Không có file đính kèm.

Nguồn tham khảo

136

AI data AI kiến thức-khóa học 2024-07-30 09:59:46

kỹ thuật data engineering trên nền tảng Databricks

- Data engineering đóng vai trò quan trọng trong việc chuẩn bị dữ liệu cho các ứng dụng AI và phân tích. Các thách thức chính bao gồm:
+ Xử lý dữ liệu thời gian thực từ nhiều nguồn khác nhau
+ Mở rộng quy mô pipeline dữ liệu một cách đáng tin cậy
+ Đảm bảo chất lượng dữ liệu
+ Quản trị và bảo mật dữ liệu

- Nền tảng Data Intelligence của Databricks giúp giải quyết các thách thức trên thông qua:
+ Delta Live Tables (DLT): framework ETL khai báo giúp đơn giản hóa việc xây dựng pipeline dữ liệu đáng tin cậy
+ Databricks Workflows: giải pháp điều phối thống nhất cho dữ liệu và AI
+ Unity Catalog: cung cấp mô hình quản trị thống nhất cho toàn bộ nền tảng

- Các tính năng chính của DLT:
+ Tự động xử lý điều phối tác vụ, quản lý cụm, giám sát, chất lượng dữ liệu và xử lý lỗi
+ Hỗ trợ cả Python và SQL
+ Làm việc với cả luồng dữ liệu batch và streaming

- Databricks Workflows cung cấp:
+ Khả năng định nghĩa quy trình làm việc nhiều bước để triển khai pipeline ETL, quy trình đào tạo ML
+ Điều khiển luồng nâng cao và hỗ trợ nhiều loại tác vụ
+ Khả năng quan sát nâng cao để giám sát và trực quan hóa việc thực thi quy trình làm việc

- Unity Catalog mang lại:
+ Mô hình quản trị thống nhất cho toàn bộ nền tảng
+ Khả năng khám phá và chia sẻ dữ liệu an toàn
+ Thông tin phả hệ giúp hiểu rõ cách sử dụng và nguồn gốc của từng bộ dữ liệu

- Databricks Assistant tích hợp AI để hỗ trợ các tác vụ kỹ thuật hàng ngày như:
+ Tạo, tối ưu hóa và gỡ lỗi mã phức tạp
+ Truy vấn dữ liệu thông qua giao diện hội thoại

- Nền tảng Databricks giúp data engineer tập trung vào đổi mới và mang lại nhiều giá trị hơn cho tổ chức thay vì phải dành nhiều thời gian quản lý pipeline phức tạp.

📌 Nền tảng Data Intelligence của Databricks cung cấp giải pháp toàn diện cho data engineering, từ xử lý dữ liệu thời gian thực đến quản trị thống nhất. Với các công cụ như Delta Live Tables và Databricks Workflows, data engineer có thể xây dựng pipeline dữ liệu đáng tin cậy và có khả năng mở rộng, đồng thời tận dụng AI để nâng cao năng suất.

https://www.databricks.com/sites/default/files/2024-07/2024-07-eb-big-book-of-data-engineering-3rd-edition.pdf

Không có file đính kèm.

Nguồn tham khảo

165

AI models AI data 2024-07-30 07:22:10

Nghiên cứu của ĐH Stanford: Tích lũy dữ liệu ngăn sụp đổ mô hình AI khi huấn luyện trên dữ liệu tổng hợp

• Các nhà nghiên cứu từ Đại học Stanford đã tiến hành một nghiên cứu về tác động của việc tích lũy dữ liệu đối với sự sụp đổ mô hình trong các mô hình AI tạo sinh.

• Nghiên cứu tập trung vào việc mô phỏng sự tích lũy liên tục của dữ liệu tổng hợp trong các bộ dữ liệu dựa trên internet, khác với các nghiên cứu trước đây chỉ tập trung vào việc thay thế dữ liệu.

• Các thí nghiệm được thực hiện trên nhiều loại mô hình khác nhau như transformer, mô hình khuếch tán và autoencoder biến phân, với nhiều loại dữ liệu khác nhau.

• Kết quả cho thấy việc tích lũy dữ liệu tổng hợp cùng với dữ liệu thực ngăn chặn được sự sụp đổ mô hình, trái ngược với sự suy giảm hiệu suất khi thay thế dữ liệu.

• Với mô hình ngôn ngữ transformer, các thí nghiệm sử dụng kiến trúc GPT-2 và Llama2 với nhiều kích thước khác nhau, được huấn luyện trước trên TinyStories.

• Kết quả cho thấy việc thay thế dữ liệu làm tăng cross-entropy trên tập kiểm tra (hiệu suất kém hơn) ở tất cả các cấu hình mô hình và nhiệt độ lấy mẫu.

• Ngược lại, việc tích lũy dữ liệu duy trì hoặc cải thiện hiệu suất qua các lần lặp.

• Với mô hình khuếch tán GeoDiff trên dữ liệu cấu trúc phân tử GEOM-Drugs, kết quả cũng cho thấy tổn thất kiểm tra tăng lên khi thay thế dữ liệu, nhưng hiệu suất ổn định khi tích lũy dữ liệu.

• Đối với VAE trên dữ liệu hình ảnh khuôn mặt CelebA, việc thay thế dữ liệu dẫn đến sự sụp đổ mô hình nhanh chóng, với lỗi kiểm tra tăng và chất lượng/đa dạng hình ảnh giảm.

• Tích lũy dữ liệu làm chậm đáng kể sự sụp đổ, giữ được các biến thể chính nhưng mất chi tiết nhỏ qua các lần lặp.

• Các nhà nghiên cứu đã mở rộng phân tích hiện có của các mô hình tuyến tính tuần tự để chứng minh rằng việc tích lũy dữ liệu dẫn đến một giới hạn trên hữu hạn, được kiểm soát tốt đối với lỗi kiểm tra, độc lập với số lần lặp khớp mô hình.

• Phát hiện này trái ngược với sự gia tăng lỗi tuyến tính được thấy trong các kịch bản thay thế dữ liệu.

📌 Nghiên cứu từ Stanford chỉ ra rằng tích lũy dữ liệu tổng hợp cùng dữ liệu thực có thể ngăn chặn sự sụp đổ mô hình AI. Kết quả nhất quán trên nhiều loại mô hình và dữ liệu, với lý thuyết chứng minh giới hạn lỗi hữu hạn khi tích lũy dữ liệu, khác biệt so với tăng lỗi tuyến tính khi thay thế dữ liệu.

https://www.marktechpost.com/2024/07/29/this-ai-paper-from-stanford-provides-new-insights-on-ai-model-collapse-and-data-accumulation/

Không có file đính kèm.

Nguồn tham khảo

148

AI data 2024-07-30 07:09:04

Kỹ thuật "gỡ bỏ học tập" làm suy giảm nghiêm trọng năng lực của mô hình AI

• Các kỹ thuật "gỡ bỏ học tập" được sử dụng để làm cho mô hình AI tạo sinh quên đi thông tin cụ thể và không mong muốn từ dữ liệu đào tạo, như dữ liệu riêng tư nhạy cảm hoặc tài liệu có bản quyền.

• Một nghiên cứu mới do các nhà nghiên cứu từ Đại học Washington, Princeton, Chicago, USC và Google thực hiện cho thấy các kỹ thuật gỡ bỏ học tập phổ biến nhất hiện nay có xu hướng làm suy giảm mô hình, thường đến mức không thể sử dụng được.

• Weijia Shi, một nhà nghiên cứu trong nghiên cứu này và là nghiên cứu sinh tiến sĩ khoa học máy tính tại UW, cho biết hiện tại không có phương pháp hiệu quả nào cho phép mô hình quên dữ liệu cụ thể mà không mất đi đáng kể tính hữu dụng.

• Các mô hình AI tạo sinh học cách dự đoán dữ liệu dựa trên các mẫu và ngữ cảnh từ một lượng lớn dữ liệu đào tạo. Hầu hết các mô hình được đào tạo trên dữ liệu từ các trang web và bộ dữ liệu công khai trên internet.

• Nhiều chủ sở hữu bản quyền không đồng ý với việc sử dụng dữ liệu của họ để đào tạo AI mà không được thông báo, bồi thường hoặc ghi nhận công lao. Điều này đã dẫn đến các vụ kiện chống lại các nhà cung cấp AI.

• Kỹ thuật gỡ bỏ học tập có thể cung cấp cách xóa thông tin nhạy cảm khỏi các mô hình hiện có, như hồ sơ y tế hoặc ảnh riêng tư, theo yêu cầu hoặc lệnh của chính phủ.

• Các kỹ thuật gỡ bỏ học tập hiện tại sử dụng các thuật toán được thiết kế để "điều hướng" mô hình tránh xa dữ liệu cần được gỡ bỏ, nhằm ảnh hưởng đến dự đoán của mô hình để nó không bao giờ hoặc rất hiếm khi đưa ra dữ liệu nhất định.

• Các nhà nghiên cứu đã phát triển một benchmark gọi là MUSE (Machine Unlearning Six-way Evaluation) để đánh giá hiệu quả của các thuật toán gỡ bỏ học tập. MUSE kiểm tra khả năng của thuật toán trong việc ngăn mô hình nhả ra dữ liệu đào tạo nguyên văn và loại bỏ kiến thức của mô hình về dữ liệu đó.

• Nghiên cứu cho thấy các thuật toán gỡ bỏ học tập đã thử nghiệm có thể làm cho mô hình quên thông tin nhất định, nhưng cũng làm tổn hại đến khả năng trả lời câu hỏi chung của mô hình, tạo ra sự đánh đổi.

• Hiện tại chưa có giải pháp cho vấn đề này, nhấn mạnh nhu cầu cần thêm nghiên cứu. Các nhà cung cấp đang đặt cược vào gỡ bỏ học tập như một giải pháp cho các vấn đề dữ liệu đào tạo của họ có vẻ như đang gặp khó khăn.

📌 Nghiên cứu mới cho thấy các kỹ thuật gỡ bỏ học tập AI hiện tại gây suy giảm nghiêm trọng hiệu suất mô hình, với sự đánh đổi giữa xóa dữ liệu không mong muốn và khả năng tổng quát. Cần thêm nghiên cứu để tìm giải pháp hiệu quả cho vấn đề bản quyền và quyền riêng tư trong đào tạo AI.

https://techcrunch.com/2024/07/29/making-ai-models-forget-undesirable-data-hurts-their-performance/

Không có file đính kèm.

Nguồn tham khảo

136

AI data AI pháp lý-quản trị-chủ quyền 2024-07-29 22:48:22

Databricks giới thiệu nền tảng Data Intelligence để xây dựng AI đáng tin cậy, tập trung vào chất lượng, bảo mật và quản trị

• Tiềm năng kinh tế của AI tạo sinh có thể đóng góp từ 17 đến 26 nghìn tỷ USD cho nền kinh tế toàn cầu. Goldman Sachs dự đoán đầu tư vào AI có thể đạt 100 tỷ USD ở Mỹ và 200 tỷ USD trên toàn cầu vào năm 2025.

• Gartner cho rằng quản lý tin cậy, rủi ro và bảo mật AI là xu hướng chiến lược hàng đầu năm 2024. Đến năm 2026, các mô hình AI từ các tổ chức vận hành tính minh bạch, tin cậy và bảo mật AI sẽ tăng 50% về mức độ áp dụng và đạt mục tiêu kinh doanh.

• Databricks giới thiệu Nền tảng Data Intelligence để giúp khách hàng xây dựng AI có trách nhiệm, tập trung vào 3 thách thức chính: thiếu khả năng hiển thị chất lượng mô hình, biện pháp bảo mật không đầy đủ và quản trị phân tán.

• Nền tảng cung cấp giám sát chất lượng toàn diện cho dữ liệu và AI, bao gồm tính minh bạch (với tài liệu tự động bằng AI), hiệu quả (đánh giá mô hình tự động) và độ tin cậy (giám sát liên tục).

• Về bảo mật, Databricks đã phát triển danh sách 55 rủi ro tiềm ẩn và đề xuất giải pháp giảm thiểu thông qua Khung Bảo mật AI Databricks (DASF).

• Unity Catalog cung cấp giải pháp quản trị thống nhất và mở cho dữ liệu và AI, cho phép quản lý truy cập tập trung, bảo vệ quyền riêng tư và theo dõi nguồn gốc tự động.

• Các tính năng chính bao gồm: Delta Live Tables để theo dõi nguồn gốc dữ liệu, Feature Store để quản lý tính năng nhất quán, MLflow để theo dõi thí nghiệm, đánh giá mô hình tự động, giám sát mô hình liên tục và phục vụ mô hình linh hoạt.

• Nền tảng cũng cung cấp các công cụ đánh giá và bảo vệ cho mô hình ngôn ngữ lớn (LLM) như AI playground và AI guardrails.

• Databricks Clean Rooms tạo môi trường an toàn cho cộng tác về dữ liệu và AI giữa các tổ chức mà không ảnh hưởng đến quyền riêng tư.

📌 Nền tảng Data Intelligence của Databricks cung cấp giải pháp toàn diện để xây dựng AI có trách nhiệm, tập trung vào chất lượng, bảo mật và quản trị. Với các tính năng như Unity Catalog, MLflow và DASF, nền tảng giúp doanh nghiệp đáp ứng yêu cầu về AI đáng tin cậy và tuân thủ quy định mới nổi.

https://www.databricks.com/blog/responsible-ai-databricks-data-intelligence-platform

Không có file đính kèm.

Nguồn tham khảo

132

AI data 2024-07-29 00:36:18

Databricks công bố bản xem trước công khai của Mosaic AI Agent Framework và Agent Evaluation

• Databricks công bố bản xem trước công khai của Mosaic AI Agent Framework và Agent Evaluation tại Data + AI Summit 2024, nhằm hỗ trợ các nhà phát triển xây dựng và triển khai ứng dụng Agent và Retrieval Augmented Generation (RAG) chất lượng cao.

• Các thách thức chính khi xây dựng ứng dụng AI tạo sinh chất lượng cao bao gồm: chọn đúng chỉ số đánh giá chất lượng, thu thập phản hồi của con người hiệu quả, xác định nguyên nhân gốc rễ của vấn đề chất lượng và cải thiện nhanh chóng trước khi triển khai.

• Mosaic AI Agent Framework và Agent Evaluation cung cấp các tính năng chính:
- Tích hợp phản hồi của con người: Cho phép định nghĩa phản hồi chất lượng cao bằng cách mời chuyên gia đánh giá.
- Các chỉ số đánh giá toàn diện: Đo lường độ chính xác, ảo tưởng, độ nguy hại và hữu ích của ứng dụng.
- Quy trình phát triển end-to-end: Tích hợp với MLflow để ghi nhật ký và đánh giá ứng dụng.
- Quản lý vòng đời ứng dụng: SDK đơn giản hóa để quản lý toàn bộ vòng đời ứng dụng.

• Databricks cung cấp ví dụ về xây dựng ứng dụng RAG chất lượng cao, bao gồm kết nối với chỉ mục tìm kiếm vector, sử dụng LangChain retriever và tận dụng MLflow.

• Một số công ty đã áp dụng thành công Mosaic AI Agent Framework:
- Corning xây dựng trợ lý nghiên cứu AI lập chỉ mục hàng trăm nghìn tài liệu.
- Lippert sử dụng để đánh giá kết quả ứng dụng AI tạo sinh.
- FordDirect tạo chatbot thống nhất cho các đại lý.

• Giá Agent Evaluation dựa trên yêu cầu đánh giá, còn Mosaic AI Model Serving theo mức giá riêng.

• Databricks khuyến khích khách hàng dùng thử bằng cách truy cập tài liệu, notebook demo và Generative AI Cookbook.

📌 Databricks ra mắt Mosaic AI Agent Framework và Agent Evaluation, giúp xây dựng ứng dụng AI tạo sinh chất lượng cao với tính năng tích hợp phản hồi người dùng, đánh giá toàn diện và quản lý vòng đời. Các công ty như Corning, Lippert và FordDirect đã áp dụng thành công, cải thiện đáng kể chất lượng và hiệu suất ứng dụng AI.

https://www.marktechpost.com/2024/07/26/databricks-announced-the-public-preview-of-mosaic-ai-agent-framework-and-agent-evaluation/

Không có file đính kèm.

Nguồn tham khảo

130

AI data AI riêng tư 2024-07-28 07:44:12

Ảnh trẻ em bị sử dụng trái phép để huấn luyện AI, gây lo ngại về quyền riêng tư

• Human Rights Watch (HRW) vừa hoàn thành cuộc kiểm toán toàn diện về dữ liệu huấn luyện AI và phát hiện hình ảnh trẻ em bị thu thập từ internet đã được sử dụng để huấn luyện các mô hình AI mà không có sự đồng ý của trẻ em hoặc gia đình.

• Theo HRW, tên của một số trẻ được liệt kê trong chú thích đi kèm hoặc URL lưu trữ hình ảnh. Trong nhiều trường hợp, danh tính của trẻ dễ dàng bị truy nguyên, bao gồm thông tin về thời gian và địa điểm chụp ảnh.

• Nhiều hình ảnh bị thu thập không có sẵn công khai trên internet mà được ẩn sau cài đặt quyền riêng tư trên các trang mạng xã hội phổ biến.

• "Sharenting" - đăng thông tin, hình ảnh và câu chuyện về cuộc sống của con cái lên mạng - ngày càng bị chỉ trích vì nhiều lý do chính đáng. Một đứa trẻ 3 tuổi không thể đồng ý một cách có ý nghĩa để cha mẹ chia sẻ video thất bại trong việc tập đi vệ sinh cho cả thế giới xem.

• Báo cáo của HRW cho thấy cha mẹ không thể biết được hậu quả lâu dài của việc chia sẻ thông tin về con cái. 10 năm trước, không ai tưởng tượng được rằng album ảnh kỳ nghỉ gia đình họ chia sẻ có thể bị đưa vào học máy.

• Tòa án Tối cao Mỹ đã bác bỏ học thuyết Chevron vào tháng trước, tước bỏ quyền lực của các cơ quan liên bang như FTC và trao quyền cho tòa án. Điều này gây khó khăn cho việc ban hành luật bảo vệ quyền riêng tư ở cấp liên bang.

• Trong khi chờ đợi, AI sẽ tiếp tục thu thập dữ liệu của trẻ em - và cuối cùng, việc đó có hợp pháp hay không sẽ phụ thuộc vào bang bạn sống.

• Chia sẻ ảnh trận đấu bóng chày nhỏ của con bạn có thể là cách thú vị để giữ liên lạc với gia đình gần xa, nhưng cho đến khi có biện pháp bảo vệ đáng kể, đó là rủi ro mà tác giả không khuyên ai nên thực hiện.

📌 Việc sử dụng hình ảnh trẻ em để huấn luyện AI mà không có sự đồng ý gây lo ngại lớn về quyền riêng tư. Phụ huynh cần thận trọng khi chia sẻ ảnh con online. Cần có luật bảo vệ dữ liệu cá nhân cấp liên bang, nhưng quyết định của Tòa án Tối cao gây khó khăn cho việc này.

https://thehill.com/opinion/technology/4794388-ai-training-children-photos-privacy-chevron/

Không có file đính kèm.

Nguồn tham khảo

131

AI data AI tools 2024-07-28 07:32:27

Phân tích cuộc cạnh tranh giữa Databricks và Snowflake trong lĩnh vực dữ liệu và AI

• Khảo sát 105 khách hàng chung của Databricks và Snowflake, bao gồm 29 công ty trong Fortune 500 và 50 công ty trong Global 2000.

• 96% người được hỏi tham gia sâu vào quá trình ra quyết định về nền tảng dữ liệu.

• 70% cho rằng họ không đưa ra quyết định nền tảng mà không xem xét vấn đề quản trị.

• 48% có kế hoạch thay đổi cách sử dụng Databricks hoặc Snowflake, AI, ML và chi tiêu dữ liệu.

• Snowflake nổi bật hơn về kho dữ liệu và lưu trữ, trong khi Databricks mạnh hơn về AI/ML.

• Về khả năng AI tạo sinh, 65% ủng hộ Databricks, 50% ủng hộ Snowflake, và 34% cho rằng các nhà cung cấp đám mây lớn có nhiều khả năng hơn cả hai công ty.

• 48% cho rằng Databricks có khả năng thống trị AI/ML, so với 21% cho Snowflake.

• 28% có kế hoạch chuyển sang Databricks trong 24 tháng tới, 19% chuyển sang Snowflake, 44% không có kế hoạch thay đổi.

• 86% coi an ninh và 76% coi quản trị là điểm quyết định hàng đầu.

• 54% không muốn bị khóa chặt và 50% có kế hoạch sử dụng định dạng bảng mở.

• Chỉ 15% đang sử dụng định dạng bảng mở, nhưng 70% có kế hoạch đánh giá hoặc sử dụng trong tương lai gần.

• Iceberg là định dạng bảng mở được quan tâm nhất, với kế hoạch sử dụng cao nhất trong 6-12 tháng tới.

• 37% cho rằng quản trị quan trọng hơn việc áp dụng mã nguồn mở.

• Unity của Databricks có lợi thế ban đầu so với Polaris của Snowflake trong lĩnh vực quản trị dữ liệu.

• 47% đang sử dụng Unity, trong đó 43% có kế hoạch tăng cường sử dụng.

• Thị trường quản trị dữ liệu vẫn còn phân mảnh với nhiều lựa chọn từ các nhà cung cấp khác nhau.

📌 Databricks và Snowflake đang cạnh tranh gay gắt nhưng bổ sung cho nhau trong thị trường dữ liệu và AI. Databricks dẫn đầu về AI/ML với 48% ủng hộ, trong khi Snowflake mạnh về kho dữ liệu. An ninh và quản trị là ưu tiên hàng đầu với hơn 75% khách hàng.

https://siliconangle.com/2024/07/27/databricks-vs-snowflake-not-zero-sum-game/

Không có file đính kèm.

Nguồn tham khảo

198

AI riêng tư AI data 2024-07-27 08:23:54

Cách ngăn X của Elon Musk sử dụng dữ liệu của bạn để huấn luyện Grok AI

• X (trước đây là Twitter) đang mặc định sử dụng dữ liệu người dùng để huấn luyện chatbot AI Grok mà không thông báo rõ ràng.

• Elon Musk gần đây thông báo Grok đã bắt đầu quá trình "huấn luyện siêu cụm", nhưng không tiết lộ việc sử dụng dữ liệu người dùng X.

• Thông tin này được tiết lộ bởi người dùng "EasyBakedOven" trên X, cho biết nền tảng đã kích hoạt cài đặt mặc định cho phép sử dụng dữ liệu của mọi người.

• X mô tả cài đặt này là để "cải thiện trải nghiệm liên tục", họ có thể sử dụng bài đăng, tương tác, đầu vào và kết quả của người dùng với Grok để huấn luyện và tinh chỉnh.

• Dữ liệu này cũng có thể được chia sẻ với xAI, công ty AI của Musk.

• Người dùng có thể từ chối cho phép sử dụng dữ liệu của họ bằng cách vào Cài đặt > Quyền riêng tư và an toàn > Nội dung bạn thấy > Huấn luyện AI.

• Việc sử dụng dữ liệu người dùng để huấn luyện AI đang gây tranh cãi, với nhiều công ty bị chỉ trích vì làm điều này mà không có sự đồng ý rõ ràng.

• Musk trước đây đã chỉ trích việc các công ty khác sử dụng dữ liệu công khai để huấn luyện AI, nhưng giờ X cũng đang làm điều tương tự.

• Grok được quảng cáo là một chatbot AI "chống woke", nhưng một số người dùng nhận thấy nó đưa ra câu trả lời ngược lại với kỳ vọng.

• Việc này làm dấy lên lo ngại về quyền riêng tư và sử dụng dữ liệu cá nhân trong phát triển AI.

📌 X của Elon Musk đang mặc định sử dụng dữ liệu người dùng để huấn luyện AI Grok mà không thông báo rõ ràng. Người dùng có thể từ chối trong cài đặt. Điều này gây tranh cãi về quyền riêng tư và sử dụng dữ liệu cá nhân trong phát triển AI.

https://www.zdnet.com/article/elon-musks-x-now-trains-its-grok-ai-on-your-data-by-default-heres-how-to-opt-out/

Không có file đính kèm.

Nguồn tham khảo

236

AI data AI đạo đức 2024-07-27 07:57:22

Salesforce phát hành bộ dữ liệu MINT-1T khổng lồ, mở ra cơ hội và thách thức mới cho ngành AI

• Salesforce AI Research vừa phát hành bộ dữ liệu nguồn mở MINT-1T, chứa 1 nghìn tỷ token văn bản và 3,4 tỷ hình ảnh, lớn gấp 10 lần các bộ dữ liệu công khai trước đây.

• MINT-1T là bộ dữ liệu đa phương thức kết hợp văn bản và hình ảnh, mô phỏng tài liệu thực tế. Điều này rất quan trọng để phát triển học máy đa phương thức - giúp máy tính hiểu cả văn bản và hình ảnh cùng lúc như con người.

• Bộ dữ liệu này không chỉ lớn mà còn đa dạng, lấy từ nhiều nguồn như trang web và bài báo khoa học, giúp mô hình AI có cái nhìn toàn diện về kiến thức của con người.

• Việc công khai MINT-1T phá vỡ rào cản trong nghiên cứu AI, cho phép các phòng thí nghiệm nhỏ và nhà nghiên cứu cá nhân tiếp cận dữ liệu ngang tầm các công ty công nghệ lớn.

• Động thái này của Salesforce phù hợp với xu hướng mở trong nghiên cứu AI, nhưng cũng đặt ra câu hỏi về tương lai của AI và ai sẽ định hướng sự phát triển của nó.

• Quy mô chưa từng có của MINT-1T làm nổi bật các vấn đề đạo đức về quyền riêng tư, sự đồng ý và nguy cơ khuếch đại định kiến trong dữ liệu gốc.

• Cộng đồng AI phải phát triển khuôn khổ mạnh mẽ để tổng hợp dữ liệu và huấn luyện mô hình, ưu tiên công bằng, minh bạch và trách nhiệm giải trình.

• MINT-1T có thể thúc đẩy tiến bộ trong nhiều lĩnh vực AI như trợ lý AI thông minh hơn, đột phá trong thị giác máy tính và khả năng suy luận đa phương thức.

• Tuy nhiên, cộng đồng AI phải đối mặt với các thách thức về độ chệch, khả năng giải thích và độ mạnh mẽ của hệ thống AI ngày càng mạnh mẽ và ảnh hưởng lớn.

• Các nhà nghiên cứu và nhà phát triển phải đưa ra quyết định sử dụng MINT-1T một cách có trách nhiệm, định hình tương lai của AI phù hợp với giá trị của con người.

📌 Bộ dữ liệu MINT-1T với 1 nghìn tỷ token và 3,4 tỷ hình ảnh mở ra cơ hội đột phá cho AI đa phương thức, nhưng cũng đặt ra thách thức về đạo đức và trách nhiệm. Việc sử dụng dữ liệu khổng lồ này sẽ định hình tương lai của AI và thế giới ngày càng phụ thuộc vào AI.

https://venturebeat.com/ai/how-salesforces-mint-1t-dataset-could-disrupt-the-ai-industry/

Không có file đính kèm.

Nguồn tham khảo

134

AI data 2024-07-24 23:34:56

Cách tạo dữ liệu tổng hợp bằng Llama 3.1 405B để cải thiện mô hình ngôn ngữ

• Dữ liệu tổng hợp được sử dụng để cải thiện độ chính xác của mô hình trong nhiều lĩnh vực như phát hiện đối tượng, phát hiện gian lận thẻ tín dụng và cải thiện mô hình BERT cho hỏi đáp.

• Meta vừa phát hành Llama 3.1 405B, mô hình ngôn ngữ lớn mã nguồn mở mạnh mẽ nhất của họ, có thể được sử dụng cho suy luận theo lô và trực tuyến, cũng như làm cơ sở để tiền huấn luyện hoặc tinh chỉnh cho một lĩnh vực cụ thể.

• Có hai cách tiếp cận chính để tạo dữ liệu tổng hợp để tinh chỉnh mô hình: chuyển giao kiến thức và tự cải thiện. Chuyển giao kiến thức chuyển khả năng của mô hình lớn hơn sang mô hình nhỏ hơn. Tự cải thiện sử dụng cùng một mô hình để phê bình lý luận của chính nó.

• Quá trình đào tạo mô hình ngôn ngữ lớn gồm 3 bước: tiền huấn luyện, tinh chỉnh và điều chỉnh. Dữ liệu tổng hợp có thể được sử dụng trong cả 3 bước này.

• Dữ liệu tổng hợp cũng có thể được sử dụng để cải thiện các mô hình và hệ thống khác như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) và các pipeline agent.

• Bài viết trình bày một quy trình 3 bước để tạo dữ liệu tổng hợp đánh giá truy xuất thông tin:
1. Tạo tất cả các câu hỏi có thể
2. Lọc các câu hỏi đã tạo
3. Đưa phong cách viết của persona vào

• Bước 1 bao gồm tạo các điểm quan tâm, loại bỏ trùng lặp, ánh xạ các điểm quan tâm với các loại câu hỏi và tạo tất cả câu hỏi.

• Bước 2 bao gồm loại bỏ trùng lặp giữa các câu hỏi, sử dụng mô hình ngôn ngữ lớn làm trọng tài để xác định mức độ liên quan, viết lại câu hỏi theo giọng điệu hội thoại và lọc ra các câu hỏi quá chung chung.

• Bước 3 sử dụng mô hình ngôn ngữ lớn để viết lại các câu hỏi theo phong cách của các persona khác nhau.

• Quy trình này tạo ra các câu hỏi đa dạng và phù hợp với các persona khác nhau, có thể được sử dụng để đánh giá các pipeline truy xuất khác nhau.

📌 Llama 3.1 405B của Meta là mô hình ngôn ngữ lớn mã nguồn mở mạnh mẽ nhất, có thể tạo dữ liệu tổng hợp để cải thiện mô hình AI. Quy trình 3 bước được đề xuất giúp tạo dữ liệu đánh giá truy xuất đa dạng và phù hợp với các persona khác nhau, hỗ trợ đánh giá hiệu quả các pipeline RAG.

https://developer.nvidia.com/blog/creating-synthetic-data-using-llama-3-1-405b/

Không có file đính kèm.

Nguồn tham khảo

158

AI data 2024-07-24 23:22:57

Web scraping đang thống trị thế giới AI: lý do và tầm quan trọng

• Web scraping đang trở thành công cụ không thể thiếu trong phát triển AI, đặc biệt là trong việc huấn luyện các mô hình ngôn ngữ lớn (LLM) như GPT và RAG.

• Các mô hình ngôn ngữ lớn như GPT-3 cần lượng dữ liệu khổng lồ và đa dạng để học. Web scraping giúp thu thập hiệu quả dữ liệu từ internet rộng lớn và liên tục thay đổi.

• Đối với các mô hình GPT tùy chỉnh cho các ngành cụ thể, web scraping cho phép thu thập dữ liệu có mục tiêu và kịp thời, giúp huấn luyện các mô hình chuyên biệt và cập nhật hơn.

• Các mô hình RAG cần nguồn cấp dữ liệu liên tục để tạo ra nội dung dựa trên thông tin thời gian thực. Web scraping đáp ứng nhu cầu này bằng cách cung cấp dòng dữ liệu mới liên tục.

• Web scraping giúp tiếp cận các bộ dữ liệu độc quyền trên internet, chuyển đổi chúng thành định dạng có cấu trúc phù hợp để huấn luyện mô hình AI.

• So với các phương pháp thu thập dữ liệu truyền thống, web scraping tiết kiệm chi phí đáng kể bằng cách tự động hóa quá trình thu thập trên quy mô lớn và từ nhiều nguồn đa dạng.

• Web scraping giúp doanh nghiệp và nhà phát triển duy trì lợi thế cạnh tranh bằng cách liên tục cập nhật mô hình với thông tin mới nhất.

• Tính linh hoạt của web scraping cho phép tạo ra các bộ dữ liệu tùy chỉnh phù hợp với yêu cầu cụ thể của từng mô hình AI, cải thiện hiệu suất trong các tác vụ chuyên biệt.

• Tuy nhiên, việc sử dụng web scraping cần tuân thủ các quy tắc đạo đức và pháp lý, tôn trọng điều khoản sử dụng của trang web, luật bản quyền và quyền riêng tư dữ liệu.

• Trong tương lai, mối quan hệ giữa phát triển AI và web scraping sẽ ngày càng chặt chẽ hơn. Các phương pháp và công nghệ web scraping sẽ tiếp tục phát triển để đáp ứng nhu cầu dữ liệu ngày càng tăng.

• Các xu hướng trong tương lai bao gồm thuật toán máy học được thiết kế riêng cho web scraping, kỹ thuật ẩn danh dữ liệu nâng cao và hiểu biết sâu sắc hơn về khung pháp lý của việc thu thập dữ liệu.

📌 Web scraping đóng vai trò then chốt trong phát triển AI, từ huấn luyện mô hình ngôn ngữ đến cung cấp dữ liệu thời gian thực. Nó giúp tiếp cận dữ liệu độc quyền, tiết kiệm chi phí và tạo lợi thế cạnh tranh. Tuy nhiên, cần chú trọng đến các vấn đề đạo đức và pháp lý khi sử dụng công cụ mạnh mẽ này.

https://www.techradar.com/pro/from-training-llms-to-getting-real-time-data-for-custom-gpts-and-rag-everyone-is-turning-to-scraping-heres-why

Không có file đính kèm.

Nguồn tham khảo

123

AI data AI bản quyền 2024-07-23 23:55:33

Chủ sở hữu dữ liệu đang chặn AI: Ngành công nghiệp AI đối mặt với "khủng hoảng đồng thuận"

• Một nghiên cứu mới cho thấy dữ liệu đào tạo cho các mô hình AI tạo sinh như Midjourney và ChatGPT đang bắt đầu cạn kiệt.

• Nhóm nghiên cứu của MIT đã xem xét 14.000 tên miền web được sử dụng trong 3 bộ dữ liệu đào tạo AI lớn là C4, RefineWeb và Dolma.

• Kết quả cho thấy 5% tổng số dữ liệu hiện đã bị hạn chế truy cập. Con số này tăng lên 25% đối với các nguồn dữ liệu chất lượng cao nhất.

• Nhiều chủ sở hữu trang web đang sử dụng file robots.txt để ngăn chặn các bot tự động thu thập dữ liệu từ trang của họ.

• Các nhà điều hành AI lo ngại về việc đụng phải "bức tường dữ liệu" khi chủ sở hữu dữ liệu như nhiếp ảnh gia trở nên không tin tưởng ngành công nghiệp AI.

• OpenAI, công ty vận hành DALL-E và ChatGPT, cho biết họ tôn trọng robots.txt. Các công cụ tìm kiếm lớn và Anthropic cũng làm như vậy.

• Tuy nhiên, một số công ty AI khác bị cáo buộc bỏ qua các hạn chế của robots.txt.

• Ngành công nghiệp AI từ lâu đã bị cáo buộc trục lợi từ công việc của các nghệ sĩ, dẫn đến nhiều vụ kiện đang diễn ra.

• Có lo ngại rằng nếu tất cả dữ liệu đào tạo AI cần được cấp phép, một số bên như nhà nghiên cứu và xã hội dân sự sẽ bị loại khỏi việc tham gia phát triển công nghệ này.

• Yacine Jernite, nhà nghiên cứu học máy tại Hugging Face, nhận xét rằng phản ứng từ người tạo dữ liệu là điều không bất ngờ sau khi nội dung họ chia sẻ trực tuyến bị sử dụng để phát triển các hệ thống thương mại đe dọa sinh kế của chính họ.

• Vấn đề bản quyền và sử dụng hợp lý trong việc đào tạo mô hình AI vẫn đang được xem xét trong các vụ kiện tụng.

📌 Nghiên cứu của MIT cho thấy 25% nguồn dữ liệu chất lượng cao đã bị chặn, gây ra "khủng hoảng đồng thuận" trong ngành AI. Các công ty như OpenAI tuyên bố tôn trọng robots.txt, nhưng vẫn còn lo ngại về tương lai nguồn dữ liệu đào tạo AI và tác động đến sự phát triển công nghệ.

https://petapixel.com/2024/07/22/data-owners-are-increasingly-blocking-ai-companies-from-using-their-ip/

Không có file đính kèm.

Nguồn tham khảo

165

AI data 2024-07-20 23:53:38

Dữ liệu dùng để huấn luyện AI đang cạn kiệt nhanh chóng

• Nghiên cứu mới từ Data Provenance Initiative cho thấy có sự sụt giảm mạnh về nội dung có sẵn để xây dựng các hệ thống AI.

• Nghiên cứu khảo sát 14.000 tên miền web được sử dụng trong 3 bộ dữ liệu huấn luyện AI phổ biến (C4, RefinedWeb và Dolma).

• Khoảng 5% tổng số dữ liệu và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế thông qua Robots Exclusion Protocol.

• Lên đến 45% dữ liệu trong bộ C4 đã bị hạn chế bởi điều khoản dịch vụ của các trang web.

• Nhiều nhà xuất bản và nền tảng trực tuyến đã thực hiện các bước để ngăn chặn việc thu thập dữ liệu của họ mà không có sự đồng ý.

• Dữ liệu là thành phần chính trong các hệ thống AI tạo sinh hiện nay, được cung cấp hàng tỷ ví dụ về văn bản, hình ảnh và video.

• Sự bùng nổ của AI tạo sinh trong những năm gần đây đã dẫn đến căng thẳng với chủ sở hữu dữ liệu, nhiều người muốn được trả tiền cho việc sử dụng dữ liệu của họ.

• Một số nhà xuất bản đã thiết lập tường lửa hoặc thay đổi điều khoản dịch vụ để hạn chế sử dụng dữ liệu của họ cho việc huấn luyện AI.

• Các trang web như Reddit và StackOverflow đã bắt đầu tính phí các công ty AI để truy cập dữ liệu.

• Một số nhà xuất bản đã có hành động pháp lý, bao gồm The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền.

• Các công ty AI lớn như OpenAI, Google và Meta đã nỗ lực thu thập thêm dữ liệu, bao gồm cả việc phiên âm video YouTube.

• Một số công ty AI đã ký thỏa thuận với các nhà xuất bản như The Associated Press và News Corp để có quyền truy cập liên tục vào nội dung của họ.

• Việc hạn chế dữ liệu có thể gây ra mối đe dọa cho các công ty AI, đặc biệt là các công ty nhỏ hơn và các nhà nghiên cứu học thuật phụ thuộc vào bộ dữ liệu công khai.

• Một số công ty AI đang xem xét sử dụng dữ liệu tổng hợp để đối phó với tình trạng thiếu hụt dữ liệu, nhưng nhiều nhà nghiên cứu nghi ngờ về chất lượng của phương pháp này.

• Cần có các công cụ mới để cho phép chủ sở hữu trang web kiểm soát chính xác hơn việc sử dụng dữ liệu của họ, phân biệt giữa mục đích thương mại và phi thương mại.

📌 Nghiên cứu cho thấy 5% tổng số dữ liệu và 25% dữ liệu chất lượng cao đã bị hạn chế, gây khó khăn cho việc huấn luyện AI. Các công ty AI đang đối mặt với "bức tường dữ liệu", buộc phải tìm giải pháp thay thế như dữ liệu tổng hợp hoặc thỏa thuận cấp phép.

https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

Không có file đính kèm.

Nguồn tham khảo

153

AI data AI kiến thức-khóa học 2024-07-17 03:14:59

vector database - chìa khóa khai phá tiềm năng dữ liệu phi cấu trúc cho ứng dụng AI hiện đại

• Vector database là công nghệ cơ sở dữ liệu mới, có khả năng mã hóa thông tin dưới dạng vector trong không gian đa chiều, giúp quản lý hiệu quả dữ liệu phi cấu trúc như hình ảnh, âm thanh, văn bản.

• Hơn 80% dữ liệu được tạo ra hiện nay là dữ liệu phi cấu trúc. Vector database giải quyết thách thức này bằng cách biến đổi dữ liệu phi cấu trúc thành biểu diễn vector, cho phép lưu trữ, truy xuất và phân tích hiệu quả.

• Vector database cho phép tìm kiếm tương đồng nhanh chóng, xác định các điểm dữ liệu tương tự dựa trên khoảng cách trong không gian vector. Điều này rất hữu ích cho các ứng dụng như tìm kiếm hình ảnh, hệ thống gợi ý, xử lý ngôn ngữ tự nhiên.

• Ưu điểm chính của vector database:
- Biểu diễn hiệu quả dữ liệu phức tạp
- Khám phá và tổ chức dữ liệu nhanh chóng
- Hiệu suất cao và khả năng mở rộng tốt
- Cải thiện trải nghiệm người dùng nhờ truy xuất và phân tích dữ liệu thời gian thực

• Các ứng dụng chính của vector database:
- Truy xuất và tìm kiếm hình ảnh tương tự
- Hệ thống gợi ý cá nhân hóa
- Xử lý ngôn ngữ tự nhiên
- Phát hiện gian lận
- Tin sinh học

• Chroma DB là một giải pháp thực tế để tận dụng vector database trong các dự án AI. Hướng dẫn bắt đầu với Chroma DB:
1. Thiết lập môi trường phát triển
2. Cài đặt Chroma DB
3. Tạo bộ sưu tập và thêm tài liệu
4. Truy vấn cơ sở dữ liệu và diễn giải kết quả

• Một số nhà cung cấp vector database chính: Pinecone, Weaviate, Vespa, Milvus, FAISS, Annoy.

📌 Vector database là công nghệ đột phá cho quản lý dữ liệu phi cấu trúc, mở ra tiềm năng ứng dụng AI đa dạng. Với khả năng xử lý hiệu quả 80% dữ liệu phi cấu trúc, vector database đang định hình lại cách tổ chức khai thác giá trị từ dữ liệu lớn và phức tạp.

https://www.geeky-gadgets.com/vector-databases-explained/

Không có file đính kèm.

Nguồn tham khảo

142

AI data 2024-07-15 06:50:58

Dữ liệu tổng hợp - giải pháp tiềm năng cho việc thiếu dữ liệu huấn luyện AI

• Sự phát triển nhanh chóng của AI tạo sinh như GPT-4 đã mang lại những tiến bộ đáng kể, nhưng cũng đặt ra nhiều rủi ro đáng kể.

• Một trong những vấn đề cấp bách nhất là hiện tượng sụp đổ mô hình, khi các mô hình AI được huấn luyện chủ yếu trên nội dung do AI tạo ra có xu hướng suy giảm theo thời gian.

• Sự suy giảm này xảy ra khi các mô hình AI mất thông tin về phân phối dữ liệu cơ bản thực sự của chúng, dẫn đến các đầu ra ngày càng giống nhau và ít đa dạng hơn, chứa đầy thiên kiến và lỗi.

• Khi internet ngập tràn nội dung do AI tạo ra theo thời gian thực, sự khan hiếm dữ liệu mới do con người tạo ra hoặc dữ liệu tự nhiên càng làm trầm trọng thêm vấn đề này.

• Dữ liệu tổng hợp nổi lên như một giải pháp đầy hứa hẹn. Nó được thiết kế để bắt chước chặt chẽ các thuộc tính thống kê của dữ liệu thế giới thực.

• Dữ liệu tổng hợp không chứa bất kỳ thông tin thực hoặc cá nhân nào. Thay vào đó, các thuật toán máy tính dựa trên các mẫu và đặc điểm thống kê quan sát được trong các bộ dữ liệu thực để tạo ra các bộ dữ liệu tổng hợp.

• Trong lĩnh vực chăm sóc sức khỏe, dữ liệu tổng hợp giúp các nhà nghiên cứu phân tích xu hướng bệnh nhân và kết quả sức khỏe, hỗ trợ phát triển các công cụ chẩn đoán và kế hoạch điều trị tiên tiến.

• Trong lĩnh vực tài chính, dữ liệu tổng hợp được sử dụng để mô hình hóa các kịch bản tài chính và dự đoán xu hướng thị trường đồng thời bảo vệ thông tin nhạy cảm.

• Dữ liệu tổng hợp cũng hỗ trợ phát triển các hệ thống hỗ trợ dịch vụ khách hàng do AI điều khiển có khả năng phản hồi và chính xác.

• Một thách thức lớn là đảm bảo chất lượng của dữ liệu tổng hợp, được xác định bởi khả năng phản ánh chính xác các thuộc tính thống kê của dữ liệu thực trong khi vẫn duy trì quyền riêng tư.

• Dữ liệu tổng hợp có thể bị kỹ thuật đảo ngược, gây ra mối đe dọa đáng kể về quyền riêng tư như được nêu bật trong một nghiên cứu gần đây của Đại học Liên Hợp Quốc.

• Dữ liệu tổng hợp cũng có thể đưa vào hoặc củng cố các thiên kiến trong các mô hình AI. Mặc dù nó có thể tạo ra các bộ dữ liệu đa dạng một cách đáng tin cậy, nhưng vẫn gặp khó khăn trong việc nắm bắt các sắc thái hiếm gặp nhưng quan trọng có trong dữ liệu thế giới thực.

• Dữ liệu tổng hợp cũng gặp khó khăn trong việc nắm bắt toàn bộ phổ cảm xúc và tương tác của con người, dẫn đến các mô hình AI kém hiệu quả hơn.

📌 Dữ liệu tổng hợp đang nổi lên như một giải pháp tiềm năng cho việc thiếu hụt dữ liệu huấn luyện AI, với ứng dụng rộng rãi trong y tế, tài chính và dịch vụ khách hàng. Tuy nhiên, nó cũng đặt ra những thách thức về chất lượng, bảo mật và đạo đức cần được giải quyết để đảm bảo sự phát triển AI bền vững và có trách nhiệm.

https://theconversation.com/training-ai-requires-more-data-than-we-have-generating-synthetic-data-could-help-solve-this-challenge-232314

Không có file đính kèm.

Nguồn tham khảo

AI data AI kiến thức-khóa học 2024-07-14 00:48:45

RAG- giải pháp cho vấn đề chất lượng và bảo mật dữ liệu khi sử dụng LLM trong doanh nghiệp

• Mô hình ngôn ngữ lớn (LLM) là giải pháp AI có thể nhận diện và tạo ra nội dung mới từ nội dung có sẵn. Dự kiến đến năm 2025, 50% công việc kỹ thuật số sẽ được tự động hóa thông qua các mô hình LLM.

• LLM được huấn luyện trên lượng lớn nội dung và dữ liệu, với kiến trúc gồm nhiều lớp mạng nơ-ron như lớp hồi quy, lớp truyền xuôi, lớp nhúng và lớp chú ý.

• AI tạo sinh (GenAI) là một khái niệm rộng hơn, bao gồm các mô hình AI được thiết kế để tạo ra nội dung mới không chỉ là văn bản mà còn cả hình ảnh, âm thanh và video.

• Các LLM phổ biến như GPT-4, Gemini và Claude được sử dụng rộng rãi trong công chúng, nhưng việc áp dụng trong doanh nghiệp còn chậm do hai vấn đề chính: chất lượng dữ liệu và bảo mật/quyền riêng tư dữ liệu.

• Vấn đề chất lượng dữ liệu: LLM được huấn luyện trên lượng lớn dữ liệu công khai, khó kiểm tra và kiểm duyệt về độ chính xác, tính thời sự và sự phù hợp. Điều này dẫn đến hiện tượng "ảo giác" hoặc phản hồi không chính xác.

• Vấn đề bảo mật và quyền riêng tư: Dữ liệu doanh nghiệp thường là tài sản có giá trị và cần được bảo vệ, không thể chia sẻ rộng rãi trên internet.

• Giải pháp "fine-tuning" giúp điều chỉnh các lớp cuối của LLM để phù hợp với dữ liệu cụ thể của doanh nghiệp, nhưng quá trình này tốn kém và rủi ro.

• RAG (Retrieval Augmented Generation) là một giải pháp khác, kết hợp cơ chế truy xuất với mô hình tạo sinh để tạo ra phản hồi chính xác và phù hợp với ngữ cảnh hơn.

• RAG hoạt động bằng cách xử lý nội dung thành các vector, lưu trữ trong cơ sở dữ liệu vector. Khi có truy vấn, hệ thống tìm kiếm các phần tương tự nhất trong cơ sở dữ liệu và sử dụng chúng làm ngữ cảnh cho LLM để tạo ra phản hồi cuối cùng.

• RAG có ưu điểm là tích hợp thông tin từ cơ sở kiến thức chính xác và tùy chỉnh, giảm thiểu rủi ro LLM đưa ra phản hồi chung chung hoặc không liên quan.

• Tuy nhiên, RAG vẫn phụ thuộc vào chất lượng, độ chính xác và tính toàn diện của thông tin trong cơ sở kiến thức.

• Việc triển khai RAG thường gồm 5 giai đoạn chính: huấn luyện bộ truy xuất, truy xuất tài liệu, huấn luyện bộ tạo sinh, tạo phản hồi, và tích hợp & tối ưu hóa.

📌 RAG là giải pháp hứa hẹn cho việc sử dụng LLM trong doanh nghiệp, giải quyết vấn đề chất lượng và bảo mật dữ liệu. Kết hợp truy xuất và tạo sinh, RAG nâng cao khả năng tạo phản hồi chính xác và phù hợp ngữ cảnh. Tuy nhiên, chất lượng dữ liệu vẫn là yếu tố quyết định thành công của RAG.

https://www.dataversity.net/rag-retrieval-augmented-generation-architecture-for-data-quality-assessment/

Không có file đính kèm.

Nguồn tham khảo

153

AI data 2024-07-14 00:40:32

Cơ sở dữ liệu vector nguồn mở: chìa khóa để tạo ra AI thông minh hơn mà không tốn kém

• Cơ sở dữ liệu vector cho phép tăng cường mô hình LLM bằng dữ liệu nội bộ, giúp giảm "ảo giác AI" và cải thiện độ chính xác của câu trả lời.

• Các giải pháp nguồn mở như Apache Cassandra 5.0, OpenSearch và PostgreSQL có thể được sử dụng làm cơ sở dữ liệu vector mà không cần đầu tư vào các giải pháp độc quyền đắt tiền.

• Apache Cassandra 5.0 (đang ở bản preview) cung cấp lập chỉ mục vector và tìm kiếm vector tích hợp sẵn, cùng với kiểu dữ liệu vector mới để lưu trữ và truy xuất vector nhúng.

• OpenSearch kết hợp khả năng tìm kiếm, phân tích và cơ sở dữ liệu vector trong một giải pháp. Nó hỗ trợ tìm kiếm láng giềng gần nhất cho vector, từ vựng và tìm kiếm kết hợp.

• PostgreSQL với phần mở rộng pgvector trở thành một cơ sở dữ liệu vector mạnh mẽ. pgvector phù hợp để tìm kiếm láng giềng gần nhất chính xác và gần đúng, cũng như tìm kiếm nhúng dựa trên khoảng cách.

• Các cơ sở dữ liệu vector nguồn mở này đều sẵn sàng cho doanh nghiệp và tránh được những hạn chế của hệ thống độc quyền.

• Chúng là lựa chọn trực tiếp nhất để triển khai LLM và có thể tận dụng tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để cung cấp trải nghiệm AI chính xác và phù hợp.

• Cơ sở dữ liệu vector lưu trữ các vector nhúng, là danh sách các số đại diện cho tọa độ không gian tương ứng với các phần dữ liệu. Dữ liệu liên quan sẽ có tọa độ gần nhau hơn.

• RAG là quá trình sử dụng cơ sở dữ liệu vector để chuyển đổi từ trong tài liệu của doanh nghiệp thành các nhúng, cho phép truy vấn tài liệu đó thông qua LLM một cách hiệu quả và chính xác.

• Cassandra 5.0 bổ sung các hàm CQL cụ thể giúp doanh nghiệp dễ dàng sử dụng nó làm cơ sở dữ liệu vector để hỗ trợ khối lượng công việc AI.

• OpenSearch cung cấp khả năng mở rộng để xử lý hàng chục tỷ vector, phù hợp để phát triển công cụ đề xuất, agent AI tạo sinh hoặc các giải pháp yêu cầu độ chính xác cao.

• pgvector đặc biệt phù hợp để sử dụng khoảng cách cosin (được OpenAI khuyến nghị), khoảng cách L2 và tích vô hướng để nhận biết sự tương đồng ngữ nghĩa.

📌 Các cơ sở dữ liệu vector nguồn mở như Apache Cassandra 5.0, OpenSearch và PostgreSQL với pgvector là những lựa chọn hàng đầu cho phát triển AI. Chúng cung cấp khả năng lưu trữ và truy vấn vector hiệu quả, hỗ trợ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), và giúp doanh nghiệp xây dựng các ứng dụng AI đáng tin cậy mà không cần đầu tư vào giải pháp độc quyền đắt tiền.

https://thenewstack.io/use-your-data-in-llms-with-the-vector-database-you-already-have/

Không có file đính kèm.

Nguồn tham khảo

136

AI data 2024-07-10 16:16:22

McKinsey: Hướng dẫn kỹ thuật cho các nhà lãnh đạo dữ liệu để mở rộng quy mô AI tạo sinh

- Theo khảo sát của McKinsey năm 2024, 70% doanh nghiệp gặp khó khăn khi tích hợp dữ liệu vào mô hình AI do chất lượng dữ liệu kém, thiếu quy trình quản trị và dữ liệu huấn luyện. 63% cho rằng sự không chính xác của đầu ra là rủi ro lớn nhất trong việc sử dụng gen AI.
- Để mở rộng quy mô gen AI, các nhà lãnh đạo cần nâng cao chất lượng dữ liệu, sử dụng gen AI để xây dựng sản phẩm dữ liệu tốt hơn và quản lý dữ liệu hiệu quả.
- Cần cải thiện độ chính xác của dữ liệu nguồn từ các loại dữ liệu phức tạp như dữ liệu phi cấu trúc. Có thể dùng đồ thị tri thức để nắm bắt mối quan hệ phức tạp giữa các thực thể và mô hình đa phương thức để phân tích tài liệu có nhiều định dạng dữ liệu khác nhau.
- Khi thiếu dữ liệu thực, có thể tạo dữ liệu tổng hợp tương tự về mặt thống kê để kiểm tra tính khả thi của các trường hợp sử dụng gen AI.
- Tự động hóa việc tạo pipeline dữ liệu đầu cuối, tiết kiệm 80-90% thời gian và tăng khả năng mở rộng cho các trường hợp sử dụng cụ thể. Ví dụ: tự động tạo pipeline chuyển đổi dữ liệu PySpark và tài liệu mô tả các bước chuyển đổi phức tạp.
- Sử dụng framework dựa trên tác tử (agent) để điều phối và quản lý sự phức tạp khi mở rộng việc sử dụng gen AI. Các tác tử có khả năng lập kế hoạch, quản lý quy trình, xác minh chéo và thiết kế quy trình đầu cuối.
- Chuyển đổi và hiện đại hóa sản phẩm dữ liệu bằng cách chọn mô hình ngôn ngữ lớn (LLM) phù hợp và tự động hóa việc dịch mã. Mỗi LLM có thể được huấn luyện tốt hơn cho một tập hợp ngôn ngữ lập trình nhất định.
- Tích hợp các thực tiễn lập trình tốt nhất vào mã gen AI để cải thiện chất lượng dữ liệu. Sử dụng gen AI để phân tích giá trị cột, xác định các quy tắc chất lượng dữ liệu phù hợp và tự động tích hợp chúng vào quá trình tạo pipeline.
- Bảo vệ dữ liệu ở mỗi bước bằng cách thiết kế pipeline theo module có khả năng tự động bảo mật dữ liệu. Triển khai kiểm soát truy cập dựa trên vai trò và các biện pháp bảo vệ nhất quán tại mỗi điểm kiểm tra trong pipeline dữ liệu.

📌 Tập trung vào khả năng điều phối, tự động hóa phát triển dữ liệu và cải thiện khả năng sử dụng sẽ giúp các nhà lãnh đạo chuyển từ các dự án thử nghiệm gen AI sang mở rộng các giải pháp mang lại giá trị thực. Theo khảo sát năm 2024 của McKinsey, 63% doanh nghiệp cho rằng sự không chính xác của đầu ra là rủi ro lớn nhất, tăng 7 điểm phần trăm so với năm 2023. Các công cụ gen AI hiện có thể đẩy nhanh việc phát triển sản phẩm và nền tảng dữ liệu, nhưng để sử dụng hiệu quả, các công ty phải giải quyết nhiều thách thức kỹ thuật.

https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/a-data-leaders-technical-guide-to-scaling-gen-ai#/

#McKinsey

Không có file đính kèm.

Nguồn tham khảo

157

AI data 2024-07-08 16:00:01

MIT ra mắt GenSQL: AI tạo sinh mới giúp phân tích dữ liệu phức tạp dễ dàng hơn

• Các nhà nghiên cứu MIT đã giới thiệu GenSQL, một hệ thống AI tạo sinh mới cho cơ sở dữ liệu, giúp người dùng dễ dàng thực hiện các phân tích thống kê phức tạp trên dữ liệu bảng mà không cần hiểu biết chuyên sâu.

• GenSQL có thể được sử dụng để dự đoán, phát hiện bất thường, đoán giá trị bị thiếu, sửa lỗi hoặc tạo dữ liệu tổng hợp chỉ với vài thao tác đơn giản.

• Hệ thống này tự động tích hợp tập dữ liệu bảng và mô hình AI xác suất, có thể tính đến sự không chắc chắn và điều chỉnh quá trình ra quyết định dựa trên dữ liệu mới.

• GenSQL được xây dựng dựa trên SQL, ngôn ngữ lập trình phổ biến cho cơ sở dữ liệu được sử dụng bởi hàng triệu lập trình viên trên toàn cầu.

• Khi so sánh với các phương pháp phân tích dữ liệu dựa trên AI phổ biến khác, GenSQL không chỉ nhanh hơn mà còn cho kết quả chính xác hơn. Quan trọng là các mô hình xác suất được sử dụng có thể giải thích được.

• GenSQL có thể tạo và phân tích dữ liệu tổng hợp mô phỏng dữ liệu thực trong cơ sở dữ liệu, hữu ích trong các tình huống không thể chia sẻ dữ liệu nhạy cảm hoặc khi dữ liệu thực khan hiếm.

• Người dùng tải lên dữ liệu và mô hình xác suất, hệ thống sẽ tự động tích hợp. Sau đó có thể chạy các truy vấn trên dữ liệu với sự hỗ trợ của mô hình xác suất chạy ngầm.

• GenSQL cung cấp thước đo độ không chắc chắn được hiệu chỉnh cùng với mỗi câu trả lời, giúp người dùng biết được mức độ tin cậy của kết quả.

• Trong các nghiên cứu tình huống, GenSQL đã được áp dụng để xác định dữ liệu thử nghiệm lâm sàng bị gán nhãn sai và tạo dữ liệu tổng hợp chính xác nắm bắt các mối quan hệ phức tạp trong genomics.

• Các nhà nghiên cứu đang hướng tới việc áp dụng GenSQL rộng rãi hơn để mô hình hóa quy mô lớn các quần thể con người, đồng thời muốn phát triển một chuyên gia AI kiểu ChatGPT có thể trò chuyện về bất kỳ cơ sở dữ liệu nào.

📌 GenSQL, công cụ AI tạo sinh mới từ MIT, tích hợp mô hình xác suất vào cơ sở dữ liệu SQL. Nhanh hơn 1,7-6,8 lần so với phương pháp mạng nơ-ron, cho kết quả chính xác hơn trong vài mili giây. Hứa hẹn cách mạng hóa phân tích dữ liệu phức tạp và tạo dữ liệu tổng hợp.

https://news.mit.edu/2024/mit-researchers-introduce-generative-ai-databases-0708

#MIT

Không có file đính kèm.

Nguồn tham khảo

123

AI data 2024-07-06 08:44:20

Nghiên cứu mới về thiết kế bộ dữ liệu Q&A: sử dụng kiến thức phổ biến trong fine-tuning có thể cải thiện đáng kể độ chính xác của LLM

• Các mô hình ngôn ngữ lớn (LLM) có khả năng lưu trữ lượng lớn kiến thức thực tế trong quá trình huấn luyện trước, nhưng vẫn thường tạo ra câu trả lời sai lệch, gây ảnh hưởng đến độ tin cậy.

• Các nhà nghiên cứu đã thử nghiệm nhiều phương pháp để cải thiện tính chính xác thực tế của LLM, bao gồm điều chỉnh cơ chế chú ý, sử dụng đầu dò nội bộ không giám sát và phát triển phương pháp để LLM từ chối trả lời các câu hỏi không chắc chắn.

• Nghiên cứu mới từ Đại học Carnegie Mellon và Stanford cho thấy tác động của các ví dụ fine-tuning phụ thuộc rất nhiều vào mức độ mã hóa tốt của các sự kiện trong mô hình được huấn luyện trước.

• Fine-tuning trên các sự kiện được mã hóa tốt cải thiện đáng kể tính chính xác thực tế, trong khi sử dụng các sự kiện ít được mã hóa có thể gây hại cho hiệu suất.

• Phương pháp sử dụng một thiết lập tổng hợp để nghiên cứu tác động của dữ liệu fine-tuning đối với tính chính xác thực tế của LLM. Thiết lập này mô phỏng một không gian token đơn giản hóa cho chủ thể, quan hệ và câu trả lời.

• Các phát hiện chính cho thấy fine-tuning các sự kiện phổ biến cải thiện đáng kể tính chính xác thực tế, với các hiệu ứng được khuếch đại đối với các thực thể ít phổ biến hơn.

• Kết quả thực nghiệm trên nhiều bộ dữ liệu (PopQA, Entity-Questions và MMLU) và mô hình (Llama-7B và Mistral) nhất quán cho thấy fine-tuning trên các ví dụ ít phổ biến hoặc ít tự tin hơn kém hiệu quả so với việc sử dụng kiến thức phổ biến.

• Đáng ngạc nhiên, ngay cả các tập con được chọn ngẫu nhiên cũng vượt trội hơn fine-tuning trên kiến thức ít phổ biến nhất, cho thấy việc bao gồm một số sự kiện phổ biến có thể giảm thiểu tác động tiêu cực của những sự kiện ít phổ biến hơn.

• Huấn luyện trên một tập con nhỏ hơn của các sự kiện phổ biến nhất thường hoạt động tương đương hoặc tốt hơn so với việc sử dụng toàn bộ bộ dữ liệu.

• Những phát hiện này chỉ ra rằng việc lựa chọn cẩn thận dữ liệu fine-tuning, tập trung vào các sự kiện nổi tiếng, có thể dẫn đến cải thiện độ chính xác thực tế trong LLM.

• Nghiên cứu mở ra những hướng mới để cải thiện hiệu suất mô hình ngôn ngữ, gợi ý các lợi ích tiềm năng trong kỹ thuật điều chỉnh để khắc phục sự mất cân bằng chú ý, chiến lược học tập theo chương trình và phát triển dữ liệu tổng hợp để trích xuất kiến thức hiệu quả.

📌 Nghiên cứu đột phá cho thấy fine-tuning LLM trên kiến thức phổ biến cải thiện đáng kể độ chính xác. Phát hiện này thách thức cách tiếp cận truyền thống trong thiết kế bộ dữ liệu hỏi đáp và mở ra hướng mới để nâng cao hiệu suất và độ tin cậy của mô hình ngôn ngữ trong nhiều ứng dụng khác nhau.

https://www.marktechpost.com/2024/07/04/rethinking-qa-dataset-design-how-popular-knowledge-enhances-llm-accuracy/

Không có file đính kèm.

Nguồn tham khảo

127

AI data AI mở-nguồn mở 2024-07-04 23:05:05

IBM công bố toàn bộ bộ dữ liệu 6,48 TB dùng để huấn luyện mô hình ngôn ngữ lớn Granite 13B

• IBM vừa công bố toàn bộ bộ dữ liệu 6,48 TB được sử dụng để huấn luyện mô hình ngôn ngữ lớn Granite 13B.

• Armand Ruiz, một chuyên gia của IBM, đã tiết lộ thông tin này, mở ra cơ hội mới cho cộng đồng nghiên cứu AI và phát triển ứng dụng.

• Granite 13B là một mô hình ngôn ngữ lớn được IBM phát triển đặc biệt cho các ứng dụng doanh nghiệp.

• Vào tháng 5/2024, IBM đã công bố mã nguồn mở của Granite 13B, cho phép các nhà phát triển và doanh nghiệp tự do sử dụng và tùy chỉnh mô hình này.

• Bộ dữ liệu huấn luyện 6,48 TB bao gồm nhiều loại dữ liệu đa dạng như văn bản, mã nguồn, tài liệu kỹ thuật và dữ liệu doanh nghiệp.

• Việc công bố bộ dữ liệu này giúp tăng tính minh bạch trong quá trình phát triển AI, đồng thời cho phép các nhà nghiên cứu hiểu rõ hơn về cách Granite 13B được huấn luyện.

• IBM khẳng định rằng bộ dữ liệu đã được xử lý để loại bỏ thông tin nhạy cảm và tuân thủ các quy định về bảo mật và quyền riêng tư.

• Granite 13B được thiết kế để xử lý các tác vụ phức tạp trong môi trường doanh nghiệp như phân tích dữ liệu, tự động hóa quy trình và hỗ trợ ra quyết định.

• Mô hình này có khả năng hiểu và tạo ra văn bản chất lượng cao, đồng thời tích hợp tốt với các hệ thống và ứng dụng doanh nghiệp hiện có.

• Việc công bố bộ dữ liệu huấn luyện có thể thúc đẩy sự phát triển của các mô hình AI tùy chỉnh cho các ngành công nghiệp cụ thể.

• Các chuyên gia trong ngành nhận định rằng động thái này của IBM sẽ góp phần thúc đẩy sự cạnh tranh và đổi mới trong lĩnh vực AI doanh nghiệp.

• Bộ dữ liệu được chia sẻ thông qua nền tảng Hugging Face, một kho lưu trữ phổ biến cho các mô hình và dữ liệu AI.

• IBM cũng cung cấp tài liệu hướng dẫn chi tiết về cách sử dụng bộ dữ liệu và tái tạo quá trình huấn luyện Granite 13B.

• Việc này mở ra cơ hội cho các doanh nghiệp vừa và nhỏ tiếp cận công nghệ AI tiên tiến mà không cần đầu tư lớn vào nghiên cứu và phát triển.

📌 IBM công bố bộ dữ liệu 6,48 TB dùng để huấn luyện Granite 13B, mô hình ngôn ngữ lớn nguồn mở cho doanh nghiệp. Động thái này thúc đẩy minh bạch trong AI, mở ra cơ hội nghiên cứu và phát triển ứng dụng AI tùy chỉnh cho nhiều ngành công nghiệp.

https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/

Không có file đính kèm.

Nguồn tham khảo

159

AI data 2024-07-02 22:56:39

OmniParse - nền tảng AI đa năng chuyển đổi dữ liệu phi cấu trúc thành dữ liệu có cấu trúc tối ưu cho ứng dụng AI tạo sinh

• OmniParse là một nền tảng AI toàn diện được thiết kế để tiếp nhận và phân tích nhiều loại dữ liệu phi cấu trúc khác nhau như tài liệu, hình ảnh, âm thanh, video và nội dung web, chuyển đổi chúng thành dữ liệu có cấu trúc và có thể hành động được.

• Nền tảng này tối ưu hóa dữ liệu đầu ra cho các ứng dụng AI tạo sinh (GenAI), giúp dễ dàng triển khai các mô hình AI tiên tiến hơn.

• OmniParse hoạt động hoàn toàn cục bộ, đảm bảo quyền riêng tư và bảo mật dữ liệu mà không phụ thuộc vào các API bên ngoài.

• Nền tảng hỗ trợ khoảng 20 loại tệp khác nhau và có thể chuyển đổi tài liệu, đa phương tiện và trang web thành các markdown có cấu trúc chất lượng cao.

• Các khả năng của OmniParse bao gồm trích xuất bảng, chú thích hình ảnh, chuyển đổi âm thanh và video thành văn bản, và thu thập dữ liệu từ trang web.

• Người dùng có thể dễ dàng triển khai OmniParse bằng Docker và Skypilot, và nó tương thích với các nền tảng như Colab, giúp dễ tiếp cận và thân thiện với người dùng.

• Giao diện người dùng tương tác của nền tảng, được hỗ trợ bởi Gradio, nâng cao trải nghiệm người dùng bằng cách đơn giản hóa quá trình tiếp nhận và phân tích dữ liệu.

• OmniParse sử dụng các mô hình như Surya OCR để xử lý tài liệu, Florence-2 để phát hiện bố cục và thứ tự, và Whisper để chuyển đổi phương tiện thành văn bản, thể hiện độ chính xác và hiệu quả ấn tượng trong việc chuyển đổi dữ liệu.

• Nền tảng này xử lý hiệu quả nhiều loại dữ liệu khác nhau, chuyển đổi chúng thành các định dạng có cấu trúc phù hợp cho các ứng dụng AI.

• Tính linh hoạt của OmniParse cho phép người dùng xử lý nhiều nguồn dữ liệu đa dạng thông qua một nền tảng duy nhất, cải thiện hiệu quả và tính nhất quán trong quy trình làm việc.

📌 OmniParse là giải pháp toàn diện cho việc xử lý dữ liệu phi cấu trúc, hỗ trợ 20 loại tệp khác nhau. Nền tảng này chuyển đổi dữ liệu thành định dạng có cấu trúc tối ưu cho AI tạo sinh, hoạt động cục bộ đảm bảo bảo mật, và cung cấp giao diện thân thiện với người dùng.

https://www.marktechpost.com/2024/07/02/omniparse-an-ai-platform-that-ingests-parses-any-unstructured-data-into-structured-actionable-data-optimized-for-genai-llm-applications/

Không có file đính kèm.

Nguồn tham khảo

149

AI data 2024-07-02 22:13:35

Các công ty AI buộc phải trả tiền cho dữ liệu huấn luyện

• Các công ty AI đã khai thác dữ liệu trên internet một cách ồ ạt để huấn luyện mô hình, dẫn đến phản ứng từ chủ sở hữu dữ liệu và các vụ kiện đòi bồi thường.

• Ba hãng thu âm lớn Sony Music, Warner Music Group và Universal Music Group vừa kiện các công ty AI âm nhạc Suno và Udio về cáo buộc vi phạm bản quyền ở quy mô lớn.

• Vụ kiện này có thể tạo tiền lệ quan trọng cho toàn bộ ngành AI tạo sinh, khi gửi thông điệp rõ ràng rằng dữ liệu huấn luyện chất lượng cao không miễn phí.

• OpenAI đã bắt đầu ký thỏa thuận với các nhà xuất bản tin tức như Politico, Atlantic, Time, Financial Times để đổi lấy dữ liệu tin tức và trích dẫn nguồn.

• YouTube cũng thông báo sẽ cung cấp thỏa thuận cấp phép cho các hãng thu âm hàng đầu để đổi lấy âm nhạc phục vụ huấn luyện AI.

• Tuy nhiên, các thỏa thuận này cũng gây lo ngại. Các mô hình ngôn ngữ vốn không thể hoàn toàn chính xác và thường tạo ra các trích dẫn ảo, khiến OpenAI khó có thể thực hiện lời hứa trích dẫn nguồn.

• Xu hướng này có thể dẫn đến việc các công ty AI xây dựng các mô hình nhỏ hơn, hiệu quả hơn. Hoặc họ sẽ phải chi một khoản tiền lớn để tiếp cận dữ liệu ở quy mô cần thiết.

• Chỉ những công ty có nhiều tiền mặt hoặc có sẵn bộ dữ liệu lớn (như Meta với 20 năm dữ liệu mạng xã hội) mới có thể làm được điều này. Điều này có nguy cơ tập trung quyền lực hơn nữa vào tay các "ông lớn".

• Mặt tích cực là việc đưa sự đồng thuận vào quá trình này là một ý tưởng tốt - không chỉ cho chủ sở hữu quyền, mà cho tất cả chúng ta. Mọi người nên có quyền quyết định cách sử dụng dữ liệu của mình.

• Một nền kinh tế dữ liệu công bằng hơn sẽ có lợi cho tất cả mọi người, không chỉ riêng các công ty công nghệ lớn.

📌 Vụ kiện của ngành âm nhạc đánh dấu bước ngoặt trong cuộc chiến dữ liệu AI. Các công ty buộc phải trả tiền cho dữ liệu chất lượng, có thể dẫn đến tập trung quyền lực vào "ông lớn" nhưng cũng mở ra cơ hội xây dựng nền kinh tế dữ liệu công bằng hơn cho tất cả.

https://www.technologyreview.com/2024/07/02/1094508/ai-companies-are-finally-being-forced-to-cough-up-for-training-data/

#MIT

Không có file đính kèm.

Nguồn tham khảo

123

AI data 2024-07-01 22:56:14

Kỷ nguyên AI: cách các công ty biến dữ liệu thành vàng và tạo lợi thế cạnh tranh

• Theo báo cáo của Amazon Web Services, các doanh nghiệp vừa và nhỏ đã tích hợp phân tích dữ liệu vào hoạt động có khả năng sử dụng AI cao hơn đáng kể và có xu hướng vượt trội hơn so với các đối thủ trên thị trường.

• AI ngày càng thành thạo trong việc xử lý nhiều loại nội dung như văn bản, hình ảnh và bản ghi âm, khiến những tài liệu này trở nên có giá trị đột ngột. Tuy nhiên, các công ty cần tổ chức và chuẩn bị dữ liệu hiệu quả để sử dụng với công nghệ.

• Các nguồn dữ liệu có giá trị bao gồm chuỗi email bán hàng, báo cáo tài chính lịch sử, dữ liệu địa lý, hình ảnh sản phẩm, tài liệu pháp lý, bài đăng trên diễn đàn web của công ty và bản ghi cuộc gọi dịch vụ khách hàng.

• Cơ sở dữ liệu vector lưu trữ tài liệu dưới dạng biểu diễn số có thể so sánh toán học với nhau. Điều này được sử dụng để nhanh chóng tìm kiếm tài liệu liên quan, nhóm các tệp tương tự và đưa ra đề xuất nội dung hoặc sản phẩm dựa trên sở thích trước đây.

• Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) cho phép AI trả lời các câu hỏi ngoài dữ liệu đào tạo mục đích chung của nó. Quá trình này, cũng như các ứng dụng học máy khác để giải quyết nhu cầu kinh doanh cụ thể, dựa vào dữ liệu chính xác và được tổ chức tốt.

• Việc đảm bảo dữ liệu sạch và đáng tin cậy là cần thiết để xây dựng AI đáng tin cậy. Đảm bảo các hệ thống tuân thủ luật pháp và quy tắc nội bộ về sử dụng dữ liệu cũng rất quan trọng.

• Walmart sử dụng nền tảng học máy Element để xây dựng nhanh chóng các giải pháp AI đáng tin cậy hoạt động trên nhiều nhà cung cấp đám mây. Phần mềm giúp đảm bảo việc sử dụng dữ liệu tuân thủ các quy tắc liên quan và AI được xây dựng được kiểm tra về độ thiên lệch và đầu ra không phù hợp.

• Các hạn chế pháp lý và hợp đồng cũng có thể định hình cách doanh nghiệp có thể sử dụng dữ liệu khách hàng và nhân viên để cung cấp cho AI.

• Đối với các công ty B2B nói chung, nhiều năm dữ liệu từ nhiều khách hàng có thể giúp phân tích và đưa ra các đề xuất được hỗ trợ bởi AI cho bất kỳ khách hàng cụ thể nào, với độ chính xác lý tưởng tăng theo thời gian dựa trên dữ liệu tích lũy của chính khách hàng đó.

• Intuit đã xây dựng nền tảng GenOS để giúp các nhà phát triển của họ nhanh chóng phát triển các công cụ AI. GenOS bao gồm môi trường phát triển, công cụ tích hợp AI với phần mềm khác, các thành phần tiêu chuẩn để người dùng giao tiếp với AI tạo sinh và các mô hình AI được tối ưu hóa cho các sản phẩm tài chính cá nhân và doanh nghiệp của họ.

📌 Trong kỷ nguyên AI, dữ liệu trở thành tài sản quý giá. Các công ty đang khai thác giá trị từ nhiều loại dữ liệu bằng AI tạo sinh, cơ sở dữ liệu vector và tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài. Tuy nhiên, việc đảm bảo dữ liệu sạch, tuân thủ quy định và xây dựng cơ sở hạ tầng phù hợp là chìa khóa để tận dụng hiệu quả AI trong kinh doanh.

https://www.fastcompany.com/91148997/data-is-gold-in-ai-era

Không có file đính kèm.

Nguồn tham khảo

139

AI data 2024-06-30 19:01:30

Adobe thực hiện cuộc di chuyển dữ liệu lớn nhất thế giới với Databricks

• Adobe vừa hoàn thành việc di chuyển 2100 máy chủ và 2 petabyte dữ liệu từ data lake của họ lên Microsoft Azure và AWS, đánh dấu một trong những cuộc di chuyển dữ liệu lớn nhất trong ngành.

• Bin Mu, Phó Chủ tịch phụ trách dữ liệu và phân tích doanh nghiệp của Adobe, xác nhận rằng công ty hiện đã "100% trên đám mây", mang lại sự linh hoạt và khả năng đưa họ lên cấp độ tiếp theo trong việc phát triển AI tạo sinh cho phân tích dữ liệu nội bộ doanh nghiệp.

• Vào tháng 3 năm nay, Adobe đã công bố quan hệ đối tác chiến lược với Databricks nhằm cải thiện trải nghiệm người dùng bằng cách tích hợp nền tảng của hai bên.

• Việc chuyển đổi sang điện toán không máy chủ nhằm thiết lập Databricks làm nền tảng dữ liệu thống nhất cho tất cả nguồn dữ liệu của Adobe, hỗ trợ phân tích, ra quyết định và trí tuệ dữ liệu.

• Quá trình di chuyển từ hệ thống nguồn mở cũ như Apache Hadoop sang Databricks gặp phải nhiều thách thức về mặt công nghệ và con người.

• Adobe đã tập trung vào ba lĩnh vực chính để giải quyết các thách thức: thiết lập quan hệ đối tác mạnh mẽ, xây dựng đội ngũ di chuyển có năng lực cao, và quản lý thay đổi hiệu quả.

• Công ty đã triển khai các sáng kiến đào tạo và tương tác, cùng với các công cụ như bộ chuyển đổi tự động để hỗ trợ quá trình di chuyển.

• Chiến lược tích hợp AI tạo sinh của Adobe dựa trên triết lý linh hoạt và triển khai AI có trách nhiệm, với trọng tâm là bảo mật dữ liệu và tuân thủ pháp lý.

• Adobe đang sử dụng các công cụ AI tạo sinh để cải tổ quy trình kỹ thuật nội bộ, hướng tới ít lập trình hơn và tập trung nhiều hơn vào hiểu biết nhu cầu kinh doanh và thiết kế giải pháp.

📌 Adobe đã thực hiện cuộc di chuyển dữ liệu lớn nhất thế giới, chuyển 2100 máy chủ và 2 petabyte dữ liệu lên đám mây. Điều này giúp công ty tăng cường khả năng AI tạo sinh, cải thiện trải nghiệm khách hàng và tối ưu hóa quy trình kỹ thuật nội bộ, đặt nền móng cho sự phát triển trong tương lai.

https://analyticsindiamag.com/adobe-rewrites-history-with-databricks-in-worlds-largest-data-migration/

Không có file đính kèm.

Nguồn tham khảo

125

AI data 2024-06-30 08:34:50

IBM: đánh giá lại cách quản lý dữ liệu trong kỷ nguyên AI tạo sinh

• AI tạo sinh đã làm thay đổi ngành công nghệ, tạo ra những rủi ro mới về rò rỉ dữ liệu nhạy cảm thông qua các mô hình ngôn ngữ lớn (LLM) và thúc đẩy tăng cường yêu cầu từ các cơ quan quản lý.

• Các tổ chức cần xem xét lại các nguyên tắc cốt lõi trong quản lý dữ liệu và đảm bảo cách tiếp cận hợp lý để tăng cường LLM bằng dữ liệu doanh nghiệp/phi công khai.

• Cần làm mới cách quản trị dữ liệu, đặc biệt là việc sử dụng dữ liệu trong các giải pháp AI tạo sinh:

• Xác thực và tạo khả năng bảo vệ dữ liệu: Nền tảng dữ liệu cần được chuẩn bị cho mức độ bảo vệ và giám sát cao hơn, bao gồm mã hóa, ẩn danh, tokenization và phân loại dữ liệu tự động bằng machine learning.

• Cải thiện kiểm soát, khả năng kiểm toán và giám sát: Cần thiết kế mới cho việc truy cập, sử dụng dữ liệu và tương tác với bên thứ ba. Cần có hệ thống theo dõi đầy đủ cách sử dụng, sửa đổi và chia sẻ dữ liệu.

• Chuẩn bị dữ liệu cho AI tạo sinh: Cần kỷ luật mới để đảm bảo chất lượng, độ chính xác và tính phù hợp của dữ liệu để đào tạo và tăng cường mô hình ngôn ngữ cho AI. Cần tăng cường quản trị dữ liệu để phù hợp với các nền tảng quản lý dữ liệu phi truyền thống như cơ sở dữ liệu vector.

• Dữ liệu doanh nghiệp thường phức tạp, đa dạng và phân tán, gây khó khăn cho việc tích hợp vào giải pháp AI tạo sinh. Vấn đề này càng trở nên phức tạp hơn do yêu cầu tuân thủ quy định, giảm thiểu rủi ro và thiếu hụt kỹ năng trong tích hợp dữ liệu.

• IBM đã phát triển IBM gen AI data ingestion factory - một dịch vụ được quản lý để giải quyết "vấn đề dữ liệu" của AI và khai thác tiềm năng của dữ liệu doanh nghiệp cho AI tạo sinh.

• Các khả năng cốt lõi bao gồm: thu thập dữ liệu có thể mở rộng, tuân thủ quy định, quản lý quyền riêng tư dữ liệu.

• Dịch vụ này độc lập với nền tảng AI và dữ liệu, cho phép triển khai ở mọi nơi và cung cấp tùy chỉnh cho môi trường và trường hợp sử dụng của khách hàng.

• Các kết quả chính có thể đạt được bao gồm: giảm thời gian tích hợp dữ liệu, sử dụng dữ liệu tuân thủ, giảm thiểu rủi ro, kết quả nhất quán và có thể tái tạo.

📌 AI tạo sinh đặt ra thách thức mới cho quản lý dữ liệu doanh nghiệp. IBM gen AI data ingestion factory cung cấp giải pháp toàn diện, giúp tối ưu hóa việc tích hợp dữ liệu vào AI, đảm bảo tuân thủ quy định và giảm thiểu rủi ro. Doanh nghiệp cần đánh giá lại cách tiếp cận quản lý dữ liệu để thích ứng với kỷ nguyên AI mới.

https://www.ibm.com/blog/re-evaluating-data-management-in-the-generative-ai-age/

Không có file đính kèm.

Nguồn tham khảo

134

AI nghiên cứu AI data 2024-06-24 09:24:25

GenQA: tự động tạo tập dữ liệu hướng dẫn khổng lồ để nâng cấp AI

- Các nhà nghiên cứu từ Đại học Maryland giới thiệu GenQA, phương pháp tạo tập dữ liệu hướng dẫn tự động quy mô lớn để tinh chỉnh mô hình AI và tăng cường tính đa dạng.
- Việc tạo các tập dữ liệu lớn, đa dạng để tinh chỉnh mô hình ngôn ngữ rất phức tạp, tốn kém và đòi hỏi nhiều sự can thiệp của con người. Điều này tạo ra khoảng cách giữa nghiên cứu học thuật (sử dụng tập dữ liệu nhỏ) và ứng dụng công nghiệp (sử dụng tập dữ liệu lớn).
- Các phương pháp hiện tại như sử dụng mô hình ngôn ngữ lớn (LLM) để sửa đổi và tăng cường nội dung do con người viết vẫn còn hạn chế về khả năng mở rộng và tính đa dạng.
- GenQA sử dụng một lời nhắc duy nhất, được thiết kế tốt để tự động tạo ra hàng triệu ví dụ hướng dẫn đa dạng, giảm thiểu sự can thiệp của con người.
- Công nghệ cốt lõi của GenQA là sử dụng các lời nhắc tạo sinh để tăng cường tính ngẫu nhiên và đa dạng của đầu ra do LLM tạo ra. Một siêu lời nhắc duy nhất có thể trích xuất hàng triệu câu hỏi đa dạng.
- Trong một thử nghiệm, GenQA đã tạo ra hơn 11 triệu câu hỏi trên 9 lĩnh vực khác nhau như học thuật, toán học và đối thoại.
- Khi tinh chỉnh mô hình Llama-3 8B với tập dữ liệu GenQA, hiệu suất của mô hình trên các tiêu chuẩn tri thức và hội thoại đáp ứng hoặc vượt trội hơn so với các tập dữ liệu như WizardLM và UltraChat. Cụ thể, trên MT-Bench, GenQA đạt điểm trung bình 7.55.
- Phân tích chi tiết cho thấy các lời nhắc tạo sinh của GenQA dẫn đến sự đa dạng cao trong các câu hỏi và câu trả lời được tạo ra. Điểm tương đồng của các láng giềng gần nhất thấp hơn đáng kể so với lời nhắc tĩnh.

📌 GenQA tự động hóa quá trình tạo tập dữ liệu hướng dẫn quy mô lớn, đa dạng với sự can thiệp tối thiểu của con người, giảm chi phí và thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Thành công của GenQA trong việc tinh chỉnh mô hình Llama-3 8B cho thấy tiềm năng cải thiện đáng kể nghiên cứu và ứng dụng AI, với hiệu suất vượt trội trên các tiêu chuẩn tri thức, lập luận toán học và hội thoại.

https://www.marktechpost.com/2024/06/23/researchers-from-the-university-of-maryland-introduce-genqa-instruction-dataset-automating-large-scale-instruction-dataset-generation-for-ai-model-finetuning-and-diversity-enhancement/

Không có file đính kèm.

Nguồn tham khảo

161

AI data AI riêng tư 2024-06-22 09:08:47

Instagram và Facebook có thực sự sử dụng bài đăng của bạn để đào tạo AI không?

- Meta đã bắt đầu sử dụng dữ liệu công khai từ tài khoản người dùng Mỹ từ năm 2023 để cải thiện các tính năng AI của mình như trợ lý Meta AI, AI Stickers và công cụ tạo ảnh Imagine.
- Kế hoạch cập nhật chính sách quyền riêng tư vào ngày 26/6 để đào tạo các mô hình AI trên dữ liệu công khai từ tài khoản EU và Anh đã bị tạm dừng vô thời hạn do phản ứng từ các cơ quan quản lý.
- Người dùng Mỹ không có tùy chọn chọn không chia sẻ dữ liệu, nhưng có thể hạn chế bằng cách đặt hồ sơ Instagram ở chế độ riêng tư và không chia sẻ công khai trên Facebook.
- Meta chỉ sử dụng thông tin được chia sẻ công khai để đào tạo AI, bao gồm ảnh, video, chú thích trong feed và Reels của Instagram nếu tài khoản ở chế độ công khai, và bất cứ thứ gì được chia sẻ với đối tượng Public trên Facebook.
- Meta không sử dụng dữ liệu từ tin nhắn riêng tư, trực tiếp trên Facebook và Instagram, cũng như từ stories hoặc Threads.
- Để hạn chế dữ liệu bị truy cập, người dùng có thể chuyển hồ sơ Instagram sang chế độ riêng tư trong phần cài đặt trên iOS, hoặc chọn đối tượng khác Public như Friends hoặc Only Me cho các bài đăng trên Facebook.
- Các thay đổi này sẽ không có hiệu lực hồi tố, nghĩa là các bài đăng cũ đã công khai có thể đã giúp AI của Meta học cách suy nghĩ và nói chuyện giống con người hơn.

📌 Meta đang tận dụng lợi thế dữ liệu khổng lồ từ hàng tỷ người dùng toàn cầu để đẩy nhanh quá trình phát triển AI, bất chấp những lo ngại về quyền riêng tư. Người dùng Mỹ hiện không thể chọn không chia sẻ dữ liệu, nhưng vẫn có thể hạn chế phần nào bằng cách điều chỉnh cài đặt riêng tư trên Instagram và Facebook, mặc dù các bài đăng cũ có thể đã bị sử dụng.

https://www.wsj.com/tech/ai/meta-ai-training-instagram-facebook-explained-a3d36cdb

#WSJ

Không có file đính kèm.

Nguồn tham khảo

291

AI an toàn-an ninh-techwar AI data 2024-06-22 09:02:37

CEO Databricks: Đừng tin tưởng trao dữ liệu của bạn cho bất kỳ công ty nào, kể cả Databricks

- Databricks CEO Ali Ghodsi khuyên các công ty ngừng chia sẻ dữ liệu với các nhà cung cấp, bao gồm cả Databricks, để tránh bị khóa và kiểm soát dữ liệu của họ.
- Nhiều công ty rơi vào bẫy phức tạp hóa mọi thứ khi cố gắng tận dụng tối đa dữ liệu của mình với nhiều phần mềm và nền tảng khác nhau.
- Điều này dẫn đến dữ liệu của công ty bị khóa vào silo, loại bỏ quyền truy cập dễ dàng và tăng chi phí tổng thể.
- Chiến lược của Databricks là dân chủ hóa dữ liệu và AI, bắt đầu bằng việc đảm bảo khách hàng có quyền kiểm soát dữ liệu của họ.
- Databricks muốn đưa dữ liệu của công ty đến một điểm mà các nhà cung cấp có thể cắm "USB stick" vào dữ liệu đó, cho phép công ty kiểm soát cách nhà cung cấp sử dụng nó.
- Điều này cũng giúp các công ty dễ dàng đánh giá cách dữ liệu của họ được sử dụng trong bối cảnh ngành công nghiệp thay đổi nhanh chóng.
- Databricks muốn khách hàng sở hữu và kiểm soát dữ liệu của họ ở định dạng mở trong đám mây tùy chọn, thậm chí nếu họ chọn đưa nó trở lại on-prem.
- Việc mua lại gần đây của Databricks với Tabular nhằm đảm bảo các công ty không gặp vấn đề bị giới hạn trong các silo một lần nữa, chỉ là ở định dạng lakehouse.
- Bước tiếp theo của Databricks là đảm bảo khách hàng có thể tận dụng tối đa dữ liệu của họ và đẩy nhanh thời gian để có được thông tin chi tiết và giá trị.

📌 Databricks nhấn mạnh tầm quan trọng của việc các công ty sở hữu và kiểm soát dữ liệu của mình, tránh chia sẻ với các nhà cung cấp để ngăn chặn việc bị khóa và tối ưu hóa sử dụng. Với việc mua lại Tabular và tập trung vào dân chủ hóa dữ liệu, Databricks muốn giúp khách hàng tận dụng tối đa dữ liệu một cách nhanh chóng và hiệu quả.

https://analyticsindiamag.com/dont-trust-anyone-including-databricks-with-your-data/

Không có file đính kèm.

Nguồn tham khảo

195

AI tools AI data 2024-06-21 17:04:26

Firecrawl: công cụ web scraping biến website thành dữ liệu sẵn sàng cho các mô hình ngôn ngữ lớn

- Firecrawl là một công cụ web scraping mạnh mẽ được tạo ra bởi đội ngũ Mendable AI, giúp giải quyết các thách thức phức tạp trong việc lấy dữ liệu từ internet như proxy, bộ nhớ đệm, giới hạn tốc độ và nội dung được tạo bằng JavaScript.

- Firecrawl khám phá mọi trang trên một trang web, kể cả khi không có sơ đồ trang web, đảm bảo quá trình trích xuất dữ liệu đầy đủ. Nó hiệu quả thu thập dữ liệu từ các trang web động dựa trên JavaScript.

- Dữ liệu được trích xuất và trả về dưới dạng Markdown sạch, định dạng tốt, đặc biệt hữu ích cho các ứng dụng mô hình ngôn ngữ lớn (LLM).

- Firecrawl phối hợp việc thu thập dữ liệu đồng thời, tăng tốc độ trích xuất dữ liệu đáng kể. Nó sử dụng cơ chế bộ nhớ đệm để tối ưu hóa hiệu quả, chỉ cần thu thập lại khi có nội dung mới.

- Một khía cạnh mới của Firecrawl là sử dụng vòng lặp phản hồi tạo sinh để làm sạch các phần dữ liệu. Các mô hình tạo sinh đưa ra phản hồi về các phần dữ liệu, chỉ ra lỗi và đề xuất cải tiến, giúp nâng cao chất lượng tập dữ liệu.

- Firecrawl cung cấp API trực quan với nhiều SDK cho tích hợp Python, Node, Langchain và Llama Index. Người dùng có thể chạy Firecrawl cục bộ để có giải pháp tự lưu trữ.

📌 Firecrawl là một bước tiến quan trọng trong lĩnh vực web scraping và lưu trữ dữ liệu với khả năng mạnh mẽ và tích hợp liền mạch. Kết hợp với phương pháp sáng tạo làm sạch dữ liệu qua vòng lặp phản hồi tạo sinh, nó cung cấp giải pháp toàn diện để truy cập nguồn dữ liệu phong phú trên internet, phục vụ cho các ứng dụng AI.

https://www.marktechpost.com/2024/06/20/firecrawl-a-powerful-web-scraping-tool-for-turning-websites-into-large-language-model-llm-ready-markdown-or-structured-data/

Không có file đính kèm.

Nguồn tham khảo

185

AI startup-M&A AI data 2024-06-21 14:33:39

Databricks là một trong những công ty công nghệ chưa niêm yết có giá trị nhất, ước tính 43 tỷ USD

- Databricks là một trong những công ty công nghệ chưa niêm yết có giá trị nhất, ước tính 43 tỷ USD sau gọi vốn, theo dữ liệu từ Pitchbook.
- Tại Hội nghị thượng đỉnh Data + AI lần thứ 11, Databricks ra mắt nhiều sản phẩm mới, trình diễn trực tiếp và có bài phát biểu từ các nhân vật nổi tiếng trong lĩnh vực AI.
- Chiến lược của Databricks tập trung phát triển nền tảng triển khai AI toàn diện, bao gồm các mô hình ngôn ngữ lớn (LLM) và công cụ để khách hàng tạo, triển khai ứng dụng AI.
- Databricks cạnh tranh với các ông lớn đám mây như AWS của Amazon, Azure của Microsoft và Google Cloud, nhằm cung cấp nền tảng phân tích thống nhất, phù hợp cho tác vụ dữ liệu lớn và AI.
- Đối thủ trực tiếp của Databricks gồm Snowflake và Confluent, nhưng danh mục sản phẩm của họ có vẻ đang đối đầu với AWS Bedrock và GCP Vertex AI.
- Giống Databricks, chiến lược của Amazon với Bedrock liên quan đến việc doanh nghiệp áp dụng mô hình vào dữ liệu của họ thay vì chuyển dữ liệu đến nhà cung cấp mô hình cụ thể.
- Cơ sở hạ tầng đám mây cho mô hình AI tiếp tục phát triển nhanh chóng. Các thắng lợi sớm trong cơ sở hạ tầng AI có thể đặt nền móng cho hiệu suất vượt trội lâu dài so với đối thủ.
- Databricks có tốc độ tăng trưởng cao ở quy mô lớn, nhưng IPO khó xảy ra trước nửa cuối 2025.
- Hơn 1.500 công ty đang đào tạo mô hình transformer trên nền tảng của Databricks. Việc sử dụng GPU tăng 25% mỗi tháng trong nhiều tháng qua.

📌 Databricks đang nổi lên như một trong những công ty công nghệ chưa niêm yết giá trị nhất với mức định giá 43 tỷ USD. Với chiến lược phát triển nền tảng triển khai AI toàn diện, họ đang cạnh tranh mạnh mẽ với các ông lớn đám mây. Tốc độ tăng trưởng ấn tượng và việc ngày càng nhiều công ty sử dụng nền tảng của Databricks cho thấy tiềm năng lớn, dù IPO có thể phải đợi đến nửa cuối 2025.

https://www.investing.com/news/stock-market-news/databricks-is-one-of-the-most-valuable-preipo-tech-companies-roth-432SI-3490144

Không có file đính kèm.

Nguồn tham khảo

125

AI data 2024-06-21 00:35:38

DataComp for Language Models (DCLM): tiêu chuẩn mới cho việc tạo tập dữ liệu huấn luyện mô hình ngôn ngữ

- DataComp for Language Models (DCLM) là một quy trình mới nhằm tạo ra các tập dữ liệu huấn luyện chất lượng cao và thiết lập tiêu chuẩn đánh giá hiệu suất của tập dữ liệu cho các mô hình ngôn ngữ.

- Quy trình DCLM được phát triển bởi một nhóm các nhà nghiên cứu từ Đại học Washington, Apple và Viện Nghiên cứu Toyota.

- Các bước quan trọng trong quy trình DCLM bao gồm: trích xuất văn bản từ HTML thô bằng công cụ Resiliparse, loại bỏ dữ liệu trùng lặp bằng bộ lọc Bloom, và lọc dựa trên mô hình sử dụng bộ phân loại fastText được huấn luyện trên dữ liệu chất lượng cao từ OpenWebText2 và ELI5.

- Kết quả là tập dữ liệu huấn luyện chất lượng cao DCLM-BASELINE, giúp cải thiện đáng kể hiệu suất của mô hình.

- Khi sử dụng DCLM-BASELINE để huấn luyện một mô hình ngôn ngữ 7B tham số với 2.6 nghìn tỷ token huấn luyện, mô hình đạt được độ chính xác 64% trên bộ dữ liệu MMLU với 5 mẫu (5-shot accuracy).

- Mô hình DCLM-BASELINE hoạt động cạnh tranh với các mô hình tiên tiến nhất như GPT-4 và Llama 3, mặc dù sử dụng ít tài nguyên tính toán hơn.

- Quy trình DCLM thiết lập một tiêu chuẩn mới cho việc tạo dữ liệu trong các mô hình ngôn ngữ, cung cấp một khuôn khổ toàn diện để đánh giá và cải thiện các tập dữ liệu huấn luyện.

- Nhóm nghiên cứu khuyến khích tiếp tục khám phá các chiến lược tạo dữ liệu để xây dựng các mô hình ngôn ngữ hiệu quả và hiệu suất cao hơn, mở ra tiềm năng cho các nghiên cứu trong tương lai.

📌 DCLM là một giải pháp mạnh mẽ để cải thiện chất lượng tập dữ liệu và hiệu suất mô hình, thiết lập tiêu chuẩn mới cho nghiên cứu tạo dữ liệu và phát triển mô hình ngôn ngữ. Với độ chính xác 64% trên MMLU, mô hình DCLM-BASELINE cạnh tranh với các mô hình tiên tiến nhất như GPT-4 và Llama 3, mở đường cho những cải tiến trong tương lai.

https://www.marktechpost.com/2024/06/19/datacomp-for-language-models-dclm-an-ai-benchmark-for-language-model-training-data-curation/

Không có file đính kèm.

Nguồn tham khảo

220

AI riêng tư AI data 2024-06-19 16:15:57

Xây dựng phần mềm AI bảo mật dữ liệu người dùng với CSDL vector và cách RAG đảm bảo quyền riêng tư

- Ứng dụng xử lý đơn hàng nhà hàng sử dụng ngôn ngữ tự nhiên để tìm kiếm đơn hàng.
- Sử dụng ID prefix để quản lý và xóa dữ liệu dễ dàng.
- RAG (Retrieval Augmented Generation) giúp thêm dữ liệu riêng tư vào phản hồi của LLM, đảm bảo tính chính xác và ngữ cảnh cụ thể.
- RAG cho phép người dùng tương tác với cửa hàng, truy xuất đơn hàng cũ, mua sản phẩm mới bằng ngôn ngữ tự nhiên.
- Dữ liệu cá nhân và thông tin nhận dạng cá nhân (PII) được cung cấp cho mô hình tạo sinh tại thời điểm suy luận để đáp ứng yêu cầu của người dùng.
- Khi xóa dữ liệu bằng ID prefix, hệ thống sẽ không còn thông tin về người dùng đó.
- RAG cung cấp khả năng cá nhân hóa trong khi kiểm soát chặt chẽ PII, chỉ chia sẻ dữ liệu riêng tư khi cần thiết và có thể nhanh chóng xóa bỏ.
- Xây dựng phần mềm AI bảo mật yêu cầu phân loại dữ liệu thành công khai, riêng tư và PII.
- Dữ liệu công khai: tên công ty, ảnh đại diện, chức danh công việc.
- Dữ liệu riêng tư: khóa API, ID tổ chức.
- PII: tên đầy đủ, ngày sinh, ID tài khoản.
- Sử dụng tokenization để tránh lưu trữ PII trong cơ sở dữ liệu vector, thay vào đó lưu trữ khóa ngoại hoặc tham chiếu đến hệ thống khác.
- Hashing có thể được sử dụng để làm mờ dữ liệu người dùng trước khi ghi vào metadata.
- Mã hóa metadata trước khi upsert và giải mã khi truy vấn để bảo vệ dữ liệu người dùng.
- Xóa dữ liệu trong cơ sở dữ liệu vector bằng cách xóa toàn bộ namespace.
- Xây dựng phần mềm AI bảo mật yêu cầu lập kế hoạch cẩn thận và sử dụng các kỹ thuật như ID-prefixing và lọc metadata để xóa dữ liệu người dùng hiệu quả.

📌 Bài viết giải thích cách sử dụng RAG để bảo vệ dữ liệu cá nhân trong phần mềm AI, bao gồm việc phân loại dữ liệu, sử dụng tokenization, hashing và mã hóa metadata. RAG giúp xóa dữ liệu người dùng nhanh chóng và đảm bảo quyền riêng tư.

https://thenewstack.io/building-privacy-aware-ai-software-with-vector-databases/

Không có file đính kèm.

Nguồn tham khảo

159

AI data 2024-06-19 15:53:04

Databricks thách thức Snowflake bằng chiến lược mở và hợp tác trong lĩnh vực dữ liệu và AI

- Databricks đang tăng cường cạnh tranh với Snowflake trong lĩnh vực dữ liệu và trí tuệ nhân tạo. Công ty vừa mở nguồn Unity Catalog, một giải pháp quản trị thống nhất cho dữ liệu và AI, sau khi Snowflake công bố sẽ ra mắt catalog nguồn mở Polaris.

- Databricks đang theo đuổi chiến lược định dạng mở, cho phép dữ liệu tương tác trên nhiều nền tảng khác nhau. Trong khi đó, Snowflake yêu cầu dữ liệu phải nằm trong hệ thống của họ. Điều này có thể đặt Snowflake vào thế bất lợi.

- Databricks mua lại Tabular Technologies để thúc đẩy khả năng tương tác giữa hai định dạng dữ liệu hàng đầu là Delta Lake và Iceberg. Công ty cũng mua lại Mosaic AI nhằm trở thành hệ điều hành AI cho các doanh nghiệp.

- Các đối tác của Databricks như Condé Nast, Fivetran, Alation đang triển khai nhiều trường hợp sử dụng đa dạng trên nền tảng của công ty. Ví dụ, Condé Nast xây dựng các mô hình ngôn ngữ để phát hiện sở thích người dùng.

- Tuy nhiên, việc triển khai AI vào sản xuất vẫn còn nhiều thách thức. Các mô hình ngôn ngữ tự nhiên (NLM) hiện mới chỉ tốt cho các tác vụ ngôn ngữ cơ bản. Để thực hiện các nhiệm vụ phức tạp hơn đòi hỏi suy luận nhiều tầng, các công ty vẫn cần nhiều nỗ lực.

📌 Databricks đang tích cực mở rộng hợp tác và mở nguồn các công nghệ như Unity Catalog để cạnh tranh với Snowflake. Công ty hướng tới trở thành nền tảng AI tạo sinh hàng đầu với khả năng tương tác dữ liệu linh hoạt. Tuy nhiên, việc đưa AI vào sản xuất vẫn đang gặp nhiều rào cản khi các mô hình ngôn ngữ hiện tại chưa đáp ứng được các tác vụ phức tạp đòi hỏi suy luận sâu.

https://siliconangle.com/2024/06/18/three-insights-thecube-databricks-data-ai-summit-unity-catalog-dataaisummit/

Không có file đính kèm.

Nguồn tham khảo

AI data AI sinh-y-duoc 2024-06-19 15:42:44

AI cải thiện chất lượng dữ liệu và giảm gánh nặng cho bác sĩ lâm sàng trong chăm sóc sức khỏe

- AI và các mô hình ngôn ngữ lớn (LLMs) có tiềm năng cách mạng hóa tài liệu lâm sàng và mã hóa bằng cách trích xuất chính xác các khái niệm lâm sàng từ ghi chú và cuộc trò chuyện của bệnh nhân.
- AI có thể đề xuất điều tra các tình trạng liên quan dựa trên triệu chứng của bệnh nhân, hỗ trợ bác sĩ lâm sàng trong tài liệu chăm sóc toàn diện. Tuy nhiên, một nghiên cứu gần đây cho thấy LLMs chưa phù hợp để mã hóa y tế chính xác.
- Quy tắc cuối cùng HTI-1 đưa ra các yêu cầu minh bạch đột phá đối với AI và các thuật toán dự đoán trong CNTT y tế được chứng nhận, yêu cầu các nhà cung cấp EHR/EMR cung cấp cho người dùng lâm sàng thông tin cơ bản nhất quán về các thuật toán được sử dụng trong quá trình ra quyết định.
- Các nhà cung cấp phải chứng minh tính công bằng của thuật toán, truyền đạt rõ ràng các trường hợp sử dụng dự định và giới hạn, cung cấp bằng chứng về hiệu quả trong thế giới thực trong việc cải thiện kết quả của bệnh nhân và ra quyết định lâm sàng.
- Các thách thức đối với việc ra quyết định lâm sàng dựa trên AI bao gồm thiếu dữ liệu đại diện, sự phức tạp của ngôn ngữ y tế và tính phân mảnh của hồ sơ bệnh nhân.
- Để nhận ra tiềm năng đầy đủ của AI trong chăm sóc sức khỏe, điều quan trọng là phải ưu tiên chất lượng dữ liệu, phát triển các khung giải thích mạnh mẽ cho hỗ trợ ra quyết định dựa trên AI và tích hợp các công cụ này vào quy trình lâm sàng hiện có.
- Sự hợp tác giữa các nhà cung cấp dịch vụ chăm sóc sức khỏe, nhà phát triển AI và nhà hoạch định chính sách sẽ rất quan trọng để thiết lập các thực hành tốt nhất, giải quyết các thách thức tiềm ẩn và đảm bảo tính minh bạch của thuật toán.

📌AI và LLMs có tiềm năng đáng kể trong việc cải thiện chất lượng dữ liệu, giảm gánh nặng cho bác sĩ lâm sàng và nâng cao chăm sóc bệnh nhân. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua như thiếu dữ liệu đại diện và sự phức tạp của ngôn ngữ y tế. Sự hợp tác giữa các bên liên quan và tuân thủ các quy định như HTI-1 Final Rule sẽ là chìa khóa để triển khai AI một cách có trách nhiệm và công bằng trong ngành chăm sóc sức khỏe.

https://hitconsultant.net/2024/06/19/ai-in-healthcare-enhancing-data-quality-reducing-clinician-burden/

Không có file đính kèm.

Nguồn tham khảo

126

AI data AI sinh-y-duoc 2024-06-17 23:33:27

Cách chuẩn bị dữ liệu dược phẩm cho AI: hướng dẫn chi tiết từ chuyên gia

- Phân tích cấu trúc dữ liệu: Đảm bảo dữ liệu nhất quán, tổ chức tốt và sẵn sàng cho các thuật toán AI.
- Độ nhất quán và toàn vẹn dữ liệu: Xác định và khắc phục các vấn đề như giá trị thiếu, bản sao, lỗi.
- Chuẩn hóa: Đánh giá tổ chức dữ liệu, loại, định dạng và giảm thiểu dư thừa.
- Phân tích mối quan hệ dữ liệu giữa các bảng: Hiểu các kết nối dữ liệu qua các cơ sở dữ liệu.
- Tuân thủ các tiêu chuẩn định trước: Tạo các quy ước đặt tên và thiết kế schema thống nhất.
- Định nghĩa schema cho sử dụng báo cáo: Thiết kế cấu trúc dữ liệu cho cả phân tích AI và tạo báo cáo.

- Đảm bảo độ chính xác dữ liệu: Đảm bảo tất cả dữ liệu huấn luyện chính xác để có những hiểu biết AI đáng tin cậy.
- Phản ánh các thuộc tính thực tế: Đánh giá xem dữ liệu có phản ánh chính xác các đối tượng thực tế không.
- Chuẩn hóa dữ liệu: Áp dụng các nguyên tắc và quy ước nhất quán cho chuẩn hóa dữ liệu.
- Lỗi chính tả trong dữ liệu: Xác định và khắc phục lỗi chính tả và lỗi nhập liệu.
- Dị thường trong dữ liệu: Phát hiện và xử lý các điểm dữ liệu bất thường.
- Dữ liệu thiếu: Phân tích và quản lý các giá trị thiếu.

- Kiểm tra tính duy nhất của dữ liệu: Ngăn chặn các điểm dữ liệu trùng lặp để tránh kích thước mẫu bị thổi phồng và những hiểu biết sai lệch từ AI.
- Xác định bản sao: Thiết lập tiêu chí để xác định các đối tượng dữ liệu trùng lặp.
- Phân tích nguồn gốc bản sao: Điều tra nguyên nhân gốc rễ của các bản sao.
- Chiến lược xử lý bản sao: Xác định cách tiếp cận phù hợp nhất để xử lý các bản sao.
- Ngăn chặn bản sao trong tương lai: Đảm bảo không có bản sao xảy ra trong tương lai.

- Kiểm tra sự tồn tại của dữ liệu: Đảm bảo có dữ liệu đầy đủ qua thời gian, địa điểm và ngữ cảnh người dùng để tránh các mô hình thiên lệch và kết quả không chính xác.
- Kiểm tra dữ liệu theo thời gian: Xác minh sự hiện diện của các điểm dữ liệu đầy đủ trong khung thời gian liên quan.
- Kiểm tra dữ liệu theo địa điểm: Xác minh thông tin địa lý.
- Kiểm tra dữ liệu theo người dùng: Kiểm tra xem dữ liệu liên quan đến các nhà sưu tập hoặc người dùng cụ thể có đầy đủ không.

- Tăng cường dữ liệu: Chống lại sự khan hiếm dữ liệu, có thể cản trở đáng kể nghiên cứu và hiệu quả của các mô hình.
- Tăng cường dữ liệu: Thao tác dữ liệu hiện có để tạo ra các biến thể.
- Tạo dữ liệu tổng hợp: Tạo ra các điểm dữ liệu hoàn toàn mới và thực tế.

📌 Chuẩn bị dữ liệu dược phẩm cho AI bao gồm các giai đoạn quan trọng như phân tích cấu trúc, đảm bảo độ chính xác, kiểm tra tính duy nhất và tồn tại, và tăng cường dữ liệu. Các bước này giúp đảm bảo dữ liệu nhất quán, chính xác và đầy đủ, từ đó cải thiện hiệu quả của các mô hình AI trong ngành dược phẩm.

https://www.pharmavoice.com/spons/how-can-you-prepare-pharmaceutical-data-for-ai-consumption/718829/

Không có file đính kèm.

Nguồn tham khảo

190

AI data AI pháp lý-quản trị-chủ quyền 2024-06-17 14:02:49

Meta hoãn triển khai AI tại châu Âu do lo ngại về việc sử dụng dữ liệu người dùng từ Facebook và Instagram

- Meta đã phải hoãn triển khai các mô hình AI của mình tại châu Âu do lo ngại về việc sử dụng dữ liệu người dùng từ Facebook và Instagram.
- Cơ quan bảo vệ dữ liệu Ireland đã yêu cầu Meta trì hoãn kế hoạch sử dụng dữ liệu từ người dùng Facebook và Instagram để huấn luyện các mô hình AI của mình.
- Nhóm vận động NOYB đã gửi đơn khiếu nại và kêu gọi các cơ quan bảo vệ dữ liệu tại Áo, Bỉ, Pháp, Đức, Hy Lạp, Ý, Ireland, Hà Lan, Na Uy, Ba Lan và Tây Ban Nha hành động chống lại Meta.
- Vấn đề chính là Meta sử dụng các bài đăng công khai trên Facebook và Instagram để cung cấp dữ liệu cho hệ thống AI của mình, điều này có thể vi phạm các quy định về sử dụng dữ liệu của EU.
- Meta thừa nhận rằng họ sử dụng các bài đăng công khai để huấn luyện các mô hình Llama, nhưng không sử dụng các cập nhật bị hạn chế đối tượng hoặc tin nhắn riêng tư.
- Meta đã giải thích rằng họ sử dụng thông tin công khai và thông tin được cấp phép để huấn luyện AI, bao gồm các bài đăng công khai hoặc ảnh công khai và chú thích của chúng.
- Trong tương lai, Meta có thể sử dụng thông tin mà người dùng chia sẻ khi tương tác với các tính năng AI tạo sinh của Meta hoặc với doanh nghiệp để phát triển và cải thiện các sản phẩm AI của mình.
- Meta không sử dụng nội dung của các tin nhắn riêng tư giữa bạn bè và gia đình để huấn luyện AI.
- Meta đã làm việc để đáp ứng các mối quan ngại của EU về các mô hình AI của mình và đã thông báo cho người dùng EU qua các cảnh báo trong ứng dụng về cách dữ liệu của họ có thể được sử dụng.
- Hiện tại, công việc này đang bị tạm dừng cho đến khi các cơ quan quản lý EU có cơ hội đánh giá các mối quan ngại mới nhất và cách chúng phù hợp với các quy định GDPR.
- Đây là một lĩnh vực khó khăn vì mặc dù Meta có thể lập luận rằng họ có quyền sử dụng dữ liệu này theo các thỏa thuận người dùng rộng rãi của mình, nhiều người có thể không nhận thức được rằng các bài đăng công khai của họ đang được thêm vào kho dữ liệu AI của Meta.
- Nếu bạn là một người sáng tạo và muốn tiếp cận càng nhiều khán giả càng tốt trên Facebook và Instagram, bạn sẽ đăng công khai, nhưng điều đó có nghĩa là bất kỳ văn bản hoặc yếu tố hình ảnh nào bạn chia sẻ trong bối cảnh này đều có thể được Meta tái sử dụng trong các mô hình AI của mình.
- Khi bạn thấy một hình ảnh được tạo bởi Meta AI trông rất giống với của bạn, có thể nó là sản phẩm phái sinh từ công việc của bạn.
- Đây là một phần của mối quan ngại rộng hơn về các mô hình AI và cách chúng thu thập dữ liệu người dùng trên web.
- EU có thể sẽ yêu cầu các quyền cụ thể hơn, yêu cầu người dùng châu Âu cho phép rõ ràng nội dung của họ được tái sử dụng bởi các mô hình AI của Meta hoặc không.

📌 Meta đã phải hoãn triển khai AI tại châu Âu do lo ngại về việc sử dụng dữ liệu người dùng từ Facebook và Instagram. Cơ quan bảo vệ dữ liệu Ireland yêu cầu trì hoãn, và nhóm vận động NOYB đã gửi đơn khiếu nại. Meta thừa nhận sử dụng bài đăng công khai nhưng không sử dụng tin nhắn riêng tư.

https://www.socialmediatoday.com/news/meta-delays-ai-roll-out-in-europe-due-to-data-usage-concerns/719064/

Không có file đính kèm.

Nguồn tham khảo

164

AI data 2024-06-15 20:26:39

WEF: Vì sao chúng ta cần phối hợp toàn cầu về dữ liệu, không chỉ về AI?

- Dữ liệu là nền tảng của thế giới số, là một trong ba trụ cột của AI tạo sinh (cùng với sức mạnh tính toán và tiếp cận nhân tài). Tuy nhiên, vẫn còn bất bình đẳng lớn về ai được hưởng lợi từ việc sử dụng dữ liệu ngày càng tăng, đặc biệt giữa các quốc gia phát triển và đang phát triển.

- Các cuộc thảo luận toàn cầu về các vấn đề số bị phân mảnh, tập trung vào hạ tầng số công cộng (DPI) và trí tuệ nhân tạo (AI) mà không đề cập đầy đủ vai trò của dữ liệu, đặc biệt là quản trị dữ liệu.

- Các chương trình nghị sự đa phương nên dành không gian cho dữ liệu, ví dụ: một Data20 trong nhóm G20 có thể khuyến khích các cuộc thảo luận cởi mở, đa bên liên quan và chia sẻ kiến thức về quản trị dữ liệu, rủi ro và cơ hội.

- Ngôn ngữ được sử dụng để nói về dữ liệu và quản trị dữ liệu gặp khó khăn trong việc nắm bắt thực tế của dữ liệu. Ý tưởng về quyền sở hữu dữ liệu không thể nắm bắt được cách dữ liệu có thể sao chép, được tạo ra bởi nhiều tác nhân và trở nên có giá trị khi tổng hợp hoặc kết hợp.

- Cần có hành động đa phương và đa bên liên quan ngay bây giờ như một bước đầu tiên để giúp thu hẹp khoảng cách. Một điểm khởi đầu có thể là thành lập Data20 (D20) trong G20 như một không gian đa bên liên quan có tầm nhìn xa, khuyến khích thảo luận cởi mở thông qua các diễn đàn không ràng buộc.

📌 Việc tập trung vào hạ tầng số công cộng và AI trong khi bỏ qua các mối quan tâm xung quanh dữ liệu có nghĩa là cộng đồng toàn cầu chưa giải quyết được vai trò nền tảng của dữ liệu trong việc định hình bất bình đẳng số toàn cầu. Cần có hành động đa phương và đa bên liên quan ngay bây giờ, bắt đầu bằng việc thành lập Data20 trong G20 để khuyến khích thảo luận cởi mở và chia sẻ kiến thức về quản trị dữ liệu.

https://www.weforum.org/agenda/2024/06/need-global-coordination-on-data-not-just-ai/

Không có file đính kèm.

Nguồn tham khảo

133

AI mở-nguồn mở AI data AI ngân hàng-tài chính 2024-06-15 08:59:19

Gretel AI phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên HuggingFace 🤗 cho các nhà phát triển AI

- Gretel AI đã phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên nền tảng HuggingFace 🤗 để hỗ trợ các nhà phát triển AI trong việc phát hiện thông tin nhận dạng cá nhân (PII).
- Bộ dữ liệu bao gồm 55.940 bản ghi, trong đó 50.776 mẫu dùng để huấn luyện và 5.164 mẫu dùng để kiểm tra.
- Dữ liệu đa dạng với 100 định dạng tài liệu tài chính khác nhau, mỗi loại có 20 tiểu loại cụ thể.
- Chứa 29 loại PII khác nhau, phù hợp với trình tạo thư viện Python Faker để dễ dàng phát hiện và thay thế.
- Độ dài trung bình của tài liệu là 1.357 ký tự.
- Hỗ trợ đa ngôn ngữ: Tiếng Anh, Tây Ban Nha, Thụy Điển, Đức, Ý, Hà Lan và Pháp.
- Sử dụng kỹ thuật "LLM-as-a-Judge" với mô hình ngôn ngữ Mistral-7B để đảm bảo chất lượng dữ liệu.
- Bộ dữ liệu có thể được sử dụng để huấn luyện các mô hình NER, kiểm tra hệ thống quét PII, đánh giá hệ thống khử nhận dạng và phát triển các giải pháp bảo mật dữ liệu cho ngành tài chính.

📌 Bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới của Gretel AI là một nguồn tài nguyên quý giá cho các nhà phát triển và nghiên cứu xây dựng các giải pháp phát hiện PII mạnh mẽ. Với 55.940 bản ghi đa dạng, hỗ trợ 7 ngôn ngữ và đảm bảo chất lượng cao, bộ dữ liệu này sẽ thúc đẩy sự phát triển của các hệ thống AI chính xác, công bằng và đáng tin cậy hơn trong lĩnh vực tài chính.

https://www.marktechpost.com/2024/06/13/gretel-ai-releases-a-new-multilingual-synthetic-financial-dataset-on-huggingface-%F0%9F%A4%97-for-ai-developers-tackling-personally-identifiable-information-pii-detection/

Không có file đính kèm.

Nguồn tham khảo

199

AI data 2024-06-14 17:06:39

Tại sao 54% người dùng không tin tưởng dữ liệu huấn luyện AI

- AI đang đối mặt với vấn đề niềm tin nghiêm trọng, với 54% người dùng không tin tưởng dữ liệu huấn luyện AI, theo khảo sát của Salesforce với 6.000 nhân viên tri thức toàn cầu.
- 75% trong số những người không tin tưởng dữ liệu huấn luyện AI cho rằng AI thiếu thông tin cần thiết để hữu ích.
- Sean Knapp, CEO của Ascend.io, nhấn mạnh rằng AI chỉ tốt khi dữ liệu hỗ trợ nó tốt. Các nhà lãnh đạo doanh nghiệp cần hiểu rằng không phải cứ AI đưa ra câu trả lời là nó sẽ chính xác.
- Phát triển dữ liệu thường bị cô lập và tốn thời gian, gây ra sự chậm trễ, ngắt kết nối và thất vọng.
- Sharad Varshney, CEO của OvalEdge, cho rằng doanh nghiệp không thể cạnh tranh nếu không có sự tập trung vào dữ liệu.
- Nhiều tổ chức vẫn đang cố gắng kiểm soát dữ liệu của họ cho các nhiệm vụ tình báo kinh doanh cơ bản, chưa nói đến AI.
- Cần có dữ liệu sạch từ các đường ống dữ liệu tiên tiến để đạt được hiệu quả hoạt động, cải thiện trải nghiệm khách hàng và tạo ra các sản phẩm sáng tạo.
- Khả năng nhận diện nhanh chóng các tập dữ liệu cần thiết và tạo ra các hệ thống sản xuất dữ liệu đáng tin cậy là yếu tố then chốt.

📌 AI đang gặp vấn đề niềm tin lớn với 54% người dùng không tin tưởng dữ liệu huấn luyện. Để khai thác tiềm năng của AI, cần có nền tảng dữ liệu sạch và đáng tin cậy, giúp cải thiện hiệu quả hoạt động và trải nghiệm khách hàng.

https://www.forbes.com/sites/joemckendrick/2024/06/11/getting-to-the-root-of-ais-trust-problem/

Không có file đính kèm.

Nguồn tham khảo

122

AI tools AI data 2024-06-13 16:48:37

Databricks giới thiệu AI/BI: giải pháp trí tuệ doanh nghiệp thông minh dựa trên AI

- Databricks công bố ra mắt sản phẩm trí tuệ doanh nghiệp mới mang tên AI/BI, nhằm dân chủ hóa phân tích và thông tin chi tiết trên toàn tổ chức thông qua cách tiếp cận AI làm trọng tâm.
- AI/BI tận dụng AI tạo sinh để cung cấp khả năng phân tích tự phục vụ, cho phép người dùng thông thường đặt các câu hỏi phức tạp và nhận câu trả lời chính xác mà không cần chuyên môn khoa học dữ liệu.
- AI/BI bao gồm hai trải nghiệm bổ sung: AI/BI Dashboards - giao diện low-code để nhanh chóng tạo bảng điều khiển tương tác; và AI/BI Genie - giao diện hội thoại sử dụng ngôn ngữ tự nhiên để giải quyết các câu hỏi ad-hoc và theo dõi.
- Cả hai đều được hỗ trợ bởi một hệ thống AI tổng hợp liên tục học hỏi từ việc sử dụng trên toàn bộ stack dữ liệu của tổ chức, bao gồm pipeline ETL, lineage và truy vấn.
- Khác với các công cụ BI khác cố gắng thêm khả năng AI tạo sinh lên trên kiến trúc thông thường, AI/BI đặt hệ thống AI làm cốt lõi.
- AI/BI sử dụng tập hợp các agent AI chuyên biệt cùng nhau lý luận về các câu hỏi kinh doanh và tạo ra câu trả lời hữu ích. Hệ thống học hỏi và cải thiện dựa trên phản hồi của con người.
- Lợi ích chính của AI/BI: quản trị và lineage thống nhất thông qua tích hợp sâu với Databricks Unity Catalog; chia sẻ an toàn dễ dàng mà không cần giấy phép người dùng bổ sung; tính năng vượt trội về giá-hiệu suất trên khối lượng dữ liệu lớn; không yêu cầu trích xuất dữ liệu.
- AI/BI Dashboards đã sẵn sàng từ hôm nay, trong khi Genie đang trong giai đoạn preview công khai.

📌 Databricks giới thiệu AI/BI - giải pháp BI thông minh dựa trên AI tổng hợp, cho phép phân tích tự phục vụ thông qua AI/BI Dashboards và Genie. Hệ thống liên tục học hỏi, mang lại lợi ích như quản trị thống nhất, chia sẻ an toàn, hiệu suất vượt trội mà không tốn thêm chi phí cấp phép.

https://analyticsindiamag.com/databricks-launches-ai-bi-a-compound-ai-system-for-intelligent-business-insights/

Không có file đính kèm.

Nguồn tham khảo

116

AI tools AI data 2024-06-13 16:45:11

Databricks giới thiệu LakeFlow, giải pháp đơn giản hóa quy trình kỹ thuật dữ liệu từ A đến Z

- Databricks giới thiệu LakeFlow, giải pháp thống nhất giúp đơn giản hóa mọi khía cạnh của kỹ thuật dữ liệu, từ thu thập, chuyển đổi đến điều phối dữ liệu.
- LakeFlow cho phép các đội ngũ dữ liệu dễ dàng thu thập dữ liệu từ nhiều nguồn như MySQL, Postgres, Oracle, Salesforce, Dynamics, Sharepoint, Workday, NetSuite và Google Analytics.
- Databricks cũng giới thiệu Real Time Mode cho Apache Spark, cho phép xử lý luồng với độ trễ cực thấp.
- LakeFlow tự động hóa việc triển khai, vận hành và giám sát pipeline ở quy mô lớn trong sản xuất, với hỗ trợ tích hợp cho CI/CD và quy trình làm việc nâng cao.
- Các tính năng kiểm tra chất lượng dữ liệu và giám sát tình trạng được tích hợp với hệ thống cảnh báo như PagerDuty.
- LakeFlow giải quyết các thách thức trong kỹ thuật dữ liệu bằng cách đơn giản hóa mọi khía cạnh thông qua một trải nghiệm thống nhất dựa trên Nền tảng Databricks Data Intelligence.
- LakeFlow Connect cung cấp nhiều kết nối gốc, có thể mở rộng quy mô cho cơ sở dữ liệu và ứng dụng doanh nghiệp, tích hợp sâu với Unity Catalog để quản trị dữ liệu mạnh mẽ.
- LakeFlow Pipelines cho phép các đội ngũ dữ liệu triển khai chuyển đổi dữ liệu và ETL bằng SQL hoặc Python, đơn giản hóa cả quá trình xử lý luồng và hàng loạt phức tạp nhất.
- LakeFlow Jobs cung cấp tính năng điều phối tự động, theo dõi tình trạng và phân phối dữ liệu, tăng cường khả năng kiểm soát luồng và khả năng quan sát đầy đủ để phát hiện, chẩn đoán và giảm thiểu các vấn đề về dữ liệu.

📌 LakeFlow của Databricks là giải pháp toàn diện giúp đơn giản hóa mọi khía cạnh của kỹ thuật dữ liệu, từ thu thập, chuyển đổi đến điều phối dữ liệu. Với các tính năng như kết nối gốc mở rộng, xử lý luồng và hàng loạt thống nhất, điều phối tự động và giám sát tình trạng dữ liệu, LakeFlow giúp các đội ngũ dữ liệu xây dựng và vận hành pipeline dữ liệu đáng tin cậy một cách hiệu quả.

https://analyticsindiamag.com/databricks-unveils-lakeflow-simplifying-data-ingestion-transformation-orchestration/

Không có file đính kèm.

Nguồn tham khảo

134

AI data 2024-06-13 12:16:37

Databricks Data and AI Summit 2024 ra mắt loạt đổi mới lớn về dữ liệu và AI

- Databricks mở nguồn Unity Catalog theo giấy phép Apache 2.0 với đặc tả OpenAPI, server và clients, cho phép các công ty khác sử dụng kiến trúc và mã nguồn để thiết lập catalog hỗ trợ dữ liệu ở mọi định dạng.
- Mosaic AI được nâng cấp với các công cụ mới như Mosaic AI Model Training, AI Agent framework, Evaluation framework, AI Tools Catalog và AI Gateway để xây dựng hệ thống AI tổng hợp tin cậy.
- Ra mắt Shutterstock ImageAI, mô hình AI tạo sinh ảnh văn bản cung cấp ảnh chất lượng cao, đáng tin cậy cho các trường hợp sử dụng doanh nghiệp khác nhau.
- Giới thiệu Databricks AI/BI, hệ thống AI tổng hợp sử dụng tập hợp các AI agent để lý luận về câu hỏi kinh doanh và tạo ra câu trả lời ngôn ngữ tự nhiên và trực quan hóa hữu ích.
- Databricks LakeFlow ra mắt để thống nhất và đơn giản hóa tất cả khía cạnh của kỹ thuật dữ liệu, từ thu thập dữ liệu đến chuyển đổi và điều phối.
- Hợp tác với Nvidia để hỗ trợ tính toán CUDA trong công cụ truy vấn Photon thế hệ tiếp theo của Databricks và với Gretel để cung cấp bộ dữ liệu tổng hợp chất lượng cao xây dựng và tùy chỉnh mô hình học máy.

📌 Databricks Data and AI Summit 2024 đánh dấu bước tiến lớn trong việc kết hợp dữ liệu và AI, với nhiều đổi mới đáng chú ý như mở nguồn Unity Catalog, nâng cấp Mosaic AI với các công cụ mới, ra mắt mô hình tạo ảnh Shutterstock ImageAI, giải pháp phân tích thông minh Databricks AI/BI, trải nghiệm thống nhất LakeFlow cho kỹ thuật dữ liệu, và quan hệ đối tác chiến lược với Nvidia và Gretel.

https://venturebeat.com/ai/databricks-data-and-ai-summit-2024-the-biggest-innovations/

Không có file đính kèm.

Nguồn tham khảo

122

AI tools AI data 2024-06-13 07:54:17

Databricks mở rộng hỗ trợ Mosaic AI cho các ứng dụng AI tạo sinh

- Databricks chuẩn bị cung cấp thêm hỗ trợ cho các doanh nghiệp xây dựng ứng dụng AI tạo sinh với việc bổ sung các tính năng mới của Mosaic AI.
- Mosaic AI Agent Framework, hiện đang ở giai đoạn public preview, nhằm tăng tốc quá trình phát triển ứng dụng AI tạo sinh dựa trên kỹ thuật retrieval augmented generation (RAG).
- Công cụ AI Agent Evaluation, cũng đang ở giai đoạn public preview, sử dụng AI để kiểm tra chất lượng đầu ra của ứng dụng dựa trên RAG.
- Mosaic AI Gateway giúp quản lý các mô hình LLM và ứng dụng AI tạo sinh, cung cấp giao diện thống nhất để truy vấn, quản lý và triển khai bất kỳ mô hình nguồn mở hoặc độc quyền nào.
- Databricks cũng giới thiệu bộ công cụ Mosaic AI Tools Catalog để chạy và vận hành các mô hình LLM, hiện đang ở giai đoạn private preview.
- Các tính năng mới này được kỳ vọng sẽ củng cố vị thế của Databricks trên thị trường, mặc dù công ty vẫn tụt hậu so với Snowflake ở một số lĩnh vực.
- Databricks đang dẫn đầu trong lĩnh vực AI và AI tạo sinh, nhưng vẫn cần chứng minh nhiều hơn về kho dữ liệu và tụt hậu so với Snowflake về thị trường dữ liệu và ứng dụng dữ liệu.
- Databricks và Snowflake đang tiếp cận AI từ các điểm khởi đầu khác nhau và đều tìm cách đạt được cùng một vị trí.

📌 Databricks đang tăng cường hỗ trợ cho các ứng dụng AI tạo sinh với việc bổ sung nhiều tính năng mới vào Mosaic AI như Agent Framework, AI Agent Evaluation, AI Gateway. Tuy nhiên, công ty vẫn cần nỗ lực hơn nữa để bắt kịp đối thủ Snowflake trong các lĩnh vực kho dữ liệu, thị trường dữ liệu và ứng dụng dữ liệu.

https://www.infoworld.com/article/3715542/databricks-expands-mosaic-ai-support-for-generative-ai-apps.html

Không có file đính kèm.

Nguồn tham khảo

228

AI data AI skill-talent 2024-06-12 00:19:16

Vai trò của chuyên gia dữ liệu trong kỷ nguyên AI tạo sinh

- Tầm quan trọng nền tảng của dữ liệu đang tạo ra những yêu cầu mới đối với các chuyên gia dữ liệu. Họ đang gặp phải những thách thức mới về dữ liệu, sự phức tạp ngày càng tăng của dữ liệu, cấu trúc nhóm đang phát triển và các công cụ, công nghệ mới nổi.

- Các chuyên gia dữ liệu đang tiếp cận gần hơn với kinh doanh và ngược lại. Họ được yêu cầu mở rộng kiến thức về kinh doanh, tham gia sâu hơn với các đơn vị kinh doanh và hỗ trợ việc sử dụng dữ liệu trong tổ chức.

- Chiến lược dữ liệu và AI đã trở thành một phần quan trọng của chiến lược kinh doanh. Các nhà lãnh đạo doanh nghiệp cần đầu tư vào chiến lược dữ liệu và AI của họ.

- Các chuyên gia dữ liệu sẽ định hình cách triển khai AI tạo sinh trong doanh nghiệp. Các cân nhắc chính như tạo ra kết quả chất lượng cao, ngăn chặn sai lệch và ảo giác, thiết lập quản trị, thiết kế quy trình dữ liệu, đảm bảo tuân thủ quy định đều thuộc phạm vi của các chuyên gia dữ liệu.

- Các công cụ và kiến trúc dữ liệu tiên tiến như lakehouse và data mesh cho phép các nhóm dữ liệu chuyên nghiệp hóa, chuẩn hóa và đơn giản hóa công việc của họ, đồng thời tối ưu hóa việc sử dụng tài sản dữ liệu.

- Vai trò mới của các chuyên gia dữ liệu như kỹ sư phân tích đang nổi lên để lấp đầy khoảng trống giữa nhà phân tích dữ liệu và kỹ sư dữ liệu.

- Cấu trúc và vị trí của tổ chức dữ liệu trong doanh nghiệp đang thay đổi, với xu hướng phi tập trung hóa sở hữu dữ liệu. Tuy nhiên, dữ liệu vẫn đòi hỏi sự hợp tác và nhất quán nội bộ.

- Các tổ chức cần hỗ trợ các chuyên gia dữ liệu bằng cách đầu tư vào công nghệ và cơ sở hạ tầng, dân chủ hóa khả năng tiếp cận dữ liệu, đồng thời đảm bảo quản trị và giám sát dữ liệu, AI một cách mạnh mẽ.

📌 Trong kỷ nguyên AI, dữ liệu đóng vai trò then chốt. Các chuyên gia dữ liệu đang đối mặt với nhiều thách thức và cơ hội mới khi tổ chức dữ liệu chuyển đổi. Họ cần mở rộng kỹ năng, tiếp cận gần hơn với kinh doanh và định hình triển khai AI tạo sinh. Các tổ chức cần đầu tư đúng đắn vào nhóm dữ liệu, lựa chọn công cụ và kiến trúc phù hợp như lakehouse, data mesh, đồng thời thay đổi văn hóa để đón đầu tương lai được định hình bởi dữ liệu và AI.

Citations:
https://www.databricks.com/sites/default/files/2024-05/mittr-databricks2024-final-14may2024.pdf

Không có file đính kèm.

Nguồn tham khảo

153

AI data AI riêng tư 2024-06-11 23:49:46

Dữ liệu tổng hợp bảo mật quyền riêng tư là chìa khóa để mở rộng quy mô AI

- Dữ liệu công khai hiện tại đã đủ để tạo ra các mô hình đa năng chất lượng cao, nhưng không đủ để cung cấp năng lượng cho các mô hình chuyên biệt mà doanh nghiệp cần. Trong khi đó, các quy định AI đang ngày càng khiến việc xử lý dữ liệu nhạy cảm thô an toàn trở nên khó khăn hơn.

- Các công ty công nghệ hàng đầu như Google, Anthropic, Meta, Microsoft đã bắt đầu sử dụng dữ liệu tổng hợp để huấn luyện các mô hình như Gemma, Claude, Llama 3, Phi-3 và đạt được những cải thiện đáng kể về hiệu suất.

- Trong kỷ nguyên AI, chất lượng dữ liệu được định nghĩa bởi 5 yếu tố: khối lượng, tốc độ, đa dạng, độ chính xác và quyền riêng tư. Thiếu bất kỳ yếu tố nào trong số này, các nút thắt về chất lượng dữ liệu sẽ cản trở hiệu suất mô hình và giá trị kinh doanh.

- Dữ liệu tổng hợp chất lượng cao phải bao gồm: hệ thống phát hiện và chuyển đổi dữ liệu nhạy cảm tiên tiến, tạo thông qua các bộ chuyển đổi được đào tạo trước và kiến trúc dựa trên tác nhân, quyền riêng tư khác biệt ở cấp độ đào tạo mô hình, độ chính xác và tiện ích có thể đo lường được cùng với các biện pháp bảo vệ quyền riêng tư có thể chứng minh được, các nhóm đánh giá, xác thực và điều chỉnh dữ liệu.

- Sự sụp đổ mô hình không phải do dữ liệu tổng hợp gây ra mà là do vòng lặp phản hồi trong các hệ thống AI và học máy cùng với nhu cầu quản trị dữ liệu tốt hơn. Dữ liệu tổng hợp bảo mật quyền riêng tư chất lượng cao là giải pháp cho sự sụp đổ mô hình, không phải là nguyên nhân.

📌 Dữ liệu tổng hợp chất lượng cao, bảo mật quyền riêng tư là phương tiện đáng tin cậy và hiệu quả nhất để tạo ra dữ liệu chất lượng cao mà không ảnh hưởng đến hiệu suất hoặc quyền riêng tư, giúp các nhà phát triển xây dựng các mô hình chính xác, kịp thời và chuyên biệt hơn một cách an toàn.

https://www.infoworld.com/article/3715521/solving-the-data-quality-problem-in-generative-ai.html

Không có file đính kèm.

Nguồn tham khảo

140

AI data AI riêng tư 2024-06-10 11:22:41

Muốn AI thành công, chúng ta cần bảo vệ dữ liệu cá nhân

- Ngành công nghiệp AI đang tiến gần đến một bước chuyển đổi mà dữ liệu người dùng sẽ trở nên tối quan trọng và niềm tin sẽ là hàng hóa quan trọng nhất, được gọi là "AI 2.0".

- AI tạo sinh 1.0 là phi cá nhân hóa. Để AI hiểu chúng ta, nó phải có dữ liệu về chúng ta, và trước khi cho phép điều đó, chúng ta phải có niềm tin.

- Chúng ta có thể xây dựng niềm tin bằng các quy định bảo vệ dữ liệu cá nhân và thúc đẩy tính minh bạch. Tác giả đề xuất 4 quy tắc cho tính minh bạch và quyền riêng tư dữ liệu.

- Nếu các công ty AI cần đào tạo trên thông tin có bản quyền, họ có thể trả tiền cho nó với ngân sách hàng chục và hàng trăm tỷ đô la.

- Một mô hình AI của Mỹ dựa trên quyền sở hữu rõ ràng và quyền riêng tư dữ liệu sẽ truyền cảm hứng cho nhiều người tham gia hơn mô hình AI của Trung Quốc với dữ liệu do Đảng Cộng sản kiểm soát.

📌 Để AI 2.0 mang lại giá trị lớn hơn, cần có mối quan hệ mới với công chúng dựa trên niềm tin. Mỹ có lợi thế trong cuộc đua này nếu có các quy định đúng đắn về quyền sở hữu và quyền riêng tư dữ liệu, trái ngược với mô hình kiểm soát dữ liệu của Trung Quốc.

https://www.fastcompany.com/91137724/for-ai-to-really-succeed-we-need-to-protect-private-data

Không có file đính kèm.

Nguồn tham khảo

136

AI data AI việc làm 2024-06-08 07:54:05

Công nhân ẩn danh của AI: mắc kẹt trong công việc không lối thoát

- Ngành công nghiệp AI, mặc dù tràn ngập tiền bạc, lại dựa vào chuỗi cung ứng của hàng triệu công nhân dữ liệu với mức lương thấp và điều kiện làm việc bấp bênh.
- Theo ước tính của Ngân hàng Thế giới, có từ 150 triệu đến 430 triệu người làm công việc chú thích hình ảnh, văn bản và âm thanh để huấn luyện các công cụ AI tạo sinh như ChatGPT.
- Milagros Miceli, một nhà nghiên cứu tại Viện Nghiên cứu AI Phân tán và Viện Weizenbaum, cho biết cô chưa từng gặp công nhân nào nói rằng công việc này giúp họ mua nhà hoặc cho con đi học đại học.
- Miceli đã gặp gỡ khoảng một tá công nhân chú thích dữ liệu ở một khu ổ chuột ở Argentina vào năm 2019, với mức lương khoảng 1,70 USD/giờ. Khi cô quay lại vào năm 2021, không ai trong số họ đã tiến xa hơn và mức lương của họ hầu như không tăng.
- Madhumita Murgia, biên tập viên AI của Financial Times, cho biết nhiều công nhân phải làm thêm công việc thứ hai hoặc ca đêm để đủ sống. Một phụ nữ làm việc cho Samasource Impact Sourcing ở Nairobi không thể tự nuôi sống mình và con gái, phải chuyển về sống với cha mẹ.
- Công việc này cũng rất bấp bênh. Một công nhân ở Bulgaria không thể trả tiền thuê nhà vì bị đình chỉ công việc sau khi phàn nàn về ca đêm.
- Các công ty như Microsoft và OpenAI là khách hàng cuối cùng của những công nhân này, nhưng họ không nhận ra giá trị thực sự của công việc mình làm.
- Murgia nhận thấy rằng công nhân dữ liệu không có cơ hội thăng tiến lên các công việc kỹ thuật số có lương cao hơn, họ vẫn bị giới hạn trong công việc có giá trị thấp.
- Các công ty chú thích dữ liệu thường bắt đầu với ý định tốt đẹp để giúp người dân thoát nghèo, nhưng họ gặp khó khăn trong việc thuyết phục khách hàng doanh nghiệp trả mức lương cao hơn.
- Một khảo sát năm 2021 từ Viện Internet Oxford cho thấy hầu hết các nền tảng công việc dữ liệu không có chính sách đảm bảo công nhân kiếm được ít nhất mức lương tối thiểu địa phương.
- Một quảng cáo tuyển dụng "dịch giả chuyên nghiệp" ở Igbo, Nigeria, với mức lương lên đến 17 USD/giờ, thấp hơn mức lương trung bình của dịch giả Nigeria, bắt đầu từ 25 USD/giờ.
- Công ty Scale.ai, một startup AI ở San Francisco, đã huy động được 1 tỷ USD từ các nhà đầu tư, nhưng không trả lời các yêu cầu bình luận về mức lương thấp của công nhân.
- Các công ty như Samasource Impact Sourcing Inc., Arbusta S.R.L. và Humans in the Loop đóng vai trò quan trọng trong chuỗi cung ứng AI nhưng thường chỉ trả đủ để công nhân duy trì cuộc sống.
- Mặc dù công việc dữ liệu ngày càng phức tạp, mức lương vẫn thấp hơn so với những gì người có bằng cấp nên nhận được.
- Chi phí huấn luyện AI rất đắt đỏ, với ngành công nghiệp AI chi 50 tỷ USD cho chip Nvidia vào năm 2023 nhưng chỉ thu về khoảng 3 tỷ USD doanh thu.
- Điều này cho thấy cơ hội cho những người làm việc trong ngành AI vẫn rất ít và công nghệ này chủ yếu củng cố quyền lực kinh tế.

📌 Ngành công nghiệp AI dựa vào hàng triệu công nhân dữ liệu với mức lương thấp và điều kiện làm việc bấp bênh. Mặc dù công việc ngày càng phức tạp, mức lương vẫn không đủ để cải thiện tình trạng kinh tế của họ.

https://www.bloomberg.com/opinion/articles/2024-06-06/ai-s-hidden-workers-are-stuck-in-dead-end-jobs

Không có file đính kèm.

Nguồn tham khảo

150

AI pháp lý-quản trị-chủ quyền AI data 2024-06-08 06:47:41

Làm thế nào AI có thể kích hoạt chia sẻ dữ liệu xuyên biên giới trong một thế giới đang phân mảnh

- Các hạn chế về luồng dữ liệu toàn cầu đã tăng gấp đôi từ năm 2017 đến 2021, dẫn đến sự phân mảnh của thế giới kỹ thuật số.

- Việc chia sẻ dữ liệu xuyên biên giới rất quan trọng để giải quyết các vấn đề toàn cầu như chuẩn bị cho đại dịch tiếp theo, giám sát an toàn của AI tạo sinh, dự báo thiên tai, điều phối viện trợ toàn cầu, xác định vấn đề an toàn thực phẩm trong chuỗi cung ứng quốc tế.

- Thay vì chỉ tập trung vào dữ liệu thô, cần chú ý đến các loại dữ liệu trung gian mới xuất hiện nhờ tiến bộ của AI như features, embeddings, hyperparameters, weights, dữ liệu tổng hợp. Chúng có thể an toàn hơn khi chuyển giao, chia sẻ và tạo ra giá trị mà không cần chia sẻ dữ liệu thô.

- Ví dụ: embeddings có thể đại diện cho hồ sơ y tế thô, giảm thiểu rủi ro nhận dạng bệnh nhân; các tổ chức tài chính có thể chia sẻ hyperparameters, weights để cải thiện mô hình phòng chống gian lận mà không tiết lộ thông tin nhạy cảm; dữ liệu tổng hợp giữ lại các mẫu hành vi tập thể của khách hàng thực mà không tiết lộ thông tin cá nhân.

- Các quy định hiện tại chưa tính đến tất cả các loại dữ liệu trung gian mới này. Chúng thường bị đối xử như dữ liệu thô và bị hạn chế nặng nề. Cần có chính sách mạnh mẽ phân biệt sự khác biệt của từng loại dữ liệu để cho phép các quốc gia chia sẻ dữ liệu quan trọng trên quy mô lớn hơn, giải quyết các vấn đề toàn cầu cấp bách đồng thời bảo vệ dữ liệu cá nhân của công dân.

📌 Trong kỷ nguyên AI, việc chia sẻ dữ liệu xuyên biên giới đóng vai trò then chốt để giải quyết các thách thức toàn cầu. Các nhà hoạch định chính sách cần đổi mới quy định, tính đến đặc thù của các loại dữ liệu trung gian mới để tạo điều kiện thuận lợi cho việc chia sẻ dữ liệu an toàn và hiệu quả giữa các quốc gia.

https://fortune.com/2024/06/07/ai-artificial-intelligence-cross-border-data-sharing/

Không có file đính kèm.

Nguồn tham khảo

111

AI data AI mở-nguồn mở 2024-06-08 06:21:26

Zyphra ra mắt bộ dữ liệu huấn luyện AI Zyda 1.3 nghìn tỷ token, cải thiện hiệu suất LLM

- Zyphra Technologies Inc., được hỗ trợ bởi Intel Capital, ra mắt Zyda - một bộ dữ liệu huấn luyện AI gồm 1,3 nghìn tỷ token, giúp các nhà nghiên cứu xây dựng các mô hình ngôn ngữ lớn (LLM).
- Zyda tổng hợp thông tin từ 7 bộ dữ liệu mã nguồn mở, được lọc bỏ nội dung vô nghĩa, trùng lặp và có hại bằng các kịch bản tùy chỉnh và ngưỡng an toàn.
- Quá trình lọc dữ liệu diễn ra qua 2 giai đoạn: loại bỏ văn bản vô nghĩa do lỗi định dạng và xóa nội dung có hại dựa trên các tiêu chí văn bản.
- Zyphra cũng loại bỏ các tài liệu trùng lặp trong từng bộ dữ liệu và giữa 7 bộ dữ liệu với nhau, giúp nén Zyda từ 2 nghìn tỷ token xuống còn 1,4 nghìn tỷ.
- Chất lượng của Zyda được kiểm tra bằng cách sử dụng nó để huấn luyện mô hình ngôn ngữ nội bộ Zamba (7 tỷ tham số) trên 128 card đồ họa Nvidia H100.
- Zamba sử dụng kiến trúc Mamba đơn giản hơn Transformer, kết hợp với lớp attention giúp ưu tiên thông tin quan trọng.
- Zamba vượt trội hơn Llama 2 7B của Meta và một số mô hình ngôn ngữ mã nguồn mở khác, mặc dù được huấn luyện trên lượng dữ liệu ít hơn.

📌 Zyda - bộ dữ liệu huấn luyện AI 1,3 nghìn tỷ token của Zyphra - giúp đơn giản hóa việc xây dựng LLM bằng cách lọc bỏ nội dung vô nghĩa, trùng lặp và có hại. Mô hình Zamba được huấn luyện trên Zyda đã vượt trội hơn nhiều LLM mã nguồn mở khác với lượng dữ liệu ít hơn.

https://siliconangle.com/2024/06/07/zyphra-debuts-zyda-llm-training-dataset-1-3t-tokens/

Không có file đính kèm.

Nguồn tham khảo

197

AI data 2024-06-07 16:17:50

nguồn dữ liệu văn bản công khai sẽ cạn kiệt cho các mô hình AI vào năm 2028

• Nghiên cứu ước tính tổng lượng dữ liệu văn bản công khai chất lượng cao do con người tạo ra vào khoảng 300 nghìn tỷ token, với khoảng tin cậy 90% từ 100 nghìn tỷ đến 1 triệu tỷ token.
• Nếu mô hình được huấn luyện tối ưu về tính toán, nguồn dữ liệu này sẽ đủ để huấn luyện một mô hình 5e28 FLOP, mức dự kiến đạt được vào năm 2028.
• Tuy nhiên, các mô hình gần đây thường được huấn luyện quá mức với ít tham số hơn và nhiều dữ liệu hơn để hiệu quả hơn khi suy luận. Nếu mô hình được huấn luyện quá mức gấp 5 lần, nguồn dữ liệu sẽ cạn kiệt vào năm 2027, nhưng nếu quá mức gấp 100 lần, nó sẽ cạn kiệt vào năm 2025.
• Nghiên cứu trước đây dự đoán dữ liệu văn bản chất lượng cao sẽ được sử dụng hết vào năm 2024, nhưng kết quả mới cho thấy điều đó có thể không xảy ra cho đến năm 2028. Sự khác biệt này là do phương pháp luận khác nhau và kết hợp các phát hiện gần đây đã thay đổi hiểu biết về chất lượng dữ liệu và đào tạo mô hình.
• Ngay cả khi mô hình được huấn luyện trên tất cả dữ liệu văn bản công khai, điều này không nhất thiết dẫn đến sự dừng lại hoàn toàn của tiến bộ trong khả năng mô hình. Các đổi mới mới sẽ cần thiết để duy trì tiến bộ sau năm 2030, bao gồm dữ liệu tổng hợp, học từ các phương thức dữ liệu khác và cải thiện hiệu quả dữ liệu.

📌 Nghiên cứu cho thấy nguồn dữ liệu văn bản công khai 300 nghìn tỷ token sẽ đủ để huấn luyện các mô hình ngôn ngữ lớn đến năm 2028. Tuy nhiên, xu hướng huấn luyện quá mức có thể khiến nguồn dữ liệu này cạn kiệt sớm hơn, vào khoảng 2025-2027. Để duy trì đà phát triển sau năm 2030, các đổi mới như dữ liệu tổng hợp, học từ nhiều phương thức dữ liệu và cải thiện hiệu quả sử dụng dữ liệu sẽ là then chốt.

Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/201f6832-04f3-44d4-8c71-cd9327dc8e03/paste.txt

https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

https://arxiv.org/pdf/2211.04325

Không có file đính kèm.

Nguồn tham khảo

118

AI data 2024-06-07 16:05:59

Cuộc đua khai thác dữ liệu huấn luyện chatbot AI có thể hết văn bản do con người viết

- Nghiên cứu của Epoch AI dự báo các công ty công nghệ sẽ cạn kiệt nguồn cung cấp dữ liệu huấn luyện công khai cho các mô hình ngôn ngữ AI vào khoảng năm 2026-2032.
- Các công ty như OpenAI và Google đang chạy đua để đảm bảo các nguồn dữ liệu chất lượng cao để huấn luyện các mô hình ngôn ngữ lớn của AI.
- Trong dài hạn, sẽ không đủ blog, bài báo tin tức và bình luận trên mạng xã hội mới để duy trì tốc độ phát triển AI hiện tại.
- Các công ty sẽ phải sử dụng dữ liệu nhạy cảm như email, tin nhắn hoặc dữ liệu tổng hợp kém tin cậy do chính chatbot tạo ra.
- Lượng dữ liệu văn bản cấp cho các mô hình ngôn ngữ AI tăng khoảng 2.5 lần/năm, trong khi khả năng tính toán tăng khoảng 4 lần/năm.
- Xây dựng các hệ thống AI chuyên biệt hơn cho các tác vụ cụ thể cũng có thể giúp cải thiện AI mà không cần mở rộng mô hình.
- Huấn luyện trên dữ liệu do AI tạo ra có thể dẫn đến suy giảm hiệu suất và mã hóa thêm các lỗi, thiên vị trong hệ sinh thái thông tin.
- Các trang web như Reddit, Wikipedia và các nhà xuất bản tin tức, sách đang phải cân nhắc cách dữ liệu của họ được sử dụng cho huấn luyện AI.
- Trả tiền cho hàng triệu người để tạo ra văn bản huấn luyện AI có thể không hiệu quả về kinh tế để cải thiện hiệu suất kỹ thuật.
- OpenAI đã thử nghiệm tạo ra nhiều dữ liệu tổng hợp để huấn luyện thế hệ tiếp theo của mô hình GPT.

📌 Nghiên cứu của Epoch AI dự báo nguồn dữ liệu văn bản công khai để huấn luyện AI sẽ cạn kiệt vào khoảng 2026-2032. Các công ty đang chạy đua đảm bảo nguồn dữ liệu chất lượng cao, nhưng về lâu dài có thể phải dựa vào dữ liệu nhạy cảm hoặc do chính AI tạo ra, dẫn đến nguy cơ suy giảm hiệu suất và gia tăng sai lệch.

https://apnews.com/article/ai-artificial-intelligence-training-data-running-out-9676145bac0d30ecce1513c20561b87d

Không có file đính kèm.

Nguồn tham khảo

146

AI mở-nguồn mở AI tools AI data 2024-06-06 23:13:58

PixelsDB: công cụ phân tích dữ liệu nguồn mở cho người dùng không chuyên SQL

- PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không thành thạo SQL hoặc quản trị hệ thống tạo và gỡ lỗi các truy vấn SQL thông qua giao diện NLP.
- Các mô hình ngôn ngữ tinh vi chuyển đổi đầu vào của người dùng thành các truy vấn SQL có thể thực thi, cho phép người dùng tương tác với hệ thống và lấy thông tin dữ liệu cần thiết mà không cần nhiều kiến thức kỹ thuật.
- Các truy vấn được tạo ra sẽ được chạy bởi một công cụ truy vấn không máy chủ. PixelsDB cung cấp nhiều mức giá tùy thuộc vào mức độ khẩn cấp của truy vấn.
- Kiến trúc hệ thống được xây dựng để hỗ trợ các mức dịch vụ khác nhau thông qua thiết kế kiến trúc chuyên dụng và lập lịch tài nguyên dị nhất. Điều này cho phép hệ thống tối ưu hóa chi phí tổng thể mà không ảnh hưởng đến hiệu suất của các công việc quan trọng.
- Xử lý truy vấn không máy chủ, giao diện ngôn ngữ tự nhiên và các mức dịch vụ và giá cả tùy chỉnh của PixelsDB sẽ cải thiện đáng kể trải nghiệm người dùng trong phân tích dữ liệu.

📌 PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không chuyên SQL khám phá dữ liệu hiệu quả thông qua giao diện NLP, xử lý truy vấn không máy chủ và các mức dịch vụ tùy chỉnh. Hệ thống loại bỏ rào cản kỹ thuật, cung cấp giao diện thân thiện để tạo và thực thi truy vấn, từ đó tăng tính hiệu quả và khả năng tiếp cận của phân tích dữ liệu cho người dùng phi kỹ thuật.

https://www.marktechpost.com/2024/06/06/pixelsdb-an-open-source-data-analytic-system-that-allows-users-without-sql-expertise-to-explore-data-efficiently/

Không có file đính kèm.

Nguồn tham khảo

165

AI data AI nghiên cứu 2024-06-05 15:36:30

Chiến lược RAG tiên tiến: xây dựng hệ thống Hybrid Retrieval

- Truy xuất lai (hybrid retrieval), còn gọi là truy xuất hợp nhất (fusion retrieval) hoặc truy xuất đa kênh, là phương pháp sử dụng đồng thời nhiều cách truy xuất thông tin khác nhau, sau đó gộp kết quả lại để đạt được kết quả truy xuất cuối cùng. Điều này giúp tận dụng ưu điểm và bù đắp nhược điểm của từng phương pháp, từ đó nâng cao độ chính xác và hiệu quả truy xuất.
- Quy trình truy xuất lai gồm các bước: tạo truy vấn (có thể đơn giản hoặc phức tạp), thực hiện tìm kiếm song song trên nhiều nguồn dữ liệu/chiều khác nhau, loại bỏ các kết quả trùng lặp và xếp hạng lại kết quả theo độ liên quan.
- Để xây dựng hệ thống truy xuất lai, bài viết sử dụng framework ứng dụng LLM LlamaIndex, mô hình ngôn ngữ lớn mã nguồn mở mới nhất Llama3 của Meta và công cụ tìm kiếm mã nguồn mở ElasticSearch. Tích hợp Llama3 vào LlamaIndex bằng lớp OpenAILike. Tích hợp ElasticSearch để lưu trữ vector của tài liệu và hỗ trợ tìm kiếm.
- Bên cạnh mô hình ngôn ngữ, truy xuất RAG còn cần mô hình Embedding để vector hóa và mô hình Rerank để sắp xếp lại kết quả truy xuất. Các mô hình này được triển khai cục bộ bằng công cụ TEI.
- Có 2 phương pháp truy xuất chính được sử dụng: tìm kiếm toàn văn (full-text search) dựa trên từ khóa và tìm kiếm vector (vector search) dựa trên độ tương đồng. ElasticSearch hỗ trợ cả 2 phương pháp này. Tìm kiếm vector gồm 2 chiến lược Dense và Sparse tùy theo mật độ của vector.
- Để thực hiện truy xuất lai, sử dụng phương thức của lớp ElasticSearch trong LlamaIndex với tham số hybrid=True. Tuy nhiên do phiên bản miễn phí của ElasticSearch không hỗ trợ sẵn tính năng này, cần tự cài đặt thuật toán sắp xếp RRF (Reciprocal Rank Fusion).
- Xây dựng lớp FusionRetriever kế thừa từ lớp BaseRetriever, nhận đầu vào là danh sách các truy vấn con. Gọi đồng thời các truy vấn này, sau đó dùng hàm fuse_results để gộp kết quả lại theo điểm RRF. Cuối cùng dùng mô hình Rerank để sắp xếp lại các kết quả theo độ liên quan.
- Kết quả truy xuất lai cho thấy điểm số RRF khá thấp, không phản ánh tốt độ liên quan thực tế. Vì vậy cần dùng thêm mô hình Rerank để đánh giá lại các kết quả. Sau khi sắp xếp lại bằng Rerank, điểm số đã cao hơn và phù hợp hơn.

📌 Bài viết đã hướng dẫn rất chi tiết các bước xây dựng một hệ thống truy xuất lai hiệu quả cho ứng dụng RAG, bao gồm: tích hợp các thành phần như mô hình ngôn ngữ lớn Llama3, công cụ tìm kiếm ElasticSearch, framework LlamaIndex; sử dụng đồng thời nhiều phương pháp truy xuất khác nhau như tìm kiếm toàn văn và tìm kiếm vector; tự cài đặt thuật toán sắp xếp và gộp kết quả RRF; sử dụng mô hình Rerank để sắp xếp lại kết quả cuối cùng theo độ liên quan. Nhờ đó có thể cải thiện đáng kể độ chính xác và hiệu năng của hệ thống truy xuất thông tin, đáp ứng tốt hơn nhu cầu của các ứng dụng AI tạo sinh.

https://generativeai.pub/advanced-rag-retrieval-strategies-hybrid-retrieval-997d39659720

Không có file đính kèm.

Nguồn tham khảo

154

AI data 2024-06-05 07:06:13

Niềm tin vào AI tạo sinh đòi hỏi một nền tảng chuyển đổi dữ liệu mở

- Mọi công ty đều là công ty dữ liệu, phát triển mạnh khi các quyết định được dẫn dắt và dựa trên dữ liệu chính xác. Điều này càng trở nên quan trọng hơn với sự ra đời của cuộc cách mạng AI.
- AI có tiềm năng cách mạng hóa mọi ngành công nghiệp. Được cung cấp dữ liệu phù hợp, AI có thể giúp cung cấp trải nghiệm khách hàng cá nhân hóa, tối ưu hóa chuỗi cung ứng, cải thiện phân tích dự đoán và tạo ra các sản phẩm, dịch vụ sáng tạo mới với tốc độ và độ chính xác chưa từng có.
- AI phụ thuộc vào chất lượng dữ liệu được đưa vào mô hình để đạt được kết quả tốt. Retrieval Augmented Generation (RAG) là một cách phổ biến mà các tổ chức áp dụng công nghệ AI tạo sinh thương mại vào tập dữ liệu.
- Trước khi có AI, khi đưa ra quyết định, nếu ai đó thấy dữ liệu không đáng tin cậy, nhóm dữ liệu của công ty sẽ phải gỡ lỗi, tìm ra nơi mọi thứ bị hỏng trong ngăn xếp và sửa chữa. Quyết định có thể bị trì hoãn vài ngày (hoặc vài tuần).
- Bây giờ, với AI, AI đưa ra quyết định và đề xuất (hoặc thực hiện) hành động. Con người khó nhận ra mọi thứ bị hỏng hơn nhiều, và cơ sở hạ tầng dữ liệu đáng tin cậy và mạnh mẽ trở nên quan trọng hơn bao giờ hết.
- Các nhóm dữ liệu cần xây dựng và sử dụng các công cụ đáng tin cậy, tự động và thông minh. Tin tốt là thế hệ công nghệ hiện đại mới này đã sẵn sàng để tận dụng khi cuộc cách mạng AI cất cánh.
- Với AI, điều cần thiết là dọn dẹp đầm lầy dữ liệu để sử dụng đúng dữ liệu trong các mô hình.
- Khi dữ liệu là động và liên tục được cập nhật, thực hiện tất cả công việc nội bộ và theo kịp tất cả các thay đổi gần như trong mọi trường hợp đã được chứng minh là một mô hình không bền vững.
- Một nền tảng chuyển đổi dữ liệu dựa trên nguồn mở là cách duy nhất để đảm bảo tất cả dữ liệu phù hợp dễ dàng tiếp cận với các mô hình AI sẽ định hướng các quyết định tác động để đưa doanh nghiệp của bạn tiến lên.

Open Data Movement Platform (Nền tảng chuyển đổi dữ liệu mở) cho phép dễ dàng xây dựng và duy trì các nguồn dữ liệu tùy chỉnh, mang lại mức độ tin cậy cao nhất về tính minh bạch.
Nền tảng này được hỗ trợ bởi một cộng đồng để chia sẻ các kết nối dữ liệu, giúp giải quyết các nhu cầu tùy chỉnh, bảo trì liên tục và cung cấp một mô hình bền vững để xử lý khối lượng dữ liệu khổng lồ liên tục thay đổi.

📌 Nền tảng chuyển đổi dữ liệu nguồn mở là yếu tố then chốt để đảm bảo dữ liệu phù hợp dễ dàng tiếp cận với các mô hình AI, giúp đưa ra quyết định tác động đưa doanh nghiệp tiến lên trong kỷ nguyên AI. Sự minh bạch, khả năng tùy chỉnh linh hoạt và hỗ trợ từ cộng đồng mang lại mức độ tin cậy cao nhất, bền vững trước khối lượng dữ liệu khổng lồ luôn biến đổi.

https://thenewstack.io/trust-in-genai-requires-an-open-data-movement-platform/

Không có file đính kèm.

Nguồn tham khảo

145

AI data AI doanh nghiệp 2024-06-05 05:48:42

RelationalAI giới thiệu Bộ đồng xử lý Đồ thị Tri thức cho người dùng Snowflake

- RelationalAI, một startup áp dụng trí tuệ nhân tạo trực tiếp vào dữ liệu quan hệ, công bố tính khả dụng chung của Bộ đồng xử lý Đồ thị Tri thức trên Snowflake Data Cloud.
- Giải pháp này cho phép khách hàng Snowflake xây dựng đồ thị tri thức và tận dụng các khả năng AI và phân tích tiên tiến mà không cần di chuyển dữ liệu ra khỏi môi trường Snowflake.
- Kiến trúc của RelationalAI cho phép áp dụng AI tiên tiến trực tiếp trên dữ liệu doanh nghiệp có cấu trúc trong cơ sở dữ liệu quan hệ như Snowflake, khác với hầu hết các phương pháp machine learning và AI tập trung vào dữ liệu phi cấu trúc.
- RelationalAI báo cáo có sức hút ban đầu mạnh mẽ và "nhu cầu vô hạn" đối với giải pháp của mình, đặc biệt trong các ngành dịch vụ tài chính, viễn thông, bán lẻ và hàng tiêu dùng đóng gói.
- Khách hàng như AT&T, Block, Ritchie Bros và Blue Yonder đã sử dụng nền tảng này để xây dựng đồ thị tri thức cung cấp một lớp ngữ nghĩa trên dữ liệu doanh nghiệp phức tạp của họ.
- Việc ra mắt trên Snowflake là một cột mốc quan trọng đối với startup 50 người này, đã huy động được 122 triệu USD vốn đầu tư với định giá 569 triệu USD.
- Khi các mô hình ngôn ngữ lớn như GPT-4 thu hút sự chú ý của công chúng, CEO Molham Aref nhìn thấy đồ thị tri thức đóng vai trò quan trọng trong việc áp dụng AI tạo sinh trong doanh nghiệp.

📌 RelationalAI đã ra mắt Bộ đồng xử lý Đồ thị Tri thức trên Snowflake Data Cloud, cho phép khách hàng xây dựng đồ thị tri thức và áp dụng AI tiên tiến trực tiếp trên dữ liệu quan hệ có cấu trúc mà không cần di chuyển dữ liệu. Startup này đã huy động được 122 triệu USD và đang được định giá 569 triệu USD, với sự quan tâm ngày càng tăng đối với AI tạo sinh và đồ thị tri thức trong doanh nghiệp.

https://venturebeat.com/ai/relationalai-launches-powerful-knowledge-graph-coprocessor-for-snowflake-users/

Không có file đính kèm.

Nguồn tham khảo

106

AI data 2024-06-03 10:46:04

Kết nối dữ liệu và AI trên nền tảng dữ liệu thống nhất: Cách tiếp cận data-centric

- AI tạo sinh có tiềm năng dân chủ hóa AI và chuyển đổi mọi ngành, hỗ trợ mọi nhân viên và tương tác với mọi khách hàng. Đầu tư vào AI tạo sinh đang tăng vọt.

- Các tổ chức đang đưa nhiều mô hình vào sản xuất (tăng 411% so với cùng kỳ năm trước) và tăng thử nghiệm ML (tăng 54%). Tuy nhiên, họ vẫn thiếu sự tự tin vào các mô hình AI.

- Kỹ sư dữ liệu và nhà khoa học dữ liệu gặp khó khăn trong việc chuyển giao do nền tảng, công cụ và quy trình khác nhau. Thiếu quy trình thống nhất và kiểm soát truy cập giữa các hệ thống gây ra rủi ro.

- Cách tiếp cận lấy dữ liệu làm trung tâm đòi hỏi nền tảng dữ liệu thống nhất được xây dựng dựa trên trí tuệ dữ liệu. Nó dân chủ hóa quyền truy cập vào dữ liệu và đơn giản hóa vòng đời dự án AI.

- Databricks Feature Store cho phép các nhà khoa học dữ liệu dễ dàng tìm và chia sẻ các tính năng. Nó đóng gói mô hình với siêu dữ liệu tính năng để tự động truy xuất hoặc kết hợp các tính năng để chấm điểm dữ liệu mới.

- Databricks Mosaic AI cung cấp công cụ thống nhất để xây dựng, triển khai và giám sát các giải pháp AI và ML. Nó tích hợp hoàn toàn với phần còn lại của Nền tảng Trí tuệ Dữ liệu.

- Chia sẻ dữ liệu trên Nền tảng Trí tuệ Dữ liệu cho phép cộng tác đáng tin cậy cho các nhà cung cấp và người tiêu dùng dữ liệu. Databricks cung cấp một nền tảng chia sẻ mở và an toàn cho tất cả dữ liệu, phân tích và AI của bạn.

- MLflow và khả năng đăng ký mô hình được tích hợp trong Unity Catalog giúp các nhóm dữ liệu có thể quản lý việc triển khai mô hình trên các môi trường thực thi, chỉ định phiên bản nào đang hoạt động cho một mục đích nhất định thông qua bí danh, xem lịch sử các phiên bản trước đó.

- Databricks Model Serving là một dịch vụ thống nhất để triển khai, quản lý, truy vấn và giám sát các mô hình được tinh chỉnh hoặc triển khai trước bởi Databricks hoặc từ bất kỳ nhà cung cấp mô hình nào khác.

📌 Kỷ nguyên AI tạo sinh đòi hỏi cách tiếp cận lấy dữ liệu làm trung tâm và cộng tác, nơi các nhóm kỹ thuật dữ liệu và khoa học dữ liệu làm việc cùng nhau trên cùng dữ liệu để đảm bảo tính chính xác, chất lượng và quản trị của các giải pháp LLM đầu cuối. Nền tảng Trí tuệ Dữ liệu Databricks thống nhất quy trình, cung cấp công cụ giám sát tự động và theo dõi dòng dữ liệu của tất cả các mô hình, tính năng và dữ liệu để đảm bảo độ tin cậy của hệ thống, chất lượng mô hình và chất lượng dữ liệu.

Citations:
[1] https://www.databricks.com/sites/default/files/2024-04/Databricks-Connecting-Data-and-AI-final%29.pdf

Không có file đính kèm.

Nguồn tham khảo

142

AI data 2024-06-02 16:16:22

giá dữ liệu huấn luyện ai cao ngất ngưởng, chỉ big tech mới với tới

- Dữ liệu huấn luyện đóng vai trò then chốt trong việc xây dựng các hệ thống AI tiên tiến ngày nay, nhưng chi phí ngày càng tăng cao.

- Các mô hình AI tạo sinh về cơ bản là các mô hình xác suất, dự đoán dựa trên một lượng lớn dữ liệu mẫu. Vì vậy, càng có nhiều dữ liệu huấn luyện, hiệu suất của mô hình càng tốt.

- Tuy nhiên, bên cạnh số lượng, chất lượng và sự chọn lọc dữ liệu cũng rất quan trọng. Một mô hình nhỏ với dữ liệu được thiết kế cẩn thận có thể vượt trội hơn mô hình lớn.

- Các chuyên gia lo ngại xu hướng nhấn mạnh vào các tập dữ liệu huấn luyện lớn, chất lượng cao sẽ tập trung phát triển AI vào một số ít công ty có ngân sách hàng tỷ đô la.

- Nhiều công ty AI tạo sinh đã thu thập khối lượng dữ liệu khổng lồ thông qua các phương thức đáng ngờ để huấn luyện mô hình, như OpenAI, Google, Meta.

- Các công ty lớn và nhỏ đang dựa vào lao động giá rẻ ở các nước thế giới thứ ba để gán nhãn dữ liệu huấn luyện, tiếp xúc với nội dung bạo lực mà không có phúc lợi hay đảm bảo việc làm.

- Thị trường dữ liệu huấn luyện AI dự kiến tăng từ 2.5 tỷ USD hiện tại lên gần 30 tỷ USD trong 10 năm tới. Các nhà môi giới dữ liệu đang đua nhau thu phí cao.

- Các nền tảng như Shutterstock, Reddit đã ký hợp đồng cấp phép dữ liệu trị giá hàng chục triệu USD cho các nhà phát triển AI, nhưng người dùng không nhận được đồng nào.

- Các tổ chức nghiên cứu nhỏ hơn sẽ không đủ khả năng chi trả giấy phép dữ liệu, dẫn đến thiếu giám sát độc lập đối với các hoạt động phát triển AI.

- Một số nỗ lực độc lập, phi lợi nhuận để tạo ra các tập dữ liệu khổng lồ mà bất kỳ ai cũng có thể sử dụng để huấn luyện mô hình AI tạo sinh, như The Pile v2, FineWeb. Tuy nhiên, họ gặp nhiều thách thức về bản quyền, quyền riêng tư dữ liệu.

📌 Khi việc thu thập và chọn lọc dữ liệu vẫn là vấn đề về nguồn lực, các nỗ lực mở khó có thể theo kịp các công ty công nghệ lớn trong cuộc đua phát triển AI. Cần có đột phá nghiên cứu để san bằng sân chơi, tránh nguy cơ độc quyền và bất bình đẳng trong hệ sinh thái AI tạo sinh.

Citations:

https://techcrunch.com/2024/06/01/ai-training-data-has-a-price-tag-that-only-big-tech-can-afford/

Không có file đính kèm.

Nguồn tham khảo

178

AI data AI tools 2024-05-29 23:37:26

Sự trỗi dậy của Agentic Retrieval-Augmented Generation (RAG) trong AI

- Retrieval-Augmented Generation (RAG) là một chiến lược kiến trúc giúp nâng cao hiệu quả của các ứng dụng Large Language Model (LLM) bằng cách sử dụng dữ liệu tùy chỉnh.
- RAG truyền thống tham chiếu đến các cơ sở tri thức bên ngoài trước khi tạo phản hồi để cải thiện đầu ra của LLM.
- Agentic RAG mở rộng khả năng của RAG truyền thống bằng cách thêm các tác nhân tự trị mang lại trí thông minh và ra quyết định ở cấp độ mới.
- Các tác nhân Agentic RAG nhận thức được ngữ cảnh rộng hơn của cuộc hội thoại, sử dụng các kỹ thuật truy xuất thông minh, phối hợp đa tác nhân, lập luận, xác minh sau khi tạo và có khả năng thích ứng, học hỏi.
- Kiến trúc Agentic RAG bao gồm Agentic RAG Agent điều phối một nhóm các công cụ chuyên biệt kết nối với các nguồn dữ liệu khác nhau. Meta-Agent cấp cao quản lý tương tác giữa các tác nhân tài liệu.
- Agentic RAG có nhiều ứng dụng như dịch vụ khách hàng, trợ lý ảo, tạo nội dung, giáo dục, y tế, pháp lý.
- Các thách thức của Agentic RAG bao gồm: đảm bảo chất lượng dữ liệu, khả năng mở rộng, hiệu quả, khả năng giải thích, bảo mật, quyền riêng tư và các vấn đề đạo đức.

📌 Agentic RAG đánh dấu bước tiến quan trọng trong công nghệ AI, kết hợp sức mạnh của các tác nhân tự trị với lợi ích của RAG truyền thống. Khả năng phản hồi thông minh, phù hợp ngữ cảnh trước các truy vấn phức tạp khiến nó trở thành công cụ không thể thiếu trong tương lai, mở ra những cơ hội mới cho doanh nghiệp và thay đổi cách con người sử dụng, tương tác với thông tin.

https://www.marktechpost.com/2024/05/28/the-rise-of-agentic-retrieval-augmented-generation-rag-in-artificial-intelligence-ai/

Không có file đính kèm.

Nguồn tham khảo

174

AI data OpenAI ChatGPT 2024-05-24 23:33:09

ChatGPT của OpenAI không đáp ứng các tiêu chuẩn về độ chính xác dữ liệu của EU

- Một lực lượng đặc nhiệm của cơ quan giám sát quyền riêng tư EU nhận thấy nỗ lực của OpenAI trong việc cải thiện độ chính xác của ChatGPT là chưa đủ để tuân thủ nguyên tắc độ chính xác dữ liệu trong các quy tắc bảo vệ dữ liệu của EU.
- Báo cáo nhấn mạnh rằng bản chất xác suất của hệ thống và phương pháp huấn luyện hiện tại có thể tạo ra các kết quả thiên vị hoặc bịa đặt.
- Người dùng cuối có xu hướng coi các kết quả của ChatGPT là chính xác, bao gồm cả thông tin liên quan đến cá nhân, bất kể độ chính xác thực tế.
- EU đang dẫn đầu trong việc áp dụng các quy định AI nghiêm ngặt. Vào tháng 3, EU đã giới thiệu các quy định AI mang tính lịch sử, thiết lập tiêu chuẩn mới cho các công ty công nghệ như Apple và Amazon.
- Vào tháng 4, EU đã thông qua khoản đầu tư 13 tỷ USD của Microsoft vào OpenAI sau một cuộc điều tra chính thức. Quyết định này được coi là sự nhẹ nhõm cho các gã khổng lồ công nghệ đang ngày càng đầu tư vào AI.

📌 ChatGPT của OpenAI chưa đáp ứng các tiêu chuẩn dữ liệu nghiêm ngặt của EU do bản chất xác suất và phương pháp huấn luyện hiện tại. Mặc dù vậy, EU vẫn thông qua khoản đầu tư 13 tỷ USD của Microsoft vào OpenAI, mở đường cho các công ty công nghệ lớn phát triển AI tuân thủ quy định mới.

https://www.benzinga.com/news/24/05/39008506/openais-chatgpt-fails-to-meet-eus-data-accuracy-standards-says-privacy-watchdog

Không có file đính kèm.

Nguồn tham khảo

168

AI data AI market 2024-05-19 07:53:28

Google thay đổi khẩu hiệu thành 'đánh cắp thông tin của thế giới'

- **Khẩu hiệu mới của Google**: Tại sự kiện Google I/O, Google đã giới thiệu khẩu hiệu mới: "đánh cắp thông tin của thế giới và làm cho nó trở nên phổ biến và hữu ích". Khẩu hiệu này phản ánh cách Google sử dụng AI để thu thập và sử dụng thông tin từ các trang web khác.

- **Sự thay đổi trong quản lý**: Dưới sự lãnh đạo của CEO Sundar Pichai, Google đã thay đổi từ một công ty sáng tạo với những dự án lớn như loại bỏ cái chết, thành một công ty tập trung vào việc cắt giảm nhân sự để làm hài lòng Wall Street.

- **Sử dụng AI để thu thập thông tin**: Google đã xây dựng một cơ sở dữ liệu khổng lồ với hàng tỷ thông tin về con người, địa điểm và sự vật. Thông tin này được thu thập từ các trang web khác, mà không có sự đồng ý của họ.

- **Ảnh hưởng đến các trang web khác**: Các cập nhật tìm kiếm của Google đã làm giảm lượng truy cập của nhiều trang web, thậm chí có thể dẫn đến việc các trang web này bị loại khỏi các kết quả tìm kiếm nổi bật. Điều này cho phép Google sử dụng thông tin từ các trang web này để tạo ra các đoạn văn bản do AI viết.

- **Phản ứng của cộng đồng**: Mặc dù có nhiều chỉ trích về cách Google sử dụng thông tin, công ty vẫn tiếp tục với chiến lược của mình. Điều này cho thấy sức mạnh của Google trong thị trường tìm kiếm internet và khả năng sử dụng các mô hình ngôn ngữ lớn để thu thập và sử dụng thông tin.

📌 Google đã thay đổi khẩu hiệu thành "đánh cắp thông tin của thế giới và làm cho nó trở nên phổ biến và hữu ích", sử dụng AI để thu thập thông tin từ các trang web khác. Dưới sự lãnh đạo của Sundar Pichai, Google tập trung vào cắt giảm nhân sự và sử dụng thông tin từ các trang web khác để tạo ra nội dung AI.

Citations:
[1] https://bgr.com/business/googles-new-motto-to-steal-the-worlds-information-and-make-it-universally-accessible-and-useful/

Không có file đính kèm.

Nguồn tham khảo

117

AI data 2024-05-18 09:04:50

Slack đang đối mặt với sự phẫn nộ của người dùng về chính sách mặc định thu thập dữ liệu khách hàng để huấn luyện các mô hình AI

- Slack đang vấp phải tranh cãi xoay quanh việc mặc định thu thập dữ liệu khách hàng để huấn luyện các mô hình AI sau khi ra mắt tính năng AI vào tháng 2.

- Kỹ sư Aaron Maurer của Slack thừa nhận chính sách bảo mật của công ty cần làm rõ hơn về cách áp dụng các nguyên tắc này cho Slack AI. Ông giải thích Slack không huấn luyện các mô hình ngôn ngữ lớn (LLM) trên dữ liệu khách hàng.

- Tuy nhiên, những thay đổi này dường như chưa giải quyết được mối quan ngại chính của người dùng chưa bao giờ đồng ý rõ ràng việc chia sẻ các cuộc trò chuyện và nội dung Slack khác để sử dụng trong huấn luyện AI.

- Tranh cãi xung quanh chính sách này không mới, với Wired cảnh báo từ tháng 4 và TechCrunch đưa tin chính sách đã có từ ít nhất tháng 9/2023.

- Kỹ sư và nhà văn Gergely Orosz kêu gọi các công ty chọn không chia sẻ dữ liệu cho đến khi chính sách được làm rõ, lập luận rằng một bài đăng blog không phải là chính sách bảo mật.

- Có sự mâu thuẫn giữa các nguyên tắc bảo mật của Slack (cho biết hệ thống phân tích dữ liệu khách hàng để phát triển mô hình AI/ML) và trang Slack AI (tuyên bố không sử dụng dữ liệu khách hàng để huấn luyện AI).

📌 Slack đang đối mặt với sự phản đối gay gắt của người dùng về chính sách mặc định thu thập dữ liệu để huấn luyện AI. Mặc dù công ty đã đưa ra phản hồi, nhưng vẫn chưa giải quyết được mối lo ngại cốt lõi về việc thiếu sự đồng ý rõ ràng từ phía người dùng. Tranh cãi này đã xuất hiện từ ít nhất tháng 9/2023 và cho thấy sự mâu thuẫn giữa các nguyên tắc bảo mật và tiếp thị của Slack.

Citations:
[1] https://arstechnica.com/tech-policy/2024/05/slack-defends-default-opt-in-for-ai-training-on-chats-amid-user-outrage/

Không có file đính kèm.

Nguồn tham khảo

142

AI data 2024-05-15 00:00:54

Dữ liệu huấn luyện LLM đang cạn kiệt: chúng ta gần đến giới hạn đến mức nào?

- **Tweet của Mark Cummins**: Đề cập đến việc chúng ta đang gần cạn kiệt nguồn dữ liệu văn bản toàn cầu cần thiết cho việc huấn luyện các mô hình ngôn ngữ lớn (LLM) do sự gia tăng tiêu thụ dữ liệu và yêu cầu khắt khe của các LLM thế hệ mới.
- **Dữ liệu web**: Phần văn bản tiếng Anh của tập dữ liệu FineWeb, một phần của dữ liệu web Common Crawl, có khoảng 15 nghìn tỷ token. Khi thêm nội dung web không phải tiếng Anh chất lượng cao, tập dữ liệu này có thể tăng gấp đôi kích thước.
- **Kho mã nguồn**: Khoảng 0,78 nghìn tỷ token được đóng góp bởi mã nguồn công khai, như trong tập dữ liệu Stack v2. Tổng lượng mã nguồn trên toàn thế giới ước tính lên đến hàng chục nghìn tỷ token.
- **Ấn phẩm học thuật và bằng sáng chế**: Tổng khối lượng của các ấn phẩm học thuật và bằng sáng chế là khoảng 1 nghìn tỷ token, một phần dữ liệu văn bản độc đáo nhưng đáng kể.
- **Sách**: Các bộ sưu tập sách kỹ thuật số từ các trang như Google Books và Anna’s Archive có hơn 21 nghìn tỷ token. Khi tính đến mọi cuốn sách khác biệt trên thế giới, tổng số token có thể lên đến 400 nghìn tỷ.
- **Lưu trữ mạng xã hội**: Nội dung do người dùng tạo trên các nền tảng như Weibo và Twitter chiếm khoảng 49 nghìn tỷ token. Facebook nổi bật với 140 nghìn tỷ token, nhưng đây là nguồn tài nguyên khó tiếp cận do các vấn đề về quyền riêng tư và đạo đức.
- **Chuyển đổi âm thanh thành văn bản**: Các nguồn âm thanh công khai như YouTube và TikTok đóng góp khoảng 12 nghìn tỷ token vào tập dữ liệu huấn luyện.
- **Giao tiếp cá nhân**: Email và các cuộc trò chuyện tức thời lưu trữ có tổng cộng khoảng 1.800 nghìn tỷ token. Việc tiếp cận dữ liệu này bị hạn chế, gây ra các vấn đề về quyền riêng tư và đạo đức.
- **Giới hạn hiện tại**: Các tập dữ liệu huấn luyện LLM hiện tại gần đạt mức 15 nghìn tỷ token, đại diện cho lượng văn bản tiếng Anh chất lượng cao có sẵn. Việc tiếp cận các nguồn khác như sách, chuyển đổi âm thanh và các ngôn ngữ khác có thể tăng tổng số token lên 60 nghìn tỷ.
- **Dữ liệu tổng hợp**: Do hạn chế về nguồn dữ liệu văn bản có thể chấp nhận về mặt đạo đức, việc tạo dữ liệu tổng hợp trở thành hướng đi quan trọng cho nghiên cứu AI trong tương lai. Các kho dữ liệu tư nhân của Google và Facebook có số lượng token lên đến hàng nghìn tỷ, nhưng không thể tiếp cận được.

📌 Sự cạn kiệt dữ liệu huấn luyện LLM đang đến gần, với các tập dữ liệu hiện tại gần đạt mức 15 nghìn tỷ token. Việc tạo dữ liệu tổng hợp trở nên quan trọng để duy trì sự phát triển AI, với các nguồn dữ liệu tư nhân không thể tiếp cận và các vấn đề đạo đức cần được giải quyết.

https://www.marktechpost.com/2024/05/14/large-language-model-llm-training-data-is-running-out-how-close-are-we-to-the-limit/

Không có file đính kèm.

Nguồn tham khảo

178

AI data 2024-05-09 06:31:16

Informa, công ty xuất bản và tổ chức sự kiện của Anh, đã ký kết thỏa thuận trị giá hơn 10 triệu đô la với Microsoft để cung cấp quyền truy cập vào dữ liệu

- Informa, công ty của Anh chuyên về xuất bản và tổ chức sự kiện, đã ký kết một thỏa thuận trị giá hơn 10 triệu đô la với Microsoft để cung cấp quyền truy cập vào dữ liệu của mình từ năm 2024 đến 2027.
- Thỏa thuận nhằm mục đích mở rộng việc sử dụng AI trong kinh doanh của Informa và khẳng định giá trị độc đáo của tài sản trí tuệ của họ.
- Đây là một trong những thỏa thuận mới nhất giữa một nhóm truyền thông và một nhà phát triển AI, cung cấp công cụ và hệ thống mới cho Informa đồng thời giúp Microsoft huấn luyện mô hình của mình trên dữ liệu chuyên ngành.
- Thỏa thuận giúp Informa đạt được các mục tiêu tài chính của mình, với kết quả kinh doanh mạnh mẽ và quan hệ đối tác với Microsoft giúp công ty dự kiến đạt được mức cao nhất trong hướng dẫn thị trường về doanh thu, lợi nhuận hoạt động điều chỉnh và dòng tiền tự do.
- Stephen Carter, CEO của Informa, cho biết công ty có "một lượng lớn dữ liệu và nội dung được tái tạo hàng năm".
- Informa đã hưởng lợi từ sự phục hồi sau Covid trong các sự kiện toàn cầu, với kết quả kinh doanh tốt ở tất cả các khu vực chính bao gồm Bắc Mỹ, Châu Á và Ấn Độ, cũng như Trung Đông và Châu Phi.
- Cổ phiếu của Informa tăng gần 3% vào sáng thứ Tư, lên £8.50.
- Informa đã tăng chương trình mua lại cổ phiếu năm 2024 của mình khoảng 50% lên £500 triệu và dự kiến doanh thu sẽ đạt gần £3.5 tỷ trong năm tài chính hiện tại, tăng từ £3.2 tỷ vào năm 2023.
- Công ty cũng dự đoán lợi nhuận hoạt động điều chỉnh gần £970 triệu, tăng từ £853.8 triệu năm trước.
- Informa đã đề xuất tạo ra một nhóm liên kết được niêm yết trên Nasdaq sau khi đồng ý sáp nhập các doanh nghiệp kỹ thuật số của mình với TechTarget của Mỹ, với Informa sẽ sở hữu phần lớn cổ phần sau khi thỏa thuận được hoàn tất.

📌 Informa và Microsoft đã ký kết một thỏa thuận trị giá hơn 10 triệu đô la, kéo dài từ 2024 đến 2027, nhằm mục đích mở rộng việc sử dụng AI và khẳng định giá trị của tài sản trí tuệ của Informa. Thỏa thuận này không chỉ mang lại công cụ và hệ thống mới cho Informa mà còn giúp Microsoft huấn luyện mô hình AI của mình.

https://www.ft.com/content/3ed7737e-3649-4afb-9071-caa13e7394d9

#FT

Không có file đính kèm.

Nguồn tham khảo

133

AI data AI đạo đức 2024-05-09 06:08:11

Stack Overflow cấm hàng loạt người dùng vì nổi dậy chống lại quan hệ đối tác OpenAI

- Stack Overflow, một diễn đàn nổi tiếng dành cho lập trình viên và nhà phát triển, đang đối mặt với làn sóng phản đối dữ dội từ người dùng sau khi thông báo hợp tác với OpenAI để sử dụng các bài đăng trên diễn đàn nhằm huấn luyện ChatGPT.
- Nhiều người dùng đã xóa hoặc chỉnh sửa các câu hỏi và câu trả lời của họ để ngăn chặn việc bị sử dụng để đào tạo AI. Những hành động này đã bị các điều hành viên của trang web trừng phạt bằng lệnh cấm.
- Người dùng Stack Overflow tên Ben đã chia sẻ trên Mastodon về việc anh chỉnh sửa các câu trả lời thành công nhất của mình để tránh bị OpenAI đánh cắp.
- Ben nhấn mạnh rằng mọi thứ bạn đăng trên bất kỳ nền tảng nào cũng có thể và sẽ bị sử dụng vì lợi nhuận. Chỉ là vấn đề thời gian cho đến khi tất cả các tin nhắn của bạn trên Discord, Twitter, v.v. bị quét, đưa vào mô hình và bán lại cho bạn.
- Người dùng cũng đặt câu hỏi tại sao ChatGPT không thể đơn giản chia sẻ doanh thu quảng cáo với những người đóng góp nội dung.
- Tuy nhiên, Điều khoản Dịch vụ của Stack Overflow có một điều khoản quy định quyền sở hữu không thể thu hồi của Stack Overflow đối với tất cả nội dung mà người dùng cung cấp cho trang web.
- Người dùng không đồng ý với việc ChatGPT quét nội dung của họ đặc biệt phẫn nộ trước sự thay đổi chính sách nhanh chóng của Stack Overflow liên quan đến AI tạo sinh.
- Trong nhiều năm, trang web có chính sách cấm sử dụng AI tạo sinh trong việc viết hoặc diễn đạt lại bất kỳ câu hỏi hoặc câu trả lời nào được đăng. Điều hành viên được phép và khuyến khích sử dụng phần mềm phát hiện AI khi xem xét các bài đăng.
- Tuy nhiên, kể từ tuần trước, công ty đã bắt đầu thay đổi nhanh chóng quan điểm công khai của mình đối với AI. CEO Prashanth Chandrasekar đã dành bài đăng blog hàng quý ca ngợi AI tạo sinh, nói rằng "sự trỗi dậy của GenAI là một cơ hội lớn cho Stack."
- Các điều hành viên nhanh chóng được hướng dẫn ngừng xóa các câu hỏi và câu trả lời do AI tạo ra trên diễn đàn.

📌 Stack Overflow đang đối mặt với sự phản đối gay gắt từ người dùng sau khi hợp tác với OpenAI để sử dụng nội dung diễn đàn huấn luyện ChatGPT. Nhiều người đã xóa/sửa bài đăng để ngăn AI sử dụng, dẫn đến việc bị cấm. Công ty đã đảo ngược lập trường về AI tạo sinh, cho phép sử dụng trên diễn đàn bất chấp sự phản đối của cộng đồng.

Citations:
[1] https://www.tomshardware.com/tech-industry/artificial-intelligence/stack-overflow-bans-users-en-masse-for-rebelling-against-openai-partnership-users-banned-for-deleting-answers-to-prevent-them-being-used-to-train-chatgpt

Không có file đính kèm.

Nguồn tham khảo

149

AI data AI ngân hàng-tài chính 2024-05-08 14:02:32

Daloopa đào tạo AI để tự động hóa quy trình làm việc của các nhà phân tích tài chính

- Daloopa, một công ty khởi nghiệp AI, đang sử dụng công nghệ trí tuệ nhân tạo để tự động hóa quy trình làm việc của các nhà phân tích tài chính.
- Công ty đã huy động được 20 triệu USD trong vòng gọi vốn Series A do Craft Ventures dẫn đầu.
- Daloopa sử dụng các thuật toán học máy để trích xuất dữ liệu tài chính từ các tài liệu phi cấu trúc như báo cáo hàng năm, bản trình bày của nhà đầu tư và thông cáo báo chí.
- Công nghệ của Daloopa có thể xử lý hàng nghìn trang tài liệu trong vài phút, tiết kiệm thời gian đáng kể so với phương pháp thủ công.
- Dữ liệu được trích xuất sau đó được chuẩn hóa và tổ chức thành các bộ dữ liệu có cấu trúc mà các nhà phân tích có thể sử dụng trong mô hình và báo cáo của họ.
- Daloopa cũng cung cấp các công cụ trực quan hóa dữ liệu tích hợp, cho phép người dùng khám phá và phân tích dữ liệu một cách dễ dàng.
- Khách hàng của Daloopa bao gồm các quỹ đầu tư, ngân hàng và các tổ chức tài chính khác.
- Công ty tuyên bố đã xử lý hơn 10 triệu tài liệu và trích xuất hơn 1 tỷ điểm dữ liệu.
- Daloopa có kế hoạch sử dụng vốn mới để mở rộng đội ngũ kỹ thuật, phát triển sản phẩm và mở rộng hoạt động tiếp thị và bán hàng.
- Thị trường dữ liệu tài chính dự kiến sẽ đạt 15,4 tỷ USD vào năm 2027, với tốc độ tăng trưởng hàng năm kép là 6,3%.

📌 Daloopa đang cách mạng hóa ngành phân tích tài chính bằng cách sử dụng AI để tự động hóa việc trích xuất và phân tích dữ liệu từ các tài liệu phi cấu trúc. Với khoản đầu tư 20 triệu USD và khả năng xử lý hàng triệu tài liệu, công ty đang định vị để trở thành người dẫn đầu trong thị trường dữ liệu tài chính đang phát triển nhanh chóng.

Citations:
[1] https://techcrunch.com/2024/05/07/daloopa-trains-ai-to-automate-financial-analysts-workflows/

Không có file đính kèm.

Nguồn tham khảo

173

AI data AI bản quyền OpenAI ChatGPT 2024-05-08 06:17:21

OpenAI xóa bộ dữ liệu huấn luyện AI gây tranh cãi giữa vụ kiện của Hiệp hội Tác giả

- Trong vụ kiện tập thể của Hiệp hội Tác giả chống OpenAI, tài liệu mới tiết lộ việc xóa 2 bộ dữ liệu "books1" và "books2", được cho là quan trọng trong huấn luyện mô hình GPT-3.

- Theo hồ sơ tòa án, 2 bộ dữ liệu này chứa "hơn 100.000 cuốn sách đã xuất bản", là trọng tâm cáo buộc của Hiệp hội về việc OpenAI sử dụng tài liệu có bản quyền để phát triển AI.

- OpenAI ban đầu từ chối cung cấp thông tin về bộ dữ liệu vì lo ngại bảo mật, sau đó thừa nhận đã xóa toàn bộ.

- Báo cáo năm 2020 của OpenAI mô tả books1 và books2 là "kho sách trên internet", chiếm 16% dữ liệu huấn luyện GPT-3.

- OpenAI cho biết ngừng sử dụng books1 và books2 từ cuối 2021, xóa giữa 2022 do không hoạt động, các bộ dữ liệu khác vẫn còn nguyên.

- Tài liệu cũng tiết lộ 2 nhân viên OpenAI tạo ra books1 và books2 đã rời công ty. OpenAI đề nghị tòa giữ bí mật danh tính của họ.

- Hiệp hội Tác giả phản đối, ủng hộ minh bạch và quyền được biết của công chúng.

- OpenAI tuyên bố các mô hình của ChatGPT và DALL-E không sử dụng dữ liệu có bản quyền.

📌 Vụ kiện của Hiệp hội Tác giả chống OpenAI đang làm nóng tranh cãi về việc sử dụng tài liệu có bản quyền trong huấn luyện AI. Tài liệu mới tiết lộ OpenAI đã xóa 2 bộ dữ liệu books1 và books2 chứa hơn 100.000 cuốn sách, chiếm 16% dữ liệu huấn luyện GPT-3. Công ty đề nghị giữ bí mật thông tin liên quan, trong khi Hiệp hội đòi minh bạch.

Citations:
[1] https://www.businessinsider.com/openai-destroyed-ai-training-datasets-lawsuit-authors-books-copyright-2024-5

Không có file đính kèm.

Nguồn tham khảo

212

AI data 2024-05-04 04:46:40

3 yếu tố then chốt để phát triển thành công nền tảng dữ liệu cho AI

• Sự sụp đổ của Silicon Valley Bank vào tháng 3/2024 đã ảnh hưởng lớn đến ngành công nghệ, gây lo ngại về khả năng tiếp cận vốn để đổi mới sáng tạo. Tuy nhiên, AI tạo sinh vẫn thu hút nhiều đầu tư trong năm qua.

• AI mang lại nhiều khả năng cho doanh nghiệp như tăng hiệu quả, mở rộng dịch vụ và tạo ra những hiểu biết mới về dữ liệu và nhu cầu khách hàng.

• Để thúc đẩy sự phát triển của AI, các nền tảng dữ liệu cần có 3 yếu tố: tốc độ, sự đơn giản và quy mô.

• Tốc độ: Cần tối ưu hóa hiệu suất của nền tảng dữ liệu, đảm bảo tốc độ xử lý nhanh. Đồng thời cũng cần cân bằng giữa tốc độ và bảo mật, áp dụng các biện pháp an ninh phù hợp.

• Quy mô: Nền tảng dữ liệu cần có khả năng mở rộng quy mô linh hoạt để đáp ứng sự tăng trưởng của dữ liệu và người dùng. Cần tránh các nút thắt cổ chai có thể cản trở việc mở rộng.

• Sự đơn giản: Nền tảng dữ liệu cần đơn giản, dễ sử dụng để nhà phát triển có thể triển khai nhanh chóng. Cần hạn chế các tính năng không cần thiết gây cản trở trải nghiệm người dùng.

📌 Việc áp dụng 3 yếu tố tốc độ, quy mô và sự đơn giản sẽ giúp các nền tảng dữ liệu thúc đẩy sự phát triển của AI, nâng cao hiệu quả hoạt động và mang lại lợi thế cạnh tranh cho doanh nghiệp trong thời đại số.

Citations:
[1] https://www.forbes.com/sites/forbesbusinesscouncil/2024/05/03/unleashing-ai-three-keys-to-developing-a-successful-data-platform/?sh=3eda7e4c606e

Không có file đính kèm.

Nguồn tham khảo

141

AI data 2024-05-04 04:35:47

Oracle ra mắt Database 23ai, tích hợp sức mạnh AI vào dữ liệu doanh nghiệp

- Oracle giới thiệu Oracle Database 23ai, công nghệ cơ sở dữ liệu mới tích hợp các khả năng AI.
- Phiên bản này hiện có sẵn dưới dạng một bộ dịch vụ đám mây, tập trung vào việc hợp lý hóa việc sử dụng AI, nâng cao phát triển ứng dụng và hỗ trợ các khối lượng công việc quan trọng.
- Tính năng chính của nó, Oracle AI Vector Search, giúp tìm kiếm dữ liệu trở nên đơn giản bằng cách cho phép người dùng tìm kiếm tài liệu, hình ảnh và dữ liệu quan hệ dựa trên nội dung khái niệm thay vì các từ khóa hoặc giá trị dữ liệu cụ thể.
- AI Vector Search tạo điều kiện cho các truy vấn ngôn ngữ tự nhiên trên dữ liệu kinh doanh riêng trong cơ sở dữ liệu Oracle, loại bỏ nhu cầu di chuyển hoặc sao chép dữ liệu để xử lý AI.
- Tích hợp AI thời gian thực trong cơ sở dữ liệu nâng cao hiệu quả, bảo mật và hiệu quả hoạt động.
- Oracle Database 23ai có sẵn trong Oracle Cloud Infrastructure (OCI) trên Oracle Exadata Database Service, Oracle Exadata Cloud@Customer và Oracle Base Database Service, cũng như trên Oracle Database@Azure.
- Juan Loaiza, Phó Chủ tịch Điều hành của Oracle về Công nghệ Cơ sở dữ liệu quan trọng, nhấn mạnh tầm quan trọng của Oracle Database 23ai, coi đó là một bước đột phá cho các doanh nghiệp toàn cầu.
- Các cải tiến chính trong Oracle Database 23ai bao gồm AI Vector Search cho tìm kiếm ngữ nghĩa, Oracle Exadata System Software 24ai để tăng tốc xử lý AI và OCI GoldenGate 23ai để sao chép dữ liệu thời gian thực trên các kho dữ liệu không đồng nhất.
- Những đổi mới này trao quyền cho các nhà phát triển xây dựng các ứng dụng thông minh, tận dụng các mô hình dữ liệu JSON và đồ thị, đồng thời đảm bảo tính khả dụng và bảo mật của dữ liệu quan trọng.

📌 Oracle Database 23ai mang đến sức mạnh của AI cho dữ liệu doanh nghiệp, với các tính năng như AI Vector Search giúp tìm kiếm dữ liệu trở nên đơn giản bằng cách cho phép người dùng tìm kiếm tài liệu, hình ảnh và dữ liệu quan hệ dựa trên nội dung khái niệm thay vì các từ khóa hoặc giá trị dữ liệu cụ thể. Oracle Exadata System Software 24ai để tăng tốc xử lý AI và OCI GoldenGate 23ai để sao chép dữ liệu thời gian thực trên các kho dữ liệu không đồng nhất.

Citations:
[1] https://analyticsindiamag.com/oracle-launches-database-23ai-brings-ai-power-to-enterprise-data/

Không có file đính kèm.

Nguồn tham khảo

200

AI data 2024-05-04 04:13:13

Dữ liệu sạch, mô hình đáng tin cậy: đảm bảo vệ sinh dữ liệu tốt cho LLM của bạn

- Các mô hình ngôn ngữ lớn (LLM) đã trở thành công cụ sáng tạo mạnh mẽ, biến các lời nhắc đơn giản thành vô số khả năng.
- Tuy nhiên, dữ liệu đầu vào của LLM liên quan đến nhiều hệ thống doanh nghiệp, gây ra thách thức về bảo mật dữ liệu.
- LLM còn non trẻ và chưa được hiểu hoàn toàn. Tùy thuộc vào mô hình, chúng có thể tiếp xúc với dữ liệu nhạy cảm hoặc độc hại.
- Các tổ chức cần đảm bảo vệ sinh dữ liệu tốt bằng cách sử dụng dữ liệu sạch và mô hình đáng tin cậy.
- Giải pháp bao gồm: kiểm soát quyền truy cập, mã hóa, che giấu dữ liệu, kiểm tra và cân bằng dữ liệu huấn luyện.
- Cần có quy trình rõ ràng để xử lý các vấn đề về dữ liệu, như loại bỏ thông tin nhạy cảm và xác minh tính xác thực của dữ liệu.
- Đào tạo nhân viên về an ninh dữ liệu và thiết lập các biện pháp kiểm soát truy cập mạnh mẽ là rất quan trọng.
- Các tổ chức nên cân nhắc sử dụng các công cụ và dịch vụ chuyên dụng để quản lý và bảo vệ dữ liệu trong môi trường LLM.

📌LLM mang lại tiềm năng to lớn nhưng cũng đặt ra thách thức về bảo mật dữ liệu. Để tận dụng sức mạnh của LLM một cách an toàn, các tổ chức cần áp dụng các biện pháp như kiểm soát truy cập, mã hóa, che giấu dữ liệu, kiểm tra dữ liệu huấn luyện và đào tạo nhân viên. Sử dụng dữ liệu sạch và mô hình đáng tin cậy là chìa khóa để đảm bảo vệ sinh dữ liệu tốt trong môi trường LLM.

Citations:
[1] https://thenewstack.io/clean-data-trusted-model-ensure-good-data-hygiene-for-your-llms/

Không có file đính kèm.

Nguồn tham khảo

135

AI data 2024-05-03 15:16:46

Các công ty AI hàng đầu như Microsoft, Google và Meta đang đặt cược vào dữ liệu "giả" để xây dựng mô hình AI

- Các công ty AI hàng đầu như Microsoft, Google, Meta đang thử nghiệm sử dụng dữ liệu tổng hợp (synthetic data) để đáp ứng nhu cầu khổng lồ về dữ liệu chất lượng cao.
- Dữ liệu tổng hợp được tạo ra bởi chính các hệ thống AI, sau đó dùng để huấn luyện các phiên bản tương lai của hệ thống đó, tạo thành một "động cơ sinh dữ liệu vô hạn".
- Anthropic, Meta, Google đã sử dụng dữ liệu tổng hợp để phát triển các mô hình mới. Microsoft cũng dùng phương pháp này để xây dựng mô hình ngôn ngữ Phi-3.
- Một số chuyên gia lo ngại rủi ro của kỹ thuật này như làm trầm trọng thêm độc hại và sai lệch trong dữ liệu. Nghiên cứu cho thấy mô hình AI được huấn luyện bằng dữ liệu tổng hợp có thể mất trí nhớ và sinh ra ngôn ngữ vô nghĩa.
- Tuy nhiên, những người ủng hộ cho rằng với biện pháp thích hợp, mô hình được phát triển theo cách này có thể chính xác hơn mô hình dựa trên dữ liệu thực.
- Tranh luận triết học nảy sinh: Liệu AI sẽ trở thành bắt chước ngôn ngữ của máy móc khác thay vì trí tuệ con người? Các chuyên gia đồng ý rằng con người vẫn cần thiết để tạo ra và tinh chỉnh dữ liệu nhân tạo hữu ích.

📌 Các công ty AI đang chuyển sang sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện các mô hình mới, giúp giảm bớt các vấn đề pháp lý và đạo đức liên quan đến việc thu thập dữ liệu thực. Tuy nhiên, phương pháp này tiềm ẩn rủi ro làm gia tăng sai lệch và mất trí nhớ của AI. Các chuyên gia nhấn mạnh vai trò không thể thiếu của con người trong việc tạo ra dữ liệu tổng hợp hữu ích.

Citations:
[1] https://www.bloomberg.com/news/newsletters/2024-05-02/microsoft-google-and-meta-bet-on-fake-data-to-train-ai-models

Không có file đính kèm.

Nguồn tham khảo

198

AI data 2024-05-03 00:40:08

Cuộc đua vũ trang AI có thể sớm tập trung vào cuộc cạnh tranh cho dữ liệu chuyên gia

- Cuộc đua vũ trang AI đang chuyển hướng sang cuộc cạnh tranh thu thập dữ liệu chuyên gia chất lượng cao.
- Các công ty như Anthropic, OpenAI và DeepMind đang tìm cách thu thập dữ liệu từ các chuyên gia trong nhiều lĩnh vực để đào tạo mô hình AI của họ.
- Dữ liệu chuyên gia được coi là "vàng" trong cuộc đua phát triển AI, vì nó giúp tạo ra các hệ thống AI mạnh mẽ, chính xác và đáng tin cậy hơn.
- Anthropic đã huy động được 300 triệu USD để mở rộng quy mô thu thập dữ liệu chuyên gia.
- Dữ liệu chuyên gia có thể giúp các mô hình AI vượt trội hơn so với các mô hình được đào tạo bằng dữ liệu chung.
- Tuy nhiên, việc thu thập dữ liệu chuyên gia gặp nhiều thách thức, như chi phí cao, khó tiếp cận và lo ngại về quyền riêng tư.
- Một số chuyên gia lo ngại rằng việc các công ty tích lũy dữ liệu chuyên gia có thể dẫn đến sự tập trung quyền lực và ảnh hưởng quá mức.

📌 Cuộc đua vũ trang AI đang chuyển hướng sang cuộc cạnh tranh giành dữ liệu chuyên gia chất lượng cao. Các công ty như Anthropic, OpenAI và DeepMind đang đầu tư mạnh để thu thập dữ liệu từ các chuyên gia, với mục tiêu tạo ra các hệ thống AI vượt trội. Tuy nhiên, quá trình này đối mặt với nhiều thách thức như chi phí cao, khó tiếp cận và lo ngại về quyền riêng tư cũng như sự tập trung quyền lực.

Không có file đính kèm.

Nguồn tham khảo

129

AI data 2024-05-01 07:53:17

Salesforce ra mắt làn sóng tiếp theo của tính năng phân tích dữ liệu được hỗ trợ bởi AI cho Tableau

- Salesforce đã công bố một loạt các tính năng mới được hỗ trợ bởi AI cho nền tảng phân tích dữ liệu Tableau.
- Các tính năng mới bao gồm trợ lý ảo tích hợp AI có thể trả lời các câu hỏi bằng ngôn ngữ tự nhiên, tự động tạo biểu đồ và tóm tắt thông tin.
- Tính năng "Data Stories" sử dụng xử lý ngôn ngữ tự nhiên để tạo ra các bản tóm tắt bằng văn bản về thông tin quan trọng trong dữ liệu.
- Công cụ "Tableau Autopilot" có thể tự động tạo ra các bảng điều khiển và trực quan hóa dữ liệu dựa trên dữ liệu đầu vào.
- Trợ lý ảo "Tableau Sidekick" cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận câu trả lời trực quan.
- Các tính năng mới sẽ giúp người dùng Tableau, từ người mới đến chuyên gia, có thể phân tích dữ liệu dễ dàng hơn.
- Salesforce cũng đang phát triển một mô hình ngôn ngữ lớn được gọi là "Salesforce AI" để cung cấp năng lực AI trên toàn bộ nền tảng của mình.
- Tableau hiện đang được sử dụng bởi hơn 100,000 khách hàng trên toàn cầu.
- Các tính năng mới sẽ được cung cấp cho người dùng Tableau vào cuối năm nay.
- Đây là một phần trong nỗ lực liên tục của Salesforce nhằm tích hợp AI vào các sản phẩm của mình để giúp doanh nghiệp ra quyết định dựa trên dữ liệu tốt hơn.

📌 Salesforce đã giới thiệu các tính năng mới được hỗ trợ bởi AI cho Tableau, bao gồm trợ lý ảo, tạo biểu đồ tự động và tóm tắt bằng ngôn ngữ tự nhiên. Các công cụ này sẽ giúp hơn 100.000 khách hàng của Tableau trên toàn cầu phân tích dữ liệu dễ dàng hơn, từ người mới đến chuyên gia, như một phần trong nỗ lực tích hợp AI liên tục của Salesforce.

Citations:
[1] https://venturebeat.com/data-infrastructure/salesforce-details-the-next-wave-of-ai-powered-analytics-for-tableau/

Không có file đính kèm.

Nguồn tham khảo

160

AI bản quyền AI data 2024-04-29 19:11:16

OpenAI "bắt tay" Financial Times trong thỏa thuận hợp tác chiến lược và sử dụng nội dung

- OpenAI, nhà phát triển chatbot viral ChatGPT, đã ký kết thỏa thuận cấp phép tin tức với Financial Times (FT) của Anh.
- Thỏa thuận cho phép OpenAI sử dụng nội dung của FT để đào tạo các mô hình AI và cung cấp cho người dùng ChatGPT các tóm tắt, trích dẫn và liên kết phong phú đến các bài báo của FT khi truy vấn liên quan.
- Đây là một phần trong chuỗi thỏa thuận cấp phép nội dung gần đây của OpenAI với các nhà xuất bản lớn như Axel Springer (Đức), AP, Le Monde và Prisa Media (Pháp và Tây Ban Nha).
- Các điều khoản tài chính của thỏa thuận không được tiết lộ. Đây là thỏa thuận không độc quyền và OpenAI không nắm giữ cổ phần nào trong FT Group.
- FT đã trở thành khách hàng của sản phẩm ChatGPT Enterprise của OpenAI từ đầu năm nay.
- FT muốn khám phá cách thức sử dụng AI sâu hơn, đồng thời thận trọng với độ tin cậy của kết quả tự động và rủi ro đối với niềm tin của độc giả.
- OpenAI hy vọng việc cấp phép nội dung báo chí sẽ giúp khắc phục vấn đề "ảo giác" (hallucination) trong các mô hình ngôn ngữ lớn.
- Trách nhiệm pháp lý liên quan đến bản quyền cũng là một động lực chính thúc đẩy OpenAI hướng tới việc cấp phép nội dung.
- Các nhà xuất bản có thể thu được lợi nhuận từ việc cấp phép nội dung cho OpenAI.

📌 Thỏa thuận hợp tác chiến lược giữa OpenAI và Financial Times cho thấy xu hướng các công ty AI hàng đầu như OpenAI tìm cách hợp tác chặt chẽ hơn với các tổ chức truyền thông uy tín để cải thiện chất lượng và độ tin cậy của các mô hình ngôn ngữ, đồng thời giảm thiểu rủi ro pháp lý liên quan đến bản quyền nội dung.

Citations:
[1] https://techcrunch.com/2024/04/29/openai-inks-strategic-tie-up-with-uks-financial-times-including-content-use/

Không có file đính kèm.

Nguồn tham khảo

222

AI data 2024-04-26 06:48:53

RAG: chìa khóa để AI tạo sinh bùng nổ trong doanh nghiệp

- RAG (Retrieval-Augmented Generation) đang mở khóa các trường hợp sử dụng AI tạo sinh trong doanh nghiệp trước đây không khả thi.

- Các công ty như OpenAI, Microsoft, Meta, Google và Amazon cùng với nhiều công ty khởi nghiệp AI đang tích cực triển khai các giải pháp RAG tập trung vào doanh nghiệp.
- RAG tích hợp các mô hình truy xuất với các mô hình tạo sinh, cho phép các hệ thống dựa trên RAG giải quyết các quy trình làm việc thâm dụng kiến thức, trích xuất tóm tắt và thông tin chính xác từ khối lượng lớn dữ liệu không hoàn hảo, không có cấu trúc.
- Các công cụ AI tạo sinh dựa trên RAG có thể tạo ra kết quả chính xác, toàn diện và phù hợp hơn nhiều so với chỉ dựa vào LLM, miễn là dữ liệu cơ bản được thu thập và kiểm tra đúng cách.
- Người dùng doanh nghiệp có thể tin tưởng vào kết quả và sử dụng nó cho các quy trình làm việc quan trọng.

📌 RAG đang thay đổi cuộc chơi trong việc ứng dụng AI tạo sinh vào doanh nghiệp bằng cách tích hợp mô hình truy xuất và tạo sinh, cho phép xử lý hiệu quả các quy trình thâm dụng kiến thức với kết quả chính xác, toàn diện, đáng tin cậy và đặc thù lĩnh vực, mở ra tiềm năng to lớn cho các doanh nghiệp.

Citations:
[1] https://www.infoworld.com/article/3715324/how-rag-completes-the-generative-ai-puzzle.html

Không có file đính kèm.

Nguồn tham khảo

145

AI pháp lý-quản trị-chủ quyền AI data 2024-04-24 16:50:39

Chúng ta cần phải "phi thực dân hóa" AI để vượt qua định kiến về văn hóa trong giáo dục

- AI đang dần trở thành công cụ giảng dạy nhưng một số ứng dụng vẫn mang tính chất lấy châu Âu làm trung tâm (Eurocentrism), đẩy lịch sử thế giới không phương Tây ra rìa.
- Các nhà công nghệ và học giả nhân văn cần hợp tác để đảm bảo không có lịch sử nào bị xóa bỏ.
- Tại Đại học Harvard, khóa học nhập môn khoa học máy tính đã tích hợp nền tảng AI để hướng dẫn sinh viên học lập trình.
- Dự án giáo dục đại học hướng dẫn giáo viên sử dụng AI một cách phê phán trong giảng dạy, trong khi các hội thảo về khai thác sức mạnh của AI được cung cấp cho giảng viên và trợ giảng.
- ChatGPT đã cung cấp một bản phác thảo chia theo các kỳ lịch sử, bắt đầu từ tiền sử và thế giới cổ đại đến trung cổ, thời kỳ hiện đại sớm, hiện đại và đương đại.
- ChatGPT liệt kê các nền văn minh cổ đại lớn bao gồm Mesopotamia, Trung Quốc cổ và Thung lũng Indus trong mô-đun thời kỳ cổ đại.
- Tuy nhiên, khi ChatGPT chuyển sang thời kỳ cổ điển và sau đó, nó theo một hệ thống giá trị đơn lẻ Anglo-Mỹ mặc định, phổ biến kiến thức phương Tây mà thực tế là địa phương.
- Nếu công nghệ này trở thành chế độ giáo dục mặc định cho lịch sử, chúng ta có nguy cơ nuôi dưỡng các thế hệ thờ ơ với lịch sử châu Á và không phương Tây.
- Những nỗ lực nhằm thúc đẩy đa dạng, bình đẳng và lịch sử toàn cầu sẽ trở nên vô ích, dẫn đến sự thờ ơ đạo đức đối với bất bình đẳng toàn cầu và biện minh cho bạo lực và áp bức đối với những người được cho là “không có lịch sử”.
- Tình huống này phản ánh chế độ tư duy thống trị trong thời kỳ thực dân.
- AI có tiềm năng lớn trong việc giảm bất bình đẳng giáo dục và cung cấp quyền truy cập tốt hơn vào kiến thức, nhưng những khuyết điểm và hạn chế đáng kể trong các mô hình AI hiện tại có thể dẫn đến hậu quả tiêu cực nghiêm trọng.
- Một nỗ lực tập thể giữa các nhà công nghệ và nhân văn là cần thiết.

📌 Bài viết phân tích sâu sắc về việc cần thiết phải giải phóng AI khỏi định kiến văn hóa để nâng cao chất lượng giáo dục lịch sử. Đặc biệt, nó chỉ ra những hạn chế của ChatGPT trong việc trình bày lịch sử toàn cầu lấy châu Âu làm trung tâm (Eurocentrism), đẩy lịch sử thế giới không phương Tây ra rìa và kêu gọi sự hợp tác giữa các nhà công nghệ và học giả nhân văn để đảm bảo không có lịch sử nào bị lãng quên hoặc bị xóa bỏ.

Citations:
[1] https://www.scmp.com/opinion/world-opinion/article/3259465/we-must-decolonise-ai-overcome-cultural-bias-classroom

Không có file đính kèm.

Nguồn tham khảo

136

AI data 2024-04-22 23:52:51

Bí mật thành công của AI tạo sinh: Chất lượng dữ liệu là chìa khóa!

- Chất lượng dữ liệu đáng tin cậy và nhất quán là nền tảng cho chiến lược AI thành công, đặc biệt là với công nghệ AI tạo sinh (GenAI).
- Dữ liệu không đầy đủ hoặc không nhất quán có thể dẫn đến các đầu ra không đáng tin cậy từ mô hình GenAI, làm giảm giá trị sử dụng của công nghệ này.
- Các nhà lãnh đạo công nghệ cần giải quyết vấn đề dữ liệu trong tổ chức trước khi áp dụng AI, không phải sau khi đã triển khai.
- GenAI yêu cầu dữ liệu dễ truy cập và đáng tin cậy để hoạt động hiệu quả, với việc đào tạo mô hình dựa trên lượng lớn thông tin chính xác.
- Dữ liệu chính xác, hợp lệ, nhất quán và kịp thời giúp cải thiện các thực tiễn kinh doanh và tích hợp GenAI có lợi hơn.
- Các triển khai GenAI thành công mang lại lợi thế cạnh tranh trong nhiều chức năng cốt lõi, theo McKinsey, các mục tiêu hàng đầu cho GenAI bao gồm tăng giá trị của các sản phẩm hiện tại (30%) và tăng doanh thu (27%).
- Dữ liệu nhà cung cấp chất lượng cao giúp các nhà lãnh đạo xác định nhà cung cấp nhanh chóng hơn, mở khóa các hiểu biết về phân tích chi tiêu và loại bỏ nhu cầu can thiệp thủ công, cuối cùng cải thiện hiệu quả của GenAI.
- Các tổ chức mua sắm cần áp dụng công nghệ làm giàu và xác thực dữ liệu tổ chức một cách nhất quán để mở khóa dữ liệu và hiểu biết về nhà cung cấp tốt hơn.

📌 Chất lượng dữ liệu là yếu tố quan trọng để triển khai thành công công nghệ AI tạo sinh (GenAI), với 30% các tổ chức hàng đầu coi trọng việc tăng giá trị sản phẩm hiện tại và 27% nhấn mạnh vào việc tăng doanh thu thông qua việc áp dụng GenAI. Các tổ chức cần tập trung vào việc cải thiện và duy trì dữ liệu chính xác và nhất quán để tận dụng tối đa lợi ích của công nghệ này.

Citations:
[1] https://www.dataversity.net/good-data-quality-is-the-secret-to-successful-genai-implementation/

Không có file đính kèm.

Nguồn tham khảo

155

AI data AI kiến thức-khóa học 2024-04-22 10:53:22

Retrieval Augmented Generation (RAG): Cách hoạt động và ứng dụng của công nghệ AI tiên tiến

1. Meta description (160 ký tự): Retrieval-augmented generation (RAG) là một kiến trúc mô hình AI kết hợp sức mạnh của các mô hình tham số được đào tạo trước với truy xuất bộ nhớ phi tham số, cho phép tạo văn bản dựa trên cả lời nhắc đầu vào và các nguồn kiến thức bên ngoài.

2. Meta keywords: retrieval augmented generation, RAG, AI, mô hình ngôn ngữ, truy xuất thông tin, tạo văn bản, nguồn kiến thức bên ngoài, câu trả lời câu hỏi, tìm kiếm

3. SEO title: retrieval augmented generation (rag): cách hoạt động và ứng dụng của công nghệ ai tiên tiến

- Retrieval-augmented generation (RAG) là một kiến trúc mô hình AI kết hợp sức mạnh của các mô hình tham số được đào tạo trước (như các mô hình dựa trên transformer) với truy xuất bộ nhớ phi tham số.
- RAG cho phép tạo văn bản dựa trên cả lời nhắc đầu vào và các nguồn kiến thức bên ngoài.
- Quá trình hoạt động của mô hình RAG bắt đầu từ truy vấn hoặc lời nhắc của người dùng. Mô hình truy xuất được kích hoạt khi bạn nhập câu hỏi vào trường văn bản GenAI.
- RAG cải thiện độ chính xác, độ tin cậy và tính thông tin của văn bản được tạo ra bằng cách truy xuất dữ liệu hoặc tài liệu liên quan trước khi tạo phản hồi.
- Phương pháp này giúp đảm bảo nội dung được tạo ra phù hợp hơn với ngữ cảnh và chính xác hơn về mặt thông tin.
- Trong các tác vụ xử lý ngôn ngữ tự nhiên truyền thống, các mô hình ngôn ngữ chỉ tạo ra phản hồi dựa trên các mẫu và thông tin trong dữ liệu đào tạo của chúng.
- Các mô hình RAG được sử dụng trong các hệ thống trả lời câu hỏi để cung cấp phản hồi chính xác hơn và nhận thức được ngữ cảnh cho các truy vấn của người dùng.
- Các hệ thống này có thể được triển khai trong chatbot hỗ trợ khách hàng, trợ lý AI ảo và công cụ tìm kiếm để cung cấp thông tin liên quan cho người dùng bằng ngôn ngữ tự nhiên.

📌 Retrieval-augmented generation (RAG) là một bước tiến quan trọng trong AI, kết hợp sức mạnh của các mô hình ngôn ngữ với khả năng truy xuất thông tin từ các nguồn bên ngoài. RAG cải thiện đáng kể độ chính xác, tính phù hợp và khả năng trả lời câu hỏi của các hệ thống AI, mở ra tiềm năng ứng dụng rộng rãi trong chatbot, trợ lý ảo và tìm kiếm.

Citations:
[1] https://www.eweek.com/artificial-intelligence/what-is-retrieval-augmented-generation-rag/

Không có file đính kèm.

Nguồn tham khảo

189

AI models AI data 2024-04-22 06:20:26

Mark Zuckerberg: Vòng lặp phản hồi và dữ liệu tổng hợp mới là chìa khóa cho sự phát triển của AI, không phải bộ dữ liệu khổng lồ

- Mark Zuckerberg, CEO của Meta, cho rằng vòng lặp phản hồi và dữ liệu tổng hợp sẽ là yếu tố quyết định trong việc phát triển AI, thay vì chỉ dựa vào một bộ dữ liệu ban đầu lớn.
- Vòng lặp phản hồi giúp cải thiện và nâng cao mô hình AI bằng cách cung cấp thông tin hiệu chỉnh dựa trên kết quả đầu ra trước đó, giúp AI học hỏi từ sai lầm và thích nghi để cải thiện hiệu suất trong tương lai.
- Các công ty hàng đầu trong lĩnh vực AI như OpenAI, Google, Amazon, Meta đang tìm kiếm các phương pháp phi truyền thống để có được dữ liệu, như Meta từng cân nhắc mua lại nhà xuất bản Simon & Schuster và thậm chí chấp nhận rủi ro bị kiện vi phạm bản quyền.
- Dữ liệu tổng hợp, được tạo ra nhân tạo và mô phỏng dữ liệu thế giới thực, là một giải pháp thay thế cho sự thiếu hụt dữ liệu. Zuckerberg ủng hộ cách tiếp cận này.
- Anthropic, nhà phát triển chatbot Claude, đã thử nghiệm sử dụng dữ liệu nội bộ tự tạo cho các mô hình của mình. OpenAI, nhà phát triển ChatGPT, cũng đang cân nhắc phương pháp này, nhưng CEO Sam Altman nhấn mạnh tầm quan trọng của việc có một mô hình đủ thông minh để tạo ra dữ liệu tổng hợp chất lượng cao.
- Mặc dù Zuckerberg coi vòng lặp phản hồi là nền tảng để xây dựng các mô hình AI mạnh mẽ, nhưng việc phụ thuộc vào chúng có thể gây ra những rủi ro tiềm ẩn như duy trì lỗi hoặc tạo ra nội dung sai lệch.

📌 Mark Zuckerberg tin rằng vòng lặp phản hồi và dữ liệu tổng hợp sẽ là yếu tố then chốt trong phát triển AI, thay vì chỉ dựa vào bộ dữ liệu ban đầu khổng lồ. Các công ty hàng đầu đang tìm cách bổ sung dữ liệu bằng nhiều phương pháp, trong đó dữ liệu tổng hợp được coi là giải pháp tiềm năng. Tuy nhiên, việc phụ thuộc vào vòng lặp phản hồi cũng tiềm ẩn rủi ro.

Citations:
[1] https://www.businessinsider.com/mark-zuckerberg-meta-ai-model-training-synthetic-data-feedback-loops-2024-4

Không có file đính kèm.

Nguồn tham khảo

222

AI data 2024-04-22 05:35:04

Giá trị của dữ liệu trong trí AI thể hiện (embodied AI) và cách vượt qua rào cản

- Trí tuệ nhân tạo thể hiện (EAI) là tích hợp AI vào các thực thể vật lý như robot, cho phép chúng nhận thức, học hỏi và tương tác động với môi trường, cung cấp hàng hóa dịch vụ hiệu quả trong xã hội.

- Bài viết so sánh giá trị dữ liệu từ lĩnh vực Internet để ước tính giá trị tiềm năng của dữ liệu trong EAI. Dữ liệu là công cụ tạo doanh thu quan trọng trong cả Internet và robot.

- Các công ty Internet đầu tư hàng tỷ USD để thu thập dữ liệu người dùng, tạo ra giá trị thị trường 3,5 nghìn tỷ USD. Tương tự, các công ty robot đầu tư phát triển khả năng EAI tiên tiến, ước tính giá trị thị trường dữ liệu EAI vượt 10 nghìn tỷ USD, gấp 3 lần lĩnh vực Internet.

- Ngành thu thập và tạo dữ liệu cho EAI hiện còn ở giai đoạn sơ khai. Có nhiều rào cản dữ liệu đáng kể trong phát triển EAI như: thu thập dữ liệu thế giới thực tốn kém, nguy hiểm; dữ liệu mô phỏng thiếu chân thực; thiếu chuẩn hóa và chia sẻ dữ liệu.

- Bài viết xem xét các công nghệ thu thập và tạo dữ liệu sáng tạo được thiết kế để vượt qua những rào cản trên, mở ra tiềm năng to lớn cho dữ liệu EAI.

📌Trí tuệ nhân tạo thể hiện (EAI) là tích hợp AI vào các thực thể vật lý như robot, cho phép chúng nhận thức, học hỏi và tương tác động với môi trường, cung cấp hàng hóa dịch vụ hiệu quả trong xã hội. Dữ liệu đóng vai trò then chốt trong trí tuệ nhân tạo thể hiện với giá trị thị trường ước tính vượt 10 nghìn tỷ USD. Tuy nhiên, ngành này còn nhiều rào cản trong thu thập và tạo dữ liệu thế giới thực. Các công nghệ mới đang được phát triển để vượt qua thách thức, mở ra tiềm năng to lớn cho tương lai.

Citations:
[1] https://cacm.acm.org/blogcacm/the-value-of-data-in-embodied-artificial-intelligence/

Không có file đính kèm.

Nguồn tham khảo

153

AI data 2024-04-20 02:45:53

Huấn luyện AI bằng dữ liệu từ mạng xã hội: những thách thức và cơ hội.

- Đào tạo AI bằng dữ liệu từ mạng xã hội có thể dẫn đến việc AI học được những hành vi và ngôn ngữ không mong muốn do tính chất không kiểm soát được của nội dung trên các nền tảng này.
- Các nghiên cứu chỉ ra rằng AI có thể phát triển các định kiến và thiên vị dựa trên các mẫu dữ liệu thiên lệch mà nó được huấn luyện, điều này đặc biệt nguy hiểm khi AI được sử dụng trong các quyết định quan trọng như tuyển dụng hoặc tín dụng.
- Một số giải pháp được đề xuất để giảm thiểu rủi ro này bao gồm việc sử dụng các bộ lọc nội dung để loại bỏ thông tin không phù hợp và tăng cường giám sát quá trình học của AI.
- Các chuyên gia cũng khuyến nghị phát triển các hệ thống đánh giá và kiểm soát chất lượng dữ liệu một cách nghiêm ngặt hơn để đảm bảo AI không phát triển những hành vi không mong muốn.
- Một số tổ chức đã bắt đầu triển khai các chương trình đào tạo đặc biệt cho AI, nhằm mục đích "dạy" cho AI cách nhận diện và loại bỏ các định kiến từ dữ liệu đầu vào của nó.
- Tuy nhiên, vẫn còn nhiều thách thức pháp lý và đạo đức cần được giải quyết khi áp dụng các công nghệ này, đặc biệt là liên quan đến quyền riêng tư và an toàn dữ liệu cá nhân.

📌 Huấn luyện AI từ dữ liệu mạng xã hội có thể dẫn đến việc học hành vi không mong muốn và thiên vị. Các giải pháp bao gồm sử dụng bộ lọc nội dung và tăng cường giám sát, nhưng vẫn còn nhiều thách thức pháp lý và đạo đức cần giải quyết.

Citations:
[1] https://www.fastcompany.com/91109348/hed-what-happens-when-we-train-our-ai-on-social-media

Không có file đính kèm.

Nguồn tham khảo

140

AI data 2024-04-19 03:48:49

Google DeepMind về dữ liệu tổng hợp: ứng dụng, thách thức và tương lai

- Trong lĩnh vực trí tuệ nhân tạo (AI) đang phát triển nhanh chóng, việc tìm kiếm các bộ dữ liệu lớn, đa dạng và chất lượng cao là một thách thức đáng kể. Dữ liệu tổng hợp được xem là giải pháp quan trọng để giải quyết vấn đề này.

- Dữ liệu tổng hợp được tạo ra thông qua các thuật toán và mô hình sinh, phản ánh các mẫu phức tạp của thông tin trong thế giới thực. Nó có thể được sản xuất theo yêu cầu, điều chỉnh theo nhu cầu cụ thể và không bị ràng buộc bởi quyền riêng tư.

- Dữ liệu tổng hợp có thể được áp dụng trong nhiều lĩnh vực, từ y tế đến công nghệ tài chính. Nó đặc biệt hữu ích trong các lĩnh vực mà dữ liệu thực tế hiếm hoặc nhạy cảm.

- Tuy nhiên, dữ liệu tổng hợp cũng đặt ra nhiều thách thức như độ tin cậy, tính đại diện và các vấn đề đạo đức. Bài báo đề xuất các mô hình sinh tiên tiến và các chỉ số đánh giá như là các giải pháp tiềm năng.

- Bài báo cung cấp bằng chứng về tính linh hoạt của dữ liệu tổng hợp trong nhiều lĩnh vực, từ cải thiện khả năng lập luận toán học của mô hình AI đến thúc đẩy khả năng lập luận mã thông qua các mẫu tổng hợp có thể thực thi.

- Trong việc sử dụng công cụ và lập kế hoạch, các quỹ đạo tổng hợp và môi trường mô phỏng cho thấy cách AI có thể được dạy các tương tác công cụ phức tạp và chiến lược lập kế hoạch.

📌 Dữ liệu tổng hợp đã mở đường cho bước tiến mới của AI, cho phép phát triển các hệ thống AI mạnh mẽ, bao quát và đáng tin cậy hơn. Bằng cách giải quyết các thách thức và tận dụng tiềm năng của nó trong nhiều lĩnh vực như y tế, tài chính, lập luận toán học và lập trình, dữ liệu tổng hợp hứa hẹn sẽ là chìa khóa để đưa AI lên một tầm cao mới.

Citations:
[1] https://www.marktechpost.com/2024/04/17/this-paper-from-google-deepmind-provides-an-overview-of-synthetic-data-research-discussing-its-applications-challenges-and-future-directions/

#hay

Không có file đính kèm.

Nguồn tham khảo

130

AI data 2024-04-12 23:16:46

Các công ty AI thuê nhà văn có trình độ cao để đào tạo bot AI viết lách

- Các công ty công nghệ đang tuyển dụng chuyên gia để tạo nội dung đào tạo nhằm liên tục phát triển trí tuệ nhân tạo (AI).

- Trước đây, các công ty dựa vào lao động bán thời gian để dạy các mô hình AI thực hiện các tác vụ cơ bản như nhận dạng ảnh, chú thích dữ liệu và gắn nhãn.

- Khi công nghệ tiến bộ, nhu cầu về những người đào tạo tinh vi hơn xuất hiện. Các công ty như Scale AI và Surge AI đang tuyển dụng nhân viên bán thời gian có trình độ cao để viết bài luận và gợi ý sáng tạo cho các bot AI.

- Scale AI đã đăng tuyển ứng viên có bằng Thạc sĩ hoặc Tiến sĩ, thông thạo tiếng Anh, tiếng Hindi hoặc tiếng Nhật, và có kinh nghiệm viết chuyên nghiệp trong các lĩnh vực như thơ ca, báo chí và xuất bản.

- Mục tiêu là giúp các bot AI "trau dồi kỹ năng viết lách". Scale AI quản lý tới hàng chục nghìn nhà thầu tại bất kỳ thời điểm nào.

- Sự phụ thuộc ngày càng tăng vào đội ngũ đào tạo tinh vi xuất phát từ việc các gã khổng lồ công nghệ tìm kiếm nguồn dữ liệu mới để cung cấp cho công nghệ của họ.

- Các chương trình AI đang hấp thụ thông tin với tốc độ đáng kinh ngạc, nhanh chóng cạn kiệt các nguồn tài nguyên hiện có như dữ liệu trực tuyến, bài báo khoa học, bài báo tin tức và các trang Wikipedia.

- Viện nghiên cứu AI Epoch cảnh báo rằng AI có thể cạn kiệt nguồn cung dữ liệu vào năm 2026.

- Các công ty đang tìm kiếm các phương pháp sáng tạo để đảm bảo hệ thống của họ không ngừng học hỏi, bao gồm cả việc Google cân nhắc truy cập dữ liệu của khách hàng.

📌 Các công ty AI đang tích cực tuyển dụng nhà văn có trình độ cao để tạo nội dung đào tạo cho các mô hình AI, nhằm giúp chúng cải thiện kỹ năng viết lách và không ngừng học hỏi. Tuy nhiên, nguồn dữ liệu hiện có đang cạn dần, buộc các công ty phải tìm kiếm các phương pháp sáng tạo mới để duy trì sự phát triển của AI, bao gồm cả việc tiếp cận dữ liệu người dùng.

Citations:

[1] AI companies are hiring gig workers to write essays that can train AI https://www.businessinsider.com/ai-companies-hiring-highly-educated-writers-train-ai-models-2024-4

Không có file đính kèm.

Nguồn tham khảo

141

AI data 2024-04-07 08:01:29

Các công ty công nghệ dùng AI để dạy AI của chính mình

- Các công ty công nghệ như OpenAI, Google đang tìm cách sử dụng dữ liệu tổng hợp (synthetic data) do chính AI tạo ra để huấn luyện các mô hình AI.
- Lý do là họ có thể sẽ cạn kiệt nguồn dữ liệu chất lượng cao trên internet và đang đối mặt với các vụ kiện về bản quyền.
- Tuy nhiên, dữ liệu tổng hợp hiện chưa hoàn hảo vì AI có thể mắc lỗi, bịa đặt thông tin và khuếch đại các thiên kiến.
- Các công ty hy vọng cải thiện chất lượng dữ liệu tổng hợp bằng cách sử dụng 2 mô hình AI: một mô hình tạo ra dữ liệu, mô hình thứ hai đánh giá chất lượng dữ liệu.
- Anthropic sử dụng phương pháp "Constitutional AI", huấn luyện mô hình thứ hai dựa trên một "hiến pháp" do các nhà nghiên cứu xây dựng.
- Tuy nhiên, con người vẫn cần giám sát để đảm bảo mô hình thứ hai hoạt động đúng hướng, hạn chế lượng dữ liệu tổng hợp có thể tạo ra.
- Các công ty công nghệ vẫn có thể gặp vấn đề về bản quyền vì các mô hình tạo dữ liệu tổng hợp ban đầu cũng được huấn luyện từ dữ liệu có bản quyền.

📌 Dữ liệu tổng hợp do AI tạo ra được kỳ vọng sẽ giúp các công ty công nghệ vượt qua các rào cản về bản quyền và nguồn dữ liệu huấn luyện. Các công ty hy vọng cải thiện chất lượng dữ liệu tổng hợp bằng cách sử dụng 2 mô hình AI: một mô hình tạo ra dữ liệu, mô hình thứ hai đánh giá chất lượng dữ liệu. Con người vẫn cần giám sát để đảm bảo mô hình thứ hai hoạt động đúng hướng, hạn chế lượng dữ liệu tổng hợp có thể tạo ra.

https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html

Không có file đính kèm.

Nguồn tham khảo

176

AI data 2024-04-07 05:36:53

4 điều rút ra về cuộc đua thu thập dữ liệu cho AI

- Dữ liệu trực tuyến đóng vai trò quan trọng trong việc phát triển trí tuệ nhân tạo (AI). Các mô hình AI trở nên chính xác và giống con người hơn khi được cung cấp nhiều dữ liệu hơn.
- Một số mô hình ngôn ngữ lớn như GPT-3 của OpenAI được huấn luyện trên hàng trăm tỷ "token" (từ hoặc mảnh từ). Các mô hình gần đây được huấn luyện trên hơn 3 nghìn tỷ token.
- Các công ty công nghệ đang sử dụng hết dữ liệu trực tuyến công khai để phát triển mô hình AI nhanh hơn tốc độ sản xuất dữ liệu mới. Dự đoán dữ liệu kỹ thuật số chất lượng cao sẽ cạn kiệt vào năm 2026.
- OpenAI, Google và Meta đang tìm cách thu thập thêm dữ liệu bằng các công cụ mới, thay đổi điều khoản dịch vụ và tranh luận nội bộ.
- OpenAI tạo chương trình chuyển âm thanh video YouTube thành văn bản để cung cấp cho mô hình AI. Google sử dụng dữ liệu YouTube trong vùng xám về bản quyền. Meta cân nhắc mua nhà xuất bản lớn và sử dụng tác phẩm có bản quyền cho AI.
- Các công ty đang khám phá sử dụng AI để tạo ra "dữ liệu tổng hợp" làm dữ liệu huấn luyện. Tuy nhiên, điều này có rủi ro vì mô hình AI có thể mắc lỗi.

📌 Cuộc đua thu thập dữ liệu trực tuyến cho phát triển AI đang diễn ra gay gắt giữa các công ty công nghệ lớn như OpenAI, Google, Meta. Họ đang tìm mọi cách để có thêm dữ liệu, kể cả đi vào vùng xám về bản quyền và cân nhắc tạo dữ liệu tổng hợp bằng chính AI. Dự báo dữ liệu chất lượng cao sẽ cạn kiệt vào 2026.

https://www.nytimes.com/2024/04/06/technology/ai-data-tech-takeaways.html

Không có file đính kèm.

Nguồn tham khảo

187

AI data 2024-04-02 23:42:36

Dữ liệu chất lượng cao là chìa khóa để khai thác tiềm năng của AI tạo sinh

- Năm 2023 là năm của thử nghiệm với AI tạo sinh, nhưng năm 2024 tập trung vào việc tạo ra giá trị kinh doanh thực sự thông qua tích hợp AI cấp doanh nghiệp.

- Chất lượng thông tin từ AI tạo sinh tỷ lệ thuận với chất lượng dữ liệu nó nhận được. Độ tin cậy, khả năng tiếp cận và độ chính xác của dữ liệu là yếu tố then chốt.

- Để tạo ra giá trị kinh doanh từ AI tạo sinh, cần triển khai chiến lược, đòi hỏi niềm tin tuyệt đối vào dữ liệu của tổ chức.

- Lãnh đạo nên đánh giá kỹ giá trị của bất kỳ sáng kiến AI tạo sinh nào trước khi mở rộng quy mô. Khoảng 75% tổng giá trị từ các trường hợp sử dụng AI tạo sinh sẽ đến từ 4/16 chức năng kinh doanh.

- Hiệu quả của AI tạo sinh phụ thuộc vào chất lượng và bảo mật dữ liệu, đặc biệt là dữ liệu phi cấu trúc, chiếm 90% tổng dữ liệu doanh nghiệp.

- Giải pháp nâng cao chất lượng dữ liệu và khai thác giá trị của dữ liệu phi cấu trúc cho các trường hợp sử dụng AI tạo sinh nằm ở việc làm cho dữ liệu có thể truy cập, phân tích và hành động được.

- Đầu tư vào khám phá, phân loại và quản lý dữ liệu phi cấu trúc có thể mở rộng là nền tảng để làm sạch, lập danh mục và chuẩn bị dữ liệu doanh nghiệp cho AI tạo sinh.

- Trước khi bị cuốn vào cơn sốt AI tạo sinh, hãy ưu tiên tập trung vào các sáng kiến có giá trị cao, xây dựng niềm tin vào dữ liệu và thử nghiệm kỹ lưỡng.

📌 Năm 2023 là năm của thử nghiệm với AI tạo sinh, nhưng năm 2024 tập trung vào việc tạo ra giá trị kinh doanh thực sự thông qua tích hợp AI cấp doanh nghiệp. Chất lượng thông tin từ AI tạo sinh tỷ lệ thuận với chất lượng dữ liệu nó nhận được. Độ tin cậy, khả năng tiếp cận và độ chính xác của dữ liệu là yếu tố then chốt, đặc biệt là dữ liệu phi cấu trúc, chiếm 90% tổng dữ liệu doanh nghiệp.

https://www.forbes.com/sites/forbestechcouncil/2024/04/02/to-unleash-the-potential-of-genai-high-quality-data-is-essential/

Không có file đính kèm.

Nguồn tham khảo

163

AI data AI doanh nghiệp 2024-04-02 23:27:24

AI tạo sinh mở khóa kho báu dữ liệu phi cấu trúc trong doanh nghiệp

- Generative AI đã thúc đẩy các CIO xem xét lại đường ống dữ liệu khi doanh nghiệp chuyển sang áp dụng AI tạo sinh.
- Alon Amit, Phó Chủ tịch sản phẩm, phân tích, AI và dữ liệu tại Intuit cho biết: "Đưa tất cả dữ liệu này đến đúng nơi vào đúng thời điểm không phải là một nhiệm vụ dễ dàng".
- Các CIO đang dựa vào nhiều nguồn dữ liệu khác nhau, nhấn mạnh việc tuyển chọn có chủ đích các bộ dữ liệu huấn luyện.
- Shawna Cartwright, Giám đốc thông tin kinh doanh và SVP công nghệ doanh nghiệp tại Cushman & Wakefield cho biết: "Một trong những điều quan trọng nhất đã thay đổi đối với chúng tôi là biết rằng không sao khi chạy thử nghiệm và nó không hoạt động chính xác như chúng tôi nghĩ".
- Mục tiêu của Cushman & Wakefield là nhúng AI vào toàn bộ vòng đời giao dịch bất động sản thương mại, cải thiện năng suất và hỗ trợ nhân viên trong các công việc hàng ngày.
- Các công ty đang khai thác giá trị từ dữ liệu phi cấu trúc trước đây bị bỏ qua. Intuit sử dụng các bài đăng trên blog của công ty để đào tạo các mô hình nói nhiều hơn về lĩnh vực fintech.
- Cushman & Wakefield đang khám phá việc sử dụng tài liệu viết không chính thức để cung cấp cho các công cụ AI tạo sinh kiến thức tổ chức sâu hơn.
- Trong ngành ngân hàng, các tổ chức đang tìm cách đẩy nhanh hợp đồng và kiểm toán bằng các công cụ AI tạo sinh. Generative AI đã mở ra cánh cửa mới cho các vấn đề dữ liệu phi cấu trúc.

📌 AI tạo sinh đang mở ra tiềm năng to lớn từ dữ liệu phi cấu trúc chưa được khai thác trong doanh nghiệp. Các CIO đang tái định hình đường ống dữ liệu, tận dụng các nguồn dữ liệu mới để đào tạo mô hình AI, với mục tiêu nhúng AI vào quy trình làm việc và cải thiện năng suất đáng kể trong 5-10 năm tới.

https://www.ciodive.com/news/generative-ai-unstructured-data-strategy/711904/

Không có file đính kèm.

Nguồn tham khảo

172

AI doanh nghiệp AI data 2024-04-02 22:53:00

Cách Ai tạo sinh thay đổi phương pháp tiếp cận dữ liệu của doanh nghiệp

- Việc Anthropic phát hành dòng mô hình Claude 3 vào tháng 3/2024 và hoạt động thành công trên nhiều bài kiểm tra benchmark là tin tốt cho doanh nghiệp, cho thấy khách hàng doanh nghiệp sẽ có thể đánh giá và lựa chọn từ nhiều công cụ AI và GenAI chất lượng cao từ nhiều nhà cung cấp.

- Tuy nhiên, điều quan trọng cần nhớ là tất cả đều bắt đầu từ dữ liệu. Bước đầu tiên là chuẩn bị dữ liệu để phù hợp với AI, bao gồm đánh giá, hợp nhất, bảo mật và quản lý dữ liệu phân tán sao cho có thể truy cập được bởi các công cụ và dịch vụ AI.

- Bước tiếp theo là thiết lập pipeline hiệu quả giữa dữ liệu và các dịch vụ AI trên đám mây. Nếu dữ liệu nằm trong bucket Amazon S3, bạn nên tận dụng S3 API để truy cập dữ liệu toàn diện và nhanh chóng.

- Một khi dữ liệu đã phù hợp với AI và pipeline đã được thiết lập, đã đến lúc xem các công cụ này thực sự có thể làm gì cho tổ chức của bạn. Các trường hợp sử dụng thú vị đang được khách hàng áp dụng như:
+ Trong sản xuất: xây dựng mô hình ML để phân tích dữ liệu quét và IoT, tìm cách cải thiện quy trình, phát hiện và sửa lỗi sản phẩm nhanh hơn.
+ Trong tiếp thị: sử dụng AWS Rekognition/Kendra để phân tích và tìm kiếm nội dung video/hình ảnh, giúp đội ngũ sáng tạo dễ dàng tìm cảm hứng từ các dự án trước đây.
+ Giao diện trò chuyện: cho hỗ trợ khách hàng, tiếp thị hoặc nghiên cứu nội bộ để tạo điều kiện cho việc lan truyền kiến thức.

- Các công cụ AI, GenAI và ML cuối cùng có thể cung cấp cho các tổ chức cơ hội biến dữ liệu phân tán thành tài sản giúp thúc đẩy hiệu quả, tăng tốc quy trình kinh doanh và tạo ra lợi thế cạnh tranh lớn.

📌 Việc chuẩn bị dữ liệu phù hợp với AI và xây dựng pipeline kết nối dữ liệu với các công cụ và dịch vụ AI là yếu tố then chốt để doanh nghiệp tận dụng sức mạnh của AI tạo sinh. Các tổ chức hàng đầu trong tương lai sẽ là những tổ chức bắt đầu quá trình này ngay từ hôm nay, áp dụng AI vào các lĩnh vực như sản xuất, tiếp thị và hỗ trợ khách hàng để thúc đẩy hiệu quả và tạo lợi thế cạnh tranh.

https://www.forbes.com/sites/forbestechcouncil/2024/04/02/how-genai-changes-the-enterprise-approach-to-data/

Không có file đính kèm.

Nguồn tham khảo

156

AI data 2024-04-01 23:39:48

Các công ty AI đối mặt với tình trạng thiếu hụt dữ liệu huấn luyện trầm trọng

- Các công ty như OpenAI, Google đang phát triển các hệ thống AI mạnh mẽ hơn, đòi hỏi lượng dữ liệu huấn luyện khổng lồ. Tuy nhiên, nguồn cung cấp dữ liệu chất lượng cao trên Internet đang dần cạn kiệt.

- Một số chuyên gia dự đoán nhu cầu dữ liệu văn bản chất lượng cao có thể vượt quá nguồn cung trong vòng 2 năm tới, làm chậm sự phát triển của AI.

- Các công ty đang tìm kiếm các nguồn dữ liệu chưa được khai thác và thay đổi cách huấn luyện mô hình. OpenAI đang cân nhắc sử dụng bản ghi âm từ video YouTube công khai để huấn luyện GPT-5.

- Các công ty cũng thử nghiệm sử dụng dữ liệu tổng hợp do AI tạo ra làm tài liệu huấn luyện, tuy nhiên nhiều nhà nghiên cứu lo ngại điều này có thể gây ra lỗi nghiêm trọng.

- Dữ liệu chỉ là một trong nhiều nguồn tài nguyên AI khan hiếm, bên cạnh chip xử lý, trung tâm dữ liệu và điện năng.

- Các nền tảng mạng xã hội và nhà xuất bản tin tức đang hạn chế quyền truy cập vào dữ liệu của họ để huấn luyện AI.

- Một số công ty như DatologyAI đang phát triển công cụ lựa chọn dữ liệu thông minh hơn để tối ưu hóa quá trình huấn luyện mô hình.

- OpenAI và Google đang thảo luận về việc xây dựng thị trường dữ liệu, nơi họ có thể trả tiền cho các nhà cung cấp nội dung.

📌Các công ty AI hàng đầu đang đối mặt với tình trạng thiếu hụt trầm trọng nguồn dữ liệu chất lượng cao để huấn luyện các mô hình ngôn ngữ thế hệ tiếp theo. Họ đang tích cực tìm kiếm các giải pháp như khai thác dữ liệu chưa được sử dụng, cải tiến phương pháp huấn luyện và thậm chí tạo ra dữ liệu tổng hợp, nhằm duy trì đà phát triển của trí tuệ nhân tạo.

Citations:
[1]https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8

#WSJ

Không có file đính kèm.

Nguồn tham khảo

116

AI data 2024-04-01 04:24:42

Chất lượng dữ liệu mới là yếu tố then chốt trong phát triển AI

- Trong lịch sử phát triển AI, kích thước mô hình đã được coi là yếu tố quan trọng. Tuy nhiên, nghiên cứu gần đây cho thấy chất lượng dữ liệu huấn luyện cũng đóng vai trò then chốt.
- Mô hình Chinchilla của DeepMind chỉ bằng 1/4 kích thước của mô hình Gopher của Google, nhưng được huấn luyện với lượng dữ liệu gấp 4 lần và đạt độ chính xác cao hơn 7%.
- Lượng dữ liệu văn bản chất lượng cao trên thế giới (khoảng 2.8 nghìn tỷ token) không đủ để đáp ứng nhu cầu huấn luyện của các mô hình LLM lớn.
- Các mô hình thương mại gặp khó khăn trong việc tiếp cận dữ liệu do vấn đề bản quyền. Dữ liệu phi tiếng Anh còn hạn chế hơn.
- Dữ liệu trùng lặp gây ra hiện tượng mô hình ghi nhớ thay vì tổng quát hóa, dẫn đến sự suy giảm chất lượng.
- Lặp lại toàn bộ tập dữ liệu qua nhiều chu kỳ huấn luyện có thể cải thiện hiệu suất mô hình, nhưng lợi ích giảm dần.
- Sử dụng dữ liệu tổng hợp có thể dẫn đến sự phân kỳ so với dữ liệu thực và làm giảm hiệu suất của mô hình.
- Các nhà nghiên cứu đang tập trung vào việc kiểm tra kỹ lưỡng hơn chất lượng dữ liệu huấn luyện và xác định mức độ an toàn khi sử dụng dữ liệu tổng hợp.
- Sáng kiến DataComp tập trung vào việc giữ nguyên kiến trúc mô hình và cải tiến cách lọc, xử lý dữ liệu để cải thiện hiệu suất.
- Các mô hình nguồn mở đang cố gắng thu hẹp khoảng cách với các mô hình tiên phong, nhưng vẫn gặp khó khăn do thiếu thông tin về tập dữ liệu của các công ty công nghệ lớn.

📌 Mặc dù kích thước mô hình vẫn đóng vai trò quan trọng, chất lượng dữ liệu huấn luyện đang trở thành yếu tố then chốt trong việc phát triển các mô hình ngôn ngữ lớn. Các nhà nghiên cứu đang nỗ lực cải thiện chất lượng dữ liệu thông qua việc loại bỏ nội dung trùng lặp, kiểm soát sử dụng dữ liệu tổng hợp và áp dụng các phương pháp lọc, xử lý dữ liệu tiên tiến. Tuy nhiên, sự thiếu minh bạch về tập dữ liệu của các công ty lớn vẫn là một thách thức đối với cộng đồng nghiên cứu AI nguồn mở.

Citations:
[1] https://cacm.acm.org/news/data-quality-may-be-all-you-need/

Không có file đính kèm.

Nguồn tham khảo

123

AI data 2024-03-30 23:59:03

Đừng quên những người gán nhãn dữ liệu khiêm tốn

- Các công ty khởi nghiệp gán nhãn và chú thích dữ liệu như Scale AI đóng vai trò thiết yếu trong sự phát triển của AI hiện đại. Tuy nhiên, người lao động trong lĩnh vực này thường phải chịu điều kiện làm việc khắc nghiệt.

- Một số công ty lớn như OpenAI thuê người gán nhãn ở các nước thế giới thứ ba với mức lương chỉ vài đô la mỗi giờ. Họ phải tiếp xúc với nội dung đồi trụy mà không được nghỉ ngơi hay hỗ trợ sức khỏe tâm thần.

- Scale AI tuyển dụng người gán nhãn ở nhiều nước với mức lương thấp, từ 10 đô la cho công việc kéo dài nhiều ngày 8 tiếng không nghỉ. Người lao động phụ thuộc vào nền tảng và có thể bị sa thải bất cứ lúc nào.

- Hiện chưa có quy định hay tiêu chuẩn ngành cho việc gán nhãn dữ liệu một cách có đạo đức. Giải pháp thực tế nhất là thông qua chính sách.

- Các tin tức đáng chú ý khác: OpenAI phát triển công cụ nhân bản giọng nói Voice Engine; Amazon đầu tư thêm 2.75 tỷ USD vào Anthropic; Google.org ra mắt chương trình hỗ trợ 20 triệu USD cho các tổ chức phi lợi nhuận phát triển công nghệ AI; AI21 Labs giới thiệu mô hình Jamba; Databricks ra mắt mô hình DBRX; Uber Eats và quy định AI của Anh; EU đưa ra hướng dẫn an ninh bầu cử liên quan đến deepfake; Grok của X được nâng cấp; Adobe mở rộng Firefly với hơn 20 API và dịch vụ mới.

📌 Mặc dù đóng vai trò quan trọng trong sự phát triển của AI, người lao động gán nhãn dữ liệu vẫn phải chịu điều kiện làm việc khắc nghiệt với mức lương thấp. Cần có chính sách và quy định để bảo vệ quyền lợi của họ.

Citations:
[1]https://techcrunch.com/2024/03/30/this-week-in-ai-let-us-not-forget-the-humble-data-annotator/

Không có file đính kèm.

Nguồn tham khảo

143

AI data 2024-03-29 17:13:29

Cách huấn luyện AI khi thiếu dữ liệu: Ứng dụng trong y tế và giao thông

- Giáo sư Jenq-Neng Hwang và nhóm nghiên cứu đã phát triển phương pháp huấn luyện AI để theo dõi số lượng tư thế khác nhau mà trẻ sơ sinh có thể thực hiện trong ngày, nhằm hỗ trợ phát hiện sớm tự kỷ.
- Việc sử dụng AI giúp theo dõi liên tục và nhất quán các tư thế của trẻ, thay vì cần bác sĩ quan sát trong nhiều giờ.
- Thách thức chính là thiếu dữ liệu huấn luyện về chuỗi chuyển động 3D của trẻ sơ sinh kèm chú thích tư thế.
- Nhóm nghiên cứu đã xây dựng quy trình: Huấn luyện mô hình AI tạo sinh tư thế 3D chung với lượng lớn chuỗi chuyển động 3D của người thường, sau đó tinh chỉnh mô hình với tập dữ liệu hạn chế về chuỗi chuyển động của trẻ sơ sinh.
- Phương pháp tương tự cũng có thể áp dụng trong chẩn đoán bệnh hiếm gặp dựa trên ảnh X-quang, bằng cách tạo ra ảnh X-quang tổng hợp không bệnh để so sánh với ảnh bệnh.
- Trong lái xe tự động, các sự kiện "đuôi dài" ít gặp như lá rơi trước xe cũng gây khó khăn cho việc huấn luyện AI. Nhóm nghiên cứu đang kết hợp dữ liệu từ camera và radar để giải quyết vấn đề này.

📌 Mô hình AI tạo sinh và kỹ thuật tinh chỉnh mô hình với dữ liệu hạn chế mở ra tiềm năng ứng dụng AI trong nhiều lĩnh vực như y tế và giao thông, giúp phát hiện sớm tự kỷ ở trẻ sơ sinh, chẩn đoán bệnh hiếm gặp và nâng cao độ an toàn của xe tự lái.

https://www.eurasiareview.com/29032024-how-to-train-ai-when-you-dont-have-enough-data/

Không có file đính kèm.

Nguồn tham khảo

190

AI data 2024-03-26 22:43:40

HBR: Dữ liệu công ty của bạn đã sẵn sàng cho AI tạo sinh chưa?

- Nhiều tổ chức đang hào hứng với AI tạo sinh và đang huy động để tận dụng nó. Hội đồng quản trị tổ chức các hội thảo giáo dục và khuyến khích các công ty hành động.
- Các đội ngũ quản lý cấp cao đang suy nghĩ về các trường hợp sử dụng cần phát triển. Các cá nhân và bộ phận đang thử nghiệm công nghệ này có thể tăng năng suất và hiệu quả của họ như thế nào.
- Một cuộc khảo sát mới với 334 giám đốc dữ liệu và lãnh đạo dữ liệu cho thấy hầu hết các công ty vẫn còn nhiều việc phải làm để sẵn sàng cho AI tạo sinh.
- Các công ty chưa tạo ra các chiến lược dữ liệu mới hoặc bắt đầu quản lý dữ liệu theo những cách cần thiết để AI tạo sinh hoạt động hiệu quả cho họ.
- Mặc dù phấn khởi, các công ty vẫn chưa thấy rõ giá trị từ AI tạo sinh và cần phải làm nhiều việc để chuẩn bị dữ liệu của họ.

📌 Khảo sát 334 giám đốc dữ liệu cho thấy dù hào hứng với AI tạo sinh, các công ty vẫn chưa có chiến lược dữ liệu phù hợp và cần làm nhiều việc để chuẩn bị dữ liệu sẵn sàng tận dụng tối đa công nghệ này, mang lại giá trị kinh doanh rõ ràng.

Citations:
[1] https://hbr.org/2024/03/is-your-companys-data-ready-for-generative-ai

https://hbr.org/2024/03/is-your-companys-data-ready-for-generative-ai

#HBR

Không có file đính kèm.

Nguồn tham khảo

129

AI data 2024-03-25 23:50:58

Dữ liệu trực tuyến - chìa khóa để phát triển AI thông minh hơn

- Dữ liệu trực tuyến (data streaming) đóng vai trò quan trọng trong việc cung cấp thông tin thời gian thực cho AI, giúp công nghệ trở nên thích ứng và phản ứng nhanh hơn.
- Truyền thống, AI dựa vào các tập dữ liệu tĩnh lớn. Tuy nhiên, phương pháp này có những hạn chế vì không tính đến những thay đổi đột ngột.
- Dữ liệu trực tuyến hoạt động như một giao thức phát trực tiếp dữ liệu liên tục, cung cấp thông tin thời gian thực giữa các mô hình AI và tác nhân AI.
- Các pipeline dữ liệu trực tuyến đóng vai trò như cầu nối giữa thế giới thực và hệ thống AI, liên tục lọc, làm sạch và chuyển đổi dữ liệu.
- Xử lý thời gian thực mang lại nhiều lợi ích cho AI như phát hiện gian lận trong lĩnh vực tài chính. Từ năm 2021 đến 2022, mức tổn thất trung bình của nạn nhân lừa đảo tăng gấp đôi. Năm 2022, người tiêu dùng Mỹ mất khoảng 300 tỷ USD vì tin nhắn lừa đảo.
- Dữ liệu trực tuyến đặc biệt có lợi cho deep learning và machine learning. Các thuật toán deep learning cần lượng dữ liệu khổng lồ để học và cải thiện. Dữ liệu trực tuyến cung cấp luồng thông tin mới liên tục, cho phép các mô hình deep learning liên tục tinh chỉnh khả năng ra quyết định.
- Các thuật toán machine learning học từ dữ liệu để đưa ra dự đoán. Dữ liệu trực tuyến đảm bảo các thuật toán này liên tục tiếp xúc với thông tin mới, giúp chúng thích ứng với dự đoán và trở nên chính xác hơn theo thời gian.
- Ứng dụng của dữ liệu trực tuyến trong AI rất rộng lớn và không ngừng phát triển như: trải nghiệm cá nhân hóa, bảo trì dự đoán, quản lý giao thông, bảo mật mạng.
- Theo nghiên cứu của Epoch, các công ty AI có thể hết dữ liệu ngay từ năm 2026. Các công ty như Streamr đang giúp đảm bảo dữ liệu tiếp tục chảy bằng cách kết nối các hệ thống AI với các luồng dữ liệu thời gian thực mở và trả phí để truy cập.

📌Data streaming là nhiên liệu sẽ thúc đẩy sự phát triển của thế hệ hệ thống thông minh tiếp theo. Với khả năng xử lý và phân tích luồng dữ liệu thời gian thực, AI sẽ tích hợp liền mạch vào cuộc sống, giải quyết vấn đề và tạo ra cơ hội mới mà chúng ta mới chỉ bắt đầu tưởng tượng. Tuy nhiên, nghiên cứu cho thấy các công ty AI có thể hết dữ liệu ngay từ năm 2026, đòi hỏi các giải pháp như kết nối với các luồng dữ liệu mở và trả phí để truy cập.

https://crypto.news/why-streaming-data-is-the-key-to-smarter-ai/

Không có file đính kèm.

Nguồn tham khảo

147

AI data 2024-03-25 22:32:23

Mở khóa lợi thế cạnh tranh với AI tạo sinh: Cách tiếp cận lấy dữ liệu làm trung tâm

- Chiến lược dữ liệu vững chắc là then chốt để tận dụng AI tạo sinh (GenAI), công nghệ có thể nâng cao GDP toàn cầu thêm 7 nghìn tỷ USD và cải thiện năng suất trong thập kỷ tới.

- Các tổ chức thường gặp khó khăn trong việc hiểu toàn cảnh dữ liệu, kết nối và tận dụng hiệu quả dữ liệu, cũng như quản lý khả năng tiếp cận dữ liệu. Khối lượng dữ liệu ngày càng tăng khiến những thách thức này trở nên khó khăn hơn.

- Chiến lược dữ liệu tích hợp nên bao gồm nhiều công cụ, tài nguyên và phương pháp để bao quát mọi khía cạnh quản lý dữ liệu, từ thu thập, lưu trữ, truy xuất đến phân tích dữ liệu.

- Hiệu quả của việc chuẩn bị dữ liệu phụ thuộc vào chất lượng, số lượng, tính đa dạng và độ phức tạp của dữ liệu thu thập được. Các quy trình cơ bản như làm sạch, xác thực, chuyển đổi và lưu trữ dữ liệu rất quan trọng.

- Các xu hướng dữ liệu GenAI mới nổi bao gồm: sử dụng tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), tinh chỉnh mô hình được huấn luyện trước và xây dựng mô hình ngôn ngữ lớn (LLM) riêng.

- Xây dựng chiến lược quản trị dữ liệu đòi hỏi lập kế hoạch các quy trình thiết yếu phù hợp với mục tiêu của tổ chức như liên kết chiến lược, tích hợp ứng dụng, lĩnh vực dữ liệu, quản lý dữ liệu, kiến trúc dữ liệu, bảo mật dữ liệu và mô hình vận hành.

📌 Các tổ chức cần nuôi dưỡng cách tiếp cận lấy dữ liệu làm trung tâm, đồng bộ hóa công nghệ với mục tiêu kinh doanh để làm chủ lĩnh vực AI tạo sinh. Các xu hướng dữ liệu AI tạo sinh mới nổi bao gồm: tăng cường bởi truy xuất dữ liệu ngoài (RAG), tinh chỉnh mô hình được huấn luyện trước và xây dựng mô hình ngôn ngữ lớn (LLM) riêng

https://www.forbes.com/sites/forbestechcouncil/2024/03/25/how-to-unlock-competitive-advantage-with-genai-a-data-centric-approach/

Không có file đính kèm.

Nguồn tham khảo

129

AI data 2024-03-25 06:46:10

Cleanlab - thư viện python nguồn mở giúp làm sạch dữ liệu cho machine learning

- Cleanlab là một thư viện Python mã nguồn mở giúp phát hiện và sửa lỗi dữ liệu trong các tập dữ liệu machine learning.
- Cleanlab được đánh giá là có thiết kế tốt, khả năng mở rộng và có nền tảng lý thuyết vững chắc. Nó có thể phát hiện chính xác các lỗi dữ liệu, ngay cả trên các tập dữ liệu nổi tiếng và ổn định.
- Một kỹ sư phần mềm cấp cao tại Google đã sử dụng thành công Cleanlab trong một dự án thử nghiệm và giờ đây coi nó là một trong những thư viện chính để làm sạch tập dữ liệu.
- BBVA, một trong những tổ chức tài chính lớn nhất thế giới, sử dụng Cleanlab để phát hiện các điểm dữ liệu bị dán nhãn sai trong pipeline học máy của họ.
- Cleanlab cung cấp các thuật toán tiên tiến để phát hiện và sửa lỗi dữ liệu như: phát hiện nhãn nhiễu, ước tính ma trận nhầm lẫn, tìm kiếm K-lân cận, lọc dữ liệu theo ngưỡng tin cậy, v.v.
- Thư viện hỗ trợ nhiều loại mô hình và tác vụ học máy khác nhau như phân loại, hồi quy, phát hiện bất thường.
- Cleanlab có hiệu năng cao, có thể xử lý hàng triệu mẫu dữ liệu và hàng nghìn đặc trưng.

📌 Cleanlab là một thư viện Python mã nguồn mở mạnh mẽ giúp phát hiện và sửa lỗi dữ liệu cho machine learning, với các thuật toán tiên tiến, hiệu năng cao và khả năng mở rộng tốt. Nó đã được tin dùng bởi các tổ chức lớn như Google, BBVA để làm sạch dữ liệu và cải thiện độ chính xác của các mô hình.

Citations:
[1] https://cleanlab.ai

https://cleanlab.ai/

Không có file đính kèm.

Nguồn tham khảo

166

AI data 2024-03-18 23:42:07

Sensor Tower thâu tóm data.ai, nâng tầm đo lường kinh tế số toàn cầu

- Sensor Tower, nhà cung cấp dữ liệu hàng đầu về kinh tế số, đã mua lại nền tảng tình báo thị trường data.ai với giá trị không được tiết lộ.
- Thương vụ này giúp Sensor Tower mở rộng cơ sở khách hàng, bao gồm các thương hiệu lớn như Microsoft, Sky và Bandai Namco vốn đã sử dụng công cụ tình báo ứng dụng di động của data.ai.
- Việc mua lại data.ai là một bước tiến quan trọng của Sensor Tower trong việc mở rộng sự hiện diện tại khu vực châu Á - Thái Bình Dương và hợp tác với thêm nhiều công ty Fortune 500.
- Sự kết hợp giữa Sensor Tower và data.ai dự kiến sẽ mang lại những cải tiến đáng kể về độ chính xác dữ liệu, phạm vi bao quát toàn cầu và đa dạng hóa sản phẩm cho hơn 2.000 khách hàng doanh nghiệp.
- Năm 2023, người tiêu dùng đã chi 130 tỷ USD trên toàn cầu cho các giao dịch mua trong ứng dụng, xu hướng này dự kiến sẽ tiếp tục gia tăng khi các nền tảng lớn như Google, Meta, TikTok, Instagram và Snap đầu tư mạnh vào việc thu hút, giữ chân người dùng và tạo doanh thu.
- Thương vụ mua lại data.ai diễn ra sau khi Sensor Tower trải qua giai đoạn tăng trưởng nhanh chóng và thành công trong việc mua lại Pathmatics vào năm 2021.
- Bộ giải pháp tình báo số của Sensor Tower được cung cấp dựa trên mô hình đăng ký hàng năm, với dữ liệu độc đáo từ các nhóm người dùng.
- Đội ngũ lãnh đạo của Sensor Tower sẽ được giữ nguyên và quản lý công ty sau khi sáp nhập. Tuy nhiên, việc hợp nhất cũng đòi hỏi phải tối ưu hóa cơ cấu nhân sự.
- Bain Capital Credit dẫn đầu khoản tài trợ cho thương vụ, cùng với sự tham gia tiếp theo của Riverwood Capital và khoản đầu tư mới từ Paramark Ventures.

📌 Thương vụ Sensor Tower mua lại data.ai đánh dấu bước tiến quan trọng trong việc đo lường nền kinh tế số toàn cầu. Sự kết hợp này hứa hẹn mang lại những cải tiến về độ chính xác dữ liệu, phạm vi bao quát và đa dạng hóa sản phẩm cho hơn 2.000 khách hàng doanh nghiệp, đồng thời tăng cường sự hiện diện của Sensor Tower tại thị trường châu Á - Thái Bình Dương đầy tiềm năng với mức chi tiêu 130 tỷ USD cho các giao dịch trong ứng dụng năm 2023.

https://www.prnewswire.com/in/news-releases/sensor-tower-acquires-market-intelligence-platform-dataai-302090807.html

Không có file đính kèm.

Nguồn tham khảo

147

AI data AI tips 2024-03-18 13:58:22

Kể chuyện bằng dữ liệu trong kỷ nguyên AI tạo sinh: framework để lựa chọn công cụ trình bày thông tin

- Công cụ AI tạo sinh như ChatGPT và Gemini có khả năng thực hiện nhiều nhiệm vụ chỉ với vài lệnh đơn giản, giúp hiểu và trả lời các câu hỏi từ người dùng.
- Công nghệ AI có thể tự động phát hiện mẫu ẩn từ dữ liệu số và không cấu trúc, chuyển đổi thông tin thành khuyến nghị kinh doanh.
- Việc loại bỏ hoàn toàn hình thức trình bày thông tin trực quan là một sai lầm đắt giá, vì vẫn cần giữ lại sự hấp dẫn của các câu chuyện trực quan trong một số tình huống quan trọng.
- Các câu chuyện dữ liệu sử dụng hình ảnh và biểu đồ để truyền đạt thông tin phức tạp một cách nhanh chóng và hiệu quả, tăng cường sự hiểu biết và ghi nhớ.
- AI đã cải thiện khả năng hiểu ngôn ngữ tự nhiên và chuyển đổi kết quả số liệu thành dạng có thể hiểu được với ngữ cảnh chuyên ngành sâu.
- Hai yếu tố chính ảnh hưởng đến cách thông tin được trình bày cho hành động hiệu quả là phương pháp tiếp cận thông tin và mức độ thông tin mà người dùng cần để đưa ra quyết định.
- 4 tình huống quyết định được phân loại theo ma trận 2x2, giúp lựa chọn phương thức trình bày thông tin phù hợp.
- Trong các tình huống đơn giản, AI và trí tuệ đối thoại có thể cung cấp thông tin hiệu quả và hiệu quả. Tuy nhiên, trong các tình huống phức tạp cần nhiều ngữ cảnh và thông tin chi tiết, câu chuyện dữ liệu và dashboard tương tác vẫn là phương tiện chính.
- Sự hợp tác giữa AI tạo sinh và con người có thể tăng cường chu trình câu chuyện dữ liệu, với AI hỗ trợ trong việc phát hiện thông tin phân tích và dịch tổng kết thống kê thành khuyến nghị kinh doanh thuyết phục.
- Gartner dự đoán rằng câu chuyện dữ liệu sẽ là cách tiêu thụ phân tích phổ biến nhất vào năm 2025 và kỹ thuật phân tích tăng cường sẽ tạo ra 75% số câu chuyện này.

📌 Sử dụng AI tạo sinh trong các tình huống đơn giản có thể tiết kiệm công sức và cải thiện kết quả kinh doanh bằng cách tăng tốc độ cung cấp thông tin. Tuy nhiên, trong các tình huống phức tạp, câu chuyện dữ liệu và dashboard tương tác vẫn cần thiết để cung cấp ngữ cảnh và thông tin chi tiết cho người đưa quyết định.

Citations:
[1] https://sloanreview.mit.edu/article/the-enduring-power-of-data-storytelling-in-the-generative-ai-era/

#MIT
#hay

#MIT

Không có file đính kèm.

Nguồn tham khảo

242

AI minh bạch AI data 2024-03-16 10:31:29

Mira Murati, CTO của OpenAI, không thể trả lời rõ ràng câu hỏi về nguồn dữ liệu huấn luyện cho mô hình AI tạo video Sora

- Mira Murati, CTO lâu năm của OpenAI, không thể trả lời rõ ràng câu hỏi về nguồn dữ liệu huấn luyện cho mô hình AI tạo video Sora trong cuộc phỏng vấn với Wall Street Journal.
- Khi được hỏi liệu video trên YouTube, Instagram, Facebook có được đưa vào tập dữ liệu huấn luyện, Murati chỉ trả lời mơ hồ rằng dữ liệu "có sẵn công khai hoặc được cấp phép".
- Murati từ chối trả lời chi tiết về quan hệ đối tác huấn luyện dữ liệu giữa OpenAI và công ty ảnh Shutterstock, nhưng sau đó xác nhận video Shutterstock có trong tập huấn luyện của Sora.
- Phản ứng trái chiều trên mạng, một số cho rằng Murati thiếu thẳng thắn hoặc thậm chí nói dối, số khác lập luận rằng mọi thứ công khai trên mạng đều có thể bị các công ty AI hút dữ liệu.
- Vụ việc cho thấy OpenAI đang vấp phải tranh cãi và kiện tụng về thực tiễn thu thập dữ liệu, đồng thời nêu bật thực tế kỳ lạ mà người dùng Internet phải đối mặt.

📌 Việc CTO của OpenAI không thể trả lời rõ ràng về nguồn dữ liệu huấn luyện cho Sora, bất kể là do muốn tránh kiện tụng về bản quyền hay thiếu hiểu biết, đã làm dấy lên nghi vấn chính đáng của công chúng. Trong tương lai, các công ty AI sẽ khó lòng thuyết phục được mọi người chỉ bằng những câu trả lời mơ hồ.

https://futurism.com/video-openai-cto-sora-training-data

Không có file đính kèm.

Nguồn tham khảo

194

AI coding assistant AI data 2024-03-15 03:00:45

mô hình 7b tham số sqlcoder-7b-2 vượt qua gpt-4 trong các tác vụ sql

- SQLCoder-70B là một mô hình mã nguồn mở mới vượt trội hơn tất cả các mô hình khác, kể cả GPT-4, trong nhiều tác vụ SQL.
- Defog đã xây dựng SQLCoder-70B dựa trên mô hình CodeLlama-70B của Meta và tinh chỉnh nó trên tập dữ liệu riêng.
- Tuy nhiên, các mô hình 70B tham số vẫn quá lớn để tích hợp offline hoặc chạy trên laptop.
- Bằng cách sử dụng kỹ thuật distillation, Defog đã huấn luyện một mô hình nhỏ gọn hơn SQLCoder-7B với 7 tỷ tham số.
- SQLCoder-7B có hiệu suất thấp hơn một chút so với SQLCoder-70B, nhưng nhìn chung vẫn vượt trội hơn GPT-4 với 90.5% hiệu suất trên các bài kiểm tra chuẩn.
- Phiên bản thứ hai SQLCoder-7B-2 đã được cập nhật trọng số và cho kết quả tốt hơn GPT-4 với hầu hết các truy vấn SQL, đặc biệt khi được hướng dẫn và gợi ý đúng cách.
- Thành công của SQLCoder-7B cho thấy tiềm năng của các mô hình chuyên biệt mã nguồn mở khi được tinh chỉnh trên các mô hình nền tảng lớn.
- Xu hướng này đánh dấu sự chuyển dịch đáng kể hướng tới việc tạo ra các giải pháp AI mạnh mẽ, dễ tiếp cận và thích ứng với nhiều thiết bị, ứng dụng.

📌 SQLCoder-7B-2 với 7 tỷ tham số, được phát triển bởi Defog dựa trên CodeLlama-70B của Meta, đã vượt trội GPT-4 trong hầu hết các truy vấn SQL với hiệu năng 90.5%. Thành công này cho thấy tiềm năng to lớn của các mô hình chuyên biệt mã nguồn mở khi được tinh chỉnh trên các mô hình nền tảng lớn, mở ra xu hướng tạo ra các giải pháp AI mạnh mẽ và dễ tiếp cận hơn.

Citations:
[1] https://huggingface.co/defog/sqlcoder-7b-2

https://medium.com/@boredgeeksociety/finally-7b-parameter-model-beats-gpt-4-732cb0f3321d

Không có file đính kèm.

Nguồn tham khảo

143

AI data AI nghiên cứu 2024-03-11 10:41:58

chatbot AI "suy nghĩ" bằng tiếng Anh dù được hỏi bằng ngôn ngữ khác

• Nghiên cứu tại Viện Công nghệ Liên bang Thụy Sĩ ở Lausanne phát hiện ra rằng các chatbot AI sử dụng tiếng Anh để "suy nghĩ", ngay cả khi được hỏi bằng ngôn ngữ khác.
• Các nhà nghiên cứu đã phân tích ba phiên bản của mô hình chatbot AI, tập trung vào các "lớp" xử lý nội bộ của chúng.
• Họ đã thử nghiệm bằng cách cung cấp ba loại yêu cầu trong bốn ngôn ngữ: Pháp, Đức, Nga, và Trung Quốc.
• Các mô hình được chọn do tính nguồn mở, cho phép nghiên cứu sâu vào cách thức xử lý dữ liệu.
• Kết quả cho thấy tất cả các quá trình xử lý của LLMs đều đi qua "không gian tiếng Anh", tức là chúng chuyển đổi từ ngôn ngữ này sang tiếng Anh trước khi dịch sang ngôn ngữ khác.
• Điều này có ý nghĩa quan trọng vì nó cho thấy các LLMs sử dụng tiếng Anh như một phương tiện để hiểu các khái niệm.
• Aliya Bhatia từ Trung tâm Dân chủ & Công nghệ tại Washington DC bày tỏ lo ngại về việc sử dụng tiếng Anh làm trung gian có thể áp đặt một quan điểm hạn chế lên các khu vực văn hóa và ngôn ngữ khác biệt.

📌 Nghiên cứu từ Viện Công nghệ Liên bang Thụy Sĩ ở Lausanne đã phát hiện ra rằng các mô hình ngôn ngữ lớn (LLMs) dùng trong chatbot AI "nghĩ" bằng tiếng Anh, kể cả khi xử lý yêu cầu bằng các ngôn ngữ khác. Các quá trình xử lý dữ liệu của LLMs đều đi qua "không gian tiếng Anh", cho thấy sự ưu tiên của tiếng Anh trong việc hiểu và xử lý các khái niệm. Điều này nêu bật mối quan ngại về việc sử dụng tiếng Anh như một trung gian có thể hạn chế góc nhìn và ảnh hưởng đến sự đa dạng văn hóa và ngôn ngữ.

https://readwrite.com/ai-chatbots-think-in-english-research-finds/

Không có file đính kèm.

Nguồn tham khảo

199

AI data 2024-03-05 09:11:15

AI Tạo Sinh từ MIT Có Thể Làm Thay Đổi Lĩnh Vực Kiểm Thử Phần Mềm?

- DataCebo, một công ty khởi nghiệp từ MIT, đang áp dụng AI tạo sinh để cải tiến lĩnh vực kiểm thử phần mềm và tạo dữ liệu tổng hợp.
- Kể từ khi ra đời, Kho Dữ Liệu Tổng Hợp (Synthetic Data Vault - SDV) của DataCebo đã nhận được sự chú ý lớn với hơn 1 triệu lượt tải xuống và 10.000 nhà khoa học dữ liệu sử dụng.
- SDV không chỉ giới hạn ở kiểm thử phần mềm truyền thống mà còn được ứng dụng trong nhiều lĩnh vực khác như mô phỏng chuyến bay và phân tích y tế.
- Các phát triển gần đây bao gồm một trình mô phỏng chuyến bay giúp các hãng hàng không dự báo chính xác hơn về các gián đoạn liên quan đến thời tiết và mô hình dự đoán bệnh cho các bệnh như xơ nang, cho thấy tiềm năng của AI tạo sinh trong việc cải thiện kết quả điều trị cho bệnh nhân.
- DataCebo tiếp tục nỗ lực không ngừng để cải thiện quy trình kiểm thử phần mềm thông qua các mô hình tạo sinh, giúp tự động hóa việc tạo dữ liệu và mô phỏng các tình huống phức tạp một cách hiệu quả.

📌 DataCebo, một công ty khởi nghiệp từ MIT, với sự hỗ trợ của AI tạo sinh, đang mở ra một kỷ nguyên mới trong lĩnh vực kiểm thử phần mềm và tạo dữ liệu tổng hợp. Với hơn 1 triệu lượt tải và 10.000 nhà khoa học dữ liệu sử dụng, Kho Dữ Liệu Tổng Hợp SDV của DataCebo đã trở thành một công cụ không thể thiếu cho các tổ chức muốn mô phỏng các tình huống thực tế mà không làm lộ dữ liệu nhạy cảm. Các ứng dụng của nó đã vượt ra ngoài kiểm thử phần mềm, chứng minh tiềm năng rộng lớn của AI tạo sinh trong nhiều lĩnh vực khác nhau từ hàng không đến y tế, đánh dấu bước tiến quan trọng trong việc sử dụng công nghệ để cải thiện cuộc sống và công việc hàng ngày.

Citations:
[1] https://www.cryptopolitan.com/generative-ai-mit-software-testing-arena/

Không có file đính kèm.

Nguồn tham khảo

152

AI mở-nguồn mở AI data 2024-02-22 21:45:09

Build LLM-Powered Data Agent for Data Analysis

- Bài viết giới thiệu cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM (Large Language Models) cho mục đích phân tích dữ liệu.
- Khuyến khích khám phá hệ sinh thái nguồn mở để chọn khung đại lý phù hợp nhất cho ứng dụng của bạn.
- Đề xuất sử dụng Mixtral 8x7B LLM có sẵn trong danh mục NVIDIA NGC, hỗ trợ tăng tốc các mô hình và cung cấp chúng dưới dạng API.
- Các lời gọi API đầu tiên cho mỗi mô hình được miễn phí để thử nghiệm.
- Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.

📌 Bài viết trên blog kỹ thuật của NVIDIA cung cấp một hướng dẫn chi tiết về cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM cho phân tích dữ liệu, nhấn mạnh vào việc khám phá hệ sinh thái nguồn mở để tìm kiếm khung agent tốt nhất. Sử dụng Mixtral 8x7B LLM từ danh mục NVIDIA NGC là một lựa chọn được đề xuất, với ưu điểm là hỗ trợ tăng tốc các mô hình và cung cấp API miễn phí cho các lời gọi đầu tiên. Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.

Citations:
[1] https://developer.nvidia.com/blog/build-an-llm-powered-data-agent-for-data-analysis/

Không có file đính kèm.

Nguồn tham khảo

174

AI doanh nghiệp AI data 2024-02-21 21:54:08

Làm thế nào để nổi bật giữa đám đông khi mọi người đều sử dụng AI tạo sinh

- AI tạo sinh (genAI) dựa trên Mô hình Ngôn Ngữ Lớn (LLMs) ra mắt vào năm 2022, thu hút sự chú ý của giới lãnh đạo doanh nghiệp và người tiêu dùng.
- GenAI mở ra kỷ nguyên công nghệ mới, tạo cơ hội và thách thức cho các doanh nghiệp trong việc tận dụng công nghệ để tạo ra sự khác biệt.
- Các nhà cung cấp đang đưa ra thị trường các sản phẩm và công cụ hỗ trợ genAI, khiến các nhà lãnh đạo và nhà phát triển phần mềm cảm thấy quá tải.
- Mô hình dữ liệu dựa trên tài liệu của MongoDB Atlas giúp kết hợp dữ liệu độc quyền với hiểu biết từ LLMs, tạo ra trải nghiệm AI độc đáo.
- Dữ liệu độc quyền, cả cấu trúc và không cấu trúc, có thể được chuyển đổi thành vector embeddings, giúp nắm bắt ý nghĩa ngữ nghĩa và thông tin ngữ cảnh.
- Gradient, công ty AI được sáng lập bởi cựu lãnh đạo các đội ngũ AI tại Google, Netflix, và Splunk, cung cấp nền tảng cho doanh nghiệp xây dựng và triển khai giải pháp AI tùy chỉnh.
- Gradient sử dụng LLMs tiên tiến và vector embeddings kết hợp với MongoDB Atlas Vector Search để lưu trữ, lập chỉ mục và truy xuất dữ liệu vector chiều cao, và LlamaIndex cho tích hợp dữ liệu.

📌 Để tạo sự khác biệt trên thị trường khi AI tạo sinh ngày càng phổ biến, việc tận dụng dữ liệu độc quyền và áp dụng mô hình dữ liệu mới như MongoDB Atlas là chìa khóa. Công ty Gradient đã minh chứng cho điều này bằng cách cung cấp một nền tảng cho phép doanh nghiệp xây dựng các ứng dụng AI tùy chỉnh hiệu suất cao và tiết kiệm chi phí. Sự kết hợp giữa LLMs, vector embeddings, và công cụ tìm kiếm vector của MongoDB Atlas cùng với LlamaIndex cho phép doanh nghiệp tạo ra những trải nghiệm AI độc đáo, tận dụng triệt để ý nghĩa ngữ nghĩa và thông tin ngữ cảnh từ dữ liệu của họ, từ đó tạo ra lợi thế cạnh tranh trên thị trường.

Citations:
[1] https://www.infoworld.com/article/3713060/how-to-stand-out-from-the-crowd-when-everyone-uses-generative-ai.html

Không có file đính kèm.

Nguồn tham khảo

173

AI data 2024-02-18 22:52:32

Reddit có hợp đồng đào tạo AI mới để bán nội dung người dùng

- Reddit đã ký một thỏa thuận cấp phép mới cho phép một công ty AI lớn không được tiết lộ tên có quyền truy cập vào nền tảng nội dung do người dùng tạo ra.
- Thỏa thuận có giá trị khoảng 60 triệu đô la hàng năm, nhưng có thể thay đổi vì kế hoạch của công ty đi đến IPO vẫn đang được tiến hành.
- Trước đây, hầu hết các công ty AI đào tạo dữ liệu của họ trên web mở mà không cần xin phép, nhưng điều này đã trở nên pháp lý không chắc chắn.
- Thỏa thuận này có giá trị cao hơn nhiều so với thỏa thuận hàng năm 5 triệu đô la mà OpenAI được cho là đã đề nghị với các nhà xuất bản tin tức cho dữ liệu của họ.
- Apple cũng đang tìm kiếm các thỏa thuận nhiều năm với các công ty tin tức lớn có thể trị giá "ít nhất 50 triệu đô la".
- Tin tức này xuất hiện sau khi có thông tin vào tháng 10 rằng Reddit đã đe dọa cắt quyền truy cập của Google và Bing nếu không thể thực hiện thỏa thuận dữ liệu đào tạo với các công ty AI.
- Reddit đã chứng minh rằng họ sẵn lòng chơi khó trước đây, thành công trong việc thoát khỏi cuộc biểu tình lớn nhất trong lịch sử của mình sau khi thay đổi giá truy cập API bên thứ ba khiến các nhà phát triển ứng dụng Reddit phổ biến nhất phải đóng cửa.

📌 Reddit đã thực hiện một bước đi quan trọng trong việc kiểm soát và tận dụng nội dung do người dùng tạo ra trên nền tảng của mình thông qua thỏa thuận cấp phép mới với một công ty AI lớn không được tiết lộ. Với giá trị khoảng 60 triệu đô la hàng năm, thỏa thuận này không chỉ phản ánh giá trị kinh tế của dữ liệu người dùng mà còn cho thấy sự thay đổi trong cách các công ty AI tiếp cận việc thu thập dữ liệu trong bối cảnh pháp lý ngày càng khắt khe. Điều này cũng làm nổi bật sự sẵn lòng của Reddit trong việc đàm phán và bảo vệ quyền lợi của mình trước các đối tác công nghệ lớn, cũng như khả năng của nó trong việc điều hướng các thách thức pháp lý và kinh doanh trong môi trường số hóa hiện đại.

Citations:
[1] https://www.theverge.com/2024/2/17/24075670/reddit-ai-training-license-deal-user-content

Không có file đính kèm.

Nguồn tham khảo

140

AI data 2024-02-18 08:25:36

Tệp Văn Bản Quyết Định Quyền Truy Cập Web Của Các Search Engine và AI Crawlers

- Tệp robots.txt được xem như "bản hiến pháp mini" của internet, tồn tại hơn ba thập kỷ và giúp ngăn chặn hỗn loạn trên mạng.
- Tệp này không có quyền lực pháp lý hay kỹ thuật cụ thể nhưng lại đại diện cho sự thỏa thuận giữa những người tiên phong đầu tiên của internet.
- Robots.txt cho phép chủ sở hữu website, từ blog cá nhân đến công ty đa quốc gia, quyết định ai có thể truy cập và ai không.
- Tệp này quản lý việc các search engine có thể lập chỉ mục trang web hay không, dự án lưu trữ có thể sao lưu trang hay không, và liệu đối thủ cạnh tranh có thể theo dõi trang cho mục đích của họ hay không.
- Trong nhiều thập kỷ, robots.txt chủ yếu tập trung vào các search engine, nhưng giờ đây cũng có các crawler dùng cho cả tìm kiếm web và AI.
- CCBot của tổ chức Common Crawl thu thập dữ liệu cho mục đích tìm kiếm và cũng được OpenAI, Google sử dụng để huấn luyện mô hình của họ.
- Bingbot của Microsoft hoạt động như cả một search crawler và AI crawler.
- Có những crawler hoạt động một cách bí mật, khiến việc ngăn chặn hoặc tìm kiếm chúng trong lưu lượng web trở nên khó khăn.
- Mark Graham, giám đốc của Internet Archive's Wayback Machine, nhận xét rằng robots.txt không nhất thiết phục vụ mục đích lưu trữ của họ.
- Một số nhà xuất bản muốn có quyền kiểm soát chi tiết hơn về việc truy cập và mục đích sử dụng dữ liệu thay vì chỉ có quyền cho phép hoặc cấm đoán đơn giản của robots.txt.

📌 Tệp robots.txt đã đóng vai trò quan trọng trong việc duy trì trật tự trên internet bằng cách cho phép các chủ sở hữ liệu quyết định ai có thể truy cập vào nội dung của họ. Tuy nhiên, với sự phát triển của công nghệ và nhu cầu sử dụng dữ liệu cho AI, đã xuất hiện những thách thức mới. Các crawler không chỉ giới hạn ở việc lập chỉ mục cho tìm kiếm web mà còn phục vụ cho việc huấn luyện mô hình AI, như CCBot và Bingbot. Điều này đặt ra nhu cầu cần thiết cho việc cập nhật và phát triển các quy định mới, nhằm cung cấp quyền kiểm soát chi tiết hơn cho các chủ sở hữu nội dung trên internet.

Citations:
[1] https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders

Không có file đính kèm.

Nguồn tham khảo

101

AI data 2024-02-16 17:59:29

Vai Trò Của Cơ Sở Dữ Liệu Vector Trong 'Nhà Máy AI'

- Các công ty AI từ cốt lõi đang áp dụng phân tích dựa trên vector theo thời gian để nâng cao tầng thông minh, hỗ trợ nhiều ngành nghề từ y tế đến pháp lý.
- AI hiện nay đang "đói" dữ liệu, và việc áp dụng AI trong ứng dụng hiện đại đòi hỏi một lượng lớn dữ liệu.
- Các tổ chức doanh nghiệp đang sử dụng AI để lọc qua các kho dữ liệu hiện có, tìm kiếm mẫu, cung cấp ngữ cảnh và tự động hóa quy trình để cải thiện năng suất và sự hài lòng của khách hàng.
- Có một khoảng cách giữa việc chỉ có quyền truy cập vào dữ liệu thô và việc sử dụng AI một cách chiến lược để dẫn đầu xu hướng thị trường và nhu cầu của khách hàng.
- Để đạt được hiệu suất cần thiết cho việc quyết định dựa trên AI, các công ty cần xây dựng cơ sở hạ tầng dịch vụ dữ liệu phù hợp.
- Cơ sở dữ liệu vector được thảo luận gần đây với khả năng tính toán cao cho dữ liệu thời gian và không cấu trúc.
- KX, một công ty chuyên về quản lý dữ liệu vector thời gian với hiệu suất cao, làm việc với các ứng dụng thông tin cực kỳ nhiều thông tin trong nhiều lĩnh vực như ngân hàng đầu tư, khoa học sức khỏe, phát triển bán dẫn, viễn thông và sản xuất.

📌 Cơ sở dữ liệu vector đang trở thành một phần không thể thiếu trong việc xây dựng mô hình 'Nhà Máy AI', giúp các công ty AI từ cốt lõi nâng cao khả năng thông minh và hiệu suất trong việc phân tích và xử lý dữ liệu. Các công ty như KX đang dẫn đầu trong việc cung cấp giải pháp quản lý dữ liệu vector thời gian với hiệu suất cao, hỗ trợ các ứng dụng thông tin nhiều thông tin trong các ngành như ngân hàng đầu tư, khoa học sức khỏe, phát triển bán dẫn, viễn thông và sản xuất, đánh dấu bước tiến quan trọng trong việc chuyển đổi số và tối ưu hóa quyết định kinh doanh dựa trên dữ liệu.

Citations:
[1] https://www.forbes.com/sites/adrianbridgwater/2024/02/16/the-role-of-vector-databases-inside-the-ai-factory/?sh=1e1fc68a471d

Không có file đính kèm.

Nguồn tham khảo

139

AI data AI doanh nghiệp AI tools 2024-02-09 10:16:33

Acceldata tăng cường khả năng quan sát dữ liệu với copilot AI mới

- Acceldata đã giới thiệu AI copilot mới, một công cụ giúp tăng cường khả năng quan sát dữ liệu.
- AI copilot được thiết kế để hoạt động trên nền tảng Acceldata, hỗ trợ các tác vụ liên quan đến quan sát dữ liệu, từ việc giám sát các pipeline dữ liệu cho đến việc xác định các quy tắc chính sách.
- Công cụ này giúp loại bỏ các rắc rối cấu hình thủ công, giảm thời gian thiết lập, cho phép giám sát tự động các sự bất thường của dữ liệu và thúc đẩy sự cộng tác và đóng góp từ người dùng không chuyên môn.
- AI copilot cho phép người dùng tự động hóa và tăng tốc các tác vụ thủ công trước đây bằng cách nhập các đầu vào ngôn ngữ tự nhiên đơn giản.
- Công cụ này giúp người dùng dễ dàng nghiên cứu và khắc phục những vấn đề về tươi mới, hồ sơ và chất lượng dữ liệu, cũng như học hỏi các mô hình tiêu thụ để thay đổi và ngăn chặn việc tiêu thụ quá mức.

📌 Acceldata đã giới thiệu AI copilot, một công cụ mới giúp tăng cường khả năng quan sát dữ liệu. Công cụ này được thiết kế để hoạt động trên nền tảng Acceldata, giúp tự động hóa và tăng tốc các tác vụ thủ công trước đây. AI copilot giúp người dùng dễ dàng nghiên cứu và khắc phục những vấn đề về tươi mới, hồ sơ và chất lượng dữ liệu, cũng như học hỏi các mô hình tiêu thụ để thay đổi và ngăn chặn việc tiêu thụ quá mức.

Citations:
[1] https://venturebeat.com/data-infrastructure/acceldata-supercharges-data-observability-with-new-ai-copilot/

Không có file đính kèm.

Nguồn tham khảo

150

AI đạo đức AI ảnh-video-music-âm thanh AI data AI deepfake-ảo giác-ANTT 2023-12-20 10:13:59

THÀNH KIẾN CHỦNG TỘC VÔ THỨC: TẠI SAO AI LẠI THẤT BẠI VỀ MÀU SẮC

AI hiện nay có khả năng tạo ra hình ảnh siêu thực đến mức khó phân biệt với người thật.
Trong nghiên cứu, người tham gia đều là người da trắng đã phải phân biệt giữa 100 hình ảnh thực và do AI tạo ra.
Một số hình ảnh do AI tạo ra được nhận định là "real" hơn cả hình ảnh thực của con người.
Nghiên cứu tiết lộ rằng AI có xu hướng tạo ra hình ảnh người da trắng chân thực hơn so với người da màu.
Sự thiên vị không ý thức này bắt nguồn từ việc thiếu dữ liệu đào tạo đa dạng và thuật toán chủ yếu dựa trên hình ảnh người da trắng.
Amy Dawel lo ngại rằng điều này có thể làm trầm trọng thêm các vấn đề xã hội, củng cố định kiến tiêu cực và tăng cường độ phơi nhiễm của quan điểm sai lệch về người da màu.
Một mối quan ngại khác là sự gia tăng của deepfakes, như thể hiện qua việc nhiều người tin rằng hình ảnh do AI tạo ra là "thật".
Dawel bày tỏ lo lắng về nguy cơ bị lừa dối bởi hình ảnh giả mạo nếu chúng rơi vào tay sai.
Cô cũng nhấn mạnh rằng nhiều AI hiện nay không minh bạch và ngành công nghiệp AI đang nhận được đầu tư lớn trong khi nguồn lực để giám sát chúng lại rất hạn chế.

📌 AI thất bại trong việc tạo hình ảnh người da màu một cách chân thực do thiếu dữ liệu huấn luyện đa dạng và hiện tượng này có nguy cơ làm tăng cường các định kiến xã hội và việc phát triển deepfakes, theo nghiên cứu của Amy Dawel.

Không có file đính kèm.

Nguồn tham khảo

138

AI pháp lý-quản trị-chủ quyền AI data AI an toàn-an ninh-techwar 2023-12-20 09:03:04

Dữ liệu đáng tin cậy 'lakehouses' có thể thúc đẩy chiến lược áp dụng AI của Lầu Năm Góc

Bài báo bàn về việc áp dụng AI tại Lầu Năm Góc, nhấn mạnh tầm quan trọng của "trusted data lakehouses" (kho dữ liệu tin cậy) trong chiến lược này.
Đề cập đến thách thức trong việc thu thập và quản lý dữ liệu đáng tin cậy, cần thiết cho AI.
Bài viết giải thích rằng các "data lakehouses" kết hợp lợi ích của data warehouses và data lakes, cung cấp khả năng lưu trữ dữ liệu linh hoạt và hiệu quả.
Nhấn mạnh vai trò của dữ liệu chất lượng cao và an toàn trong việc phát triển các ứng dụng AI hiệu quả.
Bài viết cũng đề xuất rằng việc tăng cường bảo mật và quản lý dữ liệu sẽ hỗ trợ chiến lược AI của Lầu Năm Góc.
Cuối cùng, bài viết kết luận rằng việc thiết lập và duy trì các "trusted data lakehouses" sẽ là chìa khóa để tận dụng hiệu quả AI tại Lầu Năm Góc, đồng thời bảo vệ dữ liệu quốc phòng.

📌 Việc thiết lập các "trusted data lakehouses" được coi là chìa khóa để tăng cường chiến lược AI của Lầu Năm Góc, cung cấp cơ sở dữ liệu linh hoạt, chất lượng cao và bảo mật, hỗ trợ phát triển ứng dụng AI hiệu quả.

Không có file đính kèm.

Nguồn tham khảo

155

AI data AI models 2023-12-20 08:54:23

Bạn muốn tận dụng sức mạnh của AI? Nó bắt đầu với nền tảng dữ liệu vững chắc

Bài viết nhấn mạnh tầm quan trọng của nền tảng dữ liệu vững chắc trong việc tận dụng sức mạnh của AI.
Đề cập đến các thách thức khi xây dựng cơ sở dữ liệu chất lượng cao, bao gồm việc thu thập, lưu trữ và xử lý dữ liệu.
Giới thiệu các chiến lược để cải thiện chất lượng dữ liệu, như làm sạch dữ liệu, tích hợp và chuẩn hóa dữ liệu.
Đề xuất rằng việc quản lý dữ liệu hiệu quả có thể cải thiện khả năng phân tích và dự đoán của AI, từ đó đem lại lợi ích kinh doanh.
Bài viết cũng nhấn mạnh sự cần thiết của việc bảo mật dữ liệu, đặc biệt trong bối cảnh tăng cường sử dụng dữ liệu trong các doanh nghiệp.
Cuối cùng, bài viết kết luận rằng một nền tảng dữ liệu vững chắc là chìa khóa để mở khóa tiềm năng của AI, góp phần vào sự thành công của doanh nghiệp.

📌 Bài viết nhấn mạnh rằng việc xây dựng một nền tảng dữ liệu vững chắc là yếu tố cơ bản để tận dụng sức mạnh của AI. Cải thiện chất lượng và bảo mật dữ liệu có thể thúc đẩy khả năng phân tích và dự đoán, từ đó mang lại lợi ích cho doanh nghiệp.

Không có file đính kèm.

Nguồn tham khảo

149

AI xã hội AI data 2023-12-20 08:09:08

Tác động của AI tạo sinh đối với cộng đồng người da đen Hoa Kỳ

Báo cáo của McKinsey tập trung vào ảnh hưởng của AI tạo sinh đối với cộng đồng người da đen.
AI tạo sinh có tiềm năng lớn trong việc cải thiện cuộc sống và kinh tế của cộng đồng này, nhưng cũng đặt ra những thách thức đáng kể.
Các cơ hội bao gồm việc tạo ra công nghệ tiên tiến giúp giảm thiểu chênh lệch về y tế, giáo dục và tài chính.
Thách thức chính là nguy cơ đầu độc dữ liệu và thiên vị trong các mô hình AI, có thể dẫn đến quyết định không công bằng và phân biệt đối xử.
Báo cáo cũng nhấn mạnh tầm quan trọng của việc xây dựng cơ sở dữ liệu đa dạng và công bằng để đảm bảo AI tạo sinh hoạt động hiệu quả và công bằng cho mọi nhóm người.

🤖 Báo cáo của McKinsey mở ra cái nhìn sâu sắc về ảnh hưởng của AI tạo sinh đối với cộng đồng người da đen, làm nổi bật cả cơ hội và thách thức. Việc tận dụng công nghệ này để giảm chênh lệch và đầu tư vào dữ liệu không thiên vị là chìa khóa để đảm bảo công bằng và tiến bộ cho tất cả mọi người.

Không có file đính kèm.

Nguồn tham khảo

122

AI models AI data AI pháp lý-quản trị-chủ quyền AI đạo đức 2023-12-18 03:48:29

LLM được giải phóng: Điều hướng sự hỗn loạn của thử nghiệm trực tuyến

- Các công ty AI tạo sinh như OpenAI và Anthropic đã phát hành các mô hình ngôn ngữ lớn (LLM) như GPT-3 (175 tỷ tham số) và LLaMA (540 tỷ tham số) trực tiếp ra công chúng mà chưa qua kiểm thử chi tiết.

- Đây được coi là thử nghiệm sử dụng cộng đồng mạng với hàng tỷ người dùng để phát hiện lỗi, thay vì kiểm thử hàng nghìn giờ như truyền thống.

- Có lo ngại về khả năng lạm dụng và thiếu chính xác do LLM thiếu hướng dẫn đạo đức và kiểm soát chất lượng. Các LLM có thể thiên vị dựa trên dữ liệu huấn luyện.

- 60% dữ liệu huấn luyện GPT-3 và 67% LLaMA đến từ CommonCrawl - dữ liệu web thiếu kiểm soát chất lượng. Trách nhiệm nằm ở nhà phát triển khi lựa chọn dữ liệu.

- Điều khoản dịch vụ của LLM không đảm bảo độ chính xác, không chịu trách nhiệm pháp lý và dựa vào sự cân nhắc của người dùng.

- Chưa rõ ràng về trách nhiệm pháp lý khi lỗi xảy ra - nhà cung cấp LLM, hay người dùng?

- Người sáng tạo nội dung nên có quyền từ chối LLM sử dụng dữ liệu của họ mà không xin phép.

- Luật hiện hành về bản quyền và quyền riêng tư dữ liệu chưa theo kịp tác động của LLM. Đã có các vụ kiện xảy ra.

Kết luận:

- Cần sớm có các quy định và kiểm soát chặt chẽ hơn đối với LLM, tránh lạm dụng và đảm bảo sử dụng đạo đức. Các công ty công nghệ cần cân nhắc kỹ trước khi phát hành công nghệ mới có thể gây hậu quả nghiêm trọng.

Không có file đính kèm.

Nguồn tham khảo

259

AI data 2023-12-18 03:19:01

Đầu độc dữ liệu: cách các nghệ sĩ phá hoại AI để trả thù các công cụ tạo hình ảnh

- Data poisoning (đầu độc dữ liệu) là hiện tượng các nghệ sĩ làm hỏng các bộ dữ liệu huấn luyện AI để trả thù các hệ thống tạo ảnh.

- Các hệ thống AI tạo ảnh được huấn luyện dựa trên các bộ dữ liệu lớn chứa hàng triệu hoặc tỷ ảnh.

- Một số hệ thống sử dụng ảnh hợp pháp, nhưng một số khác thu thập trái phép các ảnh trên mạng.

- Công cụ Nightshade làm hỏng nhẹ các ảnh để AI nhận diện sai nhưng con người vẫn nhìn bình thường.

- Nếu các ảnh này được dùng để huấn luyện AI, chúng sẽ làm hỏng dữ liệu và khiến AI nhận diện sai.

- Ví dụ, hỏi "không khí đỏ trên nền trời xanh" có thể trả về ảnh trứng hoặc dưa hấu.

- Càng nhiều ảnh bị làm hỏng, sự phá hoại càng lớn.

- Để giải quyết vấn đề này cần kiểm soát nguồn dữ liệu tốt hơn, kiểm tra chất lượng dữ liệu, và tôn trọng bản quyền.

Kết luận:

- Data poisoning là một cách các nghệ sĩ phản kháng việc các công ty công nghệ thu thập trái phép ảnh của họ.

- Điều này cho thấy cần có các quy định về quản trị công nghệ tốt hơn để bảo vệ quyền lợi của người dùng.

Không có file đính kèm.

Nguồn tham khảo

156

AI kiến thức-khóa học AI tips AI data AI prompts 2023-12-17 02:47:27

5 cách sử dụng Google Gemini để phân tích dữ liệu thân thiện với người mới bắt đầu

- Bài viết giới thiệu 5 cách dễ dàng sử dụng Google Gemini cho phân tích dữ liệu dành cho người mới bắt đầu.

- Google Gemini hỗ trợ tích hợp quản lý dữ liệu từ nhiều nguồn khác nhau như cloud, cơ sở dữ liệu và kho dữ liệu.

- Cung cấp thư viện thuật toán phân tích tiên tiến với các cài đặt sẵn và tùy chọn điều chỉnh tham số trực quan.

- Có khả năng xử lý dữ liệu thời gian thực, giúp người dùng đưa ra quyết định nhanh chóng dựa trên dữ liệu cập nhật liên tục.

- Gemini cho phép tạo ra các bảng mô tả dữ liệu tương tác cao, với khả năng tùy chỉnh mạnh mẽ và các tính năng như bản đồ địa lý, 3D và kể chuyện dữ liệu nâng cao.

- Nền tảng hỗ trợ công tác hợp tác với khả năng nhiều người dùng tương tác và chỉnh sửa cùng một lúc.

Kết luận: Bài viết cung cấp cái nhìn tổng quan về cách thức sử dụng Google Gemini trong việc phân tích dữ liệu. Từ việc tích hợp nguồn dữ liệu đa dạng, sử dụng thuật toán phân tích tiên tiến, xử lý dữ liệu thời gian thực, đến tạo ra các biểu đồ tương tác, Gemini mở ra cánh cửa vào lĩnh vực phân tích dữ liệu một cách thân thiện với người mới.

Không có file đính kèm.

Nguồn tham khảo

270

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

AI data

AI groups spend to replace low-cost ‘data labellers’ with high-paid experts

📌

China is building an entire empire on data

It will change the online economy and the evolution of artificial intelligence

Apple sẽ phân tích dữ liệu người dùng trên thiết bị để tăng cường công nghệ AI

Nghiên cứu quản lý nguồn nhân lực

Gặp gỡ các nhà báo đang đào tạo mô hình AI cho Meta và OpenAI

Từ nhà báo đến người huấn luyện AI

Các công ty AI đẩy mạnh tuyển dụng nhà báo để huấn luyện mô hình AI

Từ nhà báo tự do đến người huấn luyện AI

Công việc kiểm chứng thông tin và rủi ro tiềm ẩn

Những thách thức của công việc huấn luyện AI

Lý do nhiều nhà báo từ chối làm việc cho AI

Nhà báo tranh luận về việc tham gia huấn luyện AI

Chuyển từ nghi ngờ sang chấp nhận?

Các phát hiện chính: Tập trung quyền lực vào các công ty lớn

Sự tập trung dữ liệu trên YouTube

Tính đại diện và sự thiếu công bằng

Rủi ro từ sự không rõ ràng

Kết luận

Vấn đề cơ sở pháp lý

Những điểm chính trong ý kiến của EDPB

Tính ẩn danh của mô hình

Lợi ích hợp pháp

Mô hình được đào tạo bất hợp pháp

Tác động đến ngành công nghệ

Tạo ra một nguồn dữ liệu "công bằng" cho AI

Mở rộng hợp tác để phát hành dữ liệu công cộng

Các dự án dữ liệu công cộng khác

Giải pháp để tìm kiếm dữ liệu

Mở rộng sang các loại dữ liệu khác

Tạo dữ liệu mới

Tận dụng hiệu quả

Làm nhiều hơn với ít hơn

Follow Us

Tin phổ biến

TAG