- AI đang phát triển nhanh chóng nhưng sự phân mảnh và căng thẳng toàn cầu vẫn tồn tại.
- Để tận dụng tối đa lợi ích của AI, cần giảm sự phân mảnh dữ liệu trên toàn cầu và trong nội bộ các công ty.
- 3 bước quan trọng để giảm phân mảnh dữ liệu bao gồm:
1. Bắt đầu từ cấp độ công ty: Di cư đám mây giúp dữ liệu trở nên dễ tiếp cận cho AI và đảm bảo dữ liệu được cấu trúc và sạch sẽ.
2. Tạo ra hệ sinh thái công nghiệp: Các công ty cần hợp tác và chia sẻ thông tin để tối ưu hóa năng suất và khả năng đổi mới.
3. Xây dựng khung chính sách quốc tế: Giảm rào cản dữ liệu giữa các quốc gia và thiết lập quy định công nghệ đồng bộ giữa các cường quốc kinh tế.
- Sự tin tưởng là yếu tố quan trọng để giảm sự phân mảnh và thúc đẩy hợp tác giữa các công ty quốc tế.
- Xây dựng các "liên minh tin tưởng" sẽ khuyến khích chia sẻ dữ liệu thường xuyên hơn.
- 3 yếu tố cốt lõi bao gồm: di cư đám mây, mạng lưới kinh doanh và môi trường toàn cầu hài hòa dựa trên sự tin tưởng.
- Hành động theo từng bước sẽ làm giảm sự phân mảnh và tăng cường liên kết, từ đó tối đa hóa tiềm năng của AI cho nhiều đối tượng.
📌 Tối ưu hóa AI yêu cầu giảm sự phân mảnh dữ liệu toàn cầu, xây dựng hệ sinh thái công nghiệp và thiết lập khung chính sách quốc tế. Điều này sẽ tạo ra lợi ích lớn hơn cho các tổ chức và thúc đẩy sự phát triển bền vững.
https://www.weforum.org/stories/2025/01/ai-fragmentation-optimize-benefits/
#WEF
- Meta đang đối mặt với một vụ kiện lớn vì sử dụng nội dung có bản quyền để huấn luyện các mô hình AI Llama, theo tài liệu nội bộ vừa được công bố.
- Trong một loạt các email nội bộ, Ahmad Al-Dahle, phó giám đốc AI tạo sinh của Meta, nhấn mạnh mục tiêu phát triển AI phải vượt qua GPT-4 của OpenAI.
- Một email từ Sony Theakanath, giám đốc sản phẩm của Meta, xác nhận công ty đã được phép sử dụng trang web vi phạm bản quyền LibGen để huấn luyện mô hình Llama3.
- Theakanath cho rằng LibGen là "cần thiết" để đạt được các số liệu tiên tiến, và cho biết OpenAI cũng như Mistral có thể đang sử dụng nguồn dữ liệu tương tự.
- Vụ kiện nhóm do tác giả Richard Kadrey và nghệ sĩ hài Sarah Silverman dẫn đầu cáo buộc Meta vi phạm luật sở hữu trí tuệ khi sử dụng nội dung trái phép.
- Meta lập luận rằng việc sử dụng nội dung có bản quyền trong dữ liệu huấn luyện nên được coi là hợp pháp theo quy định "sử dụng hợp lý".
- Một số biện pháp "giảm thiểu" đã được đề xuất để sử dụng LibGen, bao gồm việc loại bỏ dữ liệu bị đánh dấu rõ ràng là ăn cắp và không nhắc đến nguồn dữ liệu từ trang này.
- Meta đã thảo luận về các rủi ro về chính sách liên quan đến việc sử dụng LibGen, lo ngại rằng nó có thể ảnh hưởng đến vị thế đàm phán của công ty với các cơ quan quản lý.
- Nhiều tài liệu nội bộ đề xuất các cách để loại bỏ thông tin bản quyền trong dữ liệu từ LibGen, như xóa các tiêu đề bản quyền và danh sách tác giả.
- Dù Meta đã sử dụng nhiều loại tài liệu công khai từ năm 2007, cuộc đua với các đối thủ như OpenAI đang trở nên khốc liệt hơn bao giờ hết.
- Một số nhà lãnh đạo trong ngành cho rằng đã có "bức tường dữ liệu", tức là thiếu dữ liệu mới để huấn luyện các mô hình ngôn ngữ lớn, nhưng cũng có những tiếng nói phản bác điều này.
📌 Meta đang chịu sức ép lớn do vụ kiện liên quan đến việc sử dụng dữ liệu trái phép từ LibGen để huấn luyện AI, nhằm cạnh tranh với OpenAI. Các tài liệu cho thấy công ty đã thảo luận về việc che giấu thông tin bản quyền và chiến lược để đạt được kết quả tốt nhất trong lĩnh vực này.
https://www.theverge.com/2025/1/14/24343692/meta-lawsuit-copyright-lawsuit-llama-libgen
- Elon Musk tuyên bố nguồn dữ liệu do con người tạo ra để huấn luyện các mô hình AI như ChatGPT đã cạn kiệt, dự báo trước đó cho thấy dữ liệu thật sẽ hết trong 2-8 năm tới
- Lý do chính: con người không thể tạo ra dữ liệu mới (văn bản, video, hình ảnh) đủ nhanh để đáp ứng nhu cầu khổng lồ của các mô hình AI
- Dữ liệu thật có những hạn chế:
+ Chứa lỗi chính tả và nội dung không nhất quán
+ Có thể mang định kiến cao
+ Tốn 80% thời gian để xử lý và chuẩn bị
+ Nguồn cung đang ngày càng khan hiếm
- Dữ liệu tổng hợp là giải pháp thay thế:
+ Do thuật toán tạo ra như văn bản từ ChatGPT hay hình ảnh từ DALL-E
+ Tiết kiệm chi phí và nhanh hơn
+ Giải quyết vấn đề quyền riêng tư
+ Nguồn cung không giới hạn
- Thách thức của dữ liệu tổng hợp:
+ Mô hình AI có thể "sụp đổ" khi phụ thuộc quá nhiều vào dữ liệu tổng hợp
+ Tạo ra nhiều "ảo giác" - thông tin sai lệch
+ Có thể quá đơn giản, thiếu chi tiết và sự đa dạng
- Giải pháp đề xuất:
+ Cần có hệ thống theo dõi và xác thực dữ liệu huấn luyện AI toàn cầu
+ Trang bị hệ thống theo dõi metadata
+ Duy trì giám sát của con người trong quá trình huấn luyện
+ Sử dụng thuật toán AI để kiểm tra và xác minh dữ liệu
📌 Dữ liệu thật dự kiến cạn kiệt trong 2-8 năm tới. Gartner dự báo đến năm 2030, dữ liệu tổng hợp sẽ trở thành nguồn dữ liệu chính để huấn luyện AI. Để thành công, cần có hệ thống theo dõi toàn cầu và duy trì sự giám sát của con người.
https://theconversation.com/tech-companies-are-turning-to-synthetic-data-to-train-ai-models-but-theres-a-hidden-cost-246248
- Mô hình AI hiện tại thường yêu cầu trung tâm dữ liệu lớn với hàng chục ngàn GPU. Sự cạnh tranh giữa các tỷ phú công nghệ như Elon Musk và Mark Zuckerberg đang diễn ra mạnh mẽ.
- Musk sở hữu khoảng 100.000 GPU trong một trung tâm dữ liệu và dự kiến mua thêm 200.000, trong khi Zuckerberg có kế hoạch đạt 350.000 GPU.
- Việc tăng số lượng GPU không đảm bảo hiệu suất tốt hơn do sự phức tạp trong việc đồng bộ hóa dữ liệu và thời gian xử lý không hiệu quả.
- Các nhà khoa học máy tính đang tìm kiếm giải pháp ít tốn kém hơn cho việc đào tạo mô hình AI trong tương lai, có thể bao gồm việc phân phối đào tạo giữa các trung tâm dữ liệu nhỏ.
- Phương pháp DiLoCo, được phát triển bởi Arthur Douillard từ Google DeepMind, cho phép đào tạo trên nhiều trung tâm dữ liệu mà không cần liên kết chặt chẽ giữa các GPU.
- DiLoCo giảm tải thông tin chia sẻ 500 lần giữa các "hòn đảo" trung tâm dữ liệu, cải thiện hiệu suất đào tạo.
- Mặc dù mô hình tập trung có thể đạt được hiệu suất cao hơn, nhưng mô hình phân tán thể hiện khả năng tổng quát tốt hơn khi được thử nghiệm với dữ liệu chưa gặp bao giờ.
- Vincent Weisser từ Prime Intellect đã áp dụng DiLoCo để đào tạo mô hình Intellect-1 với 10 tỷ thông số trên 30 cụm GPU ở 8 thành phố trên 3 lục địa.
- Trong các thử nghiệm, cụm GPU hoạt động hiệu quả 83% thời gian, tốt hơn nhiều so với mô hình tập trung.
- Prime Intellect đã sử dụng mỗi cụm gồm 8 GPU và chưa đến 14 cụm hoạt động cùng một lúc, cho thấy sự khả thi của mô hình phân tán ngay cả khi quy mô nhỏ.
- Một trong những mục tiêu chính của việc phân phối đào tạo là làm giảm sự tập trung quyền lực trong lĩnh vực AI, trong khi vẫn giữ chi phí thấp hơn so với các trung tâm dữ liệu lớn.
- Một viễn cảnh tương lai là việc sử dụng máy tính tiêu dùng như iPhone để tham gia vào quá trình đào tạo AI, mặc dù điều này đòi hỏi các bước đột phá về công nghệ.
📌 Mô hình AI trong tương lai có thể không cần trung tâm dữ liệu khổng lồ, thay vào đó là phương pháp phân phối đào tạo giữa các trung tâm nhỏ góp phần giảm chi phí và cải thiện hiệu suất. Các nghiên cứu như DiLoCo cho thấy tiềm năng của phương pháp này.
https://www.economist.com/science-and-technology/2025/01/08/training-ai-models-might-not-need-enormous-data-centres
Huấn luyện các mô hình AI có thể không cần trung tâm dữ liệu khổng lồ
Cuối cùng, các mô hình có thể được huấn luyện mà không cần bất kỳ phần cứng chuyên dụng nào
Một mạng lưới trái tim pixel
Minh họa: Mariaelena Caputi
Ngày 8 tháng 1 năm 2025
Chia sẻ
Từng có thời, những người giàu nhất thế giới thi đua về du thuyền, máy bay phản lực và đảo tư nhân. Giờ đây, cuộc cạnh tranh "đo lường sức mạnh" được chuyển sang các cụm máy tính. Cách đây chỉ 18 tháng, OpenAI đã huấn luyện GPT-4, khi đó là mô hình ngôn ngữ lớn (LLM) tiên tiến nhất, trên một mạng lưới khoảng 25.000 bộ xử lý đồ họa (GPU) tiên tiến nhất của Nvidia. Hiện tại, Elon Musk và Mark Zuckerberg, lần lượt là giám đốc của X và Meta, đang “khoe” số chip của họ: Musk tuyên bố sở hữu 100.000 GPU trong một trung tâm dữ liệu và dự định mua thêm 200.000. Zuckerberg nói rằng anh sẽ đạt 350.000 GPU.
Cuộc đua xây dựng các cụm máy tính lớn hơn để phát triển các mô hình trí tuệ nhân tạo (AI) ngày càng mạnh mẽ không thể kéo dài mãi. Mỗi chip bổ sung không chỉ tăng khả năng xử lý mà còn làm tăng gánh nặng tổ chức để giữ cho toàn bộ cụm máy hoạt động đồng bộ. Càng nhiều chip, càng tốn thời gian để các chip trong trung tâm dữ liệu trao đổi dữ liệu hơn là làm công việc hữu ích. Đơn giản chỉ tăng số lượng GPU sẽ dẫn đến lợi ích giảm dần.
Do đó, các nhà khoa học máy tính đang tìm kiếm những cách thông minh hơn, ít tốn tài nguyên hơn để huấn luyện các mô hình AI trong tương lai. Giải pháp có thể là từ bỏ các cụm máy tính tùy chỉnh khổng lồ (và chi phí đầu tư ban đầu liên quan) hoàn toàn, thay vào đó phân phối nhiệm vụ huấn luyện giữa nhiều trung tâm dữ liệu nhỏ hơn. Một số chuyên gia cho rằng, đây có thể là bước đầu tiên hướng tới một mục tiêu tham vọng hơn: huấn luyện các mô hình AI mà không cần bất kỳ phần cứng chuyên dụng nào.
Việc huấn luyện một hệ thống AI hiện đại bao gồm việc nạp dữ liệu—ví dụ như các câu văn hoặc cấu trúc của một protein—với một số phần bị ẩn đi. Mô hình sẽ đoán nội dung của các phần bị ẩn. Nếu đoán sai, mô hình sẽ được tinh chỉnh qua một quy trình toán học gọi là “lan truyền ngược” (backpropagation) để trong lần dự đoán tiếp theo, kết quả sẽ gần đúng hơn một chút.
Tôi biết bạn đang gặp rắc rối
Vấn đề xuất hiện khi muốn làm việc “song song”—để 2, hoặc 200.000 GPU thực hiện lan truyền ngược cùng lúc. Sau mỗi bước, các chip phải chia sẻ dữ liệu về các thay đổi mà chúng đã thực hiện. Nếu không, sẽ không có một lần huấn luyện duy nhất, mà sẽ có 200.000 chip huấn luyện 200.000 mô hình riêng lẻ. Bước này, gọi là “lưu trữ tạm thời” (checkpointing), có thể trở nên phức tạp rất nhanh. Chỉ có một liên kết giữa 2 chip, nhưng có tới 190 liên kết giữa 20 chip và gần 20 tỷ liên kết đối với 200.000 chip. Thời gian cần để lưu trữ tạm thời tăng lên tương ứng. Trong các đợt huấn luyện lớn, khoảng một nửa thời gian thường được dành cho bước này.
Tất cả thời gian bị lãng phí đó đã khiến Arthur Douillard, một kỹ sư tại Google DeepMind, nảy ra một ý tưởng. Tại sao không giảm bớt số lần lưu trữ tạm thời? Vào cuối năm 2023, anh cùng các đồng nghiệp đã công bố một phương pháp mang tên “Distributed Low-Communication Training of Language Models” (Huấn luyện mô hình ngôn ngữ phân tán với giao tiếp thấp), hay DiLoCo. Thay vì huấn luyện trên 100.000 GPU, tất cả đều giao tiếp với nhau ở mọi bước, DiLoCo mô tả cách phân phối việc huấn luyện trên các “đảo” khác nhau, mỗi đảo vẫn là một trung tâm dữ liệu cỡ lớn. Trong nội bộ các đảo, lưu trữ tạm thời vẫn diễn ra như bình thường, nhưng giữa các đảo, gánh nặng giao tiếp giảm tới 500 lần.
Có những sự đánh đổi. Các mô hình được huấn luyện theo cách này dường như khó đạt được hiệu năng đỉnh như các mô hình được huấn luyện trong các trung tâm dữ liệu đơn lẻ. Nhưng điều thú vị là, tác động này dường như chỉ tồn tại khi các mô hình được đánh giá trên các nhiệm vụ mà chúng đã được huấn luyện: dự đoán dữ liệu bị thiếu. Khi được yêu cầu thực hiện các dự đoán chưa từng được đưa ra trước đó, các mô hình dường như tổng quát hóa tốt hơn. Khi yêu cầu trả lời một câu hỏi lý luận có dạng không nằm trong dữ liệu huấn luyện, chúng có thể vượt trội so với các mô hình được huấn luyện theo cách truyền thống. Điều này có thể là do mỗi đảo tính toán có sự tự do nhất định để phát triển theo hướng riêng của nó giữa các bước lưu trữ, trước khi bị kéo trở lại nhiệm vụ. Giống như một nhóm sinh viên đại học chăm chỉ tự lập nhóm nghiên cứu thay vì chỉ tham dự các bài giảng chung, kết quả cuối cùng có thể kém tập trung vào nhiệm vụ cụ thể, nhưng lại có trải nghiệm rộng hơn.
Vincent Weisser, người sáng lập Prime Intellect, một phòng thí nghiệm AI mã nguồn mở, đã áp dụng DiLoCo và phát triển nó. Vào tháng 11 năm 2024, nhóm của ông hoàn thành việc huấn luyện Intellect-1, một mô hình ngôn ngữ lớn với 10 tỷ tham số, có thể so sánh với Llama 2 được huấn luyện tập trung của Meta (ra mắt năm 2023).
Nhóm của Weisser đã tạo OpenDiLoCo, một phiên bản chỉnh sửa nhẹ từ bản gốc của Douillard, và triển khai để huấn luyện một mô hình mới bằng cách sử dụng 30 cụm GPU tại 8 thành phố trên 3 châu lục. Trong các thử nghiệm, các GPU hoạt động 83% thời gian—so với 100% trong kịch bản cơ bản khi tất cả GPU nằm trong cùng một tòa nhà. Khi việc huấn luyện giới hạn ở các trung tâm dữ liệu tại Mỹ, chúng hoạt động tới 96% thời gian. Thay vì lưu trữ ở mỗi bước huấn luyện, cách tiếp cận của Weisser chỉ lưu trữ mỗi 500 bước. Và thay vì chia sẻ toàn bộ thông tin về mỗi thay đổi, cách tiếp cận này “lượng tử hóa” các thay đổi, loại bỏ ba phần tư dữ liệu ít quan trọng nhất.
Đối với các phòng thí nghiệm tiên tiến nhất, với các trung tâm dữ liệu đơn lẻ đã được xây dựng, chưa có lý do cấp bách để chuyển sang phương pháp huấn luyện phân tán. Nhưng theo thời gian, Douillard cho rằng cách tiếp cận này sẽ trở thành tiêu chuẩn. Những lợi thế là rõ ràng, và những hạn chế—ít nhất là theo các đợt huấn luyện nhỏ đã hoàn thành đến nay—dường như khá ít.
Đối với một phòng thí nghiệm mã nguồn mở như Prime Intellect, cách tiếp cận phân tán còn mang lại lợi ích khác. Các trung tâm dữ liệu đủ lớn để huấn luyện một mô hình 10 tỷ tham số rất hiếm. Sự khan hiếm này đẩy giá truy cập lên cao—nếu chúng thậm chí còn có sẵn trên thị trường, thay vì bị các công ty sở hữu chúng tích trữ. Tuy nhiên, các cụm nhỏ hơn lại dễ tiếp cận hơn. Mỗi cụm GPU trong số 30 cụm Prime Intellect sử dụng chỉ có 8 GPU, với tối đa 14 cụm trực tuyến tại bất kỳ thời điểm nào. Tài nguyên này nhỏ hơn gấp 1.000 lần so với các trung tâm dữ liệu của các phòng thí nghiệm hàng đầu, nhưng cả Weisser lẫn Douillard đều không thấy lý do gì cách tiếp cận của họ không thể mở rộng quy mô.
Đối với Weisser, động lực phân tán việc huấn luyện cũng là để phân tán quyền lực—không chỉ theo nghĩa điện năng. “Điều cực kỳ quan trọng là điều này không nằm trong tay một quốc gia hay một công ty duy nhất,” ông nói. Tuy nhiên, phương pháp này không hoàn toàn miễn phí—một cụm GPU 8 chiếc mà ông sử dụng có giá 600.000 USD; tổng mạng lưới mà Prime Intellect triển khai sẽ có giá 18 triệu USD. Nhưng công trình của ông là một dấu hiệu, ít nhất, rằng việc huấn luyện các mô hình AI có khả năng không cần phải tiêu tốn hàng tỷ USD.
Và nếu chi phí có thể giảm thêm nữa thì sao? Giấc mơ của các nhà phát triển theo đuổi AI thực sự phi tập trung là loại bỏ nhu cầu về chip huấn luyện chuyên dụng. Tính theo teraflop, một con số đo lường số lượng thao tác mà một con chip có thể thực hiện trong một giây, một trong những con chip mạnh nhất của Nvidia mạnh hơn khoảng 300 chiếc iPhone cao cấp. Nhưng trên thế giới có nhiều iPhone hơn là GPU. Điều gì sẽ xảy ra nếu chúng (và các máy tính tiêu dùng khác) có thể được đưa vào làm việc, thực hiện các đợt huấn luyện khi chủ nhân đang ngủ?
Sự đánh đổi sẽ rất lớn. Sự dễ dàng trong việc làm việc với các con chip hiệu năng cao là, ngay cả khi được phân phối khắp thế giới, chúng vẫn là cùng một kiểu chip hoạt động ở cùng một tốc độ. Điều này sẽ không còn nữa. Tệ hơn, không chỉ tiến trình huấn luyện cần được tập hợp và phân phối lại ở mỗi bước lưu trữ, mà dữ liệu huấn luyện cũng phải như vậy, bởi vì phần cứng tiêu dùng điển hình không thể lưu trữ các terabyte dữ liệu cần thiết cho một mô hình ngôn ngữ lớn tiên tiến. Những đột phá tính toán mới sẽ cần thiết, Nic Lane từ Flower, một trong những phòng thí nghiệm đang cố gắng hiện thực hóa cách tiếp cận này, cho biết.
Tuy nhiên, lợi ích có thể cộng dồn, với cách tiếp cận này dẫn đến các mô hình tốt hơn, Lane nhận định. Cũng giống như việc huấn luyện phân tán giúp mô hình tổng quát hóa tốt hơn, các mô hình được huấn luyện trên các tập dữ liệu “chia nhỏ”, nơi chỉ có một phần dữ liệu huấn luyện được cung cấp cho mỗi GPU, có thể hoạt động tốt hơn khi gặp phải các đầu vào bất ngờ trong thế giới thực. Tất cả điều này có thể buộc các tỷ phú phải tìm thứ khác để tranh đua. ■
Training AI models might not need enormous data centres
Eventually, models could be trained without any dedicated hardware at all
A network of pixelated hearts
Illustration: Mariaelena Caputi
Jan 8th 2025
Share
Once, the world’s richest men competed over yachts, jets and private islands. Now, the size-measuring contest of choice is clusters. Just 18 months ago, OpenAI trained GPT-4, its then state-of-the-art large language model (LLM), on a network of around 25,000 then state-of-the-art graphics processing units (GPUs) made by Nvidia. Now Elon Musk and Mark Zuckerberg, bosses of X and Meta respectively, are waving their chips in the air: Mr Musk says he has 100,000 GPUs in one data centre and plans to buy 200,000. Mr Zuckerberg says he’ll get 350,000.
This contest to build ever-bigger computing clusters for ever-more-powerful artificial-intelligence (AI) models cannot continue for ever. Each extra chip adds not only processing power but also to the organisational burden of keeping the whole cluster synchronised. The more chips there are, the more time the data centre’s chips will spend shuttling data around rather than doing useful work. Simply increasing the number of GPUs will provide diminishing returns.
Computer scientists are therefore looking for cleverer, less resource-intensive ways to train future AI models. The solution could lie with ditching the enormous bespoke computing clusters (and their associated upfront costs) altogether and, instead, distributing the task of training between many smaller data centres. This, say some experts, could be the first step towards an even more ambitious goal—training AI models without the need for any dedicated hardware at all.
Training a modern AI system involves ingesting data—sentences, say, or the structure of a protein—that has had some sections hidden. The model makes a guess at what the hidden sections might contain. If it makes the wrong guess, the model is tweaked by a mathematical process called backpropagation so that, the next time it tries the same prediction, it will be infinitesimally closer to the correct answer.
I knew you were trouble
The problems come when you want to be able to work “in parallel”—to have two, or 200,000 GPUs working on backpropagation at the same time. After each step, the chips share data about the changes they have made. If they didn’t, you wouldn’t have a single training run, you’d have 200,000 chips training 200,000 models on their own. That step, called “checkpointing”, can get complicated fast. There is only one link between two chips, but 190 between 20 chips and almost 20bn for 200,000 chips. The time it takes to checkpoint grows commensurately. For big training runs, around half the time can often be spent on checkpointing.
All that wasted time gave Arthur Douillard, an engineer at Google DeepMind, an idea. Why not just do fewer checkpoints? In late 2023, he and his colleagues published a method for “Distributed Low-Communication Training of Language Models”, or DiLoCo. Rather than training on 100,000 GPUs, all of which speak to each other at every step, DiLoCo describes how to distribute training across different “islands”, each still a sizeable data centre. Within the islands, checkpointing continues as normal, but across them, the communication burden drops 500-fold.
There are trade-offs. Models trained this way seem to struggle to hit the same peak performance as those trained in monolithic data centres. But interestingly, that impact seems to exist only when the models are rated on the same tasks they are trained on: predicting the missing data.
When they are turned to predictions that they’ve never been asked to make before, they seem to generalise better. Ask them to answer a reasoning question in a form not in the training data, and pound for pound they may outclass the traditionally trained models. That could be an artefact of each island of compute being slightly freer to spiral off in its own direction between checkpointing runs, when they get hauled back on task. Like a cohort of studious undergraduates forming their own research groups rather than being lectured to en masse, the end result is slightly less focused on the task at hand, but with a much wider experience as a result.
Vincent Weisser, founder of Prime Intellect, an open-source AI lab, has taken DiLoCo and run with it. In November 2024, his team completed training on Intellect-1, a 10bn-parameter LLM comparable to Meta’s centrally trained Llama 2 (released in 2023).
Mr Weisser’s team built OpenDiLoCo, a lightly modified version of Mr Douillard’s original, and set it to work training a new model using 30 GPU clusters in eight cities across three continents. In his trials, the GPUs ended up actively working for 83% of the time—that’s compared with 100% in the baseline scenario, in which all the GPUs were in the same building. When training was limited to data centres in America, they were actively working for 96% of the time. Instead of checkpointing every training step, Mr Weisser’s approach checkpoints only every 500 steps. And instead of sharing all the information about every change, it “quantises” the changes, dropping the least significant three-quarters of the data.
For the most advanced labs, with monolithic data centres already built, there is no pressing reason to make the switch to distributed training yet. But, given time, Mr Douillard thinks that his approach will become the norm. The advantages are clear, and the downsides—at least, those illustrated by the small training runs that have been completed so far—seem to be fairly limited.
For an open-source lab like Prime Intellect, the distributed approach has other benefits. Data centres big enough to train a 10bn-parameter model are few and far between. That scarcity drives up prices to access their compute—if it is even available on the open market at all, rather than hoarded by the companies that have built them. Smaller clusters are readily available, however. Each of the 30 clusters Prime Intellect used was a rack of just eight GPUs, with up to 14 of the clusters online at any given time. This resource is a thousand times smaller than data centres used by frontier labs, but neither Mr Weisser nor Mr Douillard see any reason why their approach would not scale.
For Mr Weisser, the motivation for distributing training is also to distribute power—and not just in the electrical sense. “It’s extremely important that it’s not in the hands of one nation, one corporation,” he says. The approach is hardly a free-for-all, though—one of the eight-GPU clusters he used in his training run costs $600,000; the total network deployed by Prime Intellect would cost $18m to buy. But his work is a sign, at least, that training capable AI models does not have to cost billions of dollars.
And what if the costs could drop further still? The dream for developers pursuing truly decentralised AI is to drop the need for purpose-built training chips entirely. Measured in teraflops, a count of how many operations a chip can do in a second, one of Nvidia’s most capable chips is roughly as powerful as 300 or so top-end iPhones. But there are a lot more iPhones in the world than GPUs. What if they (and other consumer computers) could all be put to work, churning through training runs while their owners sleep?
The trade-offs would be enormous. The ease of working with high-performance chips is that, even when distributed around the world, they are at least the same model operating at the same speed. That would be lost. Worse, not only would the training progress need to be aggregated and redistributed at each checkpoint step, so would the training data itself, since typical consumer hardware is unable to store the terabytes of data that goes into a cutting-edge LLM. New computing breakthroughs would be required, says Nic Lane of Flower, one of the labs trying to make that approach a reality.
The gains, though, could add up, with the approach leading to better models, reckons Mr Lane. In the same way that distributed training makes models better at generalising, models trained on “sharded” datasets, where only portions of the training data are given to each GPU, could perform better when confronted with unexpected input in the real world. All of which would leave the billionaires needing something else to compete over. ■
- Deepseek, phòng thí nghiệm AI từ Trung quốc vừa phát hành mô hình AI nguồn mở Deepseek v3, vượt trội so với nhiều đối thủ trong các bài kiểm tra phổ biến
- Mô hình này thể hiện hiện tượng kỳ lạ khi tự nhận mình là Chatgpt và khẳng định là phiên bản của GPT-4 được phát hành năm 2023
- Trong 8 lần thử nghiệm, Deepseek v3 tự nhận là Chatgpt (v4) 5 lần và chỉ nhận đúng là Deepseek v3 3 lần
- Khi được hỏi về API của Deepseek, mô hình này lại đưa ra hướng dẫn sử dụng API của OpenAI
- Mike Cook, nghiên cứu viên tại King's College London, cho rằng hiện tượng này có thể do mô hình được huấn luyện trên dữ liệu có chứa phản hồi từ Chatgpt
- Điều khoản dịch vụ của OpenAI cấm người dùng sử dụng đầu ra để phát triển các mô hình cạnh tranh
- Sam Altman, CEO OpenAI, đã đăng bài chỉ trích: "Sao chép điều gì đó đã hoạt động thì tương đối dễ. Làm điều mới mẻ, rủi ro và khó khăn khi không biết liệu nó có hoạt động hay không mới thực sự khó"
- Theo ước tính, 90% nội dung web có thể được tạo bởi AI vào năm 2026
- Heidy Khlaaf, nhà khoa học trưởng về AI tại AI Now Institute, cho rằng việc "chưng cất" kiến thức từ mô hình hiện có có thể giúp tiết kiệm chi phí cho các nhà phát triển
📌 Deepseek v3 từ Trung quốc cho thấy vấn đề nghiêm trọng về dữ liệu huấn luyện AI khi tự nhận mình là Chatgpt trong 5/8 lần thử nghiệm. Hiện tượng này cảnh báo về nguy cơ 90% nội dung web sẽ do AI tạo ra vào 2026, ảnh hưởng đến chất lượng dữ liệu huấn luyện trong tương lai.
https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/
- Hugging Face vừa công bố FineMath - bộ dữ liệu nguồn mở toàn diện nhằm cải thiện khả năng tiếp cận nội dung toán học chất lượng cao cho người học và nhà nghiên cứu
- FineMath gồm 2 phiên bản chính:
+ FineMath-3+: 34 tỷ token từ 21,4 triệu tài liệu, định dạng Markdown và LaTeX
+ FineMath-4+: 9,6 tỷ token từ 6,7 triệu tài liệu, tập trung vào nội dung chất lượng cao với giải thích chi tiết
- Quy trình tạo FineMath gồm nhiều giai đoạn:
+ Trích xuất dữ liệu thô từ CommonCrawl sử dụng công cụ Resiliparse
+ Đánh giá bằng bộ phân loại tùy chỉnh dựa trên Llama-3.1-70B-Instruct
+ Loại bỏ trùng lặp và đánh giá đa ngôn ngữ
+ Khắc phục vấn đề lọc ký hiệu LaTeX không chính xác
- Hiệu suất vượt trội trên các benchmark:
+ Cải thiện đáng kể về khả năng lập luận và độ chính xác toán học
+ Kết hợp với InfiMM-WebMath tạo bộ dữ liệu khoảng 50 tỷ token
+ Tích hợp dễ dàng vào các pipeline học máy
- Kế hoạch phát triển trong tương lai:
+ Mở rộng hỗ trợ ngôn ngữ ngoài tiếng Anh
+ Cải thiện trích xuất và bảo toàn ký hiệu toán học
+ Phát triển các chỉ số đánh giá chất lượng nâng cao
+ Tạo các tập con chuyên biệt cho từng cấp độ giáo dục
📌 Hugging Face đã tạo bước đột phá với FineMath - bộ dữ liệu nguồn mở 50 tỷ token cho AI học toán. Dataset này bao gồm 34 tỷ token từ FineMath-3+ và 9,6 tỷ token từ FineMath-4+, hỗ trợ cải thiện hiệu suất trên các benchmark như GSM8k và MATH.
https://www.marktechpost.com/2024/12/20/hugging-face-releases-finemath-the-ultimate-open-math-pre-training-dataset-with-50b-tokens/
- Ủy ban bảo vệ dữ liệu châu Âu (EDPB) đã công bố ý kiến về bảo vệ dữ liệu trong mô hình AI, đáp ứng yêu cầu từ Ủy ban bảo vệ dữ liệu Ireland.
- Hướng dẫn giải quyết 3 vấn đề chính: khi nào mô hình AI được coi là ẩn danh, khi nào công ty có thể xử lý dữ liệu cá nhân mà không cần sự đồng ý, và hậu quả của việc xử lý dữ liệu trái phép trong quá trình phát triển AI.
- Mô hình AI được coi là ẩn danh nếu khả năng truy nguyên dữ liệu cá nhân được sử dụng để đào tạo là "không đáng kể". Các biện pháp để chứng minh tính ẩn danh bao gồm: hạn chế thu thập dữ liệu cá nhân, áp dụng biện pháp kỹ thuật mạnh để ngăn tái nhận dạng, đảm bảo dữ liệu được ẩn danh đầy đủ.
- Công ty có thể xử lý dữ liệu cá nhân mà không cần sự đồng ý dựa trên cơ sở "lợi ích hợp pháp" nếu đáp ứng 3 tiêu chí: tính hợp pháp, tính cần thiết và cân bằng lợi ích. Các biện pháp giảm thiểu tác động bao gồm: biện pháp bảo vệ kỹ thuật, giả danh hóa, che giấu dữ liệu, cơ chế thực thi quyền của chủ thể dữ liệu.
- Hậu quả của việc xử lý dữ liệu trái phép trong phát triển AI sẽ ảnh hưởng đến cách mô hình được phép hoạt động. Cơ quan có thẩm quyền sẽ đánh giá từng trường hợp cụ thể.
- Hướng dẫn này rất quan trọng đối với các công ty công nghệ vì có thể ảnh hưởng đến cách thực thi luật bảo mật ở EU. Vi phạm GDPR có thể bị phạt tới 20 triệu euro hoặc 4% doanh thu hàng năm.
- Nhiều công ty AI đã gặp khó khăn trong việc tuân thủ GDPR do cần lượng lớn dữ liệu cá nhân để đào tạo mô hình. Các vụ việc gần đây liên quan đến OpenAI, Meta, Clearview AI và X cho thấy những thách thức này.
📌 EDPB đưa ra hướng dẫn mới về bảo vệ dữ liệu trong AI, giải quyết vấn đề ẩn danh, xử lý dữ liệu không cần đồng ý và hậu quả xử lý trái phép. Công ty có thể bị phạt tới 20 triệu euro nếu vi phạm. Nhiều doanh nghiệp lớn đã gặp khó khăn tuân thủ.
https://www.techrepublic.com/article/eu-guidance-ai-privacy-laws/
📌 ODI nhấn mạnh tính cấp thiết của minh bạch dữ liệu AI để đảm bảo trách nhiệm và tin cậy trong hệ sinh thái AI. Chỉ số AIDTI đánh giá 22 mô hình, tiết lộ nhiều thiếu sót và đề xuất cải thiện qua nghiên cứu, tiêu chuẩn hóa, và áp dụng hệ thống hỗ trợ tương tác.
https://theodi.cdn.ngo/media/documents/Building_a_user-centric_AI_data_transparency_approach.pdf
• Nhóm Data Provenance Initiative, bao gồm hơn 50 nhà nghiên cứu từ học viện và công nghiệp, đã kiểm tra gần 4.000 bộ dữ liệu công khai trải dài trên 600 ngôn ngữ, 67 quốc gia trong 3 thập kỷ.
• Đầu những năm 2010, dữ liệu AI đến từ nhiều nguồn đa dạng như bách khoa toàn thư, web, biên bản nghị viện, báo cáo thời tiết. Các bộ dữ liệu được tuyển chọn cẩn thận cho từng nhiệm vụ cụ thể.
• Sau năm 2017, khi kiến trúc transformer ra đời, ngành AI bắt đầu thu thập dữ liệu ồ ạt từ internet. Từ 2018, web trở thành nguồn chính cho dữ liệu âm thanh, hình ảnh và video.
• YouTube hiện chiếm hơn 70% dữ liệu cho các mô hình video và giọng nói, tạo lợi thế lớn cho Alphabet (công ty mẹ của Google).
• Hơn 90% bộ dữ liệu được phân tích đến từ châu Âu và Bắc Mỹ, chưa đến 4% đến từ châu Phi.
• Các công ty lớn như OpenAI và Google đã ký các thỏa thuận độc quyền chia sẻ dữ liệu với các nhà xuất bản, diễn đàn lớn như Reddit và các nền tảng mạng xã hội.
• Nhiều bộ dữ liệu có giấy phép hạn chế hoặc điều khoản đính kèm, hạn chế việc sử dụng cho mục đích thương mại.
• Sự thống trị của tiếng Anh trong dữ liệu huấn luyện một phần do internet vẫn sử dụng hơn 90% tiếng Anh.
• Các mô hình AI đa phương thức có thể chỉ thể hiện được góc nhìn phương Tây, như trong trường hợp mô tả đám cưới, do thiếu dữ liệu từ các nền văn hóa khác.
📌 Quyền lực dữ liệu AI đang tập trung vào một số ít công ty công nghệ lớn với YouTube chiếm 70% dữ liệu video/âm thanh. 90% dữ liệu đến từ phương Tây, tạo nguy cơ áp đặt góc nhìn phương Tây lên công nghệ AI toàn cầu.
https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
#MIT
Nguồn dữ liệu để xây dựng AI đến từ đâu
Các phát hiện mới cho thấy nguồn dữ liệu đang tập trung quyền lực vào tay các công ty công nghệ mạnh nhất.
Bởi Melissa Heikkilä & Stephanie Arnett
Ngày 18 tháng 12 năm 2024
AI phụ thuộc hoàn toàn vào dữ liệu. Khối lượng dữ liệu khổng lồ cần thiết để huấn luyện các thuật toán quyết định những gì AI có thể làm. Nhưng vấn đề nằm ở chỗ: các nhà phát triển và nhà nghiên cứu AI không thực sự biết rõ về nguồn gốc của dữ liệu mà họ đang sử dụng. Việc thu thập dữ liệu cho AI hiện tại vẫn còn khá sơ sài so với sự tinh vi của việc phát triển mô hình AI. Các tập dữ liệu lớn thường thiếu thông tin rõ ràng về nội dung của chúng và nguồn gốc từ đâu.
Sáng kiến Nguồn gốc Dữ liệu (Data Provenance Initiative), một nhóm hơn 50 nhà nghiên cứu từ cả giới học thuật và ngành công nghiệp, đã cố gắng giải quyết vấn đề này. Họ đặt ra câu hỏi đơn giản: Dữ liệu để xây dựng AI đến từ đâu?
Nhóm đã kiểm tra gần 4.000 tập dữ liệu công khai trải dài hơn 600 ngôn ngữ, 67 quốc gia và ba thập kỷ. Các dữ liệu này đến từ 800 nguồn khác nhau và gần 700 tổ chức.
Những phát hiện được chia sẻ độc quyền với MIT Technology Review cho thấy một xu hướng đáng lo ngại: việc thu thập dữ liệu AI đang tập trung quyền lực một cách áp đảo vào tay một số ít công ty công nghệ lớn.
Vào đầu những năm 2010, các tập dữ liệu đến từ nhiều nguồn đa dạng, như bách khoa toàn thư, biên bản nghị viện, báo cáo thời tiết, và các cuộc gọi hội nghị. Lúc đó, dữ liệu được chọn lọc và thu thập để phù hợp với từng nhiệm vụ cụ thể.
Tuy nhiên, sau khi các kiến trúc transformers — nền tảng của các mô hình ngôn ngữ lớn — ra đời vào năm 2017, hiệu suất AI càng cao khi mô hình và tập dữ liệu càng lớn. Từ năm 2018, web đã trở thành nguồn dữ liệu chi phối, dẫn đến sự chênh lệch ngày càng lớn giữa dữ liệu thu thập tự động và dữ liệu được chọn lọc kỹ càng.
"Trong việc phát triển mô hình nền tảng, quy mô và tính đa dạng của dữ liệu từ web là yếu tố quan trọng nhất," Shayne Longpre, một nhà nghiên cứu tại MIT, nhận định.
Với các mô hình AI tạo sinh đa phương thức, chẳng hạn như video và hình ảnh, YouTube đã trở thành nguồn dữ liệu lớn nhất. Đối với các mô hình video, hơn 70% dữ liệu âm thanh và hình ảnh đều đến từ một nguồn duy nhất: YouTube.
Việc này mang lại lợi thế to lớn cho Google, công ty mẹ của YouTube. Trong khi dữ liệu văn bản được phân tán trên nhiều nền tảng, dữ liệu video lại tập trung cực kỳ cao vào một nền tảng duy nhất. Điều này đặt ra câu hỏi về việc Google sẽ làm thế nào để chia sẻ dữ liệu này với các đối thủ cạnh tranh.
"Chúng ta không nên coi dữ liệu là một tài nguyên tự nhiên, mà là thứ được tạo ra qua các quy trình cụ thể," Sarah Myers West, giám đốc điều hành tại AI Now Institute, cho biết.
Sự tập trung dữ liệu vào một số ít nền tảng cũng đặt ra câu hỏi liệu những mô hình AI này có phản ánh đầy đủ kinh nghiệm và sự đa dạng của con người hay không.
Ví dụ, các video trên YouTube thường được tải lên để nhắm đến một khán giả cụ thể, với cách hành xử trong video mang tính chất biểu diễn. Sara Hooker, phó chủ tịch nghiên cứu tại Cohere, nhận định: "Dữ liệu này có nắm bắt được tất cả các sắc thái của con người và cách chúng ta tồn tại không?"
Ngoài ra, hơn 90% dữ liệu mà nhóm nghiên cứu phân tích đến từ Châu Âu và Bắc Mỹ, trong khi chưa đến 4% đến từ Châu Phi. Điều này dẫn đến việc các mô hình AI chỉ phản ánh một phần thế giới, bỏ qua các ngôn ngữ và văn hóa khác.
Hooker cũng lưu ý rằng khi các mô hình AI được yêu cầu tạo ra hình ảnh hoặc âm thanh về một sự kiện như đám cưới, chúng thường chỉ thể hiện được các đám cưới phương Tây. Điều này củng cố định kiến và áp đặt một thế giới quan tập trung vào Mỹ, đồng thời loại trừ các ngôn ngữ và văn hóa khác.
Các công ty AI thường không công khai dữ liệu mà họ đã sử dụng để huấn luyện mô hình. Một phần là để bảo vệ lợi thế cạnh tranh, nhưng cũng vì bản chất phức tạp và không minh bạch của cách dữ liệu được đóng gói và phân phối.
"Sự thiếu nhất quán trong nguồn gốc dữ liệu khiến các nhà phát triển khó đưa ra quyết định đúng về dữ liệu cần sử dụng," Hooker nói. Điều này cũng khiến gần như không thể chắc chắn rằng các mô hình đã không sử dụng dữ liệu có bản quyền.
Gần đây, các công ty lớn như OpenAI và Google đã ký hợp đồng độc quyền với các nhà xuất bản, diễn đàn lớn như Reddit và các nền tảng mạng xã hội. Điều này tạo ra một hệ sinh thái dữ liệu không bình đẳng, khi các công ty nhỏ hơn, phi lợi nhuận hoặc các nhà nghiên cứu khó có thể tiếp cận nguồn dữ liệu này.
Các phát hiện này nêu bật những thách thức quan trọng trong việc xây dựng AI công bằng và toàn diện, đồng thời cảnh báo rằng việc tập trung quyền lực dữ liệu vào tay một số ít công ty có thể tái định hình cơ sở hạ tầng của thế giới theo hướng phục vụ lợi ích của họ. "Chúng ta đang sử dụng những mô hình này trên toàn cầu, nhưng thế giới thực sự không được phản ánh đầy đủ trong các mô hình," Hooker kết luận.
• Ủy ban bảo vệ dữ liệu châu Âu (EDPB) vừa công bố ý kiến về cách các nhà phát triển AI có thể sử dụng dữ liệu cá nhân mà không vi phạm luật bảo mật của khối này[1].
• EDPB đưa ra hướng dẫn về 3 vấn đề chính:
- Xác định tính ẩn danh của mô hình AI
- Xem xét cơ sở pháp lý cho việc xử lý dữ liệu
- Đánh giá tính hợp pháp của các mô hình được huấn luyện trái phép[1].
• OpenAI đã gặp rắc rối với ChatGPT tại nhiều quốc gia châu Âu:
- Italy: Kết luận sơ bộ về vi phạm GDPR
- Ba Lan và Áo: Khiếu nại về cơ sở pháp lý xử lý dữ liệu và vấn đề ảo giác[1].
• Về tính ẩn danh của mô hình:
- Cần đánh giá từng trường hợp cụ thể
- Mô hình phải "rất khó có khả năng" nhận dạng cá nhân
- Cần áp dụng các biện pháp kỹ thuật như chọn lọc dữ liệu nguồn, lọc dữ liệu và áp dụng các phương pháp bảo vệ quyền riêng tư[1].
• Về cơ sở pháp lý "lợi ích chính đáng":
- Phải đáp ứng ba tiêu chí: mục đích hợp pháp, tính cần thiết và cân bằng quyền lợi
- Cần xem xét kỳ vọng hợp lý của chủ thể dữ liệu
- Có thể áp dụng biện pháp giảm thiểu rủi ro[1].
• Về mô hình được huấn luyện bất hợp pháp:
- Đánh giá theo từng trường hợp
- Có thể hợp pháp hóa nếu đảm bảo ẩn danh trong giai đoạn triển khai
- Cần thận trọng để tránh lạm dụng hệ thống[1].
📌 EDPB đặt ra khuôn khổ pháp lý chặt chẽ cho AI tạo sinh tại châu Âu, với mức phạt có thể lên tới 4% doanh thu toàn cầu. Các nhà phát triển AI phải chứng minh tính ẩn danh của mô hình và đảm bảo cơ sở pháp lý phù hợp cho việc xử lý dữ liệu cá nhân.
Citations:
[1] https://techcrunch.com/2024/12/18/eu-privacy-body-weighs-in-on-some-tricky-genai-lawfulness-questions/
Cơ quan Bảo vệ Dữ liệu EU cân nhắc các câu hỏi khó về tính hợp pháp của AI tạo sinh
Natasha Lomas
8:18 AM PST · Ngày 18 tháng 12 năm 2024
Ủy ban Bảo vệ Dữ liệu Châu Âu (EDPB) đã công bố ý kiến vào thứ Tư về cách các nhà phát triển AI có thể sử dụng dữ liệu cá nhân để phát triển và triển khai các mô hình AI, chẳng hạn như mô hình ngôn ngữ lớn (LLM), mà không vi phạm luật bảo mật của khối EU. Ủy ban đóng vai trò định hướng quan trọng trong việc áp dụng các luật này, cung cấp hướng dẫn hỗ trợ việc thực thi quy định, vì vậy các quan điểm của họ rất quan trọng.
Những vấn đề mà ý kiến của EDPB đề cập bao gồm liệu các mô hình AI có thể được coi là ẩn danh (điều này có nghĩa là luật bảo mật sẽ không áp dụng); liệu cơ sở pháp lý "lợi ích hợp pháp" có thể được sử dụng để xử lý dữ liệu cá nhân một cách hợp pháp trong quá trình phát triển và triển khai các mô hình AI (điều này có nghĩa là không cần tìm kiếm sự đồng ý của cá nhân); và liệu các mô hình AI được phát triển bằng dữ liệu xử lý bất hợp pháp có thể được triển khai hợp pháp hay không.
Câu hỏi về cơ sở pháp lý nào phù hợp để đảm bảo các mô hình AI tuân thủ Quy định Bảo vệ Dữ liệu Chung (GDPR) vẫn là một vấn đề nóng bỏng. OpenAI từng gặp rắc rối khi ChatGPT bị cho là vi phạm GDPR. Không tuân thủ các quy định về bảo mật có thể dẫn đến mức phạt lên đến 4% doanh thu toàn cầu hàng năm hoặc yêu cầu thay đổi cách các công cụ AI hoạt động.
Năm ngoái, cơ quan bảo vệ dữ liệu của Ý phát hiện sơ bộ rằng chatbot của OpenAI vi phạm GDPR. Từ đó, các khiếu nại khác cũng đã được nộp ở Ba Lan và Áo, tập trung vào cơ sở pháp lý cho việc xử lý dữ liệu, xu hướng tạo ra thông tin sai và việc không thể sửa chữa thông tin sai lệch về cá nhân.
EDPB xác định rằng mô hình AI chỉ có thể được coi là ẩn danh nếu "rất khó có khả năng" xác định danh tính cá nhân từ dữ liệu được sử dụng để tạo mô hình hoặc thông qua các truy vấn. Tuy nhiên, điều này phải được đánh giá "dựa trên từng trường hợp cụ thể."
Ý kiến cũng cung cấp một danh sách không đầy đủ các phương pháp mà nhà phát triển có thể sử dụng để đảm bảo tính ẩn danh, bao gồm:
Cơ sở pháp lý "lợi ích hợp pháp" có thể là lựa chọn hàng đầu của các nhà phát triển AI vì nó không yêu cầu sự đồng ý của từng cá nhân, điều không khả thi với khối lượng dữ liệu khổng lồ mà LLM sử dụng. Tuy nhiên, EDPB nhấn mạnh rằng cần có bài kiểm tra ba bước để xác định tính phù hợp của cơ sở này:
Một điểm nhấn quan trọng khác trong ý kiến là cách xử lý các mô hình AI được đào tạo trên dữ liệu bất hợp pháp. EDPB gợi ý rằng nếu dữ liệu cá nhân được ẩn danh trước khi triển khai mô hình, GDPR có thể không áp dụng cho hoạt động tiếp theo của mô hình. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng cách tiếp cận này có thể tạo tiền lệ nguy hiểm, tiềm ẩn việc hợp pháp hóa việc thu thập dữ liệu không có cơ sở pháp lý.
Ý kiến của EDPB cung cấp hướng dẫn quan trọng cho các cơ quan giám sát trong việc điều chỉnh AI tạo sinh, đồng thời đưa ra các tín hiệu cho các nhà phát triển về cách họ có thể thiết kế và phát triển để giảm thiểu rủi ro pháp lý. Tuy nhiên, EDPB cũng nhấn mạnh rằng sẽ không có giải pháp chung cho mọi trường hợp, và việc tuân thủ GDPR sẽ đòi hỏi sự điều chỉnh cẩn thận trong từng tình huống cụ thể.
- Chính phủ Canada công bố đầu tư 240 triệu CAD (tương đương 169 triệu USD) để hỗ trợ startup AI Cohere mở rộng khả năng tính toán tại trung tâm dữ liệu.
- Khoản đầu tư này nhằm xây dựng một trung tâm dữ liệu AI hiện đại tại Canada, dự kiến hoạt động vào năm 2025.
- Trung tâm dữ liệu mới sẽ sử dụng GPU Nvidia và hợp tác với CoreWeave từ New Jersey trong quá trình xây dựng.
- Kế hoạch của chính phủ là biến cơ sở hạ tầng này thành nền tảng quan trọng cho hệ sinh thái AI tại Canada.
- Khoản đầu tư ban đầu nhằm thu hút vốn đầu tư tư nhân đáng kể, tạo ra một cơ sở trị giá nhiều tỷ đô la.
- Đây là một phần trong chiến lược điện toán AI chủ quyền trị giá 2,4 tỷ CAD được công bố trong ngân sách năm 2024 của Canada.
- Chính phủ kỳ vọng sẽ đầu tư 700 triệu CAD vào các trung tâm dữ liệu mới hoặc mở rộng, với khoản đầu tư vào Cohere là bước đầu tiên.
- Các khối lượng công việc AI yêu cầu nhiều tài nguyên phần cứng hơn so với các khối lượng công việc trung tâm dữ liệu thông thường.
- Công nghệ AI cần các công nghệ tăng tốc đặc biệt và GPU, hiệu suất CPU cao hơn, cũng như nguồn điện và hệ thống làm mát tốt hơn.
- Chrystia Freeland, Phó Thủ tướng Canada, nhấn mạnh rằng khoản đầu tư này sẽ tạo ra nhiều việc làm tốt với mức lương cao hơn cho người dân Canada.
- Cohere, được thành lập năm 2019, đã nhanh chóng trở thành một lực lượng hàng đầu trong lĩnh vực AI tạo sinh và các mô hình ngôn ngữ lớn.
- Công ty phát triển các mô hình AI tập trung vào doanh nghiệp nhằm giải quyết các thách thức kinh doanh như chatbot và hệ thống quản lý nội dung.
- Thị trường trung tâm dữ liệu tại Canada dự kiến sẽ tăng trưởng với tỷ lệ tăng trưởng hàng năm kép (CAGR) đạt 11.7% từ 2024 đến 2030, đạt 22.4 tỷ USD vào năm 2030.
- Canada hiện có nhiều nhà điều hành trung tâm dữ liệu toàn cầu như Equinix và Vantage Data Centers cùng với các nhà cung cấp đám mây lớn như Amazon Web Services (AWS).
📌 Chính phủ Canada đầu tư 240 triệu CAD vào Cohere để xây dựng trung tâm dữ liệu AI mới. Dự kiến đến năm 2030, thị trường trung tâm dữ liệu sẽ đạt 22.4 tỷ USD với CAGR 11.7%.
https://www.datacenterknowledge.com/ai-data-centers/canada-invests-240m-to-advance-ai-data-center-capacity
• Harvard công bố bộ dữ liệu chất lượng cao gồm gần 1 triệu cuốn sách thuộc phạm vi công cộng để huấn luyện mô hình ngôn ngữ lớn và các công cụ AI khác.
• Dự án được thực hiện bởi Sáng kiến dữ liệu thể chế (IDI) mới thành lập của Harvard, với tài trợ từ Microsoft và OpenAI.
• Bộ dữ liệu chứa sách được scan từ dự án Google Books không còn được bảo vệ bản quyền, lớn gấp 5 lần bộ dữ liệu Books3 nổi tiếng.
• Nội dung đa dạng về thể loại, thời đại và ngôn ngữ, bao gồm các tác phẩm kinh điển và sách giáo khoa hiếm.
• Greg Leppert, giám đốc điều hành IDI, cho biết dự án nhằm "san bằng sân chơi" bằng cách cung cấp cho công chúng quyền truy cập vào kho nội dung chất lượng cao.
• Microsoft hỗ trợ dự án phù hợp với niềm tin về giá trị của việc tạo ra "các nguồn dữ liệu có thể truy cập" cho các startup AI sử dụng.
• Dự án này xuất hiện trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang diễn ra.
• IDI cũng đang hợp tác với Thư viện công cộng Boston để scan hàng triệu bài báo thuộc phạm vi công cộng.
• Cách phát hành chính xác bộ dữ liệu sách vẫn chưa được quyết định, Harvard đang đề nghị Google hợp tác phân phối công khai.
• Nhiều dự án tương tự đang được triển khai, như Common Corpus của startup AI Pháp Pleis và Source.Plus của Spawning cho dữ liệu hình ảnh.
• Ed Newton-Rex, cựu giám đốc Stability AI, cho rằng các bộ dữ liệu này cho thấy không cần phải sử dụng trái phép tài liệu có bản quyền để xây dựng mô hình AI chất lượng cao.
• Tuy nhiên, ông vẫn lo ngại liệu các dự án này có thực sự thay đổi hiện trạng huấn luyện AI hay không.
📌 Harvard công bố bộ dữ liệu gần 1 triệu cuốn sách miễn phí để huấn luyện AI, được tài trợ bởi OpenAI và Microsoft. Dự án nhằm tạo sân chơi bình đẳng trong ngành AI, đồng thời đặt ra câu hỏi về tương lai của việc sử dụng dữ liệu có bản quyền trong phát triển AI.
https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
Harvard công bố bộ dữ liệu huấn luyện AI miễn phí khổng lồ do OpenAI và Microsoft tài trợ
Dự án được lãnh đạo với mục tiêu cho phép tất cả mọi người tiếp cận kho tàng sách thuộc phạm vi công cộng, nhằm "bình đẳng hóa sân chơi" trong ngành công nghiệp AI.
Ngày thứ Năm, Đại học Harvard thông báo sẽ phát hành một bộ dữ liệu chất lượng cao gồm gần một triệu cuốn sách thuộc phạm vi công cộng, cho phép bất kỳ ai cũng có thể sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) và các công cụ AI khác. Bộ dữ liệu này được tạo ra bởi Sáng kiến Dữ liệu của Viện (Institutional Data Initiative) mới được thành lập của Harvard, với nguồn tài trợ từ Microsoft và OpenAI. Nó bao gồm các cuốn sách được quét từ dự án Google Books, những cuốn sách không còn được bảo vệ bởi bản quyền.
Bộ dữ liệu này lớn gấp năm lần so với bộ dữ liệu Books3 nổi tiếng, vốn từng được sử dụng để huấn luyện các mô hình AI như Llama của Meta. Cơ sở dữ liệu này bao trùm nhiều thể loại, thời đại, và ngôn ngữ, bao gồm các tác phẩm kinh điển của Shakespeare, Charles Dickens, và Dante, cũng như những sách giáo khoa toán học tiếng Séc ít được biết đến và từ điển bỏ túi tiếng Wales.
Greg Leppert, giám đốc điều hành của Sáng kiến Dữ liệu của Viện, cho biết dự án này nhằm "bình đẳng hóa sân chơi" bằng cách cung cấp cho công chúng, bao gồm cả các công ty AI nhỏ và các nhà nghiên cứu cá nhân, quyền truy cập vào những kho lưu trữ nội dung được tinh chỉnh và sàng lọc mà trước đây chỉ có các công ty công nghệ lớn mới có đủ nguồn lực để xây dựng. "Dữ liệu này đã trải qua quá trình xem xét nghiêm ngặt," ông nói.
Leppert tin rằng cơ sở dữ liệu thuộc phạm vi công cộng này có thể được sử dụng cùng với các tài liệu có giấy phép khác để xây dựng các mô hình trí tuệ nhân tạo. "Tôi nghĩ về nó giống như cách mà Linux đã trở thành hệ điều hành nền tảng cho rất nhiều thứ trên thế giới," ông nhận định, lưu ý rằng các công ty vẫn cần sử dụng thêm dữ liệu huấn luyện để tạo ra sự khác biệt giữa các mô hình của họ với các đối thủ cạnh tranh.
Burton Davis, phó chủ tịch và phó cố vấn chung về sở hữu trí tuệ của Microsoft, nhấn mạnh rằng sự hỗ trợ của công ty đối với dự án này phù hợp với niềm tin rộng lớn hơn của họ về giá trị của việc tạo ra các "nguồn dữ liệu có thể tiếp cận được" dành cho các công ty AI khởi nghiệp sử dụng và được "quản lý vì lợi ích công cộng." Nói cách khác, Microsoft không nhất thiết lên kế hoạch thay thế tất cả dữ liệu huấn luyện AI mà họ đã sử dụng bằng các nguồn dữ liệu công cộng như những cuốn sách trong cơ sở dữ liệu mới của Harvard. “Chúng tôi sử dụng dữ liệu công khai để phục vụ mục đích huấn luyện các mô hình của mình,” Davis nói.
Trong bối cảnh hàng chục vụ kiện về việc sử dụng dữ liệu có bản quyền để huấn luyện AI đang được đưa ra tòa, tương lai của cách các công cụ trí tuệ nhân tạo được xây dựng vẫn còn đang chờ quyết định. Nếu các công ty AI thắng kiện, họ sẽ có thể tiếp tục thu thập dữ liệu từ Internet mà không cần ký thỏa thuận cấp phép với chủ sở hữu bản quyền. Nhưng nếu thua, các công ty AI có thể buộc phải đại tu cách thức xây dựng mô hình của mình.
Nhiều dự án như cơ sở dữ liệu của Harvard đang tiếp tục tiến hành với giả định rằng — bất kể điều gì xảy ra — nhu cầu đối với các tập dữ liệu công cộng sẽ tiếp tục tăng.
Ngoài kho sách, Sáng kiến Dữ liệu của Viện cũng đang hợp tác với Thư viện Công cộng Boston để quét hàng triệu bài báo từ các tờ báo hiện đã thuộc phạm vi công cộng, và tổ chức này cũng sẵn sàng hợp tác với các dự án tương tự trong tương lai. Phương thức phát hành bộ dữ liệu sách hiện vẫn chưa được quyết định.
Sáng kiến Dữ liệu của Viện đã yêu cầu Google hợp tác trong việc phân phối công khai, nhưng gã khổng lồ tìm kiếm này vẫn chưa chính thức đồng ý, dù Harvard cho biết họ lạc quan về khả năng hợp tác. (Google không phản hồi các yêu cầu bình luận của WIRED.)
Dù bộ dữ liệu của IDI được phát hành dưới hình thức nào, nó sẽ gia nhập hàng loạt các dự án, công ty khởi nghiệp, và sáng kiến khác hứa hẹn cung cấp cho các công ty quyền truy cập vào những tài liệu huấn luyện AI chất lượng cao mà không gặp rủi ro vi phạm bản quyền.
Mùa xuân năm ngoái, startup AI của Pháp Pleis đã phát hành một tập dữ liệu công cộng của riêng mình, Common Corpus, chứa khoảng 3-4 triệu sách và bộ sưu tập định kỳ, theo điều phối viên dự án Pierre-Carl Langlais. Được Bộ Văn hóa Pháp hậu thuẫn, Common Corpus đã được tải xuống hơn 60 000 lần trong tháng này trên nền tảng mã nguồn mở Hugging Face. Tuần trước, Pleis thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này, mà Langlais cho biết là “mô hình đầu tiên từng được huấn luyện hoàn toàn trên dữ liệu mở và tuân thủ Đạo luật AI của EU.”
Các nỗ lực cũng đang được thực hiện để tạo ra các tập dữ liệu hình ảnh tương tự. Startup AI Spawning đã phát hành Source.Plus vào mùa hè này, bao gồm hình ảnh công cộng từ Wikimedia Commons và một loạt các bảo tàng, kho lưu trữ.
Ed Newton-Rex, cựu giám đốc Stability AI và hiện điều hành một tổ chức phi lợi nhuận chuyên chứng nhận các công cụ AI được đào tạo một cách đạo đức, cho rằng sự gia tăng các tập dữ liệu như thế này cho thấy không cần phải "ăn cắp" tài liệu có bản quyền để xây dựng các mô hình AI chất lượng cao.
Tuy nhiên, Newton-Rex vẫn có những e ngại liệu các dự án như IDI có thực sự thay đổi hiện trạng đào tạo hay không. “Các tập dữ liệu này sẽ chỉ có tác động tích cực nếu chúng được sử dụng, có thể kết hợp với việc cấp phép các dữ liệu khác, để thay thế cho các tác phẩm có bản quyền đã bị thu thập trái phép,” ông nói. "Nếu chúng chỉ được thêm vào, như một phần của một tập dữ liệu cũng bao gồm tác phẩm không được cấp phép, thì lợi ích chủ yếu vẫn thuộc về các công ty AI."
However IDI’s dataset is released, it will be joining a host of similar projects, startups, and initiatives that promise to give companies access to substantial and high-quality AI training materials without the risk of running into copyright issues. Firms like Calliope Networks and ProRata have emerged to issue licenses and design compensation schemes designed to get creators and rightholders paid for providing AI training data.
- Các nhà nghiên cứu dự báo đến năm 2028, kích thước tập dữ liệu huấn luyện AI sẽ bằng với tổng lượng văn bản công khai trực tuyến
- Số lượng token dùng để huấn luyện mô hình ngôn ngữ lớn đã tăng gấp 100 lần từ năm 2020, từ hàng trăm tỷ lên hàng chục nghìn tỷ token
- Tổng lượng dữ liệu văn bản trên Internet ước tính khoảng 3.100 nghìn tỷ token, tăng trưởng chậm dưới 10% mỗi năm
- Các nhà cung cấp nội dung đang thắt chặt quyền truy cập:
+ Tỷ lệ chặn trình thu thập web tăng từ dưới 3% năm 2023 lên 20-33% năm 2024
+ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023
- Các giải pháp thay thế đang được nghiên cứu:
+ Khai thác dữ liệu riêng tư như tin nhắn WhatsApp, bản ghi YouTube
+ Tập trung vào dữ liệu chuyên biệt như thiên văn học, gen
+ Sử dụng dữ liệu tổng hợp do AI tạo ra (OpenAI tạo ra 100 tỷ từ mỗi ngày)
+ Phát triển mô hình nhỏ hơn, chuyên biệt hơn thay vì mô hình đa năng lớn
- Hiệu quả sử dụng dữ liệu đang được cải thiện:
+ Năng lượng tính toán cần thiết giảm một nửa mỗi 8 tháng
+ Việc đọc lại dữ liệu 4 lần cho kết quả tương đương với đọc cùng lượng dữ liệu mới
+ OpenAI đang tập trung vào học tăng cường và tư duy sâu hơn thay vì mở rộng dữ liệu
📌 Khủng hoảng dữ liệu huấn luyện AI sẽ đến vào năm 2028 khi nhu cầu dữ liệu vượt quá nguồn cung từ Internet. Các giải pháp đang được triển khai bao gồm tạo dữ liệu tổng hợp (100 tỷ từ/ngày), khai thác dữ liệu chuyên biệt và cải tiến hiệu quả sử dụng dữ liệu.
https://www.nature.com/articles/d41586-024-03990-2
#NATURE
Cuộc cách mạng AI đang cạn kiệt dữ liệu. Các nhà nghiên cứu có thể làm gì?
AI developers are rapidly picking the Internet clean to train large language models such as those behind ChatGPT. Here’s how they are trying to get around the problem.
Nicola Jones
Twitter Facebook Email
Internet là một đại dương kiến thức khổng lồ của con người, nhưng nó không phải là vô hạn. Và các nhà nghiên cứu trí tuệ nhân tạo (AI) gần như đã khai thác cạn kiệt nó.
Thập kỷ qua chứng kiến sự phát triển vượt bậc của AI, phần lớn được thúc đẩy bởi việc mở rộng kích thước mạng nơ-ron và huấn luyện chúng trên lượng dữ liệu ngày càng lớn. Phương pháp mở rộng quy mô này tỏ ra rất hiệu quả trong việc làm cho các mô hình ngôn ngữ lớn (LLM) — như các mô hình đứng sau chatbot ChatGPT — trở nên thông minh hơn trong việc tái hiện ngôn ngữ đối thoại và phát triển các thuộc tính mới như khả năng suy luận. Nhưng một số chuyên gia nói rằng chúng ta đang dần đạt đến giới hạn của sự mở rộng này. Một phần là vì nhu cầu năng lượng tính toán tăng mạnh, nhưng quan trọng hơn, các nhà phát triển LLM đang cạn kiệt các tập dữ liệu thông thường dùng để huấn luyện các mô hình này.
Một nghiên cứu nổi bật được công bố năm nay đã đưa ra một con số cụ thể về vấn đề này: các nhà nghiên cứu tại Epoch AI, một viện nghiên cứu ảo, dự đoán rằng vào khoảng năm 2028, kích thước trung bình của các tập dữ liệu dùng để huấn luyện một mô hình AI sẽ đạt mức bằng tổng lượng văn bản công khai được ước tính có trên Internet. Nói cách khác, AI có thể cạn kiệt dữ liệu huấn luyện trong khoảng bốn năm tới (xem mục "Cạn kiệt dữ liệu"). Đồng thời, các chủ sở hữu dữ liệu — như các nhà xuất bản báo chí — bắt đầu siết chặt việc kiểm soát nội dung của họ, làm giảm quy mô của “kho dữ liệu chung”. Điều này tạo ra một cuộc khủng hoảng trong khả năng tiếp cận dữ liệu, theo Shayne Longpre, một nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), người dẫn đầu Sáng kiến Nguồn gốc Dữ liệu, một tổ chức cộng đồng thực hiện kiểm toán các tập dữ liệu AI.
Nút thắt cổ chai sắp xảy ra trong việc huấn luyện dữ liệu có thể đã bắt đầu xuất hiện. “Tôi nghi ngờ rằng điều đó đã xảy ra,” Longpre nhận định.
Cạn kiệt dữ liệu
Biểu đồ cho thấy dự đoán về lượng dữ liệu văn bản được sử dụng để huấn luyện các mô hình ngôn ngữ lớn và lượng văn bản có sẵn trên Internet, cho thấy rằng vào năm 2028, các nhà phát triển sẽ sử dụng các tập dữ liệu có kích thước tương đương với tổng lượng văn bản có sẵn.
Nguồn: Ref. 1
Mặc dù các chuyên gia cho rằng những hạn chế này có thể làm chậm lại sự cải thiện nhanh chóng của các hệ thống AI, nhưng các nhà phát triển đang tìm kiếm cách khắc phục. “Tôi không nghĩ rằng có ai ở các công ty AI lớn đang hoảng sợ,” Pablo Villalobos, một nhà nghiên cứu tại Epoch AI ở Madrid và là tác giả chính của nghiên cứu dự đoán về cuộc khủng hoảng dữ liệu năm 2028, nói. “Hoặc ít nhất họ không e-mail tôi nếu họ đang như vậy.”
Ví dụ, các công ty AI lớn như OpenAI và Anthropic, cả hai đều ở San Francisco, California, đã công khai thừa nhận vấn đề trong khi gợi ý rằng họ có kế hoạch đối phó, bao gồm tạo dữ liệu mới và tìm kiếm các nguồn dữ liệu không truyền thống. Một phát ngôn viên của OpenAI nói với Nature: “Chúng tôi sử dụng nhiều nguồn khác nhau, bao gồm dữ liệu công khai, hợp tác để tiếp cận dữ liệu không công khai, tạo dữ liệu tổng hợp và dữ liệu từ các huấn luyện viên AI.”
Dẫu vậy, cuộc khủng hoảng dữ liệu có thể buộc phải thay đổi loại mô hình AI tạo sinh mà mọi người xây dựng, có thể chuyển trọng tâm từ các LLM lớn, đa năng sang các mô hình nhỏ hơn, chuyên biệt hơn.
Hàng nghìn tỷ từ
Việc phát triển LLM trong thập kỷ qua đã chứng minh sự thèm khát dữ liệu khổng lồ của nó. Mặc dù một số nhà phát triển không công bố thông số kỹ thuật của các mô hình mới nhất của họ, Villalobos ước tính rằng số lượng "token" (các phần của từ) được sử dụng để huấn luyện LLM đã tăng gấp 100 lần kể từ năm 2020, từ hàng trăm tỷ lên hàng chục nghìn tỷ.
AI, liệu càng lớn có càng tốt?
Điều đó có thể chiếm một phần lớn những gì có trên Internet, mặc dù tổng số lượng lớn đến mức khó xác định — Villalobos ước tính tổng lượng văn bản có trên Internet hiện nay là 3 100 nghìn tỷ token. Các dịch vụ web crawler thường thu thập nội dung này, sau đó loại bỏ dữ liệu trùng lặp và lọc ra nội dung không mong muốn (như nội dung khiêu dâm) để tạo ra các tập dữ liệu sạch hơn: một tập dữ liệu phổ biến có tên RedPajama chứa hàng chục nghìn tỷ từ. Một số công ty hoặc tổ chức học thuật tự thực hiện quy trình thu thập và làm sạch để tạo các tập dữ liệu riêng phù hợp với nhu cầu huấn luyện. Một phần nhỏ của Internet được coi là có chất lượng cao, chẳng hạn như văn bản được biên tập bởi con người, có tính xã hội chấp nhận được, thường thấy trong sách hoặc các bài báo.
Tốc độ tăng trưởng nội dung có thể sử dụng trên Internet tăng chậm một cách đáng ngạc nhiên: bài báo của Villalobos ước tính nó tăng dưới 10% mỗi năm, trong khi kích thước các tập dữ liệu huấn luyện AI tăng hơn gấp đôi hàng năm. Nếu tiếp tục xu hướng này, các đường biểu diễn sẽ giao nhau vào khoảng năm 2028.
Cuộc khủng hoảng dữ liệu đặt ra một vấn đề lớn đối với chiến lược mở rộng quy mô AI thông thường. Mặc dù có thể mở rộng sức mạnh tính toán hoặc tăng số lượng tham số của một mô hình mà không tăng dữ liệu huấn luyện, nhưng điều này thường khiến AI hoạt động chậm và tốn kém hơn, theo Longpre — một điều không được ưa chuộng.
Nếu mục tiêu là tìm thêm dữ liệu, một lựa chọn có thể là thu thập dữ liệu không công khai, chẳng hạn như tin nhắn WhatsApp hoặc bản ghi âm của các video trên YouTube. Dù tính hợp pháp của việc thu thập dữ liệu bên thứ ba theo cách này chưa được kiểm chứng, các công ty vẫn có quyền truy cập vào dữ liệu riêng của mình. Một số công ty mạng xã hội nói rằng họ sử dụng dữ liệu của chính mình để huấn luyện các mô hình AI. Ví dụ, Meta ở Menlo Park, California, cho biết dữ liệu âm thanh và hình ảnh thu thập bởi kính thực tế ảo Meta Quest của họ được sử dụng để huấn luyện AI. Tuy nhiên, các chính sách có sự khác biệt: điều khoản dịch vụ của nền tảng hội nghị video Zoom tuyên bố rằng họ sẽ không sử dụng nội dung của khách hàng để huấn luyện AI, trong khi dịch vụ chuyển đổi giọng nói OtterAI cho biết họ sử dụng dữ liệu âm thanh và bản ghi đã được ẩn danh và mã hóa để huấn luyện.
Tuy nhiên, theo Villalobos, nội dung độc quyền này chỉ có thể chứa thêm khoảng 1 nghìn tỷ token văn bản. Vì phần lớn trong số này là dữ liệu chất lượng thấp hoặc trùng lặp, ông cho rằng đây chỉ đủ để trì hoãn nút thắt cổ chai dữ liệu thêm khoảng một năm rưỡi, ngay cả khi một AI duy nhất có thể tiếp cận toàn bộ dữ liệu này mà không gây ra các vấn đề pháp lý liên quan đến quyền riêng tư hoặc bản quyền. “Ngay cả khi lượng dữ liệu tăng lên gấp mười lần cũng chỉ kéo dài thêm khoảng ba năm mở rộng,” ông nói.
Một lựa chọn khác có thể là tập trung vào các tập dữ liệu chuyên biệt, chẳng hạn như dữ liệu thiên văn hoặc dữ liệu gen, vốn đang tăng trưởng nhanh chóng. Fei-Fei Li, một nhà nghiên cứu AI nổi tiếng tại Đại học Stanford, California, đã công khai ủng hộ chiến lược này. Tại một hội nghị công nghệ của Bloomberg vào tháng 5, bà cho rằng những lo ngại về việc thiếu dữ liệu quá tập trung vào các định nghĩa hẹp về dữ liệu, trong khi vẫn còn rất nhiều thông tin chưa được khai thác trong các lĩnh vực như y tế, môi trường và giáo dục.
Tuy nhiên, Villalobos nói rằng vẫn chưa rõ liệu những tập dữ liệu này có khả dụng hay hữu ích cho việc huấn luyện các mô hình LLM hay không. “Có vẻ như có một mức độ học chuyển giao giữa nhiều loại dữ liệu,” ông nói. “Tuy nhiên, tôi không quá lạc quan về cách tiếp cận này.”
Khả năng huấn luyện AI trên các loại dữ liệu khác ngoài văn bản, chẳng hạn như video hoặc hình ảnh chưa gắn nhãn, có thể mở ra cơ hội khai thác lượng dữ liệu phong phú hơn. Một số mô hình đã có thể huấn luyện ở một mức độ nhất định trên video hoặc hình ảnh không gắn nhãn. Việc mở rộng và cải thiện các khả năng này có thể mở ra nguồn dữ liệu phong phú hơn nhiều.
Yann LeCun, nhà khoa học trưởng về AI tại Meta và là nhà khoa học máy tính tại Đại học New York, được xem là một trong những người sáng lập AI hiện đại, đã nhấn mạnh những khả năng này trong một bài thuyết trình hồi tháng 2 tại một hội nghị AI ở Vancouver, Canada. Việc sử dụng 10¹³ token để huấn luyện một LLM hiện đại có vẻ rất nhiều: một người sẽ mất 170 000 năm để đọc hết lượng dữ liệu đó, LeCun tính toán. Nhưng ông nói, một đứa trẻ 4 tuổi đã hấp thụ một lượng dữ liệu lớn gấp 50 lần chỉ bằng cách quan sát các vật thể trong cuộc sống hàng ngày.
Tương tự, dữ liệu phong phú như vậy có thể được khai thác bằng cách sử dụng các hệ thống AI ở dạng robot, học hỏi từ chính các trải nghiệm cảm giác của chúng. “Chúng ta sẽ không bao giờ đạt được AI ở mức con người chỉ bằng cách huấn luyện trên ngôn ngữ — điều đó sẽ không xảy ra,” LeCun nói.
Nếu không thể tìm được dữ liệu, người ta có thể tạo ra thêm dữ liệu. Một số công ty AI trả tiền cho người dùng để tạo nội dung cho AI huấn luyện; một số khác sử dụng dữ liệu tổng hợp do AI tạo ra. Đây là một nguồn dữ liệu tiềm năng khổng lồ: hồi đầu năm nay, OpenAI cho biết họ tạo ra 100 tỷ từ mỗi ngày — tức hơn 36 nghìn tỷ từ mỗi năm, tương đương với kích thước hiện tại của các tập dữ liệu huấn luyện AI. Sản lượng này đang tăng nhanh.
Ngoài ra, chiến lược thay thế là từ bỏ quan niệm “càng lớn càng tốt”. Mặc dù các nhà phát triển vẫn tiếp tục xây dựng các mô hình lớn hơn, nhiều người đang theo đuổi các mô hình nhỏ gọn và hiệu quả hơn, tập trung vào các nhiệm vụ cụ thể. Những mô hình này đòi hỏi dữ liệu được tinh chỉnh, chuyên biệt hơn và các kỹ thuật huấn luyện tốt hơn.
Nỗ lực AI hiện nay đã dần chuyển sang việc làm nhiều hơn với ít hơn. Một nghiên cứu năm 2024 kết luận rằng nhờ những cải tiến trong thuật toán, sức mạnh tính toán cần thiết để một LLM đạt được hiệu năng tương tự đã giảm một nửa khoảng mỗi tám tháng.
Điều này, cùng với các con chip máy tính chuyên dụng cho AI và các cải tiến phần cứng khác, mở ra cơ hội sử dụng tài nguyên tính toán theo cách khác: một chiến lược là để một mô hình AI "đọc lại" tập dữ liệu huấn luyện của nó nhiều lần. Dù nhiều người nghĩ rằng máy tính có khả năng ghi nhớ hoàn hảo và chỉ cần “đọc” tài liệu một lần, nhưng các hệ thống AI hoạt động theo cách thống kê, điều này có nghĩa là việc đọc lại dữ liệu giúp cải thiện hiệu năng, theo Niklas Muennighoff, nghiên cứu sinh tại Đại học Stanford và là thành viên của Sáng kiến Nguồn gốc Dữ liệu. Trong một bài báo năm 2023 được công bố khi ông còn làm việc tại công ty AI HuggingFace ở New York, ông và các đồng nghiệp đã chỉ ra rằng một mô hình học được nhiều như nhau từ việc đọc lại một tập dữ liệu bốn lần so với việc đọc cùng một lượng dữ liệu mới — mặc dù lợi ích của việc đọc lại giảm nhanh sau đó.
Mặc dù OpenAI chưa tiết lộ thông tin về kích thước mô hình hoặc tập dữ liệu huấn luyện cho LLM mới nhất của họ, o1, công ty đã nhấn mạnh rằng mô hình này dựa vào một cách tiếp cận mới: dành nhiều thời gian hơn cho việc học tăng cường (quá trình mà mô hình nhận phản hồi về các câu trả lời tốt nhất của mình) và suy nghĩ kỹ hơn về mỗi phản hồi. Các quan sát chỉ ra rằng mô hình này chuyển trọng tâm khỏi việc tiền huấn luyện với các tập dữ liệu khổng lồ và tập trung hơn vào quá trình huấn luyện và suy diễn. Đây là một cách tiếp cận mới trong chiến lược mở rộng, theo Longpre, mặc dù đây là một chiến lược tốn kém về tính toán.
Có thể rằng các LLM, sau khi đọc gần hết Internet, không cần thêm dữ liệu để trở nên thông minh hơn. Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania, người nghiên cứu về bảo mật AI, cho rằng những tiến bộ trong tương lai có thể đến từ khả năng tự phản ánh của một AI. “Bây giờ nó đã có một cơ sở tri thức nền tảng, có lẽ lớn hơn bất kỳ cá nhân nào, điều nó cần chỉ là ngồi lại và suy nghĩ,” Zou nhận định. “Tôi nghĩ chúng ta có thể đã khá gần với điểm đó.”
Villalobos cho rằng tất cả các yếu tố này — từ dữ liệu tổng hợp, tập dữ liệu chuyên biệt, đến việc đọc lại và tự phản ánh — sẽ đóng góp vào việc tiến xa hơn. “Sự kết hợp giữa khả năng tự suy nghĩ và khả năng tương tác với thế giới thực theo nhiều cách — có lẽ đó là điều sẽ thúc đẩy những đột phá tiếp theo.”
Nature 636, 290-292 (2024)
doi: https://doi.org/10.1038/d41586-024-03990-2
- Databricks vừa công bố khả năng tạo dữ liệu tổng hợp nhằm đơn giản hóa quá trình đánh giá hiệu suất của các AI agent trong môi trường doanh nghiệp.
- Mục tiêu chính là giúp các nhà phát triển có thể nhanh chóng tạo ra tập dữ liệu nhân tạo chất lượng cao để đánh giá các hệ thống agent đang phát triển.
- Giải pháp này giúp giảm thiểu thời gian tương tác với các chuyên gia và tăng tốc quy trình đưa các agent vào sản xuất.
- Mặc dù chi tiết hơn về cách hoạt động của dữ liệu tổng hợp vẫn chưa được công bố, công ty cho biết thử nghiệm nội bộ cho thấy cải thiện đáng kể về hiệu suất của các AI agent.
- Databricks đã tiếp nhận MosaicML và tích hợp công nghệ này vào nền tảng Đánh giá Dữ liệu, cho phép doanh nghiệp xây dựng và triển khai các giải pháp máy học và AI tạo sinh trên dữ liệu của họ.
- Tính năng Đánh giá Agent hiện có hai khả năng chính: cho phép chuyên gia tự định nghĩa tập dữ liệu và tạo ra một thước đo để đánh giá chất lượng phản hồi của AI agent.
- Dữ liệu tổng hợp giúp rút ngắn thời gian xây dựng tập dữ liệu đánh giá, do đó giảm khối lượng công việc của các chuyên gia.
- Hệ thống mới cho phép các nhà phát triển tạo ra tập dữ liệu đánh giá trong vài phút thay vì hàng giờ.
- Thử nghiệm nội bộ cho thấy hiệu suất của AI agent được cải thiện gần gấp đôi trong khả năng tìm kiếm tài liệu liên quan.
- Quy trình tạo dữ liệu chỉ cần 4 bước đơn giản, giúp tạo dữ liệu một cách nhanh chóng mà không cần chuyển đổi sang môi trường bên ngoài.
- Nhiều doanh nghiệp đã sử dụng API dữ liệu tổng hợp và ghi nhận sự cải thiện 60% trong chất lượng phản hồi của mô hình trước khi nhờ sự can thiệp của các chuyên gia.
- Databricks dự định mở rộng Đánh giá Agent với các tính năng cho phép chuyên gia chỉnh sửa dữ liệu tổng hợp và quản lý vòng đời của tập dữ liệu đánh giá.
- Các giải pháp mới dự kiến sẽ thúc đẩy việc áp dụng Mosaic AI của Databricks, củng cố vị thế của công ty trong lĩnh vực dữ liệu và AI tạo sinh.
- Snowflake cũng đang theo kịp với các sản phẩm AI của mình, bao gồm việc hợp tác với Anthropic để phát triển ứng dụng AI.
📌 Databricks ra mắt API tạo dữ liệu tổng hợp, giúp giảm 60% thời gian cải thiện đại lý AI và nâng cao hiệu suất gần gấp đôi trong việc tìm kiếm tài liệu. Công ty dự kiến mở rộng tính năng này trong tương lai.
https://venturebeat.com/data-infrastructure/databricks-makes-ai-agent-evaluation-a-breeze-with-new-synthetic-data-capabilities/
- Gần đây xuất hiện nhiều lo ngại về việc Microsoft thu thập dữ liệu từ tài liệu Word và bảng tính Excel để huấn luyện hệ thống AI
- Microsoft đã giới thiệu tính năng Connected Experiences vào tháng 10, được kích hoạt mặc định trong menu Options với 3 tùy chọn:
+ Turn On Experiences That Analyze Your Content
+ Turn On Experiences That Download Online Content
+ Turn On All Connected Experiences
- Người phát ngôn Microsoft khẳng định:
+ Không sử dụng dữ liệu khách hàng từ Microsoft 365 để huấn luyện mô hình ngôn ngữ lớn
+ Connected Services không liên quan đến quá trình huấn luyện AI
+ Đây là tính năng tiêu chuẩn ngành nhằm kết nối internet để nâng cao năng suất
- Connected Experiences cung cấp các tính năng hữu ích:
+ Đề xuất thông tin và hình ảnh liên quan từ web khi soạn thảo
+ Hỗ trợ cộng tác thời gian thực và tích hợp lưu trữ đám mây
+ Công cụ Editor trong Word giúp kiểm tra ngữ pháp và văn phong
- Người dùng có thể tắt Connected Services bằng cách:
+ Mở menu File trong Word/Excel
+ Chọn Options > Trust Center > Trust Center Settings
+ Vào Privacy Options > Privacy Settings
+ Bỏ chọn 3 tùy chọn trong phần Connected Experiences
📌 Microsoft đã chính thức phủ nhận việc sử dụng dữ liệu người dùng từ Microsoft 365 để huấn luyện AI. Tính năng Connected Experiences chỉ nhằm cải thiện trải nghiệm người dùng thông qua kết nối internet và có thể dễ dàng tắt đi trong cài đặt.
https://www.howtogeek.com/is-microsoft-using-your-word-documents-to-train-ai/
- Anthropic AI vừa công bố Model Context Protocol (MCP), một giao thức nguồn mở giúp kết nối trợ lý AI Claude với dữ liệu thực tế
- MCP giải quyết hạn chế lớn của hệ thống AI: không thể truy cập thông tin trong các công cụ phân mảnh, hệ thống cũ và bộ dữ liệu rời rạc
- Cơ chế hoạt động của MCP:
+ Máy chủ MCP cho phép nhà phát triển chia sẻ dữ liệu để AI truy cập
+ Ứng dụng AI kết nối trực tiếp với máy chủ MCP
+ Anthropic cung cấp SDK, máy chủ có sẵn và kho nguồn mở hỗ trợ triển khai
- Tính năng chính:
+ Tương thích phổ biến với Google Drive, Slack, GitHub, Postgres
+ Claude 3.5 Sonnet đơn giản hóa việc triển khai máy chủ
+ Các công ty lớn như Block và Apollo đã áp dụng MCP
- Hướng dẫn bắt đầu cho nhà phát triển:
+ Cài đặt máy chủ MCP qua ứng dụng Claude Desktop
+ Làm theo hướng dẫn nhanh để xây dựng máy chủ tùy chỉnh
+ Đóng góp vào kho nguồn mở để mở rộng tích hợp
- MCP tạo ra giải pháp thiết thực cho việc cô lập dữ liệu AI, giúp doanh nghiệp xây dựng công cụ AI thông minh hơn với phản hồi và thông tin chi tiết phù hợp
📌 Model Context Protocol của Anthropic AI mang đến giải pháp đột phá kết nối AI với hệ thống thực tế. Giao thức nguồn mở này đã thu hút các công ty lớn như Block và Apollo áp dụng, hứa hẹn thay đổi cách doanh nghiệp tích hợp và tận dụng công nghệ AI.
https://aitoolsclub.com/anthropic-ai-introduces-mcp-the-key-to-connecting-ai-assistants-and-business-tools/
- Chet Kapoor, chủ tịch kiêm CEO của Datastax khẳng định: không thể có AI mà không có dữ liệu phi cấu trúc ở quy mô lớn
- Tại sự kiện Techcrunch Disrupt 2024, các chuyên gia thảo luận về tầm quan trọng của:
+ Chất lượng dữ liệu
+ Vai trò của dữ liệu thời gian thực trong AI tạo sinh
+ Ưu tiên product-market fit hơn là quy mô trong giai đoạn đầu của AI
- Các đội ngũ SWAT đang viết hướng dẫn về cách xây dựng ứng dụng AI tạo sinh, thay vì đọc sách hướng dẫn có sẵn
- Vanessa Larco từ quỹ đầu tư NEA đề xuất cách tiếp cận thực tế:
+ Xác định rõ mục tiêu cần đạt được
+ Tìm kiếm dữ liệu phù hợp với mục tiêu
+ Không nên áp dụng AI tạo sinh cho toàn bộ công ty ngay từ đầu
+ Tập trung vào các ứng dụng nội bộ với mục tiêu cụ thể
- George Fraser, CEO của Fivetran nhấn mạnh:
+ Chỉ giải quyết các vấn đề hiện tại
+ 99% chi phí đổi mới thường đến từ những thứ không hiệu quả
+ Fivetran có khách hàng lớn như OpenAI và Salesforce
- Chet Kapoor ví von giai đoạn hiện tại là "kỷ nguyên Angry Birds của AI tạo sinh":
+ Năm 2024: các doanh nghiệp đưa các ứng dụng nhỏ, nội bộ vào sản xuất
+ Năm 2025: dự đoán là năm của sự chuyển đổi, với các ứng dụng thực sự thay đổi quỹ đạo phát triển của doanh nghiệp
📌 AI tạo sinh đang trong giai đoạn sơ khai giống như thời kỳ đầu của web và smartphone. Các chuyên gia khuyến nghị doanh nghiệp nên bắt đầu từ các dự án nhỏ, nội bộ với 99% chi phí đổi mới đến từ những thử nghiệm không thành công.
https://techcrunch.com/2024/11/03/genai-suffers-from-data-overload-so-companies-should-focus-on-smaller-specific-goals/
• Anthropic vừa công bố Claude 3.5 Sonnet hỗ trợ phân tích dữ liệu, tương tự như Advanced Data Analysis của ChatGPT
• Claude cung cấp tính năng phân tích dữ liệu miễn phí cho tất cả người dùng, trong khi ChatGPT yêu cầu gói Plus hoặc Enterprise với phí 20 USD/tháng trở lên
• Claude sử dụng JavaScript để viết và chạy mã phân tích, trong khi ChatGPT dùng Python. JavaScript có ưu thế về trực quan hóa dữ liệu web nhưng kém hơn Python về machine learning và AI
• Giới hạn nghiêm trọng của Claude:
- Chỉ cho phép tải lên 5 file cùng lúc
- Giới hạn 30MB dung lượng file
- Chỉ xử lý được khoảng 2.000 dòng (25 ký tự/dòng) với bản miễn phí
- Bản Pro (20 USD/tháng) chỉ tăng giới hạn lên 5 lần, tương đương 10.000 dòng
• So sánh với ChatGPT Plus:
- Xử lý được 69.215 bản ghi (50 ký tự/dòng)
- Phân tích được 170.000+ dòng mã G-code
- Không gặp giới hạn với các tập dữ liệu lớn
• Thử nghiệm thực tế với Claude:
- Chỉ có thể phân tích bộ dữ liệu nhỏ 85 bản ghi
- Biểu đồ tròn bị cắt nhãn dữ liệu
- Khả năng phân tích cơ bản về phân phối và xu hướng
📌 Claude không đáp ứng được kỳ vọng về phân tích dữ liệu khi so với ChatGPT Plus. Với giới hạn chỉ 2.000 dòng (bản free) và 10.000 dòng (bản Pro), công cụ này chỉ phù hợp cho demo công nghệ, không thực sự hữu ích cho phân tích dữ liệu chuyên nghiệp.
https://www.zdnet.com/article/how-claudes-new-ai-data-analysis-tool-compares-to-chatgpts-version-hint-it-doesnt/
• Embedding văn bản đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), chuyển đổi văn bản thành vector số để máy tính có thể hiểu và xử lý
• Thách thức lớn nhất là việc tạo ra lượng lớn dữ liệu huấn luyện chất lượng cao, khi các phương pháp hiện tại phụ thuộc vào các mô hình độc quyền như GPT-4 với chi phí rất cao
• Các nhà nghiên cứu từ Trường Trí tuệ nhân tạo Gaoling và Microsoft đã phát triển framework SPEED, sử dụng mô hình nguồn mở nhỏ để tạo dữ liệu embedding chất lượng cao
• SPEED hoạt động thông qua 3 thành phần chính:
- Generator cấp thấp tạo dữ liệu tổng hợp ban đầu
- Generator cấp cao tối ưu chất lượng dựa trên tín hiệu đánh giá từ GPT-4
- Data revisor tinh chỉnh và nâng cao chất lượng đầu ra
• Kết quả ấn tượng của SPEED:
- Chỉ sử dụng 45.000 lệnh gọi API so với 500.000 của E5mistral
- Tiết kiệm hơn 90% chi phí
- Điểm trung bình 63,4 trên bộ đánh giá MTEB
- Hiệu suất cao trong nhiều tác vụ:
+ Phân loại: 78,4
+ Phân cụm: 49,3
+ Phân loại cặp: 88,2
+ Xếp hạng lại: 60,8
+ Truy xuất: 56,5
+ So sánh ngữ nghĩa: 85,5
+ Tóm tắt: 31,1
📌 Framework SPEED của Microsoft Asia đã tạo ra bước đột phá trong việc tạo dữ liệu embedding chất lượng cao với chi phí thấp, tiết kiệm 90% chi phí so với phương pháp truyền thống, đạt điểm trung bình 63,4 trên MTEB và hoạt động hiệu quả trên nhiều tác vụ NLP khác nhau.
https://www.marktechpost.com/2024/10/28/microsoft-asia-research-introduces-speed-an-ai-framework-that-aligns-open-source-small-models-8b-to-efficiently-generate-large-scale-synthetic-embedding-data/
• Suchir Balaji, cựu nhà nghiên cứu AI tại OpenAI (làm việc đến tháng 8/2024), đã lên tiếng tố cáo công ty vi phạm luật bản quyền
• Balaji từng phụ trách thu thập dữ liệu cho mô hình GPT-4 multimodal của OpenAI, ban đầu anh coi đây chỉ là dự án nghiên cứu và không nghĩ nó sẽ trở thành chatbot tích hợp công cụ tạo ảnh AI
• Cựu nhân viên này cho biết anh bị thu hút bởi nghiên cứu AI vì tin công nghệ này có thể mang lại lợi ích cho thế giới, nhưng giờ đây anh nghĩ nó gây hại nhiều hơn lợi
• Theo Balaji, OpenAI đang đe dọa chính những đối tượng mà công ty lấy dữ liệu để xây dựng sản phẩm - bao gồm cá nhân, doanh nghiệp và các dịch vụ internet
• OpenAI xây dựng các sản phẩm như ChatGPT và DALL-E bằng cách lấy dữ liệu từ web và đưa vào chương trình machine learning để học hỏi
• Phía OpenAI khẳng định việc sử dụng dữ liệu công khai của họ được bảo vệ bởi nguyên tắc "fair use" (sử dụng hợp lý) và các tiền lệ pháp lý
• Tuy nhiên, lập luận về fair use chưa được kiểm chứng tại tòa án và OpenAI đang đối mặt nhiều vụ kiện, chủ yếu từ các tác giả văn bản, bao gồm The New York Times
• Balaji phản bác rằng hoạt động của OpenAI không đáp ứng tiêu chí fair use vì công ty đang sao chép dữ liệu có bản quyền và tổng hợp lại
📌 Cựu nhân viên OpenAI đã công khai chỉ trích việc thu thập dữ liệu của công ty, cho rằng đây là hành vi vi phạm bản quyền. Vấn đề này đang gây tranh cãi lớn khi OpenAI phải đối mặt với nhiều vụ kiện, trong khi vẫn bảo vệ quan điểm về việc sử dụng dữ liệu hợp pháp theo nguyên tắc fair use.
https://petapixel.com/2024/10/25/former-openai-employee-condemns-the-companys-data-scraping-practices/
• Nghị viện châu Âu tích hợp Claude AI của Anthropic vào hệ thống lưu trữ thông qua công cụ mới có tên Archibot
• Kho lưu trữ bao gồm hàng triệu tài liệu từ năm 1952 đến nay, gồm hồ sơ lập pháp, tài liệu hành chính, biên bản đàm phán và thư từ lịch sử
• Từ 10.000 tài liệu ban đầu, kho lưu trữ đã phát triển lên đến hàng triệu tài liệu, đòi hỏi công cụ điều hướng tiên tiến hơn
• Archibot giúp:
- Tìm kiếm tài liệu liên quan nhanh chóng
- Tổng hợp báo cáo toàn diện
- Phân tích xu hướng trên bộ dữ liệu lớn
• Hệ thống hỗ trợ đa ngôn ngữ, mở rộng từ tiếng Pháp ban đầu sang nhiều ngôn ngữ khác
• Đối tượng hưởng lợi chính:
- Nhà nghiên cứu phân tích xu hướng lịch sử
- Nhà hoạch định chính sách xây dựng luật mới
- Giáo viên phát triển giáo trình
- Công dân quan tâm đến quá trình lập pháp
• Claude AI duy trì kiểm soát chặt chẽ việc sử dụng dữ liệu, đảm bảo quyền riêng tư và độ tin cậy
• Sáng kiến này củng cố các nguyên tắc dân chủ về:
- Tính minh bạch trong quản trị
- Công dân được thông tin đầy đủ
- Sự tham gia của công chúng vào quá trình chính trị
📌 Claude AI đã chuyển đổi kho lưu trữ Nghị viện châu Âu từ 10.000 tài liệu ban đầu thành hệ thống thông minh chứa hàng triệu tài liệu, với khả năng truy cập đa ngôn ngữ toàn cầu. Hệ thống mới Archibot tăng cường hiệu quả nghiên cứu và hoạch định chính sách, đồng thời thúc đẩy sự tham gia dân chủ trong kỷ nguyên số.
https://www.geeky-gadgets.com/how-claude-ai-is-transforming-european-parliament-archive-access/
• Đảng Cộng sản Trung Quốc (ĐCSTQ) đang theo đuổi mục tiêu trở thành nhà lãnh đạo thế giới trong phát triển và triển khai các mô hình AI.
• Mỹ và các công ty Mỹ hiện vẫn dẫn đầu trong phát triển phần cứng và phần mềm tiên tiến cho các mô hình AI mạnh mẽ hơn.
• Tuy nhiên, việc tiếp cận dữ liệu đang trở thành mối quan ngại ngày càng lớn đối với các nhà phát triển AI Mỹ do các vụ kiện cáo liên quan đến bản quyền.
• ĐCSTQ đang áp dụng cách tiếp cận hai hướng đối với quản trị AI:
- Kiểm soát chặt chẽ dữ liệu đầu vào và đầu ra của các mô hình tạo sinh công khai.
- Áp đặt ít hoặc không có hạn chế đối với phát triển và triển khai mô hình trong doanh nghiệp, nghiên cứu và quân sự.
• Cục Quản lý Không gian mạng Trung Quốc (CAC) đã ban hành hướng dẫn về hạn chế và quy tắc đào tạo mô hình AI tạo sinh.
• Ủy ban Kỹ thuật Tiêu chuẩn hóa An ninh Thông tin Quốc gia (NISSTC) gần đây đã công bố dự thảo quy định mới về phát triển và sử dụng AI tạo sinh.
• Các quy định này miễn trừ cho các nhà phát triển không cung cấp dịch vụ tạo sinh cho công chúng khỏi các hạn chế về truy cập dữ liệu, tính minh bạch và kiểm tra an toàn.
• ĐCSTQ đang tận dụng AI để phục vụ tham vọng toàn cầu thông qua giám sát kỹ thuật số và thao túng các công nghệ lưỡng dụng.
• Trung Quốc đã xuất khẩu phần cứng và phần mềm do họ sản xuất trên toàn thế giới, được sử dụng để triển khai giám sát bằng AI.
• Các hệ thống AI có thể được sử dụng để giành lợi thế trong xung đột vũ trang, với máy bay không người lái tự động ngày càng phổ biến trong chiến tranh.
• Các công ty Trung Quốc như DJI và Autel là nhà lãnh đạo thế giới về phần cứng và phần mềm máy bay không người lái.
• Các nhà phát triển mô hình AI hàng đầu của Mỹ đang phải đối mặt với các vụ kiện liên quan đến việc sử dụng tác phẩm có bản quyền trong đào tạo mô hình.
• Để cạnh tranh với Trung Quốc, Mỹ và các đồng minh nên đặt cược vào sự cởi mở, đầu tư khu vực tư nhân và hành động chính phủ có mục tiêu.
• Các quốc gia như Nhật Bản, Singapore và Israel đã làm rõ luật của họ liên quan đến khai thác văn bản và dữ liệu để thúc đẩy phát triển AI.
• Các nhà hoạch định chính sách Mỹ cần xem xét các khuôn khổ để giải quyết mối quan ngại của chủ sở hữu quyền mà không cắt đứt quyền truy cập vào dữ liệu đào tạo công khai.
📌 ĐCSTQ áp dụng chiến lược hai hướng trong phát triển AI: kiểm soát chặt mô hình công khai nhưng tự do cho mục đích quân sự và công nghiệp. Mỹ cần đảm bảo quyền tiếp cận dữ liệu đào tạo và thúc đẩy đổi mới để duy trì vị thế dẫn đầu, tránh mất lợi thế chiến lược do hạn chế quá mức về bản quyền.
https://nationalinterest.org/blog/techland/ccp%E2%80%99s-two-track-approach-ai-training-213289
• LinkedIn đã tạm dừng thu thập dữ liệu người dùng Hong Kong cho mô hình AI tạo sinh sau khi cơ quan giám sát quyền riêng tư của thành phố bày tỏ lo ngại.
• Văn phòng ủy viên bảo vệ dữ liệu cá nhân (PCPD) cho biết LinkedIn đã phản hồi các câu hỏi về cài đặt mặc định cho phép thu thập dữ liệu người dùng Hong Kong để đào tạo các mô hình AI.
• LinkedIn xác nhận đã tạm dừng sử dụng dữ liệu cá nhân của người dùng Hong Kong cho mục đích này từ ngày 11/10/2024.
• Trước đó vào tháng 9, LinkedIn đã cập nhật chính sách quyền riêng tư, cho phép mặc định sử dụng dữ liệu và nội dung của người dùng để đào tạo AI tạo sinh của nền tảng.
• Người dùng phải tự tắt tùy chọn này trong cài đặt tài khoản nếu không muốn chia sẻ thông tin.
• Công ty đã tạm dừng thu thập dữ liệu người dùng Anh vào tháng trước sau khi cơ quan quản lý quyền riêng tư của nước này bày tỏ lo ngại tương tự.
• Francis Fong Po-kiu, chủ tịch danh dự của Liên đoàn công nghệ thông tin Hong Kong, cảnh báo về nguy cơ rò rỉ dữ liệu người dùng khi các công ty công nghệ thu thập thông tin để đào tạo mô hình AI.
• Ông đặt câu hỏi về cách che giấu dữ liệu cá nhân và liệu có thông tin nào bị rò rỉ trong quá trình này không.
• Fong cho rằng việc sử dụng tính năng AI tạo sinh trên các nền tảng mạng xã hội là xu hướng ngày càng phổ biến, khiến các cơ quan quản lý quyền riêng tư ngày càng lo ngại về an toàn dữ liệu cá nhân trực tuyến.
• Người phát ngôn của LinkedIn cho biết công ty luôn sử dụng một số hình thức tự động hóa cho các sản phẩm và minh bạch với người dùng về lựa chọn và việc sử dụng dữ liệu của họ.
• LinkedIn tin rằng người dùng nên có khả năng kiểm soát dữ liệu của mình, vì vậy họ đang cung cấp tùy chọn từ chối đào tạo mô hình AI ở các quốc gia thực hiện việc này.
• Công ty cho biết nhu cầu về các công cụ hỗ trợ viết bằng AI là rất cao.
• Việc sử dụng dữ liệu thành viên cho mô hình AI tạo sinh đã bị dừng ở Khu vực kinh tế châu Âu, Vương quốc Anh, Thụy Sĩ, Hong Kong và Trung Quốc đại lục.
📌 LinkedIn đã tạm dừng thu thập dữ liệu người dùng Hong Kong cho AI tạo sinh từ 11/10/2024 sau khi cơ quan giám sát quyền riêng tư bày tỏ lo ngại. Công ty cam kết minh bạch và cho phép người dùng kiểm soát dữ liệu, đồng thời đã dừng thu thập dữ liệu ở nhiều khu vực khác như châu Âu và Trung Quốc.
https://www.scmp.com/news/hong-kong/society/article/3282452/linkedin-suspends-collecting-hong-kong-users-data-genai-privacy-watchdog
- Doanh nghiệp bắt đầu thực hiện các bước quan trọng để tận dụng giá trị thực từ AI tạo sinh.
- Năm 2023 chứng kiến sự ngạc nhiên của khách hàng với AI tạo sinh; năm 2024 là thời điểm triển khai quy mô lớn các chương trình AI có trách nhiệm.
- Một số nỗ lực AI tạo sinh vẫn còn khiêm tốn, chủ yếu tập trung vào việc tăng năng suất và giảm bớt công việc tẻ nhạt.
- Nhiều doanh nghiệp có tham vọng lớn hơn, muốn thay đổi cách thức hoạt động và sản phẩm của mình.
- Sự kỳ vọng vào AI tạo sinh có thể làm thay đổi mô hình kinh doanh và sản phẩm do khả năng khai thác dữ liệu khổng lồ từ nguồn dữ liệu chưa cấu trúc.
- Theo Baris Gultekin, 80-90% dữ liệu toàn cầu là chưa cấu trúc; AI mở ra cơ hội cho các tổ chức khai thác thông tin từ loại dữ liệu này.
- Khảo sát từ MIT Technology Review Insights cho thấy 72% giám đốc điều hành ưu tiên khả năng tăng hiệu quả và năng suất của công nghệ AI tạo sinh.
- 55% cho rằng nó sẽ tăng tính cạnh tranh trên thị trường; 47% mong muốn cải thiện sản phẩm và dịch vụ.
- Chỉ 30% coi công nghệ này là yếu tố chính thúc đẩy doanh thu tăng lên.
- Hơn một nửa số công ty xem việc tìm kiếm con đường mới để cạnh tranh là một trong ba mục tiêu hàng đầu của họ.
- Chakraborty nhấn mạnh rằng có sự giao thoa giữa hiệu quả và đổi mới trong hoạt động hiện tại.
- Các chiến dịch marketing đang được tái thiết kế nhờ sức mạnh của AI tạo sinh, tạo ra hiệu quả mới và đổi mới sản phẩm.
- Một khách hàng của Snowflake đã sử dụng AI để cung cấp 700.000 trang nghiên cứu cho đội ngũ của họ, giúp tăng tốc độ đổi mới.
- Sự phát triển của chatbot là ví dụ điển hình về ảnh hưởng của AI tạo sinh, với 44% giám đốc điều hành nhận thấy sự cải thiện trong sự hài lòng của khách hàng.
- Gần một phần ba số người tham gia khảo sát (30%) cho rằng cả tăng năng suất và đổi mới đều nằm trong ba loại giá trị hàng đầu mà họ mong muốn từ AI tạo sinh.
- Một số công ty đang "đặt cược lớn" vào đổi mới toàn diện với AI tạo sinh, đặc biệt trong ngành dược phẩm.
📌 Năm 2024 chứng kiến sự chuyển mình mạnh mẽ trong ứng dụng AI tạo sinh. Doanh nghiệp không có chiến lược dữ liệu sẽ khó khăn trong việc cạnh tranh. Hơn 72% giám đốc điều hành mong muốn tăng hiệu quả và năng suất thông qua công nghệ này.
https://www.technologyreview.com/2024/10/14/1105249/data-strategies-for-ai-leaders/
#MIT
• Reducto vừa huy động được 8,4 triệu USD trong vòng gọi vốn hạt giống do First Round Capital dẫn đầu
• Startup này được thành lập năm 2023 và là thành viên của khóa mùa đông 2024 của Y Combinator
• Các nhà đầu tư khác tham gia vòng gọi vốn bao gồm Y Combinator, BoxGroup, SVAngel, Liquid2 và một số nhà đầu tư thiên thần nổi tiếng
• Reducto phát triển công nghệ AI giúp đọc hiểu các tài liệu phức tạp như PDF và bảng tính, vốn là thách thức đối với các mô hình ngôn ngữ lớn hiện nay
• Công ty đã huấn luyện nhiều mô hình về các dấu hiệu trực quan trong tài liệu như khoảng cách giữa các đoạn văn, tab trong danh sách để hiểu cấu trúc phân cấp
• Mục tiêu là xây dựng công cụ AI tạo sinh mô phỏng thị giác và khả năng đọc của con người
• Reducto cung cấp công nghệ cho các công ty khác, với khách hàng bao gồm startup công nghệ pháp lý Leya, một công ty AI chăm sóc sức khỏe, một startup giai đoạn sau xử lý tài liệu cho các cơ quan chính phủ Mỹ và một công ty công nghệ lớn
• Có nhiều startup tập trung vào phân tích PDF nhưng chủ yếu phục vụ cá nhân, trong khi Reducto nhắm vào thị trường doanh nghiệp
• Humata AI, một startup trong lĩnh vực này, đã gọi vốn 3,5 triệu USD từ Gradient Ventures của Google vào năm ngoái
• ChatGPT Store của OpenAI cũng giới thiệu nhiều nhà phát triển AI xử lý PDF
📌 Reducto gọi vốn thành công 8,4 triệu USD để phát triển công nghệ AI đọc hiểu tài liệu phức tạp như PDF, bảng tính. Startup này nhắm tới cải thiện khả năng phân tích tài liệu của các mô hình ngôn ngữ lớn, với mục tiêu trở thành cầu nối giữa dữ liệu của con người và LLM.
https://www.businessinsider.com/pitch-deck-ai-pdf-startup-reducto-vc-funding-first-round
• Google và Đại học Harvard đã phát triển bộ dữ liệu FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) gồm 824 câu hỏi đa bước thách thức để đánh giá các hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).
• FRAMES đánh giá 3 khả năng cốt lõi của hệ thống RAG: tính chính xác, khả năng truy xuất và suy luận. Các câu hỏi bao gồm nhiều chủ đề từ lịch sử, thể thao đến hiện tượng khoa học.
• Khoảng 36% câu hỏi yêu cầu suy luận qua nhiều ràng buộc, 20% đòi hỏi so sánh số học, và 16% cần phân biệt thời gian. Mỗi câu hỏi cần từ 2-15 bài viết Wikipedia để trả lời.
• Phương pháp truy xuất đơn bước truyền thống chỉ đạt độ chính xác 0,40, trong khi phương pháp truy xuất đa bước mới cải thiện đáng kể lên 0,66.
• Phương pháp mới tạo ra nhiều truy vấn tìm kiếm theo các bước lặp lại, mỗi truy vấn truy xuất các tài liệu xếp hạng cao nhất và thêm vào ngữ cảnh của mô hình.
• Mô hình tiên tiến nhất đạt độ chính xác 0,40 trong kịch bản đánh giá một bước, cải thiện lên 0,45 với hai tài liệu bổ sung và 0,47 với bốn tài liệu.
• Oracle Prompt, nơi tất cả tài liệu cần thiết có trong ngữ cảnh, cho độ chính xác 0,73, cho thấy tiềm năng của hệ thống truy xuất hoàn hảo.
• Nghiên cứu nhấn mạnh nhu cầu phát triển thêm các hệ thống RAG, đặc biệt là cải thiện cơ chế truy xuất và khả năng suy luận.
• Kết quả cung cấp nền tảng vững chắc cho công việc trong tương lai tập trung vào cải thiện tích hợp truy xuất đa tài liệu phức tạp và tinh chỉnh khung suy luận.
• Bộ dữ liệu FRAMES cung cấp bức tranh rõ ràng hơn về hiệu suất của hệ thống RAG trong các ứng dụng thực tế, mở đường cho các đổi mới trong tương lai.
📌 Google phát hành FRAMES - bộ dữ liệu 824 câu hỏi đa bước để đánh giá toàn diện hệ thống RAG. Phương pháp truy xuất đa bước mới cải thiện độ chính xác từ 0,40 lên 0,66. Tuy nhiên, vẫn còn thách thức trong suy luận số học và xử lý bảng biểu.
https://www.marktechpost.com/2024/10/01/google-releases-frames-a-comprehensive-evaluation-dataset-designed-to-test-retrieval-augmented-generation-rag-applications-on-factuality-retrieval-accuracy-and-reasoning/
• Redbird, công ty có trụ sở tại New York, đã công bố nền tảng chat mới sử dụng "agent chuyên biệt" để giúp doanh nghiệp xử lý phần lớn các tác vụ trong chuỗi giá trị phân tích, từ thu thập và xử lý dữ liệu đến khoa học dữ liệu và tạo ra các insights.
• Nền tảng này cho phép người dùng đưa ra yêu cầu bằng ngôn ngữ tự nhiên để nhận được phân tích từ dữ liệu gần như theo thời gian thực. Theo CEO Erin Tavgac, công nghệ này có thể đảm nhận hơn 90% công việc business intelligence của doanh nghiệp.
• Redbird đã hoạt động trong lĩnh vực phân tích từ năm 2018 dưới tên Cube Analytics, cung cấp bộ công cụ no-code để tự động hóa các tác vụ phân tích. Đầu năm nay, họ đã bổ sung giao diện hội thoại cho phép đặt câu hỏi bằng ngôn ngữ tự nhiên.
• Hệ thống agent mới hoạt động dựa trên bộ công cụ end-to-end của Redbird để điều phối và thực hiện các tác vụ phân tích phức tạp. Quản trị viên cần chọn một mô hình ngôn ngữ lớn làm nền tảng và tải lên dữ liệu, logic nghiệp vụ và mẫu báo cáo của tổ chức để tùy chỉnh hệ thống.
• Các agent có thể trích xuất dữ liệu từ hơn 100 nguồn khác nhau, thực hiện xử lý nâng cao, tạo báo cáo và thực hiện các hành động cần thiết dựa trên kết quả phân tích.
• Redbird vẫn duy trì giao diện kéo thả no-code ban đầu như một tùy chọn phụ, cho phép người dùng kiểm tra chi tiết quy trình làm việc nếu cần.
• Công ty đã thu hút được 8 trong số 50 thương hiệu Fortune và hơn 30 khách hàng doanh nghiệp vừa và lớn trong vài tháng qua, bao gồm Mondelez International, USA Today, Bobcat Company và Johnson & Johnson.
• Redbird đang cung cấp công nghệ theo mô hình SaaS với phí cấp phép dựa trên mức sử dụng và tạo ra doanh thu 7 chữ số.
• Trong tương lai, công ty sẽ tiếp tục phát triển các agent AI tiên tiến hơn và mở rộng sang mô hình "Large Action Model" cho phép thực hiện các hành động phức tạp hơn dựa trên kết quả phân tích.
📌 Redbird đã phát triển nền tảng chat AI mới có khả năng tự động hóa 90% công việc phân tích dữ liệu trong doanh nghiệp. Công nghệ này đã thu hút được nhiều khách hàng lớn và đang tạo ra doanh thu 7 chữ số. Redbird đang hướng tới việc phát triển các agent AI tiên tiến hơn trong tương lai.
https://venturebeat.com/data-infrastructure/redbird-supercharges-analytics-pipeline-with-ai-agents-handles-90-of-workload/
• Theo khảo sát của MIT Sloan Management Review và Boston Consulting Group, 84% chuyên gia AI quốc tế ủng hộ việc bắt buộc các công ty phải công khai về việc sử dụng AI trong sản phẩm và dịch vụ của họ.
• Các chuyên gia cho rằng việc công khai thúc đẩy tính minh bạch, là nền tảng của khuôn khổ AI có trách nhiệm hiệu quả. Nó giúp khách hàng đưa ra quyết định sáng suốt và tăng cường niềm tin.
• Công khai cũng được xem là nghĩa vụ đạo đức của các công ty đối với khách hàng. Nó giúp người dùng đánh giá rủi ro và tìm cách giảm thiểu, ví dụ như kiểm tra kết quả đầu ra của mô hình ngôn ngữ lớn trước khi sử dụng.
• Ngoài nghĩa vụ đạo đức, việc công khai còn giúp xây dựng niềm tin với khách hàng, nhà đầu tư và nhân viên. Đây có thể là yếu tố quan trọng trong việc lựa chọn và gắn bó với một công ty.
• Tuy nhiên, việc thực hiện công khai hiệu quả cũng gặp nhiều thách thức. Chưa có định nghĩa rõ ràng để phân biệt AI với phần mềm hay hệ thống ra quyết định khác, gây khó khăn trong việc xác định khi nào cần công khai.
• Một số chuyên gia cảnh báo việc công khai có thể làm lộ bí mật cạnh tranh. Họ khuyến nghị không nên bao gồm thông tin về sở hữu trí tuệ hoặc bí mật thương mại trong phần công khai.
• Việc giải thích AI bằng ngôn ngữ thân thiện với người dùng cũng là thách thức lớn. Công khai kém chất lượng có thể làm suy yếu tính minh bạch và trách nhiệm giải trình.
• Các chuyên gia đồng ý rằng công ty nên công khai khi khách hàng tương tác với AI và khi AI được sử dụng trong các quyết định quan trọng. Đặc biệt trong các lĩnh vực như y tế, tài chính và tuyển dụng.
• Nhiều chuyên gia cho rằng công ty cũng nên công khai về dữ liệu liên quan đến AI, bao gồm cách quản lý và bảo vệ dữ liệu được thu thập bởi các ứng dụng AI.
• Các khuyến nghị cho việc công khai AI bao gồm: cân nhắc các nguyên tắc AI có trách nhiệm cốt lõi, làm cho việc công khai dễ hiểu, vượt xa yêu cầu pháp lý, và công bố chi tiết về thực hành AI có trách nhiệm.
📌 84% chuyên gia ủng hộ bắt buộc công khai việc sử dụng AI trong sản phẩm để tăng cường minh bạch và niềm tin của khách hàng. Tuy nhiên, việc thực hiện hiệu quả gặp nhiều thách thức về định nghĩa, bảo mật và truyền đạt. Các công ty nên cân nhắc công khai khi AI tác động đến quyết định quan trọng và dữ liệu cá nhân.
https://sloanreview.mit.edu/article/artificial-intelligence-disclosures-are-key-to-customer-trust/
#MIT
- Cloudflare công bố kế hoạch ra mắt một marketplace trong năm tới, cho phép chủ sở hữu website bán quyền truy vấn dữ liệu cho các nhà cung cấp mô hình AI.
- Marketplace này là một phần trong kế hoạch lớn của CEO Cloudflare, Matthew Prince, nhằm giúp các nhà xuất bản kiểm soát cách thức và thời gian các AI bots truy vấn nội dung của họ.
- Cloudflare đồng thời ra mắt công cụ miễn phí mang tên **AI Audit** giúp người dùng quan sát hoạt động của các AI bots trên trang web của mình. AI Audit cung cấp bảng điều khiển để xem thống kê lý do, thời điểm và tần suất các mô hình AI truy cập website.
- Chủ website có thể dùng AI Audit để chặn hoặc cho phép một số AI bots cụ thể, tùy thuộc vào thỏa thuận hoặc nhu cầu.
- Một ví dụ của AI Audit cho thấy người dùng có thể theo dõi AI bots của các công ty lớn như OpenAI, Meta, Amazon, và những nhà cung cấp mô hình AI khác đang truy vấn dữ liệu của website họ bao nhiêu lần.
- Công cụ này giải quyết vấn đề lớn mà các nhà xuất bản nhỏ đang đối mặt khi AI truy vấn quá nhiều dữ liệu, khiến mô hình kinh doanh của họ bị đe dọa vì giảm lượt truy cập.
- Một số trang web nhỏ bị cáo buộc AI bots của startup như Perplexity đã truy vấn trái phép dù họ đã sử dụng **Robots Exclusion Protocol**.
- Cloudflare cũng cung cấp nút bấm một lần để chặn mọi AI bots nếu chủ sở hữu cảm thấy dữ liệu của họ bị đánh cắp mà không được bồi thường.
- Các nhà xuất bản lớn như TIME, Condé Nast, và The Atlantic, dù có thỏa thuận cấp phép với OpenAI, cũng có ít thông tin về tần suất truy vấn từ ChatGPT trên trang của họ.
- Marketplace của Cloudflare sẽ cho phép cả các nhà xuất bản nhỏ đạt được thỏa thuận tương tự như các đơn vị lớn, cho phép họ định giá nội dung truy vấn bởi các mô hình AI.
- Chi tiết về mức giá cụ thể hoặc hình thức thanh toán (bằng tiền hoặc tín dụng) vẫn chưa được Cloudflare tiết lộ rõ ràng, nhưng ý tưởng là các trang web có thể kiếm tiền từ nội dung bị truy vấn.
📌 Cloudflare đang phát triển một marketplace cho phép các website nhỏ thu phí từ AI bots khi truy vấn dữ liệu. Họ cũng giới thiệu công cụ AI Audit giúp chặn hoặc cho phép AI bots. Đây là bước đi quan trọng để bảo vệ quyền lợi nhà xuất bản, nhất là các trang nhỏ bị tổn thương bởi AI bots.
https://techcrunch.com/2024/09/23/cloudflares-new-marketplace-lets-websites-charge-ai-bots-for-scraping/
1. Tỷ lệ áp dụng AI trong các tổ chức đã tăng vọt từ 50% lên 72% vào năm 2024, cho thấy sự chuyển biến đáng kể trong cách doanh nghiệp tiếp cận AI.
2. AI tạo sinh được sử dụng nhiều nhất trong marketing và bán hàng (34%) và phát triển sản phẩm/dịch vụ (23%). Các ứng dụng phổ biến bao gồm hỗ trợ nội dung marketing, marketing cá nhân hóa và phát triển thiết kế.
3. 35% người được khảo sát đã thử AI tạo sinh ít nhất một lần. Việc sử dụng thường xuyên ngoài công việc tăng từ 16% lên 26%, trong khi số người không tiếp xúc với AI tạo sinh giảm từ 18% xuống 8%.
4. 79% lãnh đạo đồng ý rằng AI rất quan trọng để duy trì khả năng cạnh tranh, nhưng 59% lo ngại về cách đo lường lợi ích năng suất từ AI.
5. Tuân thủ, rủi ro và quản trị là những rào cản lớn nhất đối với việc áp dụng AI tạo sinh. 30% lãnh đạo gặp khó khăn trong quản lý rủi ro và tuân thủ, 36% thiếu mô hình quản trị rõ ràng.
6. Nhân viên thuộc mọi thế hệ đang sử dụng công cụ AI cá nhân để nâng cao năng suất: 85% Gen Z, 78% Millennials, 76% Gen X và 73% Baby Boomers.
7. Thị trường AI dự kiến sẽ tăng từ 184 tỷ USD vào năm 2024 lên 826 tỷ USD vào năm 2030, cho thấy sự tăng trưởng mạnh mẽ.
8. Doanh thu phần mềm AI toàn cầu dự kiến đạt gần 100 tỷ USD vào năm 2025.
9. Ngành ngân hàng và bán lẻ dẫn đầu về chi tiêu cho AI, với ngân hàng đầu tư 20,6 tỷ USD và bán lẻ 19,7 tỷ USD vào năm 2023.
10. 67% tổ chức dự kiến sẽ tăng đầu tư vào AI trong 3 năm tới. 42% báo cáo tiết kiệm chi phí và 59% thấy tăng doanh thu nhờ sử dụng AI.
11. 41% nhà tiếp thị sử dụng AI tạo sinh để tự động hóa các tác vụ như viết bài, đăng mạng xã hội và trang đích.
12. 34% giám đốc marketing cho biết AI đang cải thiện trải nghiệm khách hàng.
13. 68% nhà tiếp thị cho rằng AI có tác động tích cực đến sự nghiệp của họ.
14. 77% người tiêu dùng lo ngại về việc mất việc làm do AI trong 12 tháng tới.
15. 47% tin rằng AI sẽ cắt giảm nhiều việc làm hơn là tạo ra trong 3 năm tới.
16. Việc làm liên quan đến AI chiếm 1,6% tổng số việc làm được đăng tuyển ở Mỹ năm 2023, giảm từ 2% năm 2022.
17. 74% chuyên gia IT dự đoán nhu cầu về kỹ năng phân tích dữ liệu sẽ tăng cao nhất do sự phát triển của AI tạo sinh.
18. Python là kỹ năng hàng đầu trong bộ công nghệ khoa học dữ liệu.
19. 66% lãnh đạo nói họ sẽ không thuê người không có kỹ năng AI.
20. 71% lãnh đạo thích thuê ứng viên ít kinh nghiệm hơn nhưng có kỹ năng AI.
21. Các nghề nghiệp có nguy cơ bị ảnh hưởng bởi AI cao nhất là: người vận hành máy (46%), nhân viên dịch vụ khách hàng (42%), công nhân kho bãi (41%) và nhà thiết kế đồ họa (40%).
22. Số lượng quy định liên quan đến AI ở Mỹ đã tăng từ 1 vào năm 2016 lên 25 vào năm 2023.
23. 68,5% lãnh đạo doanh nghiệp cho rằng nhân viên không nên sử dụng công cụ AI mà không có sự cho phép.
24. 55% tổ chức tránh một số trường hợp sử dụng AI tạo sinh do lo ngại về dữ liệu.
25. Tỷ lệ người coi quyền riêng tư dữ liệu là nguyên tắc đạo đức chính cho công nghệ mới nổi giảm từ 19% xuống 7%.
26. 39% người được khảo sát tò mò về AI, trong khi 37% lo lắng.
27. 39% người được khảo sát tin rằng AI có tiềm năng tốt nhất trong các công nghệ mới nổi, tăng từ 33% năm 2022.
28. 57% người được khảo sát cho rằng AI có khả năng gây ra rủi ro đạo đức nghiêm trọng, tăng từ 41% năm 2022.
29. 76% lo ngại về việc AI gây ra thông tin sai lệch trên trang web của công ty.
30. 80% khách hàng cho rằng việc con người xác thực kết quả đầu ra của AI là quan trọng, nhấn mạnh nhu cầu giám sát của con người.
📌 AI đang phát triển nhanh chóng, mở ra cơ hội đổi mới và hiệu quả. Tỷ lệ áp dụng tăng từ 50% lên 72% vào năm 2024. Thị trường AI dự kiến đạt 826 tỷ USD vào năm 2030. Tuy nhiên, vẫn còn lo ngại về mất việc làm, đạo đức và quy định. Cần cân bằng giữa khai thác tiềm năng và quản lý rủi ro của AI.
https://www.jeffbullas.com/ai-stats/
- Các bot AI từ OpenAI và Anthropic đang gây ra sự tắc nghẽn lớn cho nhiều trang web, làm tăng chi phí vận hành và ảnh hưởng tiêu cực đến các nhà sáng tạo độc lập.
- Edd Coates, người sáng lập Game UI Database, đã trải qua tình trạng tắc nghẽn nghiêm trọng khi lưu lượng truy cập từ một địa chỉ IP của OpenAI làm chậm trang web của anh.
- Trang web của Coates đã bị tải lại 200 lần mỗi giây, dẫn đến lỗi 502 Bad Gateway và thời gian tải trang tăng gấp 3 lần.
- Chi phí cho băng thông đám mây của Coates đã tăng lên 850 USD mỗi ngày do lưu lượng truy cập khổng lồ từ bot AI.
- Một nghiên cứu cho thấy nguồn dữ liệu huấn luyện AI có thể cạn kiệt vào năm 2032, dẫn đến cuộc đua thu thập dữ liệu giữa các công ty công nghệ.
- Joshua Gross, nhà sáng lập Planetary, cũng gặp phải tình trạng tương tự khi lưu lượng truy cập từ bot AI làm tăng gấp đôi chi phí máy chủ của khách hàng.
- Số lượng các trang web áp dụng hạn chế robots.txt đối với bot AI đã tăng mạnh từ tháng 4 năm 2023 đến tháng 4 năm 2024.
- Theo nghiên cứu, 25.9% trong số các hạn chế này là dành cho OpenAI, trong khi 13.3% dành cho Anthropic và 9.8% cho Google.
- Nhiều chủ sở hữu trang web lo ngại về việc dữ liệu của họ bị sử dụng để huấn luyện mô hình mà không có sự đồng ý.
- David Senecal từ Akamai cho biết rằng việc thu thập dữ liệu bằng bot AI có thể gây ra vấn đề về tài sản trí tuệ và làm sai lệch các chỉ số quan trọng như tỷ lệ chuyển đổi.
- Roberto Di Cosmo, giám đốc Software Heritage, đã chứng kiến sự gia tăng chưa từng có của bot AI làm tắc nghẽn cơ sở dữ liệu mã nguồn mở của mình.
- Tania Cohen từ 360Giving cho biết tổ chức phi lợi nhuận của cô đã bị ngừng hoạt động do bot AI gây ra lưu lượng truy cập quá lớn.
📌 Cuộc chiến giữa các công ty AI và chủ sở hữu trang web đang gia tăng với những tác động tiêu cực rõ rệt. Các bot AI không chỉ làm tăng chi phí mà còn gây khó khăn cho những nhà sáng tạo độc lập như Edd Coates.
https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9
• LinkedIn vừa tiết lộ đang sử dụng dữ liệu người dùng để huấn luyện các mô hình AI của mình mà không có sự đồng ý rõ ràng từ người dùng.
• Dữ liệu được sử dụng bao gồm thông tin trang cá nhân, bài đăng và các nội dung khác trên LinkedIn.
• LinkedIn khẳng định không gửi dữ liệu người dùng cho OpenAI, nhưng có sử dụng các mô hình của OpenAI thông qua dịch vụ Azure AI của Microsoft.
• Hiện tại, các chính sách của LinkedIn như Điều khoản Trang, Thỏa thuận Người dùng, Chính sách Quyền riêng tư và Chính sách Bản quyền không đề cập đến AI.
• LinkedIn đang cập nhật Thỏa thuận Người dùng và Chính sách Quyền riêng tư để công khai việc sử dụng dữ liệu cho AI.
• Người dùng EU được tự động loại trừ khỏi việc thu thập dữ liệu cho AI "cho đến khi có thông báo mới".
• Một số người dùng cho rằng Microsoft nên trả tiền cho việc khai thác dữ liệu của họ trên LinkedIn.
• Người dùng có thể tắt cài đặt này bằng cách vào Cài đặt > Quyền riêng tư dữ liệu > Dữ liệu để cải thiện AI tạo sinh.
• LinkedIn thuộc sở hữu của Microsoft, công ty có mối quan hệ tài chính chặt chẽ với OpenAI.
• Chính sách hiện tại của LinkedIn cấm người dùng sử dụng phần mềm, thiết bị, script hoặc robot để thu thập dữ liệu từ nền tảng.
• LinkedIn cũng cấm người dùng bán hoặc kiếm lợi từ bất kỳ dữ liệu nào được đăng tải trên nền tảng.
• Việc sử dụng dữ liệu cho AI đã gây ra tranh cãi, với một số người dùng kêu gọi tắt tính năng này ngay lập tức.
• Ido Banai, CEO của VectorField, cho rằng người dùng nên được trả tiền mỗi khi dữ liệu của họ được sử dụng để huấn luyện máy học.
📌 LinkedIn đang âm thầm sử dụng dữ liệu người dùng để huấn luyện AI mà không có sự đồng ý rõ ràng. Người dùng EU được bảo vệ tốt hơn, trong khi những người khác cần chủ động tắt cài đặt này. Vấn đề này làm dấy lên tranh cãi về quyền riêng tư và bồi thường cho việc sử dụng dữ liệu cá nhân trong thời đại AI.
https://www.pcmag.com/news/linkedin-is-quietly-training-ai-on-your-data-heres-how-to-stop-it
• Google giới thiệu DataGemma - mô hình AI nguồn mở đầu tiên được thiết kế để giải quyết vấn đề ảo giác của các mô hình ngôn ngữ lớn (LLM) bằng cách kết nối chúng với dữ liệu thống kê thực tế từ Data Commons.
• Data Commons là một đồ thị kiến thức công khai chứa hơn 240 tỷ điểm dữ liệu từ các tổ chức uy tín như Liên Hợp Quốc, WHO, CDC và các Cục Thống kê.
• DataGemma sử dụng hai phương pháp chính để nâng cao độ chính xác của LLM:
1. RIG (Tạo sinh được xen kẽ bởi truy xuất): Chủ động truy vấn nguồn đáng tin cậy và kiểm tra thông tin với Data Commons. Khi được yêu cầu tạo phản hồi, mô hình được lập trình để xác định các trường hợp dữ liệu thống kê và truy xuất câu trả lời từ Data Commons.
2. RAG (Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài): Cho phép mô hình ngôn ngữ kết hợp thông tin liên quan ngoài dữ liệu huấn luyện. DataGemma truy xuất thông tin ngữ cảnh liên quan từ Data Commons trước khi mô hình bắt đầu tạo phản hồi.
• Kết quả sơ bộ cho thấy cải thiện đáng kể về độ chính xác của mô hình ngôn ngữ khi xử lý các sự kiện số học, giảm thiểu ảo giác cho người dùng.
• Google đang tiếp tục nghiên cứu và cam kết hoàn thiện các phương pháp này, với mục tiêu cuối cùng là tích hợp chức năng nâng cao này vào cả mô hình Gemma và Gemini.
• Bằng cách chia sẻ nghiên cứu và công khai mô hình DataGemma, Google hy vọng thúc đẩy việc áp dụng rộng rãi hơn các kỹ thuật dựa trên Data Commons để làm nền tảng cho LLM trong dữ liệu thực tế.
• Các nhà nghiên cứu và nhà phát triển có thể bắt đầu với DataGemma bằng cách sử dụng các notebook khởi động nhanh cho cả phương pháp RIG và RAG.
📌 DataGemma là mô hình AI nguồn mở đầu tiên kết nối LLM với 240 tỷ điểm dữ liệu thực tế từ Data Commons. Sử dụng phương pháp RIG và RAG, DataGemma giúp giảm ảo giác AI và nâng cao độ chính xác khi xử lý dữ liệu số học, hướng tới tương lai AI đáng tin cậy hơn.
https://blog.google/technology/ai/google-datagemma-ai-llm/
• Meta xác nhận sẽ khởi động lại kế hoạch sử dụng bài đăng công khai trên Facebook và Instagram của người dùng Anh để huấn luyện hệ thống AI của mình.
• Công ty tuyên bố đã "kết hợp phản hồi từ cơ quan quản lý" vào cách tiếp cận "từ chối tham gia" đã được sửa đổi để "minh bạch hơn nữa".
• Meta cho rằng việc này sẽ giúp các mô hình AI tạo sinh của họ "phản ánh văn hóa, lịch sử và thành ngữ của Anh".
• Từ tuần tới, người dùng Anh sẽ bắt đầu thấy thông báo trong ứng dụng giải thích về kế hoạch này. Meta dự định bắt đầu sử dụng nội dung công khai để huấn luyện AI trong những tháng tới.
• Động thái này diễn ra 3 tháng sau khi Meta tạm dừng kế hoạch do áp lực từ cơ quan quản lý ở Anh, với Văn phòng Ủy viên Thông tin (ICO) nêu lo ngại về cách Meta có thể sử dụng dữ liệu người dùng Anh.
• Ủy ban Bảo vệ Dữ liệu Ireland, cơ quan quản lý quyền riêng tư chính của Meta tại EU, cũng phản đối kế hoạch của Meta. Chưa rõ khi nào Meta sẽ khởi động lại nỗ lực huấn luyện AI ở EU.
• Meta đã sử dụng nội dung do người dùng tạo ra ở các thị trường như Mỹ để tăng cường AI, nhưng các quy định về quyền riêng tư toàn diện của châu Âu đã tạo ra thách thức.
• Trước đó vào tháng 5, Meta bắt đầu thông báo cho người dùng ở châu Âu về thay đổi chính sách quyền riêng tư sắp tới, nói rằng họ sẽ bắt đầu sử dụng nội dung từ bình luận, tương tác với công ty, cập nhật trạng thái, ảnh và chú thích đi kèm để huấn luyện AI.
• Tổ chức phi lợi nhuận về quyền riêng tư noyb đã đệ đơn khiếu nại với các quốc gia thành viên EU, cho rằng Meta vi phạm nhiều khía cạnh của Quy định Bảo vệ Dữ liệu Chung (GDPR) của EU.
• Meta vẫn giữ cách tiếp cận "từ chối tham gia" thay vì "chọn tham gia", khiến người dùng phải chủ động từ chối việc sử dụng thông tin của họ. Công ty nói rằng họ dựa vào cơ sở pháp lý "lợi ích hợp pháp" trong GDPR.
• Meta tuyên bố đã đơn giản hóa biểu mẫu từ chối lần này, kết hợp phản hồi từ ICO. Tuy nhiên, công ty chưa giải thích cụ thể cách thức đơn giản hóa.
• ICO cho biết sẽ "theo dõi tình hình" khi Meta tiến hành kế hoạch sử dụng dữ liệu của Anh để huấn luyện mô hình AI.
📌 Meta tiếp tục kế hoạch sử dụng dữ liệu người dùng Anh để huấn luyện AI, bất chấp lo ngại về quyền riêng tư. Công ty tuyên bố đã cải thiện tính minh bạch và quy trình từ chối, nhưng vẫn giữ cách tiếp cận "từ chối tham gia" gây tranh cãi. ICO sẽ giám sát chặt chẽ việc tuân thủ luật bảo vệ dữ liệu của Meta.
https://techcrunch.com/2024/09/13/meta-reignites-plans-to-train-ai-using-uk-users-public-facebook-and-instagram-posts/
• Một nghiên cứu mới từ AWS cho thấy 57% nội dung văn bản trên internet hiện đã được tạo ra bởi AI.
• Phần lớn nội dung được xuất bản trên web là bản dịch được tạo bởi Dịch máy (Machine Translation), một loại AI tập trung vào việc dịch văn bản.
• Việc này không chỉ có hại cho người dùng và người sáng tạo nội dung, mà còn cản trở việc huấn luyện các mô hình AI tạo sinh.
• Các mô hình ngôn ngữ lớn (LLM) dựa vào nội dung do con người và chuyên gia tạo ra để cung cấp thông tin chính xác hơn. Việc sao chép văn bản bằng AI và chỉ thông qua dịch thuật ảnh hưởng đến hiệu suất của AI tạo sinh.
• Nghiên cứu của AWS nhấn mạnh rằng các bản dịch thường có lỗi vì chúng xuất phát từ các văn bản được viết kém chất lượng. Hậu quả là những nội dung dịch này sẽ cung cấp thông tin không chính xác hoặc kém chất lượng cho người dùng.
• Ngoài ra còn có vấn đề là LLM sẽ "tái chế" nội dung cho việc huấn luyện của chính nó - tức là AI đang huấn luyện AI, gần giống như một mô hình kim tự tháp.
• Nghiên cứu chỉ ra rằng chất lượng và độ chính xác của các phản hồi được tạo ra bởi LLM suy giảm theo thời gian.
• Đối với những người sử dụng ChatGPT, Gemini, Copilot hoặc các AI khác cho các tác vụ đơn giản hơn, sự suy giảm chất lượng này có thể không được nhận ra. Tuy nhiên, vào cuối năm 2023 và đầu năm 2024, đã có trường hợp ChatGPT bị "lười biếng". Một số độc giả đã phàn nàn về sự suy giảm chất lượng nhất định của các AI tạo sinh.
• Nghiên cứu của AWS đề xuất một giải pháp: sử dụng các công nghệ để phát hiện nội dung được tạo ra bởi Dịch máy (MT). Khác với các công cụ dịch thuật cơ bản chỉ dịch từng từ một, MT sử dụng AI để đánh giá ngữ cảnh của văn bản.
📌 Nghiên cứu của AWS tiết lộ 57% nội dung web do AI tạo ra, chủ yếu qua dịch máy. Điều này gây ra vòng luẩn quẩn khi AI huấn luyện AI, dẫn đến suy giảm chất lượng thông tin và hiệu suất của các mô hình ngôn ngữ lớn theo thời gian. Giải pháp đề xuất là phát triển công nghệ phát hiện nội dung do máy tạo.
https://betechwise.com/57-of-content-on-the-web-was-created-by-robots-study-shows/
Nội dung bài báo:
https://arxiv.org/pdf/2401.05749
• Nghiên cứu chỉ ra rằng một lượng lớn nội dung trên web được dịch sang nhiều ngôn ngữ, và chất lượng thấp của các bản dịch đa ngữ này cho thấy chúng có khả năng được tạo ra bằng dịch máy (MT).
• Nội dung được tạo bởi máy và song ngữ không chỉ chiếm ưu thế trong các bản dịch ở các ngôn ngữ ít tài nguyên, mà còn chiếm một phần lớn tổng số nội dung web ở những ngôn ngữ đó.
• Có bằng chứng về sự thiên vị trong việc lựa chọn loại nội dung được dịch sang nhiều ngôn ngữ, phù hợp với việc nội dung tiếng Anh chất lượng thấp được dịch hàng loạt sang nhiều ngôn ngữ ít tài nguyên thông qua MT.
• Nghiên cứu đặt ra những lo ngại nghiêm trọng về việc huấn luyện các mô hình như mô hình ngôn ngữ đa ngữ lớn trên cả dữ liệu đơn ngữ và song ngữ được thu thập từ web.
• Các tác giả đã tạo ra bộ dữ liệu đa ngữ lớn nhất từ trước đến nay, bao gồm 6,4 tỷ câu duy nhất trong 90 ngôn ngữ để phân tích.
• Phân tích cho thấy nội dung đa ngữ có xu hướng ngắn hơn và đơn giản hơn. Ví dụ, độ dài trung bình của câu tiếng Anh giảm từ 103,7 ký tự ở nội dung song ngữ xuống còn 59,9 ký tự ở nội dung đa ngữ (8+ ngôn ngữ).
• Chất lượng của các bản dịch đa ngữ thấp hơn đáng kể so với các bản dịch song ngữ. Điểm CometQE trung bình giảm 6,2 điểm từ nội dung song ngữ đến nội dung đa ngữ (8+ ngôn ngữ).
• Có sự thay đổi đáng kể trong phân bố chủ đề khi so sánh nội dung song ngữ với nội dung đa ngữ. Ví dụ, tỷ lệ nội dung thuộc chủ đề "Hội thoại & Ý kiến" tăng từ 22,5% ở nội dung song ngữ lên 40,1% ở nội dung đa ngữ (8+ ngôn ngữ).
• Nghiên cứu cũng chỉ ra rằng các công cụ như LASER có xu hướng ưu tiên đầu ra của MT hơn là bản dịch của con người, với điểm tương đồng cosine cao hơn khoảng 2,8% cho đầu ra MT.
• Các phát hiện này giải thích tại sao MT cho các ngôn ngữ ít tài nguyên lại khó khăn, và tại sao việc lọc nhiễu từ dữ liệu song ngữ thu thập từ web lại có lợi cho việc huấn luyện MT.
📌 Nghiên cứu phát hiện 57,1% câu trong bộ dữ liệu 6,4 tỷ câu/90 ngôn ngữ là đa ngữ, với chất lượng và độ phức tạp thấp hơn. Điều này gây lo ngại về chất lượng dữ liệu huấn luyện cho các mô hình ngôn ngữ đa ngữ và MT cho ngôn ngữ ít tài nguyên, đồng thời nhấn mạnh tầm quan trọng của việc lọc dữ liệu web.
• Ủy ban Bảo vệ Dữ liệu Ireland (DPC) đã kết thúc thủ tục tòa án liên quan đến việc X xử lý dữ liệu người dùng để đào tạo chatbot AI Grok.
• DPC sẽ xem xét các khiếu nại được đệ trình theo Quy định Bảo vệ Dữ liệu Chung (GDPR) của EU và có thể áp dụng các biện pháp trừng phạt nếu phát hiện vi phạm.
• X đã đồng ý ngừng xử lý dữ liệu cho việc đào tạo Grok vào đầu tháng 8/2024 và cam kết xóa dữ liệu người dùng châu Âu thu thập từ 7/5/2024 đến 1/8/2024.
• Tuy nhiên, X không bị yêu cầu xóa các mô hình AI đã được đào tạo bằng dữ liệu này.
• Các hình phạt theo GDPR có thể lên tới 4% doanh thu hàng năm toàn cầu. Với doanh thu của X đang sụt giảm mạnh, mức phạt này có thể gây tổn thất lớn.
• Các nhà quản lý cũng có quyền yêu cầu thay đổi hoạt động để chấm dứt vi phạm, nhưng quá trình điều tra và thực thi có thể kéo dài nhiều năm.
• Vẫn chưa rõ liệu GDPR có thể yêu cầu xóa mô hình AI được đào tạo bằng dữ liệu xử lý bất hợp pháp hay không.
• Các công cụ AI tạo sinh như Grok có nguy cơ tạo ra thông tin sai lệch, đe dọa quyền và tự do cơ bản của người dùng.
• Giám đốc đối ngoại toàn cầu của X, Nick Pickles, đã rời công ty sau 10 năm làm việc.
• X đang đối mặt với nhiều thách thức khác như bị cấm ở Brazil, chỉ trích ở Anh về vai trò trong việc lan truyền thông tin sai lệch, và điều tra theo khung quản lý nội dung của EU.
📌 X đối mặt nguy cơ bị phạt nặng vì sử dụng trái phép dữ liệu người dùng châu Âu cho AI Grok. Mặc đã ngừng thu thập, X vẫn có thể dùng mô hình AI đã đào tạo. Vụ việc đặt ra thách thức cho việc quản lý AI tạo sinh theo GDPR.
https://techcrunch.com/2024/09/06/elon-musks-x-could-still-face-sanctions-for-training-grok-on-europeans-data/
• Các nhà nghiên cứu tại JFrog phát hiện 100 mô hình AI/ML độc hại được tải lên Hugging Face, làm nổi bật vấn đề đầu độc và thao túng dữ liệu.
• Đầu độc dữ liệu nhắm vào dữ liệu huấn luyện của mô hình AI/ML, khó phát hiện và ngăn chặn. Có thể thực hiện mà không cần hack theo cách truyền thống.
• Có hai loại tấn công: trước khi triển khai (đầu độc dữ liệu huấn luyện) và sau khi triển khai (sửa đổi dữ liệu đầu vào). Cả hai đều rất khó phát hiện và phòng ngừa.
• Các mô hình độc hại trên Hugging Face chứa payload đáng ngờ, có thể do các nhà nghiên cứu tạo ra để chứng minh lỗ hổng.
• Vấn đề tái tạo mô hình AI làm phức tạp việc phát hiện mã độc, do lượng dữ liệu huấn luyện khổng lồ và khó hiểu.
• Hậu quả có thể bao gồm thực thi mã độc, tạo ra vector tấn công lừa đảo mới và phân loại sai đầu ra của mô hình.
• Các biện pháp bảo vệ bao gồm: kiểm tra chuỗi cung ứng dữ liệu, làm sạch dữ liệu, sử dụng nhiều thuật toán, kiểm tra độ mạnh mẽ của hệ thống AI.
• Cần xem xét toàn bộ hệ sinh thái AI như một phần của không gian đe dọa, giám sát đầu vào/đầu ra và phát hiện bất thường.
• Kiểm tra rủi ro của hệ thống AI trong quy trình kinh doanh rộng hơn, bao gồm quản trị dữ liệu và hành vi AI trong các ứng dụng cụ thể.
• Chuyên gia khuyến nghị thực hiện kiểm tra thâm nhập và mô phỏng tấn công đầu độc dữ liệu để đánh giá khả năng phòng thủ.
• Không có cách nào bảo vệ 100% mô hình AI khỏi đầu độc dữ liệu. Cách duy nhất là xác thực tất cả đầu ra dự đoán, nhưng rất tốn kém về mặt tính toán.
📌 Đầu độc dữ liệu là mối đe dọa nghiêm trọng đối với AI tạo sinh, khó phát hiện và ngăn chặn. Cần áp dụng nhiều biện pháp bảo vệ như kiểm tra chuỗi cung ứng dữ liệu, làm sạch dữ liệu, sử dụng nhiều thuật toán và giám sát toàn diện hệ sinh thái AI để giảm thiểu rủi ro.
https://www.techradar.com/pro/data-poisoning-attacks-sounding-the-alarm-on-genais-silent-killer
• Liên minh Nhà cung cấp Dữ liệu (DPA) được thành lập vào mùa hè năm nay, gồm 7 công ty cấp phép AI như Rightsify, Pixta và Calliope Networks. (Ít nhất 5 thành viên mới sẽ được công bố vào mùa thu) Mục tiêu là chuẩn hóa và công bằng hóa ngành công nghiệp AI.
• DPA ủng hộ hệ thống opt-in, yêu cầu sự đồng ý rõ ràng của người sáng tạo và chủ sở hữu quyền trước khi sử dụng dữ liệu. Đây là sự thay đổi lớn so với cách hoạt động hiện tại của hầu hết các công ty AI lớn.
• Alex Bestall, CEO của Rightsify, cho rằng hệ thống opt-in không chỉ đạo đức hơn mà còn thực tế hơn, giúp tránh các vụ kiện tụng.
• Ed Newton-Rex từ tổ chức phi lợi nhuận Fairly Trained ủng hộ quan điểm của DPA, cho rằng hệ thống opt-out hiện tại "về cơ bản không công bằng với người sáng tạo".
• DPA phản đối việc cấp phép bắt buộc từ chính phủ, thay vào đó ủng hộ cách tiếp cận "thị trường tự do" để các bên đàm phán trực tiếp.
• Liên minh đề xuất 5 cấu trúc bồi thường tiềm năng, bao gồm mô hình đăng ký, (trong đó phí được trả cho mỗi lần sử dụng) và cấp phép "dựa trên kết quả", trong đó tiền bản quyền gắn liền với lợi nhuận.
• DPA ủng hộ việc sử dụng dữ liệu tổng hợp có kiểm soát, với điều kiện phải cấp phép đúng cách cho thông tin tiền đào tạo và đánh giá thường xuyên để giảm thiểu sai lệch.
• Shayne Longpre từ Data Provenance Initiative lo ngại tiêu chuẩn opt-in có thể khó thực hiện do khối lượng dữ liệu lớn cần thiết cho các mô hình AI hiện đại.
• Bill Rosenblatt, chuyên gia về bản quyền, cho rằng việc chuẩn hóa cấu trúc bồi thường là điều tích cực, giúp quá trình cấp phép trở nên dễ dàng và thuận tiện hơn.
• Sự tồn tại của DPA cho thấy thời kỳ "miền Tây hoang dã" của AI đang dần kết thúc, mặc dù vẫn cần sự ủng hộ từ các công ty lớn trong ngành.
📌 Liên minh Nhà cung cấp Dữ liệu (DPA) đề xuất hệ thống opt-in và 5 mô hình bồi thường cho việc cấp phép dữ liệu AI, nhằm bảo vệ quyền lợi người sáng tạo. Mặc dù đối mặt với thách thức về khối lượng dữ liệu cần thiết, DPA đánh dấu bước chuyển quan trọng hướng tới chuẩn hóa và đạo đức hóa ngành công nghiệp AI.
https://www.wired.com/story/dataset-providers-alliance-ethical-generative-ai-licensing/
• AWS Summit New York 2024 tập trung vào việc phổ cập hóa dữ liệu và AI, với bài phát biểu chính của Tiến sĩ Matt Wood, phó chủ tịch phụ trách sản phẩm AI tại AWS.
• AWS giới thiệu bộ công cụ GenAI stack gồm 3 lớp: cơ sở hạ tầng, mô hình AI và ứng dụng, phù hợp cho cả người dùng không chuyên và nhà phát triển có kinh nghiệm.
• Về cơ sở hạ tầng, AWS giới thiệu các phiên bản mới được hỗ trợ bởi chip AI như Trainium và Inferentia, cũng như phiên bản EC2 sử dụng GPU Nvidia H100.
• Ở lớp mô hình AI, Amazon Bedrock cung cấp nền tảng để phát triển và triển khai ứng dụng AI tạo sinh với nhiều tính năng mới như tinh chỉnh mô hình, mở rộng nguồn dữ liệu cho RAG và cải thiện tìm kiếm vector.
• Lớp ứng dụng AI bao gồm Amazon Q cho phép người dùng không chuyên tạo nhanh ứng dụng AI an toàn bằng lệnh ngôn ngữ tự nhiên. AWS App Studio giúp các chuyên gia kỹ thuật tạo, triển khai và quản lý ứng dụng doanh nghiệp nhanh chóng hơn.
• AWS tập trung vào việc mở rộng khả năng tiếp cận AI và phân tích dữ liệu cho doanh nghiệp, doanh nghiệp nhỏ và startup thông qua các sáng kiến và dịch vụ mới.
• Amazon Q cho phép người dùng tương tác với dữ liệu bằng ngôn ngữ tự nhiên, loại bỏ nhu cầu kỹ năng kỹ thuật cao và cung cấp thông tin chi tiết do AI tạo ra.
• AWS App Studio và SageMaker Studio giúp phát triển AI dễ tiếp cận hơn với các tính năng không cần code và low-code.
• Các ví dụ thực tế về ứng dụng AI của AWS trong nhiều ngành như tài chính, y tế, sản xuất, bán lẻ và chuỗi cung ứng được trình bày tại hội nghị.
• Chương trình GAI Accelerator của Deloitte và AWS nhằm đẩy nhanh việc phát triển và triển khai các giải pháp AI tạo sinh trong nhiều ngành và chức năng khác nhau.
• Chương trình tập trung vào việc kết hợp chuyên môn ngành của Deloitte với các công nghệ AWS như SageMaker, Bedrock và Amazon Q.
📌 AWS Summit New York 2024 thể hiện cam kết của AWS trong việc phổ cập hóa AI và dữ liệu thông qua bộ công cụ GenAI stack toàn diện, các dịch vụ mới và sáng kiến hợp tác. Sự kiện nhấn mạnh tiềm năng của AI trong việc thúc đẩy đổi mới và tăng trưởng kinh doanh trên nhiều lĩnh vực.
https://www.forbes.com/sites/moorinsights/2024/09/04/aws-summit-new-york-2024-democratizing-data-and-ai/
• Một nghiên cứu mới được công bố trên tạp chí Nature cho thấy 57% nội dung trên internet hiện nay được tạo ra bởi AI.
• Các nhà nghiên cứu từ Đại học Cambridge và Oxford cảnh báo rằng số lượng nội dung do AI tạo ra ngày càng tăng và việc các công cụ AI phụ thuộc quá nhiều vào chính những nội dung này sẽ dẫn đến kết quả tất yếu là các phản hồi chất lượng thấp cho các truy vấn.
• Nghiên cứu chỉ ra rằng các phản hồi do AI tạo ra cho các truy vấn sẽ suy giảm về giá trị và độ chính xác sau mỗi lần thử.
• Theo Tiến sĩ Ilia Shumailov từ Đại học Oxford, hiện tượng "sụp đổ mô hình" (model collapse) xảy ra nhanh chóng và khó nhận biết. Ban đầu nó ảnh hưởng đến dữ liệu thiểu số, sau đó ảnh hưởng đến sự đa dạng của đầu ra và giảm phương sai.
• Các nhà nghiên cứu cho rằng sự suy giảm chất lượng phản hồi của chatbot là do "quá liều vòng lặp" nội dung do AI tạo ra. Các mô hình AI phụ thuộc vào thông tin trên internet để đào tạo, nếu thông tin đó do AI tạo ra và không chính xác, quá trình đào tạo sẽ kém hiệu quả, dẫn đến việc tạo ra câu trả lời sai và thông tin sai lệch.
• Sam Altman, CEO của OpenAI, thừa nhận không thể tạo ra các công cụ như ChatGPT mà không sử dụng nội dung có bản quyền, mặc dù luật bản quyền không cấm việc sử dụng nội dung để đào tạo các mô hình AI.
• Các nhà nghiên cứu đã sử dụng một wiki được hỗ trợ bởi AI đã được đào tạo trước để đưa ra kết luận. Họ đào tạo công cụ này bằng cách sử dụng chính đầu ra của nó và ngay lập tức nhận thấy sự suy giảm chất lượng thông tin được tạo ra.
• Vấn đề này có thể bắt nguồn từ việc gia tăng số lượng bài viết do AI tạo ra được xuất bản trực tuyến mà không qua kiểm tra thực tế.
📌 Nghiên cứu cho thấy 57% nội dung internet do AI tạo ra, gây suy giảm chất lượng kết quả tìm kiếm. Hiện tượng "sụp đổ mô hình" AI xảy ra nhanh chóng, ảnh hưởng tiêu cực đến độ chính xác và đa dạng của thông tin. Cần có biện pháp kiểm soát để đảm bảo chất lượng nội dung trực tuyến.
https://www.windowscentral.com/software-apps/sam-altman-indicated-its-impossible-to-create-chatgpt-without-copyrighted-material
• Meta Platforms sẽ thông báo cho người dùng Brazil về việc sử dụng dữ liệu cá nhân của họ để huấn luyện AI tạo sinh, bắt đầu từ ngày 4/9/2024.
• Người dùng sẽ nhận được thông báo qua email và thông báo trên Facebook và Instagram. Họ có quyền từ chối cho phép Meta sử dụng dữ liệu của mình để huấn luyện AI.
• Động thái này diễn ra sau khi Cơ quan Bảo vệ Dữ liệu Quốc gia Brazil (ANPD) yêu cầu Meta phải công khai thông tin về việc sử dụng dữ liệu cá nhân.
• Vào tháng 7/2024, ANPD đã tạm dừng chính sách quyền riêng tư mới của Meta liên quan đến việc sử dụng dữ liệu cá nhân để huấn luyện AI. Tuy nhiên, lệnh cấm này đã được dỡ bỏ vào ngày 1/9/2024 sau khi Meta đồng ý công khai thông tin.
• Cũng trong tháng 7, Meta đã chủ động tạm dừng sử dụng các công cụ AI tạo sinh tại Brazil, bao gồm cả công cụ tạo sticker AI phổ biến trên WhatsApp. Brazil là thị trường lớn thứ hai của WhatsApp.
• Meta cho biết đã quyết định tạm dừng các công cụ này trong khi đang đàm phán với ANPD để giải quyết các thắc mắc của cơ quan này về việc sử dụng AI tạo sinh.
• Khi được hỏi liệu có khôi phục lại các công cụ AI sau khi ANPD dỡ bỏ lệnh cấm hay không, Meta chỉ khẳng định lại rằng việc tạm dừng được thực hiện trong quá trình đàm phán với ANPD.
• Động thái của Meta phản ánh xu hướng ngày càng tăng về việc minh bạch hóa cách các công ty công nghệ lớn sử dụng dữ liệu cá nhân để phát triển công nghệ AI.
• Việc này cũng cho thấy các cơ quan quản lý đang tăng cường giám sát đối với hoạt động của các nền tảng mạng xã hội lớn, đặc biệt là trong lĩnh vực AI đang phát triển nhanh chóng.
📌 Meta buộc phải thông báo cho 130 triệu người dùng Brazil về việc sử dụng dữ liệu cá nhân để huấn luyện AI tạo sinh. Người dùng có quyền từ chối, phản ánh xu hướng minh bạch hóa và tăng cường giám sát đối với hoạt động AI của các công ty công nghệ lớn.
https://www.reuters.com/technology/artificial-intelligence/meta-inform-brazilians-how-it-uses-their-personal-data-train-ai-2024-09-03/
• Trí tuệ dữ liệu: Sử dụng AI để trích xuất thông tin chính xác, phù hợp và độc đáo từ dữ liệu độc quyền, giúp doanh nghiệp tạo lợi thế cạnh tranh trên thị trường.
• Silo dữ liệu: Thông tin cần thiết cho trí tuệ dữ liệu thường bị mắc kẹt trong các ứng dụng và hệ thống trong doanh nghiệp, dẫn đến quyết định dựa trên thông tin hạn chế hoặc không chính xác.
• Data Lakehouse: Kiến trúc mới cho dữ liệu doanh nghiệp, dựa trên các dự án nguồn mở như Apache Spark, Delta Lake và MLflow. Loại bỏ silo dữ liệu và cho phép xây dựng kho thông tin thống nhất.
• Nền tảng trí tuệ dữ liệu: Kết hợp AI với kiến trúc lakehouse để tạo ra động cơ vận hành mới cho doanh nghiệp. Xử lý toàn bộ vòng đời dữ liệu từ tích hợp đến phát triển và triển khai các khối lượng công việc phân tích và AI.
• Quản trị dữ liệu: Kiểm soát và theo dõi dữ liệu để đảm bảo sử dụng phù hợp. Unity Catalog của Databricks quản lý quản trị thông qua một framework duy nhất.
• Xử lý ngôn ngữ tự nhiên: Cho phép người dùng đặt câu hỏi về dữ liệu bằng ngôn ngữ tự nhiên, ví dụ CEO có thể tạo thông tin kinh doanh cần thiết bằng câu hỏi như "Doanh số của tôi trong năm tới trông như thế nào?"
• Dân chủ hóa dữ liệu: Cho phép người dùng không chuyên về kỹ thuật tự tạo thông tin thông minh, thúc đẩy ra quyết định tốt hơn. Cần quản trị mạnh mẽ để mở rộng an toàn đối tượng người dùng có thể truy cập và sử dụng dữ liệu.
• Báo cáo State of Data + AI gần đây cung cấp thông tin về tiến trình của doanh nghiệp trong hành trình trí tuệ dữ liệu.
• Các thuật ngữ như "quản trị dữ liệu", "AI tạo sinh" và "mô hình ngôn ngữ lớn" đang trở nên phổ biến trong môi trường làm việc.
• Lãnh đạo doanh nghiệp cần hiểu ý nghĩa thực sự của các xu hướng, kỹ thuật và công nghệ này, cũng như vai trò của chúng trong tương lai của tổ chức.
• Data Lakehouse loại bỏ hệ sinh thái đóng và định dạng độc quyền, cho phép doanh nghiệp xây dựng kho thông tin thống nhất bao gồm cả tài sản có cấu trúc và phi cấu trúc.
• Nền tảng trí tuệ dữ liệu cung cấp quản trị thống nhất và tăng cường hợp tác giữa các nhà phát triển để cung cấp và liên tục cải thiện các giải pháp kỹ thuật số động lực thúc đẩy giá trị kinh doanh.
📌 Trí tuệ dữ liệu đang định hình lại cách doanh nghiệp vận hành. Bằng cách kết hợp AI, kiến trúc lakehouse và quản trị thống nhất, các công ty có thể khai thác dữ liệu hiệu quả hơn, dân chủ hóa quyền truy cập và thúc đẩy ra quyết định dựa trên dữ liệu trong toàn tổ chức.
https://www.databricks.com/blog/short-guide-understanding-data-intelligence
• Nhiều trang web lớn đang chặn bot của Apple thu thập dữ liệu để huấn luyện AI, theo báo cáo của Wired.
• Các công ty truyền thông đã thay đổi file robots.txt để chặn Applebot bao gồm The New York Times, The Atlantic, The Financial Times, Gannett, Vox Media và Condé Nast.
• Mạng xã hội như Facebook, Instagram và Tumblr cũng xác nhận đã chặn Apple thu thập dữ liệu từ trang web của họ.
• Một số công ty như Vox, Condé Nast và The Atlantic đã ký thỏa thuận cấp phép nội dung với OpenAI.
• The New York Times đang kiện OpenAI về vi phạm bản quyền.
• Facebook và Instagram thuộc sở hữu của Meta - đối thủ cạnh tranh của Apple trong lĩnh vực AI.
• Apple đã ký thỏa thuận với OpenAI để tích hợp ChatGPT vào các sản phẩm của họ.
• Ngành công nghiệp AI đang cạnh tranh gay gắt về quyền truy cập vào dữ liệu huấn luyện chất lượng cao do con người tạo ra.
• Các trang web đã chặn cụ thể "Apple-Extended" - một bot thu thập dữ liệu của Apple để huấn luyện các mô hình AI nền tảng.
• Việc chặn Applebot-Extended không ngăn cản Applebot gốc thu thập dữ liệu cho Siri và Spotlight của Apple.
• Sự phân biệt này cho thấy Apple thận trọng về vấn đề bản quyền và sở hữu trí tuệ trong kỷ nguyên AI.
• The New York Times không phải công ty duy nhất kiện các nhà phát triển AI.
• Apple có thể muốn tránh thu thập dữ liệu gây tranh cãi hoặc đang trong vụ kiện, đặc biệt khi họ đã hợp tác với OpenAI.
• Động thái này của Apple được ví như "con chim hoàng yến trong mỏ than" trị giá hàng tỷ đô la, phản ánh xu hướng trong ngành AI.
📌 Apple đối mặt với thách thức lớn khi nhiều trang web hàng đầu chặn bot thu thập dữ liệu AI của họ. Điều này phản ánh cuộc cạnh tranh khốc liệt về nguồn dữ liệu chất lượng cao trong ngành AI, với các thỏa thuận và vụ kiện đang định hình lại cách thức hoạt động của ngành.
https://futurism.com/the-byte/apple-ai-training
• Báo cáo mới từ Data Provenance Initiative chỉ ra rằng nhiều tổ chức cảm thấy bị đe dọa bởi AI tạo sinh đang có biện pháp ngăn chặn việc thu thập dữ liệu của họ.
• Robots.txt là một tệp máy đọc được mà các bot thu thập sử dụng để xác định có nên thu thập các phần nhất định của một trang web hay không. Gần đây, nhiều trang web đã bắt đầu sử dụng robots.txt để hạn chế bot, đặc biệt là các trang web kiếm tiền từ quảng cáo và paywall.
• Trong vòng chưa đầy một năm, khoảng 5% dữ liệu trong bộ dữ liệu C4 phổ biến đã bị thu hồi nếu tuân thủ các tùy chọn của các trang web cơ sở. Con số này tăng lên 25% đối với 2.000 trang web hàng đầu trong bộ dữ liệu.
• Sự phân bố dữ liệu huấn luyện cho các mô hình tôn trọng robots.txt đang nhanh chóng chuyển dịch từ các trang tin tức chất lượng cao, trang web học thuật, diễn đàn và mạng xã hội sang các trang web tổ chức và cá nhân cũng như thương mại điện tử và blog.
• Các công ty AI lớn có thể sẽ cấp phép dữ liệu trực tiếp hoặc đầu tư nhiều hơn vào việc thu thập dữ liệu liên tục từ các nguồn có giá trị do người dùng tạo ra như YouTube, GitHub và Reddit.
• Dữ liệu tổng hợp đang được các công ty lớn sử dụng với số lượng lớn. Nó có cả cơ hội và thách thức, bao gồm nguy cơ suy thoái mô hình do huấn luyện trên dữ liệu tổng hợp kém chất lượng.
• Vẫn còn nhiều dữ liệu chưa khai thác, nhưng phần lớn bị ẩn trong các tệp PDF, kênh độc quyền hoặc định dạng khó trích xuất. Các công ty sẽ đầu tư nhiều hơn vào việc tìm cách trích xuất dữ liệu này.
• Xu hướng hạn chế trong robots.txt và điều khoản dịch vụ dự kiến sẽ tiếp tục tăng, nhưng có thể bị ảnh hưởng bởi các yếu tố bên ngoài như luật pháp, chính sách công ty và áp lực cộng đồng.
• Cần có các tiêu chuẩn mới để cho phép người tạo nội dung thể hiện tùy chọn của họ về việc sử dụng dữ liệu một cách chi tiết hơn. Tuy nhiên, không rõ ai sẽ là người tạo ra hoặc thực thi các tiêu chuẩn này.
📌 Cuộc chiến dữ liệu web đang leo thang giữa các công ty AI và chủ sở hữu trang web. 25% dữ liệu từ 2.000 trang web hàng đầu đã bị hạn chế trong vòng 1 năm. Các công ty AI lớn có thể sẽ cấp phép dữ liệu trực tiếp hoặc tìm kiếm nguồn dữ liệu thay thế như dữ liệu tổng hợp, trong khi vẫn cần có tiêu chuẩn mới về quyền sử dụng dữ liệu.
Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/c712ee64-82b4-4d1b-9f76-7c735850c3ec/paste.txt
https://spectrum.ieee.org/web-crawling
• AI tạo sinh đang tràn ngập internet với nội dung có thể sai lệch nhưng rất thuyết phục. Các hệ thống AI như ChatGPT có thể tạo ra hàng nghìn từ mỗi phút mà không cần kiểm duyệt của chuyên gia.
• Theo nghiên cứu của Originality AI, khoảng 14% kết quả tìm kiếm Google hiện nay là do AI tạo ra. Con số này có thể còn cao hơn trong tương lai gần.
• Việc sử dụng nguồn thông tin trực tuyến bị ảnh hưởng bởi AI có thể dẫn đến nguy cơ vô tình lan truyền thông tin sai lệch, ngay cả khi có chuyên gia biên tập.
• Sách do AI tạo ra đang tràn ngập các cửa hàng trực tuyến như Amazon. Điều này có thể gây nguy hiểm, ví dụ như sách về hái nấm do AI viết có thể khiến người đọc ăn phải nấm độc.
• Sách giấy xuất bản trước thời kỳ ChatGPT có thể trở nên cực kỳ quý giá. Đây là bản ghi vĩnh viễn về kiến thức của con người trước khi bị ảnh hưởng bởi AI.
• Các tài liệu về khoa học, y tế, kỹ thuật và lịch sử sẽ đặc biệt quan trọng để đối chiếu với thông tin do AI tạo ra.
• Việc bảo tồn các bản sao điện tử của tài liệu trước thời AI cũng quan trọng không kém. Có thể tạo mã hash để đảm bảo tính toàn vẹn của các tài liệu này.
• Với sự xuất hiện của hình ảnh và video do AI tạo ra, việc lưu giữ các đĩa vật lý có thể trở nên cần thiết.
• Mặc dù AI mang lại nhiều lợi ích tiềm năng, nhưng cần phải cẩn trọng để không làm sai lệch kiến thức nhân loại tích lũy qua hàng nghìn năm.
📌 AI tạo sinh đang làm thay đổi cách chúng ta tiếp cận thông tin. Khoảng 14% kết quả tìm kiếm Google hiện do AI tạo ra. Sách giấy và tài liệu trước thời AI có thể trở nên vô cùng quý giá để bảo tồn kiến thức nhân loại không bị ảnh hưởng bởi nội dung AI thiếu kiểm chứng.
https://www.howtogeek.com/generative-ai-could-make-old-paper-books-more-valuable-than-ever/
• Dữ liệu do AI tạo ra đang tràn ngập internet với khoảng 100 tỷ từ mỗi ngày, tương đương 1 triệu cuốn tiểu thuyết, được tạo bởi OpenAI.
• Nội dung do AI tạo ra xuất hiện dưới nhiều hình thức như đánh giá nhà hàng, hồ sơ hẹn hò, bài đăng mạng xã hội và thậm chí cả bài báo. NewsGuard đã xác định hơn 1.000 trang web sản xuất các bài báo do AI tạo ra với nhiều lỗi.
• Khi các công ty AI thu thập dữ liệu từ web để đào tạo các mô hình mới, họ có khả năng vô tình sử dụng nội dung do chính AI tạo ra, tạo thành một vòng phản hồi không mong muốn.
• Nghiên cứu cho thấy khi AI tạo sinh được đào tạo trên chính đầu ra của nó, chất lượng có thể giảm đáng kể. Ví dụ về việc nhận dạng chữ số viết tay cho thấy sau 30 thế hệ, các chữ số hội tụ thành một hình dạng duy nhất.
• Hiện tượng này được gọi là "sự sụp đổ mô hình", dẫn đến phạm vi đầu ra AI hẹp hơn theo thời gian. Điều này có thể ảnh hưởng đến các ứng dụng như chatbot tư vấn y tế hoặc trợ lý dạy sử học AI.
• Khi được đào tạo trên đầu ra của chính mình, mô hình ngôn ngữ lớn tạo ra câu trả lời kém chất lượng hơn, thậm chí lặp lại các cụm từ một cách vô nghĩa sau vài thế hệ.
• Vấn đề tương tự cũng xảy ra với các mô hình tạo hình ảnh AI, dẫn đến hình ảnh bị biến dạng với các mẫu nhăn nheo và ngón tay bị méo mó.
• Sự sụp đổ mô hình xảy ra vì dữ liệu do AI tạo ra thường là bản sao kém chất lượng của dữ liệu thực. Điều này dẫn đến phân phối thống kê hẹp hơn của đầu ra AI theo thời gian.
• Vấn đề này có thể làm chậm sự phát triển của AI, đòi hỏi nhiều năng lượng và tiền bạc hơn để đào tạo các mô hình mới.
• Sự sụp đổ mô hình cũng có thể dẫn đến sự xói mòn đa dạng trong đầu ra AI, ảnh hưởng đến các khía cạnh như đa dạng khuôn mặt trong hình ảnh được tạo ra hoặc đa dạng ngôn ngữ trong văn bản.
• Các giải pháp tiềm năng bao gồm việc trả tiền cho dữ liệu chất lượng cao, phát triển các công cụ phát hiện đầu ra AI tốt hơn và sử dụng thủy vân AI.
• Một số công ty đang xem xét sử dụng dữ liệu do AI tạo ra để đào tạo các mô hình trong tương lai, nhưng điều này có thể dẫn đến hậu quả không mong muốn.
📌 AI tạo sinh đang tạo ra 100 tỷ từ mỗi ngày, gây ra nguy cơ "sụp đổ mô hình" khi các công ty vô tình sử dụng dữ liệu AI để đào tạo mô hình mới. Hiện tượng này có thể làm giảm chất lượng, đa dạng và hiệu quả của AI, đòi hỏi các giải pháp như dữ liệu chất lượng cao và công cụ phát hiện nội dung AI.
https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html
- Meta đã ra mắt một web crawler mới có tên "Meta External Agent" vào tháng trước, nhằm thu thập dữ liệu từ Internet để phục vụ cho việc huấn luyện AI.
- Crawler này hoạt động bằng cách sao chép các dữ liệu công khai từ các trang web, bao gồm văn bản trong các bài báo và cuộc thảo luận trực tuyến.
- Theo các công ty theo dõi bot, Meta External Agent tương tự như GPTBot của OpenAI, cũng được sử dụng để thu thập dữ liệu cho AI.
- Meta đã cập nhật trang web dành cho nhà phát triển để công bố sự tồn tại của crawler mới này vào cuối tháng 7, nhưng chưa có thông báo chính thức nào từ công ty.
- Một phát ngôn viên của Meta cho biết công ty đã có một crawler khác trước đây, nhưng crawler mới này được sử dụng với mục đích khác nhau.
- Việc thu thập dữ liệu từ web để huấn luyện AI là một thực tiễn gây tranh cãi, dẫn đến nhiều vụ kiện từ các nghệ sĩ và tác giả về việc sử dụng nội dung của họ mà không có sự đồng ý.
- Khoảng 25% các trang web phổ biến nhất hiện nay đã chặn GPTBot, trong khi chỉ 2% chặn bot mới của Meta.
- Để chặn một web scraper, các trang web cần sử dụng robots.txt để chỉ dẫn bot không thu thập thông tin từ trang của họ, nhưng việc này không hoàn toàn hiệu quả.
- Các scraper thường được sử dụng để thu thập số lượng lớn dữ liệu văn bản từ web, phục vụ cho việc huấn luyện các mô hình AI như LLM.
- Llama, một trong những mô hình LLM lớn nhất của Meta, sử dụng dữ liệu từ nhiều nguồn khác nhau, bao gồm cả Common Crawl.
- Mark Zuckerberg đã tuyên bố rằng dữ liệu mà Meta thu thập cho việc huấn luyện AI lớn hơn cả dữ liệu từ Common Crawl.
- Sự ra đời của crawler mới cho thấy Meta có thể cần thêm dữ liệu để cải thiện và mở rộng khả năng của Llama và Meta AI.
- Công ty dự kiến sẽ chi tới 40 tỷ USD trong năm nay cho cơ sở hạ tầng AI và các chi phí liên quan.
📌 Meta đã ra mắt "Meta External Agent" để thu thập dữ liệu cho AI, với chỉ 2% trang web chặn bot này. Công ty dự kiến chi 40 tỷ USD cho AI, cho thấy nhu cầu dữ liệu ngày càng tăng để cải thiện mô hình LLM.
https://www.thestar.com.my/tech/tech-news/2024/08/21/reports-a-new-web-crawler-launched-by-meta-last-month-is-quietly-scraping-the-web-for-ai-training-data
• Các nhà nghiên cứu tại Đại học Washington phát hiện ra rằng con người thay đổi hành vi của mình khi biết hành động của họ đang được sử dụng để huấn luyện AI.
• Những thay đổi này có thể kéo dài và tạo ra thói quen mới ở người huấn luyện, kể cả những xu hướng hoặc thiên kiến mà họ không nhận thức được.
• Tiến sĩ Philip R.O. Payne, Giám đốc Viện Tin học WashU, nhấn mạnh tầm quan trọng của việc hiểu và giảm thiểu những thiên kiến này trong quá trình huấn luyện AI.
• Nghiên cứu sử dụng "Trò chơi tối hậu thư" (Ultimatum Game), trong đó người chơi quyết định cách chia 10 USD và người còn lại có thể chấp nhận hoặc từ chối.
• Kết quả cho thấy những người được thông báo rằng cách chơi của họ sẽ được sử dụng để dạy AI có xu hướng từ chối nhiều hơn các đề nghị không công bằng, ngay cả khi điều này làm giảm lợi ích tài chính của họ.
• Xu hướng này vẫn tiếp tục ngay cả khi người tham gia được thông báo rằng họ sẽ không chơi với AI được huấn luyện trong tương lai.
• Thay đổi hành vi này kéo dài đến 2-3 ngày sau, ngay cả khi người tham gia được thông báo rõ ràng rằng họ không còn huấn luyện AI nữa.
• Lauren Treiman, nghiên cứu sinh tại WashU, chỉ ra rằng việc cải thiện hành vi khi huấn luyện AI có thể có mặt trái, ví dụ như trong trường hợp xe tự lái quá hoàn hảo có thể gây nguy hiểm ở những nơi người lái thường vượt đèn vàng.
• Nghiên cứu đặt ra câu hỏi về định nghĩa của sự công bằng trong các tình huống phức tạp hơn và làm thế nào để tạo ra AI công bằng và trung thực nhất có thể.
• Các nhà nghiên cứu nhấn mạnh tầm quan trọng của việc hiểu rõ hơn về tương tác giữa con người và AI, đặc biệt là trong quá trình huấn luyện, để đo lường và giảm thiểu thiên kiến.
📌 Nghiên cứu của Đại học Washington cho thấy con người thay đổi hành vi khi huấn luyện AI, tạo ra thói quen mới kéo dài 2-3 ngày. Kết quả từ "Trò chơi tối hậu thư" cho thấy người chơi sẵn sàng hy sinh lợi ích để dạy AI công bằng hơn, đặt ra câu hỏi về định nghĩa công bằng trong AI và cách giảm thiểu thiên kiến.
https://www.stltoday.com/news/local/metro/we-train-ai-ai-might-be-training-us-too-washu-researchers-find/article_b2e5483a-5b3e-11ef-8e5b-cbc8375cb778.html
• Baidu, gã khổng lồ tìm kiếm Internet Trung Quốc, đã bắt đầu chặn các công cụ tìm kiếm trực tuyến của Google và Microsoft Bing thu thập nội dung từ dịch vụ kiểu Wikipedia của Baidu.
• Cập nhật gần đây của file robots.txt của Baidu Baike đã chặn hoàn toàn khả năng của các trình thu thập dữ liệu Googlebot và Bingbot lập chỉ mục nội dung từ nền tảng Trung Quốc này.
• Cập nhật này dường như đã được thực hiện vào ngày 8/8, theo ghi nhận của dịch vụ lưu trữ internet Wayback Machine.
• Trước đó cùng ngày, Baidu Baike vẫn cho phép Google và Bing duyệt và lập chỉ mục kho lưu trữ trực tuyến gần 30 triệu mục của mình, chỉ có một phần trang web bị hạn chế truy cập.
• Động thái này cho thấy nỗ lực gia tăng của Baidu nhằm bảo vệ tài sản trực tuyến của mình, khi nhu cầu về khối lượng lớn dữ liệu để đào tạo và xây dựng các mô hình và ứng dụng AI ngày càng tăng.
• Trước đó, nền tảng tổng hợp tin tức xã hội Reddit của Mỹ cũng đã chặn các công cụ tìm kiếm khác, ngoại trừ Google, lập chỉ mục các bài đăng và thảo luận trực tuyến của mình vào tháng 7.
• Google có thỏa thuận trị giá hàng triệu đô la với Reddit cho phép thu thập dữ liệu từ nền tảng mạng xã hội này để đào tạo các dịch vụ AI của mình.
• Ngay cả Microsoft năm ngoái cũng đe dọa cắt quyền truy cập vào dữ liệu tìm kiếm internet của mình, vốn được cấp phép cho các nhà điều hành công cụ tìm kiếm đối thủ, nếu họ không ngừng sử dụng nó làm cơ sở cho chatbot và các dịch vụ AI tạo sinh khác.
• Hiện tại, phiên bản tiếng Trung của Wikipedia có 1,43 triệu mục, vẫn cho phép các trình thu thập dữ liệu công cụ tìm kiếm truy cập.
• Sau khi Baidu Baike cập nhật robots.txt, khảo sát của Post trên Google và Bing vào thứ Sáu vẫn tìm thấy nhiều mục từ dịch vụ kiểu Wikipedia này trong kết quả tìm kiếm, có thể do nội dung được lưu trong bộ nhớ đệm cũ.
• Hơn hai năm sau khi OpenAI ra mắt ChatGPT, nhiều nhà phát triển AI lớn trên thế giới đang ký kết thỏa thuận với các nhà xuất bản nội dung để tiếp cận nội dung chất lượng cho các dự án AI tạo sinh của họ.
• Ví dụ, OpenAI đã ký thỏa thuận với tạp chí Time của Mỹ vào tháng 6, cho phép truy cập toàn bộ nội dung lưu trữ từ hơn 100 năm lịch sử của tạp chí này.
📌 Baidu chặn Google và Bing thu thập dữ liệu từ Baidu Baike, phản ánh xu hướng bảo vệ dữ liệu trong cuộc đua AI. Các nền tảng lớn như Reddit, Microsoft cũng có động thái tương tự. Nhu cầu dữ liệu chất lượng cho AI tạo sinh tăng cao, thúc đẩy các thỏa thuận chia sẻ dữ liệu giữa các công ty công nghệ và nhà xuất bản.
https://finance.yahoo.com/news/baidu-blocks-google-bing-scraping-093000944.html
• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.
• Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.
• Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.
• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.
• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.
• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.
• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.
• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.
• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.
• Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.
📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.
https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/
- Snowflake đã công bố ra mắt Cortex Analyst, một hệ thống AI tự động hóa cho phân tích dữ liệu, hiện đang trong giai đoạn thử nghiệm công khai.
- Cortex Analyst được giới thiệu lần đầu tại hội nghị Data Cloud Summit vào tháng 6, là dịch vụ quản lý hoàn toàn cho phép người dùng tương tác với dữ liệu bằng ngôn ngữ tự nhiên.
- Người dùng chỉ cần đặt câu hỏi kinh doanh bằng tiếng Anh đơn giản, hệ thống sẽ tự động chuyển đổi các yêu cầu thành câu lệnh SQL, thực hiện truy vấn và cung cấp câu trả lời cần thiết.
- Hệ thống sử dụng nhiều mô hình ngôn ngữ lớn (LLM) để đảm bảo độ chính xác trong việc cung cấp thông tin, đạt khoảng 90%, cao hơn nhiều so với các dịch vụ hiện có như Databricks.
- Cortex Analyst giải quyết vấn đề mà các bảng điều khiển BI truyền thống gặp phải, cho phép người dùng truy cập thông tin nhanh chóng mà không cần phụ thuộc vào các nhà phân tích.
- Snowflake cho biết, độ chính xác của các mô hình hiện tại chỉ đạt khoảng 51%, trong khi các dịch vụ như Databricks chỉ đạt 79%. Cortex Analyst đã cải thiện đáng kể con số này.
- Hệ thống này phân tích ý định của câu hỏi, xác định khả năng trả lời và tạo ra câu lệnh SQL chính xác, đồng thời kiểm tra độ chính xác trước khi trả lời cho người dùng.
- Người dùng cần cung cấp mô tả ngữ nghĩa về cấu trúc dữ liệu trong quá trình thiết lập để đảm bảo các mô hình hiểu rõ ngữ cảnh và thuật ngữ cụ thể.
- Hiện tại, Cortex Analyst có thể được tích hợp qua REST API vào bất kỳ ứng dụng nào, giúp các nhà phát triển linh hoạt trong việc triển khai.
- Trong giai đoạn thử nghiệm riêng, khoảng 40-50 doanh nghiệp, bao gồm Bayer, đã triển khai Cortex Analyst để tăng tốc quy trình phân tích.
- Snowflake dự kiến sẽ bổ sung thêm nhiều tính năng mới trong thời gian tới, bao gồm hỗ trợ cho các cuộc hội thoại đa vòng và các bảng dữ liệu phức tạp hơn.
📌 Snowflake ra mắt Cortex Analyst, một hệ thống AI tự động hóa phân tích dữ liệu với độ chính xác lên tới 90%, giúp doanh nghiệp dễ dàng truy cập thông tin và đưa ra quyết định nhanh chóng. Dịch vụ này hiện đang trong giai đoạn thử nghiệm công khai với khoảng 40-50 doanh nghiệp tham gia.
https://venturebeat.com/data-infrastructure/snowflake-launches-cortex-analyst-an-agentic-ai-system-for-accurate-data-analytics/
- WaitGPT là một công cụ mới được giới thiệu bởi các nhà nghiên cứu từ Đại học Khoa học và Công nghệ Hong Kong, Đại học California San Diego và Đại học Minnesota.
- Công cụ này chuyển đổi cách trình bày và tương tác với mã được tạo bởi LLM trong phân tích dữ liệu. Thay vì chỉ hiển thị mã thô, WaitGPT chuyển đổi mã thành biểu diễn trực quan, cập nhật theo thời gian thực.
- WaitGPT phá vỡ mã phân tích dữ liệu thành các thao tác dữ liệu riêng lẻ, được biểu diễn trực quan dưới dạng các nút trong sơ đồ luồng động. Mỗi nút tương ứng với một thao tác dữ liệu cụ thể và được liên kết với các nút khác dựa trên thứ tự thực thi.
- Công cụ thực hiện mã dòng theo dòng, cập nhật sơ đồ trực quan để phản ánh trạng thái hiện tại của dữ liệu và các thao tác đang được thực hiện.
- Nghiên cứu người dùng kỹ lưỡng với 12 người tham gia đã chỉ ra rằng WaitGPT cải thiện đáng kể khả năng phát hiện lỗi trong phân tích. 83% người tham gia nhận ra và sửa chữa thành công các vấn đề so với chỉ 50% khi sử dụng các phương pháp truyền thống.
- Thời gian cần thiết để phát hiện lỗi được giảm tới 50%, cho thấy hiệu quả của công cụ trong việc tăng cường sự tự tin và độ chính xác của người dùng.
📌 WaitGPT cung cấp biểu diễn trực quan thời gian thực của mã và các thao tác của nó, giải quyết thách thức đảm bảo độ tin cậy và chính xác trong phân tích dữ liệu, tăng cường khả năng giám sát và điều chỉnh quá trình phân tích của người dùng.
https://www.marktechpost.com/2024/08/11/waitgpt-enhancing-data-analysis-accuracy-by-83-with-real-time-visual-code-monitoring-and-error-detection-in-llm-powered-tools/
- Các bản ghi công khai như hồ sơ tòa án, khai báo tài chính chứa nhiều thông tin cá nhân nhạy cảm và có thể không chính xác, ví dụ như tội nói dối trong các vụ ly hôn.
- Việc sử dụng dữ liệu này để phân tích tâm lý học hoặc đánh giá rủi ro tài chính có thể ảnh hưởng bất công đến cơ hội việc làm, nhà ở của những người liên quan.
- Dữ liệu cá nhân có thể bị lạm dụng bởi những kẻ lừa đảo hoặc chính phủ đàn áp.
- Các mô hình AI thường là hộp đen, khó giải thích quyết định và cá nhân ít có quyền kiểm soát dữ liệu của mình một khi đã vào mô hình.
- Cần có các quy định pháp lý hạn chế thu thập, sử dụng và lưu trữ dữ liệu cá nhân, đặc biệt là trong bối cảnh máy tính lượng tử, AI tạo sinh và tin tặc ngày càng tinh vi.
📌 Các bản ghi công khai chứa nhiều thông tin cá nhân nhạy cảm và thiên lệch, không nên được sử dụng để huấn luyện hệ thống AI vì nhiều rủi ro về quyền riêng tư, an ninh và công bằng. Cần có các quy định pháp lý nghiêm ngặt hạn chế việc này.
https://thehill.com/opinion/technology/4820294-ai-data-public-records-privacy/
• Nghiên cứu từ Appier AI Research và Đại học Quốc gia Đài Loan điều tra tác động của việc áp đặt giới hạn định dạng lên khả năng suy luận và hiệu suất tổng thể của các mô hình ngôn ngữ lớn (LLM).
• Các phương pháp tạo cấu trúc hiện tại bao gồm giải mã có ràng buộc, hướng dẫn giới hạn định dạng (FRI) và phương pháp ngôn ngữ tự nhiên sang định dạng (NL-to-Format).
• Nghiên cứu so sánh 3 cách tiếp cận: chế độ JSON, FRI và NL-to-Format trên nhiều tác vụ khác nhau như suy luận và phân loại.
• Kết quả cho thấy các ràng buộc định dạng nghiêm ngặt hơn như chế độ JSON dẫn đến suy giảm đáng kể khả năng suy luận của LLM.
• Trong các tác vụ suy luận như GSM8K và Last Letter Concatenation, hiệu suất của LLM kém hơn đáng kể khi áp dụng ràng buộc định dạng nghiêm ngặt so với các phương pháp linh hoạt hơn.
• Thứ tự các khóa trong đầu ra có cấu trúc và việc tách biệt quá trình suy luận khỏi việc tuân thủ định dạng đóng vai trò quan trọng trong việc duy trì khả năng của LLM.
• Đối với các tác vụ suy luận, phương pháp chế độ JSON thường dẫn đến độ chính xác thấp hơn do cấu trúc cứng nhắc có thể làm gián đoạn quá trình suy luận của mô hình.
• Phương pháp NL-to-Format cho kết quả tương đương với phản hồi ngôn ngữ tự nhiên không bị giới hạn, cho thấy việc cho phép LLM tạo nội dung tự do trước khi định dạng có thể bảo toàn khả năng suy luận.
• Đối với các tác vụ phân loại, chế độ JSON đôi khi cải thiện hiệu suất bằng cách giới hạn không gian trả lời, từ đó giảm lỗi trong việc lựa chọn câu trả lời.
• Sự khác biệt về hiệu suất giữa các tác vụ nhấn mạnh sự cần thiết phải cân nhắc kỹ lưỡng khi áp dụng giới hạn định dạng trong các ứng dụng LLM.
• Phương pháp đề xuất có khả năng mở rộng hiệu quả, duy trì hiệu suất và độ chính xác bất kể kích thước tập dữ liệu.
• Các thử nghiệm nghiêm ngặt cho thấy phương pháp này vượt trội hơn các kỹ thuật truyền thống về cả tốc độ và độ chính xác trên nhiều chỉ số.
• Hiệu suất được cải thiện được cho là nhờ thiết kế sáng tạo của mạng nơ-ron và tối ưu hóa kỹ lưỡng các quy trình phân tích.
• Nghiên cứu không chỉ đóng góp vào diễn ngôn học thuật về phân tích dữ liệu mà còn mở đường cho các ứng dụng thực tế có thể tận dụng những tiến bộ này để đạt được kết quả chính xác và hiệu quả hơn.
📌 Nghiên cứu chỉ ra rằng giới hạn định dạng nghiêm ngặt như JSON mode làm giảm khả năng suy luận của LLM, trong khi phương pháp NL-to-Format bảo toàn hiệu suất tốt hơn. Kết quả khác nhau giữa các tác vụ suy luận và phân loại, đòi hỏi cân nhắc kỹ lưỡng khi áp dụng giới hạn định dạng trong ứng dụng LLM thực tế.
https://www.marktechpost.com/2024/08/09/balancing-act-the-impact-of-format-restrictions-on-reasoning-in-large-language-models/
• AI tạo sinh và mô hình ngôn ngữ lớn (LLM) bùng nổ từ năm 2023, nhưng nhiều dự án AI vẫn đang bị mắc kẹt ở giai đoạn thử nghiệm. Khảo sát của Constellation Research và AWS cho thấy chưa đến 1/5 tổ chức có dự án AI trên toàn bộ phòng ban hoặc doanh nghiệp.
• Nguyên nhân chính khiến các dự án AI bị trì hoãn là do chúng phụ thuộc nhiều vào dữ liệu chính xác, được tối ưu hóa hiệu suất và đáng tin cậy.
• Để giải quyết vấn đề này, các tổ chức cần một nguồn dữ liệu đáng tin cậy duy nhất. Lớp ngữ nghĩa phổ quát (universal semantic layer) đóng vai trò quan trọng, nằm giữa nguồn dữ liệu và người dùng cuối.
• Lớp ngữ nghĩa phổ quát thiết lập tất cả các chỉ số và metadata, mang lại tính nhất quán và chính xác cho mọi trải nghiệm dữ liệu, bao gồm cả AI ứng dụng.
• Nó giúp các công cụ AI hiểu được bối cảnh và định nghĩa kinh doanh, tránh ảo tưởng. Lớp ngữ nghĩa giới hạn những gì LLM có thể sử dụng để trả lời truy vấn và cung cấp ngữ cảnh.
• Để triển khai lớp ngữ nghĩa phổ quát, các nhóm dữ liệu cần phát triển logic kinh doanh và thông tin đưa vào mô hình dữ liệu ngữ nghĩa. Họ bắt đầu bằng cách hiểu các vấn đề thực tế của công ty, thu thập thông tin cần thiết và mã hóa mối quan hệ giữa các thông tin.
• Các kỹ thuật được sử dụng bao gồm: mô hình hóa dữ liệu, kiểm soát truy cập, bộ nhớ đệm và tiền tổng hợp, API tích hợp, quản lý metadata và phân lớp dữ liệu ngữ nghĩa.
• Việc áp dụng lớp ngữ nghĩa phổ quát đòi hỏi quản lý thay đổi. Cần lập bản đồ trạng thái hiện tại và tương lai, áp dụng phương pháp tiếp cận theo từng giai đoạn, cập nhật quy trình làm việc và đào tạo người dùng.
• Lớp ngữ nghĩa phổ quát là nền tảng thiết yếu để bất kỳ trải nghiệm dữ liệu AI nào hoạt động an toàn, đáng tin cậy và không có ảo tưởng.
📌 Lớp ngữ nghĩa phổ quát đóng vai trò then chốt trong việc giúp AI hiểu và xử lý dữ liệu chính xác. Nó tạo ra nguồn dữ liệu đáng tin cậy duy nhất, đảm bảo tính nhất quán và an toàn cho các dự án AI. Việc triển khai đòi hỏi sự thay đổi quản lý nhưng mang lại lợi ích lớn về độ chính xác dữ liệu và hiệu quả AI.
https://www.forbes.com/sites/forbestechcouncil/2024/08/09/how-a-universal-semantic-layer-helps-ai-understand-data/
• Dữ liệu đóng vai trò quan trọng trong việc ra quyết định chiến lược và nâng cao hiệu quả hoạt động của doanh nghiệp. Tuy nhiên, việc duy trì chất lượng dữ liệu ngày càng phức tạp khi khối lượng dữ liệu tăng lên nhanh chóng.
• Quản trị dữ liệu kém và chất lượng dữ liệu thấp khiến các tổ chức tốn trung bình 12,9 triệu USD mỗi năm, dẫn đến chiến lược sai lầm, hoạt động kém hiệu quả và bỏ lỡ cơ hội.
• Quản trị dữ liệu là khung quan trọng để đảm bảo chất lượng dữ liệu và sự tham gia của người dùng bằng cách thiết lập các chính sách, quy trình và tiêu chuẩn quản lý tài sản dữ liệu.
• Khi được trang bị thông tin chính xác và đáng tin cậy, tổ chức có thể ra quyết định tốt hơn, cải thiện bảo mật dữ liệu, có dữ liệu kịp thời và tăng độ tin cậy.
• Để triển khai chương trình Quản trị Dữ liệu hiệu quả, bước đầu tiên là thiết lập tầm nhìn và mục tiêu rõ ràng phù hợp với mục tiêu chiến lược của tổ chức.
• Lãnh đạo doanh nghiệp cần đầu tư vào công nghệ và công cụ phù hợp để hỗ trợ các hoạt động quản trị dữ liệu như lập danh mục dữ liệu, quản lý metadata và giám sát chất lượng dữ liệu.
• AI, máy học và xử lý ngôn ngữ tự nhiên có thể nâng cao đáng kể và tự động hóa các tác vụ quản trị dữ liệu, mang lại hiệu quả và độ chính xác cho quy trình.
• Các công cụ dựa trên AI có thể tự động hóa việc lập danh mục dữ liệu bằng cách gắn thẻ và phân loại tài sản dữ liệu một cách thông minh, giúp dễ dàng quản lý và truy xuất thông tin.
• Thuật toán máy học có thể được sử dụng để liên tục giám sát chất lượng dữ liệu, tự động phát hiện các bất thường và mâu thuẫn, đồng thời đề xuất các hành động khắc phục.
• Xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng để hợp lý hóa quản lý metadata bằng cách diễn giải và tổ chức dữ liệu phi cấu trúc, đảm bảo tài liệu toàn diện.
• Bằng cách tận dụng AI, doanh nghiệp có thể giảm công sức thủ công trong quản trị dữ liệu, giảm thiểu lỗi và duy trì dữ liệu chất lượng cao, cuối cùng tạo ra môi trường quản lý dữ liệu đáng tin cậy và hiệu quả hơn.
📌 Xây dựng văn hóa chất lượng dữ liệu là yếu tố then chốt giúp doanh nghiệp thành công trong thời đại lấy dữ liệu làm trung tâm (data-centric). Dữ liệu chất lượng cao là nền tảng cho việc ra quyết định hiệu quả, tối ưu hóa hoạt động và đổi mới chiến lược. Các tổ chức đầu tư vào chất lượng dữ liệu không chỉ giảm thiểu rủi ro và chi phí mà còn tạo ra cơ hội tăng trưởng và lợi thế cạnh tranh bền vững.
https://www.techradar.com/pro/why-businesses-must-foster-a-data-quality-culture
• Theo tài liệu rò rỉ, Nvidia đã sử dụng hàng triệu video từ YouTube, Netflix và các nguồn khác để huấn luyện mô hình AI cho nền tảng Omniverse, xe tự lái và avatar kỹ thuật số.
• Dự án nội bộ mang tên mã Cosmos của Nvidia đã sử dụng hàng chục máy tính ảo trên Amazon Web Service (AWS) để tải xuống lượng video khổng lồ, tích lũy hơn 30 triệu URL chỉ trong vòng một tháng.
• Nhân viên Nvidia đã thảo luận nhiều về luật bản quyền và quyền sử dụng, tìm cách né tránh vi phạm trực tiếp. Ví dụ, họ sử dụng dịch vụ đám mây của Google để tải bộ dữ liệu YouTube-8M thay vì tải trực tiếp video.
• Một nhân viên tiết lộ họ đã "thông báo trước với Google/YouTube về việc tải xuống và dùng Google Cloud như một lợi thế", vì Google sẽ mất doanh thu quảng cáo khi video bị tải về để huấn luyện AI.
• Nvidia tuyên bố "tuân thủ đầy đủ cả tinh thần và chữ viết của luật bản quyền" khi được hỏi về khía cạnh pháp lý và đạo đức của việc sử dụng tài liệu có bản quyền để huấn luyện AI.
• Một số bộ dữ liệu chỉ được phép sử dụng cho mục đích học thuật, nhưng tài liệu rò rỉ cho thấy Nvidia có ý định sử dụng cho mục đích thương mại.
• Nvidia không phải công ty duy nhất làm điều này. OpenAI và Runway cũng bị cáo buộc cố ý sử dụng tài liệu có bản quyền và được bảo vệ để huấn luyện mô hình AI.
• Thú vị là Nvidia thậm chí còn gặp khó khăn khi sử dụng video gameplay từ dịch vụ GeForce Now của chính họ do "rào cản kỹ thuật và quy định".
• Các mô hình AI cần được huấn luyện trên hàng tỷ điểm dữ liệu. Một số bộ dữ liệu có quy tắc sử dụng rõ ràng, trong khi một số khác có hạn chế lỏng lẻo hơn.
• Ngoài vấn đề bản quyền, nội dung video thường chứa dữ liệu cá nhân. Mặc dù không có luật liên bang duy nhất ở Mỹ áp dụng trực tiếp, nhưng có nhiều quy định về thu thập và sử dụng dữ liệu cá nhân. Ở EU, Quy định Bảo vệ Dữ liệu Chung (GDPR) quy định rõ ràng cách sử dụng dữ liệu như vậy.
• Câu hỏi đặt ra là nếu một công ty như Nvidia bị phát hiện vi phạm các quy định khi huấn luyện mô hình AI, liệu hệ thống đó có bị chặn ở các quốc gia cụ thể không? Nvidia có sẵn sàng tạo mô hình mới, được huấn luyện với tất cả quyền được cấp, chỉ cho những địa điểm đó không?
• Cần có sự minh bạch hơn về việc sử dụng dữ liệu có bản quyền và dữ liệu cá nhân cho mục đích thương mại trong lĩnh vực AI. Nếu các công ty công nghệ không bị buộc phải chịu trách nhiệm, việc thu thập dữ liệu sẽ tiếp tục diễn ra một cách tùy tiện.
📌 Nvidia thu thập 30 triệu URL video trong 1 tháng để huấn luyện AI, gây tranh cãi về bản quyền và quyền riêng tư. Công ty tuyên bố tuân thủ luật pháp nhưng vẫn đặt ra câu hỏi về đạo đức và tính minh bạch trong việc sử dụng dữ liệu cho AI thương mại.
https://www.pcgamer.com/software/ai/geforce-gpu-giant-has-been-data-scraping-80-years-worth-of-videos-every-day-for-ai-training-to-unlock-various-downstream-applications-critical-to-nvidia/
• Argilla vừa phát hành bộ dữ liệu Magpie-Ultra gồm 50.000 cặp chỉ dẫn-phản hồi cho huấn luyện có giám sát (SFT) các mô hình AI.
• Bộ dữ liệu được tạo ra tổng hợp bằng mô hình Llama 3.1 405B-Instruct và các mô hình Llama khác như Llama-Guard-3-8B và Meta-Llama-3.1-8B-Instruct.
• Nội dung đa dạng bao gồm lập trình, toán học, phân tích dữ liệu, viết sáng tạo, tư vấn và brainstorming, với các chỉ dẫn và phản hồi mang tính thách thức.
• Quy trình tạo dữ liệu sử dụng công cụ distilabel và tuân theo phương pháp Magpie được mô tả trong bài báo "Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing".
• So với phiên bản Magpie gốc 1 triệu cặp, phiên bản này tập trung hơn với 50.000 cặp chất lượng cao sử dụng các mô hình Llama 3.1 mới nhất.
• Quy trình tạo dữ liệu sử dụng nhiều mô hình khác nhau cho các bước tạo chỉ dẫn, tạo phản hồi, đánh giá chất lượng và phân loại an toàn.
• Toàn bộ quá trình tạo dữ liệu mất khoảng 111 giờ trên một máy 8xH100, trong đó 60 giờ để tạo cặp chỉ dẫn-phản hồi và 51 giờ cho các bước bổ sung.
• Cấu trúc dữ liệu bao gồm nhiều cột thông tin phong phú như chỉ dẫn, phản hồi từ mô hình instruct và base, ý định, kiến thức yêu cầu, độ khó, đánh giá chất lượng và phân loại.
• Bộ dữ liệu tích hợp kiểm tra an toàn sử dụng Llama-Guard-3-8B và cung cấp thông tin embedding cho mỗi chỉ dẫn.
• Magpie-Ultra có thể được sử dụng cho Huấn luyện có giám sát (SFT) hoặc Tối ưu hóa ưu tiên trực tiếp (DPO) tùy thuộc vào chênh lệch điểm giữa phản hồi của mô hình instruct và base.
• Phiên bản hiện tại chưa được lọc, một phiên bản đã lọc dự kiến sẽ được phát hành trong tương lai.
• Mặc dù còn một số hạn chế như chưa cân bằng dữ liệu, Magpie-Ultra vẫn là nguồn tài nguyên quý giá để nâng cao khả năng AI trong nhiều lĩnh vực.
📌 Magpie-Ultra cung cấp 50.000 cặp chỉ dẫn-phản hồi chất lượng cao từ Llama 3.1 405B, bao gồm nhiều chủ đề đa dạng. Bộ dữ liệu này mở ra cơ hội huấn luyện AI tiên tiến thông qua SFT hoặc DPO, đóng góp quan trọng cho sự phát triển của các mô hình ngôn ngữ lớn.
https://www.marktechpost.com/2024/08/04/magpie-ultra-dataset-released-harnessing-llama-3-1-405b-for-diverse-ai-instruction-response-pairs/
• Nhiều người đang đặt câu hỏi liệu bong bóng AI có sắp vỡ hay không, khi giá cổ phiếu của các công ty công nghệ lớn chưa thể lấy lại đỉnh cao giữa năm. Tuy nhiên, lịch sử cho thấy đầu tư vào công nghệ mới có thể mang lại lợi nhuận lớn trong dài hạn, như trường hợp của Amazon.
• Một số người hoài nghi cho rằng AI sẽ sớm gặp phải bức tường do thiếu dữ liệu để huấn luyện. Tuy nhiên, tác giả cho rằng điều này không đúng và so sánh dữ liệu với dầu mỏ.
• Giống như dầu mỏ, dữ liệu cũng có độ khó và chi phí khai thác khác nhau. Khi giá dầu tăng cao, các nhà sản xuất được khuyến khích sử dụng các phương pháp đắt đỏ hơn để khai thác nguồn dự trữ mới. Điều tương tự cũng xảy ra với dữ liệu.
• Hiện tại, khoảng 96-99,8% dữ liệu trực tuyến không thể truy cập được bởi các công cụ tìm kiếm. Ngoài ra, phần lớn tài liệu in chưa được số hóa và có rất nhiều thông tin chưa được thu thập.
• Khi các mô hình AI thông minh hơn cho phép ứng dụng rộng rãi hơn, sẽ có động lực mạnh mẽ để khai thác các nguồn dữ liệu đắt đỏ hơn. Điều này đang thúc đẩy sự phát triển của ngành công nghiệp dữ liệu huấn luyện mới.
• Các công ty và tổ chức phi lợi nhuận có thể tận dụng cơ hội này để kiếm lợi từ dữ liệu độc quyền của họ. OpenAI đã chi hàng trăm triệu USD để cấp phép dữ liệu huấn luyện.
• Cuộc cạnh tranh về dữ liệu chất lượng cao có thể ảnh hưởng đến chính trị giữa các siêu cường. Các quy định về quyền riêng tư ở châu Âu có thể cản trở sự phát triển AI, trong khi Trung Quốc có lợi thế về dữ liệu nhờ hệ thống giám sát rộng rãi.
• Các kỹ thuật mới như tạo dữ liệu tổng hợp và tự học có thể giảm sự phụ thuộc của ngành AI vào lượng lớn dữ liệu. Tuy nhiên, trong ngắn hạn, bong bóng thị trường AI có thể vỡ trước khi AI đủ thông minh để đáp ứng kỳ vọng cao.
📌 AI sẽ không cạn kiệt dữ liệu nhờ khả năng khai thác nguồn dữ liệu mới và phát triển kỹ thuật học hiệu quả hơn. Mặc dù có thể có bong bóng ngắn hạn, tiềm năng dài hạn của AI vẫn rất lớn, tương tự như ngành dầu mỏ đã liên tục vượt qua dự đoán về cạn kiệt nguồn cung.
https://time.com/7006382/ai-training-data-oil/
#TIME
• Google Cloud công bố nhiều cập nhật mới cho các dịch vụ cơ sở dữ liệu và phân tích dữ liệu tại sự kiện Google Cloud Next ở Tokyo, nhằm tích hợp thêm tính linh hoạt trong việc sử dụng và truy cập dữ liệu, đẩy nhanh việc triển khai và áp dụng AI tạo sinh.
• Spanner - cơ sở dữ liệu quan hệ của Google, được bổ sung hỗ trợ dữ liệu đồ thị và vector. Điều này cho phép xây dựng các mối quan hệ ngữ nghĩa phức tạp và hỗ trợ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).
• Bigtable được thêm hỗ trợ SQL, giúp truy vấn dữ liệu dễ dàng hơn.
• BigQuery và Looker - nền tảng phân tích dữ liệu và trí tuệ kinh doanh, được tích hợp AI Gemini với hơn 20 tính năng mới như tạo mã, giải thích và đề xuất thông minh.
• Tính năng Data Canvas mới trên BigQuery kết hợp trải nghiệm người dùng với AI, tạo ra quá trình phân tích tương tác và được hỗ trợ bởi AI.
• Looker tập trung vào việc xây dựng các agent AI chuyên sâu để chọn dữ liệu, thực hiện phân tích và tóm tắt thông tin.
• Spanner, vốn được sử dụng trong hầu hết các sản phẩm của Google như Search, Gmail, YouTube, nay trở thành cơ sở dữ liệu đa mô hình thực sự với khả năng xử lý dữ liệu quan hệ, đồ thị và vector.
• Các cập nhật này nhằm giúp các tổ chức khai thác tối đa giá trị từ dữ liệu hiện có, mà không cần di chuyển dữ liệu sang hệ thống mới.
• Gerrit Kazmaier, GM & VP phụ trách Phân tích Dữ liệu tại Google Cloud nhấn mạnh tầm quan trọng của dữ liệu chất lượng cao trong việc xây dựng AI xuất sắc.
• Andi Gutmans, một lãnh đạo khác của Google Cloud, nhấn mạnh lợi thế của việc đưa các công nghệ nội bộ của Google ra thị trường doanh nghiệp.
📌 Google Cloud mở rộng khả năng AI tạo sinh cho các công cụ cơ sở dữ liệu và phân tích. Spanner hỗ trợ dữ liệu đồ thị và vector, BigQuery và Looker tích hợp Gemini AI với 20+ tính năng mới. Các cập nhật nhằm tăng cường xử lý dữ liệu đa dạng, thúc đẩy triển khai AI trong doanh nghiệp.
https://venturebeat.com/ai/google-cloud-expands-gen-ai-power-for-database-and-data-analytics-tools/
- Data engineering đóng vai trò quan trọng trong việc chuẩn bị dữ liệu cho các ứng dụng AI và phân tích. Các thách thức chính bao gồm:
+ Xử lý dữ liệu thời gian thực từ nhiều nguồn khác nhau
+ Mở rộng quy mô pipeline dữ liệu một cách đáng tin cậy
+ Đảm bảo chất lượng dữ liệu
+ Quản trị và bảo mật dữ liệu
- Nền tảng Data Intelligence của Databricks giúp giải quyết các thách thức trên thông qua:
+ Delta Live Tables (DLT): framework ETL khai báo giúp đơn giản hóa việc xây dựng pipeline dữ liệu đáng tin cậy
+ Databricks Workflows: giải pháp điều phối thống nhất cho dữ liệu và AI
+ Unity Catalog: cung cấp mô hình quản trị thống nhất cho toàn bộ nền tảng
- Các tính năng chính của DLT:
+ Tự động xử lý điều phối tác vụ, quản lý cụm, giám sát, chất lượng dữ liệu và xử lý lỗi
+ Hỗ trợ cả Python và SQL
+ Làm việc với cả luồng dữ liệu batch và streaming
- Databricks Workflows cung cấp:
+ Khả năng định nghĩa quy trình làm việc nhiều bước để triển khai pipeline ETL, quy trình đào tạo ML
+ Điều khiển luồng nâng cao và hỗ trợ nhiều loại tác vụ
+ Khả năng quan sát nâng cao để giám sát và trực quan hóa việc thực thi quy trình làm việc
- Unity Catalog mang lại:
+ Mô hình quản trị thống nhất cho toàn bộ nền tảng
+ Khả năng khám phá và chia sẻ dữ liệu an toàn
+ Thông tin phả hệ giúp hiểu rõ cách sử dụng và nguồn gốc của từng bộ dữ liệu
- Databricks Assistant tích hợp AI để hỗ trợ các tác vụ kỹ thuật hàng ngày như:
+ Tạo, tối ưu hóa và gỡ lỗi mã phức tạp
+ Truy vấn dữ liệu thông qua giao diện hội thoại
- Nền tảng Databricks giúp data engineer tập trung vào đổi mới và mang lại nhiều giá trị hơn cho tổ chức thay vì phải dành nhiều thời gian quản lý pipeline phức tạp.
📌 Nền tảng Data Intelligence của Databricks cung cấp giải pháp toàn diện cho data engineering, từ xử lý dữ liệu thời gian thực đến quản trị thống nhất. Với các công cụ như Delta Live Tables và Databricks Workflows, data engineer có thể xây dựng pipeline dữ liệu đáng tin cậy và có khả năng mở rộng, đồng thời tận dụng AI để nâng cao năng suất.
https://www.databricks.com/sites/default/files/2024-07/2024-07-eb-big-book-of-data-engineering-3rd-edition.pdf
• Các nhà nghiên cứu từ Đại học Stanford đã tiến hành một nghiên cứu về tác động của việc tích lũy dữ liệu đối với sự sụp đổ mô hình trong các mô hình AI tạo sinh.
• Nghiên cứu tập trung vào việc mô phỏng sự tích lũy liên tục của dữ liệu tổng hợp trong các bộ dữ liệu dựa trên internet, khác với các nghiên cứu trước đây chỉ tập trung vào việc thay thế dữ liệu.
• Các thí nghiệm được thực hiện trên nhiều loại mô hình khác nhau như transformer, mô hình khuếch tán và autoencoder biến phân, với nhiều loại dữ liệu khác nhau.
• Kết quả cho thấy việc tích lũy dữ liệu tổng hợp cùng với dữ liệu thực ngăn chặn được sự sụp đổ mô hình, trái ngược với sự suy giảm hiệu suất khi thay thế dữ liệu.
• Với mô hình ngôn ngữ transformer, các thí nghiệm sử dụng kiến trúc GPT-2 và Llama2 với nhiều kích thước khác nhau, được huấn luyện trước trên TinyStories.
• Kết quả cho thấy việc thay thế dữ liệu làm tăng cross-entropy trên tập kiểm tra (hiệu suất kém hơn) ở tất cả các cấu hình mô hình và nhiệt độ lấy mẫu.
• Ngược lại, việc tích lũy dữ liệu duy trì hoặc cải thiện hiệu suất qua các lần lặp.
• Với mô hình khuếch tán GeoDiff trên dữ liệu cấu trúc phân tử GEOM-Drugs, kết quả cũng cho thấy tổn thất kiểm tra tăng lên khi thay thế dữ liệu, nhưng hiệu suất ổn định khi tích lũy dữ liệu.
• Đối với VAE trên dữ liệu hình ảnh khuôn mặt CelebA, việc thay thế dữ liệu dẫn đến sự sụp đổ mô hình nhanh chóng, với lỗi kiểm tra tăng và chất lượng/đa dạng hình ảnh giảm.
• Tích lũy dữ liệu làm chậm đáng kể sự sụp đổ, giữ được các biến thể chính nhưng mất chi tiết nhỏ qua các lần lặp.
• Các nhà nghiên cứu đã mở rộng phân tích hiện có của các mô hình tuyến tính tuần tự để chứng minh rằng việc tích lũy dữ liệu dẫn đến một giới hạn trên hữu hạn, được kiểm soát tốt đối với lỗi kiểm tra, độc lập với số lần lặp khớp mô hình.
• Phát hiện này trái ngược với sự gia tăng lỗi tuyến tính được thấy trong các kịch bản thay thế dữ liệu.
📌 Nghiên cứu từ Stanford chỉ ra rằng tích lũy dữ liệu tổng hợp cùng dữ liệu thực có thể ngăn chặn sự sụp đổ mô hình AI. Kết quả nhất quán trên nhiều loại mô hình và dữ liệu, với lý thuyết chứng minh giới hạn lỗi hữu hạn khi tích lũy dữ liệu, khác biệt so với tăng lỗi tuyến tính khi thay thế dữ liệu.
https://www.marktechpost.com/2024/07/29/this-ai-paper-from-stanford-provides-new-insights-on-ai-model-collapse-and-data-accumulation/
• Các kỹ thuật "gỡ bỏ học tập" được sử dụng để làm cho mô hình AI tạo sinh quên đi thông tin cụ thể và không mong muốn từ dữ liệu đào tạo, như dữ liệu riêng tư nhạy cảm hoặc tài liệu có bản quyền.
• Một nghiên cứu mới do các nhà nghiên cứu từ Đại học Washington, Princeton, Chicago, USC và Google thực hiện cho thấy các kỹ thuật gỡ bỏ học tập phổ biến nhất hiện nay có xu hướng làm suy giảm mô hình, thường đến mức không thể sử dụng được.
• Weijia Shi, một nhà nghiên cứu trong nghiên cứu này và là nghiên cứu sinh tiến sĩ khoa học máy tính tại UW, cho biết hiện tại không có phương pháp hiệu quả nào cho phép mô hình quên dữ liệu cụ thể mà không mất đi đáng kể tính hữu dụng.
• Các mô hình AI tạo sinh học cách dự đoán dữ liệu dựa trên các mẫu và ngữ cảnh từ một lượng lớn dữ liệu đào tạo. Hầu hết các mô hình được đào tạo trên dữ liệu từ các trang web và bộ dữ liệu công khai trên internet.
• Nhiều chủ sở hữu bản quyền không đồng ý với việc sử dụng dữ liệu của họ để đào tạo AI mà không được thông báo, bồi thường hoặc ghi nhận công lao. Điều này đã dẫn đến các vụ kiện chống lại các nhà cung cấp AI.
• Kỹ thuật gỡ bỏ học tập có thể cung cấp cách xóa thông tin nhạy cảm khỏi các mô hình hiện có, như hồ sơ y tế hoặc ảnh riêng tư, theo yêu cầu hoặc lệnh của chính phủ.
• Các kỹ thuật gỡ bỏ học tập hiện tại sử dụng các thuật toán được thiết kế để "điều hướng" mô hình tránh xa dữ liệu cần được gỡ bỏ, nhằm ảnh hưởng đến dự đoán của mô hình để nó không bao giờ hoặc rất hiếm khi đưa ra dữ liệu nhất định.
• Các nhà nghiên cứu đã phát triển một benchmark gọi là MUSE (Machine Unlearning Six-way Evaluation) để đánh giá hiệu quả của các thuật toán gỡ bỏ học tập. MUSE kiểm tra khả năng của thuật toán trong việc ngăn mô hình nhả ra dữ liệu đào tạo nguyên văn và loại bỏ kiến thức của mô hình về dữ liệu đó.
• Nghiên cứu cho thấy các thuật toán gỡ bỏ học tập đã thử nghiệm có thể làm cho mô hình quên thông tin nhất định, nhưng cũng làm tổn hại đến khả năng trả lời câu hỏi chung của mô hình, tạo ra sự đánh đổi.
• Hiện tại chưa có giải pháp cho vấn đề này, nhấn mạnh nhu cầu cần thêm nghiên cứu. Các nhà cung cấp đang đặt cược vào gỡ bỏ học tập như một giải pháp cho các vấn đề dữ liệu đào tạo của họ có vẻ như đang gặp khó khăn.
📌 Nghiên cứu mới cho thấy các kỹ thuật gỡ bỏ học tập AI hiện tại gây suy giảm nghiêm trọng hiệu suất mô hình, với sự đánh đổi giữa xóa dữ liệu không mong muốn và khả năng tổng quát. Cần thêm nghiên cứu để tìm giải pháp hiệu quả cho vấn đề bản quyền và quyền riêng tư trong đào tạo AI.
https://techcrunch.com/2024/07/29/making-ai-models-forget-undesirable-data-hurts-their-performance/
• Tiềm năng kinh tế của AI tạo sinh có thể đóng góp từ 17 đến 26 nghìn tỷ USD cho nền kinh tế toàn cầu. Goldman Sachs dự đoán đầu tư vào AI có thể đạt 100 tỷ USD ở Mỹ và 200 tỷ USD trên toàn cầu vào năm 2025.
• Gartner cho rằng quản lý tin cậy, rủi ro và bảo mật AI là xu hướng chiến lược hàng đầu năm 2024. Đến năm 2026, các mô hình AI từ các tổ chức vận hành tính minh bạch, tin cậy và bảo mật AI sẽ tăng 50% về mức độ áp dụng và đạt mục tiêu kinh doanh.
• Databricks giới thiệu Nền tảng Data Intelligence để giúp khách hàng xây dựng AI có trách nhiệm, tập trung vào 3 thách thức chính: thiếu khả năng hiển thị chất lượng mô hình, biện pháp bảo mật không đầy đủ và quản trị phân tán.
• Nền tảng cung cấp giám sát chất lượng toàn diện cho dữ liệu và AI, bao gồm tính minh bạch (với tài liệu tự động bằng AI), hiệu quả (đánh giá mô hình tự động) và độ tin cậy (giám sát liên tục).
• Về bảo mật, Databricks đã phát triển danh sách 55 rủi ro tiềm ẩn và đề xuất giải pháp giảm thiểu thông qua Khung Bảo mật AI Databricks (DASF).
• Unity Catalog cung cấp giải pháp quản trị thống nhất và mở cho dữ liệu và AI, cho phép quản lý truy cập tập trung, bảo vệ quyền riêng tư và theo dõi nguồn gốc tự động.
• Các tính năng chính bao gồm: Delta Live Tables để theo dõi nguồn gốc dữ liệu, Feature Store để quản lý tính năng nhất quán, MLflow để theo dõi thí nghiệm, đánh giá mô hình tự động, giám sát mô hình liên tục và phục vụ mô hình linh hoạt.
• Nền tảng cũng cung cấp các công cụ đánh giá và bảo vệ cho mô hình ngôn ngữ lớn (LLM) như AI playground và AI guardrails.
• Databricks Clean Rooms tạo môi trường an toàn cho cộng tác về dữ liệu và AI giữa các tổ chức mà không ảnh hưởng đến quyền riêng tư.
📌 Nền tảng Data Intelligence của Databricks cung cấp giải pháp toàn diện để xây dựng AI có trách nhiệm, tập trung vào chất lượng, bảo mật và quản trị. Với các tính năng như Unity Catalog, MLflow và DASF, nền tảng giúp doanh nghiệp đáp ứng yêu cầu về AI đáng tin cậy và tuân thủ quy định mới nổi.
https://www.databricks.com/blog/responsible-ai-databricks-data-intelligence-platform
• Databricks công bố bản xem trước công khai của Mosaic AI Agent Framework và Agent Evaluation tại Data + AI Summit 2024, nhằm hỗ trợ các nhà phát triển xây dựng và triển khai ứng dụng Agent và Retrieval Augmented Generation (RAG) chất lượng cao.
• Các thách thức chính khi xây dựng ứng dụng AI tạo sinh chất lượng cao bao gồm: chọn đúng chỉ số đánh giá chất lượng, thu thập phản hồi của con người hiệu quả, xác định nguyên nhân gốc rễ của vấn đề chất lượng và cải thiện nhanh chóng trước khi triển khai.
• Mosaic AI Agent Framework và Agent Evaluation cung cấp các tính năng chính:
- Tích hợp phản hồi của con người: Cho phép định nghĩa phản hồi chất lượng cao bằng cách mời chuyên gia đánh giá.
- Các chỉ số đánh giá toàn diện: Đo lường độ chính xác, ảo tưởng, độ nguy hại và hữu ích của ứng dụng.
- Quy trình phát triển end-to-end: Tích hợp với MLflow để ghi nhật ký và đánh giá ứng dụng.
- Quản lý vòng đời ứng dụng: SDK đơn giản hóa để quản lý toàn bộ vòng đời ứng dụng.
• Databricks cung cấp ví dụ về xây dựng ứng dụng RAG chất lượng cao, bao gồm kết nối với chỉ mục tìm kiếm vector, sử dụng LangChain retriever và tận dụng MLflow.
• Một số công ty đã áp dụng thành công Mosaic AI Agent Framework:
- Corning xây dựng trợ lý nghiên cứu AI lập chỉ mục hàng trăm nghìn tài liệu.
- Lippert sử dụng để đánh giá kết quả ứng dụng AI tạo sinh.
- FordDirect tạo chatbot thống nhất cho các đại lý.
• Giá Agent Evaluation dựa trên yêu cầu đánh giá, còn Mosaic AI Model Serving theo mức giá riêng.
• Databricks khuyến khích khách hàng dùng thử bằng cách truy cập tài liệu, notebook demo và Generative AI Cookbook.
📌 Databricks ra mắt Mosaic AI Agent Framework và Agent Evaluation, giúp xây dựng ứng dụng AI tạo sinh chất lượng cao với tính năng tích hợp phản hồi người dùng, đánh giá toàn diện và quản lý vòng đời. Các công ty như Corning, Lippert và FordDirect đã áp dụng thành công, cải thiện đáng kể chất lượng và hiệu suất ứng dụng AI.
https://www.marktechpost.com/2024/07/26/databricks-announced-the-public-preview-of-mosaic-ai-agent-framework-and-agent-evaluation/
• Human Rights Watch (HRW) vừa hoàn thành cuộc kiểm toán toàn diện về dữ liệu huấn luyện AI và phát hiện hình ảnh trẻ em bị thu thập từ internet đã được sử dụng để huấn luyện các mô hình AI mà không có sự đồng ý của trẻ em hoặc gia đình.
• Theo HRW, tên của một số trẻ được liệt kê trong chú thích đi kèm hoặc URL lưu trữ hình ảnh. Trong nhiều trường hợp, danh tính của trẻ dễ dàng bị truy nguyên, bao gồm thông tin về thời gian và địa điểm chụp ảnh.
• Nhiều hình ảnh bị thu thập không có sẵn công khai trên internet mà được ẩn sau cài đặt quyền riêng tư trên các trang mạng xã hội phổ biến.
• "Sharenting" - đăng thông tin, hình ảnh và câu chuyện về cuộc sống của con cái lên mạng - ngày càng bị chỉ trích vì nhiều lý do chính đáng. Một đứa trẻ 3 tuổi không thể đồng ý một cách có ý nghĩa để cha mẹ chia sẻ video thất bại trong việc tập đi vệ sinh cho cả thế giới xem.
• Báo cáo của HRW cho thấy cha mẹ không thể biết được hậu quả lâu dài của việc chia sẻ thông tin về con cái. 10 năm trước, không ai tưởng tượng được rằng album ảnh kỳ nghỉ gia đình họ chia sẻ có thể bị đưa vào học máy.
• Tòa án Tối cao Mỹ đã bác bỏ học thuyết Chevron vào tháng trước, tước bỏ quyền lực của các cơ quan liên bang như FTC và trao quyền cho tòa án. Điều này gây khó khăn cho việc ban hành luật bảo vệ quyền riêng tư ở cấp liên bang.
• Trong khi chờ đợi, AI sẽ tiếp tục thu thập dữ liệu của trẻ em - và cuối cùng, việc đó có hợp pháp hay không sẽ phụ thuộc vào bang bạn sống.
• Chia sẻ ảnh trận đấu bóng chày nhỏ của con bạn có thể là cách thú vị để giữ liên lạc với gia đình gần xa, nhưng cho đến khi có biện pháp bảo vệ đáng kể, đó là rủi ro mà tác giả không khuyên ai nên thực hiện.
📌 Việc sử dụng hình ảnh trẻ em để huấn luyện AI mà không có sự đồng ý gây lo ngại lớn về quyền riêng tư. Phụ huynh cần thận trọng khi chia sẻ ảnh con online. Cần có luật bảo vệ dữ liệu cá nhân cấp liên bang, nhưng quyết định của Tòa án Tối cao gây khó khăn cho việc này.
https://thehill.com/opinion/technology/4794388-ai-training-children-photos-privacy-chevron/
• Khảo sát 105 khách hàng chung của Databricks và Snowflake, bao gồm 29 công ty trong Fortune 500 và 50 công ty trong Global 2000.
• 96% người được hỏi tham gia sâu vào quá trình ra quyết định về nền tảng dữ liệu.
• 70% cho rằng họ không đưa ra quyết định nền tảng mà không xem xét vấn đề quản trị.
• 48% có kế hoạch thay đổi cách sử dụng Databricks hoặc Snowflake, AI, ML và chi tiêu dữ liệu.
• Snowflake nổi bật hơn về kho dữ liệu và lưu trữ, trong khi Databricks mạnh hơn về AI/ML.
• Về khả năng AI tạo sinh, 65% ủng hộ Databricks, 50% ủng hộ Snowflake, và 34% cho rằng các nhà cung cấp đám mây lớn có nhiều khả năng hơn cả hai công ty.
• 48% cho rằng Databricks có khả năng thống trị AI/ML, so với 21% cho Snowflake.
• 28% có kế hoạch chuyển sang Databricks trong 24 tháng tới, 19% chuyển sang Snowflake, 44% không có kế hoạch thay đổi.
• 86% coi an ninh và 76% coi quản trị là điểm quyết định hàng đầu.
• 54% không muốn bị khóa chặt và 50% có kế hoạch sử dụng định dạng bảng mở.
• Chỉ 15% đang sử dụng định dạng bảng mở, nhưng 70% có kế hoạch đánh giá hoặc sử dụng trong tương lai gần.
• Iceberg là định dạng bảng mở được quan tâm nhất, với kế hoạch sử dụng cao nhất trong 6-12 tháng tới.
• 37% cho rằng quản trị quan trọng hơn việc áp dụng mã nguồn mở.
• Unity của Databricks có lợi thế ban đầu so với Polaris của Snowflake trong lĩnh vực quản trị dữ liệu.
• 47% đang sử dụng Unity, trong đó 43% có kế hoạch tăng cường sử dụng.
• Thị trường quản trị dữ liệu vẫn còn phân mảnh với nhiều lựa chọn từ các nhà cung cấp khác nhau.
📌 Databricks và Snowflake đang cạnh tranh gay gắt nhưng bổ sung cho nhau trong thị trường dữ liệu và AI. Databricks dẫn đầu về AI/ML với 48% ủng hộ, trong khi Snowflake mạnh về kho dữ liệu. An ninh và quản trị là ưu tiên hàng đầu với hơn 75% khách hàng.
https://siliconangle.com/2024/07/27/databricks-vs-snowflake-not-zero-sum-game/
• X (trước đây là Twitter) đang mặc định sử dụng dữ liệu người dùng để huấn luyện chatbot AI Grok mà không thông báo rõ ràng.
• Elon Musk gần đây thông báo Grok đã bắt đầu quá trình "huấn luyện siêu cụm", nhưng không tiết lộ việc sử dụng dữ liệu người dùng X.
• Thông tin này được tiết lộ bởi người dùng "EasyBakedOven" trên X, cho biết nền tảng đã kích hoạt cài đặt mặc định cho phép sử dụng dữ liệu của mọi người.
• X mô tả cài đặt này là để "cải thiện trải nghiệm liên tục", họ có thể sử dụng bài đăng, tương tác, đầu vào và kết quả của người dùng với Grok để huấn luyện và tinh chỉnh.
• Dữ liệu này cũng có thể được chia sẻ với xAI, công ty AI của Musk.
• Người dùng có thể từ chối cho phép sử dụng dữ liệu của họ bằng cách vào Cài đặt > Quyền riêng tư và an toàn > Nội dung bạn thấy > Huấn luyện AI.
• Việc sử dụng dữ liệu người dùng để huấn luyện AI đang gây tranh cãi, với nhiều công ty bị chỉ trích vì làm điều này mà không có sự đồng ý rõ ràng.
• Musk trước đây đã chỉ trích việc các công ty khác sử dụng dữ liệu công khai để huấn luyện AI, nhưng giờ X cũng đang làm điều tương tự.
• Grok được quảng cáo là một chatbot AI "chống woke", nhưng một số người dùng nhận thấy nó đưa ra câu trả lời ngược lại với kỳ vọng.
• Việc này làm dấy lên lo ngại về quyền riêng tư và sử dụng dữ liệu cá nhân trong phát triển AI.
📌 X của Elon Musk đang mặc định sử dụng dữ liệu người dùng để huấn luyện AI Grok mà không thông báo rõ ràng. Người dùng có thể từ chối trong cài đặt. Điều này gây tranh cãi về quyền riêng tư và sử dụng dữ liệu cá nhân trong phát triển AI.
https://www.zdnet.com/article/elon-musks-x-now-trains-its-grok-ai-on-your-data-by-default-heres-how-to-opt-out/
• Salesforce AI Research vừa phát hành bộ dữ liệu nguồn mở MINT-1T, chứa 1 nghìn tỷ token văn bản và 3,4 tỷ hình ảnh, lớn gấp 10 lần các bộ dữ liệu công khai trước đây.
• MINT-1T là bộ dữ liệu đa phương thức kết hợp văn bản và hình ảnh, mô phỏng tài liệu thực tế. Điều này rất quan trọng để phát triển học máy đa phương thức - giúp máy tính hiểu cả văn bản và hình ảnh cùng lúc như con người.
• Bộ dữ liệu này không chỉ lớn mà còn đa dạng, lấy từ nhiều nguồn như trang web và bài báo khoa học, giúp mô hình AI có cái nhìn toàn diện về kiến thức của con người.
• Việc công khai MINT-1T phá vỡ rào cản trong nghiên cứu AI, cho phép các phòng thí nghiệm nhỏ và nhà nghiên cứu cá nhân tiếp cận dữ liệu ngang tầm các công ty công nghệ lớn.
• Động thái này của Salesforce phù hợp với xu hướng mở trong nghiên cứu AI, nhưng cũng đặt ra câu hỏi về tương lai của AI và ai sẽ định hướng sự phát triển của nó.
• Quy mô chưa từng có của MINT-1T làm nổi bật các vấn đề đạo đức về quyền riêng tư, sự đồng ý và nguy cơ khuếch đại định kiến trong dữ liệu gốc.
• Cộng đồng AI phải phát triển khuôn khổ mạnh mẽ để tổng hợp dữ liệu và huấn luyện mô hình, ưu tiên công bằng, minh bạch và trách nhiệm giải trình.
• MINT-1T có thể thúc đẩy tiến bộ trong nhiều lĩnh vực AI như trợ lý AI thông minh hơn, đột phá trong thị giác máy tính và khả năng suy luận đa phương thức.
• Tuy nhiên, cộng đồng AI phải đối mặt với các thách thức về độ chệch, khả năng giải thích và độ mạnh mẽ của hệ thống AI ngày càng mạnh mẽ và ảnh hưởng lớn.
• Các nhà nghiên cứu và nhà phát triển phải đưa ra quyết định sử dụng MINT-1T một cách có trách nhiệm, định hình tương lai của AI phù hợp với giá trị của con người.
📌 Bộ dữ liệu MINT-1T với 1 nghìn tỷ token và 3,4 tỷ hình ảnh mở ra cơ hội đột phá cho AI đa phương thức, nhưng cũng đặt ra thách thức về đạo đức và trách nhiệm. Việc sử dụng dữ liệu khổng lồ này sẽ định hình tương lai của AI và thế giới ngày càng phụ thuộc vào AI.
https://venturebeat.com/ai/how-salesforces-mint-1t-dataset-could-disrupt-the-ai-industry/
• Dữ liệu tổng hợp được sử dụng để cải thiện độ chính xác của mô hình trong nhiều lĩnh vực như phát hiện đối tượng, phát hiện gian lận thẻ tín dụng và cải thiện mô hình BERT cho hỏi đáp.
• Meta vừa phát hành Llama 3.1 405B, mô hình ngôn ngữ lớn mã nguồn mở mạnh mẽ nhất của họ, có thể được sử dụng cho suy luận theo lô và trực tuyến, cũng như làm cơ sở để tiền huấn luyện hoặc tinh chỉnh cho một lĩnh vực cụ thể.
• Có hai cách tiếp cận chính để tạo dữ liệu tổng hợp để tinh chỉnh mô hình: chuyển giao kiến thức và tự cải thiện. Chuyển giao kiến thức chuyển khả năng của mô hình lớn hơn sang mô hình nhỏ hơn. Tự cải thiện sử dụng cùng một mô hình để phê bình lý luận của chính nó.
• Quá trình đào tạo mô hình ngôn ngữ lớn gồm 3 bước: tiền huấn luyện, tinh chỉnh và điều chỉnh. Dữ liệu tổng hợp có thể được sử dụng trong cả 3 bước này.
• Dữ liệu tổng hợp cũng có thể được sử dụng để cải thiện các mô hình và hệ thống khác như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) và các pipeline agent.
• Bài viết trình bày một quy trình 3 bước để tạo dữ liệu tổng hợp đánh giá truy xuất thông tin:
1. Tạo tất cả các câu hỏi có thể
2. Lọc các câu hỏi đã tạo
3. Đưa phong cách viết của persona vào
• Bước 1 bao gồm tạo các điểm quan tâm, loại bỏ trùng lặp, ánh xạ các điểm quan tâm với các loại câu hỏi và tạo tất cả câu hỏi.
• Bước 2 bao gồm loại bỏ trùng lặp giữa các câu hỏi, sử dụng mô hình ngôn ngữ lớn làm trọng tài để xác định mức độ liên quan, viết lại câu hỏi theo giọng điệu hội thoại và lọc ra các câu hỏi quá chung chung.
• Bước 3 sử dụng mô hình ngôn ngữ lớn để viết lại các câu hỏi theo phong cách của các persona khác nhau.
• Quy trình này tạo ra các câu hỏi đa dạng và phù hợp với các persona khác nhau, có thể được sử dụng để đánh giá các pipeline truy xuất khác nhau.
📌 Llama 3.1 405B của Meta là mô hình ngôn ngữ lớn mã nguồn mở mạnh mẽ nhất, có thể tạo dữ liệu tổng hợp để cải thiện mô hình AI. Quy trình 3 bước được đề xuất giúp tạo dữ liệu đánh giá truy xuất đa dạng và phù hợp với các persona khác nhau, hỗ trợ đánh giá hiệu quả các pipeline RAG.
https://developer.nvidia.com/blog/creating-synthetic-data-using-llama-3-1-405b/
• Web scraping đang trở thành công cụ không thể thiếu trong phát triển AI, đặc biệt là trong việc huấn luyện các mô hình ngôn ngữ lớn (LLM) như GPT và RAG.
• Các mô hình ngôn ngữ lớn như GPT-3 cần lượng dữ liệu khổng lồ và đa dạng để học. Web scraping giúp thu thập hiệu quả dữ liệu từ internet rộng lớn và liên tục thay đổi.
• Đối với các mô hình GPT tùy chỉnh cho các ngành cụ thể, web scraping cho phép thu thập dữ liệu có mục tiêu và kịp thời, giúp huấn luyện các mô hình chuyên biệt và cập nhật hơn.
• Các mô hình RAG cần nguồn cấp dữ liệu liên tục để tạo ra nội dung dựa trên thông tin thời gian thực. Web scraping đáp ứng nhu cầu này bằng cách cung cấp dòng dữ liệu mới liên tục.
• Web scraping giúp tiếp cận các bộ dữ liệu độc quyền trên internet, chuyển đổi chúng thành định dạng có cấu trúc phù hợp để huấn luyện mô hình AI.
• So với các phương pháp thu thập dữ liệu truyền thống, web scraping tiết kiệm chi phí đáng kể bằng cách tự động hóa quá trình thu thập trên quy mô lớn và từ nhiều nguồn đa dạng.
• Web scraping giúp doanh nghiệp và nhà phát triển duy trì lợi thế cạnh tranh bằng cách liên tục cập nhật mô hình với thông tin mới nhất.
• Tính linh hoạt của web scraping cho phép tạo ra các bộ dữ liệu tùy chỉnh phù hợp với yêu cầu cụ thể của từng mô hình AI, cải thiện hiệu suất trong các tác vụ chuyên biệt.
• Tuy nhiên, việc sử dụng web scraping cần tuân thủ các quy tắc đạo đức và pháp lý, tôn trọng điều khoản sử dụng của trang web, luật bản quyền và quyền riêng tư dữ liệu.
• Trong tương lai, mối quan hệ giữa phát triển AI và web scraping sẽ ngày càng chặt chẽ hơn. Các phương pháp và công nghệ web scraping sẽ tiếp tục phát triển để đáp ứng nhu cầu dữ liệu ngày càng tăng.
• Các xu hướng trong tương lai bao gồm thuật toán máy học được thiết kế riêng cho web scraping, kỹ thuật ẩn danh dữ liệu nâng cao và hiểu biết sâu sắc hơn về khung pháp lý của việc thu thập dữ liệu.
📌 Web scraping đóng vai trò then chốt trong phát triển AI, từ huấn luyện mô hình ngôn ngữ đến cung cấp dữ liệu thời gian thực. Nó giúp tiếp cận dữ liệu độc quyền, tiết kiệm chi phí và tạo lợi thế cạnh tranh. Tuy nhiên, cần chú trọng đến các vấn đề đạo đức và pháp lý khi sử dụng công cụ mạnh mẽ này.
https://www.techradar.com/pro/from-training-llms-to-getting-real-time-data-for-custom-gpts-and-rag-everyone-is-turning-to-scraping-heres-why
• Một nghiên cứu mới cho thấy dữ liệu đào tạo cho các mô hình AI tạo sinh như Midjourney và ChatGPT đang bắt đầu cạn kiệt.
• Nhóm nghiên cứu của MIT đã xem xét 14.000 tên miền web được sử dụng trong 3 bộ dữ liệu đào tạo AI lớn là C4, RefineWeb và Dolma.
• Kết quả cho thấy 5% tổng số dữ liệu hiện đã bị hạn chế truy cập. Con số này tăng lên 25% đối với các nguồn dữ liệu chất lượng cao nhất.
• Nhiều chủ sở hữu trang web đang sử dụng file robots.txt để ngăn chặn các bot tự động thu thập dữ liệu từ trang của họ.
• Các nhà điều hành AI lo ngại về việc đụng phải "bức tường dữ liệu" khi chủ sở hữu dữ liệu như nhiếp ảnh gia trở nên không tin tưởng ngành công nghiệp AI.
• OpenAI, công ty vận hành DALL-E và ChatGPT, cho biết họ tôn trọng robots.txt. Các công cụ tìm kiếm lớn và Anthropic cũng làm như vậy.
• Tuy nhiên, một số công ty AI khác bị cáo buộc bỏ qua các hạn chế của robots.txt.
• Ngành công nghiệp AI từ lâu đã bị cáo buộc trục lợi từ công việc của các nghệ sĩ, dẫn đến nhiều vụ kiện đang diễn ra.
• Có lo ngại rằng nếu tất cả dữ liệu đào tạo AI cần được cấp phép, một số bên như nhà nghiên cứu và xã hội dân sự sẽ bị loại khỏi việc tham gia phát triển công nghệ này.
• Yacine Jernite, nhà nghiên cứu học máy tại Hugging Face, nhận xét rằng phản ứng từ người tạo dữ liệu là điều không bất ngờ sau khi nội dung họ chia sẻ trực tuyến bị sử dụng để phát triển các hệ thống thương mại đe dọa sinh kế của chính họ.
• Vấn đề bản quyền và sử dụng hợp lý trong việc đào tạo mô hình AI vẫn đang được xem xét trong các vụ kiện tụng.
📌 Nghiên cứu của MIT cho thấy 25% nguồn dữ liệu chất lượng cao đã bị chặn, gây ra "khủng hoảng đồng thuận" trong ngành AI. Các công ty như OpenAI tuyên bố tôn trọng robots.txt, nhưng vẫn còn lo ngại về tương lai nguồn dữ liệu đào tạo AI và tác động đến sự phát triển công nghệ.
https://petapixel.com/2024/07/22/data-owners-are-increasingly-blocking-ai-companies-from-using-their-ip/
• Nghiên cứu mới từ Data Provenance Initiative cho thấy có sự sụt giảm mạnh về nội dung có sẵn để xây dựng các hệ thống AI.
• Nghiên cứu khảo sát 14.000 tên miền web được sử dụng trong 3 bộ dữ liệu huấn luyện AI phổ biến (C4, RefinedWeb và Dolma).
• Khoảng 5% tổng số dữ liệu và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế thông qua Robots Exclusion Protocol.
• Lên đến 45% dữ liệu trong bộ C4 đã bị hạn chế bởi điều khoản dịch vụ của các trang web.
• Nhiều nhà xuất bản và nền tảng trực tuyến đã thực hiện các bước để ngăn chặn việc thu thập dữ liệu của họ mà không có sự đồng ý.
• Dữ liệu là thành phần chính trong các hệ thống AI tạo sinh hiện nay, được cung cấp hàng tỷ ví dụ về văn bản, hình ảnh và video.
• Sự bùng nổ của AI tạo sinh trong những năm gần đây đã dẫn đến căng thẳng với chủ sở hữu dữ liệu, nhiều người muốn được trả tiền cho việc sử dụng dữ liệu của họ.
• Một số nhà xuất bản đã thiết lập tường lửa hoặc thay đổi điều khoản dịch vụ để hạn chế sử dụng dữ liệu của họ cho việc huấn luyện AI.
• Các trang web như Reddit và StackOverflow đã bắt đầu tính phí các công ty AI để truy cập dữ liệu.
• Một số nhà xuất bản đã có hành động pháp lý, bao gồm The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền.
• Các công ty AI lớn như OpenAI, Google và Meta đã nỗ lực thu thập thêm dữ liệu, bao gồm cả việc phiên âm video YouTube.
• Một số công ty AI đã ký thỏa thuận với các nhà xuất bản như The Associated Press và News Corp để có quyền truy cập liên tục vào nội dung của họ.
• Việc hạn chế dữ liệu có thể gây ra mối đe dọa cho các công ty AI, đặc biệt là các công ty nhỏ hơn và các nhà nghiên cứu học thuật phụ thuộc vào bộ dữ liệu công khai.
• Một số công ty AI đang xem xét sử dụng dữ liệu tổng hợp để đối phó với tình trạng thiếu hụt dữ liệu, nhưng nhiều nhà nghiên cứu nghi ngờ về chất lượng của phương pháp này.
• Cần có các công cụ mới để cho phép chủ sở hữu trang web kiểm soát chính xác hơn việc sử dụng dữ liệu của họ, phân biệt giữa mục đích thương mại và phi thương mại.
📌 Nghiên cứu cho thấy 5% tổng số dữ liệu và 25% dữ liệu chất lượng cao đã bị hạn chế, gây khó khăn cho việc huấn luyện AI. Các công ty AI đang đối mặt với "bức tường dữ liệu", buộc phải tìm giải pháp thay thế như dữ liệu tổng hợp hoặc thỏa thuận cấp phép.
https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html
• Vector database là công nghệ cơ sở dữ liệu mới, có khả năng mã hóa thông tin dưới dạng vector trong không gian đa chiều, giúp quản lý hiệu quả dữ liệu phi cấu trúc như hình ảnh, âm thanh, văn bản.
• Hơn 80% dữ liệu được tạo ra hiện nay là dữ liệu phi cấu trúc. Vector database giải quyết thách thức này bằng cách biến đổi dữ liệu phi cấu trúc thành biểu diễn vector, cho phép lưu trữ, truy xuất và phân tích hiệu quả.
• Vector database cho phép tìm kiếm tương đồng nhanh chóng, xác định các điểm dữ liệu tương tự dựa trên khoảng cách trong không gian vector. Điều này rất hữu ích cho các ứng dụng như tìm kiếm hình ảnh, hệ thống gợi ý, xử lý ngôn ngữ tự nhiên.
• Ưu điểm chính của vector database:
- Biểu diễn hiệu quả dữ liệu phức tạp
- Khám phá và tổ chức dữ liệu nhanh chóng
- Hiệu suất cao và khả năng mở rộng tốt
- Cải thiện trải nghiệm người dùng nhờ truy xuất và phân tích dữ liệu thời gian thực
• Các ứng dụng chính của vector database:
- Truy xuất và tìm kiếm hình ảnh tương tự
- Hệ thống gợi ý cá nhân hóa
- Xử lý ngôn ngữ tự nhiên
- Phát hiện gian lận
- Tin sinh học
• Chroma DB là một giải pháp thực tế để tận dụng vector database trong các dự án AI. Hướng dẫn bắt đầu với Chroma DB:
1. Thiết lập môi trường phát triển
2. Cài đặt Chroma DB
3. Tạo bộ sưu tập và thêm tài liệu
4. Truy vấn cơ sở dữ liệu và diễn giải kết quả
• Một số nhà cung cấp vector database chính: Pinecone, Weaviate, Vespa, Milvus, FAISS, Annoy.
📌 Vector database là công nghệ đột phá cho quản lý dữ liệu phi cấu trúc, mở ra tiềm năng ứng dụng AI đa dạng. Với khả năng xử lý hiệu quả 80% dữ liệu phi cấu trúc, vector database đang định hình lại cách tổ chức khai thác giá trị từ dữ liệu lớn và phức tạp.
https://www.geeky-gadgets.com/vector-databases-explained/
• Sự phát triển nhanh chóng của AI tạo sinh như GPT-4 đã mang lại những tiến bộ đáng kể, nhưng cũng đặt ra nhiều rủi ro đáng kể.
• Một trong những vấn đề cấp bách nhất là hiện tượng sụp đổ mô hình, khi các mô hình AI được huấn luyện chủ yếu trên nội dung do AI tạo ra có xu hướng suy giảm theo thời gian.
• Sự suy giảm này xảy ra khi các mô hình AI mất thông tin về phân phối dữ liệu cơ bản thực sự của chúng, dẫn đến các đầu ra ngày càng giống nhau và ít đa dạng hơn, chứa đầy thiên kiến và lỗi.
• Khi internet ngập tràn nội dung do AI tạo ra theo thời gian thực, sự khan hiếm dữ liệu mới do con người tạo ra hoặc dữ liệu tự nhiên càng làm trầm trọng thêm vấn đề này.
• Dữ liệu tổng hợp nổi lên như một giải pháp đầy hứa hẹn. Nó được thiết kế để bắt chước chặt chẽ các thuộc tính thống kê của dữ liệu thế giới thực.
• Dữ liệu tổng hợp không chứa bất kỳ thông tin thực hoặc cá nhân nào. Thay vào đó, các thuật toán máy tính dựa trên các mẫu và đặc điểm thống kê quan sát được trong các bộ dữ liệu thực để tạo ra các bộ dữ liệu tổng hợp.
• Trong lĩnh vực chăm sóc sức khỏe, dữ liệu tổng hợp giúp các nhà nghiên cứu phân tích xu hướng bệnh nhân và kết quả sức khỏe, hỗ trợ phát triển các công cụ chẩn đoán và kế hoạch điều trị tiên tiến.
• Trong lĩnh vực tài chính, dữ liệu tổng hợp được sử dụng để mô hình hóa các kịch bản tài chính và dự đoán xu hướng thị trường đồng thời bảo vệ thông tin nhạy cảm.
• Dữ liệu tổng hợp cũng hỗ trợ phát triển các hệ thống hỗ trợ dịch vụ khách hàng do AI điều khiển có khả năng phản hồi và chính xác.
• Một thách thức lớn là đảm bảo chất lượng của dữ liệu tổng hợp, được xác định bởi khả năng phản ánh chính xác các thuộc tính thống kê của dữ liệu thực trong khi vẫn duy trì quyền riêng tư.
• Dữ liệu tổng hợp có thể bị kỹ thuật đảo ngược, gây ra mối đe dọa đáng kể về quyền riêng tư như được nêu bật trong một nghiên cứu gần đây của Đại học Liên Hợp Quốc.
• Dữ liệu tổng hợp cũng có thể đưa vào hoặc củng cố các thiên kiến trong các mô hình AI. Mặc dù nó có thể tạo ra các bộ dữ liệu đa dạng một cách đáng tin cậy, nhưng vẫn gặp khó khăn trong việc nắm bắt các sắc thái hiếm gặp nhưng quan trọng có trong dữ liệu thế giới thực.
• Dữ liệu tổng hợp cũng gặp khó khăn trong việc nắm bắt toàn bộ phổ cảm xúc và tương tác của con người, dẫn đến các mô hình AI kém hiệu quả hơn.
📌 Dữ liệu tổng hợp đang nổi lên như một giải pháp tiềm năng cho việc thiếu hụt dữ liệu huấn luyện AI, với ứng dụng rộng rãi trong y tế, tài chính và dịch vụ khách hàng. Tuy nhiên, nó cũng đặt ra những thách thức về chất lượng, bảo mật và đạo đức cần được giải quyết để đảm bảo sự phát triển AI bền vững và có trách nhiệm.
https://theconversation.com/training-ai-requires-more-data-than-we-have-generating-synthetic-data-could-help-solve-this-challenge-232314
• Mô hình ngôn ngữ lớn (LLM) là giải pháp AI có thể nhận diện và tạo ra nội dung mới từ nội dung có sẵn. Dự kiến đến năm 2025, 50% công việc kỹ thuật số sẽ được tự động hóa thông qua các mô hình LLM.
• LLM được huấn luyện trên lượng lớn nội dung và dữ liệu, với kiến trúc gồm nhiều lớp mạng nơ-ron như lớp hồi quy, lớp truyền xuôi, lớp nhúng và lớp chú ý.
• AI tạo sinh (GenAI) là một khái niệm rộng hơn, bao gồm các mô hình AI được thiết kế để tạo ra nội dung mới không chỉ là văn bản mà còn cả hình ảnh, âm thanh và video.
• Các LLM phổ biến như GPT-4, Gemini và Claude được sử dụng rộng rãi trong công chúng, nhưng việc áp dụng trong doanh nghiệp còn chậm do hai vấn đề chính: chất lượng dữ liệu và bảo mật/quyền riêng tư dữ liệu.
• Vấn đề chất lượng dữ liệu: LLM được huấn luyện trên lượng lớn dữ liệu công khai, khó kiểm tra và kiểm duyệt về độ chính xác, tính thời sự và sự phù hợp. Điều này dẫn đến hiện tượng "ảo giác" hoặc phản hồi không chính xác.
• Vấn đề bảo mật và quyền riêng tư: Dữ liệu doanh nghiệp thường là tài sản có giá trị và cần được bảo vệ, không thể chia sẻ rộng rãi trên internet.
• Giải pháp "fine-tuning" giúp điều chỉnh các lớp cuối của LLM để phù hợp với dữ liệu cụ thể của doanh nghiệp, nhưng quá trình này tốn kém và rủi ro.
• RAG (Retrieval Augmented Generation) là một giải pháp khác, kết hợp cơ chế truy xuất với mô hình tạo sinh để tạo ra phản hồi chính xác và phù hợp với ngữ cảnh hơn.
• RAG hoạt động bằng cách xử lý nội dung thành các vector, lưu trữ trong cơ sở dữ liệu vector. Khi có truy vấn, hệ thống tìm kiếm các phần tương tự nhất trong cơ sở dữ liệu và sử dụng chúng làm ngữ cảnh cho LLM để tạo ra phản hồi cuối cùng.
• RAG có ưu điểm là tích hợp thông tin từ cơ sở kiến thức chính xác và tùy chỉnh, giảm thiểu rủi ro LLM đưa ra phản hồi chung chung hoặc không liên quan.
• Tuy nhiên, RAG vẫn phụ thuộc vào chất lượng, độ chính xác và tính toàn diện của thông tin trong cơ sở kiến thức.
• Việc triển khai RAG thường gồm 5 giai đoạn chính: huấn luyện bộ truy xuất, truy xuất tài liệu, huấn luyện bộ tạo sinh, tạo phản hồi, và tích hợp & tối ưu hóa.
📌 RAG là giải pháp hứa hẹn cho việc sử dụng LLM trong doanh nghiệp, giải quyết vấn đề chất lượng và bảo mật dữ liệu. Kết hợp truy xuất và tạo sinh, RAG nâng cao khả năng tạo phản hồi chính xác và phù hợp ngữ cảnh. Tuy nhiên, chất lượng dữ liệu vẫn là yếu tố quyết định thành công của RAG.
https://www.dataversity.net/rag-retrieval-augmented-generation-architecture-for-data-quality-assessment/
• Cơ sở dữ liệu vector cho phép tăng cường mô hình LLM bằng dữ liệu nội bộ, giúp giảm "ảo giác AI" và cải thiện độ chính xác của câu trả lời.
• Các giải pháp nguồn mở như Apache Cassandra 5.0, OpenSearch và PostgreSQL có thể được sử dụng làm cơ sở dữ liệu vector mà không cần đầu tư vào các giải pháp độc quyền đắt tiền.
• Apache Cassandra 5.0 (đang ở bản preview) cung cấp lập chỉ mục vector và tìm kiếm vector tích hợp sẵn, cùng với kiểu dữ liệu vector mới để lưu trữ và truy xuất vector nhúng.
• OpenSearch kết hợp khả năng tìm kiếm, phân tích và cơ sở dữ liệu vector trong một giải pháp. Nó hỗ trợ tìm kiếm láng giềng gần nhất cho vector, từ vựng và tìm kiếm kết hợp.
• PostgreSQL với phần mở rộng pgvector trở thành một cơ sở dữ liệu vector mạnh mẽ. pgvector phù hợp để tìm kiếm láng giềng gần nhất chính xác và gần đúng, cũng như tìm kiếm nhúng dựa trên khoảng cách.
• Các cơ sở dữ liệu vector nguồn mở này đều sẵn sàng cho doanh nghiệp và tránh được những hạn chế của hệ thống độc quyền.
• Chúng là lựa chọn trực tiếp nhất để triển khai LLM và có thể tận dụng tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để cung cấp trải nghiệm AI chính xác và phù hợp.
• Cơ sở dữ liệu vector lưu trữ các vector nhúng, là danh sách các số đại diện cho tọa độ không gian tương ứng với các phần dữ liệu. Dữ liệu liên quan sẽ có tọa độ gần nhau hơn.
• RAG là quá trình sử dụng cơ sở dữ liệu vector để chuyển đổi từ trong tài liệu của doanh nghiệp thành các nhúng, cho phép truy vấn tài liệu đó thông qua LLM một cách hiệu quả và chính xác.
• Cassandra 5.0 bổ sung các hàm CQL cụ thể giúp doanh nghiệp dễ dàng sử dụng nó làm cơ sở dữ liệu vector để hỗ trợ khối lượng công việc AI.
• OpenSearch cung cấp khả năng mở rộng để xử lý hàng chục tỷ vector, phù hợp để phát triển công cụ đề xuất, agent AI tạo sinh hoặc các giải pháp yêu cầu độ chính xác cao.
• pgvector đặc biệt phù hợp để sử dụng khoảng cách cosin (được OpenAI khuyến nghị), khoảng cách L2 và tích vô hướng để nhận biết sự tương đồng ngữ nghĩa.
📌 Các cơ sở dữ liệu vector nguồn mở như Apache Cassandra 5.0, OpenSearch và PostgreSQL với pgvector là những lựa chọn hàng đầu cho phát triển AI. Chúng cung cấp khả năng lưu trữ và truy vấn vector hiệu quả, hỗ trợ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), và giúp doanh nghiệp xây dựng các ứng dụng AI đáng tin cậy mà không cần đầu tư vào giải pháp độc quyền đắt tiền.
https://thenewstack.io/use-your-data-in-llms-with-the-vector-database-you-already-have/
- Theo khảo sát của McKinsey năm 2024, 70% doanh nghiệp gặp khó khăn khi tích hợp dữ liệu vào mô hình AI do chất lượng dữ liệu kém, thiếu quy trình quản trị và dữ liệu huấn luyện. 63% cho rằng sự không chính xác của đầu ra là rủi ro lớn nhất trong việc sử dụng gen AI.
- Để mở rộng quy mô gen AI, các nhà lãnh đạo cần nâng cao chất lượng dữ liệu, sử dụng gen AI để xây dựng sản phẩm dữ liệu tốt hơn và quản lý dữ liệu hiệu quả.
- Cần cải thiện độ chính xác của dữ liệu nguồn từ các loại dữ liệu phức tạp như dữ liệu phi cấu trúc. Có thể dùng đồ thị tri thức để nắm bắt mối quan hệ phức tạp giữa các thực thể và mô hình đa phương thức để phân tích tài liệu có nhiều định dạng dữ liệu khác nhau.
- Khi thiếu dữ liệu thực, có thể tạo dữ liệu tổng hợp tương tự về mặt thống kê để kiểm tra tính khả thi của các trường hợp sử dụng gen AI.
- Tự động hóa việc tạo pipeline dữ liệu đầu cuối, tiết kiệm 80-90% thời gian và tăng khả năng mở rộng cho các trường hợp sử dụng cụ thể. Ví dụ: tự động tạo pipeline chuyển đổi dữ liệu PySpark và tài liệu mô tả các bước chuyển đổi phức tạp.
- Sử dụng framework dựa trên tác tử (agent) để điều phối và quản lý sự phức tạp khi mở rộng việc sử dụng gen AI. Các tác tử có khả năng lập kế hoạch, quản lý quy trình, xác minh chéo và thiết kế quy trình đầu cuối.
- Chuyển đổi và hiện đại hóa sản phẩm dữ liệu bằng cách chọn mô hình ngôn ngữ lớn (LLM) phù hợp và tự động hóa việc dịch mã. Mỗi LLM có thể được huấn luyện tốt hơn cho một tập hợp ngôn ngữ lập trình nhất định.
- Tích hợp các thực tiễn lập trình tốt nhất vào mã gen AI để cải thiện chất lượng dữ liệu. Sử dụng gen AI để phân tích giá trị cột, xác định các quy tắc chất lượng dữ liệu phù hợp và tự động tích hợp chúng vào quá trình tạo pipeline.
- Bảo vệ dữ liệu ở mỗi bước bằng cách thiết kế pipeline theo module có khả năng tự động bảo mật dữ liệu. Triển khai kiểm soát truy cập dựa trên vai trò và các biện pháp bảo vệ nhất quán tại mỗi điểm kiểm tra trong pipeline dữ liệu.
📌 Tập trung vào khả năng điều phối, tự động hóa phát triển dữ liệu và cải thiện khả năng sử dụng sẽ giúp các nhà lãnh đạo chuyển từ các dự án thử nghiệm gen AI sang mở rộng các giải pháp mang lại giá trị thực. Theo khảo sát năm 2024 của McKinsey, 63% doanh nghiệp cho rằng sự không chính xác của đầu ra là rủi ro lớn nhất, tăng 7 điểm phần trăm so với năm 2023. Các công cụ gen AI hiện có thể đẩy nhanh việc phát triển sản phẩm và nền tảng dữ liệu, nhưng để sử dụng hiệu quả, các công ty phải giải quyết nhiều thách thức kỹ thuật.
https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/a-data-leaders-technical-guide-to-scaling-gen-ai#/
#McKinsey
• Các nhà nghiên cứu MIT đã giới thiệu GenSQL, một hệ thống AI tạo sinh mới cho cơ sở dữ liệu, giúp người dùng dễ dàng thực hiện các phân tích thống kê phức tạp trên dữ liệu bảng mà không cần hiểu biết chuyên sâu.
• GenSQL có thể được sử dụng để dự đoán, phát hiện bất thường, đoán giá trị bị thiếu, sửa lỗi hoặc tạo dữ liệu tổng hợp chỉ với vài thao tác đơn giản.
• Hệ thống này tự động tích hợp tập dữ liệu bảng và mô hình AI xác suất, có thể tính đến sự không chắc chắn và điều chỉnh quá trình ra quyết định dựa trên dữ liệu mới.
• GenSQL được xây dựng dựa trên SQL, ngôn ngữ lập trình phổ biến cho cơ sở dữ liệu được sử dụng bởi hàng triệu lập trình viên trên toàn cầu.
• Khi so sánh với các phương pháp phân tích dữ liệu dựa trên AI phổ biến khác, GenSQL không chỉ nhanh hơn mà còn cho kết quả chính xác hơn. Quan trọng là các mô hình xác suất được sử dụng có thể giải thích được.
• GenSQL có thể tạo và phân tích dữ liệu tổng hợp mô phỏng dữ liệu thực trong cơ sở dữ liệu, hữu ích trong các tình huống không thể chia sẻ dữ liệu nhạy cảm hoặc khi dữ liệu thực khan hiếm.
• Người dùng tải lên dữ liệu và mô hình xác suất, hệ thống sẽ tự động tích hợp. Sau đó có thể chạy các truy vấn trên dữ liệu với sự hỗ trợ của mô hình xác suất chạy ngầm.
• GenSQL cung cấp thước đo độ không chắc chắn được hiệu chỉnh cùng với mỗi câu trả lời, giúp người dùng biết được mức độ tin cậy của kết quả.
• Trong các nghiên cứu tình huống, GenSQL đã được áp dụng để xác định dữ liệu thử nghiệm lâm sàng bị gán nhãn sai và tạo dữ liệu tổng hợp chính xác nắm bắt các mối quan hệ phức tạp trong genomics.
• Các nhà nghiên cứu đang hướng tới việc áp dụng GenSQL rộng rãi hơn để mô hình hóa quy mô lớn các quần thể con người, đồng thời muốn phát triển một chuyên gia AI kiểu ChatGPT có thể trò chuyện về bất kỳ cơ sở dữ liệu nào.
📌 GenSQL, công cụ AI tạo sinh mới từ MIT, tích hợp mô hình xác suất vào cơ sở dữ liệu SQL. Nhanh hơn 1,7-6,8 lần so với phương pháp mạng nơ-ron, cho kết quả chính xác hơn trong vài mili giây. Hứa hẹn cách mạng hóa phân tích dữ liệu phức tạp và tạo dữ liệu tổng hợp.
https://news.mit.edu/2024/mit-researchers-introduce-generative-ai-databases-0708
#MIT
• Các mô hình ngôn ngữ lớn (LLM) có khả năng lưu trữ lượng lớn kiến thức thực tế trong quá trình huấn luyện trước, nhưng vẫn thường tạo ra câu trả lời sai lệch, gây ảnh hưởng đến độ tin cậy.
• Các nhà nghiên cứu đã thử nghiệm nhiều phương pháp để cải thiện tính chính xác thực tế của LLM, bao gồm điều chỉnh cơ chế chú ý, sử dụng đầu dò nội bộ không giám sát và phát triển phương pháp để LLM từ chối trả lời các câu hỏi không chắc chắn.
• Nghiên cứu mới từ Đại học Carnegie Mellon và Stanford cho thấy tác động của các ví dụ fine-tuning phụ thuộc rất nhiều vào mức độ mã hóa tốt của các sự kiện trong mô hình được huấn luyện trước.
• Fine-tuning trên các sự kiện được mã hóa tốt cải thiện đáng kể tính chính xác thực tế, trong khi sử dụng các sự kiện ít được mã hóa có thể gây hại cho hiệu suất.
• Phương pháp sử dụng một thiết lập tổng hợp để nghiên cứu tác động của dữ liệu fine-tuning đối với tính chính xác thực tế của LLM. Thiết lập này mô phỏng một không gian token đơn giản hóa cho chủ thể, quan hệ và câu trả lời.
• Các phát hiện chính cho thấy fine-tuning các sự kiện phổ biến cải thiện đáng kể tính chính xác thực tế, với các hiệu ứng được khuếch đại đối với các thực thể ít phổ biến hơn.
• Kết quả thực nghiệm trên nhiều bộ dữ liệu (PopQA, Entity-Questions và MMLU) và mô hình (Llama-7B và Mistral) nhất quán cho thấy fine-tuning trên các ví dụ ít phổ biến hoặc ít tự tin hơn kém hiệu quả so với việc sử dụng kiến thức phổ biến.
• Đáng ngạc nhiên, ngay cả các tập con được chọn ngẫu nhiên cũng vượt trội hơn fine-tuning trên kiến thức ít phổ biến nhất, cho thấy việc bao gồm một số sự kiện phổ biến có thể giảm thiểu tác động tiêu cực của những sự kiện ít phổ biến hơn.
• Huấn luyện trên một tập con nhỏ hơn của các sự kiện phổ biến nhất thường hoạt động tương đương hoặc tốt hơn so với việc sử dụng toàn bộ bộ dữ liệu.
• Những phát hiện này chỉ ra rằng việc lựa chọn cẩn thận dữ liệu fine-tuning, tập trung vào các sự kiện nổi tiếng, có thể dẫn đến cải thiện độ chính xác thực tế trong LLM.
• Nghiên cứu mở ra những hướng mới để cải thiện hiệu suất mô hình ngôn ngữ, gợi ý các lợi ích tiềm năng trong kỹ thuật điều chỉnh để khắc phục sự mất cân bằng chú ý, chiến lược học tập theo chương trình và phát triển dữ liệu tổng hợp để trích xuất kiến thức hiệu quả.
📌 Nghiên cứu đột phá cho thấy fine-tuning LLM trên kiến thức phổ biến cải thiện đáng kể độ chính xác. Phát hiện này thách thức cách tiếp cận truyền thống trong thiết kế bộ dữ liệu hỏi đáp và mở ra hướng mới để nâng cao hiệu suất và độ tin cậy của mô hình ngôn ngữ trong nhiều ứng dụng khác nhau.
https://www.marktechpost.com/2024/07/04/rethinking-qa-dataset-design-how-popular-knowledge-enhances-llm-accuracy/
• IBM vừa công bố toàn bộ bộ dữ liệu 6,48 TB được sử dụng để huấn luyện mô hình ngôn ngữ lớn Granite 13B.
• Armand Ruiz, một chuyên gia của IBM, đã tiết lộ thông tin này, mở ra cơ hội mới cho cộng đồng nghiên cứu AI và phát triển ứng dụng.
• Granite 13B là một mô hình ngôn ngữ lớn được IBM phát triển đặc biệt cho các ứng dụng doanh nghiệp.
• Vào tháng 5/2024, IBM đã công bố mã nguồn mở của Granite 13B, cho phép các nhà phát triển và doanh nghiệp tự do sử dụng và tùy chỉnh mô hình này.
• Bộ dữ liệu huấn luyện 6,48 TB bao gồm nhiều loại dữ liệu đa dạng như văn bản, mã nguồn, tài liệu kỹ thuật và dữ liệu doanh nghiệp.
• Việc công bố bộ dữ liệu này giúp tăng tính minh bạch trong quá trình phát triển AI, đồng thời cho phép các nhà nghiên cứu hiểu rõ hơn về cách Granite 13B được huấn luyện.
• IBM khẳng định rằng bộ dữ liệu đã được xử lý để loại bỏ thông tin nhạy cảm và tuân thủ các quy định về bảo mật và quyền riêng tư.
• Granite 13B được thiết kế để xử lý các tác vụ phức tạp trong môi trường doanh nghiệp như phân tích dữ liệu, tự động hóa quy trình và hỗ trợ ra quyết định.
• Mô hình này có khả năng hiểu và tạo ra văn bản chất lượng cao, đồng thời tích hợp tốt với các hệ thống và ứng dụng doanh nghiệp hiện có.
• Việc công bố bộ dữ liệu huấn luyện có thể thúc đẩy sự phát triển của các mô hình AI tùy chỉnh cho các ngành công nghiệp cụ thể.
• Các chuyên gia trong ngành nhận định rằng động thái này của IBM sẽ góp phần thúc đẩy sự cạnh tranh và đổi mới trong lĩnh vực AI doanh nghiệp.
• Bộ dữ liệu được chia sẻ thông qua nền tảng Hugging Face, một kho lưu trữ phổ biến cho các mô hình và dữ liệu AI.
• IBM cũng cung cấp tài liệu hướng dẫn chi tiết về cách sử dụng bộ dữ liệu và tái tạo quá trình huấn luyện Granite 13B.
• Việc này mở ra cơ hội cho các doanh nghiệp vừa và nhỏ tiếp cận công nghệ AI tiên tiến mà không cần đầu tư lớn vào nghiên cứu và phát triển.
📌 IBM công bố bộ dữ liệu 6,48 TB dùng để huấn luyện Granite 13B, mô hình ngôn ngữ lớn nguồn mở cho doanh nghiệp. Động thái này thúc đẩy minh bạch trong AI, mở ra cơ hội nghiên cứu và phát triển ứng dụng AI tùy chỉnh cho nhiều ngành công nghiệp.
https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/
• OmniParse là một nền tảng AI toàn diện được thiết kế để tiếp nhận và phân tích nhiều loại dữ liệu phi cấu trúc khác nhau như tài liệu, hình ảnh, âm thanh, video và nội dung web, chuyển đổi chúng thành dữ liệu có cấu trúc và có thể hành động được.
• Nền tảng này tối ưu hóa dữ liệu đầu ra cho các ứng dụng AI tạo sinh (GenAI), giúp dễ dàng triển khai các mô hình AI tiên tiến hơn.
• OmniParse hoạt động hoàn toàn cục bộ, đảm bảo quyền riêng tư và bảo mật dữ liệu mà không phụ thuộc vào các API bên ngoài.
• Nền tảng hỗ trợ khoảng 20 loại tệp khác nhau và có thể chuyển đổi tài liệu, đa phương tiện và trang web thành các markdown có cấu trúc chất lượng cao.
• Các khả năng của OmniParse bao gồm trích xuất bảng, chú thích hình ảnh, chuyển đổi âm thanh và video thành văn bản, và thu thập dữ liệu từ trang web.
• Người dùng có thể dễ dàng triển khai OmniParse bằng Docker và Skypilot, và nó tương thích với các nền tảng như Colab, giúp dễ tiếp cận và thân thiện với người dùng.
• Giao diện người dùng tương tác của nền tảng, được hỗ trợ bởi Gradio, nâng cao trải nghiệm người dùng bằng cách đơn giản hóa quá trình tiếp nhận và phân tích dữ liệu.
• OmniParse sử dụng các mô hình như Surya OCR để xử lý tài liệu, Florence-2 để phát hiện bố cục và thứ tự, và Whisper để chuyển đổi phương tiện thành văn bản, thể hiện độ chính xác và hiệu quả ấn tượng trong việc chuyển đổi dữ liệu.
• Nền tảng này xử lý hiệu quả nhiều loại dữ liệu khác nhau, chuyển đổi chúng thành các định dạng có cấu trúc phù hợp cho các ứng dụng AI.
• Tính linh hoạt của OmniParse cho phép người dùng xử lý nhiều nguồn dữ liệu đa dạng thông qua một nền tảng duy nhất, cải thiện hiệu quả và tính nhất quán trong quy trình làm việc.
📌 OmniParse là giải pháp toàn diện cho việc xử lý dữ liệu phi cấu trúc, hỗ trợ 20 loại tệp khác nhau. Nền tảng này chuyển đổi dữ liệu thành định dạng có cấu trúc tối ưu cho AI tạo sinh, hoạt động cục bộ đảm bảo bảo mật, và cung cấp giao diện thân thiện với người dùng.
https://www.marktechpost.com/2024/07/02/omniparse-an-ai-platform-that-ingests-parses-any-unstructured-data-into-structured-actionable-data-optimized-for-genai-llm-applications/
• Các công ty AI đã khai thác dữ liệu trên internet một cách ồ ạt để huấn luyện mô hình, dẫn đến phản ứng từ chủ sở hữu dữ liệu và các vụ kiện đòi bồi thường.
• Ba hãng thu âm lớn Sony Music, Warner Music Group và Universal Music Group vừa kiện các công ty AI âm nhạc Suno và Udio về cáo buộc vi phạm bản quyền ở quy mô lớn.
• Vụ kiện này có thể tạo tiền lệ quan trọng cho toàn bộ ngành AI tạo sinh, khi gửi thông điệp rõ ràng rằng dữ liệu huấn luyện chất lượng cao không miễn phí.
• OpenAI đã bắt đầu ký thỏa thuận với các nhà xuất bản tin tức như Politico, Atlantic, Time, Financial Times để đổi lấy dữ liệu tin tức và trích dẫn nguồn.
• YouTube cũng thông báo sẽ cung cấp thỏa thuận cấp phép cho các hãng thu âm hàng đầu để đổi lấy âm nhạc phục vụ huấn luyện AI.
• Tuy nhiên, các thỏa thuận này cũng gây lo ngại. Các mô hình ngôn ngữ vốn không thể hoàn toàn chính xác và thường tạo ra các trích dẫn ảo, khiến OpenAI khó có thể thực hiện lời hứa trích dẫn nguồn.
• Xu hướng này có thể dẫn đến việc các công ty AI xây dựng các mô hình nhỏ hơn, hiệu quả hơn. Hoặc họ sẽ phải chi một khoản tiền lớn để tiếp cận dữ liệu ở quy mô cần thiết.
• Chỉ những công ty có nhiều tiền mặt hoặc có sẵn bộ dữ liệu lớn (như Meta với 20 năm dữ liệu mạng xã hội) mới có thể làm được điều này. Điều này có nguy cơ tập trung quyền lực hơn nữa vào tay các "ông lớn".
• Mặt tích cực là việc đưa sự đồng thuận vào quá trình này là một ý tưởng tốt - không chỉ cho chủ sở hữu quyền, mà cho tất cả chúng ta. Mọi người nên có quyền quyết định cách sử dụng dữ liệu của mình.
• Một nền kinh tế dữ liệu công bằng hơn sẽ có lợi cho tất cả mọi người, không chỉ riêng các công ty công nghệ lớn.
📌 Vụ kiện của ngành âm nhạc đánh dấu bước ngoặt trong cuộc chiến dữ liệu AI. Các công ty buộc phải trả tiền cho dữ liệu chất lượng, có thể dẫn đến tập trung quyền lực vào "ông lớn" nhưng cũng mở ra cơ hội xây dựng nền kinh tế dữ liệu công bằng hơn cho tất cả.
https://www.technologyreview.com/2024/07/02/1094508/ai-companies-are-finally-being-forced-to-cough-up-for-training-data/
#MIT
• Theo báo cáo của Amazon Web Services, các doanh nghiệp vừa và nhỏ đã tích hợp phân tích dữ liệu vào hoạt động có khả năng sử dụng AI cao hơn đáng kể và có xu hướng vượt trội hơn so với các đối thủ trên thị trường.
• AI ngày càng thành thạo trong việc xử lý nhiều loại nội dung như văn bản, hình ảnh và bản ghi âm, khiến những tài liệu này trở nên có giá trị đột ngột. Tuy nhiên, các công ty cần tổ chức và chuẩn bị dữ liệu hiệu quả để sử dụng với công nghệ.
• Các nguồn dữ liệu có giá trị bao gồm chuỗi email bán hàng, báo cáo tài chính lịch sử, dữ liệu địa lý, hình ảnh sản phẩm, tài liệu pháp lý, bài đăng trên diễn đàn web của công ty và bản ghi cuộc gọi dịch vụ khách hàng.
• Cơ sở dữ liệu vector lưu trữ tài liệu dưới dạng biểu diễn số có thể so sánh toán học với nhau. Điều này được sử dụng để nhanh chóng tìm kiếm tài liệu liên quan, nhóm các tệp tương tự và đưa ra đề xuất nội dung hoặc sản phẩm dựa trên sở thích trước đây.
• Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) cho phép AI trả lời các câu hỏi ngoài dữ liệu đào tạo mục đích chung của nó. Quá trình này, cũng như các ứng dụng học máy khác để giải quyết nhu cầu kinh doanh cụ thể, dựa vào dữ liệu chính xác và được tổ chức tốt.
• Việc đảm bảo dữ liệu sạch và đáng tin cậy là cần thiết để xây dựng AI đáng tin cậy. Đảm bảo các hệ thống tuân thủ luật pháp và quy tắc nội bộ về sử dụng dữ liệu cũng rất quan trọng.
• Walmart sử dụng nền tảng học máy Element để xây dựng nhanh chóng các giải pháp AI đáng tin cậy hoạt động trên nhiều nhà cung cấp đám mây. Phần mềm giúp đảm bảo việc sử dụng dữ liệu tuân thủ các quy tắc liên quan và AI được xây dựng được kiểm tra về độ thiên lệch và đầu ra không phù hợp.
• Các hạn chế pháp lý và hợp đồng cũng có thể định hình cách doanh nghiệp có thể sử dụng dữ liệu khách hàng và nhân viên để cung cấp cho AI.
• Đối với các công ty B2B nói chung, nhiều năm dữ liệu từ nhiều khách hàng có thể giúp phân tích và đưa ra các đề xuất được hỗ trợ bởi AI cho bất kỳ khách hàng cụ thể nào, với độ chính xác lý tưởng tăng theo thời gian dựa trên dữ liệu tích lũy của chính khách hàng đó.
• Intuit đã xây dựng nền tảng GenOS để giúp các nhà phát triển của họ nhanh chóng phát triển các công cụ AI. GenOS bao gồm môi trường phát triển, công cụ tích hợp AI với phần mềm khác, các thành phần tiêu chuẩn để người dùng giao tiếp với AI tạo sinh và các mô hình AI được tối ưu hóa cho các sản phẩm tài chính cá nhân và doanh nghiệp của họ.
📌 Trong kỷ nguyên AI, dữ liệu trở thành tài sản quý giá. Các công ty đang khai thác giá trị từ nhiều loại dữ liệu bằng AI tạo sinh, cơ sở dữ liệu vector và tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài. Tuy nhiên, việc đảm bảo dữ liệu sạch, tuân thủ quy định và xây dựng cơ sở hạ tầng phù hợp là chìa khóa để tận dụng hiệu quả AI trong kinh doanh.
https://www.fastcompany.com/91148997/data-is-gold-in-ai-era
• Adobe vừa hoàn thành việc di chuyển 2100 máy chủ và 2 petabyte dữ liệu từ data lake của họ lên Microsoft Azure và AWS, đánh dấu một trong những cuộc di chuyển dữ liệu lớn nhất trong ngành.
• Bin Mu, Phó Chủ tịch phụ trách dữ liệu và phân tích doanh nghiệp của Adobe, xác nhận rằng công ty hiện đã "100% trên đám mây", mang lại sự linh hoạt và khả năng đưa họ lên cấp độ tiếp theo trong việc phát triển AI tạo sinh cho phân tích dữ liệu nội bộ doanh nghiệp.
• Vào tháng 3 năm nay, Adobe đã công bố quan hệ đối tác chiến lược với Databricks nhằm cải thiện trải nghiệm người dùng bằng cách tích hợp nền tảng của hai bên.
• Việc chuyển đổi sang điện toán không máy chủ nhằm thiết lập Databricks làm nền tảng dữ liệu thống nhất cho tất cả nguồn dữ liệu của Adobe, hỗ trợ phân tích, ra quyết định và trí tuệ dữ liệu.
• Quá trình di chuyển từ hệ thống nguồn mở cũ như Apache Hadoop sang Databricks gặp phải nhiều thách thức về mặt công nghệ và con người.
• Adobe đã tập trung vào ba lĩnh vực chính để giải quyết các thách thức: thiết lập quan hệ đối tác mạnh mẽ, xây dựng đội ngũ di chuyển có năng lực cao, và quản lý thay đổi hiệu quả.
• Công ty đã triển khai các sáng kiến đào tạo và tương tác, cùng với các công cụ như bộ chuyển đổi tự động để hỗ trợ quá trình di chuyển.
• Chiến lược tích hợp AI tạo sinh của Adobe dựa trên triết lý linh hoạt và triển khai AI có trách nhiệm, với trọng tâm là bảo mật dữ liệu và tuân thủ pháp lý.
• Adobe đang sử dụng các công cụ AI tạo sinh để cải tổ quy trình kỹ thuật nội bộ, hướng tới ít lập trình hơn và tập trung nhiều hơn vào hiểu biết nhu cầu kinh doanh và thiết kế giải pháp.
📌 Adobe đã thực hiện cuộc di chuyển dữ liệu lớn nhất thế giới, chuyển 2100 máy chủ và 2 petabyte dữ liệu lên đám mây. Điều này giúp công ty tăng cường khả năng AI tạo sinh, cải thiện trải nghiệm khách hàng và tối ưu hóa quy trình kỹ thuật nội bộ, đặt nền móng cho sự phát triển trong tương lai.
https://analyticsindiamag.com/adobe-rewrites-history-with-databricks-in-worlds-largest-data-migration/
• AI tạo sinh đã làm thay đổi ngành công nghệ, tạo ra những rủi ro mới về rò rỉ dữ liệu nhạy cảm thông qua các mô hình ngôn ngữ lớn (LLM) và thúc đẩy tăng cường yêu cầu từ các cơ quan quản lý.
• Các tổ chức cần xem xét lại các nguyên tắc cốt lõi trong quản lý dữ liệu và đảm bảo cách tiếp cận hợp lý để tăng cường LLM bằng dữ liệu doanh nghiệp/phi công khai.
• Cần làm mới cách quản trị dữ liệu, đặc biệt là việc sử dụng dữ liệu trong các giải pháp AI tạo sinh:
• Xác thực và tạo khả năng bảo vệ dữ liệu: Nền tảng dữ liệu cần được chuẩn bị cho mức độ bảo vệ và giám sát cao hơn, bao gồm mã hóa, ẩn danh, tokenization và phân loại dữ liệu tự động bằng machine learning.
• Cải thiện kiểm soát, khả năng kiểm toán và giám sát: Cần thiết kế mới cho việc truy cập, sử dụng dữ liệu và tương tác với bên thứ ba. Cần có hệ thống theo dõi đầy đủ cách sử dụng, sửa đổi và chia sẻ dữ liệu.
• Chuẩn bị dữ liệu cho AI tạo sinh: Cần kỷ luật mới để đảm bảo chất lượng, độ chính xác và tính phù hợp của dữ liệu để đào tạo và tăng cường mô hình ngôn ngữ cho AI. Cần tăng cường quản trị dữ liệu để phù hợp với các nền tảng quản lý dữ liệu phi truyền thống như cơ sở dữ liệu vector.
• Dữ liệu doanh nghiệp thường phức tạp, đa dạng và phân tán, gây khó khăn cho việc tích hợp vào giải pháp AI tạo sinh. Vấn đề này càng trở nên phức tạp hơn do yêu cầu tuân thủ quy định, giảm thiểu rủi ro và thiếu hụt kỹ năng trong tích hợp dữ liệu.
• IBM đã phát triển IBM gen AI data ingestion factory - một dịch vụ được quản lý để giải quyết "vấn đề dữ liệu" của AI và khai thác tiềm năng của dữ liệu doanh nghiệp cho AI tạo sinh.
• Các khả năng cốt lõi bao gồm: thu thập dữ liệu có thể mở rộng, tuân thủ quy định, quản lý quyền riêng tư dữ liệu.
• Dịch vụ này độc lập với nền tảng AI và dữ liệu, cho phép triển khai ở mọi nơi và cung cấp tùy chỉnh cho môi trường và trường hợp sử dụng của khách hàng.
• Các kết quả chính có thể đạt được bao gồm: giảm thời gian tích hợp dữ liệu, sử dụng dữ liệu tuân thủ, giảm thiểu rủi ro, kết quả nhất quán và có thể tái tạo.
📌 AI tạo sinh đặt ra thách thức mới cho quản lý dữ liệu doanh nghiệp. IBM gen AI data ingestion factory cung cấp giải pháp toàn diện, giúp tối ưu hóa việc tích hợp dữ liệu vào AI, đảm bảo tuân thủ quy định và giảm thiểu rủi ro. Doanh nghiệp cần đánh giá lại cách tiếp cận quản lý dữ liệu để thích ứng với kỷ nguyên AI mới.
https://www.ibm.com/blog/re-evaluating-data-management-in-the-generative-ai-age/
- Các nhà nghiên cứu từ Đại học Maryland giới thiệu GenQA, phương pháp tạo tập dữ liệu hướng dẫn tự động quy mô lớn để tinh chỉnh mô hình AI và tăng cường tính đa dạng.
- Việc tạo các tập dữ liệu lớn, đa dạng để tinh chỉnh mô hình ngôn ngữ rất phức tạp, tốn kém và đòi hỏi nhiều sự can thiệp của con người. Điều này tạo ra khoảng cách giữa nghiên cứu học thuật (sử dụng tập dữ liệu nhỏ) và ứng dụng công nghiệp (sử dụng tập dữ liệu lớn).
- Các phương pháp hiện tại như sử dụng mô hình ngôn ngữ lớn (LLM) để sửa đổi và tăng cường nội dung do con người viết vẫn còn hạn chế về khả năng mở rộng và tính đa dạng.
- GenQA sử dụng một lời nhắc duy nhất, được thiết kế tốt để tự động tạo ra hàng triệu ví dụ hướng dẫn đa dạng, giảm thiểu sự can thiệp của con người.
- Công nghệ cốt lõi của GenQA là sử dụng các lời nhắc tạo sinh để tăng cường tính ngẫu nhiên và đa dạng của đầu ra do LLM tạo ra. Một siêu lời nhắc duy nhất có thể trích xuất hàng triệu câu hỏi đa dạng.
- Trong một thử nghiệm, GenQA đã tạo ra hơn 11 triệu câu hỏi trên 9 lĩnh vực khác nhau như học thuật, toán học và đối thoại.
- Khi tinh chỉnh mô hình Llama-3 8B với tập dữ liệu GenQA, hiệu suất của mô hình trên các tiêu chuẩn tri thức và hội thoại đáp ứng hoặc vượt trội hơn so với các tập dữ liệu như WizardLM và UltraChat. Cụ thể, trên MT-Bench, GenQA đạt điểm trung bình 7.55.
- Phân tích chi tiết cho thấy các lời nhắc tạo sinh của GenQA dẫn đến sự đa dạng cao trong các câu hỏi và câu trả lời được tạo ra. Điểm tương đồng của các láng giềng gần nhất thấp hơn đáng kể so với lời nhắc tĩnh.
📌 GenQA tự động hóa quá trình tạo tập dữ liệu hướng dẫn quy mô lớn, đa dạng với sự can thiệp tối thiểu của con người, giảm chi phí và thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp. Thành công của GenQA trong việc tinh chỉnh mô hình Llama-3 8B cho thấy tiềm năng cải thiện đáng kể nghiên cứu và ứng dụng AI, với hiệu suất vượt trội trên các tiêu chuẩn tri thức, lập luận toán học và hội thoại.
https://www.marktechpost.com/2024/06/23/researchers-from-the-university-of-maryland-introduce-genqa-instruction-dataset-automating-large-scale-instruction-dataset-generation-for-ai-model-finetuning-and-diversity-enhancement/
- Meta đã bắt đầu sử dụng dữ liệu công khai từ tài khoản người dùng Mỹ từ năm 2023 để cải thiện các tính năng AI của mình như trợ lý Meta AI, AI Stickers và công cụ tạo ảnh Imagine.
- Kế hoạch cập nhật chính sách quyền riêng tư vào ngày 26/6 để đào tạo các mô hình AI trên dữ liệu công khai từ tài khoản EU và Anh đã bị tạm dừng vô thời hạn do phản ứng từ các cơ quan quản lý.
- Người dùng Mỹ không có tùy chọn chọn không chia sẻ dữ liệu, nhưng có thể hạn chế bằng cách đặt hồ sơ Instagram ở chế độ riêng tư và không chia sẻ công khai trên Facebook.
- Meta chỉ sử dụng thông tin được chia sẻ công khai để đào tạo AI, bao gồm ảnh, video, chú thích trong feed và Reels của Instagram nếu tài khoản ở chế độ công khai, và bất cứ thứ gì được chia sẻ với đối tượng Public trên Facebook.
- Meta không sử dụng dữ liệu từ tin nhắn riêng tư, trực tiếp trên Facebook và Instagram, cũng như từ stories hoặc Threads.
- Để hạn chế dữ liệu bị truy cập, người dùng có thể chuyển hồ sơ Instagram sang chế độ riêng tư trong phần cài đặt trên iOS, hoặc chọn đối tượng khác Public như Friends hoặc Only Me cho các bài đăng trên Facebook.
- Các thay đổi này sẽ không có hiệu lực hồi tố, nghĩa là các bài đăng cũ đã công khai có thể đã giúp AI của Meta học cách suy nghĩ và nói chuyện giống con người hơn.
📌 Meta đang tận dụng lợi thế dữ liệu khổng lồ từ hàng tỷ người dùng toàn cầu để đẩy nhanh quá trình phát triển AI, bất chấp những lo ngại về quyền riêng tư. Người dùng Mỹ hiện không thể chọn không chia sẻ dữ liệu, nhưng vẫn có thể hạn chế phần nào bằng cách điều chỉnh cài đặt riêng tư trên Instagram và Facebook, mặc dù các bài đăng cũ có thể đã bị sử dụng.
https://www.wsj.com/tech/ai/meta-ai-training-instagram-facebook-explained-a3d36cdb
#WSJ
- Databricks CEO Ali Ghodsi khuyên các công ty ngừng chia sẻ dữ liệu với các nhà cung cấp, bao gồm cả Databricks, để tránh bị khóa và kiểm soát dữ liệu của họ.
- Nhiều công ty rơi vào bẫy phức tạp hóa mọi thứ khi cố gắng tận dụng tối đa dữ liệu của mình với nhiều phần mềm và nền tảng khác nhau.
- Điều này dẫn đến dữ liệu của công ty bị khóa vào silo, loại bỏ quyền truy cập dễ dàng và tăng chi phí tổng thể.
- Chiến lược của Databricks là dân chủ hóa dữ liệu và AI, bắt đầu bằng việc đảm bảo khách hàng có quyền kiểm soát dữ liệu của họ.
- Databricks muốn đưa dữ liệu của công ty đến một điểm mà các nhà cung cấp có thể cắm "USB stick" vào dữ liệu đó, cho phép công ty kiểm soát cách nhà cung cấp sử dụng nó.
- Điều này cũng giúp các công ty dễ dàng đánh giá cách dữ liệu của họ được sử dụng trong bối cảnh ngành công nghiệp thay đổi nhanh chóng.
- Databricks muốn khách hàng sở hữu và kiểm soát dữ liệu của họ ở định dạng mở trong đám mây tùy chọn, thậm chí nếu họ chọn đưa nó trở lại on-prem.
- Việc mua lại gần đây của Databricks với Tabular nhằm đảm bảo các công ty không gặp vấn đề bị giới hạn trong các silo một lần nữa, chỉ là ở định dạng lakehouse.
- Bước tiếp theo của Databricks là đảm bảo khách hàng có thể tận dụng tối đa dữ liệu của họ và đẩy nhanh thời gian để có được thông tin chi tiết và giá trị.
📌 Databricks nhấn mạnh tầm quan trọng của việc các công ty sở hữu và kiểm soát dữ liệu của mình, tránh chia sẻ với các nhà cung cấp để ngăn chặn việc bị khóa và tối ưu hóa sử dụng. Với việc mua lại Tabular và tập trung vào dân chủ hóa dữ liệu, Databricks muốn giúp khách hàng tận dụng tối đa dữ liệu một cách nhanh chóng và hiệu quả.
https://analyticsindiamag.com/dont-trust-anyone-including-databricks-with-your-data/
- Firecrawl là một công cụ web scraping mạnh mẽ được tạo ra bởi đội ngũ Mendable AI, giúp giải quyết các thách thức phức tạp trong việc lấy dữ liệu từ internet như proxy, bộ nhớ đệm, giới hạn tốc độ và nội dung được tạo bằng JavaScript.
- Firecrawl khám phá mọi trang trên một trang web, kể cả khi không có sơ đồ trang web, đảm bảo quá trình trích xuất dữ liệu đầy đủ. Nó hiệu quả thu thập dữ liệu từ các trang web động dựa trên JavaScript.
- Dữ liệu được trích xuất và trả về dưới dạng Markdown sạch, định dạng tốt, đặc biệt hữu ích cho các ứng dụng mô hình ngôn ngữ lớn (LLM).
- Firecrawl phối hợp việc thu thập dữ liệu đồng thời, tăng tốc độ trích xuất dữ liệu đáng kể. Nó sử dụng cơ chế bộ nhớ đệm để tối ưu hóa hiệu quả, chỉ cần thu thập lại khi có nội dung mới.
- Một khía cạnh mới của Firecrawl là sử dụng vòng lặp phản hồi tạo sinh để làm sạch các phần dữ liệu. Các mô hình tạo sinh đưa ra phản hồi về các phần dữ liệu, chỉ ra lỗi và đề xuất cải tiến, giúp nâng cao chất lượng tập dữ liệu.
- Firecrawl cung cấp API trực quan với nhiều SDK cho tích hợp Python, Node, Langchain và Llama Index. Người dùng có thể chạy Firecrawl cục bộ để có giải pháp tự lưu trữ.
📌 Firecrawl là một bước tiến quan trọng trong lĩnh vực web scraping và lưu trữ dữ liệu với khả năng mạnh mẽ và tích hợp liền mạch. Kết hợp với phương pháp sáng tạo làm sạch dữ liệu qua vòng lặp phản hồi tạo sinh, nó cung cấp giải pháp toàn diện để truy cập nguồn dữ liệu phong phú trên internet, phục vụ cho các ứng dụng AI.
https://www.marktechpost.com/2024/06/20/firecrawl-a-powerful-web-scraping-tool-for-turning-websites-into-large-language-model-llm-ready-markdown-or-structured-data/
- Databricks là một trong những công ty công nghệ chưa niêm yết có giá trị nhất, ước tính 43 tỷ USD sau gọi vốn, theo dữ liệu từ Pitchbook.
- Tại Hội nghị thượng đỉnh Data + AI lần thứ 11, Databricks ra mắt nhiều sản phẩm mới, trình diễn trực tiếp và có bài phát biểu từ các nhân vật nổi tiếng trong lĩnh vực AI.
- Chiến lược của Databricks tập trung phát triển nền tảng triển khai AI toàn diện, bao gồm các mô hình ngôn ngữ lớn (LLM) và công cụ để khách hàng tạo, triển khai ứng dụng AI.
- Databricks cạnh tranh với các ông lớn đám mây như AWS của Amazon, Azure của Microsoft và Google Cloud, nhằm cung cấp nền tảng phân tích thống nhất, phù hợp cho tác vụ dữ liệu lớn và AI.
- Đối thủ trực tiếp của Databricks gồm Snowflake và Confluent, nhưng danh mục sản phẩm của họ có vẻ đang đối đầu với AWS Bedrock và GCP Vertex AI.
- Giống Databricks, chiến lược của Amazon với Bedrock liên quan đến việc doanh nghiệp áp dụng mô hình vào dữ liệu của họ thay vì chuyển dữ liệu đến nhà cung cấp mô hình cụ thể.
- Cơ sở hạ tầng đám mây cho mô hình AI tiếp tục phát triển nhanh chóng. Các thắng lợi sớm trong cơ sở hạ tầng AI có thể đặt nền móng cho hiệu suất vượt trội lâu dài so với đối thủ.
- Databricks có tốc độ tăng trưởng cao ở quy mô lớn, nhưng IPO khó xảy ra trước nửa cuối 2025.
- Hơn 1.500 công ty đang đào tạo mô hình transformer trên nền tảng của Databricks. Việc sử dụng GPU tăng 25% mỗi tháng trong nhiều tháng qua.
📌 Databricks đang nổi lên như một trong những công ty công nghệ chưa niêm yết giá trị nhất với mức định giá 43 tỷ USD. Với chiến lược phát triển nền tảng triển khai AI toàn diện, họ đang cạnh tranh mạnh mẽ với các ông lớn đám mây. Tốc độ tăng trưởng ấn tượng và việc ngày càng nhiều công ty sử dụng nền tảng của Databricks cho thấy tiềm năng lớn, dù IPO có thể phải đợi đến nửa cuối 2025.
https://www.investing.com/news/stock-market-news/databricks-is-one-of-the-most-valuable-preipo-tech-companies-roth-432SI-3490144
- DataComp for Language Models (DCLM) là một quy trình mới nhằm tạo ra các tập dữ liệu huấn luyện chất lượng cao và thiết lập tiêu chuẩn đánh giá hiệu suất của tập dữ liệu cho các mô hình ngôn ngữ.
- Quy trình DCLM được phát triển bởi một nhóm các nhà nghiên cứu từ Đại học Washington, Apple và Viện Nghiên cứu Toyota.
- Các bước quan trọng trong quy trình DCLM bao gồm: trích xuất văn bản từ HTML thô bằng công cụ Resiliparse, loại bỏ dữ liệu trùng lặp bằng bộ lọc Bloom, và lọc dựa trên mô hình sử dụng bộ phân loại fastText được huấn luyện trên dữ liệu chất lượng cao từ OpenWebText2 và ELI5.
- Kết quả là tập dữ liệu huấn luyện chất lượng cao DCLM-BASELINE, giúp cải thiện đáng kể hiệu suất của mô hình.
- Khi sử dụng DCLM-BASELINE để huấn luyện một mô hình ngôn ngữ 7B tham số với 2.6 nghìn tỷ token huấn luyện, mô hình đạt được độ chính xác 64% trên bộ dữ liệu MMLU với 5 mẫu (5-shot accuracy).
- Mô hình DCLM-BASELINE hoạt động cạnh tranh với các mô hình tiên tiến nhất như GPT-4 và Llama 3, mặc dù sử dụng ít tài nguyên tính toán hơn.
- Quy trình DCLM thiết lập một tiêu chuẩn mới cho việc tạo dữ liệu trong các mô hình ngôn ngữ, cung cấp một khuôn khổ toàn diện để đánh giá và cải thiện các tập dữ liệu huấn luyện.
- Nhóm nghiên cứu khuyến khích tiếp tục khám phá các chiến lược tạo dữ liệu để xây dựng các mô hình ngôn ngữ hiệu quả và hiệu suất cao hơn, mở ra tiềm năng cho các nghiên cứu trong tương lai.
📌 DCLM là một giải pháp mạnh mẽ để cải thiện chất lượng tập dữ liệu và hiệu suất mô hình, thiết lập tiêu chuẩn mới cho nghiên cứu tạo dữ liệu và phát triển mô hình ngôn ngữ. Với độ chính xác 64% trên MMLU, mô hình DCLM-BASELINE cạnh tranh với các mô hình tiên tiến nhất như GPT-4 và Llama 3, mở đường cho những cải tiến trong tương lai.
https://www.marktechpost.com/2024/06/19/datacomp-for-language-models-dclm-an-ai-benchmark-for-language-model-training-data-curation/
- Ứng dụng xử lý đơn hàng nhà hàng sử dụng ngôn ngữ tự nhiên để tìm kiếm đơn hàng.
- Sử dụng ID prefix để quản lý và xóa dữ liệu dễ dàng.
- RAG (Retrieval Augmented Generation) giúp thêm dữ liệu riêng tư vào phản hồi của LLM, đảm bảo tính chính xác và ngữ cảnh cụ thể.
- RAG cho phép người dùng tương tác với cửa hàng, truy xuất đơn hàng cũ, mua sản phẩm mới bằng ngôn ngữ tự nhiên.
- Dữ liệu cá nhân và thông tin nhận dạng cá nhân (PII) được cung cấp cho mô hình tạo sinh tại thời điểm suy luận để đáp ứng yêu cầu của người dùng.
- Khi xóa dữ liệu bằng ID prefix, hệ thống sẽ không còn thông tin về người dùng đó.
- RAG cung cấp khả năng cá nhân hóa trong khi kiểm soát chặt chẽ PII, chỉ chia sẻ dữ liệu riêng tư khi cần thiết và có thể nhanh chóng xóa bỏ.
- Xây dựng phần mềm AI bảo mật yêu cầu phân loại dữ liệu thành công khai, riêng tư và PII.
- Dữ liệu công khai: tên công ty, ảnh đại diện, chức danh công việc.
- Dữ liệu riêng tư: khóa API, ID tổ chức.
- PII: tên đầy đủ, ngày sinh, ID tài khoản.
- Sử dụng tokenization để tránh lưu trữ PII trong cơ sở dữ liệu vector, thay vào đó lưu trữ khóa ngoại hoặc tham chiếu đến hệ thống khác.
- Hashing có thể được sử dụng để làm mờ dữ liệu người dùng trước khi ghi vào metadata.
- Mã hóa metadata trước khi upsert và giải mã khi truy vấn để bảo vệ dữ liệu người dùng.
- Xóa dữ liệu trong cơ sở dữ liệu vector bằng cách xóa toàn bộ namespace.
- Xây dựng phần mềm AI bảo mật yêu cầu lập kế hoạch cẩn thận và sử dụng các kỹ thuật như ID-prefixing và lọc metadata để xóa dữ liệu người dùng hiệu quả.
📌 Bài viết giải thích cách sử dụng RAG để bảo vệ dữ liệu cá nhân trong phần mềm AI, bao gồm việc phân loại dữ liệu, sử dụng tokenization, hashing và mã hóa metadata. RAG giúp xóa dữ liệu người dùng nhanh chóng và đảm bảo quyền riêng tư.
https://thenewstack.io/building-privacy-aware-ai-software-with-vector-databases/
- Databricks đang tăng cường cạnh tranh với Snowflake trong lĩnh vực dữ liệu và trí tuệ nhân tạo. Công ty vừa mở nguồn Unity Catalog, một giải pháp quản trị thống nhất cho dữ liệu và AI, sau khi Snowflake công bố sẽ ra mắt catalog nguồn mở Polaris.
- Databricks đang theo đuổi chiến lược định dạng mở, cho phép dữ liệu tương tác trên nhiều nền tảng khác nhau. Trong khi đó, Snowflake yêu cầu dữ liệu phải nằm trong hệ thống của họ. Điều này có thể đặt Snowflake vào thế bất lợi.
- Databricks mua lại Tabular Technologies để thúc đẩy khả năng tương tác giữa hai định dạng dữ liệu hàng đầu là Delta Lake và Iceberg. Công ty cũng mua lại Mosaic AI nhằm trở thành hệ điều hành AI cho các doanh nghiệp.
- Các đối tác của Databricks như Condé Nast, Fivetran, Alation đang triển khai nhiều trường hợp sử dụng đa dạng trên nền tảng của công ty. Ví dụ, Condé Nast xây dựng các mô hình ngôn ngữ để phát hiện sở thích người dùng.
- Tuy nhiên, việc triển khai AI vào sản xuất vẫn còn nhiều thách thức. Các mô hình ngôn ngữ tự nhiên (NLM) hiện mới chỉ tốt cho các tác vụ ngôn ngữ cơ bản. Để thực hiện các nhiệm vụ phức tạp hơn đòi hỏi suy luận nhiều tầng, các công ty vẫn cần nhiều nỗ lực.
📌 Databricks đang tích cực mở rộng hợp tác và mở nguồn các công nghệ như Unity Catalog để cạnh tranh với Snowflake. Công ty hướng tới trở thành nền tảng AI tạo sinh hàng đầu với khả năng tương tác dữ liệu linh hoạt. Tuy nhiên, việc đưa AI vào sản xuất vẫn đang gặp nhiều rào cản khi các mô hình ngôn ngữ hiện tại chưa đáp ứng được các tác vụ phức tạp đòi hỏi suy luận sâu.
https://siliconangle.com/2024/06/18/three-insights-thecube-databricks-data-ai-summit-unity-catalog-dataaisummit/
- AI và các mô hình ngôn ngữ lớn (LLMs) có tiềm năng cách mạng hóa tài liệu lâm sàng và mã hóa bằng cách trích xuất chính xác các khái niệm lâm sàng từ ghi chú và cuộc trò chuyện của bệnh nhân.
- AI có thể đề xuất điều tra các tình trạng liên quan dựa trên triệu chứng của bệnh nhân, hỗ trợ bác sĩ lâm sàng trong tài liệu chăm sóc toàn diện. Tuy nhiên, một nghiên cứu gần đây cho thấy LLMs chưa phù hợp để mã hóa y tế chính xác.
- Quy tắc cuối cùng HTI-1 đưa ra các yêu cầu minh bạch đột phá đối với AI và các thuật toán dự đoán trong CNTT y tế được chứng nhận, yêu cầu các nhà cung cấp EHR/EMR cung cấp cho người dùng lâm sàng thông tin cơ bản nhất quán về các thuật toán được sử dụng trong quá trình ra quyết định.
- Các nhà cung cấp phải chứng minh tính công bằng của thuật toán, truyền đạt rõ ràng các trường hợp sử dụng dự định và giới hạn, cung cấp bằng chứng về hiệu quả trong thế giới thực trong việc cải thiện kết quả của bệnh nhân và ra quyết định lâm sàng.
- Các thách thức đối với việc ra quyết định lâm sàng dựa trên AI bao gồm thiếu dữ liệu đại diện, sự phức tạp của ngôn ngữ y tế và tính phân mảnh của hồ sơ bệnh nhân.
- Để nhận ra tiềm năng đầy đủ của AI trong chăm sóc sức khỏe, điều quan trọng là phải ưu tiên chất lượng dữ liệu, phát triển các khung giải thích mạnh mẽ cho hỗ trợ ra quyết định dựa trên AI và tích hợp các công cụ này vào quy trình lâm sàng hiện có.
- Sự hợp tác giữa các nhà cung cấp dịch vụ chăm sóc sức khỏe, nhà phát triển AI và nhà hoạch định chính sách sẽ rất quan trọng để thiết lập các thực hành tốt nhất, giải quyết các thách thức tiềm ẩn và đảm bảo tính minh bạch của thuật toán.
📌AI và LLMs có tiềm năng đáng kể trong việc cải thiện chất lượng dữ liệu, giảm gánh nặng cho bác sĩ lâm sàng và nâng cao chăm sóc bệnh nhân. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua như thiếu dữ liệu đại diện và sự phức tạp của ngôn ngữ y tế. Sự hợp tác giữa các bên liên quan và tuân thủ các quy định như HTI-1 Final Rule sẽ là chìa khóa để triển khai AI một cách có trách nhiệm và công bằng trong ngành chăm sóc sức khỏe.
https://hitconsultant.net/2024/06/19/ai-in-healthcare-enhancing-data-quality-reducing-clinician-burden/
- Phân tích cấu trúc dữ liệu: Đảm bảo dữ liệu nhất quán, tổ chức tốt và sẵn sàng cho các thuật toán AI.
- Độ nhất quán và toàn vẹn dữ liệu: Xác định và khắc phục các vấn đề như giá trị thiếu, bản sao, lỗi.
- Chuẩn hóa: Đánh giá tổ chức dữ liệu, loại, định dạng và giảm thiểu dư thừa.
- Phân tích mối quan hệ dữ liệu giữa các bảng: Hiểu các kết nối dữ liệu qua các cơ sở dữ liệu.
- Tuân thủ các tiêu chuẩn định trước: Tạo các quy ước đặt tên và thiết kế schema thống nhất.
- Định nghĩa schema cho sử dụng báo cáo: Thiết kế cấu trúc dữ liệu cho cả phân tích AI và tạo báo cáo.
- Đảm bảo độ chính xác dữ liệu: Đảm bảo tất cả dữ liệu huấn luyện chính xác để có những hiểu biết AI đáng tin cậy.
- Phản ánh các thuộc tính thực tế: Đánh giá xem dữ liệu có phản ánh chính xác các đối tượng thực tế không.
- Chuẩn hóa dữ liệu: Áp dụng các nguyên tắc và quy ước nhất quán cho chuẩn hóa dữ liệu.
- Lỗi chính tả trong dữ liệu: Xác định và khắc phục lỗi chính tả và lỗi nhập liệu.
- Dị thường trong dữ liệu: Phát hiện và xử lý các điểm dữ liệu bất thường.
- Dữ liệu thiếu: Phân tích và quản lý các giá trị thiếu.
- Kiểm tra tính duy nhất của dữ liệu: Ngăn chặn các điểm dữ liệu trùng lặp để tránh kích thước mẫu bị thổi phồng và những hiểu biết sai lệch từ AI.
- Xác định bản sao: Thiết lập tiêu chí để xác định các đối tượng dữ liệu trùng lặp.
- Phân tích nguồn gốc bản sao: Điều tra nguyên nhân gốc rễ của các bản sao.
- Chiến lược xử lý bản sao: Xác định cách tiếp cận phù hợp nhất để xử lý các bản sao.
- Ngăn chặn bản sao trong tương lai: Đảm bảo không có bản sao xảy ra trong tương lai.
- Kiểm tra sự tồn tại của dữ liệu: Đảm bảo có dữ liệu đầy đủ qua thời gian, địa điểm và ngữ cảnh người dùng để tránh các mô hình thiên lệch và kết quả không chính xác.
- Kiểm tra dữ liệu theo thời gian: Xác minh sự hiện diện của các điểm dữ liệu đầy đủ trong khung thời gian liên quan.
- Kiểm tra dữ liệu theo địa điểm: Xác minh thông tin địa lý.
- Kiểm tra dữ liệu theo người dùng: Kiểm tra xem dữ liệu liên quan đến các nhà sưu tập hoặc người dùng cụ thể có đầy đủ không.
- Tăng cường dữ liệu: Chống lại sự khan hiếm dữ liệu, có thể cản trở đáng kể nghiên cứu và hiệu quả của các mô hình.
- Tăng cường dữ liệu: Thao tác dữ liệu hiện có để tạo ra các biến thể.
- Tạo dữ liệu tổng hợp: Tạo ra các điểm dữ liệu hoàn toàn mới và thực tế.
📌 Chuẩn bị dữ liệu dược phẩm cho AI bao gồm các giai đoạn quan trọng như phân tích cấu trúc, đảm bảo độ chính xác, kiểm tra tính duy nhất và tồn tại, và tăng cường dữ liệu. Các bước này giúp đảm bảo dữ liệu nhất quán, chính xác và đầy đủ, từ đó cải thiện hiệu quả của các mô hình AI trong ngành dược phẩm.
https://www.pharmavoice.com/spons/how-can-you-prepare-pharmaceutical-data-for-ai-consumption/718829/
- Meta đã phải hoãn triển khai các mô hình AI của mình tại châu Âu do lo ngại về việc sử dụng dữ liệu người dùng từ Facebook và Instagram.
- Cơ quan bảo vệ dữ liệu Ireland đã yêu cầu Meta trì hoãn kế hoạch sử dụng dữ liệu từ người dùng Facebook và Instagram để huấn luyện các mô hình AI của mình.
- Nhóm vận động NOYB đã gửi đơn khiếu nại và kêu gọi các cơ quan bảo vệ dữ liệu tại Áo, Bỉ, Pháp, Đức, Hy Lạp, Ý, Ireland, Hà Lan, Na Uy, Ba Lan và Tây Ban Nha hành động chống lại Meta.
- Vấn đề chính là Meta sử dụng các bài đăng công khai trên Facebook và Instagram để cung cấp dữ liệu cho hệ thống AI của mình, điều này có thể vi phạm các quy định về sử dụng dữ liệu của EU.
- Meta thừa nhận rằng họ sử dụng các bài đăng công khai để huấn luyện các mô hình Llama, nhưng không sử dụng các cập nhật bị hạn chế đối tượng hoặc tin nhắn riêng tư.
- Meta đã giải thích rằng họ sử dụng thông tin công khai và thông tin được cấp phép để huấn luyện AI, bao gồm các bài đăng công khai hoặc ảnh công khai và chú thích của chúng.
- Trong tương lai, Meta có thể sử dụng thông tin mà người dùng chia sẻ khi tương tác với các tính năng AI tạo sinh của Meta hoặc với doanh nghiệp để phát triển và cải thiện các sản phẩm AI của mình.
- Meta không sử dụng nội dung của các tin nhắn riêng tư giữa bạn bè và gia đình để huấn luyện AI.
- Meta đã làm việc để đáp ứng các mối quan ngại của EU về các mô hình AI của mình và đã thông báo cho người dùng EU qua các cảnh báo trong ứng dụng về cách dữ liệu của họ có thể được sử dụng.
- Hiện tại, công việc này đang bị tạm dừng cho đến khi các cơ quan quản lý EU có cơ hội đánh giá các mối quan ngại mới nhất và cách chúng phù hợp với các quy định GDPR.
- Đây là một lĩnh vực khó khăn vì mặc dù Meta có thể lập luận rằng họ có quyền sử dụng dữ liệu này theo các thỏa thuận người dùng rộng rãi của mình, nhiều người có thể không nhận thức được rằng các bài đăng công khai của họ đang được thêm vào kho dữ liệu AI của Meta.
- Nếu bạn là một người sáng tạo và muốn tiếp cận càng nhiều khán giả càng tốt trên Facebook và Instagram, bạn sẽ đăng công khai, nhưng điều đó có nghĩa là bất kỳ văn bản hoặc yếu tố hình ảnh nào bạn chia sẻ trong bối cảnh này đều có thể được Meta tái sử dụng trong các mô hình AI của mình.
- Khi bạn thấy một hình ảnh được tạo bởi Meta AI trông rất giống với của bạn, có thể nó là sản phẩm phái sinh từ công việc của bạn.
- Đây là một phần của mối quan ngại rộng hơn về các mô hình AI và cách chúng thu thập dữ liệu người dùng trên web.
- EU có thể sẽ yêu cầu các quyền cụ thể hơn, yêu cầu người dùng châu Âu cho phép rõ ràng nội dung của họ được tái sử dụng bởi các mô hình AI của Meta hoặc không.
📌 Meta đã phải hoãn triển khai AI tại châu Âu do lo ngại về việc sử dụng dữ liệu người dùng từ Facebook và Instagram. Cơ quan bảo vệ dữ liệu Ireland yêu cầu trì hoãn, và nhóm vận động NOYB đã gửi đơn khiếu nại. Meta thừa nhận sử dụng bài đăng công khai nhưng không sử dụng tin nhắn riêng tư.
https://www.socialmediatoday.com/news/meta-delays-ai-roll-out-in-europe-due-to-data-usage-concerns/719064/
- Dữ liệu là nền tảng của thế giới số, là một trong ba trụ cột của AI tạo sinh (cùng với sức mạnh tính toán và tiếp cận nhân tài). Tuy nhiên, vẫn còn bất bình đẳng lớn về ai được hưởng lợi từ việc sử dụng dữ liệu ngày càng tăng, đặc biệt giữa các quốc gia phát triển và đang phát triển.
- Các cuộc thảo luận toàn cầu về các vấn đề số bị phân mảnh, tập trung vào hạ tầng số công cộng (DPI) và trí tuệ nhân tạo (AI) mà không đề cập đầy đủ vai trò của dữ liệu, đặc biệt là quản trị dữ liệu.
- Các chương trình nghị sự đa phương nên dành không gian cho dữ liệu, ví dụ: một Data20 trong nhóm G20 có thể khuyến khích các cuộc thảo luận cởi mở, đa bên liên quan và chia sẻ kiến thức về quản trị dữ liệu, rủi ro và cơ hội.
- Ngôn ngữ được sử dụng để nói về dữ liệu và quản trị dữ liệu gặp khó khăn trong việc nắm bắt thực tế của dữ liệu. Ý tưởng về quyền sở hữu dữ liệu không thể nắm bắt được cách dữ liệu có thể sao chép, được tạo ra bởi nhiều tác nhân và trở nên có giá trị khi tổng hợp hoặc kết hợp.
- Cần có hành động đa phương và đa bên liên quan ngay bây giờ như một bước đầu tiên để giúp thu hẹp khoảng cách. Một điểm khởi đầu có thể là thành lập Data20 (D20) trong G20 như một không gian đa bên liên quan có tầm nhìn xa, khuyến khích thảo luận cởi mở thông qua các diễn đàn không ràng buộc.
📌 Việc tập trung vào hạ tầng số công cộng và AI trong khi bỏ qua các mối quan tâm xung quanh dữ liệu có nghĩa là cộng đồng toàn cầu chưa giải quyết được vai trò nền tảng của dữ liệu trong việc định hình bất bình đẳng số toàn cầu. Cần có hành động đa phương và đa bên liên quan ngay bây giờ, bắt đầu bằng việc thành lập Data20 trong G20 để khuyến khích thảo luận cởi mở và chia sẻ kiến thức về quản trị dữ liệu.
https://www.weforum.org/agenda/2024/06/need-global-coordination-on-data-not-just-ai/
- Gretel AI đã phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên nền tảng HuggingFace 🤗 để hỗ trợ các nhà phát triển AI trong việc phát hiện thông tin nhận dạng cá nhân (PII).
- Bộ dữ liệu bao gồm 55.940 bản ghi, trong đó 50.776 mẫu dùng để huấn luyện và 5.164 mẫu dùng để kiểm tra.
- Dữ liệu đa dạng với 100 định dạng tài liệu tài chính khác nhau, mỗi loại có 20 tiểu loại cụ thể.
- Chứa 29 loại PII khác nhau, phù hợp với trình tạo thư viện Python Faker để dễ dàng phát hiện và thay thế.
- Độ dài trung bình của tài liệu là 1.357 ký tự.
- Hỗ trợ đa ngôn ngữ: Tiếng Anh, Tây Ban Nha, Thụy Điển, Đức, Ý, Hà Lan và Pháp.
- Sử dụng kỹ thuật "LLM-as-a-Judge" với mô hình ngôn ngữ Mistral-7B để đảm bảo chất lượng dữ liệu.
- Bộ dữ liệu có thể được sử dụng để huấn luyện các mô hình NER, kiểm tra hệ thống quét PII, đánh giá hệ thống khử nhận dạng và phát triển các giải pháp bảo mật dữ liệu cho ngành tài chính.
📌 Bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới của Gretel AI là một nguồn tài nguyên quý giá cho các nhà phát triển và nghiên cứu xây dựng các giải pháp phát hiện PII mạnh mẽ. Với 55.940 bản ghi đa dạng, hỗ trợ 7 ngôn ngữ và đảm bảo chất lượng cao, bộ dữ liệu này sẽ thúc đẩy sự phát triển của các hệ thống AI chính xác, công bằng và đáng tin cậy hơn trong lĩnh vực tài chính.
https://www.marktechpost.com/2024/06/13/gretel-ai-releases-a-new-multilingual-synthetic-financial-dataset-on-huggingface-%F0%9F%A4%97-for-ai-developers-tackling-personally-identifiable-information-pii-detection/
- AI đang đối mặt với vấn đề niềm tin nghiêm trọng, với 54% người dùng không tin tưởng dữ liệu huấn luyện AI, theo khảo sát của Salesforce với 6.000 nhân viên tri thức toàn cầu.
- 75% trong số những người không tin tưởng dữ liệu huấn luyện AI cho rằng AI thiếu thông tin cần thiết để hữu ích.
- Sean Knapp, CEO của Ascend.io, nhấn mạnh rằng AI chỉ tốt khi dữ liệu hỗ trợ nó tốt. Các nhà lãnh đạo doanh nghiệp cần hiểu rằng không phải cứ AI đưa ra câu trả lời là nó sẽ chính xác.
- Phát triển dữ liệu thường bị cô lập và tốn thời gian, gây ra sự chậm trễ, ngắt kết nối và thất vọng.
- Sharad Varshney, CEO của OvalEdge, cho rằng doanh nghiệp không thể cạnh tranh nếu không có sự tập trung vào dữ liệu.
- Nhiều tổ chức vẫn đang cố gắng kiểm soát dữ liệu của họ cho các nhiệm vụ tình báo kinh doanh cơ bản, chưa nói đến AI.
- Cần có dữ liệu sạch từ các đường ống dữ liệu tiên tiến để đạt được hiệu quả hoạt động, cải thiện trải nghiệm khách hàng và tạo ra các sản phẩm sáng tạo.
- Khả năng nhận diện nhanh chóng các tập dữ liệu cần thiết và tạo ra các hệ thống sản xuất dữ liệu đáng tin cậy là yếu tố then chốt.
📌 AI đang gặp vấn đề niềm tin lớn với 54% người dùng không tin tưởng dữ liệu huấn luyện. Để khai thác tiềm năng của AI, cần có nền tảng dữ liệu sạch và đáng tin cậy, giúp cải thiện hiệu quả hoạt động và trải nghiệm khách hàng.
https://www.forbes.com/sites/joemckendrick/2024/06/11/getting-to-the-root-of-ais-trust-problem/
- Databricks công bố ra mắt sản phẩm trí tuệ doanh nghiệp mới mang tên AI/BI, nhằm dân chủ hóa phân tích và thông tin chi tiết trên toàn tổ chức thông qua cách tiếp cận AI làm trọng tâm.
- AI/BI tận dụng AI tạo sinh để cung cấp khả năng phân tích tự phục vụ, cho phép người dùng thông thường đặt các câu hỏi phức tạp và nhận câu trả lời chính xác mà không cần chuyên môn khoa học dữ liệu.
- AI/BI bao gồm hai trải nghiệm bổ sung: AI/BI Dashboards - giao diện low-code để nhanh chóng tạo bảng điều khiển tương tác; và AI/BI Genie - giao diện hội thoại sử dụng ngôn ngữ tự nhiên để giải quyết các câu hỏi ad-hoc và theo dõi.
- Cả hai đều được hỗ trợ bởi một hệ thống AI tổng hợp liên tục học hỏi từ việc sử dụng trên toàn bộ stack dữ liệu của tổ chức, bao gồm pipeline ETL, lineage và truy vấn.
- Khác với các công cụ BI khác cố gắng thêm khả năng AI tạo sinh lên trên kiến trúc thông thường, AI/BI đặt hệ thống AI làm cốt lõi.
- AI/BI sử dụng tập hợp các agent AI chuyên biệt cùng nhau lý luận về các câu hỏi kinh doanh và tạo ra câu trả lời hữu ích. Hệ thống học hỏi và cải thiện dựa trên phản hồi của con người.
- Lợi ích chính của AI/BI: quản trị và lineage thống nhất thông qua tích hợp sâu với Databricks Unity Catalog; chia sẻ an toàn dễ dàng mà không cần giấy phép người dùng bổ sung; tính năng vượt trội về giá-hiệu suất trên khối lượng dữ liệu lớn; không yêu cầu trích xuất dữ liệu.
- AI/BI Dashboards đã sẵn sàng từ hôm nay, trong khi Genie đang trong giai đoạn preview công khai.
📌 Databricks giới thiệu AI/BI - giải pháp BI thông minh dựa trên AI tổng hợp, cho phép phân tích tự phục vụ thông qua AI/BI Dashboards và Genie. Hệ thống liên tục học hỏi, mang lại lợi ích như quản trị thống nhất, chia sẻ an toàn, hiệu suất vượt trội mà không tốn thêm chi phí cấp phép.
https://analyticsindiamag.com/databricks-launches-ai-bi-a-compound-ai-system-for-intelligent-business-insights/
- Databricks giới thiệu LakeFlow, giải pháp thống nhất giúp đơn giản hóa mọi khía cạnh của kỹ thuật dữ liệu, từ thu thập, chuyển đổi đến điều phối dữ liệu.
- LakeFlow cho phép các đội ngũ dữ liệu dễ dàng thu thập dữ liệu từ nhiều nguồn như MySQL, Postgres, Oracle, Salesforce, Dynamics, Sharepoint, Workday, NetSuite và Google Analytics.
- Databricks cũng giới thiệu Real Time Mode cho Apache Spark, cho phép xử lý luồng với độ trễ cực thấp.
- LakeFlow tự động hóa việc triển khai, vận hành và giám sát pipeline ở quy mô lớn trong sản xuất, với hỗ trợ tích hợp cho CI/CD và quy trình làm việc nâng cao.
- Các tính năng kiểm tra chất lượng dữ liệu và giám sát tình trạng được tích hợp với hệ thống cảnh báo như PagerDuty.
- LakeFlow giải quyết các thách thức trong kỹ thuật dữ liệu bằng cách đơn giản hóa mọi khía cạnh thông qua một trải nghiệm thống nhất dựa trên Nền tảng Databricks Data Intelligence.
- LakeFlow Connect cung cấp nhiều kết nối gốc, có thể mở rộng quy mô cho cơ sở dữ liệu và ứng dụng doanh nghiệp, tích hợp sâu với Unity Catalog để quản trị dữ liệu mạnh mẽ.
- LakeFlow Pipelines cho phép các đội ngũ dữ liệu triển khai chuyển đổi dữ liệu và ETL bằng SQL hoặc Python, đơn giản hóa cả quá trình xử lý luồng và hàng loạt phức tạp nhất.
- LakeFlow Jobs cung cấp tính năng điều phối tự động, theo dõi tình trạng và phân phối dữ liệu, tăng cường khả năng kiểm soát luồng và khả năng quan sát đầy đủ để phát hiện, chẩn đoán và giảm thiểu các vấn đề về dữ liệu.
📌 LakeFlow của Databricks là giải pháp toàn diện giúp đơn giản hóa mọi khía cạnh của kỹ thuật dữ liệu, từ thu thập, chuyển đổi đến điều phối dữ liệu. Với các tính năng như kết nối gốc mở rộng, xử lý luồng và hàng loạt thống nhất, điều phối tự động và giám sát tình trạng dữ liệu, LakeFlow giúp các đội ngũ dữ liệu xây dựng và vận hành pipeline dữ liệu đáng tin cậy một cách hiệu quả.
https://analyticsindiamag.com/databricks-unveils-lakeflow-simplifying-data-ingestion-transformation-orchestration/
- Databricks mở nguồn Unity Catalog theo giấy phép Apache 2.0 với đặc tả OpenAPI, server và clients, cho phép các công ty khác sử dụng kiến trúc và mã nguồn để thiết lập catalog hỗ trợ dữ liệu ở mọi định dạng.
- Mosaic AI được nâng cấp với các công cụ mới như Mosaic AI Model Training, AI Agent framework, Evaluation framework, AI Tools Catalog và AI Gateway để xây dựng hệ thống AI tổng hợp tin cậy.
- Ra mắt Shutterstock ImageAI, mô hình AI tạo sinh ảnh văn bản cung cấp ảnh chất lượng cao, đáng tin cậy cho các trường hợp sử dụng doanh nghiệp khác nhau.
- Giới thiệu Databricks AI/BI, hệ thống AI tổng hợp sử dụng tập hợp các AI agent để lý luận về câu hỏi kinh doanh và tạo ra câu trả lời ngôn ngữ tự nhiên và trực quan hóa hữu ích.
- Databricks LakeFlow ra mắt để thống nhất và đơn giản hóa tất cả khía cạnh của kỹ thuật dữ liệu, từ thu thập dữ liệu đến chuyển đổi và điều phối.
- Hợp tác với Nvidia để hỗ trợ tính toán CUDA trong công cụ truy vấn Photon thế hệ tiếp theo của Databricks và với Gretel để cung cấp bộ dữ liệu tổng hợp chất lượng cao xây dựng và tùy chỉnh mô hình học máy.
📌 Databricks Data and AI Summit 2024 đánh dấu bước tiến lớn trong việc kết hợp dữ liệu và AI, với nhiều đổi mới đáng chú ý như mở nguồn Unity Catalog, nâng cấp Mosaic AI với các công cụ mới, ra mắt mô hình tạo ảnh Shutterstock ImageAI, giải pháp phân tích thông minh Databricks AI/BI, trải nghiệm thống nhất LakeFlow cho kỹ thuật dữ liệu, và quan hệ đối tác chiến lược với Nvidia và Gretel.
https://venturebeat.com/ai/databricks-data-and-ai-summit-2024-the-biggest-innovations/
- Databricks chuẩn bị cung cấp thêm hỗ trợ cho các doanh nghiệp xây dựng ứng dụng AI tạo sinh với việc bổ sung các tính năng mới của Mosaic AI.
- Mosaic AI Agent Framework, hiện đang ở giai đoạn public preview, nhằm tăng tốc quá trình phát triển ứng dụng AI tạo sinh dựa trên kỹ thuật retrieval augmented generation (RAG).
- Công cụ AI Agent Evaluation, cũng đang ở giai đoạn public preview, sử dụng AI để kiểm tra chất lượng đầu ra của ứng dụng dựa trên RAG.
- Mosaic AI Gateway giúp quản lý các mô hình LLM và ứng dụng AI tạo sinh, cung cấp giao diện thống nhất để truy vấn, quản lý và triển khai bất kỳ mô hình nguồn mở hoặc độc quyền nào.
- Databricks cũng giới thiệu bộ công cụ Mosaic AI Tools Catalog để chạy và vận hành các mô hình LLM, hiện đang ở giai đoạn private preview.
- Các tính năng mới này được kỳ vọng sẽ củng cố vị thế của Databricks trên thị trường, mặc dù công ty vẫn tụt hậu so với Snowflake ở một số lĩnh vực.
- Databricks đang dẫn đầu trong lĩnh vực AI và AI tạo sinh, nhưng vẫn cần chứng minh nhiều hơn về kho dữ liệu và tụt hậu so với Snowflake về thị trường dữ liệu và ứng dụng dữ liệu.
- Databricks và Snowflake đang tiếp cận AI từ các điểm khởi đầu khác nhau và đều tìm cách đạt được cùng một vị trí.
📌 Databricks đang tăng cường hỗ trợ cho các ứng dụng AI tạo sinh với việc bổ sung nhiều tính năng mới vào Mosaic AI như Agent Framework, AI Agent Evaluation, AI Gateway. Tuy nhiên, công ty vẫn cần nỗ lực hơn nữa để bắt kịp đối thủ Snowflake trong các lĩnh vực kho dữ liệu, thị trường dữ liệu và ứng dụng dữ liệu.
https://www.infoworld.com/article/3715542/databricks-expands-mosaic-ai-support-for-generative-ai-apps.html
- Tầm quan trọng nền tảng của dữ liệu đang tạo ra những yêu cầu mới đối với các chuyên gia dữ liệu. Họ đang gặp phải những thách thức mới về dữ liệu, sự phức tạp ngày càng tăng của dữ liệu, cấu trúc nhóm đang phát triển và các công cụ, công nghệ mới nổi.
- Các chuyên gia dữ liệu đang tiếp cận gần hơn với kinh doanh và ngược lại. Họ được yêu cầu mở rộng kiến thức về kinh doanh, tham gia sâu hơn với các đơn vị kinh doanh và hỗ trợ việc sử dụng dữ liệu trong tổ chức.
- Chiến lược dữ liệu và AI đã trở thành một phần quan trọng của chiến lược kinh doanh. Các nhà lãnh đạo doanh nghiệp cần đầu tư vào chiến lược dữ liệu và AI của họ.
- Các chuyên gia dữ liệu sẽ định hình cách triển khai AI tạo sinh trong doanh nghiệp. Các cân nhắc chính như tạo ra kết quả chất lượng cao, ngăn chặn sai lệch và ảo giác, thiết lập quản trị, thiết kế quy trình dữ liệu, đảm bảo tuân thủ quy định đều thuộc phạm vi của các chuyên gia dữ liệu.
- Các công cụ và kiến trúc dữ liệu tiên tiến như lakehouse và data mesh cho phép các nhóm dữ liệu chuyên nghiệp hóa, chuẩn hóa và đơn giản hóa công việc của họ, đồng thời tối ưu hóa việc sử dụng tài sản dữ liệu.
- Vai trò mới của các chuyên gia dữ liệu như kỹ sư phân tích đang nổi lên để lấp đầy khoảng trống giữa nhà phân tích dữ liệu và kỹ sư dữ liệu.
- Cấu trúc và vị trí của tổ chức dữ liệu trong doanh nghiệp đang thay đổi, với xu hướng phi tập trung hóa sở hữu dữ liệu. Tuy nhiên, dữ liệu vẫn đòi hỏi sự hợp tác và nhất quán nội bộ.
- Các tổ chức cần hỗ trợ các chuyên gia dữ liệu bằng cách đầu tư vào công nghệ và cơ sở hạ tầng, dân chủ hóa khả năng tiếp cận dữ liệu, đồng thời đảm bảo quản trị và giám sát dữ liệu, AI một cách mạnh mẽ.
📌 Trong kỷ nguyên AI, dữ liệu đóng vai trò then chốt. Các chuyên gia dữ liệu đang đối mặt với nhiều thách thức và cơ hội mới khi tổ chức dữ liệu chuyển đổi. Họ cần mở rộng kỹ năng, tiếp cận gần hơn với kinh doanh và định hình triển khai AI tạo sinh. Các tổ chức cần đầu tư đúng đắn vào nhóm dữ liệu, lựa chọn công cụ và kiến trúc phù hợp như lakehouse, data mesh, đồng thời thay đổi văn hóa để đón đầu tương lai được định hình bởi dữ liệu và AI.
Citations:
https://www.databricks.com/sites/default/files/2024-05/mittr-databricks2024-final-14may2024.pdf
- Dữ liệu công khai hiện tại đã đủ để tạo ra các mô hình đa năng chất lượng cao, nhưng không đủ để cung cấp năng lượng cho các mô hình chuyên biệt mà doanh nghiệp cần. Trong khi đó, các quy định AI đang ngày càng khiến việc xử lý dữ liệu nhạy cảm thô an toàn trở nên khó khăn hơn.
- Các công ty công nghệ hàng đầu như Google, Anthropic, Meta, Microsoft đã bắt đầu sử dụng dữ liệu tổng hợp để huấn luyện các mô hình như Gemma, Claude, Llama 3, Phi-3 và đạt được những cải thiện đáng kể về hiệu suất.
- Trong kỷ nguyên AI, chất lượng dữ liệu được định nghĩa bởi 5 yếu tố: khối lượng, tốc độ, đa dạng, độ chính xác và quyền riêng tư. Thiếu bất kỳ yếu tố nào trong số này, các nút thắt về chất lượng dữ liệu sẽ cản trở hiệu suất mô hình và giá trị kinh doanh.
- Dữ liệu tổng hợp chất lượng cao phải bao gồm: hệ thống phát hiện và chuyển đổi dữ liệu nhạy cảm tiên tiến, tạo thông qua các bộ chuyển đổi được đào tạo trước và kiến trúc dựa trên tác nhân, quyền riêng tư khác biệt ở cấp độ đào tạo mô hình, độ chính xác và tiện ích có thể đo lường được cùng với các biện pháp bảo vệ quyền riêng tư có thể chứng minh được, các nhóm đánh giá, xác thực và điều chỉnh dữ liệu.
- Sự sụp đổ mô hình không phải do dữ liệu tổng hợp gây ra mà là do vòng lặp phản hồi trong các hệ thống AI và học máy cùng với nhu cầu quản trị dữ liệu tốt hơn. Dữ liệu tổng hợp bảo mật quyền riêng tư chất lượng cao là giải pháp cho sự sụp đổ mô hình, không phải là nguyên nhân.
📌 Dữ liệu tổng hợp chất lượng cao, bảo mật quyền riêng tư là phương tiện đáng tin cậy và hiệu quả nhất để tạo ra dữ liệu chất lượng cao mà không ảnh hưởng đến hiệu suất hoặc quyền riêng tư, giúp các nhà phát triển xây dựng các mô hình chính xác, kịp thời và chuyên biệt hơn một cách an toàn.
https://www.infoworld.com/article/3715521/solving-the-data-quality-problem-in-generative-ai.html
- Ngành công nghiệp AI đang tiến gần đến một bước chuyển đổi mà dữ liệu người dùng sẽ trở nên tối quan trọng và niềm tin sẽ là hàng hóa quan trọng nhất, được gọi là "AI 2.0".
- AI tạo sinh 1.0 là phi cá nhân hóa. Để AI hiểu chúng ta, nó phải có dữ liệu về chúng ta, và trước khi cho phép điều đó, chúng ta phải có niềm tin.
- Chúng ta có thể xây dựng niềm tin bằng các quy định bảo vệ dữ liệu cá nhân và thúc đẩy tính minh bạch. Tác giả đề xuất 4 quy tắc cho tính minh bạch và quyền riêng tư dữ liệu.
- Nếu các công ty AI cần đào tạo trên thông tin có bản quyền, họ có thể trả tiền cho nó với ngân sách hàng chục và hàng trăm tỷ đô la.
- Một mô hình AI của Mỹ dựa trên quyền sở hữu rõ ràng và quyền riêng tư dữ liệu sẽ truyền cảm hứng cho nhiều người tham gia hơn mô hình AI của Trung Quốc với dữ liệu do Đảng Cộng sản kiểm soát.
📌 Để AI 2.0 mang lại giá trị lớn hơn, cần có mối quan hệ mới với công chúng dựa trên niềm tin. Mỹ có lợi thế trong cuộc đua này nếu có các quy định đúng đắn về quyền sở hữu và quyền riêng tư dữ liệu, trái ngược với mô hình kiểm soát dữ liệu của Trung Quốc.
https://www.fastcompany.com/91137724/for-ai-to-really-succeed-we-need-to-protect-private-data
- Ngành công nghiệp AI, mặc dù tràn ngập tiền bạc, lại dựa vào chuỗi cung ứng của hàng triệu công nhân dữ liệu với mức lương thấp và điều kiện làm việc bấp bênh.
- Theo ước tính của Ngân hàng Thế giới, có từ 150 triệu đến 430 triệu người làm công việc chú thích hình ảnh, văn bản và âm thanh để huấn luyện các công cụ AI tạo sinh như ChatGPT.
- Milagros Miceli, một nhà nghiên cứu tại Viện Nghiên cứu AI Phân tán và Viện Weizenbaum, cho biết cô chưa từng gặp công nhân nào nói rằng công việc này giúp họ mua nhà hoặc cho con đi học đại học.
- Miceli đã gặp gỡ khoảng một tá công nhân chú thích dữ liệu ở một khu ổ chuột ở Argentina vào năm 2019, với mức lương khoảng 1,70 USD/giờ. Khi cô quay lại vào năm 2021, không ai trong số họ đã tiến xa hơn và mức lương của họ hầu như không tăng.
- Madhumita Murgia, biên tập viên AI của Financial Times, cho biết nhiều công nhân phải làm thêm công việc thứ hai hoặc ca đêm để đủ sống. Một phụ nữ làm việc cho Samasource Impact Sourcing ở Nairobi không thể tự nuôi sống mình và con gái, phải chuyển về sống với cha mẹ.
- Công việc này cũng rất bấp bênh. Một công nhân ở Bulgaria không thể trả tiền thuê nhà vì bị đình chỉ công việc sau khi phàn nàn về ca đêm.
- Các công ty như Microsoft và OpenAI là khách hàng cuối cùng của những công nhân này, nhưng họ không nhận ra giá trị thực sự của công việc mình làm.
- Murgia nhận thấy rằng công nhân dữ liệu không có cơ hội thăng tiến lên các công việc kỹ thuật số có lương cao hơn, họ vẫn bị giới hạn trong công việc có giá trị thấp.
- Các công ty chú thích dữ liệu thường bắt đầu với ý định tốt đẹp để giúp người dân thoát nghèo, nhưng họ gặp khó khăn trong việc thuyết phục khách hàng doanh nghiệp trả mức lương cao hơn.
- Một khảo sát năm 2021 từ Viện Internet Oxford cho thấy hầu hết các nền tảng công việc dữ liệu không có chính sách đảm bảo công nhân kiếm được ít nhất mức lương tối thiểu địa phương.
- Một quảng cáo tuyển dụng "dịch giả chuyên nghiệp" ở Igbo, Nigeria, với mức lương lên đến 17 USD/giờ, thấp hơn mức lương trung bình của dịch giả Nigeria, bắt đầu từ 25 USD/giờ.
- Công ty Scale.ai, một startup AI ở San Francisco, đã huy động được 1 tỷ USD từ các nhà đầu tư, nhưng không trả lời các yêu cầu bình luận về mức lương thấp của công nhân.
- Các công ty như Samasource Impact Sourcing Inc., Arbusta S.R.L. và Humans in the Loop đóng vai trò quan trọng trong chuỗi cung ứng AI nhưng thường chỉ trả đủ để công nhân duy trì cuộc sống.
- Mặc dù công việc dữ liệu ngày càng phức tạp, mức lương vẫn thấp hơn so với những gì người có bằng cấp nên nhận được.
- Chi phí huấn luyện AI rất đắt đỏ, với ngành công nghiệp AI chi 50 tỷ USD cho chip Nvidia vào năm 2023 nhưng chỉ thu về khoảng 3 tỷ USD doanh thu.
- Điều này cho thấy cơ hội cho những người làm việc trong ngành AI vẫn rất ít và công nghệ này chủ yếu củng cố quyền lực kinh tế.
📌 Ngành công nghiệp AI dựa vào hàng triệu công nhân dữ liệu với mức lương thấp và điều kiện làm việc bấp bênh. Mặc dù công việc ngày càng phức tạp, mức lương vẫn không đủ để cải thiện tình trạng kinh tế của họ.
https://www.bloomberg.com/opinion/articles/2024-06-06/ai-s-hidden-workers-are-stuck-in-dead-end-jobs
- Các hạn chế về luồng dữ liệu toàn cầu đã tăng gấp đôi từ năm 2017 đến 2021, dẫn đến sự phân mảnh của thế giới kỹ thuật số.
- Việc chia sẻ dữ liệu xuyên biên giới rất quan trọng để giải quyết các vấn đề toàn cầu như chuẩn bị cho đại dịch tiếp theo, giám sát an toàn của AI tạo sinh, dự báo thiên tai, điều phối viện trợ toàn cầu, xác định vấn đề an toàn thực phẩm trong chuỗi cung ứng quốc tế.
- Thay vì chỉ tập trung vào dữ liệu thô, cần chú ý đến các loại dữ liệu trung gian mới xuất hiện nhờ tiến bộ của AI như features, embeddings, hyperparameters, weights, dữ liệu tổng hợp. Chúng có thể an toàn hơn khi chuyển giao, chia sẻ và tạo ra giá trị mà không cần chia sẻ dữ liệu thô.
- Ví dụ: embeddings có thể đại diện cho hồ sơ y tế thô, giảm thiểu rủi ro nhận dạng bệnh nhân; các tổ chức tài chính có thể chia sẻ hyperparameters, weights để cải thiện mô hình phòng chống gian lận mà không tiết lộ thông tin nhạy cảm; dữ liệu tổng hợp giữ lại các mẫu hành vi tập thể của khách hàng thực mà không tiết lộ thông tin cá nhân.
- Các quy định hiện tại chưa tính đến tất cả các loại dữ liệu trung gian mới này. Chúng thường bị đối xử như dữ liệu thô và bị hạn chế nặng nề. Cần có chính sách mạnh mẽ phân biệt sự khác biệt của từng loại dữ liệu để cho phép các quốc gia chia sẻ dữ liệu quan trọng trên quy mô lớn hơn, giải quyết các vấn đề toàn cầu cấp bách đồng thời bảo vệ dữ liệu cá nhân của công dân.
📌 Trong kỷ nguyên AI, việc chia sẻ dữ liệu xuyên biên giới đóng vai trò then chốt để giải quyết các thách thức toàn cầu. Các nhà hoạch định chính sách cần đổi mới quy định, tính đến đặc thù của các loại dữ liệu trung gian mới để tạo điều kiện thuận lợi cho việc chia sẻ dữ liệu an toàn và hiệu quả giữa các quốc gia.
https://fortune.com/2024/06/07/ai-artificial-intelligence-cross-border-data-sharing/
- Zyphra Technologies Inc., được hỗ trợ bởi Intel Capital, ra mắt Zyda - một bộ dữ liệu huấn luyện AI gồm 1,3 nghìn tỷ token, giúp các nhà nghiên cứu xây dựng các mô hình ngôn ngữ lớn (LLM).
- Zyda tổng hợp thông tin từ 7 bộ dữ liệu mã nguồn mở, được lọc bỏ nội dung vô nghĩa, trùng lặp và có hại bằng các kịch bản tùy chỉnh và ngưỡng an toàn.
- Quá trình lọc dữ liệu diễn ra qua 2 giai đoạn: loại bỏ văn bản vô nghĩa do lỗi định dạng và xóa nội dung có hại dựa trên các tiêu chí văn bản.
- Zyphra cũng loại bỏ các tài liệu trùng lặp trong từng bộ dữ liệu và giữa 7 bộ dữ liệu với nhau, giúp nén Zyda từ 2 nghìn tỷ token xuống còn 1,4 nghìn tỷ.
- Chất lượng của Zyda được kiểm tra bằng cách sử dụng nó để huấn luyện mô hình ngôn ngữ nội bộ Zamba (7 tỷ tham số) trên 128 card đồ họa Nvidia H100.
- Zamba sử dụng kiến trúc Mamba đơn giản hơn Transformer, kết hợp với lớp attention giúp ưu tiên thông tin quan trọng.
- Zamba vượt trội hơn Llama 2 7B của Meta và một số mô hình ngôn ngữ mã nguồn mở khác, mặc dù được huấn luyện trên lượng dữ liệu ít hơn.
📌 Zyda - bộ dữ liệu huấn luyện AI 1,3 nghìn tỷ token của Zyphra - giúp đơn giản hóa việc xây dựng LLM bằng cách lọc bỏ nội dung vô nghĩa, trùng lặp và có hại. Mô hình Zamba được huấn luyện trên Zyda đã vượt trội hơn nhiều LLM mã nguồn mở khác với lượng dữ liệu ít hơn.
https://siliconangle.com/2024/06/07/zyphra-debuts-zyda-llm-training-dataset-1-3t-tokens/
• Nghiên cứu ước tính tổng lượng dữ liệu văn bản công khai chất lượng cao do con người tạo ra vào khoảng 300 nghìn tỷ token, với khoảng tin cậy 90% từ 100 nghìn tỷ đến 1 triệu tỷ token.
• Nếu mô hình được huấn luyện tối ưu về tính toán, nguồn dữ liệu này sẽ đủ để huấn luyện một mô hình 5e28 FLOP, mức dự kiến đạt được vào năm 2028.
• Tuy nhiên, các mô hình gần đây thường được huấn luyện quá mức với ít tham số hơn và nhiều dữ liệu hơn để hiệu quả hơn khi suy luận. Nếu mô hình được huấn luyện quá mức gấp 5 lần, nguồn dữ liệu sẽ cạn kiệt vào năm 2027, nhưng nếu quá mức gấp 100 lần, nó sẽ cạn kiệt vào năm 2025.
• Nghiên cứu trước đây dự đoán dữ liệu văn bản chất lượng cao sẽ được sử dụng hết vào năm 2024, nhưng kết quả mới cho thấy điều đó có thể không xảy ra cho đến năm 2028. Sự khác biệt này là do phương pháp luận khác nhau và kết hợp các phát hiện gần đây đã thay đổi hiểu biết về chất lượng dữ liệu và đào tạo mô hình.
• Ngay cả khi mô hình được huấn luyện trên tất cả dữ liệu văn bản công khai, điều này không nhất thiết dẫn đến sự dừng lại hoàn toàn của tiến bộ trong khả năng mô hình. Các đổi mới mới sẽ cần thiết để duy trì tiến bộ sau năm 2030, bao gồm dữ liệu tổng hợp, học từ các phương thức dữ liệu khác và cải thiện hiệu quả dữ liệu.
📌 Nghiên cứu cho thấy nguồn dữ liệu văn bản công khai 300 nghìn tỷ token sẽ đủ để huấn luyện các mô hình ngôn ngữ lớn đến năm 2028. Tuy nhiên, xu hướng huấn luyện quá mức có thể khiến nguồn dữ liệu này cạn kiệt sớm hơn, vào khoảng 2025-2027. Để duy trì đà phát triển sau năm 2030, các đổi mới như dữ liệu tổng hợp, học từ nhiều phương thức dữ liệu và cải thiện hiệu quả sử dụng dữ liệu sẽ là then chốt.
Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/201f6832-04f3-44d4-8c71-cd9327dc8e03/paste.txt
https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data
https://arxiv.org/pdf/2211.04325
- Nghiên cứu của Epoch AI dự báo các công ty công nghệ sẽ cạn kiệt nguồn cung cấp dữ liệu huấn luyện công khai cho các mô hình ngôn ngữ AI vào khoảng năm 2026-2032.
- Các công ty như OpenAI và Google đang chạy đua để đảm bảo các nguồn dữ liệu chất lượng cao để huấn luyện các mô hình ngôn ngữ lớn của AI.
- Trong dài hạn, sẽ không đủ blog, bài báo tin tức và bình luận trên mạng xã hội mới để duy trì tốc độ phát triển AI hiện tại.
- Các công ty sẽ phải sử dụng dữ liệu nhạy cảm như email, tin nhắn hoặc dữ liệu tổng hợp kém tin cậy do chính chatbot tạo ra.
- Lượng dữ liệu văn bản cấp cho các mô hình ngôn ngữ AI tăng khoảng 2.5 lần/năm, trong khi khả năng tính toán tăng khoảng 4 lần/năm.
- Xây dựng các hệ thống AI chuyên biệt hơn cho các tác vụ cụ thể cũng có thể giúp cải thiện AI mà không cần mở rộng mô hình.
- Huấn luyện trên dữ liệu do AI tạo ra có thể dẫn đến suy giảm hiệu suất và mã hóa thêm các lỗi, thiên vị trong hệ sinh thái thông tin.
- Các trang web như Reddit, Wikipedia và các nhà xuất bản tin tức, sách đang phải cân nhắc cách dữ liệu của họ được sử dụng cho huấn luyện AI.
- Trả tiền cho hàng triệu người để tạo ra văn bản huấn luyện AI có thể không hiệu quả về kinh tế để cải thiện hiệu suất kỹ thuật.
- OpenAI đã thử nghiệm tạo ra nhiều dữ liệu tổng hợp để huấn luyện thế hệ tiếp theo của mô hình GPT.
📌 Nghiên cứu của Epoch AI dự báo nguồn dữ liệu văn bản công khai để huấn luyện AI sẽ cạn kiệt vào khoảng 2026-2032. Các công ty đang chạy đua đảm bảo nguồn dữ liệu chất lượng cao, nhưng về lâu dài có thể phải dựa vào dữ liệu nhạy cảm hoặc do chính AI tạo ra, dẫn đến nguy cơ suy giảm hiệu suất và gia tăng sai lệch.
https://apnews.com/article/ai-artificial-intelligence-training-data-running-out-9676145bac0d30ecce1513c20561b87d
- PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không thành thạo SQL hoặc quản trị hệ thống tạo và gỡ lỗi các truy vấn SQL thông qua giao diện NLP.
- Các mô hình ngôn ngữ tinh vi chuyển đổi đầu vào của người dùng thành các truy vấn SQL có thể thực thi, cho phép người dùng tương tác với hệ thống và lấy thông tin dữ liệu cần thiết mà không cần nhiều kiến thức kỹ thuật.
- Các truy vấn được tạo ra sẽ được chạy bởi một công cụ truy vấn không máy chủ. PixelsDB cung cấp nhiều mức giá tùy thuộc vào mức độ khẩn cấp của truy vấn.
- Kiến trúc hệ thống được xây dựng để hỗ trợ các mức dịch vụ khác nhau thông qua thiết kế kiến trúc chuyên dụng và lập lịch tài nguyên dị nhất. Điều này cho phép hệ thống tối ưu hóa chi phí tổng thể mà không ảnh hưởng đến hiệu suất của các công việc quan trọng.
- Xử lý truy vấn không máy chủ, giao diện ngôn ngữ tự nhiên và các mức dịch vụ và giá cả tùy chỉnh của PixelsDB sẽ cải thiện đáng kể trải nghiệm người dùng trong phân tích dữ liệu.
📌 PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không chuyên SQL khám phá dữ liệu hiệu quả thông qua giao diện NLP, xử lý truy vấn không máy chủ và các mức dịch vụ tùy chỉnh. Hệ thống loại bỏ rào cản kỹ thuật, cung cấp giao diện thân thiện để tạo và thực thi truy vấn, từ đó tăng tính hiệu quả và khả năng tiếp cận của phân tích dữ liệu cho người dùng phi kỹ thuật.
https://www.marktechpost.com/2024/06/06/pixelsdb-an-open-source-data-analytic-system-that-allows-users-without-sql-expertise-to-explore-data-efficiently/
- Truy xuất lai (hybrid retrieval), còn gọi là truy xuất hợp nhất (fusion retrieval) hoặc truy xuất đa kênh, là phương pháp sử dụng đồng thời nhiều cách truy xuất thông tin khác nhau, sau đó gộp kết quả lại để đạt được kết quả truy xuất cuối cùng. Điều này giúp tận dụng ưu điểm và bù đắp nhược điểm của từng phương pháp, từ đó nâng cao độ chính xác và hiệu quả truy xuất.
- Quy trình truy xuất lai gồm các bước: tạo truy vấn (có thể đơn giản hoặc phức tạp), thực hiện tìm kiếm song song trên nhiều nguồn dữ liệu/chiều khác nhau, loại bỏ các kết quả trùng lặp và xếp hạng lại kết quả theo độ liên quan.
- Để xây dựng hệ thống truy xuất lai, bài viết sử dụng framework ứng dụng LLM LlamaIndex, mô hình ngôn ngữ lớn mã nguồn mở mới nhất Llama3 của Meta và công cụ tìm kiếm mã nguồn mở ElasticSearch. Tích hợp Llama3 vào LlamaIndex bằng lớp OpenAILike. Tích hợp ElasticSearch để lưu trữ vector của tài liệu và hỗ trợ tìm kiếm.
- Bên cạnh mô hình ngôn ngữ, truy xuất RAG còn cần mô hình Embedding để vector hóa và mô hình Rerank để sắp xếp lại kết quả truy xuất. Các mô hình này được triển khai cục bộ bằng công cụ TEI.
- Có 2 phương pháp truy xuất chính được sử dụng: tìm kiếm toàn văn (full-text search) dựa trên từ khóa và tìm kiếm vector (vector search) dựa trên độ tương đồng. ElasticSearch hỗ trợ cả 2 phương pháp này. Tìm kiếm vector gồm 2 chiến lược Dense và Sparse tùy theo mật độ của vector.
- Để thực hiện truy xuất lai, sử dụng phương thức của lớp ElasticSearch trong LlamaIndex với tham số hybrid=True. Tuy nhiên do phiên bản miễn phí của ElasticSearch không hỗ trợ sẵn tính năng này, cần tự cài đặt thuật toán sắp xếp RRF (Reciprocal Rank Fusion).
- Xây dựng lớp FusionRetriever kế thừa từ lớp BaseRetriever, nhận đầu vào là danh sách các truy vấn con. Gọi đồng thời các truy vấn này, sau đó dùng hàm fuse_results để gộp kết quả lại theo điểm RRF. Cuối cùng dùng mô hình Rerank để sắp xếp lại các kết quả theo độ liên quan.
- Kết quả truy xuất lai cho thấy điểm số RRF khá thấp, không phản ánh tốt độ liên quan thực tế. Vì vậy cần dùng thêm mô hình Rerank để đánh giá lại các kết quả. Sau khi sắp xếp lại bằng Rerank, điểm số đã cao hơn và phù hợp hơn.
📌 Bài viết đã hướng dẫn rất chi tiết các bước xây dựng một hệ thống truy xuất lai hiệu quả cho ứng dụng RAG, bao gồm: tích hợp các thành phần như mô hình ngôn ngữ lớn Llama3, công cụ tìm kiếm ElasticSearch, framework LlamaIndex; sử dụng đồng thời nhiều phương pháp truy xuất khác nhau như tìm kiếm toàn văn và tìm kiếm vector; tự cài đặt thuật toán sắp xếp và gộp kết quả RRF; sử dụng mô hình Rerank để sắp xếp lại kết quả cuối cùng theo độ liên quan. Nhờ đó có thể cải thiện đáng kể độ chính xác và hiệu năng của hệ thống truy xuất thông tin, đáp ứng tốt hơn nhu cầu của các ứng dụng AI tạo sinh.
https://generativeai.pub/advanced-rag-retrieval-strategies-hybrid-retrieval-997d39659720
- Mọi công ty đều là công ty dữ liệu, phát triển mạnh khi các quyết định được dẫn dắt và dựa trên dữ liệu chính xác. Điều này càng trở nên quan trọng hơn với sự ra đời của cuộc cách mạng AI.
- AI có tiềm năng cách mạng hóa mọi ngành công nghiệp. Được cung cấp dữ liệu phù hợp, AI có thể giúp cung cấp trải nghiệm khách hàng cá nhân hóa, tối ưu hóa chuỗi cung ứng, cải thiện phân tích dự đoán và tạo ra các sản phẩm, dịch vụ sáng tạo mới với tốc độ và độ chính xác chưa từng có.
- AI phụ thuộc vào chất lượng dữ liệu được đưa vào mô hình để đạt được kết quả tốt. Retrieval Augmented Generation (RAG) là một cách phổ biến mà các tổ chức áp dụng công nghệ AI tạo sinh thương mại vào tập dữ liệu.
- Trước khi có AI, khi đưa ra quyết định, nếu ai đó thấy dữ liệu không đáng tin cậy, nhóm dữ liệu của công ty sẽ phải gỡ lỗi, tìm ra nơi mọi thứ bị hỏng trong ngăn xếp và sửa chữa. Quyết định có thể bị trì hoãn vài ngày (hoặc vài tuần).
- Bây giờ, với AI, AI đưa ra quyết định và đề xuất (hoặc thực hiện) hành động. Con người khó nhận ra mọi thứ bị hỏng hơn nhiều, và cơ sở hạ tầng dữ liệu đáng tin cậy và mạnh mẽ trở nên quan trọng hơn bao giờ hết.
- Các nhóm dữ liệu cần xây dựng và sử dụng các công cụ đáng tin cậy, tự động và thông minh. Tin tốt là thế hệ công nghệ hiện đại mới này đã sẵn sàng để tận dụng khi cuộc cách mạng AI cất cánh.
- Với AI, điều cần thiết là dọn dẹp đầm lầy dữ liệu để sử dụng đúng dữ liệu trong các mô hình.
- Khi dữ liệu là động và liên tục được cập nhật, thực hiện tất cả công việc nội bộ và theo kịp tất cả các thay đổi gần như trong mọi trường hợp đã được chứng minh là một mô hình không bền vững.
- Một nền tảng chuyển đổi dữ liệu dựa trên nguồn mở là cách duy nhất để đảm bảo tất cả dữ liệu phù hợp dễ dàng tiếp cận với các mô hình AI sẽ định hướng các quyết định tác động để đưa doanh nghiệp của bạn tiến lên.
📌 Nền tảng chuyển đổi dữ liệu nguồn mở là yếu tố then chốt để đảm bảo dữ liệu phù hợp dễ dàng tiếp cận với các mô hình AI, giúp đưa ra quyết định tác động đưa doanh nghiệp tiến lên trong kỷ nguyên AI. Sự minh bạch, khả năng tùy chỉnh linh hoạt và hỗ trợ từ cộng đồng mang lại mức độ tin cậy cao nhất, bền vững trước khối lượng dữ liệu khổng lồ luôn biến đổi.
https://thenewstack.io/trust-in-genai-requires-an-open-data-movement-platform/
- RelationalAI, một startup áp dụng trí tuệ nhân tạo trực tiếp vào dữ liệu quan hệ, công bố tính khả dụng chung của Bộ đồng xử lý Đồ thị Tri thức trên Snowflake Data Cloud.
- Giải pháp này cho phép khách hàng Snowflake xây dựng đồ thị tri thức và tận dụng các khả năng AI và phân tích tiên tiến mà không cần di chuyển dữ liệu ra khỏi môi trường Snowflake.
- Kiến trúc của RelationalAI cho phép áp dụng AI tiên tiến trực tiếp trên dữ liệu doanh nghiệp có cấu trúc trong cơ sở dữ liệu quan hệ như Snowflake, khác với hầu hết các phương pháp machine learning và AI tập trung vào dữ liệu phi cấu trúc.
- RelationalAI báo cáo có sức hút ban đầu mạnh mẽ và "nhu cầu vô hạn" đối với giải pháp của mình, đặc biệt trong các ngành dịch vụ tài chính, viễn thông, bán lẻ và hàng tiêu dùng đóng gói.
- Khách hàng như AT&T, Block, Ritchie Bros và Blue Yonder đã sử dụng nền tảng này để xây dựng đồ thị tri thức cung cấp một lớp ngữ nghĩa trên dữ liệu doanh nghiệp phức tạp của họ.
- Việc ra mắt trên Snowflake là một cột mốc quan trọng đối với startup 50 người này, đã huy động được 122 triệu USD vốn đầu tư với định giá 569 triệu USD.
- Khi các mô hình ngôn ngữ lớn như GPT-4 thu hút sự chú ý của công chúng, CEO Molham Aref nhìn thấy đồ thị tri thức đóng vai trò quan trọng trong việc áp dụng AI tạo sinh trong doanh nghiệp.
📌 RelationalAI đã ra mắt Bộ đồng xử lý Đồ thị Tri thức trên Snowflake Data Cloud, cho phép khách hàng xây dựng đồ thị tri thức và áp dụng AI tiên tiến trực tiếp trên dữ liệu quan hệ có cấu trúc mà không cần di chuyển dữ liệu. Startup này đã huy động được 122 triệu USD và đang được định giá 569 triệu USD, với sự quan tâm ngày càng tăng đối với AI tạo sinh và đồ thị tri thức trong doanh nghiệp.
https://venturebeat.com/ai/relationalai-launches-powerful-knowledge-graph-coprocessor-for-snowflake-users/
- AI tạo sinh có tiềm năng dân chủ hóa AI và chuyển đổi mọi ngành, hỗ trợ mọi nhân viên và tương tác với mọi khách hàng. Đầu tư vào AI tạo sinh đang tăng vọt.
- Các tổ chức đang đưa nhiều mô hình vào sản xuất (tăng 411% so với cùng kỳ năm trước) và tăng thử nghiệm ML (tăng 54%). Tuy nhiên, họ vẫn thiếu sự tự tin vào các mô hình AI.
- Kỹ sư dữ liệu và nhà khoa học dữ liệu gặp khó khăn trong việc chuyển giao do nền tảng, công cụ và quy trình khác nhau. Thiếu quy trình thống nhất và kiểm soát truy cập giữa các hệ thống gây ra rủi ro.
- Cách tiếp cận lấy dữ liệu làm trung tâm đòi hỏi nền tảng dữ liệu thống nhất được xây dựng dựa trên trí tuệ dữ liệu. Nó dân chủ hóa quyền truy cập vào dữ liệu và đơn giản hóa vòng đời dự án AI.
- Databricks Feature Store cho phép các nhà khoa học dữ liệu dễ dàng tìm và chia sẻ các tính năng. Nó đóng gói mô hình với siêu dữ liệu tính năng để tự động truy xuất hoặc kết hợp các tính năng để chấm điểm dữ liệu mới.
- Databricks Mosaic AI cung cấp công cụ thống nhất để xây dựng, triển khai và giám sát các giải pháp AI và ML. Nó tích hợp hoàn toàn với phần còn lại của Nền tảng Trí tuệ Dữ liệu.
- Chia sẻ dữ liệu trên Nền tảng Trí tuệ Dữ liệu cho phép cộng tác đáng tin cậy cho các nhà cung cấp và người tiêu dùng dữ liệu. Databricks cung cấp một nền tảng chia sẻ mở và an toàn cho tất cả dữ liệu, phân tích và AI của bạn.
- MLflow và khả năng đăng ký mô hình được tích hợp trong Unity Catalog giúp các nhóm dữ liệu có thể quản lý việc triển khai mô hình trên các môi trường thực thi, chỉ định phiên bản nào đang hoạt động cho một mục đích nhất định thông qua bí danh, xem lịch sử các phiên bản trước đó.
- Databricks Model Serving là một dịch vụ thống nhất để triển khai, quản lý, truy vấn và giám sát các mô hình được tinh chỉnh hoặc triển khai trước bởi Databricks hoặc từ bất kỳ nhà cung cấp mô hình nào khác.
📌 Kỷ nguyên AI tạo sinh đòi hỏi cách tiếp cận lấy dữ liệu làm trung tâm và cộng tác, nơi các nhóm kỹ thuật dữ liệu và khoa học dữ liệu làm việc cùng nhau trên cùng dữ liệu để đảm bảo tính chính xác, chất lượng và quản trị của các giải pháp LLM đầu cuối. Nền tảng Trí tuệ Dữ liệu Databricks thống nhất quy trình, cung cấp công cụ giám sát tự động và theo dõi dòng dữ liệu của tất cả các mô hình, tính năng và dữ liệu để đảm bảo độ tin cậy của hệ thống, chất lượng mô hình và chất lượng dữ liệu.
Citations:
[1] https://www.databricks.com/sites/default/files/2024-04/Databricks-Connecting-Data-and-AI-final%29.pdf
- Dữ liệu huấn luyện đóng vai trò then chốt trong việc xây dựng các hệ thống AI tiên tiến ngày nay, nhưng chi phí ngày càng tăng cao.
- Các mô hình AI tạo sinh về cơ bản là các mô hình xác suất, dự đoán dựa trên một lượng lớn dữ liệu mẫu. Vì vậy, càng có nhiều dữ liệu huấn luyện, hiệu suất của mô hình càng tốt.
- Tuy nhiên, bên cạnh số lượng, chất lượng và sự chọn lọc dữ liệu cũng rất quan trọng. Một mô hình nhỏ với dữ liệu được thiết kế cẩn thận có thể vượt trội hơn mô hình lớn.
- Các chuyên gia lo ngại xu hướng nhấn mạnh vào các tập dữ liệu huấn luyện lớn, chất lượng cao sẽ tập trung phát triển AI vào một số ít công ty có ngân sách hàng tỷ đô la.
- Nhiều công ty AI tạo sinh đã thu thập khối lượng dữ liệu khổng lồ thông qua các phương thức đáng ngờ để huấn luyện mô hình, như OpenAI, Google, Meta.
- Các công ty lớn và nhỏ đang dựa vào lao động giá rẻ ở các nước thế giới thứ ba để gán nhãn dữ liệu huấn luyện, tiếp xúc với nội dung bạo lực mà không có phúc lợi hay đảm bảo việc làm.
- Thị trường dữ liệu huấn luyện AI dự kiến tăng từ 2.5 tỷ USD hiện tại lên gần 30 tỷ USD trong 10 năm tới. Các nhà môi giới dữ liệu đang đua nhau thu phí cao.
- Các nền tảng như Shutterstock, Reddit đã ký hợp đồng cấp phép dữ liệu trị giá hàng chục triệu USD cho các nhà phát triển AI, nhưng người dùng không nhận được đồng nào.
- Các tổ chức nghiên cứu nhỏ hơn sẽ không đủ khả năng chi trả giấy phép dữ liệu, dẫn đến thiếu giám sát độc lập đối với các hoạt động phát triển AI.
- Một số nỗ lực độc lập, phi lợi nhuận để tạo ra các tập dữ liệu khổng lồ mà bất kỳ ai cũng có thể sử dụng để huấn luyện mô hình AI tạo sinh, như The Pile v2, FineWeb. Tuy nhiên, họ gặp nhiều thách thức về bản quyền, quyền riêng tư dữ liệu.
📌 Khi việc thu thập và chọn lọc dữ liệu vẫn là vấn đề về nguồn lực, các nỗ lực mở khó có thể theo kịp các công ty công nghệ lớn trong cuộc đua phát triển AI. Cần có đột phá nghiên cứu để san bằng sân chơi, tránh nguy cơ độc quyền và bất bình đẳng trong hệ sinh thái AI tạo sinh.
Citations:
https://techcrunch.com/2024/06/01/ai-training-data-has-a-price-tag-that-only-big-tech-can-afford/
- Retrieval-Augmented Generation (RAG) là một chiến lược kiến trúc giúp nâng cao hiệu quả của các ứng dụng Large Language Model (LLM) bằng cách sử dụng dữ liệu tùy chỉnh.
- RAG truyền thống tham chiếu đến các cơ sở tri thức bên ngoài trước khi tạo phản hồi để cải thiện đầu ra của LLM.
- Agentic RAG mở rộng khả năng của RAG truyền thống bằng cách thêm các tác nhân tự trị mang lại trí thông minh và ra quyết định ở cấp độ mới.
- Các tác nhân Agentic RAG nhận thức được ngữ cảnh rộng hơn của cuộc hội thoại, sử dụng các kỹ thuật truy xuất thông minh, phối hợp đa tác nhân, lập luận, xác minh sau khi tạo và có khả năng thích ứng, học hỏi.
- Kiến trúc Agentic RAG bao gồm Agentic RAG Agent điều phối một nhóm các công cụ chuyên biệt kết nối với các nguồn dữ liệu khác nhau. Meta-Agent cấp cao quản lý tương tác giữa các tác nhân tài liệu.
- Agentic RAG có nhiều ứng dụng như dịch vụ khách hàng, trợ lý ảo, tạo nội dung, giáo dục, y tế, pháp lý.
- Các thách thức của Agentic RAG bao gồm: đảm bảo chất lượng dữ liệu, khả năng mở rộng, hiệu quả, khả năng giải thích, bảo mật, quyền riêng tư và các vấn đề đạo đức.
📌 Agentic RAG đánh dấu bước tiến quan trọng trong công nghệ AI, kết hợp sức mạnh của các tác nhân tự trị với lợi ích của RAG truyền thống. Khả năng phản hồi thông minh, phù hợp ngữ cảnh trước các truy vấn phức tạp khiến nó trở thành công cụ không thể thiếu trong tương lai, mở ra những cơ hội mới cho doanh nghiệp và thay đổi cách con người sử dụng, tương tác với thông tin.
https://www.marktechpost.com/2024/05/28/the-rise-of-agentic-retrieval-augmented-generation-rag-in-artificial-intelligence-ai/
- Một lực lượng đặc nhiệm của cơ quan giám sát quyền riêng tư EU nhận thấy nỗ lực của OpenAI trong việc cải thiện độ chính xác của ChatGPT là chưa đủ để tuân thủ nguyên tắc độ chính xác dữ liệu trong các quy tắc bảo vệ dữ liệu của EU.
- Báo cáo nhấn mạnh rằng bản chất xác suất của hệ thống và phương pháp huấn luyện hiện tại có thể tạo ra các kết quả thiên vị hoặc bịa đặt.
- Người dùng cuối có xu hướng coi các kết quả của ChatGPT là chính xác, bao gồm cả thông tin liên quan đến cá nhân, bất kể độ chính xác thực tế.
- EU đang dẫn đầu trong việc áp dụng các quy định AI nghiêm ngặt. Vào tháng 3, EU đã giới thiệu các quy định AI mang tính lịch sử, thiết lập tiêu chuẩn mới cho các công ty công nghệ như Apple và Amazon.
- Vào tháng 4, EU đã thông qua khoản đầu tư 13 tỷ USD của Microsoft vào OpenAI sau một cuộc điều tra chính thức. Quyết định này được coi là sự nhẹ nhõm cho các gã khổng lồ công nghệ đang ngày càng đầu tư vào AI.
📌 ChatGPT của OpenAI chưa đáp ứng các tiêu chuẩn dữ liệu nghiêm ngặt của EU do bản chất xác suất và phương pháp huấn luyện hiện tại. Mặc dù vậy, EU vẫn thông qua khoản đầu tư 13 tỷ USD của Microsoft vào OpenAI, mở đường cho các công ty công nghệ lớn phát triển AI tuân thủ quy định mới.
https://www.benzinga.com/news/24/05/39008506/openais-chatgpt-fails-to-meet-eus-data-accuracy-standards-says-privacy-watchdog
- **Khẩu hiệu mới của Google**: Tại sự kiện Google I/O, Google đã giới thiệu khẩu hiệu mới: "đánh cắp thông tin của thế giới và làm cho nó trở nên phổ biến và hữu ích". Khẩu hiệu này phản ánh cách Google sử dụng AI để thu thập và sử dụng thông tin từ các trang web khác.
- **Sự thay đổi trong quản lý**: Dưới sự lãnh đạo của CEO Sundar Pichai, Google đã thay đổi từ một công ty sáng tạo với những dự án lớn như loại bỏ cái chết, thành một công ty tập trung vào việc cắt giảm nhân sự để làm hài lòng Wall Street.
- **Sử dụng AI để thu thập thông tin**: Google đã xây dựng một cơ sở dữ liệu khổng lồ với hàng tỷ thông tin về con người, địa điểm và sự vật. Thông tin này được thu thập từ các trang web khác, mà không có sự đồng ý của họ.
- **Ảnh hưởng đến các trang web khác**: Các cập nhật tìm kiếm của Google đã làm giảm lượng truy cập của nhiều trang web, thậm chí có thể dẫn đến việc các trang web này bị loại khỏi các kết quả tìm kiếm nổi bật. Điều này cho phép Google sử dụng thông tin từ các trang web này để tạo ra các đoạn văn bản do AI viết.
- **Phản ứng của cộng đồng**: Mặc dù có nhiều chỉ trích về cách Google sử dụng thông tin, công ty vẫn tiếp tục với chiến lược của mình. Điều này cho thấy sức mạnh của Google trong thị trường tìm kiếm internet và khả năng sử dụng các mô hình ngôn ngữ lớn để thu thập và sử dụng thông tin.
📌 Google đã thay đổi khẩu hiệu thành "đánh cắp thông tin của thế giới và làm cho nó trở nên phổ biến và hữu ích", sử dụng AI để thu thập thông tin từ các trang web khác. Dưới sự lãnh đạo của Sundar Pichai, Google tập trung vào cắt giảm nhân sự và sử dụng thông tin từ các trang web khác để tạo ra nội dung AI.
Citations:
[1] https://bgr.com/business/googles-new-motto-to-steal-the-worlds-information-and-make-it-universally-accessible-and-useful/
- Slack đang vấp phải tranh cãi xoay quanh việc mặc định thu thập dữ liệu khách hàng để huấn luyện các mô hình AI sau khi ra mắt tính năng AI vào tháng 2.
- Kỹ sư Aaron Maurer của Slack thừa nhận chính sách bảo mật của công ty cần làm rõ hơn về cách áp dụng các nguyên tắc này cho Slack AI. Ông giải thích Slack không huấn luyện các mô hình ngôn ngữ lớn (LLM) trên dữ liệu khách hàng.
- Tuy nhiên, những thay đổi này dường như chưa giải quyết được mối quan ngại chính của người dùng chưa bao giờ đồng ý rõ ràng việc chia sẻ các cuộc trò chuyện và nội dung Slack khác để sử dụng trong huấn luyện AI.
- Tranh cãi xung quanh chính sách này không mới, với Wired cảnh báo từ tháng 4 và TechCrunch đưa tin chính sách đã có từ ít nhất tháng 9/2023.
- Kỹ sư và nhà văn Gergely Orosz kêu gọi các công ty chọn không chia sẻ dữ liệu cho đến khi chính sách được làm rõ, lập luận rằng một bài đăng blog không phải là chính sách bảo mật.
- Có sự mâu thuẫn giữa các nguyên tắc bảo mật của Slack (cho biết hệ thống phân tích dữ liệu khách hàng để phát triển mô hình AI/ML) và trang Slack AI (tuyên bố không sử dụng dữ liệu khách hàng để huấn luyện AI).
📌 Slack đang đối mặt với sự phản đối gay gắt của người dùng về chính sách mặc định thu thập dữ liệu để huấn luyện AI. Mặc dù công ty đã đưa ra phản hồi, nhưng vẫn chưa giải quyết được mối lo ngại cốt lõi về việc thiếu sự đồng ý rõ ràng từ phía người dùng. Tranh cãi này đã xuất hiện từ ít nhất tháng 9/2023 và cho thấy sự mâu thuẫn giữa các nguyên tắc bảo mật và tiếp thị của Slack.
Citations:
[1] https://arstechnica.com/tech-policy/2024/05/slack-defends-default-opt-in-for-ai-training-on-chats-amid-user-outrage/
- **Tweet của Mark Cummins**: Đề cập đến việc chúng ta đang gần cạn kiệt nguồn dữ liệu văn bản toàn cầu cần thiết cho việc huấn luyện các mô hình ngôn ngữ lớn (LLM) do sự gia tăng tiêu thụ dữ liệu và yêu cầu khắt khe của các LLM thế hệ mới.
- **Dữ liệu web**: Phần văn bản tiếng Anh của tập dữ liệu FineWeb, một phần của dữ liệu web Common Crawl, có khoảng 15 nghìn tỷ token. Khi thêm nội dung web không phải tiếng Anh chất lượng cao, tập dữ liệu này có thể tăng gấp đôi kích thước.
- **Kho mã nguồn**: Khoảng 0,78 nghìn tỷ token được đóng góp bởi mã nguồn công khai, như trong tập dữ liệu Stack v2. Tổng lượng mã nguồn trên toàn thế giới ước tính lên đến hàng chục nghìn tỷ token.
- **Ấn phẩm học thuật và bằng sáng chế**: Tổng khối lượng của các ấn phẩm học thuật và bằng sáng chế là khoảng 1 nghìn tỷ token, một phần dữ liệu văn bản độc đáo nhưng đáng kể.
- **Sách**: Các bộ sưu tập sách kỹ thuật số từ các trang như Google Books và Anna’s Archive có hơn 21 nghìn tỷ token. Khi tính đến mọi cuốn sách khác biệt trên thế giới, tổng số token có thể lên đến 400 nghìn tỷ.
- **Lưu trữ mạng xã hội**: Nội dung do người dùng tạo trên các nền tảng như Weibo và Twitter chiếm khoảng 49 nghìn tỷ token. Facebook nổi bật với 140 nghìn tỷ token, nhưng đây là nguồn tài nguyên khó tiếp cận do các vấn đề về quyền riêng tư và đạo đức.
- **Chuyển đổi âm thanh thành văn bản**: Các nguồn âm thanh công khai như YouTube và TikTok đóng góp khoảng 12 nghìn tỷ token vào tập dữ liệu huấn luyện.
- **Giao tiếp cá nhân**: Email và các cuộc trò chuyện tức thời lưu trữ có tổng cộng khoảng 1.800 nghìn tỷ token. Việc tiếp cận dữ liệu này bị hạn chế, gây ra các vấn đề về quyền riêng tư và đạo đức.
- **Giới hạn hiện tại**: Các tập dữ liệu huấn luyện LLM hiện tại gần đạt mức 15 nghìn tỷ token, đại diện cho lượng văn bản tiếng Anh chất lượng cao có sẵn. Việc tiếp cận các nguồn khác như sách, chuyển đổi âm thanh và các ngôn ngữ khác có thể tăng tổng số token lên 60 nghìn tỷ.
- **Dữ liệu tổng hợp**: Do hạn chế về nguồn dữ liệu văn bản có thể chấp nhận về mặt đạo đức, việc tạo dữ liệu tổng hợp trở thành hướng đi quan trọng cho nghiên cứu AI trong tương lai. Các kho dữ liệu tư nhân của Google và Facebook có số lượng token lên đến hàng nghìn tỷ, nhưng không thể tiếp cận được.
📌 Sự cạn kiệt dữ liệu huấn luyện LLM đang đến gần, với các tập dữ liệu hiện tại gần đạt mức 15 nghìn tỷ token. Việc tạo dữ liệu tổng hợp trở nên quan trọng để duy trì sự phát triển AI, với các nguồn dữ liệu tư nhân không thể tiếp cận và các vấn đề đạo đức cần được giải quyết.
https://www.marktechpost.com/2024/05/14/large-language-model-llm-training-data-is-running-out-how-close-are-we-to-the-limit/
- Informa, công ty của Anh chuyên về xuất bản và tổ chức sự kiện, đã ký kết một thỏa thuận trị giá hơn 10 triệu đô la với Microsoft để cung cấp quyền truy cập vào dữ liệu của mình từ năm 2024 đến 2027.
- Thỏa thuận nhằm mục đích mở rộng việc sử dụng AI trong kinh doanh của Informa và khẳng định giá trị độc đáo của tài sản trí tuệ của họ.
- Đây là một trong những thỏa thuận mới nhất giữa một nhóm truyền thông và một nhà phát triển AI, cung cấp công cụ và hệ thống mới cho Informa đồng thời giúp Microsoft huấn luyện mô hình của mình trên dữ liệu chuyên ngành.
- Thỏa thuận giúp Informa đạt được các mục tiêu tài chính của mình, với kết quả kinh doanh mạnh mẽ và quan hệ đối tác với Microsoft giúp công ty dự kiến đạt được mức cao nhất trong hướng dẫn thị trường về doanh thu, lợi nhuận hoạt động điều chỉnh và dòng tiền tự do.
- Stephen Carter, CEO của Informa, cho biết công ty có "một lượng lớn dữ liệu và nội dung được tái tạo hàng năm".
- Informa đã hưởng lợi từ sự phục hồi sau Covid trong các sự kiện toàn cầu, với kết quả kinh doanh tốt ở tất cả các khu vực chính bao gồm Bắc Mỹ, Châu Á và Ấn Độ, cũng như Trung Đông và Châu Phi.
- Cổ phiếu của Informa tăng gần 3% vào sáng thứ Tư, lên £8.50.
- Informa đã tăng chương trình mua lại cổ phiếu năm 2024 của mình khoảng 50% lên £500 triệu và dự kiến doanh thu sẽ đạt gần £3.5 tỷ trong năm tài chính hiện tại, tăng từ £3.2 tỷ vào năm 2023.
- Công ty cũng dự đoán lợi nhuận hoạt động điều chỉnh gần £970 triệu, tăng từ £853.8 triệu năm trước.
- Informa đã đề xuất tạo ra một nhóm liên kết được niêm yết trên Nasdaq sau khi đồng ý sáp nhập các doanh nghiệp kỹ thuật số của mình với TechTarget của Mỹ, với Informa sẽ sở hữu phần lớn cổ phần sau khi thỏa thuận được hoàn tất.
📌 Informa và Microsoft đã ký kết một thỏa thuận trị giá hơn 10 triệu đô la, kéo dài từ 2024 đến 2027, nhằm mục đích mở rộng việc sử dụng AI và khẳng định giá trị của tài sản trí tuệ của Informa. Thỏa thuận này không chỉ mang lại công cụ và hệ thống mới cho Informa mà còn giúp Microsoft huấn luyện mô hình AI của mình.
https://www.ft.com/content/3ed7737e-3649-4afb-9071-caa13e7394d9
#FT
- Stack Overflow, một diễn đàn nổi tiếng dành cho lập trình viên và nhà phát triển, đang đối mặt với làn sóng phản đối dữ dội từ người dùng sau khi thông báo hợp tác với OpenAI để sử dụng các bài đăng trên diễn đàn nhằm huấn luyện ChatGPT.
- Nhiều người dùng đã xóa hoặc chỉnh sửa các câu hỏi và câu trả lời của họ để ngăn chặn việc bị sử dụng để đào tạo AI. Những hành động này đã bị các điều hành viên của trang web trừng phạt bằng lệnh cấm.
- Người dùng Stack Overflow tên Ben đã chia sẻ trên Mastodon về việc anh chỉnh sửa các câu trả lời thành công nhất của mình để tránh bị OpenAI đánh cắp.
- Ben nhấn mạnh rằng mọi thứ bạn đăng trên bất kỳ nền tảng nào cũng có thể và sẽ bị sử dụng vì lợi nhuận. Chỉ là vấn đề thời gian cho đến khi tất cả các tin nhắn của bạn trên Discord, Twitter, v.v. bị quét, đưa vào mô hình và bán lại cho bạn.
- Người dùng cũng đặt câu hỏi tại sao ChatGPT không thể đơn giản chia sẻ doanh thu quảng cáo với những người đóng góp nội dung.
- Tuy nhiên, Điều khoản Dịch vụ của Stack Overflow có một điều khoản quy định quyền sở hữu không thể thu hồi của Stack Overflow đối với tất cả nội dung mà người dùng cung cấp cho trang web.
- Người dùng không đồng ý với việc ChatGPT quét nội dung của họ đặc biệt phẫn nộ trước sự thay đổi chính sách nhanh chóng của Stack Overflow liên quan đến AI tạo sinh.
- Trong nhiều năm, trang web có chính sách cấm sử dụng AI tạo sinh trong việc viết hoặc diễn đạt lại bất kỳ câu hỏi hoặc câu trả lời nào được đăng. Điều hành viên được phép và khuyến khích sử dụng phần mềm phát hiện AI khi xem xét các bài đăng.
- Tuy nhiên, kể từ tuần trước, công ty đã bắt đầu thay đổi nhanh chóng quan điểm công khai của mình đối với AI. CEO Prashanth Chandrasekar đã dành bài đăng blog hàng quý ca ngợi AI tạo sinh, nói rằng "sự trỗi dậy của GenAI là một cơ hội lớn cho Stack."
- Các điều hành viên nhanh chóng được hướng dẫn ngừng xóa các câu hỏi và câu trả lời do AI tạo ra trên diễn đàn.
📌 Stack Overflow đang đối mặt với sự phản đối gay gắt từ người dùng sau khi hợp tác với OpenAI để sử dụng nội dung diễn đàn huấn luyện ChatGPT. Nhiều người đã xóa/sửa bài đăng để ngăn AI sử dụng, dẫn đến việc bị cấm. Công ty đã đảo ngược lập trường về AI tạo sinh, cho phép sử dụng trên diễn đàn bất chấp sự phản đối của cộng đồng.
Citations:
[1] https://www.tomshardware.com/tech-industry/artificial-intelligence/stack-overflow-bans-users-en-masse-for-rebelling-against-openai-partnership-users-banned-for-deleting-answers-to-prevent-them-being-used-to-train-chatgpt
- Daloopa, một công ty khởi nghiệp AI, đang sử dụng công nghệ trí tuệ nhân tạo để tự động hóa quy trình làm việc của các nhà phân tích tài chính.
- Công ty đã huy động được 20 triệu USD trong vòng gọi vốn Series A do Craft Ventures dẫn đầu.
- Daloopa sử dụng các thuật toán học máy để trích xuất dữ liệu tài chính từ các tài liệu phi cấu trúc như báo cáo hàng năm, bản trình bày của nhà đầu tư và thông cáo báo chí.
- Công nghệ của Daloopa có thể xử lý hàng nghìn trang tài liệu trong vài phút, tiết kiệm thời gian đáng kể so với phương pháp thủ công.
- Dữ liệu được trích xuất sau đó được chuẩn hóa và tổ chức thành các bộ dữ liệu có cấu trúc mà các nhà phân tích có thể sử dụng trong mô hình và báo cáo của họ.
- Daloopa cũng cung cấp các công cụ trực quan hóa dữ liệu tích hợp, cho phép người dùng khám phá và phân tích dữ liệu một cách dễ dàng.
- Khách hàng của Daloopa bao gồm các quỹ đầu tư, ngân hàng và các tổ chức tài chính khác.
- Công ty tuyên bố đã xử lý hơn 10 triệu tài liệu và trích xuất hơn 1 tỷ điểm dữ liệu.
- Daloopa có kế hoạch sử dụng vốn mới để mở rộng đội ngũ kỹ thuật, phát triển sản phẩm và mở rộng hoạt động tiếp thị và bán hàng.
- Thị trường dữ liệu tài chính dự kiến sẽ đạt 15,4 tỷ USD vào năm 2027, với tốc độ tăng trưởng hàng năm kép là 6,3%.
📌 Daloopa đang cách mạng hóa ngành phân tích tài chính bằng cách sử dụng AI để tự động hóa việc trích xuất và phân tích dữ liệu từ các tài liệu phi cấu trúc. Với khoản đầu tư 20 triệu USD và khả năng xử lý hàng triệu tài liệu, công ty đang định vị để trở thành người dẫn đầu trong thị trường dữ liệu tài chính đang phát triển nhanh chóng.
Citations:
[1] https://techcrunch.com/2024/05/07/daloopa-trains-ai-to-automate-financial-analysts-workflows/
- Trong vụ kiện tập thể của Hiệp hội Tác giả chống OpenAI, tài liệu mới tiết lộ việc xóa 2 bộ dữ liệu "books1" và "books2", được cho là quan trọng trong huấn luyện mô hình GPT-3.
- Theo hồ sơ tòa án, 2 bộ dữ liệu này chứa "hơn 100.000 cuốn sách đã xuất bản", là trọng tâm cáo buộc của Hiệp hội về việc OpenAI sử dụng tài liệu có bản quyền để phát triển AI.
- OpenAI ban đầu từ chối cung cấp thông tin về bộ dữ liệu vì lo ngại bảo mật, sau đó thừa nhận đã xóa toàn bộ.
- Báo cáo năm 2020 của OpenAI mô tả books1 và books2 là "kho sách trên internet", chiếm 16% dữ liệu huấn luyện GPT-3.
- OpenAI cho biết ngừng sử dụng books1 và books2 từ cuối 2021, xóa giữa 2022 do không hoạt động, các bộ dữ liệu khác vẫn còn nguyên.
- Tài liệu cũng tiết lộ 2 nhân viên OpenAI tạo ra books1 và books2 đã rời công ty. OpenAI đề nghị tòa giữ bí mật danh tính của họ.
- Hiệp hội Tác giả phản đối, ủng hộ minh bạch và quyền được biết của công chúng.
- OpenAI tuyên bố các mô hình của ChatGPT và DALL-E không sử dụng dữ liệu có bản quyền.
📌 Vụ kiện của Hiệp hội Tác giả chống OpenAI đang làm nóng tranh cãi về việc sử dụng tài liệu có bản quyền trong huấn luyện AI. Tài liệu mới tiết lộ OpenAI đã xóa 2 bộ dữ liệu books1 và books2 chứa hơn 100.000 cuốn sách, chiếm 16% dữ liệu huấn luyện GPT-3. Công ty đề nghị giữ bí mật thông tin liên quan, trong khi Hiệp hội đòi minh bạch.
Citations:
[1] https://www.businessinsider.com/openai-destroyed-ai-training-datasets-lawsuit-authors-books-copyright-2024-5
• Sự sụp đổ của Silicon Valley Bank vào tháng 3/2024 đã ảnh hưởng lớn đến ngành công nghệ, gây lo ngại về khả năng tiếp cận vốn để đổi mới sáng tạo. Tuy nhiên, AI tạo sinh vẫn thu hút nhiều đầu tư trong năm qua.
• AI mang lại nhiều khả năng cho doanh nghiệp như tăng hiệu quả, mở rộng dịch vụ và tạo ra những hiểu biết mới về dữ liệu và nhu cầu khách hàng.
• Để thúc đẩy sự phát triển của AI, các nền tảng dữ liệu cần có 3 yếu tố: tốc độ, sự đơn giản và quy mô.
• Tốc độ: Cần tối ưu hóa hiệu suất của nền tảng dữ liệu, đảm bảo tốc độ xử lý nhanh. Đồng thời cũng cần cân bằng giữa tốc độ và bảo mật, áp dụng các biện pháp an ninh phù hợp.
• Quy mô: Nền tảng dữ liệu cần có khả năng mở rộng quy mô linh hoạt để đáp ứng sự tăng trưởng của dữ liệu và người dùng. Cần tránh các nút thắt cổ chai có thể cản trở việc mở rộng.
• Sự đơn giản: Nền tảng dữ liệu cần đơn giản, dễ sử dụng để nhà phát triển có thể triển khai nhanh chóng. Cần hạn chế các tính năng không cần thiết gây cản trở trải nghiệm người dùng.
📌 Việc áp dụng 3 yếu tố tốc độ, quy mô và sự đơn giản sẽ giúp các nền tảng dữ liệu thúc đẩy sự phát triển của AI, nâng cao hiệu quả hoạt động và mang lại lợi thế cạnh tranh cho doanh nghiệp trong thời đại số.
Citations:
[1] https://www.forbes.com/sites/forbesbusinesscouncil/2024/05/03/unleashing-ai-three-keys-to-developing-a-successful-data-platform/?sh=3eda7e4c606e
- Oracle giới thiệu Oracle Database 23ai, công nghệ cơ sở dữ liệu mới tích hợp các khả năng AI.
- Phiên bản này hiện có sẵn dưới dạng một bộ dịch vụ đám mây, tập trung vào việc hợp lý hóa việc sử dụng AI, nâng cao phát triển ứng dụng và hỗ trợ các khối lượng công việc quan trọng.
- Tính năng chính của nó, Oracle AI Vector Search, giúp tìm kiếm dữ liệu trở nên đơn giản bằng cách cho phép người dùng tìm kiếm tài liệu, hình ảnh và dữ liệu quan hệ dựa trên nội dung khái niệm thay vì các từ khóa hoặc giá trị dữ liệu cụ thể.
- AI Vector Search tạo điều kiện cho các truy vấn ngôn ngữ tự nhiên trên dữ liệu kinh doanh riêng trong cơ sở dữ liệu Oracle, loại bỏ nhu cầu di chuyển hoặc sao chép dữ liệu để xử lý AI.
- Tích hợp AI thời gian thực trong cơ sở dữ liệu nâng cao hiệu quả, bảo mật và hiệu quả hoạt động.
- Oracle Database 23ai có sẵn trong Oracle Cloud Infrastructure (OCI) trên Oracle Exadata Database Service, Oracle Exadata Cloud@Customer và Oracle Base Database Service, cũng như trên Oracle Database@Azure.
- Juan Loaiza, Phó Chủ tịch Điều hành của Oracle về Công nghệ Cơ sở dữ liệu quan trọng, nhấn mạnh tầm quan trọng của Oracle Database 23ai, coi đó là một bước đột phá cho các doanh nghiệp toàn cầu.
- Các cải tiến chính trong Oracle Database 23ai bao gồm AI Vector Search cho tìm kiếm ngữ nghĩa, Oracle Exadata System Software 24ai để tăng tốc xử lý AI và OCI GoldenGate 23ai để sao chép dữ liệu thời gian thực trên các kho dữ liệu không đồng nhất.
- Những đổi mới này trao quyền cho các nhà phát triển xây dựng các ứng dụng thông minh, tận dụng các mô hình dữ liệu JSON và đồ thị, đồng thời đảm bảo tính khả dụng và bảo mật của dữ liệu quan trọng.
📌 Oracle Database 23ai mang đến sức mạnh của AI cho dữ liệu doanh nghiệp, với các tính năng như AI Vector Search giúp tìm kiếm dữ liệu trở nên đơn giản bằng cách cho phép người dùng tìm kiếm tài liệu, hình ảnh và dữ liệu quan hệ dựa trên nội dung khái niệm thay vì các từ khóa hoặc giá trị dữ liệu cụ thể. Oracle Exadata System Software 24ai để tăng tốc xử lý AI và OCI GoldenGate 23ai để sao chép dữ liệu thời gian thực trên các kho dữ liệu không đồng nhất.
Citations:
[1] https://analyticsindiamag.com/oracle-launches-database-23ai-brings-ai-power-to-enterprise-data/
- Các mô hình ngôn ngữ lớn (LLM) đã trở thành công cụ sáng tạo mạnh mẽ, biến các lời nhắc đơn giản thành vô số khả năng.
- Tuy nhiên, dữ liệu đầu vào của LLM liên quan đến nhiều hệ thống doanh nghiệp, gây ra thách thức về bảo mật dữ liệu.
- LLM còn non trẻ và chưa được hiểu hoàn toàn. Tùy thuộc vào mô hình, chúng có thể tiếp xúc với dữ liệu nhạy cảm hoặc độc hại.
- Các tổ chức cần đảm bảo vệ sinh dữ liệu tốt bằng cách sử dụng dữ liệu sạch và mô hình đáng tin cậy.
- Giải pháp bao gồm: kiểm soát quyền truy cập, mã hóa, che giấu dữ liệu, kiểm tra và cân bằng dữ liệu huấn luyện.
- Cần có quy trình rõ ràng để xử lý các vấn đề về dữ liệu, như loại bỏ thông tin nhạy cảm và xác minh tính xác thực của dữ liệu.
- Đào tạo nhân viên về an ninh dữ liệu và thiết lập các biện pháp kiểm soát truy cập mạnh mẽ là rất quan trọng.
- Các tổ chức nên cân nhắc sử dụng các công cụ và dịch vụ chuyên dụng để quản lý và bảo vệ dữ liệu trong môi trường LLM.
📌LLM mang lại tiềm năng to lớn nhưng cũng đặt ra thách thức về bảo mật dữ liệu. Để tận dụng sức mạnh của LLM một cách an toàn, các tổ chức cần áp dụng các biện pháp như kiểm soát truy cập, mã hóa, che giấu dữ liệu, kiểm tra dữ liệu huấn luyện và đào tạo nhân viên. Sử dụng dữ liệu sạch và mô hình đáng tin cậy là chìa khóa để đảm bảo vệ sinh dữ liệu tốt trong môi trường LLM.
Citations:
[1] https://thenewstack.io/clean-data-trusted-model-ensure-good-data-hygiene-for-your-llms/
- Các công ty AI hàng đầu như Microsoft, Google, Meta đang thử nghiệm sử dụng dữ liệu tổng hợp (synthetic data) để đáp ứng nhu cầu khổng lồ về dữ liệu chất lượng cao.
- Dữ liệu tổng hợp được tạo ra bởi chính các hệ thống AI, sau đó dùng để huấn luyện các phiên bản tương lai của hệ thống đó, tạo thành một "động cơ sinh dữ liệu vô hạn".
- Anthropic, Meta, Google đã sử dụng dữ liệu tổng hợp để phát triển các mô hình mới. Microsoft cũng dùng phương pháp này để xây dựng mô hình ngôn ngữ Phi-3.
- Một số chuyên gia lo ngại rủi ro của kỹ thuật này như làm trầm trọng thêm độc hại và sai lệch trong dữ liệu. Nghiên cứu cho thấy mô hình AI được huấn luyện bằng dữ liệu tổng hợp có thể mất trí nhớ và sinh ra ngôn ngữ vô nghĩa.
- Tuy nhiên, những người ủng hộ cho rằng với biện pháp thích hợp, mô hình được phát triển theo cách này có thể chính xác hơn mô hình dựa trên dữ liệu thực.
- Tranh luận triết học nảy sinh: Liệu AI sẽ trở thành bắt chước ngôn ngữ của máy móc khác thay vì trí tuệ con người? Các chuyên gia đồng ý rằng con người vẫn cần thiết để tạo ra và tinh chỉnh dữ liệu nhân tạo hữu ích.
📌 Các công ty AI đang chuyển sang sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện các mô hình mới, giúp giảm bớt các vấn đề pháp lý và đạo đức liên quan đến việc thu thập dữ liệu thực. Tuy nhiên, phương pháp này tiềm ẩn rủi ro làm gia tăng sai lệch và mất trí nhớ của AI. Các chuyên gia nhấn mạnh vai trò không thể thiếu của con người trong việc tạo ra dữ liệu tổng hợp hữu ích.
Citations:
[1] https://www.bloomberg.com/news/newsletters/2024-05-02/microsoft-google-and-meta-bet-on-fake-data-to-train-ai-models
- Cuộc đua vũ trang AI đang chuyển hướng sang cuộc cạnh tranh thu thập dữ liệu chuyên gia chất lượng cao.
- Các công ty như Anthropic, OpenAI và DeepMind đang tìm cách thu thập dữ liệu từ các chuyên gia trong nhiều lĩnh vực để đào tạo mô hình AI của họ.
- Dữ liệu chuyên gia được coi là "vàng" trong cuộc đua phát triển AI, vì nó giúp tạo ra các hệ thống AI mạnh mẽ, chính xác và đáng tin cậy hơn.
- Anthropic đã huy động được 300 triệu USD để mở rộng quy mô thu thập dữ liệu chuyên gia.
- Dữ liệu chuyên gia có thể giúp các mô hình AI vượt trội hơn so với các mô hình được đào tạo bằng dữ liệu chung.
- Tuy nhiên, việc thu thập dữ liệu chuyên gia gặp nhiều thách thức, như chi phí cao, khó tiếp cận và lo ngại về quyền riêng tư.
- Một số chuyên gia lo ngại rằng việc các công ty tích lũy dữ liệu chuyên gia có thể dẫn đến sự tập trung quyền lực và ảnh hưởng quá mức.
📌 Cuộc đua vũ trang AI đang chuyển hướng sang cuộc cạnh tranh giành dữ liệu chuyên gia chất lượng cao. Các công ty như Anthropic, OpenAI và DeepMind đang đầu tư mạnh để thu thập dữ liệu từ các chuyên gia, với mục tiêu tạo ra các hệ thống AI vượt trội. Tuy nhiên, quá trình này đối mặt với nhiều thách thức như chi phí cao, khó tiếp cận và lo ngại về quyền riêng tư cũng như sự tập trung quyền lực.
- Salesforce đã công bố một loạt các tính năng mới được hỗ trợ bởi AI cho nền tảng phân tích dữ liệu Tableau.
- Các tính năng mới bao gồm trợ lý ảo tích hợp AI có thể trả lời các câu hỏi bằng ngôn ngữ tự nhiên, tự động tạo biểu đồ và tóm tắt thông tin.
- Tính năng "Data Stories" sử dụng xử lý ngôn ngữ tự nhiên để tạo ra các bản tóm tắt bằng văn bản về thông tin quan trọng trong dữ liệu.
- Công cụ "Tableau Autopilot" có thể tự động tạo ra các bảng điều khiển và trực quan hóa dữ liệu dựa trên dữ liệu đầu vào.
- Trợ lý ảo "Tableau Sidekick" cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận câu trả lời trực quan.
- Các tính năng mới sẽ giúp người dùng Tableau, từ người mới đến chuyên gia, có thể phân tích dữ liệu dễ dàng hơn.
- Salesforce cũng đang phát triển một mô hình ngôn ngữ lớn được gọi là "Salesforce AI" để cung cấp năng lực AI trên toàn bộ nền tảng của mình.
- Tableau hiện đang được sử dụng bởi hơn 100,000 khách hàng trên toàn cầu.
- Các tính năng mới sẽ được cung cấp cho người dùng Tableau vào cuối năm nay.
- Đây là một phần trong nỗ lực liên tục của Salesforce nhằm tích hợp AI vào các sản phẩm của mình để giúp doanh nghiệp ra quyết định dựa trên dữ liệu tốt hơn.
📌 Salesforce đã giới thiệu các tính năng mới được hỗ trợ bởi AI cho Tableau, bao gồm trợ lý ảo, tạo biểu đồ tự động và tóm tắt bằng ngôn ngữ tự nhiên. Các công cụ này sẽ giúp hơn 100.000 khách hàng của Tableau trên toàn cầu phân tích dữ liệu dễ dàng hơn, từ người mới đến chuyên gia, như một phần trong nỗ lực tích hợp AI liên tục của Salesforce.
Citations:
[1] https://venturebeat.com/data-infrastructure/salesforce-details-the-next-wave-of-ai-powered-analytics-for-tableau/
- OpenAI, nhà phát triển chatbot viral ChatGPT, đã ký kết thỏa thuận cấp phép tin tức với Financial Times (FT) của Anh.
- Thỏa thuận cho phép OpenAI sử dụng nội dung của FT để đào tạo các mô hình AI và cung cấp cho người dùng ChatGPT các tóm tắt, trích dẫn và liên kết phong phú đến các bài báo của FT khi truy vấn liên quan.
- Đây là một phần trong chuỗi thỏa thuận cấp phép nội dung gần đây của OpenAI với các nhà xuất bản lớn như Axel Springer (Đức), AP, Le Monde và Prisa Media (Pháp và Tây Ban Nha).
- Các điều khoản tài chính của thỏa thuận không được tiết lộ. Đây là thỏa thuận không độc quyền và OpenAI không nắm giữ cổ phần nào trong FT Group.
- FT đã trở thành khách hàng của sản phẩm ChatGPT Enterprise của OpenAI từ đầu năm nay.
- FT muốn khám phá cách thức sử dụng AI sâu hơn, đồng thời thận trọng với độ tin cậy của kết quả tự động và rủi ro đối với niềm tin của độc giả.
- OpenAI hy vọng việc cấp phép nội dung báo chí sẽ giúp khắc phục vấn đề "ảo giác" (hallucination) trong các mô hình ngôn ngữ lớn.
- Trách nhiệm pháp lý liên quan đến bản quyền cũng là một động lực chính thúc đẩy OpenAI hướng tới việc cấp phép nội dung.
- Các nhà xuất bản có thể thu được lợi nhuận từ việc cấp phép nội dung cho OpenAI.
📌 Thỏa thuận hợp tác chiến lược giữa OpenAI và Financial Times cho thấy xu hướng các công ty AI hàng đầu như OpenAI tìm cách hợp tác chặt chẽ hơn với các tổ chức truyền thông uy tín để cải thiện chất lượng và độ tin cậy của các mô hình ngôn ngữ, đồng thời giảm thiểu rủi ro pháp lý liên quan đến bản quyền nội dung.
Citations:
[1] https://techcrunch.com/2024/04/29/openai-inks-strategic-tie-up-with-uks-financial-times-including-content-use/
- RAG (Retrieval-Augmented Generation) đang mở khóa các trường hợp sử dụng AI tạo sinh trong doanh nghiệp trước đây không khả thi.
- Các công ty như OpenAI, Microsoft, Meta, Google và Amazon cùng với nhiều công ty khởi nghiệp AI đang tích cực triển khai các giải pháp RAG tập trung vào doanh nghiệp.
- RAG tích hợp các mô hình truy xuất với các mô hình tạo sinh, cho phép các hệ thống dựa trên RAG giải quyết các quy trình làm việc thâm dụng kiến thức, trích xuất tóm tắt và thông tin chính xác từ khối lượng lớn dữ liệu không hoàn hảo, không có cấu trúc.
- Các công cụ AI tạo sinh dựa trên RAG có thể tạo ra kết quả chính xác, toàn diện và phù hợp hơn nhiều so với chỉ dựa vào LLM, miễn là dữ liệu cơ bản được thu thập và kiểm tra đúng cách.
- Người dùng doanh nghiệp có thể tin tưởng vào kết quả và sử dụng nó cho các quy trình làm việc quan trọng.
📌 RAG đang thay đổi cuộc chơi trong việc ứng dụng AI tạo sinh vào doanh nghiệp bằng cách tích hợp mô hình truy xuất và tạo sinh, cho phép xử lý hiệu quả các quy trình thâm dụng kiến thức với kết quả chính xác, toàn diện, đáng tin cậy và đặc thù lĩnh vực, mở ra tiềm năng to lớn cho các doanh nghiệp.
Citations:
[1] https://www.infoworld.com/article/3715324/how-rag-completes-the-generative-ai-puzzle.html
- AI đang dần trở thành công cụ giảng dạy nhưng một số ứng dụng vẫn mang tính chất lấy châu Âu làm trung tâm (Eurocentrism), đẩy lịch sử thế giới không phương Tây ra rìa.
- Các nhà công nghệ và học giả nhân văn cần hợp tác để đảm bảo không có lịch sử nào bị xóa bỏ.
- Tại Đại học Harvard, khóa học nhập môn khoa học máy tính đã tích hợp nền tảng AI để hướng dẫn sinh viên học lập trình.
- Dự án giáo dục đại học hướng dẫn giáo viên sử dụng AI một cách phê phán trong giảng dạy, trong khi các hội thảo về khai thác sức mạnh của AI được cung cấp cho giảng viên và trợ giảng.
- ChatGPT đã cung cấp một bản phác thảo chia theo các kỳ lịch sử, bắt đầu từ tiền sử và thế giới cổ đại đến trung cổ, thời kỳ hiện đại sớm, hiện đại và đương đại.
- ChatGPT liệt kê các nền văn minh cổ đại lớn bao gồm Mesopotamia, Trung Quốc cổ và Thung lũng Indus trong mô-đun thời kỳ cổ đại.
- Tuy nhiên, khi ChatGPT chuyển sang thời kỳ cổ điển và sau đó, nó theo một hệ thống giá trị đơn lẻ Anglo-Mỹ mặc định, phổ biến kiến thức phương Tây mà thực tế là địa phương.
- Nếu công nghệ này trở thành chế độ giáo dục mặc định cho lịch sử, chúng ta có nguy cơ nuôi dưỡng các thế hệ thờ ơ với lịch sử châu Á và không phương Tây.
- Những nỗ lực nhằm thúc đẩy đa dạng, bình đẳng và lịch sử toàn cầu sẽ trở nên vô ích, dẫn đến sự thờ ơ đạo đức đối với bất bình đẳng toàn cầu và biện minh cho bạo lực và áp bức đối với những người được cho là “không có lịch sử”.
- Tình huống này phản ánh chế độ tư duy thống trị trong thời kỳ thực dân.
- AI có tiềm năng lớn trong việc giảm bất bình đẳng giáo dục và cung cấp quyền truy cập tốt hơn vào kiến thức, nhưng những khuyết điểm và hạn chế đáng kể trong các mô hình AI hiện tại có thể dẫn đến hậu quả tiêu cực nghiêm trọng.
- Một nỗ lực tập thể giữa các nhà công nghệ và nhân văn là cần thiết.
📌 Bài viết phân tích sâu sắc về việc cần thiết phải giải phóng AI khỏi định kiến văn hóa để nâng cao chất lượng giáo dục lịch sử. Đặc biệt, nó chỉ ra những hạn chế của ChatGPT trong việc trình bày lịch sử toàn cầu lấy châu Âu làm trung tâm (Eurocentrism), đẩy lịch sử thế giới không phương Tây ra rìa và kêu gọi sự hợp tác giữa các nhà công nghệ và học giả nhân văn để đảm bảo không có lịch sử nào bị lãng quên hoặc bị xóa bỏ.
Citations:
[1] https://www.scmp.com/opinion/world-opinion/article/3259465/we-must-decolonise-ai-overcome-cultural-bias-classroom
- Chất lượng dữ liệu đáng tin cậy và nhất quán là nền tảng cho chiến lược AI thành công, đặc biệt là với công nghệ AI tạo sinh (GenAI).
- Dữ liệu không đầy đủ hoặc không nhất quán có thể dẫn đến các đầu ra không đáng tin cậy từ mô hình GenAI, làm giảm giá trị sử dụng của công nghệ này.
- Các nhà lãnh đạo công nghệ cần giải quyết vấn đề dữ liệu trong tổ chức trước khi áp dụng AI, không phải sau khi đã triển khai.
- GenAI yêu cầu dữ liệu dễ truy cập và đáng tin cậy để hoạt động hiệu quả, với việc đào tạo mô hình dựa trên lượng lớn thông tin chính xác.
- Dữ liệu chính xác, hợp lệ, nhất quán và kịp thời giúp cải thiện các thực tiễn kinh doanh và tích hợp GenAI có lợi hơn.
- Các triển khai GenAI thành công mang lại lợi thế cạnh tranh trong nhiều chức năng cốt lõi, theo McKinsey, các mục tiêu hàng đầu cho GenAI bao gồm tăng giá trị của các sản phẩm hiện tại (30%) và tăng doanh thu (27%).
- Dữ liệu nhà cung cấp chất lượng cao giúp các nhà lãnh đạo xác định nhà cung cấp nhanh chóng hơn, mở khóa các hiểu biết về phân tích chi tiêu và loại bỏ nhu cầu can thiệp thủ công, cuối cùng cải thiện hiệu quả của GenAI.
- Các tổ chức mua sắm cần áp dụng công nghệ làm giàu và xác thực dữ liệu tổ chức một cách nhất quán để mở khóa dữ liệu và hiểu biết về nhà cung cấp tốt hơn.
📌 Chất lượng dữ liệu là yếu tố quan trọng để triển khai thành công công nghệ AI tạo sinh (GenAI), với 30% các tổ chức hàng đầu coi trọng việc tăng giá trị sản phẩm hiện tại và 27% nhấn mạnh vào việc tăng doanh thu thông qua việc áp dụng GenAI. Các tổ chức cần tập trung vào việc cải thiện và duy trì dữ liệu chính xác và nhất quán để tận dụng tối đa lợi ích của công nghệ này.
Citations:
[1] https://www.dataversity.net/good-data-quality-is-the-secret-to-successful-genai-implementation/
1. Meta description (160 ký tự): Retrieval-augmented generation (RAG) là một kiến trúc mô hình AI kết hợp sức mạnh của các mô hình tham số được đào tạo trước với truy xuất bộ nhớ phi tham số, cho phép tạo văn bản dựa trên cả lời nhắc đầu vào và các nguồn kiến thức bên ngoài.
2. Meta keywords: retrieval augmented generation, RAG, AI, mô hình ngôn ngữ, truy xuất thông tin, tạo văn bản, nguồn kiến thức bên ngoài, câu trả lời câu hỏi, tìm kiếm
3. SEO title: retrieval augmented generation (rag): cách hoạt động và ứng dụng của công nghệ ai tiên tiến
- Retrieval-augmented generation (RAG) là một kiến trúc mô hình AI kết hợp sức mạnh của các mô hình tham số được đào tạo trước (như các mô hình dựa trên transformer) với truy xuất bộ nhớ phi tham số.
- RAG cho phép tạo văn bản dựa trên cả lời nhắc đầu vào và các nguồn kiến thức bên ngoài.
- Quá trình hoạt động của mô hình RAG bắt đầu từ truy vấn hoặc lời nhắc của người dùng. Mô hình truy xuất được kích hoạt khi bạn nhập câu hỏi vào trường văn bản GenAI.
- RAG cải thiện độ chính xác, độ tin cậy và tính thông tin của văn bản được tạo ra bằng cách truy xuất dữ liệu hoặc tài liệu liên quan trước khi tạo phản hồi.
- Phương pháp này giúp đảm bảo nội dung được tạo ra phù hợp hơn với ngữ cảnh và chính xác hơn về mặt thông tin.
- Trong các tác vụ xử lý ngôn ngữ tự nhiên truyền thống, các mô hình ngôn ngữ chỉ tạo ra phản hồi dựa trên các mẫu và thông tin trong dữ liệu đào tạo của chúng.
- Các mô hình RAG được sử dụng trong các hệ thống trả lời câu hỏi để cung cấp phản hồi chính xác hơn và nhận thức được ngữ cảnh cho các truy vấn của người dùng.
- Các hệ thống này có thể được triển khai trong chatbot hỗ trợ khách hàng, trợ lý AI ảo và công cụ tìm kiếm để cung cấp thông tin liên quan cho người dùng bằng ngôn ngữ tự nhiên.
📌 Retrieval-augmented generation (RAG) là một bước tiến quan trọng trong AI, kết hợp sức mạnh của các mô hình ngôn ngữ với khả năng truy xuất thông tin từ các nguồn bên ngoài. RAG cải thiện đáng kể độ chính xác, tính phù hợp và khả năng trả lời câu hỏi của các hệ thống AI, mở ra tiềm năng ứng dụng rộng rãi trong chatbot, trợ lý ảo và tìm kiếm.
Citations:
[1] https://www.eweek.com/artificial-intelligence/what-is-retrieval-augmented-generation-rag/
- Mark Zuckerberg, CEO của Meta, cho rằng vòng lặp phản hồi và dữ liệu tổng hợp sẽ là yếu tố quyết định trong việc phát triển AI, thay vì chỉ dựa vào một bộ dữ liệu ban đầu lớn.
- Vòng lặp phản hồi giúp cải thiện và nâng cao mô hình AI bằng cách cung cấp thông tin hiệu chỉnh dựa trên kết quả đầu ra trước đó, giúp AI học hỏi từ sai lầm và thích nghi để cải thiện hiệu suất trong tương lai.
- Các công ty hàng đầu trong lĩnh vực AI như OpenAI, Google, Amazon, Meta đang tìm kiếm các phương pháp phi truyền thống để có được dữ liệu, như Meta từng cân nhắc mua lại nhà xuất bản Simon & Schuster và thậm chí chấp nhận rủi ro bị kiện vi phạm bản quyền.
- Dữ liệu tổng hợp, được tạo ra nhân tạo và mô phỏng dữ liệu thế giới thực, là một giải pháp thay thế cho sự thiếu hụt dữ liệu. Zuckerberg ủng hộ cách tiếp cận này.
- Anthropic, nhà phát triển chatbot Claude, đã thử nghiệm sử dụng dữ liệu nội bộ tự tạo cho các mô hình của mình. OpenAI, nhà phát triển ChatGPT, cũng đang cân nhắc phương pháp này, nhưng CEO Sam Altman nhấn mạnh tầm quan trọng của việc có một mô hình đủ thông minh để tạo ra dữ liệu tổng hợp chất lượng cao.
- Mặc dù Zuckerberg coi vòng lặp phản hồi là nền tảng để xây dựng các mô hình AI mạnh mẽ, nhưng việc phụ thuộc vào chúng có thể gây ra những rủi ro tiềm ẩn như duy trì lỗi hoặc tạo ra nội dung sai lệch.
📌 Mark Zuckerberg tin rằng vòng lặp phản hồi và dữ liệu tổng hợp sẽ là yếu tố then chốt trong phát triển AI, thay vì chỉ dựa vào bộ dữ liệu ban đầu khổng lồ. Các công ty hàng đầu đang tìm cách bổ sung dữ liệu bằng nhiều phương pháp, trong đó dữ liệu tổng hợp được coi là giải pháp tiềm năng. Tuy nhiên, việc phụ thuộc vào vòng lặp phản hồi cũng tiềm ẩn rủi ro.
Citations:
[1] https://www.businessinsider.com/mark-zuckerberg-meta-ai-model-training-synthetic-data-feedback-loops-2024-4
- Trí tuệ nhân tạo thể hiện (EAI) là tích hợp AI vào các thực thể vật lý như robot, cho phép chúng nhận thức, học hỏi và tương tác động với môi trường, cung cấp hàng hóa dịch vụ hiệu quả trong xã hội.
- Bài viết so sánh giá trị dữ liệu từ lĩnh vực Internet để ước tính giá trị tiềm năng của dữ liệu trong EAI. Dữ liệu là công cụ tạo doanh thu quan trọng trong cả Internet và robot.
- Các công ty Internet đầu tư hàng tỷ USD để thu thập dữ liệu người dùng, tạo ra giá trị thị trường 3,5 nghìn tỷ USD. Tương tự, các công ty robot đầu tư phát triển khả năng EAI tiên tiến, ước tính giá trị thị trường dữ liệu EAI vượt 10 nghìn tỷ USD, gấp 3 lần lĩnh vực Internet.
- Ngành thu thập và tạo dữ liệu cho EAI hiện còn ở giai đoạn sơ khai. Có nhiều rào cản dữ liệu đáng kể trong phát triển EAI như: thu thập dữ liệu thế giới thực tốn kém, nguy hiểm; dữ liệu mô phỏng thiếu chân thực; thiếu chuẩn hóa và chia sẻ dữ liệu.
- Bài viết xem xét các công nghệ thu thập và tạo dữ liệu sáng tạo được thiết kế để vượt qua những rào cản trên, mở ra tiềm năng to lớn cho dữ liệu EAI.
📌Trí tuệ nhân tạo thể hiện (EAI) là tích hợp AI vào các thực thể vật lý như robot, cho phép chúng nhận thức, học hỏi và tương tác động với môi trường, cung cấp hàng hóa dịch vụ hiệu quả trong xã hội. Dữ liệu đóng vai trò then chốt trong trí tuệ nhân tạo thể hiện với giá trị thị trường ước tính vượt 10 nghìn tỷ USD. Tuy nhiên, ngành này còn nhiều rào cản trong thu thập và tạo dữ liệu thế giới thực. Các công nghệ mới đang được phát triển để vượt qua thách thức, mở ra tiềm năng to lớn cho tương lai.
Citations:
[1] https://cacm.acm.org/blogcacm/the-value-of-data-in-embodied-artificial-intelligence/
- Đào tạo AI bằng dữ liệu từ mạng xã hội có thể dẫn đến việc AI học được những hành vi và ngôn ngữ không mong muốn do tính chất không kiểm soát được của nội dung trên các nền tảng này.
- Các nghiên cứu chỉ ra rằng AI có thể phát triển các định kiến và thiên vị dựa trên các mẫu dữ liệu thiên lệch mà nó được huấn luyện, điều này đặc biệt nguy hiểm khi AI được sử dụng trong các quyết định quan trọng như tuyển dụng hoặc tín dụng.
- Một số giải pháp được đề xuất để giảm thiểu rủi ro này bao gồm việc sử dụng các bộ lọc nội dung để loại bỏ thông tin không phù hợp và tăng cường giám sát quá trình học của AI.
- Các chuyên gia cũng khuyến nghị phát triển các hệ thống đánh giá và kiểm soát chất lượng dữ liệu một cách nghiêm ngặt hơn để đảm bảo AI không phát triển những hành vi không mong muốn.
- Một số tổ chức đã bắt đầu triển khai các chương trình đào tạo đặc biệt cho AI, nhằm mục đích "dạy" cho AI cách nhận diện và loại bỏ các định kiến từ dữ liệu đầu vào của nó.
- Tuy nhiên, vẫn còn nhiều thách thức pháp lý và đạo đức cần được giải quyết khi áp dụng các công nghệ này, đặc biệt là liên quan đến quyền riêng tư và an toàn dữ liệu cá nhân.
📌 Huấn luyện AI từ dữ liệu mạng xã hội có thể dẫn đến việc học hành vi không mong muốn và thiên vị. Các giải pháp bao gồm sử dụng bộ lọc nội dung và tăng cường giám sát, nhưng vẫn còn nhiều thách thức pháp lý và đạo đức cần giải quyết.
Citations:
[1] https://www.fastcompany.com/91109348/hed-what-happens-when-we-train-our-ai-on-social-media
- Trong lĩnh vực trí tuệ nhân tạo (AI) đang phát triển nhanh chóng, việc tìm kiếm các bộ dữ liệu lớn, đa dạng và chất lượng cao là một thách thức đáng kể. Dữ liệu tổng hợp được xem là giải pháp quan trọng để giải quyết vấn đề này.
- Dữ liệu tổng hợp được tạo ra thông qua các thuật toán và mô hình sinh, phản ánh các mẫu phức tạp của thông tin trong thế giới thực. Nó có thể được sản xuất theo yêu cầu, điều chỉnh theo nhu cầu cụ thể và không bị ràng buộc bởi quyền riêng tư.
- Dữ liệu tổng hợp có thể được áp dụng trong nhiều lĩnh vực, từ y tế đến công nghệ tài chính. Nó đặc biệt hữu ích trong các lĩnh vực mà dữ liệu thực tế hiếm hoặc nhạy cảm.
- Tuy nhiên, dữ liệu tổng hợp cũng đặt ra nhiều thách thức như độ tin cậy, tính đại diện và các vấn đề đạo đức. Bài báo đề xuất các mô hình sinh tiên tiến và các chỉ số đánh giá như là các giải pháp tiềm năng.
- Bài báo cung cấp bằng chứng về tính linh hoạt của dữ liệu tổng hợp trong nhiều lĩnh vực, từ cải thiện khả năng lập luận toán học của mô hình AI đến thúc đẩy khả năng lập luận mã thông qua các mẫu tổng hợp có thể thực thi.
- Trong việc sử dụng công cụ và lập kế hoạch, các quỹ đạo tổng hợp và môi trường mô phỏng cho thấy cách AI có thể được dạy các tương tác công cụ phức tạp và chiến lược lập kế hoạch.
📌 Dữ liệu tổng hợp đã mở đường cho bước tiến mới của AI, cho phép phát triển các hệ thống AI mạnh mẽ, bao quát và đáng tin cậy hơn. Bằng cách giải quyết các thách thức và tận dụng tiềm năng của nó trong nhiều lĩnh vực như y tế, tài chính, lập luận toán học và lập trình, dữ liệu tổng hợp hứa hẹn sẽ là chìa khóa để đưa AI lên một tầm cao mới.
Citations:
[1] https://www.marktechpost.com/2024/04/17/this-paper-from-google-deepmind-provides-an-overview-of-synthetic-data-research-discussing-its-applications-challenges-and-future-directions/
#hay
- Các công ty công nghệ đang tuyển dụng chuyên gia để tạo nội dung đào tạo nhằm liên tục phát triển trí tuệ nhân tạo (AI).
- Trước đây, các công ty dựa vào lao động bán thời gian để dạy các mô hình AI thực hiện các tác vụ cơ bản như nhận dạng ảnh, chú thích dữ liệu và gắn nhãn.
- Khi công nghệ tiến bộ, nhu cầu về những người đào tạo tinh vi hơn xuất hiện. Các công ty như Scale AI và Surge AI đang tuyển dụng nhân viên bán thời gian có trình độ cao để viết bài luận và gợi ý sáng tạo cho các bot AI.
- Scale AI đã đăng tuyển ứng viên có bằng Thạc sĩ hoặc Tiến sĩ, thông thạo tiếng Anh, tiếng Hindi hoặc tiếng Nhật, và có kinh nghiệm viết chuyên nghiệp trong các lĩnh vực như thơ ca, báo chí và xuất bản.
- Mục tiêu là giúp các bot AI "trau dồi kỹ năng viết lách". Scale AI quản lý tới hàng chục nghìn nhà thầu tại bất kỳ thời điểm nào.
- Sự phụ thuộc ngày càng tăng vào đội ngũ đào tạo tinh vi xuất phát từ việc các gã khổng lồ công nghệ tìm kiếm nguồn dữ liệu mới để cung cấp cho công nghệ của họ.
- Các chương trình AI đang hấp thụ thông tin với tốc độ đáng kinh ngạc, nhanh chóng cạn kiệt các nguồn tài nguyên hiện có như dữ liệu trực tuyến, bài báo khoa học, bài báo tin tức và các trang Wikipedia.
- Viện nghiên cứu AI Epoch cảnh báo rằng AI có thể cạn kiệt nguồn cung dữ liệu vào năm 2026.
- Các công ty đang tìm kiếm các phương pháp sáng tạo để đảm bảo hệ thống của họ không ngừng học hỏi, bao gồm cả việc Google cân nhắc truy cập dữ liệu của khách hàng.
📌 Các công ty AI đang tích cực tuyển dụng nhà văn có trình độ cao để tạo nội dung đào tạo cho các mô hình AI, nhằm giúp chúng cải thiện kỹ năng viết lách và không ngừng học hỏi. Tuy nhiên, nguồn dữ liệu hiện có đang cạn dần, buộc các công ty phải tìm kiếm các phương pháp sáng tạo mới để duy trì sự phát triển của AI, bao gồm cả việc tiếp cận dữ liệu người dùng.
Citations:
[1] AI companies are hiring gig workers to write essays that can train AI https://www.businessinsider.com/ai-companies-hiring-highly-educated-writers-train-ai-models-2024-4
- Các công ty công nghệ như OpenAI, Google đang tìm cách sử dụng dữ liệu tổng hợp (synthetic data) do chính AI tạo ra để huấn luyện các mô hình AI.
- Lý do là họ có thể sẽ cạn kiệt nguồn dữ liệu chất lượng cao trên internet và đang đối mặt với các vụ kiện về bản quyền.
- Tuy nhiên, dữ liệu tổng hợp hiện chưa hoàn hảo vì AI có thể mắc lỗi, bịa đặt thông tin và khuếch đại các thiên kiến.
- Các công ty hy vọng cải thiện chất lượng dữ liệu tổng hợp bằng cách sử dụng 2 mô hình AI: một mô hình tạo ra dữ liệu, mô hình thứ hai đánh giá chất lượng dữ liệu.
- Anthropic sử dụng phương pháp "Constitutional AI", huấn luyện mô hình thứ hai dựa trên một "hiến pháp" do các nhà nghiên cứu xây dựng.
- Tuy nhiên, con người vẫn cần giám sát để đảm bảo mô hình thứ hai hoạt động đúng hướng, hạn chế lượng dữ liệu tổng hợp có thể tạo ra.
- Các công ty công nghệ vẫn có thể gặp vấn đề về bản quyền vì các mô hình tạo dữ liệu tổng hợp ban đầu cũng được huấn luyện từ dữ liệu có bản quyền.
📌 Dữ liệu tổng hợp do AI tạo ra được kỳ vọng sẽ giúp các công ty công nghệ vượt qua các rào cản về bản quyền và nguồn dữ liệu huấn luyện. Các công ty hy vọng cải thiện chất lượng dữ liệu tổng hợp bằng cách sử dụng 2 mô hình AI: một mô hình tạo ra dữ liệu, mô hình thứ hai đánh giá chất lượng dữ liệu. Con người vẫn cần giám sát để đảm bảo mô hình thứ hai hoạt động đúng hướng, hạn chế lượng dữ liệu tổng hợp có thể tạo ra.
https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html
- Dữ liệu trực tuyến đóng vai trò quan trọng trong việc phát triển trí tuệ nhân tạo (AI). Các mô hình AI trở nên chính xác và giống con người hơn khi được cung cấp nhiều dữ liệu hơn.
- Một số mô hình ngôn ngữ lớn như GPT-3 của OpenAI được huấn luyện trên hàng trăm tỷ "token" (từ hoặc mảnh từ). Các mô hình gần đây được huấn luyện trên hơn 3 nghìn tỷ token.
- Các công ty công nghệ đang sử dụng hết dữ liệu trực tuyến công khai để phát triển mô hình AI nhanh hơn tốc độ sản xuất dữ liệu mới. Dự đoán dữ liệu kỹ thuật số chất lượng cao sẽ cạn kiệt vào năm 2026.
- OpenAI, Google và Meta đang tìm cách thu thập thêm dữ liệu bằng các công cụ mới, thay đổi điều khoản dịch vụ và tranh luận nội bộ.
- OpenAI tạo chương trình chuyển âm thanh video YouTube thành văn bản để cung cấp cho mô hình AI. Google sử dụng dữ liệu YouTube trong vùng xám về bản quyền. Meta cân nhắc mua nhà xuất bản lớn và sử dụng tác phẩm có bản quyền cho AI.
- Các công ty đang khám phá sử dụng AI để tạo ra "dữ liệu tổng hợp" làm dữ liệu huấn luyện. Tuy nhiên, điều này có rủi ro vì mô hình AI có thể mắc lỗi.
📌 Cuộc đua thu thập dữ liệu trực tuyến cho phát triển AI đang diễn ra gay gắt giữa các công ty công nghệ lớn như OpenAI, Google, Meta. Họ đang tìm mọi cách để có thêm dữ liệu, kể cả đi vào vùng xám về bản quyền và cân nhắc tạo dữ liệu tổng hợp bằng chính AI. Dự báo dữ liệu chất lượng cao sẽ cạn kiệt vào 2026.
https://www.nytimes.com/2024/04/06/technology/ai-data-tech-takeaways.html
- Năm 2023 là năm của thử nghiệm với AI tạo sinh, nhưng năm 2024 tập trung vào việc tạo ra giá trị kinh doanh thực sự thông qua tích hợp AI cấp doanh nghiệp.
- Chất lượng thông tin từ AI tạo sinh tỷ lệ thuận với chất lượng dữ liệu nó nhận được. Độ tin cậy, khả năng tiếp cận và độ chính xác của dữ liệu là yếu tố then chốt.
- Để tạo ra giá trị kinh doanh từ AI tạo sinh, cần triển khai chiến lược, đòi hỏi niềm tin tuyệt đối vào dữ liệu của tổ chức.
- Lãnh đạo nên đánh giá kỹ giá trị của bất kỳ sáng kiến AI tạo sinh nào trước khi mở rộng quy mô. Khoảng 75% tổng giá trị từ các trường hợp sử dụng AI tạo sinh sẽ đến từ 4/16 chức năng kinh doanh.
- Hiệu quả của AI tạo sinh phụ thuộc vào chất lượng và bảo mật dữ liệu, đặc biệt là dữ liệu phi cấu trúc, chiếm 90% tổng dữ liệu doanh nghiệp.
- Giải pháp nâng cao chất lượng dữ liệu và khai thác giá trị của dữ liệu phi cấu trúc cho các trường hợp sử dụng AI tạo sinh nằm ở việc làm cho dữ liệu có thể truy cập, phân tích và hành động được.
- Đầu tư vào khám phá, phân loại và quản lý dữ liệu phi cấu trúc có thể mở rộng là nền tảng để làm sạch, lập danh mục và chuẩn bị dữ liệu doanh nghiệp cho AI tạo sinh.
- Trước khi bị cuốn vào cơn sốt AI tạo sinh, hãy ưu tiên tập trung vào các sáng kiến có giá trị cao, xây dựng niềm tin vào dữ liệu và thử nghiệm kỹ lưỡng.
📌 Năm 2023 là năm của thử nghiệm với AI tạo sinh, nhưng năm 2024 tập trung vào việc tạo ra giá trị kinh doanh thực sự thông qua tích hợp AI cấp doanh nghiệp. Chất lượng thông tin từ AI tạo sinh tỷ lệ thuận với chất lượng dữ liệu nó nhận được. Độ tin cậy, khả năng tiếp cận và độ chính xác của dữ liệu là yếu tố then chốt, đặc biệt là dữ liệu phi cấu trúc, chiếm 90% tổng dữ liệu doanh nghiệp.
https://www.forbes.com/sites/forbestechcouncil/2024/04/02/to-unleash-the-potential-of-genai-high-quality-data-is-essential/
- Generative AI đã thúc đẩy các CIO xem xét lại đường ống dữ liệu khi doanh nghiệp chuyển sang áp dụng AI tạo sinh.
- Alon Amit, Phó Chủ tịch sản phẩm, phân tích, AI và dữ liệu tại Intuit cho biết: "Đưa tất cả dữ liệu này đến đúng nơi vào đúng thời điểm không phải là một nhiệm vụ dễ dàng".
- Các CIO đang dựa vào nhiều nguồn dữ liệu khác nhau, nhấn mạnh việc tuyển chọn có chủ đích các bộ dữ liệu huấn luyện.
- Shawna Cartwright, Giám đốc thông tin kinh doanh và SVP công nghệ doanh nghiệp tại Cushman & Wakefield cho biết: "Một trong những điều quan trọng nhất đã thay đổi đối với chúng tôi là biết rằng không sao khi chạy thử nghiệm và nó không hoạt động chính xác như chúng tôi nghĩ".
- Mục tiêu của Cushman & Wakefield là nhúng AI vào toàn bộ vòng đời giao dịch bất động sản thương mại, cải thiện năng suất và hỗ trợ nhân viên trong các công việc hàng ngày.
- Các công ty đang khai thác giá trị từ dữ liệu phi cấu trúc trước đây bị bỏ qua. Intuit sử dụng các bài đăng trên blog của công ty để đào tạo các mô hình nói nhiều hơn về lĩnh vực fintech.
- Cushman & Wakefield đang khám phá việc sử dụng tài liệu viết không chính thức để cung cấp cho các công cụ AI tạo sinh kiến thức tổ chức sâu hơn.
- Trong ngành ngân hàng, các tổ chức đang tìm cách đẩy nhanh hợp đồng và kiểm toán bằng các công cụ AI tạo sinh. Generative AI đã mở ra cánh cửa mới cho các vấn đề dữ liệu phi cấu trúc.
📌 AI tạo sinh đang mở ra tiềm năng to lớn từ dữ liệu phi cấu trúc chưa được khai thác trong doanh nghiệp. Các CIO đang tái định hình đường ống dữ liệu, tận dụng các nguồn dữ liệu mới để đào tạo mô hình AI, với mục tiêu nhúng AI vào quy trình làm việc và cải thiện năng suất đáng kể trong 5-10 năm tới.
https://www.ciodive.com/news/generative-ai-unstructured-data-strategy/711904/
- Việc Anthropic phát hành dòng mô hình Claude 3 vào tháng 3/2024 và hoạt động thành công trên nhiều bài kiểm tra benchmark là tin tốt cho doanh nghiệp, cho thấy khách hàng doanh nghiệp sẽ có thể đánh giá và lựa chọn từ nhiều công cụ AI và GenAI chất lượng cao từ nhiều nhà cung cấp.
- Tuy nhiên, điều quan trọng cần nhớ là tất cả đều bắt đầu từ dữ liệu. Bước đầu tiên là chuẩn bị dữ liệu để phù hợp với AI, bao gồm đánh giá, hợp nhất, bảo mật và quản lý dữ liệu phân tán sao cho có thể truy cập được bởi các công cụ và dịch vụ AI.
- Bước tiếp theo là thiết lập pipeline hiệu quả giữa dữ liệu và các dịch vụ AI trên đám mây. Nếu dữ liệu nằm trong bucket Amazon S3, bạn nên tận dụng S3 API để truy cập dữ liệu toàn diện và nhanh chóng.
- Một khi dữ liệu đã phù hợp với AI và pipeline đã được thiết lập, đã đến lúc xem các công cụ này thực sự có thể làm gì cho tổ chức của bạn. Các trường hợp sử dụng thú vị đang được khách hàng áp dụng như:
+ Trong sản xuất: xây dựng mô hình ML để phân tích dữ liệu quét và IoT, tìm cách cải thiện quy trình, phát hiện và sửa lỗi sản phẩm nhanh hơn.
+ Trong tiếp thị: sử dụng AWS Rekognition/Kendra để phân tích và tìm kiếm nội dung video/hình ảnh, giúp đội ngũ sáng tạo dễ dàng tìm cảm hứng từ các dự án trước đây.
+ Giao diện trò chuyện: cho hỗ trợ khách hàng, tiếp thị hoặc nghiên cứu nội bộ để tạo điều kiện cho việc lan truyền kiến thức.
- Các công cụ AI, GenAI và ML cuối cùng có thể cung cấp cho các tổ chức cơ hội biến dữ liệu phân tán thành tài sản giúp thúc đẩy hiệu quả, tăng tốc quy trình kinh doanh và tạo ra lợi thế cạnh tranh lớn.
📌 Việc chuẩn bị dữ liệu phù hợp với AI và xây dựng pipeline kết nối dữ liệu với các công cụ và dịch vụ AI là yếu tố then chốt để doanh nghiệp tận dụng sức mạnh của AI tạo sinh. Các tổ chức hàng đầu trong tương lai sẽ là những tổ chức bắt đầu quá trình này ngay từ hôm nay, áp dụng AI vào các lĩnh vực như sản xuất, tiếp thị và hỗ trợ khách hàng để thúc đẩy hiệu quả và tạo lợi thế cạnh tranh.
https://www.forbes.com/sites/forbestechcouncil/2024/04/02/how-genai-changes-the-enterprise-approach-to-data/
- Các công ty như OpenAI, Google đang phát triển các hệ thống AI mạnh mẽ hơn, đòi hỏi lượng dữ liệu huấn luyện khổng lồ. Tuy nhiên, nguồn cung cấp dữ liệu chất lượng cao trên Internet đang dần cạn kiệt.
- Một số chuyên gia dự đoán nhu cầu dữ liệu văn bản chất lượng cao có thể vượt quá nguồn cung trong vòng 2 năm tới, làm chậm sự phát triển của AI.
- Các công ty đang tìm kiếm các nguồn dữ liệu chưa được khai thác và thay đổi cách huấn luyện mô hình. OpenAI đang cân nhắc sử dụng bản ghi âm từ video YouTube công khai để huấn luyện GPT-5.
- Các công ty cũng thử nghiệm sử dụng dữ liệu tổng hợp do AI tạo ra làm tài liệu huấn luyện, tuy nhiên nhiều nhà nghiên cứu lo ngại điều này có thể gây ra lỗi nghiêm trọng.
- Dữ liệu chỉ là một trong nhiều nguồn tài nguyên AI khan hiếm, bên cạnh chip xử lý, trung tâm dữ liệu và điện năng.
- Các nền tảng mạng xã hội và nhà xuất bản tin tức đang hạn chế quyền truy cập vào dữ liệu của họ để huấn luyện AI.
- Một số công ty như DatologyAI đang phát triển công cụ lựa chọn dữ liệu thông minh hơn để tối ưu hóa quá trình huấn luyện mô hình.
- OpenAI và Google đang thảo luận về việc xây dựng thị trường dữ liệu, nơi họ có thể trả tiền cho các nhà cung cấp nội dung.
📌Các công ty AI hàng đầu đang đối mặt với tình trạng thiếu hụt trầm trọng nguồn dữ liệu chất lượng cao để huấn luyện các mô hình ngôn ngữ thế hệ tiếp theo. Họ đang tích cực tìm kiếm các giải pháp như khai thác dữ liệu chưa được sử dụng, cải tiến phương pháp huấn luyện và thậm chí tạo ra dữ liệu tổng hợp, nhằm duy trì đà phát triển của trí tuệ nhân tạo.
Citations:
[1]https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8
#WSJ
- Trong lịch sử phát triển AI, kích thước mô hình đã được coi là yếu tố quan trọng. Tuy nhiên, nghiên cứu gần đây cho thấy chất lượng dữ liệu huấn luyện cũng đóng vai trò then chốt.
- Mô hình Chinchilla của DeepMind chỉ bằng 1/4 kích thước của mô hình Gopher của Google, nhưng được huấn luyện với lượng dữ liệu gấp 4 lần và đạt độ chính xác cao hơn 7%.
- Lượng dữ liệu văn bản chất lượng cao trên thế giới (khoảng 2.8 nghìn tỷ token) không đủ để đáp ứng nhu cầu huấn luyện của các mô hình LLM lớn.
- Các mô hình thương mại gặp khó khăn trong việc tiếp cận dữ liệu do vấn đề bản quyền. Dữ liệu phi tiếng Anh còn hạn chế hơn.
- Dữ liệu trùng lặp gây ra hiện tượng mô hình ghi nhớ thay vì tổng quát hóa, dẫn đến sự suy giảm chất lượng.
- Lặp lại toàn bộ tập dữ liệu qua nhiều chu kỳ huấn luyện có thể cải thiện hiệu suất mô hình, nhưng lợi ích giảm dần.
- Sử dụng dữ liệu tổng hợp có thể dẫn đến sự phân kỳ so với dữ liệu thực và làm giảm hiệu suất của mô hình.
- Các nhà nghiên cứu đang tập trung vào việc kiểm tra kỹ lưỡng hơn chất lượng dữ liệu huấn luyện và xác định mức độ an toàn khi sử dụng dữ liệu tổng hợp.
- Sáng kiến DataComp tập trung vào việc giữ nguyên kiến trúc mô hình và cải tiến cách lọc, xử lý dữ liệu để cải thiện hiệu suất.
- Các mô hình nguồn mở đang cố gắng thu hẹp khoảng cách với các mô hình tiên phong, nhưng vẫn gặp khó khăn do thiếu thông tin về tập dữ liệu của các công ty công nghệ lớn.
📌 Mặc dù kích thước mô hình vẫn đóng vai trò quan trọng, chất lượng dữ liệu huấn luyện đang trở thành yếu tố then chốt trong việc phát triển các mô hình ngôn ngữ lớn. Các nhà nghiên cứu đang nỗ lực cải thiện chất lượng dữ liệu thông qua việc loại bỏ nội dung trùng lặp, kiểm soát sử dụng dữ liệu tổng hợp và áp dụng các phương pháp lọc, xử lý dữ liệu tiên tiến. Tuy nhiên, sự thiếu minh bạch về tập dữ liệu của các công ty lớn vẫn là một thách thức đối với cộng đồng nghiên cứu AI nguồn mở.
Citations:
[1] https://cacm.acm.org/news/data-quality-may-be-all-you-need/
- Các công ty khởi nghiệp gán nhãn và chú thích dữ liệu như Scale AI đóng vai trò thiết yếu trong sự phát triển của AI hiện đại. Tuy nhiên, người lao động trong lĩnh vực này thường phải chịu điều kiện làm việc khắc nghiệt.
- Một số công ty lớn như OpenAI thuê người gán nhãn ở các nước thế giới thứ ba với mức lương chỉ vài đô la mỗi giờ. Họ phải tiếp xúc với nội dung đồi trụy mà không được nghỉ ngơi hay hỗ trợ sức khỏe tâm thần.
- Scale AI tuyển dụng người gán nhãn ở nhiều nước với mức lương thấp, từ 10 đô la cho công việc kéo dài nhiều ngày 8 tiếng không nghỉ. Người lao động phụ thuộc vào nền tảng và có thể bị sa thải bất cứ lúc nào.
- Hiện chưa có quy định hay tiêu chuẩn ngành cho việc gán nhãn dữ liệu một cách có đạo đức. Giải pháp thực tế nhất là thông qua chính sách.
- Các tin tức đáng chú ý khác: OpenAI phát triển công cụ nhân bản giọng nói Voice Engine; Amazon đầu tư thêm 2.75 tỷ USD vào Anthropic; Google.org ra mắt chương trình hỗ trợ 20 triệu USD cho các tổ chức phi lợi nhuận phát triển công nghệ AI; AI21 Labs giới thiệu mô hình Jamba; Databricks ra mắt mô hình DBRX; Uber Eats và quy định AI của Anh; EU đưa ra hướng dẫn an ninh bầu cử liên quan đến deepfake; Grok của X được nâng cấp; Adobe mở rộng Firefly với hơn 20 API và dịch vụ mới.
📌 Mặc dù đóng vai trò quan trọng trong sự phát triển của AI, người lao động gán nhãn dữ liệu vẫn phải chịu điều kiện làm việc khắc nghiệt với mức lương thấp. Cần có chính sách và quy định để bảo vệ quyền lợi của họ.
Citations:
[1]https://techcrunch.com/2024/03/30/this-week-in-ai-let-us-not-forget-the-humble-data-annotator/
- Giáo sư Jenq-Neng Hwang và nhóm nghiên cứu đã phát triển phương pháp huấn luyện AI để theo dõi số lượng tư thế khác nhau mà trẻ sơ sinh có thể thực hiện trong ngày, nhằm hỗ trợ phát hiện sớm tự kỷ.
- Việc sử dụng AI giúp theo dõi liên tục và nhất quán các tư thế của trẻ, thay vì cần bác sĩ quan sát trong nhiều giờ.
- Thách thức chính là thiếu dữ liệu huấn luyện về chuỗi chuyển động 3D của trẻ sơ sinh kèm chú thích tư thế.
- Nhóm nghiên cứu đã xây dựng quy trình: Huấn luyện mô hình AI tạo sinh tư thế 3D chung với lượng lớn chuỗi chuyển động 3D của người thường, sau đó tinh chỉnh mô hình với tập dữ liệu hạn chế về chuỗi chuyển động của trẻ sơ sinh.
- Phương pháp tương tự cũng có thể áp dụng trong chẩn đoán bệnh hiếm gặp dựa trên ảnh X-quang, bằng cách tạo ra ảnh X-quang tổng hợp không bệnh để so sánh với ảnh bệnh.
- Trong lái xe tự động, các sự kiện "đuôi dài" ít gặp như lá rơi trước xe cũng gây khó khăn cho việc huấn luyện AI. Nhóm nghiên cứu đang kết hợp dữ liệu từ camera và radar để giải quyết vấn đề này.
📌 Mô hình AI tạo sinh và kỹ thuật tinh chỉnh mô hình với dữ liệu hạn chế mở ra tiềm năng ứng dụng AI trong nhiều lĩnh vực như y tế và giao thông, giúp phát hiện sớm tự kỷ ở trẻ sơ sinh, chẩn đoán bệnh hiếm gặp và nâng cao độ an toàn của xe tự lái.
https://www.eurasiareview.com/29032024-how-to-train-ai-when-you-dont-have-enough-data/
- Nhiều tổ chức đang hào hứng với AI tạo sinh và đang huy động để tận dụng nó. Hội đồng quản trị tổ chức các hội thảo giáo dục và khuyến khích các công ty hành động.
- Các đội ngũ quản lý cấp cao đang suy nghĩ về các trường hợp sử dụng cần phát triển. Các cá nhân và bộ phận đang thử nghiệm công nghệ này có thể tăng năng suất và hiệu quả của họ như thế nào.
- Một cuộc khảo sát mới với 334 giám đốc dữ liệu và lãnh đạo dữ liệu cho thấy hầu hết các công ty vẫn còn nhiều việc phải làm để sẵn sàng cho AI tạo sinh.
- Các công ty chưa tạo ra các chiến lược dữ liệu mới hoặc bắt đầu quản lý dữ liệu theo những cách cần thiết để AI tạo sinh hoạt động hiệu quả cho họ.
- Mặc dù phấn khởi, các công ty vẫn chưa thấy rõ giá trị từ AI tạo sinh và cần phải làm nhiều việc để chuẩn bị dữ liệu của họ.
📌 Khảo sát 334 giám đốc dữ liệu cho thấy dù hào hứng với AI tạo sinh, các công ty vẫn chưa có chiến lược dữ liệu phù hợp và cần làm nhiều việc để chuẩn bị dữ liệu sẵn sàng tận dụng tối đa công nghệ này, mang lại giá trị kinh doanh rõ ràng.
Citations:
[1] https://hbr.org/2024/03/is-your-companys-data-ready-for-generative-ai
https://hbr.org/2024/03/is-your-companys-data-ready-for-generative-ai
#HBR
- Dữ liệu trực tuyến (data streaming) đóng vai trò quan trọng trong việc cung cấp thông tin thời gian thực cho AI, giúp công nghệ trở nên thích ứng và phản ứng nhanh hơn.
- Truyền thống, AI dựa vào các tập dữ liệu tĩnh lớn. Tuy nhiên, phương pháp này có những hạn chế vì không tính đến những thay đổi đột ngột.
- Dữ liệu trực tuyến hoạt động như một giao thức phát trực tiếp dữ liệu liên tục, cung cấp thông tin thời gian thực giữa các mô hình AI và tác nhân AI.
- Các pipeline dữ liệu trực tuyến đóng vai trò như cầu nối giữa thế giới thực và hệ thống AI, liên tục lọc, làm sạch và chuyển đổi dữ liệu.
- Xử lý thời gian thực mang lại nhiều lợi ích cho AI như phát hiện gian lận trong lĩnh vực tài chính. Từ năm 2021 đến 2022, mức tổn thất trung bình của nạn nhân lừa đảo tăng gấp đôi. Năm 2022, người tiêu dùng Mỹ mất khoảng 300 tỷ USD vì tin nhắn lừa đảo.
- Dữ liệu trực tuyến đặc biệt có lợi cho deep learning và machine learning. Các thuật toán deep learning cần lượng dữ liệu khổng lồ để học và cải thiện. Dữ liệu trực tuyến cung cấp luồng thông tin mới liên tục, cho phép các mô hình deep learning liên tục tinh chỉnh khả năng ra quyết định.
- Các thuật toán machine learning học từ dữ liệu để đưa ra dự đoán. Dữ liệu trực tuyến đảm bảo các thuật toán này liên tục tiếp xúc với thông tin mới, giúp chúng thích ứng với dự đoán và trở nên chính xác hơn theo thời gian.
- Ứng dụng của dữ liệu trực tuyến trong AI rất rộng lớn và không ngừng phát triển như: trải nghiệm cá nhân hóa, bảo trì dự đoán, quản lý giao thông, bảo mật mạng.
- Theo nghiên cứu của Epoch, các công ty AI có thể hết dữ liệu ngay từ năm 2026. Các công ty như Streamr đang giúp đảm bảo dữ liệu tiếp tục chảy bằng cách kết nối các hệ thống AI với các luồng dữ liệu thời gian thực mở và trả phí để truy cập.
📌Data streaming là nhiên liệu sẽ thúc đẩy sự phát triển của thế hệ hệ thống thông minh tiếp theo. Với khả năng xử lý và phân tích luồng dữ liệu thời gian thực, AI sẽ tích hợp liền mạch vào cuộc sống, giải quyết vấn đề và tạo ra cơ hội mới mà chúng ta mới chỉ bắt đầu tưởng tượng. Tuy nhiên, nghiên cứu cho thấy các công ty AI có thể hết dữ liệu ngay từ năm 2026, đòi hỏi các giải pháp như kết nối với các luồng dữ liệu mở và trả phí để truy cập.
https://crypto.news/why-streaming-data-is-the-key-to-smarter-ai/
- Chiến lược dữ liệu vững chắc là then chốt để tận dụng AI tạo sinh (GenAI), công nghệ có thể nâng cao GDP toàn cầu thêm 7 nghìn tỷ USD và cải thiện năng suất trong thập kỷ tới.
- Các tổ chức thường gặp khó khăn trong việc hiểu toàn cảnh dữ liệu, kết nối và tận dụng hiệu quả dữ liệu, cũng như quản lý khả năng tiếp cận dữ liệu. Khối lượng dữ liệu ngày càng tăng khiến những thách thức này trở nên khó khăn hơn.
- Chiến lược dữ liệu tích hợp nên bao gồm nhiều công cụ, tài nguyên và phương pháp để bao quát mọi khía cạnh quản lý dữ liệu, từ thu thập, lưu trữ, truy xuất đến phân tích dữ liệu.
- Hiệu quả của việc chuẩn bị dữ liệu phụ thuộc vào chất lượng, số lượng, tính đa dạng và độ phức tạp của dữ liệu thu thập được. Các quy trình cơ bản như làm sạch, xác thực, chuyển đổi và lưu trữ dữ liệu rất quan trọng.
- Các xu hướng dữ liệu GenAI mới nổi bao gồm: sử dụng tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG), tinh chỉnh mô hình được huấn luyện trước và xây dựng mô hình ngôn ngữ lớn (LLM) riêng.
- Xây dựng chiến lược quản trị dữ liệu đòi hỏi lập kế hoạch các quy trình thiết yếu phù hợp với mục tiêu của tổ chức như liên kết chiến lược, tích hợp ứng dụng, lĩnh vực dữ liệu, quản lý dữ liệu, kiến trúc dữ liệu, bảo mật dữ liệu và mô hình vận hành.
📌 Các tổ chức cần nuôi dưỡng cách tiếp cận lấy dữ liệu làm trung tâm, đồng bộ hóa công nghệ với mục tiêu kinh doanh để làm chủ lĩnh vực AI tạo sinh. Các xu hướng dữ liệu AI tạo sinh mới nổi bao gồm: tăng cường bởi truy xuất dữ liệu ngoài (RAG), tinh chỉnh mô hình được huấn luyện trước và xây dựng mô hình ngôn ngữ lớn (LLM) riêng
https://www.forbes.com/sites/forbestechcouncil/2024/03/25/how-to-unlock-competitive-advantage-with-genai-a-data-centric-approach/
- Cleanlab là một thư viện Python mã nguồn mở giúp phát hiện và sửa lỗi dữ liệu trong các tập dữ liệu machine learning.
- Cleanlab được đánh giá là có thiết kế tốt, khả năng mở rộng và có nền tảng lý thuyết vững chắc. Nó có thể phát hiện chính xác các lỗi dữ liệu, ngay cả trên các tập dữ liệu nổi tiếng và ổn định.
- Một kỹ sư phần mềm cấp cao tại Google đã sử dụng thành công Cleanlab trong một dự án thử nghiệm và giờ đây coi nó là một trong những thư viện chính để làm sạch tập dữ liệu.
- BBVA, một trong những tổ chức tài chính lớn nhất thế giới, sử dụng Cleanlab để phát hiện các điểm dữ liệu bị dán nhãn sai trong pipeline học máy của họ.
- Cleanlab cung cấp các thuật toán tiên tiến để phát hiện và sửa lỗi dữ liệu như: phát hiện nhãn nhiễu, ước tính ma trận nhầm lẫn, tìm kiếm K-lân cận, lọc dữ liệu theo ngưỡng tin cậy, v.v.
- Thư viện hỗ trợ nhiều loại mô hình và tác vụ học máy khác nhau như phân loại, hồi quy, phát hiện bất thường.
- Cleanlab có hiệu năng cao, có thể xử lý hàng triệu mẫu dữ liệu và hàng nghìn đặc trưng.
📌 Cleanlab là một thư viện Python mã nguồn mở mạnh mẽ giúp phát hiện và sửa lỗi dữ liệu cho machine learning, với các thuật toán tiên tiến, hiệu năng cao và khả năng mở rộng tốt. Nó đã được tin dùng bởi các tổ chức lớn như Google, BBVA để làm sạch dữ liệu và cải thiện độ chính xác của các mô hình.
Citations:
[1] https://cleanlab.ai
https://cleanlab.ai/
- Sensor Tower, nhà cung cấp dữ liệu hàng đầu về kinh tế số, đã mua lại nền tảng tình báo thị trường data.ai với giá trị không được tiết lộ.
- Thương vụ này giúp Sensor Tower mở rộng cơ sở khách hàng, bao gồm các thương hiệu lớn như Microsoft, Sky và Bandai Namco vốn đã sử dụng công cụ tình báo ứng dụng di động của data.ai.
- Việc mua lại data.ai là một bước tiến quan trọng của Sensor Tower trong việc mở rộng sự hiện diện tại khu vực châu Á - Thái Bình Dương và hợp tác với thêm nhiều công ty Fortune 500.
- Sự kết hợp giữa Sensor Tower và data.ai dự kiến sẽ mang lại những cải tiến đáng kể về độ chính xác dữ liệu, phạm vi bao quát toàn cầu và đa dạng hóa sản phẩm cho hơn 2.000 khách hàng doanh nghiệp.
- Năm 2023, người tiêu dùng đã chi 130 tỷ USD trên toàn cầu cho các giao dịch mua trong ứng dụng, xu hướng này dự kiến sẽ tiếp tục gia tăng khi các nền tảng lớn như Google, Meta, TikTok, Instagram và Snap đầu tư mạnh vào việc thu hút, giữ chân người dùng và tạo doanh thu.
- Thương vụ mua lại data.ai diễn ra sau khi Sensor Tower trải qua giai đoạn tăng trưởng nhanh chóng và thành công trong việc mua lại Pathmatics vào năm 2021.
- Bộ giải pháp tình báo số của Sensor Tower được cung cấp dựa trên mô hình đăng ký hàng năm, với dữ liệu độc đáo từ các nhóm người dùng.
- Đội ngũ lãnh đạo của Sensor Tower sẽ được giữ nguyên và quản lý công ty sau khi sáp nhập. Tuy nhiên, việc hợp nhất cũng đòi hỏi phải tối ưu hóa cơ cấu nhân sự.
- Bain Capital Credit dẫn đầu khoản tài trợ cho thương vụ, cùng với sự tham gia tiếp theo của Riverwood Capital và khoản đầu tư mới từ Paramark Ventures.
📌 Thương vụ Sensor Tower mua lại data.ai đánh dấu bước tiến quan trọng trong việc đo lường nền kinh tế số toàn cầu. Sự kết hợp này hứa hẹn mang lại những cải tiến về độ chính xác dữ liệu, phạm vi bao quát và đa dạng hóa sản phẩm cho hơn 2.000 khách hàng doanh nghiệp, đồng thời tăng cường sự hiện diện của Sensor Tower tại thị trường châu Á - Thái Bình Dương đầy tiềm năng với mức chi tiêu 130 tỷ USD cho các giao dịch trong ứng dụng năm 2023.
https://www.prnewswire.com/in/news-releases/sensor-tower-acquires-market-intelligence-platform-dataai-302090807.html
- Công cụ AI tạo sinh như ChatGPT và Gemini có khả năng thực hiện nhiều nhiệm vụ chỉ với vài lệnh đơn giản, giúp hiểu và trả lời các câu hỏi từ người dùng.
- Công nghệ AI có thể tự động phát hiện mẫu ẩn từ dữ liệu số và không cấu trúc, chuyển đổi thông tin thành khuyến nghị kinh doanh.
- Việc loại bỏ hoàn toàn hình thức trình bày thông tin trực quan là một sai lầm đắt giá, vì vẫn cần giữ lại sự hấp dẫn của các câu chuyện trực quan trong một số tình huống quan trọng.
- Các câu chuyện dữ liệu sử dụng hình ảnh và biểu đồ để truyền đạt thông tin phức tạp một cách nhanh chóng và hiệu quả, tăng cường sự hiểu biết và ghi nhớ.
- AI đã cải thiện khả năng hiểu ngôn ngữ tự nhiên và chuyển đổi kết quả số liệu thành dạng có thể hiểu được với ngữ cảnh chuyên ngành sâu.
- Hai yếu tố chính ảnh hưởng đến cách thông tin được trình bày cho hành động hiệu quả là phương pháp tiếp cận thông tin và mức độ thông tin mà người dùng cần để đưa ra quyết định.
- 4 tình huống quyết định được phân loại theo ma trận 2x2, giúp lựa chọn phương thức trình bày thông tin phù hợp.
- Trong các tình huống đơn giản, AI và trí tuệ đối thoại có thể cung cấp thông tin hiệu quả và hiệu quả. Tuy nhiên, trong các tình huống phức tạp cần nhiều ngữ cảnh và thông tin chi tiết, câu chuyện dữ liệu và dashboard tương tác vẫn là phương tiện chính.
- Sự hợp tác giữa AI tạo sinh và con người có thể tăng cường chu trình câu chuyện dữ liệu, với AI hỗ trợ trong việc phát hiện thông tin phân tích và dịch tổng kết thống kê thành khuyến nghị kinh doanh thuyết phục.
- Gartner dự đoán rằng câu chuyện dữ liệu sẽ là cách tiêu thụ phân tích phổ biến nhất vào năm 2025 và kỹ thuật phân tích tăng cường sẽ tạo ra 75% số câu chuyện này.
📌 Sử dụng AI tạo sinh trong các tình huống đơn giản có thể tiết kiệm công sức và cải thiện kết quả kinh doanh bằng cách tăng tốc độ cung cấp thông tin. Tuy nhiên, trong các tình huống phức tạp, câu chuyện dữ liệu và dashboard tương tác vẫn cần thiết để cung cấp ngữ cảnh và thông tin chi tiết cho người đưa quyết định.
Citations:
[1] https://sloanreview.mit.edu/article/the-enduring-power-of-data-storytelling-in-the-generative-ai-era/
#MIT
#hay
#MIT
- Mira Murati, CTO lâu năm của OpenAI, không thể trả lời rõ ràng câu hỏi về nguồn dữ liệu huấn luyện cho mô hình AI tạo video Sora trong cuộc phỏng vấn với Wall Street Journal.
- Khi được hỏi liệu video trên YouTube, Instagram, Facebook có được đưa vào tập dữ liệu huấn luyện, Murati chỉ trả lời mơ hồ rằng dữ liệu "có sẵn công khai hoặc được cấp phép".
- Murati từ chối trả lời chi tiết về quan hệ đối tác huấn luyện dữ liệu giữa OpenAI và công ty ảnh Shutterstock, nhưng sau đó xác nhận video Shutterstock có trong tập huấn luyện của Sora.
- Phản ứng trái chiều trên mạng, một số cho rằng Murati thiếu thẳng thắn hoặc thậm chí nói dối, số khác lập luận rằng mọi thứ công khai trên mạng đều có thể bị các công ty AI hút dữ liệu.
- Vụ việc cho thấy OpenAI đang vấp phải tranh cãi và kiện tụng về thực tiễn thu thập dữ liệu, đồng thời nêu bật thực tế kỳ lạ mà người dùng Internet phải đối mặt.
📌 Việc CTO của OpenAI không thể trả lời rõ ràng về nguồn dữ liệu huấn luyện cho Sora, bất kể là do muốn tránh kiện tụng về bản quyền hay thiếu hiểu biết, đã làm dấy lên nghi vấn chính đáng của công chúng. Trong tương lai, các công ty AI sẽ khó lòng thuyết phục được mọi người chỉ bằng những câu trả lời mơ hồ.
https://futurism.com/video-openai-cto-sora-training-data
- SQLCoder-70B là một mô hình mã nguồn mở mới vượt trội hơn tất cả các mô hình khác, kể cả GPT-4, trong nhiều tác vụ SQL.
- Defog đã xây dựng SQLCoder-70B dựa trên mô hình CodeLlama-70B của Meta và tinh chỉnh nó trên tập dữ liệu riêng.
- Tuy nhiên, các mô hình 70B tham số vẫn quá lớn để tích hợp offline hoặc chạy trên laptop.
- Bằng cách sử dụng kỹ thuật distillation, Defog đã huấn luyện một mô hình nhỏ gọn hơn SQLCoder-7B với 7 tỷ tham số.
- SQLCoder-7B có hiệu suất thấp hơn một chút so với SQLCoder-70B, nhưng nhìn chung vẫn vượt trội hơn GPT-4 với 90.5% hiệu suất trên các bài kiểm tra chuẩn.
- Phiên bản thứ hai SQLCoder-7B-2 đã được cập nhật trọng số và cho kết quả tốt hơn GPT-4 với hầu hết các truy vấn SQL, đặc biệt khi được hướng dẫn và gợi ý đúng cách.
- Thành công của SQLCoder-7B cho thấy tiềm năng của các mô hình chuyên biệt mã nguồn mở khi được tinh chỉnh trên các mô hình nền tảng lớn.
- Xu hướng này đánh dấu sự chuyển dịch đáng kể hướng tới việc tạo ra các giải pháp AI mạnh mẽ, dễ tiếp cận và thích ứng với nhiều thiết bị, ứng dụng.
📌 SQLCoder-7B-2 với 7 tỷ tham số, được phát triển bởi Defog dựa trên CodeLlama-70B của Meta, đã vượt trội GPT-4 trong hầu hết các truy vấn SQL với hiệu năng 90.5%. Thành công này cho thấy tiềm năng to lớn của các mô hình chuyên biệt mã nguồn mở khi được tinh chỉnh trên các mô hình nền tảng lớn, mở ra xu hướng tạo ra các giải pháp AI mạnh mẽ và dễ tiếp cận hơn.
Citations:
[1] https://huggingface.co/defog/sqlcoder-7b-2
https://medium.com/@boredgeeksociety/finally-7b-parameter-model-beats-gpt-4-732cb0f3321d
• Nghiên cứu tại Viện Công nghệ Liên bang Thụy Sĩ ở Lausanne phát hiện ra rằng các chatbot AI sử dụng tiếng Anh để "suy nghĩ", ngay cả khi được hỏi bằng ngôn ngữ khác.
• Các nhà nghiên cứu đã phân tích ba phiên bản của mô hình chatbot AI, tập trung vào các "lớp" xử lý nội bộ của chúng.
• Họ đã thử nghiệm bằng cách cung cấp ba loại yêu cầu trong bốn ngôn ngữ: Pháp, Đức, Nga, và Trung Quốc.
• Các mô hình được chọn do tính nguồn mở, cho phép nghiên cứu sâu vào cách thức xử lý dữ liệu.
• Kết quả cho thấy tất cả các quá trình xử lý của LLMs đều đi qua "không gian tiếng Anh", tức là chúng chuyển đổi từ ngôn ngữ này sang tiếng Anh trước khi dịch sang ngôn ngữ khác.
• Điều này có ý nghĩa quan trọng vì nó cho thấy các LLMs sử dụng tiếng Anh như một phương tiện để hiểu các khái niệm.
• Aliya Bhatia từ Trung tâm Dân chủ & Công nghệ tại Washington DC bày tỏ lo ngại về việc sử dụng tiếng Anh làm trung gian có thể áp đặt một quan điểm hạn chế lên các khu vực văn hóa và ngôn ngữ khác biệt.
📌 Nghiên cứu từ Viện Công nghệ Liên bang Thụy Sĩ ở Lausanne đã phát hiện ra rằng các mô hình ngôn ngữ lớn (LLMs) dùng trong chatbot AI "nghĩ" bằng tiếng Anh, kể cả khi xử lý yêu cầu bằng các ngôn ngữ khác. Các quá trình xử lý dữ liệu của LLMs đều đi qua "không gian tiếng Anh", cho thấy sự ưu tiên của tiếng Anh trong việc hiểu và xử lý các khái niệm. Điều này nêu bật mối quan ngại về việc sử dụng tiếng Anh như một trung gian có thể hạn chế góc nhìn và ảnh hưởng đến sự đa dạng văn hóa và ngôn ngữ.
https://readwrite.com/ai-chatbots-think-in-english-research-finds/
- DataCebo, một công ty khởi nghiệp từ MIT, đang áp dụng AI tạo sinh để cải tiến lĩnh vực kiểm thử phần mềm và tạo dữ liệu tổng hợp.
- Kể từ khi ra đời, Kho Dữ Liệu Tổng Hợp (Synthetic Data Vault - SDV) của DataCebo đã nhận được sự chú ý lớn với hơn 1 triệu lượt tải xuống và 10.000 nhà khoa học dữ liệu sử dụng.
- SDV không chỉ giới hạn ở kiểm thử phần mềm truyền thống mà còn được ứng dụng trong nhiều lĩnh vực khác như mô phỏng chuyến bay và phân tích y tế.
- Các phát triển gần đây bao gồm một trình mô phỏng chuyến bay giúp các hãng hàng không dự báo chính xác hơn về các gián đoạn liên quan đến thời tiết và mô hình dự đoán bệnh cho các bệnh như xơ nang, cho thấy tiềm năng của AI tạo sinh trong việc cải thiện kết quả điều trị cho bệnh nhân.
- DataCebo tiếp tục nỗ lực không ngừng để cải thiện quy trình kiểm thử phần mềm thông qua các mô hình tạo sinh, giúp tự động hóa việc tạo dữ liệu và mô phỏng các tình huống phức tạp một cách hiệu quả.
📌 DataCebo, một công ty khởi nghiệp từ MIT, với sự hỗ trợ của AI tạo sinh, đang mở ra một kỷ nguyên mới trong lĩnh vực kiểm thử phần mềm và tạo dữ liệu tổng hợp. Với hơn 1 triệu lượt tải và 10.000 nhà khoa học dữ liệu sử dụng, Kho Dữ Liệu Tổng Hợp SDV của DataCebo đã trở thành một công cụ không thể thiếu cho các tổ chức muốn mô phỏng các tình huống thực tế mà không làm lộ dữ liệu nhạy cảm. Các ứng dụng của nó đã vượt ra ngoài kiểm thử phần mềm, chứng minh tiềm năng rộng lớn của AI tạo sinh trong nhiều lĩnh vực khác nhau từ hàng không đến y tế, đánh dấu bước tiến quan trọng trong việc sử dụng công nghệ để cải thiện cuộc sống và công việc hàng ngày.
Citations:
[1] https://www.cryptopolitan.com/generative-ai-mit-software-testing-arena/
- Bài viết giới thiệu cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM (Large Language Models) cho mục đích phân tích dữ liệu.
- Khuyến khích khám phá hệ sinh thái nguồn mở để chọn khung đại lý phù hợp nhất cho ứng dụng của bạn.
- Đề xuất sử dụng Mixtral 8x7B LLM có sẵn trong danh mục NVIDIA NGC, hỗ trợ tăng tốc các mô hình và cung cấp chúng dưới dạng API.
- Các lời gọi API đầu tiên cho mỗi mô hình được miễn phí để thử nghiệm.
- Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.
📌 Bài viết trên blog kỹ thuật của NVIDIA cung cấp một hướng dẫn chi tiết về cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM cho phân tích dữ liệu, nhấn mạnh vào việc khám phá hệ sinh thái nguồn mở để tìm kiếm khung agent tốt nhất. Sử dụng Mixtral 8x7B LLM từ danh mục NVIDIA NGC là một lựa chọn được đề xuất, với ưu điểm là hỗ trợ tăng tốc các mô hình và cung cấp API miễn phí cho các lời gọi đầu tiên. Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.
Citations:
[1] https://developer.nvidia.com/blog/build-an-llm-powered-data-agent-for-data-analysis/
- AI tạo sinh (genAI) dựa trên Mô hình Ngôn Ngữ Lớn (LLMs) ra mắt vào năm 2022, thu hút sự chú ý của giới lãnh đạo doanh nghiệp và người tiêu dùng.
- GenAI mở ra kỷ nguyên công nghệ mới, tạo cơ hội và thách thức cho các doanh nghiệp trong việc tận dụng công nghệ để tạo ra sự khác biệt.
- Các nhà cung cấp đang đưa ra thị trường các sản phẩm và công cụ hỗ trợ genAI, khiến các nhà lãnh đạo và nhà phát triển phần mềm cảm thấy quá tải.
- Mô hình dữ liệu dựa trên tài liệu của MongoDB Atlas giúp kết hợp dữ liệu độc quyền với hiểu biết từ LLMs, tạo ra trải nghiệm AI độc đáo.
- Dữ liệu độc quyền, cả cấu trúc và không cấu trúc, có thể được chuyển đổi thành vector embeddings, giúp nắm bắt ý nghĩa ngữ nghĩa và thông tin ngữ cảnh.
- Gradient, công ty AI được sáng lập bởi cựu lãnh đạo các đội ngũ AI tại Google, Netflix, và Splunk, cung cấp nền tảng cho doanh nghiệp xây dựng và triển khai giải pháp AI tùy chỉnh.
- Gradient sử dụng LLMs tiên tiến và vector embeddings kết hợp với MongoDB Atlas Vector Search để lưu trữ, lập chỉ mục và truy xuất dữ liệu vector chiều cao, và LlamaIndex cho tích hợp dữ liệu.
📌 Để tạo sự khác biệt trên thị trường khi AI tạo sinh ngày càng phổ biến, việc tận dụng dữ liệu độc quyền và áp dụng mô hình dữ liệu mới như MongoDB Atlas là chìa khóa. Công ty Gradient đã minh chứng cho điều này bằng cách cung cấp một nền tảng cho phép doanh nghiệp xây dựng các ứng dụng AI tùy chỉnh hiệu suất cao và tiết kiệm chi phí. Sự kết hợp giữa LLMs, vector embeddings, và công cụ tìm kiếm vector của MongoDB Atlas cùng với LlamaIndex cho phép doanh nghiệp tạo ra những trải nghiệm AI độc đáo, tận dụng triệt để ý nghĩa ngữ nghĩa và thông tin ngữ cảnh từ dữ liệu của họ, từ đó tạo ra lợi thế cạnh tranh trên thị trường.
Citations:
[1] https://www.infoworld.com/article/3713060/how-to-stand-out-from-the-crowd-when-everyone-uses-generative-ai.html
- Reddit đã ký một thỏa thuận cấp phép mới cho phép một công ty AI lớn không được tiết lộ tên có quyền truy cập vào nền tảng nội dung do người dùng tạo ra.
- Thỏa thuận có giá trị khoảng 60 triệu đô la hàng năm, nhưng có thể thay đổi vì kế hoạch của công ty đi đến IPO vẫn đang được tiến hành.
- Trước đây, hầu hết các công ty AI đào tạo dữ liệu của họ trên web mở mà không cần xin phép, nhưng điều này đã trở nên pháp lý không chắc chắn.
- Thỏa thuận này có giá trị cao hơn nhiều so với thỏa thuận hàng năm 5 triệu đô la mà OpenAI được cho là đã đề nghị với các nhà xuất bản tin tức cho dữ liệu của họ.
- Apple cũng đang tìm kiếm các thỏa thuận nhiều năm với các công ty tin tức lớn có thể trị giá "ít nhất 50 triệu đô la".
- Tin tức này xuất hiện sau khi có thông tin vào tháng 10 rằng Reddit đã đe dọa cắt quyền truy cập của Google và Bing nếu không thể thực hiện thỏa thuận dữ liệu đào tạo với các công ty AI.
- Reddit đã chứng minh rằng họ sẵn lòng chơi khó trước đây, thành công trong việc thoát khỏi cuộc biểu tình lớn nhất trong lịch sử của mình sau khi thay đổi giá truy cập API bên thứ ba khiến các nhà phát triển ứng dụng Reddit phổ biến nhất phải đóng cửa.
📌 Reddit đã thực hiện một bước đi quan trọng trong việc kiểm soát và tận dụng nội dung do người dùng tạo ra trên nền tảng của mình thông qua thỏa thuận cấp phép mới với một công ty AI lớn không được tiết lộ. Với giá trị khoảng 60 triệu đô la hàng năm, thỏa thuận này không chỉ phản ánh giá trị kinh tế của dữ liệu người dùng mà còn cho thấy sự thay đổi trong cách các công ty AI tiếp cận việc thu thập dữ liệu trong bối cảnh pháp lý ngày càng khắt khe. Điều này cũng làm nổi bật sự sẵn lòng của Reddit trong việc đàm phán và bảo vệ quyền lợi của mình trước các đối tác công nghệ lớn, cũng như khả năng của nó trong việc điều hướng các thách thức pháp lý và kinh doanh trong môi trường số hóa hiện đại.
Citations:
[1] https://www.theverge.com/2024/2/17/24075670/reddit-ai-training-license-deal-user-content
- Tệp robots.txt được xem như "bản hiến pháp mini" của internet, tồn tại hơn ba thập kỷ và giúp ngăn chặn hỗn loạn trên mạng.
- Tệp này không có quyền lực pháp lý hay kỹ thuật cụ thể nhưng lại đại diện cho sự thỏa thuận giữa những người tiên phong đầu tiên của internet.
- Robots.txt cho phép chủ sở hữu website, từ blog cá nhân đến công ty đa quốc gia, quyết định ai có thể truy cập và ai không.
- Tệp này quản lý việc các search engine có thể lập chỉ mục trang web hay không, dự án lưu trữ có thể sao lưu trang hay không, và liệu đối thủ cạnh tranh có thể theo dõi trang cho mục đích của họ hay không.
- Trong nhiều thập kỷ, robots.txt chủ yếu tập trung vào các search engine, nhưng giờ đây cũng có các crawler dùng cho cả tìm kiếm web và AI.
- CCBot của tổ chức Common Crawl thu thập dữ liệu cho mục đích tìm kiếm và cũng được OpenAI, Google sử dụng để huấn luyện mô hình của họ.
- Bingbot của Microsoft hoạt động như cả một search crawler và AI crawler.
- Có những crawler hoạt động một cách bí mật, khiến việc ngăn chặn hoặc tìm kiếm chúng trong lưu lượng web trở nên khó khăn.
- Mark Graham, giám đốc của Internet Archive's Wayback Machine, nhận xét rằng robots.txt không nhất thiết phục vụ mục đích lưu trữ của họ.
- Một số nhà xuất bản muốn có quyền kiểm soát chi tiết hơn về việc truy cập và mục đích sử dụng dữ liệu thay vì chỉ có quyền cho phép hoặc cấm đoán đơn giản của robots.txt.
📌 Tệp robots.txt đã đóng vai trò quan trọng trong việc duy trì trật tự trên internet bằng cách cho phép các chủ sở hữ liệu quyết định ai có thể truy cập vào nội dung của họ. Tuy nhiên, với sự phát triển của công nghệ và nhu cầu sử dụng dữ liệu cho AI, đã xuất hiện những thách thức mới. Các crawler không chỉ giới hạn ở việc lập chỉ mục cho tìm kiếm web mà còn phục vụ cho việc huấn luyện mô hình AI, như CCBot và Bingbot. Điều này đặt ra nhu cầu cần thiết cho việc cập nhật và phát triển các quy định mới, nhằm cung cấp quyền kiểm soát chi tiết hơn cho các chủ sở hữu nội dung trên internet.
Citations:
[1] https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders
- Các công ty AI từ cốt lõi đang áp dụng phân tích dựa trên vector theo thời gian để nâng cao tầng thông minh, hỗ trợ nhiều ngành nghề từ y tế đến pháp lý.
- AI hiện nay đang "đói" dữ liệu, và việc áp dụng AI trong ứng dụng hiện đại đòi hỏi một lượng lớn dữ liệu.
- Các tổ chức doanh nghiệp đang sử dụng AI để lọc qua các kho dữ liệu hiện có, tìm kiếm mẫu, cung cấp ngữ cảnh và tự động hóa quy trình để cải thiện năng suất và sự hài lòng của khách hàng.
- Có một khoảng cách giữa việc chỉ có quyền truy cập vào dữ liệu thô và việc sử dụng AI một cách chiến lược để dẫn đầu xu hướng thị trường và nhu cầu của khách hàng.
- Để đạt được hiệu suất cần thiết cho việc quyết định dựa trên AI, các công ty cần xây dựng cơ sở hạ tầng dịch vụ dữ liệu phù hợp.
- Cơ sở dữ liệu vector được thảo luận gần đây với khả năng tính toán cao cho dữ liệu thời gian và không cấu trúc.
- KX, một công ty chuyên về quản lý dữ liệu vector thời gian với hiệu suất cao, làm việc với các ứng dụng thông tin cực kỳ nhiều thông tin trong nhiều lĩnh vực như ngân hàng đầu tư, khoa học sức khỏe, phát triển bán dẫn, viễn thông và sản xuất.
📌 Cơ sở dữ liệu vector đang trở thành một phần không thể thiếu trong việc xây dựng mô hình 'Nhà Máy AI', giúp các công ty AI từ cốt lõi nâng cao khả năng thông minh và hiệu suất trong việc phân tích và xử lý dữ liệu. Các công ty như KX đang dẫn đầu trong việc cung cấp giải pháp quản lý dữ liệu vector thời gian với hiệu suất cao, hỗ trợ các ứng dụng thông tin nhiều thông tin trong các ngành như ngân hàng đầu tư, khoa học sức khỏe, phát triển bán dẫn, viễn thông và sản xuất, đánh dấu bước tiến quan trọng trong việc chuyển đổi số và tối ưu hóa quyết định kinh doanh dựa trên dữ liệu.
Citations:
[1] https://www.forbes.com/sites/adrianbridgwater/2024/02/16/the-role-of-vector-databases-inside-the-ai-factory/?sh=1e1fc68a471d
- Acceldata đã giới thiệu AI copilot mới, một công cụ giúp tăng cường khả năng quan sát dữ liệu.
- AI copilot được thiết kế để hoạt động trên nền tảng Acceldata, hỗ trợ các tác vụ liên quan đến quan sát dữ liệu, từ việc giám sát các pipeline dữ liệu cho đến việc xác định các quy tắc chính sách.
- Công cụ này giúp loại bỏ các rắc rối cấu hình thủ công, giảm thời gian thiết lập, cho phép giám sát tự động các sự bất thường của dữ liệu và thúc đẩy sự cộng tác và đóng góp từ người dùng không chuyên môn.
- AI copilot cho phép người dùng tự động hóa và tăng tốc các tác vụ thủ công trước đây bằng cách nhập các đầu vào ngôn ngữ tự nhiên đơn giản.
- Công cụ này giúp người dùng dễ dàng nghiên cứu và khắc phục những vấn đề về tươi mới, hồ sơ và chất lượng dữ liệu, cũng như học hỏi các mô hình tiêu thụ để thay đổi và ngăn chặn việc tiêu thụ quá mức.
📌 Acceldata đã giới thiệu AI copilot, một công cụ mới giúp tăng cường khả năng quan sát dữ liệu. Công cụ này được thiết kế để hoạt động trên nền tảng Acceldata, giúp tự động hóa và tăng tốc các tác vụ thủ công trước đây. AI copilot giúp người dùng dễ dàng nghiên cứu và khắc phục những vấn đề về tươi mới, hồ sơ và chất lượng dữ liệu, cũng như học hỏi các mô hình tiêu thụ để thay đổi và ngăn chặn việc tiêu thụ quá mức.
Citations:
[1] https://venturebeat.com/data-infrastructure/acceldata-supercharges-data-observability-with-new-ai-copilot/
📌 AI thất bại trong việc tạo hình ảnh người da màu một cách chân thực do thiếu dữ liệu huấn luyện đa dạng và hiện tượng này có nguy cơ làm tăng cường các định kiến xã hội và việc phát triển deepfakes, theo nghiên cứu của Amy Dawel.
📌 Bài viết nhấn mạnh rằng việc xây dựng một nền tảng dữ liệu vững chắc là yếu tố cơ bản để tận dụng sức mạnh của AI. Cải thiện chất lượng và bảo mật dữ liệu có thể thúc đẩy khả năng phân tích và dự đoán, từ đó mang lại lợi ích cho doanh nghiệp.
🤖 Báo cáo của McKinsey mở ra cái nhìn sâu sắc về ảnh hưởng của AI tạo sinh đối với cộng đồng người da đen, làm nổi bật cả cơ hội và thách thức. Việc tận dụng công nghệ này để giảm chênh lệch và đầu tư vào dữ liệu không thiên vị là chìa khóa để đảm bảo công bằng và tiến bộ cho tất cả mọi người.
- Các công ty AI tạo sinh như OpenAI và Anthropic đã phát hành các mô hình ngôn ngữ lớn (LLM) như GPT-3 (175 tỷ tham số) và LLaMA (540 tỷ tham số) trực tiếp ra công chúng mà chưa qua kiểm thử chi tiết.
- Đây được coi là thử nghiệm sử dụng cộng đồng mạng với hàng tỷ người dùng để phát hiện lỗi, thay vì kiểm thử hàng nghìn giờ như truyền thống.
- Có lo ngại về khả năng lạm dụng và thiếu chính xác do LLM thiếu hướng dẫn đạo đức và kiểm soát chất lượng. Các LLM có thể thiên vị dựa trên dữ liệu huấn luyện.
- 60% dữ liệu huấn luyện GPT-3 và 67% LLaMA đến từ CommonCrawl - dữ liệu web thiếu kiểm soát chất lượng. Trách nhiệm nằm ở nhà phát triển khi lựa chọn dữ liệu.
- Điều khoản dịch vụ của LLM không đảm bảo độ chính xác, không chịu trách nhiệm pháp lý và dựa vào sự cân nhắc của người dùng.
- Chưa rõ ràng về trách nhiệm pháp lý khi lỗi xảy ra - nhà cung cấp LLM, hay người dùng?
- Người sáng tạo nội dung nên có quyền từ chối LLM sử dụng dữ liệu của họ mà không xin phép.
- Luật hiện hành về bản quyền và quyền riêng tư dữ liệu chưa theo kịp tác động của LLM. Đã có các vụ kiện xảy ra.
Kết luận:
- Cần sớm có các quy định và kiểm soát chặt chẽ hơn đối với LLM, tránh lạm dụng và đảm bảo sử dụng đạo đức. Các công ty công nghệ cần cân nhắc kỹ trước khi phát hành công nghệ mới có thể gây hậu quả nghiêm trọng.
- Data poisoning (đầu độc dữ liệu) là hiện tượng các nghệ sĩ làm hỏng các bộ dữ liệu huấn luyện AI để trả thù các hệ thống tạo ảnh.
- Các hệ thống AI tạo ảnh được huấn luyện dựa trên các bộ dữ liệu lớn chứa hàng triệu hoặc tỷ ảnh.
- Một số hệ thống sử dụng ảnh hợp pháp, nhưng một số khác thu thập trái phép các ảnh trên mạng.
- Công cụ Nightshade làm hỏng nhẹ các ảnh để AI nhận diện sai nhưng con người vẫn nhìn bình thường.
- Nếu các ảnh này được dùng để huấn luyện AI, chúng sẽ làm hỏng dữ liệu và khiến AI nhận diện sai.
- Ví dụ, hỏi "không khí đỏ trên nền trời xanh" có thể trả về ảnh trứng hoặc dưa hấu.
- Càng nhiều ảnh bị làm hỏng, sự phá hoại càng lớn.
- Để giải quyết vấn đề này cần kiểm soát nguồn dữ liệu tốt hơn, kiểm tra chất lượng dữ liệu, và tôn trọng bản quyền.
Kết luận:
- Data poisoning là một cách các nghệ sĩ phản kháng việc các công ty công nghệ thu thập trái phép ảnh của họ.
- Điều này cho thấy cần có các quy định về quản trị công nghệ tốt hơn để bảo vệ quyền lợi của người dùng.
- Bài viết giới thiệu 5 cách dễ dàng sử dụng Google Gemini cho phân tích dữ liệu dành cho người mới bắt đầu.
- Google Gemini hỗ trợ tích hợp quản lý dữ liệu từ nhiều nguồn khác nhau như cloud, cơ sở dữ liệu và kho dữ liệu.
- Cung cấp thư viện thuật toán phân tích tiên tiến với các cài đặt sẵn và tùy chọn điều chỉnh tham số trực quan.
- Có khả năng xử lý dữ liệu thời gian thực, giúp người dùng đưa ra quyết định nhanh chóng dựa trên dữ liệu cập nhật liên tục.
- Gemini cho phép tạo ra các bảng mô tả dữ liệu tương tác cao, với khả năng tùy chỉnh mạnh mẽ và các tính năng như bản đồ địa lý, 3D và kể chuyện dữ liệu nâng cao.
- Nền tảng hỗ trợ công tác hợp tác với khả năng nhiều người dùng tương tác và chỉnh sửa cùng một lúc.
Kết luận: Bài viết cung cấp cái nhìn tổng quan về cách thức sử dụng Google Gemini trong việc phân tích dữ liệu. Từ việc tích hợp nguồn dữ liệu đa dạng, sử dụng thuật toán phân tích tiên tiến, xử lý dữ liệu thời gian thực, đến tạo ra các biểu đồ tương tác, Gemini mở ra cánh cửa vào lĩnh vực phân tích dữ liệu một cách thân thiện với người mới.