• Salesforce AI Research vừa phát hành bộ dữ liệu nguồn mở MINT-1T, chứa 1 nghìn tỷ token văn bản và 3,4 tỷ hình ảnh, lớn gấp 10 lần các bộ dữ liệu công khai trước đây.
• MINT-1T là bộ dữ liệu đa phương thức kết hợp văn bản và hình ảnh, mô phỏng tài liệu thực tế. Điều này rất quan trọng để phát triển học máy đa phương thức - giúp máy tính hiểu cả văn bản và hình ảnh cùng lúc như con người.
• Bộ dữ liệu này không chỉ lớn mà còn đa dạng, lấy từ nhiều nguồn như trang web và bài báo khoa học, giúp mô hình AI có cái nhìn toàn diện về kiến thức của con người.
• Việc công khai MINT-1T phá vỡ rào cản trong nghiên cứu AI, cho phép các phòng thí nghiệm nhỏ và nhà nghiên cứu cá nhân tiếp cận dữ liệu ngang tầm các công ty công nghệ lớn.
• Động thái này của Salesforce phù hợp với xu hướng mở trong nghiên cứu AI, nhưng cũng đặt ra câu hỏi về tương lai của AI và ai sẽ định hướng sự phát triển của nó.
• Quy mô chưa từng có của MINT-1T làm nổi bật các vấn đề đạo đức về quyền riêng tư, sự đồng ý và nguy cơ khuếch đại định kiến trong dữ liệu gốc.
• Cộng đồng AI phải phát triển khuôn khổ mạnh mẽ để tổng hợp dữ liệu và huấn luyện mô hình, ưu tiên công bằng, minh bạch và trách nhiệm giải trình.
• MINT-1T có thể thúc đẩy tiến bộ trong nhiều lĩnh vực AI như trợ lý AI thông minh hơn, đột phá trong thị giác máy tính và khả năng suy luận đa phương thức.
• Tuy nhiên, cộng đồng AI phải đối mặt với các thách thức về độ chệch, khả năng giải thích và độ mạnh mẽ của hệ thống AI ngày càng mạnh mẽ và ảnh hưởng lớn.
• Các nhà nghiên cứu và nhà phát triển phải đưa ra quyết định sử dụng MINT-1T một cách có trách nhiệm, định hình tương lai của AI phù hợp với giá trị của con người.
📌 Bộ dữ liệu MINT-1T với 1 nghìn tỷ token và 3,4 tỷ hình ảnh mở ra cơ hội đột phá cho AI đa phương thức, nhưng cũng đặt ra thách thức về đạo đức và trách nhiệm. Việc sử dụng dữ liệu khổng lồ này sẽ định hình tương lai của AI và thế giới ngày càng phụ thuộc vào AI.
https://venturebeat.com/ai/how-salesforces-mint-1t-dataset-could-disrupt-the-ai-industry/