• IBM vừa công bố toàn bộ bộ dữ liệu 6,48 TB được sử dụng để huấn luyện mô hình ngôn ngữ lớn Granite 13B.
• Armand Ruiz, một chuyên gia của IBM, đã tiết lộ thông tin này, mở ra cơ hội mới cho cộng đồng nghiên cứu AI và phát triển ứng dụng.
• Granite 13B là một mô hình ngôn ngữ lớn được IBM phát triển đặc biệt cho các ứng dụng doanh nghiệp.
• Vào tháng 5/2024, IBM đã công bố mã nguồn mở của Granite 13B, cho phép các nhà phát triển và doanh nghiệp tự do sử dụng và tùy chỉnh mô hình này.
• Bộ dữ liệu huấn luyện 6,48 TB bao gồm nhiều loại dữ liệu đa dạng như văn bản, mã nguồn, tài liệu kỹ thuật và dữ liệu doanh nghiệp.
• Việc công bố bộ dữ liệu này giúp tăng tính minh bạch trong quá trình phát triển AI, đồng thời cho phép các nhà nghiên cứu hiểu rõ hơn về cách Granite 13B được huấn luyện.
• IBM khẳng định rằng bộ dữ liệu đã được xử lý để loại bỏ thông tin nhạy cảm và tuân thủ các quy định về bảo mật và quyền riêng tư.
• Granite 13B được thiết kế để xử lý các tác vụ phức tạp trong môi trường doanh nghiệp như phân tích dữ liệu, tự động hóa quy trình và hỗ trợ ra quyết định.
• Mô hình này có khả năng hiểu và tạo ra văn bản chất lượng cao, đồng thời tích hợp tốt với các hệ thống và ứng dụng doanh nghiệp hiện có.
• Việc công bố bộ dữ liệu huấn luyện có thể thúc đẩy sự phát triển của các mô hình AI tùy chỉnh cho các ngành công nghiệp cụ thể.
• Các chuyên gia trong ngành nhận định rằng động thái này của IBM sẽ góp phần thúc đẩy sự cạnh tranh và đổi mới trong lĩnh vực AI doanh nghiệp.
• Bộ dữ liệu được chia sẻ thông qua nền tảng Hugging Face, một kho lưu trữ phổ biến cho các mô hình và dữ liệu AI.
• IBM cũng cung cấp tài liệu hướng dẫn chi tiết về cách sử dụng bộ dữ liệu và tái tạo quá trình huấn luyện Granite 13B.
• Việc này mở ra cơ hội cho các doanh nghiệp vừa và nhỏ tiếp cận công nghệ AI tiên tiến mà không cần đầu tư lớn vào nghiên cứu và phát triển.
📌 IBM công bố bộ dữ liệu 6,48 TB dùng để huấn luyện Granite 13B, mô hình ngôn ngữ lớn nguồn mở cho doanh nghiệp. Động thái này thúc đẩy minh bạch trong AI, mở ra cơ hội nghiên cứu và phát triển ứng dụng AI tùy chỉnh cho nhiều ngành công nghiệp.
https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/