Các công ty AI hàng đầu như Microsoft, Google và Meta đang đặt cược vào dữ liệu "giả" để xây dựng mô hình AI

- Các công ty AI hàng đầu như Microsoft, Google, Meta đang thử nghiệm sử dụng dữ liệu tổng hợp (synthetic data) để đáp ứng nhu cầu khổng lồ về dữ liệu chất lượng cao.
- Dữ liệu tổng hợp được tạo ra bởi chính các hệ thống AI, sau đó dùng để huấn luyện các phiên bản tương lai của hệ thống đó, tạo thành một "động cơ sinh dữ liệu vô hạn".
- Anthropic, Meta, Google đã sử dụng dữ liệu tổng hợp để phát triển các mô hình mới. Microsoft cũng dùng phương pháp này để xây dựng mô hình ngôn ngữ Phi-3.
- Một số chuyên gia lo ngại rủi ro của kỹ thuật này như làm trầm trọng thêm độc hại và sai lệch trong dữ liệu. Nghiên cứu cho thấy mô hình AI được huấn luyện bằng dữ liệu tổng hợp có thể mất trí nhớ và sinh ra ngôn ngữ vô nghĩa.
- Tuy nhiên, những người ủng hộ cho rằng với biện pháp thích hợp, mô hình được phát triển theo cách này có thể chính xác hơn mô hình dựa trên dữ liệu thực.
- Tranh luận triết học nảy sinh: Liệu AI sẽ trở thành bắt chước ngôn ngữ của máy móc khác thay vì trí tuệ con người? Các chuyên gia đồng ý rằng con người vẫn cần thiết để tạo ra và tinh chỉnh dữ liệu nhân tạo hữu ích.

📌 Các công ty AI đang chuyển sang sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện các mô hình mới, giúp giảm bớt các vấn đề pháp lý và đạo đức liên quan đến việc thu thập dữ liệu thực. Tuy nhiên, phương pháp này tiềm ẩn rủi ro làm gia tăng sai lệch và mất trí nhớ của AI. Các chuyên gia nhấn mạnh vai trò không thể thiếu của con người trong việc tạo ra dữ liệu tổng hợp hữu ích.

Citations:
[1] https://www.bloomberg.com/news/newsletters/2024-05-02/microsoft-google-and-meta-bet-on-fake-data-to-train-ai-models

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo