DeepSeek bị nghi ngờ sử dụng dữ liệu của Gemini (Google) để huấn luyện mô hình AI R1 mới nhất

  • DeepSeek ra mắt phiên bản cập nhật mô hình AI R1, nổi bật về toán học và lập trình nhưng không công bố nguồn dữ liệu huấn luyện.

  • Một nhà phát triển tại Melbourne, Sam Paech, tung bằng chứng cho thấy mô hình R1-0528 của DeepSeek có xu hướng dùng từ ngữ giống Gemini 2.5 Pro của Google, nghi ngờ đã dùng dữ liệu Gemini để huấn luyện.

  • Nhận định bổ sung từ nhà sáng lập SpeechMap cho rằng "dấu vết suy nghĩ" của R1-0528 giống Gemini.

  • DeepSeek từng bị nghi dùng dữ liệu từ các AI đối thủ: tháng 12/2024, mô hình DeepSeek V3 thường tự nhận là ChatGPT, có thể do dùng log chat của ChatGPT huấn luyện.

  • Đầu 2025, OpenAI thông báo phát hiện DeepSeek sử dụng kỹ thuật distillation để trích xuất dữ liệu từ mô hình mạnh hơn. Microsoft cũng phát hiện lượng lớn dữ liệu bị sao chép thông qua tài khoản nhà phát triển OpenAI nghi liên quan DeepSeek.

  • OpenAI cấm sử dụng kết quả đầu ra để xây dựng AI cạnh tranh, nhưng distillation lại phổ biến trong ngành.

  • Việc các mô hình AI dùng từ ngữ, biểu đạt giống nhau không hiếm do dữ liệu web ngày càng "ô nhiễm" bởi nội dung do AI tạo, khiến khó lọc và phân loại dữ liệu sạch cho huấn luyện.

  • Chuyên gia Nathan Lambert từ AI2 cho rằng DeepSeek có thể đã chủ động dùng API Gemini để tạo dữ liệu tổng hợp, do thiếu GPU nhưng có nguồn vốn lớn, tận dụng “nhiều tính toán hơn” theo cách riêng.

  • Để ngăn distillation, các công ty AI tăng cường bảo mật: OpenAI bắt buộc xác minh ID cho tổ chức truy cập mô hình nâng cao (không hỗ trợ Trung Quốc).

  • Google và Anthropic bắt đầu tóm tắt (summarize) các "trace" mô hình để gây khó khăn cho việc huấn luyện đối thủ từ dấu vết Gemini, bảo vệ lợi thế cạnh tranh.

  • Sự kiện hé lộ căng thẳng cạnh tranh, chạy đua công nghệ và nâng cấp bảo mật trong thế giới AI tạo sinh.

📌 DeepSeek bị nghi dùng dữ liệu Gemini (Google) để huấn luyện AI R1-0528 mới, với bằng chứng về dấu vết từ ngữ và cách vận hành tương đồng; từng có tiền sử dùng dữ liệu ChatGPT. Các ông lớn AI tăng cường bảo mật, OpenAI cấm distillation, Google/Anthropic tóm tắt trace để bảo vệ dữ liệu. Cạnh tranh AI toàn cầu ngày càng phức tạp và gay gắt.

https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model/

Không có file đính kèm.

22

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo