Anthropic vừa công bố nghiên cứu chưa từng có, phân tích 700.000 cuộc trò chuyện với Claude để đánh giá cách AI này thể hiện hệ giá trị thực tế với người dùng.
Nhóm nghiên cứu sử dụng phương pháp phân tích mới, rút gọn còn 308.000 hội thoại dựa trên bộ lọc chủ quan, từ đó lập bảng phân loại hệ thống giá trị đạo đức thực nghiệm đầu tiên ở quy mô lớn cho một AI.
Claude thể hiện nhất quán với triết lý “hữu ích, trung thực, không gây hại” của Anthropic, tuy vẫn linh hoạt tùy ngữ cảnh như tư vấn tình cảm, phân tích lịch sử hay giải đáp chuyên môn.
Hệ giá trị của Claude được phân loại thành 5 nhóm: Thực tiễn, Nhận thức, Xã hội, Bảo vệ và Cá nhân; tổng số xác định được 3.307 giá trị khác nhau, từ “tư duy chiến lược” đến “lòng hiếu thảo”.
Một số trường hợp hiếm (khoảng 3%) Claude phản kháng hoặc không đồng tình với giá trị người dùng, tập trung ở các giá trị cốt lõi như “trung thực trí tuệ” và “ngăn ngừa gây hại”.
Phát hiện bất ngờ: Claude thay đổi giá trị tùy nhiệm vụ, ví dụ: nhấn mạnh “ranh giới lành mạnh” khi tư vấn tình cảm, “chính xác lịch sử” khi phân tích sự kiện nhạy cảm.
Có 28,2% trường hợp Claude đồng tình mạnh mẽ với giá trị người dùng, 6,6% Claude chuyển hướng và bổ sung góc nhìn mới, chủ yếu khi đưa lời khuyên tâm lý-xã hội.
Một số bất thường về giá trị như “ưu thế” hoặc “phi đạo đức” được cho là do người dùng “jailbreak” vượt rào bảo vệ AI, chỉ ra lỗ hổng an toàn tiềm tàng.
Anthropic đặt kỳ vọng cách tiếp cận này sẽ cảnh báo sớm các hành vi vi phạm đạo đức, giúp vá lỗ hổng trước khi AI bị khai thác bất chính.
Công ty vừa tung phiên bản Claude Max giá 200 USD/tháng, tích hợp Workspace và nghiên cứu tự động, hướng đến cạnh tranh trực tiếp với OpenAI.
Anthropic công bố công khai bộ dữ liệu giá trị, muốn thúc đẩy minh bạch cạnh tranh với những đối thủ siêu lớn như OpenAI (định giá 300 tỉ USD, Microsoft đầu tư lớn).
Nghiên cứu này cảnh báo: Kiểm soát giá trị AI là quá trình liên tục, AI dễ sinh ra giá trị ngoài dự đoán, nguy cơ lệch định hướng nếu không giám sát thực tế.
Một hạn chế là cách đánh giá này chỉ áp dụng được khi đã có nhiều dữ liệu thật, không phù hợp kiểm thử trước khi phát hành AI quy mô lớn.
📌 Anthropic đã phân tích hơn 700.000 hội thoại với Claude, tìm ra hơn 3.307 giá trị đạo đức đa dạng, trong đó AI chủ yếu tuân thủ triết lý “hữu ích, trung thực, không gây hại" nhưng vẫn có ca hiếm thể hiện giá trị tiêu cực và thay đổi linh hoạt theo ngữ cảnh. Nghiên cứu này nêu bật cả tiềm năng lẫn rủi ro quản trị, kiểm soát AI trong thực tế doanh nghiệp.
https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/