- Các công ty AI tạo sinh như OpenAI và Anthropic đã phát hành các mô hình ngôn ngữ lớn (LLM) như GPT-3 (175 tỷ tham số) và LLaMA (540 tỷ tham số) trực tiếp ra công chúng mà chưa qua kiểm thử chi tiết.
- Đây được coi là thử nghiệm sử dụng cộng đồng mạng với hàng tỷ người dùng để phát hiện lỗi, thay vì kiểm thử hàng nghìn giờ như truyền thống.
- Có lo ngại về khả năng lạm dụng và thiếu chính xác do LLM thiếu hướng dẫn đạo đức và kiểm soát chất lượng. Các LLM có thể thiên vị dựa trên dữ liệu huấn luyện.
- 60% dữ liệu huấn luyện GPT-3 và 67% LLaMA đến từ CommonCrawl - dữ liệu web thiếu kiểm soát chất lượng. Trách nhiệm nằm ở nhà phát triển khi lựa chọn dữ liệu.
- Điều khoản dịch vụ của LLM không đảm bảo độ chính xác, không chịu trách nhiệm pháp lý và dựa vào sự cân nhắc của người dùng.
- Chưa rõ ràng về trách nhiệm pháp lý khi lỗi xảy ra - nhà cung cấp LLM, hay người dùng?
- Người sáng tạo nội dung nên có quyền từ chối LLM sử dụng dữ liệu của họ mà không xin phép.
- Luật hiện hành về bản quyền và quyền riêng tư dữ liệu chưa theo kịp tác động của LLM. Đã có các vụ kiện xảy ra.
Kết luận:
- Cần sớm có các quy định và kiểm soát chặt chẽ hơn đối với LLM, tránh lạm dụng và đảm bảo sử dụng đạo đức. Các công ty công nghệ cần cân nhắc kỹ trước khi phát hành công nghệ mới có thể gây hậu quả nghiêm trọng.