- GPT-4o được kỳ vọng xử lý tốt hơn các tác vụ đa ngôn ngữ nhờ công cụ token hóa mới, tuy nhiên dữ liệu token tiếng Trung lại chứa nhiều cụm từ vô nghĩa do chưa được làm sạch và lọc đầy đủ.
- Các token dài nhất bằng tiếng Trung hầu hết là từ spam dùng trong ngữ cảnh khiêu dâm, cờ bạc và lừa đảo. Ngay cả token 3 ký tự cũng phản ánh đáng kể các chủ đề này.
- Tên một trang web spam xuất hiện trong ít nhất 5 token tiếng Trung của GPT-4o. Người dùng Trung Quốc báo cáo các trang này thường xuyên xuất hiện trong kết quả tìm kiếm Google không liên quan.
- Vấn đề tương tự không tồn tại ở thế hệ token hóa trước dùng cho GPT-3.5 và GPT-4. Các token dài nhất khi đó là các thuật ngữ phổ biến.
- OpenAI có thể đã không làm sạch tập dữ liệu và token tiếng Trung trước khi phát hành GPT-4o. Chưa rõ liệu ngôn ngữ khác có bị ảnh hưởng không, nhưng một người dùng báo cáo tình trạng tương tự với token tiếng Hàn.
- Các chuyên gia cho rằng khắc phục vấn đề này không quá khó, nhưng có thể phức tạp nếu kết quả bị lặp trong các quy trình đa bước giữa các mô hình, hoặc khi token và mô hình bị ô nhiễm được kế thừa trong các phiên bản tương lai.
📌 GPT-4o gặp sự cố nghiêm trọng khi token tiếng Trung bị ô nhiễm bởi hàng loạt nội dung spam, khiêu dâm. Nguyên nhân do OpenAI chưa làm sạch dữ liệu đầy đủ trước khi huấn luyện. Tuy khắc phục được, nhưng hậu quả có thể lan rộng nếu kết quả lỗi bị lặp lại và di truyền cho các mô hình sau này.
Citations:
[1] https://www.technologyreview.com/2024/05/17/1092649/gpt-4o-chinese-token-polluted/
#MIT