90% dữ liệu AI tạo sinh hiện nay là tiếng Anh Mỹ, gây ra bất công và làm lu mờ những biến thể tiếng Anh khác

  • 90% dữ liệu đào tạo của AI tạo sinh hiện nay xuất phát từ tiếng Anh, chủ yếu là tiếng Anh Mỹ dòng chính (mainstream American English).

  • Tiếng Anh Mỹ chiếm ưu thế do lịch sử, kinh tế, công nghệ và sự thống trị của các tập đoàn công nghệ Mỹ như Google, Meta, Microsoft, OpenAI.

  • Các sản phẩm AI như autocorrect, chuyển giọng nói thành văn bản, hay trợ lý viết bằng AI đều dựa trên dữ liệu tiếng Anh Mỹ, dẫn đến loại trừ hoặc “sửa” các biến thể tiếng Anh khác.

  • Nghiên cứu cho thấy người nói tiếng Anh không thuộc dòng chính cảm thấy thất vọng khi các công nghệ AI đều dùng giọng Mỹ, gây khó chịu và cảm giác bị loại trừ.

  • Ví dụ thực tế: Một nhà ngôn ngữ gọi điện cho các chủ nhà bằng 3 phương ngữ khác nhau tại Mỹ, kết quả chỉ giọng Mỹ dòng chính mới nhận được nhiều lời mời xem nhà – chứng tỏ thiên vị ngôn ngữ không chỉ tồn tại ngoài đời mà còn được củng cố bởi AI.

  • Khi AI được ứng dụng rộng rãi, hậu quả của thiên vị này càng nghiêm trọng: Ứng viên dùng tiếng Anh Ấn Độ có thể bị hệ thống AI chấm điểm hồ sơ thấp, phần mềm nhận diện giọng nói bỏ sót từ vựng quan trọng trong văn hóa bản địa.

  • Các biến thể tiếng Anh như tiếng Anh bản địa Úc, Anh Ấn Độ, Anh Singapore… đều có cấu trúc, từ vựng và “luật” riêng, nhưng thường bị xem là “tiếng Anh hỏng” hoặc bị loại ra khỏi tập dữ liệu huấn luyện.

  • AI đa ngôn ngữ trên lý thuyết nhưng lại đơn ngữ trong thực tế do thiếu dữ liệu các biến thể tiếng Anh.

  • Để hướng tới công bằng ngôn ngữ, cần phát triển AI công nhận sự đa dạng tiếng Anh, hợp tác giữa các nhà ngôn ngữ học, kỹ sư, giáo viên và cộng đồng địa phương.

  • Mục tiêu là thay đổi công nghệ cho phù hợp với người dùng, không phải “sửa” người dùng theo tiêu chuẩn tiếng Anh Mỹ.

📌 Khoảng 90% dữ liệu AI tạo sinh hiện nay là tiếng Anh Mỹ, gây ra bất công và làm lu mờ những biến thể tiếng Anh khác. Các hệ thống AI cần thay đổi để tôn trọng đa dạng ngôn ngữ, tránh duy trì “ảo giác” về tiếng Anh tiêu chuẩn và tạo ra kết quả công bằng cho toàn cầu.

 

https://theconversation.com/ai-systems-are-built-on-english-but-not-the-kind-most-of-the-world-speaks-249710

Không có file đính kèm.

7

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo