• Two AI đã ra mắt SUTRA, một mô hình ngôn ngữ được thiết kế để thành thạo hơn 30 ngôn ngữ, bao gồm nhiều ngôn ngữ Nam Á như Gujarati, Marathi, Tamil và Telugu.
• Kiến trúc của SUTRA bao gồm hai transformer mixture-of-experts: một mô hình khái niệm và một bộ mã hóa-giải mã để dịch thuật.
• Mô hình khái niệm được đào tạo để dự đoán token tiếp theo, sử dụng các bộ dữ liệu công khai chủ yếu bằng tiếng Anh.
• Mô hình dịch thuật học từ 100 triệu cuộc hội thoại được dịch bởi con người và máy móc trên nhiều ngôn ngữ.
• SUTRA có ba phiên bản: Pro, Light và Online. SUTRA-Pro và SUTRA-Online cung cấp hiệu suất cao và kết nối internet với giá 1 USD/1 triệu token, trong khi SUTRA-Light có độ trễ thấp với giá 0,75 USD/1 triệu token.
• Trên điểm chuẩn MMLU đa ngôn ngữ, SUTRA vượt trội GPT-4 trong 4/11 ngôn ngữ được báo cáo: Gujarati, Marathi, Tamil và Telugu.
• Tokenizer của SUTRA rất hiệu quả, tạo ra ít token hơn so với GPT-3.5 và GPT-4, đặc biệt là trong các ngôn ngữ có chữ viết không phải Latin như tiếng Hindi và tiếng Hàn.
• Two AI tập trung vào các thị trường không nói tiếng Anh như Ấn Độ, Hàn Quốc, Nhật Bản và Trung Đông.
• Công ty đã huy động được 20 triệu USD vốn hạt giống từ Jio và Naver.
• SUTRA có tiềm năng cung cấp hỗ trợ đa ngôn ngữ chất lượng cao, tiết kiệm chi phí cho người dùng ở các khu vực nông thôn và chưa được phục vụ.
• Mặc dù SUTRA vẫn chưa thể sánh ngang với GPT-4 về mọi mặt, nhưng hiệu suất mục tiêu, hiệu quả và khả năng chi trả của nó khiến nó trở thành một đối thủ đáng gờm trong lĩnh vực AI đa ngôn ngữ.
📌 SUTRA của Two AI là mô hình AI đa ngôn ngữ hỗ trợ 30+ ngôn ngữ, vượt trội GPT-4 trong 4 ngôn ngữ Nam Á. Với giá 0,75-1 USD/triệu token, SUTRA hứa hẹn mang AI tiên tiến đến các thị trường mới nổi ở châu Á với 20 triệu USD vốn hạt giống.
https://www.marktechpost.com/2024/06/29/two-ai-releases-sutra-a-multilingual-ai-model-improving-language-processing-in-over-30-languages-for-south-asian-markets/