- Các nhà nghiên cứu tại Amazon đã huấn luyện thành công mô hình chuyển đổi văn bản thành giọng nói (text-to-speech) lớn nhất từ trước đến nay với 980 triệu tham số, có tên là Big Adaptive Streamable TTS with Emergent abilities (BASE TTS).
- Mô hình BASE TTS sử dụng 100.000 giờ giọng nói thuộc phạm vi công cộng, trong đó 90% là tiếng Anh và phần còn lại là tiếng Đức, Hà Lan và Tây Ban Nha.
- Mô hình này cho thấy những cải tiến đáng kể, giúp nó có khả năng nói một cách tự nhiên ngay cả với những câu phức tạp, có thể là bước đột phá giúp công nghệ vượt qua "thung lũng kỳ quái".
- Các mô hình ngôn ngữ lớn (LLMs) khi đạt đến một kích thước nhất định bắt đầu thể hiện sự mạnh mẽ và linh hoạt, có khả năng thực hiện các nhiệm vụ mà chúng không được huấn luyện trực tiếp.
- Nhóm nghiên cứu tại Amazon AGI (Artificial General Intelligence) tin rằng điều tương tự cũng xảy ra với mô hình text-to-speech khi chúng phát triển về kích thước.
- Mặc dù công nghệ này có tiềm năng lớn, đặc biệt là trong lĩnh vực tiếp cận, nhưng nhóm nghiên cứu đã quyết định không công bố mã nguồn và dữ liệu khác của mô hình do lo ngại rủi ro từ những kẻ xấu lợi dụng.
📌 Mô hình BASE TTS của Amazon đánh dấu một bước tiến quan trọng trong lĩnh vực AI chuyển đổi văn bản thành giọng nói, với 100.000 giờ giọng nói và khả năng "nổi bật" nâng cao. Sự phát triển này không chỉ giúp mô hình nói một cách tự nhiên hơn mà còn mở ra khả năng thực hiện các nhiệm vụ không được huấn luyện trước. Điều này cho thấy tiềm năng lớn trong việc cải thiện khả năng tiếp cận thông tin cho mọi người, đồng thời cũng nâng cao chất lượng tương tác giữa con người và máy móc. Tuy nhiên, việc không công bố mã nguồn để tránh rủi ro từ những kẻ xấu cũng là một quyết định cần thiết để đảm bảo an toàn cho công nghệ này.
Citations:
[1] https://techcrunch.com/2024/02/14/largest-text-to-speech-ai-model-yet-shows-emergent-abilities/