- GLM-4-Voice là mô hình ngôn ngữ lớn đầu cuối mã nguồn mở vừa được Zhipu AI phát hành vào ngày 25 tháng 10 năm 2024.
- Mô hình này nhằm khắc phục những hạn chế của các hệ thống nhận diện giọng nói truyền thống, như khả năng hiểu cảm xúc và biến thể trong khẩu ngữ.
- GLM-4-Voice tích hợp nhận diện giọng nói, hiểu ngôn ngữ và tạo giọng nói trong một hệ thống duy nhất, hỗ trợ cả tiếng Trung và tiếng Anh.
- Việc tích hợp này giúp loại bỏ các quy trình phức tạp thường thấy trong các mô hình trước đây, cho phép xử lý hiệu quả hơn.
- Một tính năng nổi bật của GLM-4-Voice là khả năng điều chỉnh cảm xúc, âm điệu và tốc độ dựa trên hướng dẫn của người dùng.
- Mô hình có độ trễ thấp và hỗ trợ phơi nhiễm thời gian thực, giúp tương tác trở nên tự nhiên hơn khi người dùng có thể nói chồng lên nhau mà không bị gián đoạn.
- GLM-4-Voice cải thiện đáng kể cách tương tác giữa con người và máy móc, làm cho các cuộc trò chuyện trở nên trực quan và dễ tiếp cận hơn.
- Các trợ lý giọng nói hiện tại thường cảm thấy cứng nhắc vì không thể điều chỉnh theo dòng chảy của cuộc trò chuyện con người. GLM-4-Voice giải quyết vấn đề này bằng cách điều chỉnh đầu ra giọng nói để làm cho cuộc trò chuyện trở nên biểu cảm hơn.
- Các thử nghiệm ban đầu cho thấy GLM-4-Voice hoạt động tốt hơn với chuyển tiếp giọng nói mượt mà và khả năng xử lý sự gián đoạn tốt hơn so với các phiên bản trước.
- Dữ liệu ban đầu từ Zhipu AI cho thấy GLM-4-Voice có độ phản hồi tốt hơn với độ trễ giảm, nâng cao sự hài lòng của người dùng trong các ứng dụng tương tác.
- Mô hình này hứa hẹn sẽ ảnh hưởng đến nhiều lĩnh vực như trợ lý cá nhân, dịch vụ khách hàng, giải trí và giáo dục.
📌 GLM-4-Voice của Zhipu AI là bước tiến quan trọng trong mô hình AI giọng nói với khả năng điều chỉnh cảm xúc và hỗ trợ đa ngôn ngữ. Mô hình này mang lại trải nghiệm tương tác tự nhiên hơn với độ trễ thấp và khả năng xử lý sự gián đoạn hiệu quả.
https://www.marktechpost.com/2024/10/25/zhipu-ai-releases-glm-4-voice-a-new-open-source-end-to-end-speech-large-language-model/