OpenAI ra mắt Voice Engine: Công cụ AI tạo giọng nói chỉ cần mẫu 15 giây

- OpenAI đang cung cấp quyền truy cập hạn chế vào nền tảng tạo giọng nói từ văn bản Voice Engine, có thể tạo giọng nói tổng hợp dựa trên đoạn ghi âm giọng nói 15 giây.
- Giọng nói do AI tạo ra có thể đọc các đoạn văn bản theo yêu cầu bằng cùng ngôn ngữ với người nói hoặc nhiều ngôn ngữ khác.
- Các công ty được truy cập bao gồm Age of Learning, HeyGen, Dimagi, Livox và Lifespan. 
- OpenAI bắt đầu phát triển Voice Engine từ cuối năm 2022 và công nghệ này đã hỗ trợ các giọng nói cài sẵn cho API chuyển văn bản thành giọng nói và tính năng Read Aloud của ChatGPT.
- Mô hình được huấn luyện trên "sự kết hợp của dữ liệu được cấp phép và dữ liệu công khai".
- Chính phủ Mỹ đang cố gắng hạn chế việc sử dụng công nghệ giọng nói AI vào mục đích phi đạo đức. FCC đã cấm cuộc gọi rác sử dụng giọng nói AI.
- OpenAI yêu cầu các đối tác tuân thủ chính sách sử dụng, không mạo danh người khác, có sự đồng ý rõ ràng của người nói gốc, không tạo cách để người dùng tạo giọng nói của riêng họ và tiết lộ cho người nghe biết đó là giọng nói do AI tạo ra.

📌 OpenAI đã giới thiệu Voice Engine, công cụ AI có thể tạo giọng nói tổng hợp chỉ từ đoạn ghi âm 15 giây. Công nghệ đang được thử nghiệm hạn chế với một số đối tác, đi kèm các biện pháp bảo vệ như chống mạo danh, đồng ý của người nói gốc và tiết lộ nguồn gốc AI. OpenAI cũng đề xuất các bước để hạn chế rủi ro như loại bỏ xác thực bằng giọng nói và phát triển hệ thống theo dõi nội dung AI.

https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo