- Phiên bản mới Stable Audio 2.0 của Stability AI cho phép người dùng tải lên mẫu âm thanh và biến đổi chúng thành bài hát dài 3 phút bằng cách sử dụng các gợi ý văn bản.
- Tuy nhiên, chất lượng của các bài hát AI tạo sinh vẫn chưa đạt đến mức có thể giành giải Grammy.
- Phiên bản đầu tiên của Stable Audio chỉ cho phép tạo ra các đoạn âm thanh ngắn lên đến 90 giây.
- Khác với mô hình tạo sinh âm thanh Voice Engine của OpenAI chỉ dành cho một số người dùng được lựa chọn, Stable Audio miễn phí và công khai trên trang web và API của Stability AI.
- Một tính năng mới của Stable Audio 2.0 là khả năng tạo ra các bài hát hoàn chỉnh với phần mở đầu, phần chính và phần kết.
- Tuy nhiên, khi thử nghiệm với gợi ý "bài hát folk pop với phong cách Mỹ", bài hát AI tạo sinh vẫn nghe khá kỳ lạ và thiếu linh hồn.
- Người dùng có thể tùy chỉnh bài hát bằng cách điều chỉnh mức độ tuân thủ gợi ý và lượng âm thanh gốc được sửa đổi, cũng như thêm hiệu ứng âm thanh.
- Dù vậy, vấn đề chính của các bài hát AI tạo sinh hiện nay là thiếu đi cảm xúc và linh hồn của con người.
- Stability AI cho biết Stable Audio được đào tạo trên dữ liệu từ AudioSparx với hơn 800.000 tệp âm thanh, và họ đã hợp tác với Audible Magic để ngăn chặn việc sử dụng tài liệu bản quyền.
📌Mặc dù Stable Audio 2.0 đã cải thiện khả năng tạo ra các bài hát dài hơn tới 3 phút, nhưng chất lượng vẫn chưa thực sự tốt, với âm thanh thiếu linh hồn và kỳ lạ như tiếng cá voi hát.
https://www.theverge.com/2024/4/3/24119438/stability-ai-audio-generation-whale-sounds