- DeepMind, phòng thí nghiệm trí tuệ nhân tạo của Google, đang phát triển công nghệ mới có thể tạo ra âm thanh, thậm chí cả lời thoại, để đi kèm với video.
- Công nghệ video-to-audio (V2A) này có thể kết hợp với các công cụ tạo video như Google Veo và OpenAI's Sora.
- Hệ thống có thể hiểu các pixel thô và kết hợp thông tin đó với lời nhắc văn bản để tạo hiệu ứng âm thanh cho những gì đang diễn ra trên màn hình.
- Công cụ này cũng có thể được sử dụng để tạo nhạc nền cho các đoạn phim truyền thống, chẳng hạn như phim câm và bất kỳ video nào khác không có âm thanh.
- Các nhà nghiên cứu của DeepMind đã huấn luyện công nghệ này trên các video, âm thanh và chú thích do AI tạo ra, chứa các mô tả chi tiết về âm thanh và bản ghi lời thoại.
- Bằng cách này, công nghệ đã học cách liên kết các âm thanh cụ thể với các cảnh trực quan.
- Mặc dù lời nhắc văn bản là tùy chọn, nhưng nó có thể được sử dụng để định hình và tinh chỉnh sản phẩm cuối cùng sao cho chính xác và thực tế nhất có thể.
- Bạn có thể nhập các lời nhắc tích cực để định hướng đầu ra tạo ra âm thanh bạn muốn hoặc các lời nhắc tiêu cực để tránh xa âm thanh bạn không muốn.
- Các nhà nghiên cứu thừa nhận rằng họ vẫn đang cố gắng giải quyết các hạn chế hiện tại của công nghệ V2A, chẳng hạn như sự suy giảm chất lượng âm thanh đầu ra có thể xảy ra nếu có méo mó trong video nguồn.
- Họ cũng đang cố gắng cải thiện đồng bộ hóa môi cho lời thoại được tạo ra.
- Ngoài ra, họ cam kết sẽ đưa công nghệ này qua các đánh giá an toàn và thử nghiệm nghiêm ngặt trước khi phát hành ra thế giới.
📌 DeepMind của Google đang phát triển công nghệ AI mới có thể tạo âm thanh và lời thoại cho video, kết hợp được với các công cụ tạo video AI. Công nghệ này hiểu được pixel và lời nhắc văn bản để tạo hiệu ứng âm thanh chính xác, thực tế. Tuy nhiên, vẫn cần cải thiện chất lượng và đồng bộ hóa, đồng thời phải qua đánh giá an toàn nghiêm ngặt trước khi phát hành.
https://www.engadget.com/google-deepminds-new-ai-tech-will-generate-soundtracks-for-videos-113100908.html