- Các nhà nghiên cứu tại đại học Texas at Austin đã phát triển mô hình "Soundscape-to-Image Diffusion" có khả năng tạo ra hình ảnh đường phố từ âm thanh môi trường
- Mô hình được huấn luyện bằng tập dữ liệu gồm các đoạn video 10 giây kết hợp hình ảnh và âm thanh từ đường phố tại Bắc Mỹ, châu Á và châu Âu
- AI học cách kết nối giữa âm thanh với các đối tượng trong hình ảnh, cũng như mối liên hệ giữa đặc tính âm thanh với môi trường thị giác
- Trong thử nghiệm với 100 video đường phố, hệ thống tạo ra một hình ảnh cho mỗi video dựa trên âm thanh
- Các thẩm định viên con người đạt độ chính xác 80% khi ghép đúng hình ảnh AI tạo ra với âm thanh tương ứng
- Phân tích máy tính cho thấy tỷ lệ bầu trời, cây xanh và tòa nhà trong ảnh AI tạo ra có tương quan mạnh với video gốc
- Hệ thống còn thể hiện được điều kiện ánh sáng như trời nắng, nhiều mây hay ban đêm thông qua các yếu tố như tiếng ồn giao thông giảm về đêm hoặc âm thanh côn trùng
- Nghiên cứu được công bố trên tạp chí Nature, hướng đến mục tiêu tìm hiểu vai trò của âm thanh trong cảm nhận về không gian
- Ứng dụng tiềm năng bao gồm điều tra pháp y và quy hoạch đô thị
📌 Công nghệ AI mới từ đại học Texas tạo ra hình ảnh đường phố chính xác 80% chỉ từ âm thanh môi trường 10 giây, mở ra tiềm năng ứng dụng trong quy hoạch đô thị và điều tra pháp y. Hệ thống thể hiện khả năng nắm bắt chi tiết từ ánh sáng đến tỷ lệ các yếu tố trong không gian.
https://newatlas.com/ai-humanoids/ai-street-images-sound/