- Microsoft giới thiệu hệ thống AI mới tên VASA-1, có khả năng tạo video chân thực của khuôn mặt nói chuyện chỉ từ một ảnh và một đoạn âm thanh.
- VASA-1 vượt xa khả năng đồng bộ môi đơn thuần, nắm bắt được nhiều biểu cảm, cảm xúc, chuyển động đầu và thậm chí cho phép điều khiển hướng nhìn và khoảng cách.
- Video không chỉ đồng bộ hoàn hảo chuyển động môi với âm thanh mà còn thể hiện nhiều sắc thái khuôn mặt tự nhiên và chuyển động đầu, tạo cảm giác chân thực và sống động.
- VASA-1 đạt được sự chân thực bằng cách sử dụng AI để tách các thành phần khuôn mặt như biểu cảm, vị trí đầu 3D và chuyển động môi, cho phép kiểm soát và chỉnh sửa độc lập từng khía cạnh.
- Phương pháp này không chỉ đảm bảo chất lượng video vượt trội với chuyển động khuôn mặt và đầu chân thực, mà còn cho phép tạo video 512×512 trực tuyến với tốc độ lên đến 40 FPS, tất cả với độ trễ ban đầu tối thiểu.
- Min Choi cho rằng VASA-1 có khả năng tạo hoạt ảnh cho một ảnh với lời nói biểu cảm, tương tự như công nghệ EMO của Alibaba.
- Mọi người lo ngại về khả năng lạm dụng công nghệ deepfake này vì nó ra mắt đúng vào thời điểm bầu cử.
- Các nhà nghiên cứu thừa nhận khả năng sử dụng sai mục đích, nhưng nhấn mạnh các ứng dụng tích cực của VASA-1 như nâng cao trải nghiệm giáo dục, hỗ trợ người gặp khó khăn giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu.
📌 Microsoft giới thiệu VASA-1, công nghệ AI tạo video deepfake siêu chân thực chỉ từ một ảnh và âm thanh, nắm bắt tinh tế biểu cảm, cảm xúc, chuyển động đầu. Dù có nhiều ứng dụng tích cực trong giáo dục và hỗ trợ giao tiếp, VASA-1 vẫn gây lo ngại về khả năng lạm dụng trong bối cảnh bầu cử.
Citations:
[1] https://analyticsindiamag.com/microsoft-unveils-vasa-1-creating-deepfake-videos-with-a-single-image/