Salesforce đề xuất MoonShot: Mô hình AI thế hệ video mới điều kiện đồng thời trên các đầu vào hình ảnh và văn bản đa phương thức
- MoonShot, đề xuất bởi Salesforce Researchers, là một phương pháp tiên tiến để tạo video bằng AI, vượt qua hạn chế của các kỹ thuật hiện có.
- Có khả năng điều kiện hóa đồng thời cả hình ảnh và văn bản nhờ vào Multimodal Video Block (MVB), MoonShot cải thiện đáng kể khả năng kiểm soát chính xác trong tạo video.
- Mô hình sử dụng các lớp U-Net không gian-thời gian và các lớp cross-attention đa phương tiện tách biệt, giúp duy trì tính nhất quán về thời gian mà không làm mất đi các đặc tính không gian quan trọng.
- MoonShot đạt kết quả xuất sắc trong nhiều nhiệm vụ sản xuất video như tạo video theo chủ đề cụ thể, hoạt hình hình ảnh và chỉnh sửa video.
- Mô hình này nổi bật với khả năng tùy biến zero-shot trên các dấu nhắc cụ thể về chủ đề, vượt trội so với các mô hình chuyển đổi văn bản thành video không tùy biến.
📌 MoonShot của Salesforce không chỉ là một bước đột phá trong việc tạo video bằng AI mà còn là một mô hình đa năng và mạnh mẽ nhờ vào khả năng điều kiện hóa đồng thời cả hình ảnh và văn bản. Với MVB, lớp cross-attention đa phương tiện tách biệt và lớp U-Net không gian-thời gian, MoonShot không chỉ cải thiện độ chính xác mà còn cho thấy kết quả xuất sắc trong đa dạng nhiệm vụ tạo video. MoonShot đặt ra tiêu chuẩn mới trong ngành công nghiệp với khả năng tạo video tùy biến theo chủ đề, hoạt hình hình ảnh và chỉnh sửa video.