Google giới thiệu mô hình tạo video Lumiere, bỏ xa OpenAI
- Google đã giới thiệu Lumiere, một mô hình phát triển video từ văn bản, tạo ra các video chân thực, đa dạng và có mô típ liên tục.
- Lumiere có khả năng tạo ra video hoàn chỉnh trong một lần duy nhất nhờ kiến trúc Space-Time U-Net tiên tiến.
- Mô hình cho phép người dùng sáng tạo nội dung hình ảnh, tạo ra các đoạn video thực tế hoặc siêu thực kéo dài tới năm giây.
- Lumiere có thể hoạt hình hóa hình ảnh tĩnh, phản hồi trước những yêu cầu bằng ngôn ngữ tự nhiên và thực hiện video inpainting tiên tiến.
- Nó được xây dựng trên kiến trúc Space-Time U-Net và mô hình chuyển đổi từ văn bản sang hình ảnh (T2I) hoạt động trong không gian pixel, đòi hỏi một mô-đun độ phân giải siêu cao cho việc sản xuất hình ảnh chất lượng cao.
- Lumiere cung cấp khả năng tạo ra video có phong cách, sử dụng một hình ảnh tham chiếu duy nhất.
- Mặc dù có hạn chế như không được thiết kế để tạo ra video có nhiều cảnh quay hoặc cảnh có chuyển động đa dạng, Lumiere vẫn đại diện cho một bước tiến lớn trong lĩnh vực AI tạo video từ văn bản.
- Dự án hiện là một dự án nghiên cứu và việc phát hành rộng rãi có thể phụ thuộc vào việc giải quyết các vấn đề liên quan đến chính sách.
- Tính đến nay, OpenAI chưa có một mô hình tạo video công khai trên API của họ, nhưng họ đang tích cực nghiên cứu và phát triển công nghệ trong lĩnh vực này.
📌 Google đã phát triển thành công Lumiere, một mô hình tạo ra video từ văn bản dựa trên kiến trúc Space-Time U-Net, cho phép tạo ra các video chất lượng cao và phong cách hóa chỉ từ một hình ảnh tham chiếu. Mặc dù có những hạn chế nhất định, Lumiere hiện nổi bật hơn so với các mô hình của OpenAI, đặc biệt khi OpenAI vẫn chưa công bố mô hình tạo video nào. Lumiere mở ra những khả năng mới trong việc sáng tạo nội dung video thông qua AI, tuy nhiên, việc phát hành mô hình có thể còn phụ thuộc vào các quyết định chính sách.