• Alibaba đang phát triển công cụ tạo video có tên Tora dựa trên mô hình Sora của OpenAI, đánh dấu nỗ lực mới nhất của gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI video.
• Tora là một framework tạo video sử dụng OpenSora làm mô hình nền tảng, được mô tả trong một bài báo do 5 nhà nghiên cứu của Alibaba công bố tuần trước.
• Framework này đạt được bước đột phá dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc mới làm nền tảng cho Sora - mô hình text-to-video được OpenAI ra mắt vào tháng 2/2024.
• Các nhà nghiên cứu tuyên bố đã phát triển "framework DiT định hướng quỹ đạo đầu tiên cho tạo video", đảm bảo chuyển động được tạo ra tuân theo chính xác các quỹ đạo được chỉ định đồng thời mô phỏng động lực học của thế giới vật lý.
• Họ đã điều chỉnh quy trình của OpenSora để chuyển đổi video thô thành các cặp video-văn bản chất lượng cao và tận dụng bộ ước tính optical flow để trích xuất quỹ đạo.
• Tora có khả năng tạo video được hướng dẫn bởi quỹ đạo, hình ảnh, văn bản hoặc kết hợp cả ba yếu tố này.
• Động thái của Alibaba đánh dấu nỗ lực mới nhất của công ty trong việc ra mắt các công cụ tạo video giống Sora, khi các công ty Trung Quốc đang đua nhau giành chỗ đứng trong lĩnh vực AI video.
• Tháng 7/2024, startup Trung Quốc Shengshu AI đã ra mắt công cụ text-to-video Vidu, cho phép người dùng đã đăng ký tạo các đoạn video dài 4 hoặc 8 giây.
• Trước đó vài ngày, Zhipu AI, một trong "Tứ hổ AI" mới của Trung Quốc, đã ra mắt mô hình tạo video Ying, chấp nhận cả lời nhắc văn bản và hình ảnh để tạo các đoạn video 6 giây trong khoảng 30 giây.
• Tháng 2/2024, Alibaba đã giới thiệu mô hình tạo video AI có tên Emote Portrait Alive (EMO), có thể chuyển đổi một hình ảnh tham chiếu tĩnh và mẫu giọng nói thành video avatar hoạt hình với biểu cảm khuôn mặt và tư thế.
• Bài báo nghiên cứu không đề cập liệu Tora có được liên kết với EMO hoặc Tongyi Qianwen - họ mô hình ngôn ngữ lớn tự phát triển của Alibaba hay không.
📌 Alibaba phát triển công cụ tạo video AI Tora dựa trên OpenSora, sử dụng kiến trúc DiT và có khả năng tạo video theo quỹ đạo, hình ảnh và văn bản. Đây là nỗ lực mới nhất của công ty trong cuộc đua AI video ở Trung Quốc, cạnh tranh với các đối thủ như Shengshu AI và Zhipu AI.
https://www.scmp.com/tech/big-tech/article/3273443/alibaba-develops-new-video-generation-tool-based-soras-open-source-model