Tencent thách thức OpenAI: Ra mắt AI tạo video miễn phí cạnh tranh Sora
- Tencent vừa công bố Hunyuan video, một mô hình AI tạo video nguồn mở và miễn phí, trong thời điểm OpenAI đang quảng bá về Sora
- Theo đánh giá của chuyên gia, Hunyuan video có hiệu suất vượt trội hơn Runway Gen-3, Luma 1.6 và ba mô hình tạo video hàng đầu của Trung quốc
- Mô hình sử dụng Multimodal Large Language Model làm bộ mã hóa văn bản thay vì kết hợp CLIP và T5-XXL như các công cụ khác
- Hunyuan có khả năng tự động làm phong phú các prompt đơn giản bằng cách thêm chi tiết về bối cảnh, điều kiện ánh sáng và các yếu tố khác
- Tỷ lệ khớp giữa kết quả và yêu cầu người dùng đạt 68,5%, điểm chất lượng hình ảnh đạt 96,4%
- Để chạy mô hình cần máy tính có ít nhất 60GB bộ nhớ GPU như card Nvidia H800 hoặc H20
- Các nền tảng đám mây như FAL.ai đã tích hợp Hunyuan với giá 0,5 USD/video. Server chính thức của Hunyuan cung cấp 150 credit với giá 10 USD
- Thời gian tạo video khoảng 15 phút, cho kết quả thực tế với chuyển động tự nhiên của người và động vật
- Mô hình được cung cấp miễn phí cho đến khi đạt 100 triệu người dùng
- Điểm yếu hiện tại là khả năng xử lý prompt tiếng Anh chưa tốt bằng các đối thủ
📌 Tencent đã tung ra đối thủ cạnh tranh trực tiếp với OpenAI Sora thông qua Hunyuan video - mô hình AI tạo video nguồn mở miễn phí với điểm chất lượng hình ảnh 96,4%. Mô hình yêu cầu 60GB bộ nhớ GPU và mất 15 phút để tạo một video, với chi phí 0,5 USD/video trên nền tảng đám mây.
https://decrypt.co/295199/tencents-new-ai-video-generator-takes-on-openais-sora-for-free
Tencent ra mắt công cụ tạo video AI mới, cạnh tranh với Sora của OpenAI miễn phí
Tencent cho biết mô hình của họ vượt trội hơn Runway Gen-3, Luma 1.6 và ba công cụ tạo video hàng đầu Trung Quốc, dựa trên đánh giá từ con người.
Bài viết của Jose Antonio Lanz
Ngày 6 tháng 12 năm 2024
Thời gian đọc: 4 phút
Trong khi OpenAI liên tục hứa hẹn về Sora sau nhiều tháng trì hoãn, Tencent đã âm thầm phát hành một mô hình với hiệu năng so sánh được với các công cụ tạo video hàng đầu hiện nay.
Tencent vừa giới thiệu Hunyuan Video, một công cụ tạo video AI miễn phí và mã nguồn mở, được ra mắt đúng thời điểm OpenAI thực hiện chiến dịch công bố 12 ngày – dự kiến bao gồm cả sự ra mắt của Sora, công cụ video rất được mong đợi.
“Chúng tôi giới thiệu Hunyuan Video, một mô hình nền tảng video mã nguồn mở mới, thể hiện hiệu năng trong việc tạo video tương đương hoặc vượt trội so với các mô hình mã nguồn đóng hàng đầu,” Tencent tuyên bố trong thông báo chính thức.
Gã khổng lồ công nghệ có trụ sở tại Thâm Quyến, Trung Quốc, khẳng định mô hình của mình “vượt trội hơn” so với Runway Gen-3, Luma 1.6 và “ba mô hình tạo video hàng đầu Trung Quốc” dựa trên kết quả đánh giá từ chuyên gia.
Công nghệ tiên tiến
Hunyuan Video sử dụng Mô hình Ngôn ngữ Lớn Đa phương tiện kiểu mã hóa giải mã thay vì kết hợp CLIP và T5-XXL thường thấy ở các công cụ tạo video và hình ảnh AI khác.
Tencent cho biết cách tiếp cận này giúp mô hình thực hiện theo chỉ dẫn tốt hơn, nắm bắt chi tiết hình ảnh chính xác hơn và học được các nhiệm vụ mới ngay lập tức mà không cần huấn luyện thêm. Ngoài ra, thiết lập chú ý nhân quả được tăng cường nhờ bộ tinh chỉnh đặc biệt giúp mô hình hiểu sâu hơn về các yêu cầu.
Công cụ này cũng tự động chỉnh sửa lời nhắc để làm phong phú nội dung và cải thiện chất lượng kết quả. Ví dụ, một yêu cầu đơn giản như “Một người đàn ông dắt chó đi dạo” có thể được bổ sung các chi tiết như thiết lập cảnh, điều kiện ánh sáng, chất lượng hình ảnh và chủng tộc, cùng nhiều yếu tố khác.
Miễn phí cho mọi người
Giống như LLaMA 3 của Meta, Hunyuan hoàn toàn miễn phí sử dụng và kiếm tiền, miễn là chưa vượt quá 100 triệu người dùng – một ngưỡng mà phần lớn nhà phát triển khó chạm tới trong thời gian ngắn.
Điều kiện? Người dùng cần một máy tính mạnh với ít nhất 60GB bộ nhớ GPU để chạy mô hình 13 tỷ tham số tại chỗ – ví dụ như card Nvidia H800 hoặc H20. Đây là dung lượng vRAM vượt xa hầu hết các PC chơi game hiện tại.
Với những ai không sở hữu máy tính siêu cấp, các dịch vụ đám mây đã nhanh chóng cung cấp giải pháp.
Nền tảng truyền thông tạo sinh FAL.ai đã tích hợp Hunyuan và tính phí 0,5 USD mỗi video. Các nhà cung cấp đám mây khác như Replicate hay GoEhnance cũng đã bắt đầu cung cấp quyền truy cập vào mô hình này. Máy chủ chính thức của Hunyuan Video cung cấp 150 tín dụng với giá 10 USD, mỗi video cần tối thiểu 15 tín dụng.
Ngoài ra, người dùng có thể chạy mô hình trên GPU thuê qua các dịch vụ như Runpod hoặc Vast.ai.
Hiệu năng ban đầu
Các thử nghiệm ban đầu cho thấy Hunyuan đạt chất lượng ngang tầm các sản phẩm thương mại như Dream Machine của Luma Labs hoặc Kling AI. Video được tạo ra trong khoảng 15 phút, với các chuỗi hình ảnh chân thực và chuyển động tự nhiên của con người và động vật.
Một điểm yếu hiện tại: khả năng hiểu các yêu cầu bằng tiếng Anh của mô hình chưa sắc sảo bằng đối thủ. Tuy nhiên, vì là mã nguồn mở, các nhà phát triển có thể cải thiện và tối ưu hóa mô hình này.
Tencent cho biết bộ mã hóa văn bản của họ đạt tỷ lệ đồng bộ lên tới 68,5% – nghĩa là mức độ đầu ra khớp với yêu cầu của người dùng – trong khi vẫn duy trì điểm chất lượng hình ảnh ở mức 96,4% theo thử nghiệm nội bộ.
Toàn bộ mã nguồn và trọng số được huấn luyện trước có sẵn để tải xuống trên các nền tảng như GitHub và Hugging Face.
Tencent has unveiled Hunyuan Video, a free and open-source AI video generator, strategically timed during OpenAI's 12-day announcement campaign, which is widely anticipated to include the debut of Sora, its highly anticipated video tool.
“We present Hunyuan Video, a novel open-source video foundation model that exhibits performance in video generation that is comparable to, if not superior to, leading closed-source models,” Tencent said in its official announcement.
The Shenzhen, China-based tech giant claims its model “outperforms” those of Runway Gen-3, Luma 1.6, and “three top-performing Chinese video generative models” based on professional human evaluation results.
ChatGPT creator OpenAI introduced the latest iteration of its flagship AI model, o1 Pro, on Thursday—along with a new ChatGPT Pro subscription tier that features an eye-popping price tag. This subscription tier includes several new features, such as access to OpenAI o1, o1-mini, and GPT-4o, as well as advanced voice AI capabilities. However, the new offering comes with a steep price tag: $200 per month. In comparison, the previous subscription tier, ChatGPT Plus, costs $20 for a monthly subscrip...
The timing couldn't be more apt.
Before its video generator—somewhere between the SDXL and Flux eras of open-source image generators— Tencent released an image generator with a similar name.
HunyuanDit provided excellent results and improved understanding of bilingual text, but it was not widely adopted. The family was completed with a group of large language models.
Hunyuan Video uses a decoder-only Multimodal Large Language Model as its text encoder instead of the usual CLIP and T5-XXL combo found in other AI video tools and image generators.
Tencent says this helps the model follow instructions better, grasp image details more precisely, and learn new tasks on the fly without additional training—plus, its causal attention setup gets a boost from a special token refiner that helps it understand prompts more thoroughly than traditional models.
It also rewrites prompts to make them richer and increase the quality of its generations. For example, a prompt that simply says “A man walking his dog” can be enhanced including details, scene setup, light conditions, quality artifacts, and race, among other elements.
Two tech trends that made headlines this year are about to collide: prediction markets and AI agents. In a bid to capture the craze, Polytrader AI, an autonomous AI-driven trading assistant for prediction markets, has launched on Virtuals Protocol. The team representing Polytrader says it’s the first AI agent made specifically for prediction markets. The product helps users "identify and capitalize on trading opportunities," Decrypt was told. Plugging into Polymarket's API, the agent helps anal...
Free for the masses
Like Meta's LLaMA 3, Hunyuan is free to use and monetize until you hit 100 million users—a threshold most developers won't need to worry about anytime soon.
The catch? You'll need a beefy computer with at least 60GB of GPU memory to run its 13 billion parameter model locally—think Nvidia H800 or H20 cards. That's more vRAM than most gaming PCs have in total.
For those without a supercomputer lying around, cloud services are already jumping on board.
FAL.ai, a generative media platform tailored for developers, has integrated Hunyuan, charging $0.5 per video. Other cloud providers, including Replicate or GoEhnance, have also started offering access to the model. The official Hunyuan Video server offers 150 credits at $10, with each video generation costing 15 credits minimum.
And, of course, users can run the model on a rented GPU using services like Runpod or Vast.ai.
Early tests show Hunyuan matching the quality of commercial heavyweights like Luma Labs Dream Machine or Kling AI. Videos take about 15 minutes to generate, producing photorealistic sequences with natural-looking human and animal motion.
Testing reveals one current weakness: the model's grasp of English prompts could be sharper than its competitors. However, being open source means developers can now tinker with and improve the model.
Tencent says its text encoder achieves up to 68.5% alignment rates—meaning how closely the output matches what users ask for—while maintaining 96.4% visual quality scores based on their internal testing.
The complete source code and pre-trained weights are available for download on GitHub and Hugging Face platforms.
Edited by Sebastian Sinclair