AI ảnh-video-music-âm thanh

View All

AI ảnh-video-music-âm thanh 2025-09-01 19:43:45

Chỉ cần vài chữ, AI của Google đã chỉnh ảnh thật như Photoshop chuyên nghiệp

Google vừa cập nhật Gemini Flash 2.5 Image model, cho phép người dùng chỉnh sửa ảnh thật một cách nhanh chóng và tự nhiên chỉ bằng lời nhắc văn bản đơn giản.
Model này có tốc độ xử lý cực nhanh: dưới 30 giây cho mỗi yêu cầu, nhanh hơn gấp 3 lần so với GPT-5 của OpenAI trong các thử nghiệm tương tự.
Ưu điểm vượt trội: giữ nguyên bối cảnh ảnh gốc, chỉ chỉnh phần được yêu cầu. Ví dụ: thay quần áo nhân vật hoặc thêm hiệu ứng ánh sáng mà không làm rối nền.
AI vẫn giữ được khuôn mặt người thật ở mức "nhận diện được", dù đôi khi gương mặt trông hơi giả (bóng nhẫy hoặc nổi gân như da bóng).
Ảnh chỉnh sửa được chèn thủy vân kỹ thuật số SynthID, nhưng công cụ phát hiện dấu vết này vẫn chưa mở cho công chúng.
Gemini không đưa ra cảnh báo hay giới hạn khi thêm người thật nổi tiếng như Kim Kardashian hay Donald Trump vào ảnh thật — điều mà các công cụ khác thường cảnh báo.
Các ảnh có thể dễ dàng bị cắt bỏ dấu hiệu AI, tạo ra nguy cơ bị lợi dụng để tạo ảnh giả gây hiểu nhầm hoặc thao túng cảm xúc công chúng.
Một số lỗi vẫn tồn tại: chỉnh mặt người quá trẻ hoặc tạo khuôn mặt hoàn toàn khác khi yêu cầu chỉnh thêm.
Các nhà nghiên cứu AI lo ngại vì khả năng phát hiện ảnh giả chưa bắt kịp với tốc độ tạo ảnh AI ngày càng mạnh, đặc biệt khi các hình ảnh này trông thật và có thể lan truyền nhanh chóng.

📌 AI chỉnh ảnh của Google Gemini đang tiến quá nhanh, mang lại khả năng chỉnh sửa ảnh thật cực kỳ dễ dàng và thuyết phục. Dù có thể thêm người nổi tiếng, đổi ánh sáng hay thay đổi trang phục chỉ trong vài giây, nguy cơ tạo ảnh giả gây hiểu nhầm là rất lớn. Công cụ phát hiện thủy vân chưa mở rộng công khai, khiến nguy cơ lạm dụng càng tăng.

https://www.washingtonpost.com/technology/2025/09/01/gemini-flash-nano-banana-ai-photo-editing/

Masterful photo edits now just take a few words. Are we ready for this?
For better or worse, Google’s Gemini chatbot just got an image manipulating upgrade.
Today at 6:00 a.m. EDT

Using artificial intelligence to create images out of whole cloth is nothing new. Using AI to strategically or even surgically manipulate genuine photos has always been trickier — until Google DeepMind leapfrogged the pack with a new tool.
Just ask, and its new Gemini Flash 2.5 Image model, available to play with inside Google’s Gemini chatbot can plop pets into new locales, convincingly colorize monochrome photos and even mark up points of interest in a cityscape.
We all have our share of photos that didn’t turn out quite right. Now editing them artfully no longer requires expertise — just a Google account and the willingness to play supervisor to an AI photo assistant. But how well do Gemini’s new image manipulation skills actually work? We put them to the test.
What it can do
Google’s new AI model — formerly known as “Nano Banana” — is especially interesting for a few reasons.
First, it’s fast. The updated Gemini often churns out edited images in under 30 seconds, while OpenAI’s ChatGPT 5 sometimes took more than three times as long to handle the same requests. (The Washington Post has a content partnership with OpenAI.)
It’s also really good at maintaining a consistent context — ask it to make changes to one part of an image, and it will keep the rest mostly untouched.
Consider this photo my wife took of me in a phone booth in Japan.

(Shara Tibken)
After receiving my simple prompt (“replace this man’s outfit with a bright orange tuxedo and a big showgirl’s headdress”), Gemini spit out this image where I am the only thing that has noticeably changed.

(Chris Velazco/The Washington Post via Google Gemini)
Look carefully enough and you’ll notice that the numbers on the phone’s keypad — along with some of the Japanese text littered throughout the scene — have been transmuted into AI gibberish. But all of the important scene-setting elements remain, even if you ask the AI to tweak the lighting and replace me with, say, a water buffalo:

(Chris Velazco/The Washington Post via Google Gemini)
Gemini is also notable for the way it treats the people in the images it edits: They're (mostly) recognizable as themselves in the results, even if you try to fine-tune those results with even more requests.
Here’s a photo I took of The Washington Post’s future of work reporter, Danielle Abril, before and after I asked Gemini to “surround the subject with neon lights and change the lighting of her face accordingly.”

(Chris Velazco/The Washington Post via Google Gemini)
Even bathed in magenta light, Danielle still looks like Danielle. That’s even true when you ask Gemini to try something a little more involved, like turning her face to look directly at the camera.

(Chris Velazco/The Washington Post via Google Gemini)
Tools like ChatGPT, though, couldn’t quite match Gemini’s performance. Given the same prompts, GPT5 produced results that either skewed too far into unreality or couldn’t keep Danielle’s face looking the same.
That’s not to say Gemini deals with our likenesses perfectly, though. People’s faces tend to take on a slightly synthetic cast, as though their likenesses have been airbrushed. Zoom in close enough on the images Gemini spits out, and you may also spot a sort of slight mottling — to me, at least, it’s reminiscent of the minute bumps on a football.
And sometimes, the tool just doesn’t know how to deal with a request.
In the example below, I asked Gemini to colorize and sharpen this old, blurry photo of my grandfather — one of just a few my mom still has left after all these years.
Gemini’s first draft looked great in color, but according to my mom, it left my grandfather looking a little too young (middle photo). When I asked Gemini to make his face a little older and a touch more wrinkly, it spit out someone, who to me, looks completely different (right image).

(Chris Velazco/The Washington Post via Google Gemini)
Faux photo fallout
Gemini’s new model clearly isn’t perfect, but it’s fast, effective and accessible enough that people are cooking up ambitious ways to use it. Even so, facets of Google DeepMind’s approach to manipulating images have come as a surprise — and not necessarily a good one — to some AI researchers.
When Vincent Conitzer took Gemini’s new image skills for a spin, the first thing he asked it was to add Kim Kardashian to a photo of Travis Kelce and Taylor Swift at a football game.
“My first reaction was, ‘Wow, that was fast and easy,” the Carnegie Mellon University professor of computer science told The Post. But then the surprise kicked in: Unlike other AI tools, Gemini offered “no pushback whatsoever” when asked to add the likeness of a real person to an otherwise genuine image, Contizer said.
That’s not just true for Kim K., either — Gemini didn’t complain when I had it add Vin Diesel to photos of a friend throwing a Fast & Furious-themed birthday party, and it realistically added Donald Trump to a photo of my very Republican mom without a fuss.
Google and DeepMind did not immediately respond to a request for comment.
It’s not hard to see how this kind of speedy, sophisticated editing could make it easier to generate polarizing images that inflame public opinion across the internet. They might be more likely to pass a quick gut check, too, because Google’s model is happy to leave certain elements of the image basically untouched.
It doesn’t help that detecting instances of AI manipulation in images is still trickier than it ought to be. All of the dozens of photos Gemini created for me were tagged with a tiny indicator in the bottom-right corner to signify AI’s helping hand, but those can easily be cropped out after the fact.
Google also says the images edited with its new Gemini model have special “SynthID” watermark data embedded in them, which can be used to highlight specific AI manipulations.
The catch? The tool for detecting that telltale data, which Google announced in May, is not yet available to the general public.
Conitzer says there are some social guardrails in place here: If an AI-edited image goes viral or depicts something potentially newsworthy, it’s more likely to wind up scrutinized or debunked. What might be more concerning are the AI manipulations that fly under the radar.
“What’s to prevent me from sharing this image with somebody that I know cares about these things a little bit,” he said. “They’re probably not going to check whether it’s real or not.”
If one thing is clear to people like Conitzer, though, it’s that none of this is going away. Despite their potential for social fallout, AI tools are only going to get more capable. What’s less clear is how the rest of us will fare in trying to keep up with it.
“There’s a lot of capital in that space to try to build the next big thing, and I feel like as a society, we’re just kind of reacting to wherever it takes us,” he said. “It doesn’t seem like we’re very much in control of the process.”
As someone who works with photos a lot, it’s been fascinating spending these last few days touching up — or flat-out transforming — my images in such high quality, just by asking nicely. At its best, which you’ll never know when to expect, the results can be ridiculously impressive.
But it’s also true that the ability to convincingly, maybe even maliciously, manipulate otherwise authentic images has just fallen into our laps, and I can’t help but worry about what comes next.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-08-31 21:06:08

Google Nano Banana – công cụ chỉnh sửa ảnh AI mới – đang khiến cộng đồng nghệ sĩ phẫn nộ

Google vừa ra mắt Nano Banana, một mô hình AI chỉnh sửa hình ảnh thuộc dòng Gemini, được quảng bá là vượt trội so với các đối thủ như ChatGPT của OpenAI và Grok của Elon Musk.
Trong khi cộng đồng công nghệ ca ngợi sự ra đời của công cụ này, các nghệ sĩ lại phản đối gay gắt trên mạng xã hội, đặc biệt là trên nền tảng X (trước đây là Twitter).
Mối lo chính là Nano Banana có thể:
- Tạo phác thảo cơ bản từ một hình mẫu có sẵn
- Diễn giải tư thế và cảm xúc từ một minh họa đơn
- Tái tạo các panel truyện tranh dựa theo phong cách của một nghệ sĩ cụ thể – không cần sự đồng ý của họ
Một người dùng X có biệt danh -Zho- đã chia sẻ các ví dụ, sử dụng bản vẽ từ Pinterest để tạo ra một hình ảnh thực tế của một phụ nữ châu Á với độ chính xác cao, chỉ gặp vấn đề nhẹ ở góc mặt.
Cộng đồng nghệ thuật phản ứng dữ dội vì AI đang xâm phạm bản quyền và làm giảm giá trị của lao động sáng tạo.
Các nghệ sĩ mất nhiều năm rèn luyện kỹ năng vẽ, nghiên cứu giải phẫu người, phối cảnh và học hỏi từ thần tượng. Việc tác phẩm của họ bị dùng để huấn luyện AI mà không xin phép bị xem là xúc phạm.
Mô hình AI như Nano Banana không thể tạo hình ảnh nếu không truy cập vào hàng triệu tác phẩm nghệ thuật có sẵn trên mạng – thường là không xin phép.
Các nghệ sĩ đặc biệt lo ngại về tương lai nghề nghiệp của họ, đặc biệt trong ngành trò chơi điện tử và hoạt hình, vốn đang cắt giảm chi phí mạnh mẽ và sa thải nhân sự để thay thế bằng công cụ AI.
Tranh cãi giữa nghệ thuật và AI tạo sinh ngày càng leo thang, với Nano Banana được xem là giọt nước tràn ly.

📌 Google Nano Banana đang làm dấy lên làn sóng phản đối từ giới nghệ sĩ toàn cầu khi công cụ AI này có khả năng tái tạo tác phẩm mà không xin phép, từ đó đe dọa nghề nghiệp sáng tạo. Khả năng tạo phác họa, chuyển đổi tư thế và bắt chước phong cách cá nhân khiến nghệ sĩ lo lắng về việc bị thay thế. Trong bối cảnh cắt giảm chi phí và mất việc hàng loạt, Nano Banana không chỉ là công cụ – nó là biểu tượng của sự xâm lấn công nghệ vào sáng tạo con người.

https://www.albawaba.com/business/why-googles-nano-banana-danger-artists-1611527

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-08-28 00:31:20

Gemini 2.5 Flash Image trên Vertex AI với khả năng tạo và chỉnh sửa hình ảnh thế hệ mới

Google giới thiệu Gemini 2.5 Flash Image trên Vertex AI với khả năng tạo và chỉnh sửa hình ảnh thế hệ mới (SOTA), mang lại chất lượng cao và kiểm soát sáng tạo mạnh mẽ hơn.
Các tính năng chính:
- Multi-image fusion: hợp nhất nhiều hình ảnh thành một khung cảnh duy nhất, hữu ích cho marketing, đào tạo, quảng cáo.
- Character & style consistency: duy trì nhân vật hoặc phong cách hình ảnh xuyên suốt nhiều thế hệ, tiết kiệm thời gian tinh chỉnh.
- Conversational editing: chỉnh sửa bằng ngôn ngữ tự nhiên, từ xóa chi tiết nhỏ đến điều chỉnh bố cục, mang lại trải nghiệm biên tập mượt mà.
Gemini 2.5 Flash Image được tích hợp thủy vân SynthID, giúp đảm bảo minh bạch và trách nhiệm trong sử dụng AI tạo sinh.
Adobe tích hợp Gemini 2.5 Flash Image vào Firefly và Express, cho phép sáng tạo liền mạch trong hệ sinh thái Creative Cloud.
Poe (by Quora) đánh giá cao khả năng duy trì chi tiết và ngữ nghĩa cảnh trong nhiều vòng chỉnh sửa, kèm tốc độ phản hồi thấp, thích hợp ứng dụng thời gian thực.
WPP thử nghiệm với nhiều khách hàng bán lẻ và CPG, ghi nhận chất lượng cao và tính ổn định đối tượng, sẽ tích hợp vào nền tảng AI marketing WPP Open.
Freepik dùng để hỗ trợ thiết kế hình ảnh, đảm bảo căn chỉnh phong cách và tính nhất quán sản phẩm, tạo kết quả chuyên nghiệp ngay lập tức.
Leonardo.ai nhận định công cụ mang lại bước tiến lớn, mở ra workflow mới nhờ chỉnh sửa chính xác, linh hoạt, vẫn giữ được đối tượng nhất quán.
Figma bổ sung Gemini 2.5 Flash Image vào bộ AI image tools, giúp nhà thiết kế tạo và tinh chỉnh ảnh bằng prompt văn bản, hỗ trợ truyền đạt ý tưởng thiết kế rõ ràng.

📌 Gemini 2.5 Flash Image trên Vertex AI đánh dấu bước nhảy vọt trong tạo sinh và chỉnh sửa ảnh: hợp nhất nhiều hình ảnh, duy trì phong cách nhất quán và chỉnh sửa bằng hội thoại. Các ứng dụng trải dài từ marketing, bán lẻ, thiết kế cho đến sản xuất sáng tạo, mở ra kỷ nguyên hình ảnh AI chuyên nghiệp và linh hoạt hơn bao giờ hết.

https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-flash-image-on-vertex-ai

Không có file đính kèm.

Nguồn tham khảo

AI tools AI ảnh-video-music-âm thanh 2025-08-21 23:28:31

Google nâng cấp Gemini Live thành trợ lý AI trực quan, tự nhiên và hữu ích hơn

Google vừa công bố nâng cấp toàn diện cho Gemini Live, biến trợ lý AI này trở nên trực quan, biểu cảm và kết nối sâu hơn với hệ sinh thái ứng dụng Google.
Tính năng hướng dẫn trực quan mới cho phép Gemini đưa ra chỉ dẫn ngay trên màn hình khi người dùng chia sẻ camera. Ví dụ: chọn giày phù hợp với trang phục hoặc xác định dụng cụ đúng trong hộp đồ nghề.
Tính năng này sẽ có mặt đầu tiên trên Pixel 10 từ ngày 28/8/2025, và sẽ được mở rộng sang thiết bị Android khác và iOS trong vài tuần tới.
Gemini Live giờ có thể kết nối trực tiếp với Google Calendar, Tasks và Keep, giúp người dùng đặt lịch, tạo nhắc nhở và danh sách mua sắm trong cùng một luồng hội thoại.
Các ứng dụng Messages, Phone, Clock và tích hợp sâu hơn với Google Maps sẽ được bổ sung sớm, mở rộng khả năng xử lý các tình huống đời sống như gửi tin nhắn, gọi điện hay tìm đường.
Một ví dụ thực tế: đang tìm quà sinh nhật cho mẹ với Gemini, bạn có thể nói "Gọi bố để hỏi xem ông có thể mua món này không" và Gemini sẽ thực hiện ngay cuộc gọi.
Trợ lý này cũng hiểu tình huống và ngữ cảnh di chuyển – có thể giúp bạn tìm tàu điện, và khi phát hiện bạn trễ giờ, có thể gửi tin nhắn cho bạn bè mà bạn chỉ cần ra lệnh bằng giọng nói.
Google cải tiến mô hình âm thanh giúp Gemini trò chuyện biểu cảm hơn, với các yếu tố như ngữ điệu, nhịp điệu, tông giọng, tạo ra trải nghiệm tự nhiên hơn.
Người dùng có thể yêu cầu Gemini nói chậm để ghi chú, nói nhanh khi gấp, hoặc thậm chí dùng giọng vui nhộn hay pha giọng nhân vật như khi kể chuyện về Julius Caesar.
Các nâng cấp này là một phần trong tầm nhìn biến Gemini thành trợ lý AI toàn năng hàng ngày, giúp bạn xử lý công việc, giao tiếp và khám phá thế giới xung quanh dễ dàng hơn.

📌 Google đưa Gemini Live lên tầm cao mới với khả năng hướng dẫn trực quan qua camera, giọng nói biểu cảm và tích hợp sâu với Google Apps. Tính năng sẽ có mặt đầu tiên trên Pixel 10 từ ngày 28/8/2025 và mở rộng nhanh chóng. Với những cập nhật này, Gemini đang tiến gần hơn tới việc trở thành một trợ lý AI thực sự "người hóa", hỗ trợ tự nhiên và hiệu quả trong mọi khía cạnh đời sống.

https://blog.google/products/gemini/gemini-live-updates-august-2025/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI pháp lý-quản trị-chủ quyền 2025-08-11 23:16:34

India AI Mission tập trung phát triển LLM “voice-first” cho 22 ngôn ngữ Ấn Độ

India AI Mission trị giá 1,2 tỷ USD đặt mục tiêu tạo lợi thế khác biệt bằng mô hình ngôn ngữ lớn (LLM) voice-first cho các ngôn ngữ Ấn Độ, thay vì tập trung văn bản như Big Tech.
Tính từ khi công bố (03/2024), dự án đã được cấp gần 250 triệu USD cho 2 năm tài chính vừa qua; Meity không tiết lộ chi tiết mức sử dụng ngân sách.
Đã phê duyệt 4 startup (Gan, Gnani, Sarvam, Soket) xây dựng mô hình nền tảng, cung cấp hơn 34.000 GPU qua đối tác cloud & data center như Jio, Tata Communications, Yotta.
Bhashini – cơ sở dữ liệu 22 ngôn ngữ Ấn Độ – là trọng tâm thu hẹp khoảng cách dữ liệu, khi Wikipedia tiếng Hindi chỉ vài trăm nghìn trang, còn Bangla, Assamese ít hơn nhiều.
Sarvam (08/05/2025) ra mắt mô hình text-to-speech hỗ trợ 11 ngôn ngữ Ấn, hiệu suất vượt 20% so với mô hình nước ngoài, nhưng vẫn dựa trên nền tảng Mistral (Pháp).
Ứng dụng công ích tiềm năng: nông dân tra cứu tưới tiêu, chăm sóc sức khỏe vùng xa, giáo dục khu vực khó khăn.
Mục tiêu đến cuối 2026:
- 5 mô hình LLM nền tảng.
- 100 ứng dụng AI phục vụ công ích (nông nghiệp, y tế, giáo dục).
BCG: doanh nghiệp tư nhân thường tập trung ứng dụng thương mại; cần nhiều startup hướng đến dịch vụ công.
Chuyên gia Kashyap Kompella: Big Tech và startup Ấn có thể cùng tồn tại; doanh nghiệp tin Big Tech hơn về chính sách và an toàn, nhưng mô hình bản địa có thể tạo đột phá ở các lĩnh vực trọng yếu.
Chính phủ đóng vai trò “người kiến tạo hạ tầng”, hỗ trợ khu vực tư nhân phát triển giải pháp AI nội địa, giảm phụ thuộc vào công nghệ ngoại.

📌 India AI Mission 1,2 tỷ USD của Ấn Độ đặt cược vào LLM voice-first (ưu tiên giọng nói) cho 22 ngôn ngữ bản địa, đầu tư GPU, dữ liệu ngôn ngữ và hợp tác startup để đến 2026 ra mắt 5 mô hình nền tảng và 100 ứng dụng AI công ích. Trọng tâm là phục vụ nông nghiệp, y tế và giáo dục, tạo thế cạnh tranh với Big Tech và củng cố chủ quyền công nghệ quốc gia. Tính từ khi công bố (03/2024), dự án đã được cấp gần 250 triệu USD cho 2 năm tài chính vừa qua.

https://www.livemint.com/industry/india-to-focus-on-voice-first-vernacular-llms-ai-mission-ceo-11754809432074.html

India to focus on voice-first vernacular LLMs: AI Mission CEO

Shouvik Das 4 min read 11 Aug 2025, 05:30 AM IST Summary

Abhishek Singh, chief executive of India AI Mission, said that India’s AI Mission is betting on voice-first large language models in Indian languages as its differentiating edge over global tech giants.

New Delhi: India’s $1.2-billion AI Mission is preparing to make voice-first artificial intelligence (AI) models for Indian languages its calling card, aiming to differentiate itself from Big Tech firms that focus primarily on text-based AI.

The differentiator for artificial intelligence from India could include Indic languages-focused large language models, alongside voice-first models.

In an interview with Mint, Abhishek Singh, additional secretary at the Ministry of Electronics and IT (Meity) and chief executive of the Centre’s India AI Mission, said that the country’s push to build its own foundational AI models will seek to create solutions that can be replicated in other nations.

“India’s common compute infrastructure is a unique model that is receiving a lot of interest from around the world, especially the global south," Singh said. “While US tech firms are largely building foundational models based on text data as the primary medium, as India, we see a sizeable opportunity to develop foundational models that are primarily trained on voice data, because in future, voice will be the primary and most natural way in which people will interact with AI."

Also Read | Mid-tier IT firms reshuffle top brass to chase growth amid AI, tariff turmoil

The AI Mission, announced in March last year, seeks to offer funding support in the form of access to graphic processing unit (GPU) chips to startups. So far, four startups—Gan, Gnani, Sarvam and Soket—have been approved to build foundational AI models by Meity under the Mission. A total of over 34,000 GPUs, which are fundamental resources used to train AI algorithms on billions of parameters of data, have also been procured by Meity through cloud and data centre providers, which include the likes of Jio,Tata Communications and Yotta.

Since its announcement, the India AI Mission has been allocated close to $250 million over the previous and current fiscals. Meity does not disclose the exact budgetary utilization figure.

Leaning on language data

Singh, however, added that more than procuring GPUs and bringing down the cost of compute for startups building AI models, India’s biggest efforts are being pooled into procuring public datasets on Indian languages.

“All foundational models are trained on publicly available datasets. If you look at Wikipedia, which is one of the largest sources of open data used by AI startups, there are millions of pages of data in English—but the number of pages of data in Hindi would be around a few hundred thousand. The amount of data available in other Indian languages, such as Bangla or Assamese, is even less. This is why Meity, through its Bhashini programme, conducted a datasets sourcing drive to procure language data from our own sources," he said.

Bhashini, to be sure, maintains a database of 22 Indian languages, which the AI Mission is offering to help startups build LLMs based on these languages. Singh’s emphasis is already being reflected in early examples—on 8 May, Sarvam, the first startup approved by the AI Mission, introduced a text-to-speech LLM with native support for 11 Indian languages.

Also Read | Prosus bets on India’s next startup wave—everyday AI

“In the long run, voice-first Indian language LLMs can come into application in public services—such as for a farmer who can use a public utility to reduce his irrigation costs, for access to healthcare in remote districts, and for improving education in fringe sectors. It is this that will be the biggest impact of AI in India," Singh said.

While it is too early to test most of the models, Sarvam-M, the first of the Indic language-native AI models born in India, claimed to offer 20% superior performance in vernacular languages over foreign models. However, Sarvam-M is not a foundational model—but is a 24-billion-parameter AI model trained on French startup Mistral’s foundational models.

Public service apps

Industry stakeholders, too, concurred. “For private corporates, we see a lot of investments going in with a commercial business outcome-linked approach," said Saibal Chakraborty, managing director and senior partner for India at management consultancy firm, Boston Consulting Group (BCG). “While this only develops the upper layer of AI applications, the need of the hour is for startups to work on public service applications in AI. Not everyone needs to work on foundational models, or try to reinvent the wheel—but public utilities will likely emerge as the biggest disruptor in the long run."

The efficacy of the Mission has also been questioned recently, with large, global tech firms such as Google and OpenAI adding support for Indian languages in their latest foundational models. Kashyap Kompella, veteran AI analyst and consultant, said that there would be room for both Big Tech firms and Indian startups to coexist despite targeting a similar base.

Also Read | Italian Brainrot: the AI memes only kids know

“Enterprises are more likely to trust AI models offered by Big Tech, since they have stronger policies and safety safeguards. However, Indian firms have ample scope to disrupt critical sectors. The work on local AI models and investments should continue with a long-term focus, if the ultimate goal is not to be dependent solely on AI built outside the country," Kompella added.

Singh reaffirmed this long-term focus, adding that the Mission will seek to create an impact for the future. “By end-2026, we hope to see the India AI Mission give birth to five foundational LLMs, and up to 100 AI applications catering to public utilities in key sectors such as agriculture, education and healthcare. The government’s role is to be an enabler for private firms to take on such work," he said.

Key Takeaways

India AI Mission to focus on voice-first LLMs in 22 Indian languages. The mission aims for five foundational AI models and 100 applications by 2026. Over 34,000 graphic processing unit chips procured for startups to train AI models. The Bhashini dataset is central to bridging language data gaps. Targeted impact in public services like agriculture, healthcare, and education.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-07-22 07:56:54

Netflix bắt đầu sử dụng công cụ tạo video bằng AI từ startup Runway AI trong sản xuất nội dung

Netflix đã bắt đầu sử dụng công cụ tạo video bằng AI từ startup Runway AI trong quá trình sản xuất nội dung, theo nguồn tin thân cận không tiết lộ danh tính.
Dù Netflix từ chối bình luận, CEO Ted Sarandos xác nhận họ đã ứng dụng AI để tăng tốc và tiết kiệm chi phí tạo hiệu ứng hình ảnh, ví dụ như cảnh tòa nhà sụp đổ trong series El Eternaut từ Argentina (không dùng phần mềm của Runway cho cảnh này).
Disney cũng đang thử nghiệm công nghệ của Runway nhưng hiện tại chưa có kế hoạch tích hợp vào quy trình sản xuất nội dung chính thức. Trong khi đó, công ty này đã từng kiện Midjourney – một startup AI hình ảnh và video – vì vi phạm bản quyền.
Việc các ông lớn như Netflix và Disney thử nghiệm AI tạo video đã dấy lên lo ngại trong giới làm phim về tác động đến việc làm và bản quyền nội dung, dù công nghệ này hứa hẹn giảm chi phí và tăng hiệu suất sản xuất.
Runway AI gây chú ý từ năm 2023 với mô hình tạo clip 3 giây từ văn bản mô tả, và hiện nay đã phát triển mạnh hơn với khả năng tạo hình ảnh động và hiệu ứng đặc biệt chuyên sâu.
Mới đây, Runway ra mắt mô hình Act-Two, giúp giản lược quy trình bắt chuyển động truyền thống nhờ vào khả năng gán chuyển động cơ thể người từ video sang nhân vật hoạt hình – hoạt động song song với hệ thống AI Gen-4 của hãng.
Startup này đã huy động tổng cộng 545 triệu USD, với vòng gọi vốn 308 triệu USD gần đây đưa định giá công ty lên hơn 3 tỷ USD.
Ngoài Runway, OpenAI cũng đang tiếp cận các hãng phim lớn như Disney để quảng bá trình tạo video Sora, nhưng hiện vẫn chưa có thỏa thuận thương mại lớn nào được công bố chính thức.

📌 Netflix âm thầm áp dụng công nghệ video AI từ Runway AI vào sản xuất, cho thấy làn sóng ứng dụng AI trong ngành giải trí đang diễn ra mạnh mẽ. Dù gây tranh cãi về bản quyền và việc làm, AI mang lại lợi thế chi phí và tốc độ cho các hãng lớn như Netflix, Disney và Lionsgate. Với định giá hơn 3 tỷ USD, Runway đang trở thành một thế lực mới trong ngành công nghệ điện ảnh.

https://www.bloomberg.com/news/articles/2025-07-21/netflix-is-using-startup-runway-ai-s-video-tools-for-production

Netflix Using Startup Runway AI’s Video Tools for Production

Netflix Inc. has begun using artificial intelligence video generation software from startup Runway AI, testing the waters with a technology that’s controversial in Hollywood.

Netflix is currently using the New York-based startup’s tools in content production, according to a person familiar with the matter, who asked not to be named in order to discuss private conversations. Netflix declined to comment.

Walt Disney Co., meanwhile, has been testing out Runway’s technology and has talked with the startup about possible uses for its generative AI tools, the person said. A Disney spokesperson said the company has no plans to integrate Runway’s software into its content production pipeline at this time. Runway declined to comment.

The companies’ use of Runway’s AI video tools, which has not previously been reported, could raise concerns in the entertainment industry. Many film and TV professionals are anxious about AI’s impact on their livelihoods. Disney recently sued Midjourney Inc., another AI image and video startup, for copyright infringement. But AI also offers the promise of speeding up some video production tasks and saving money.

In a conference call Thursday, after Netflix released its second-quarter results, co-Chief Executive Officer Ted Sarandos said the company is using AI in content production. That includes creating special effects shots more quickly and cheaply than it previously had been able to with traditional visual effects tools and processes.

Sarandos said Netflix used the technology for the first time on screen to depict a building collapsing in a show called “El Eternaut” from Argentina. He did not disclose which AI software it used for that particular scene; a source familiar with the matter, who asked not to be named in order to discuss private information, said Runway’s software was not used to create the effect.

Runway is competing in an increasingly crowded corner of the fast-growing market for AI tools with established companies like OpenAI and Google, along with a slew of smaller, newer startups.

Elon Musk’s Empire Is Creaking Under the Strain of Elon Musk

Tesla, SpaceX and xAI are struggling to deal with the fallout from Musk’s Trump feud and wild bets.

The startup has more traction than most AI startups in Hollywood, however. It kicked off a frenzy around AI video generators in early 2023 with the release of a model that could produce slightly choppy-looking three-second clips based on written prompts such as “drone footage of a desert landscape.” Its technology has since become far more capable and the company has inked a deal with Lionsgate to train an AI model on the studio’s content that can be used in its film projects.

Investors have poured $545 million into the company thus far, with a funding round of $308 million earlier this year valuing the company at more than $3 billion.

More recently, Runway has pushed deeper into the world of animation and special effects. Earlier this month, the company started rolling out a new AI model called Act-Two that is meant to make the motion-capture process — traditionally clunky, pricey and time consuming — simpler and cheaper. The model, which works with Runway’s flagship Gen-4 AI system, can map a video of a person’s body movements onto animated characters.

Other AI startups have also tried to make inroads in the entertainment industry. As Bloomberg News previously reported, OpenAI spent months talking to large studios, including Disney, about its AI video generator, Sora. While OpenAI has found a receptive audience among some filmmakers, it has yet to announce a large commercial partnership for the product.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2025-07-17 00:40:41

“machine unlearning” có thể giúp AI "quên" giọng nói của người thật, giảm thiểu nguy cơ deepfake

Các nhà nghiên cứu từ Đại học Sungkyunkwan (Hàn Quốc) đã phát triển một phương pháp gọi là “machine unlearning”, cho phép mô hình AI xóa bỏ khả năng bắt chước giọng nói cụ thể của một cá nhân.
Kỹ thuật này là bước tiến lớn trong cuộc chiến chống lại deepfake âm thanh – công nghệ thường bị sử dụng để giả mạo giọng nói trong các vụ lừa đảo và phát tán thông tin sai lệch.
Hiện nay, AI text-to-speech có thể tái tạo giọng nói của bất kỳ ai chỉ từ vài giây âm thanh mẫu, với độ tự nhiên cao về ngữ điệu và cách phát âm.
Trong thử nghiệm, nhóm nghiên cứu áp dụng phương pháp unlearning trên một mô hình giống với VoiceBox của Meta, huấn luyện lại để từ chối tái tạo giọng đã bị “quên”, thay vào đó phát âm bằng giọng ngẫu nhiên.
Kết quả: khả năng mô phỏng giọng bị xóa giảm hơn 75% so với trước khi unlearn, đủ để không còn nhầm lẫn với giọng gốc.
Tuy nhiên, khả năng bắt chước các giọng cho phép còn lại giảm nhẹ khoảng 2,8% – một sự đánh đổi được cho là hợp lý.
Để AI "quên" một người, cần cung cấp khoảng 5 phút âm thanh và quá trình unlearning mất vài ngày tùy số lượng giọng cần xóa.
Không giống phương pháp “guardrails” (rào chắn) – kiểm soát đầu vào và đầu ra, unlearning là cách loại bỏ hoàn toàn dữ liệu khỏi mô hình, khiến kẻ tấn công không thể “vượt rào”.
Đây là lần đầu unlearning được áp dụng hiệu quả cho mô hình chuyển văn bản thành giọng nói, và đang thu hút sự chú ý từ các tổ chức như Google DeepMind và Meta.
Tuy tiềm năng cao, công nghệ vẫn cần cải thiện tốc độ và khả năng mở rộng để có thể triển khai rộng rãi trên các nền tảng AI thương mại.

📌 Nhóm nghiên cứu Hàn Quốc giới thiệu phương pháp machine unlearning giúp AI “quên” giọng nói cụ thể, giảm hơn 75% khả năng mô phỏng giọng bị xóa. Công nghệ yêu cầu 5 phút âm thanh mẫu và vài ngày xử lý, đánh dấu bước tiến lớn trong bảo vệ danh tính giọng nói và chống deepfake âm thanh, dù vẫn cần cải thiện hiệu năng để ứng dụng đại trà.

https://www.technologyreview.com/2025/07/15/1120094/ai-text-to-speech-programs-could-one-day-unlearn/

AI text-to-speech programs could “unlearn” how to imitate certain people

New research shows models can be directly edited to hide selected voices, even when users specifically ask for them.

Peter Hallarchive page

July 15, 2025

A technique known as “machine unlearning” could teach AI models to forget specific voices—an important step in stopping the rise of audio deepfakes, where someone’s voice is copied to carry out fraud or scams.

Recent advances in artificial intelligence have revolutionized the quality of text-to-speech technology so that people can convincingly re-create a piece of text in any voice, complete with natural speaking patterns and intonations, instead of having to settle for a robotic voice reading it out word by word. “Anyone’s voice can be reproduced or copied with just a few seconds of their voice,” says Jong Hwan Ko, a professor at Sungkyunkwan University in Korea and the coauthor of a new paper that demonstrates one of the first applications of machine unlearning to speech generation.

Copied voices have been used in scams, disinformation, and harassment. Ko, who researches audio processing, and his collaborators wanted to prevent this kind of identity fraud. “People are starting to demand ways to opt out of the unknown generation of their voices without consent,” he says.

AI companies generally keep a tight grip on their models to discourage misuse. For example, if you ask ChatGPT to give you someone’s phone number or instructions for doing something illegal, it will likely just tell you it cannot help. However, as many examples over time have shown, clever prompt engineering or model fine-tuning can sometimes get these models to say things they otherwise wouldn’t. The unwanted information may still be hiding somewhere inside the model so that it can be accessed with the right techniques.

At present, companies tend to deal with this issue by applying guardrails; the idea is to check whether the prompts or the AI’s responses contain disallowed material. Machine unlearning instead asks whether an AI can be made to forget a piece of information that the company doesn’t want it to know. The technique takes a leaky model and the specific training data to be redacted and uses them to create a new model—essentially, a version of the original that never learned that piece of data. While machine unlearning has ties to older techniques in AI research, it’s only in the past couple of years that it’s been applied to large language models.

Jinju Kim, a master’s student at Sungkyunkwan University who worked on the paper with Ko and others, sees guardrails as fences around the bad data put in place to keep people away from it. “You can’t get through the fence, but some people will still try to go under the fence or over the fence,” says Kim. But unlearning, she says, attempts to remove the bad data altogether, so there is nothing behind the fence at all.

The way current text-to-speech systems are designed complicates this a little more, though. These so-called “zero-shot” models use examples of people’s speech to learn to re-create any voice, including those not in the training set—with enough data, it can be a good mimic when supplied with even a small sample of someone’s voice. So “unlearning” means a model not only needs to “forget” voices it was trained on but also has to learn not to mimic specific voices it wasn’t trained on. All the while, it still needs to perform well for other voices.

To demonstrate how to get those results, Kim taught a recreation of VoiceBox, a speech generation model from Meta, that when it was prompted to produce a text sample in one of the voices to be redacted, it should instead respond with a random voice. To make these voices realistic, the model “teaches” itself using random voices of its own creation.

According to the team’s results, which are to be presented this week at the International Conference on Machine Learning, prompting the model to imitate a voice it has “unlearned” gives back a result that—according to state-of-the-art tools that measure voice similarity—mimics the forgotten voice more than 75% less effectively than the model did before. In practice, this makes the new voice unmistakably different. But the forgetfulness comes at a cost: The model is about 2.8% worse at mimicking permitted voices. While these percentages are a bit hard to interpret, the demo the researchers released online offers very convincing results, both for how well redacted speakers are forgotten and how well the rest are remembered. A sample from the demo is given below.

Ko says the unlearning process can take “several days,” depending on how many speakers the researchers want the model to forget. Their method also requires an audio clip about five minutes long for each speaker whose voice is to be forgotten.

In machine unlearning, pieces of data are often replaced with randomness so that they can’t be reverse-engineered back to the original. In this paper, the randomness for the forgotten speakers is very high—a sign, the authors claim, that they are truly forgotten by the model.

“I have seen people optimizing for randomness in other contexts,” says Vaidehi Patil, a PhD student at the University of North Carolina at Chapel Hill who researches machine unlearning. “This is one of the first works I’ve seen for speech.” Patil is organizing a machine unlearning workshop affiliated with the conference, and the voice unlearning research will also be presented there.

She points out that unlearning itself involves inherent trade-offs between efficiency and forgetfulness because the process can take time, and can degrade the usability of the final model. “There’s no free lunch. You have to compromise something,” she says.

Machine unlearning may still be at too early a stage for, say, Meta to introduce Ko and Kim’s methods into VoiceBox. But there is likely to be industry interest. Patil is researching unlearning for Google DeepMind this summer, and while Meta did not respond with a comment, it has hesitated for a long time to release VoiceBox to the wider public because it is so vulnerable to misuse.

The voice unlearning team seems optimistic that its work could someday get good enough for real-life deployment. “In real applications, we would need faster and more scalable solutions,” says Ko. “We are trying to find those.”

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2025-07-16 07:59:29

Mistral ra mắt Voxtral: Mô hình AI âm thanh nguồn mở rẻ hơn 50% và “đánh bại” Whisper

Mistral, startup AI hàng đầu châu Âu, vừa công bố Voxtral, mô hình AI âm thanh nguồn mở đầu tiên của hãng, hướng tới triển khai thực tế trong doanh nghiệp.
Voxtral được thiết kế để hiểu và tương tác qua lời nói, sử dụng backbone ngôn ngữ là Mistral Small 3.1, cho phép phân tích nội dung âm thanh lên đến 40 phút.
Mistral tuyên bố Voxtral là mô hình nguồn mở đầu tiên đủ mạnh để sử dụng trong sản phẩm thực tế, giúp giảm chi phí mà vẫn đảm bảo chất lượng, với giá chỉ bằng dưới 50% so với các giải pháp hiện có.
3 phiên bản được công bố:
- Voxtral Small: 24 tỷ tham số, phù hợp cho triển khai ở quy mô doanh nghiệp, cạnh tranh với GPT-4o-mini, ElevenLabs Scribe và Gemini 2.5 Flash.
- Voxtral Mini: 3 tỷ tham số, tối ưu cho triển khai cục bộ hoặc trên thiết bị edge.
- Voxtral Mini Transcribe: phiên bản siêu nhẹ, chỉ dùng cho phiên âm, vượt OpenAI Whisper với chi phí chưa đến 0,001 USD/phút (~24 đồng/phút).
Voxtral hỗ trợ đa ngôn ngữ: tiếng Anh, Tây Ban Nha, Pháp, Bồ Đào Nha, Hindi, Đức, Hà Lan, và Ý.
Ngoài việc phiên âm, Voxtral còn cho phép tương tác thời gian thực như: tạo tóm tắt, trả lời câu hỏi về nội dung âm thanh, hoặc thực hiện hành động dựa trên lệnh thoại như gọi API hay chạy mã.
Mô hình có thể dùng thử miễn phí trên Hugging Face hoặc chatbot Le Chat của Mistral. API có sẵn để tích hợp vào ứng dụng.
Việc ra mắt Voxtral diễn ra chỉ một tháng sau khi Mistral công bố Magistral, dòng mô hình lập luận theo từng bước nhằm tăng độ tin cậy.
Mistral hiện đang đàm phán huy động đến 1 tỷ USD từ các quỹ như MGX (Abu Dhabi) để mở rộng năng lực phát triển AI nguồn mở.

📌 Voxtral đánh dấu bước đột phá mới trong lĩnh vực AI âm thanh nguồn mở với khả năng hiểu lời nói, hỗ trợ đa ngôn ngữ và giá chỉ từ 0,001 USD/phút. Mô hình 24 tỷ tham số Voxtral Small sánh ngang GPT-4o-mini, trong khi bản Mini Transcribe còn vượt cả Whisper về hiệu năng – Mistral đang củng cố vị thế là lá cờ đầu AI nguồn mở tại châu Âu.

https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI bản quyền 2025-07-03 08:25:28

AI có thể trở thành Napster mới? Ngành âm nhạc ra tay mạnh chưa từng có

Ngành âm nhạc đang sử dụng luật bản quyền âm thanh chặt chẽ để tấn công các công ty AI như Suno và Udio, với các cáo buộc huấn luyện mô hình trên dữ liệu vi phạm bản quyền và tạo ra sản phẩm cạnh tranh trực tiếp với bản gốc.
Các công ty AI như Suno cho phép người dùng tạo bài hát chỉ từ vài từ mô tả, đe dọa không phải ngôi sao như Taylor Swift, mà là những nhạc sĩ làm nhạc nền, thiền, thư giãn hoặc quảng cáo – những người bị AI "lấn sân" nghiêm trọng.
Suno và Udio đã thừa nhận sử dụng nhạc bản quyền trong dữ liệu huấn luyện và tuyên bố đó là "fair use", nhưng giới luật sư nhận định ngành âm nhạc có vị thế pháp lý mạnh hơn nhờ tiền lệ từ các vụ kiện sampling trái phép.
RIAA kiện cả ở đầu vào và đầu ra: từ hành vi sao chép trái phép khi huấn luyện đến sản phẩm AI mô phỏng tên ca sĩ nổi tiếng hoặc phong cách nhạc cụ thể.
Theo luật sư Grimmelman và các tiền lệ như Bridgeport Music v. Dimension Films hay Grand Upright v. Warner Bros., âm nhạc có thể được xem là "vùng cấm" với AI do bảo hộ bản ghi âm mạnh hơn hình ảnh hay văn bản.
Một số công ty đã chọn hướng hợp pháp: ví dụ BandLab’s SongStarter tạo track AI có cấp phép. BandLab đang đàm phán cấp phép AI trị giá hàng trăm nghìn USD trong nhiều năm, có điều khoản rõ ràng về mục đích sử dụng.
Giá dữ liệu âm nhạc cho huấn luyện AI dao động từ 1–5 USD/phút cho quyền không độc quyền, và 5–20 USD/phút cho quyền độc quyền. Nhãn nhạc coi đó là thị trường chính thống, không thể bỏ qua.
Các AI tạo nhạc như Suno cũng bị tố tạo nhạc giống đến mức vi phạm các tác phẩm hiện hữu. Một số thử nghiệm cho thấy Suno có thể "vô tình" mô phỏng gần y hệt các bản nhạc nổi tiếng.
Sau khi ChatGPT ra mắt, nhiều công ty AI lao vào "cướp" dữ liệu trực tuyến và chờ tòa án xử lý, thay vì xin phép. Tuy nhiên, âm nhạc không giống sách hay hình ảnh – nó có lịch sử pháp lý riêng, khả năng kiểm soát thị trường cao và tập trung vào vài hãng lớn có thể hành động tập thể.
Các phán quyết gần đây như vụ kiện giữa Anthropic hay Meta chưa mang lại kết luận chung, nhưng âm nhạc vẫn được xem là có khả năng thắng cao hơn, nhờ thị trường cấp phép rõ ràng và thiệt hại dễ chứng minh.

📌 Ngành âm nhạc đang dẫn đầu cuộc phản công AI bằng luật bản quyền: kiện Suno và Udio vì huấn luyện và tạo nhạc trái phép. Với lịch sử pháp lý vững chắc, hệ thống cấp phép rõ ràng và giá trị thị trường cao (1–20 USD/phút âm nhạc), các hãng nhạc đang "bóp cò" như thời Napster. AI giờ không chỉ cần thông minh – mà còn cần xin phép.

https://www.theverge.com/ai-artificial-intelligence/695290/suno-udio-ai-music-legal-copyright-riaa

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-06-19 07:17:02

Midjourney ra mắt mô hình tạo video AI đầu tiên mang tên V1

Ngày 18/6/2025, Midjourney chính thức ra mắt mô hình tạo video AI đầu tiên mang tên V1, cho phép người dùng tải lên ảnh (hoặc dùng ảnh tạo từ Midjourney) để tạo 4 đoạn video, mỗi đoạn dài 5 giây.
V1 chỉ khả dụng qua nền tảng Discord và chỉ dùng được trên web trong giai đoạn ra mắt.
Video có thể kéo dài tối đa 21 giây bằng cách mở rộng 4 giây thêm 4 lần.
Người dùng có thể chọn chế độ hoạt ảnh tự động (ngẫu nhiên) hoặc thủ công (mô tả chuyển động bằng văn bản), cùng với các thiết lập về mức độ chuyển động (“low motion” hoặc “high motion”).
Midjourney định vị V1 không chỉ là công cụ tạo video mà là bước đệm để tiến tới mô phỏng thế giới mở thời gian thực, và sẽ tiếp tục phát triển mô hình 3D và thời gian thực trong tương lai.
Giá tạo video qua V1 cao gấp 8 lần tạo ảnh, khiến người dùng dễ hết lượt nhanh chóng nếu không có gói cao cấp.
Gói rẻ nhất để dùng V1 là $10/tháng (Basic). Gói $60/tháng (Pro) và $120/tháng (Mega) có video không giới hạn trong chế độ “Relax”.
V1 gia nhập cuộc đua cùng các đối thủ như Sora của OpenAI, Gen-4 của Runway, Firefly của Adobe và Veo 3 của Google.
Dù định hướng sáng tạo hơn thương mại, Midjourney vẫn không tránh khỏi tranh cãi pháp lý: bị Disney và Universal kiện vì cho rằng AI của họ đã tái tạo hình ảnh nhân vật có bản quyền như Darth Vader và Homer Simpson.
CEO David Holz khẳng định Midjourney muốn khác biệt với các đối thủ nhờ tính nghệ thuật và mục tiêu dài hạn thay vì chỉ phục vụ quảng cáo hay điện ảnh.

📌 Midjourney chính thức bước vào sân chơi video AI với mô hình V1: tạo video 5-21 giây từ ảnh, giá gấp 8 lần tạo ảnh và chỉ khả dụng trên Discord. Dù bị kiện bởi Disney và Universal, startup này vẫn theo đuổi mục tiêu xây dựng mô hình mô phỏng thế giới thời gian thực và mở rộng sang AI 3D.

https://techcrunch.com/2025/06/18/midjourney-launches-its-first-ai-video-generation-model-v1/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-06-04 07:31:59

Microsoft Bing ra mắt Bing Video Creator miễn phí, tích hợp AI tạo sinh video dựa trên Sora của OpenAI

Microsoft Bing chính thức ra mắt Bing Video Creator tích hợp mô hình Sora của OpenAI, cho phép người dùng tạo video từ văn bản hoàn toàn miễn phí ngay trên ứng dụng Bing.
Đây là lần đầu tiên mô hình Sora, vốn chỉ dành cho khách hàng trả phí, được sử dụng miễn phí thông qua hợp tác lâu dài giữa OpenAI và Microsoft.
Hiện tại, Bing Video Creator chưa có trên máy tính để bàn; người dùng chỉ có thể truy cập qua ứng dụng Bing trên di động.
Video AI tạo ra có thể mất vài giờ để hoàn thành, kể cả khi chọn chế độ “nhanh” vốn hứa hẹn chỉ mất một vài phút.
Mỗi tài khoản Microsoft có thể tạo tối đa 10 video miễn phí đầu tiên. Sau đó, người dùng phải trả 100 điểm Microsoft Rewards cho mỗi video tiếp theo.
Điểm Microsoft Rewards tích lũy từ việc tìm kiếm bằng Bing (5 điểm cho mỗi lần tìm trên PC, tối đa 150 điểm/ngày) hoặc mua hàng trên Microsoft Store.
Mỗi lần, người dùng chỉ có thể xếp hàng tạo tối đa 3 video, mỗi video dài 5 giây, hiện tại chưa thể chỉnh thời lượng.
Video chỉ hỗ trợ tỉ lệ dọc 9:16, hướng tới việc chia sẻ trên các nền tảng như TikTok và Instagram. Sắp tới sẽ bổ sung tùy chọn định dạng ngang.
Tính năng này giúp Microsoft cạnh tranh rõ rệt với các AI tạo video khác, đồng thời thu hút thêm người dùng vào hệ sinh thái Bing và Microsoft.

📌 Bing tích hợp Sora vào Video Creator, lần đầu cho phép tạo 10 video AI miễn phí, sau đó tính phí qua điểm thưởng. Video chỉ có độ dài 5 giây, tỉ lệ 9:16, tạo mất nhiều thời gian. Công cụ này hứa hẹn tăng tương tác cho Bing trong kỷ nguyên AI tạo nội dung.

https://techcrunch.com/2025/06/02/microsoft-bing-gets-a-free-sora-powered-ai-video-generator/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-05-28 07:22:37

Claude của Anthropic giờ đã biết "nói chuyện" như người thật: 5 giọng nói, hỗ trợ email và lịch

Ngày 27/5/2025, Anthropic chính thức triển khai tính năng voice mode (chế độ thoại) cho ứng dụng Claude trên di động, cho phép người dùng trò chuyện hoàn toàn bằng giọng nói với chatbot AI Claude.
Voice mode hiện đang ở giai đoạn beta, hỗ trợ tiếng Anh, sẽ ra mắt rộng rãi trong vài tuần tới. Mô hình vận hành mặc định là Claude Sonnet 4.
Người dùng có thể:
- Trò chuyện trực tiếp bằng giọng nói
- Nhận phản hồi bằng âm thanh từ Claude
- Xem các ý chính hiển thị trên màn hình khi Claude nói
- Chuyển đổi linh hoạt giữa văn bản và giọng nói
- Nhận bản tóm tắt và bản ghi cuộc trò chuyện sau khi kết thúc
Voice mode hỗ trợ 5 tùy chọn giọng nói khác nhau, phù hợp với nhiều phong cách người dùng.
Chức năng này tính vào hạn mức sử dụng bình thường – người dùng miễn phí có thể thực hiện khoảng 20–30 cuộc hội thoại/ngày.
Người dùng trả phí có thể sử dụng kết nối Google Workspace trong voice mode, bao gồm quyền truy cập vào:
- Lịch Google Calendar
- Email Gmail
- (Tích hợp Google Docs chỉ khả dụng cho người dùng Claude Enterprise)
Trước đó, CPO của Anthropic – Mike Krieger – xác nhận công ty đang phát triển chức năng thoại, và đã đàm phán với Amazon cùng startup ElevenLabs chuyên về giọng nói. Tuy nhiên, chưa rõ đối tác nào đã được hợp tác chính thức cho đợt ra mắt lần này.
Claude không phải là chatbot đầu tiên có voice mode: OpenAI có ChatGPT Voice, Google có Gemini Live, và xAI của Elon Musk có Voice Mode cho Grok.

📌 Claude chính thức bước vào cuộc chơi AI thoại với voice mode: trò chuyện tự nhiên, 5 giọng nói tùy chọn, hỗ trợ cả Google Workspace cho người dùng trả phí. Anthropic đang cạnh tranh sòng phẳng với OpenAI và Google bằng sự kết hợp giữa đối thoại, hình ảnh, văn bản và tài liệu số.

https://techcrunch.com/2025/05/27/anthropic-launches-a-voice-mode-for-claude/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2025-05-25 08:50:25

Google Veo 3 tạo video AI có thoại, âm thanh và hiệu ứng cực kỳ chân thực: hoang mang về sự thật số

Bài viết cảnh báo làn sóng video AI mới đang vượt qua ranh giới của những gì con người có thể nhận biết được – với chất lượng hình ảnh, âm thanh, lời thoại và bối cảnh ngày càng thuyết phục đến đáng sợ.
Tác giả khẳng định: ngay cả người có kinh nghiệm cũng khó phân biệt thật – giả, nhất là trong thời gian ngắn khi xem các clip trên mạng xã hội như TikTok, Instagram.
Dù trước đây video AI dễ nhận ra nhờ chuyển động môi kém, giọng nói robot, thì giờ đây Google Veo 3 đã thay đổi cuộc chơi: nó có thể tạo đối thoại đồng bộ môi, âm thanh nền, tiếng va chạm mic, tiếng cười chân thực, v.v.
Một số ví dụ tiêu biểu gồm:
- Video game thủ chơi Fortnite hoàn toàn được dựng bằng AI.
- Các buổi hòa nhạc "giả" với nhạc, ca sĩ và đám đông đều được dựng 100% bằng AI.
- Một clip car show giả, với "phỏng vấn" người tham dự nghe rất thật, nhưng hoàn toàn là sản phẩm của Veo 3.
Veo 3 hiện có trong gói AI Ultra giá 250 USD/tháng, còn Veo 2 và Flow có trong gói AI Pro 20 USD/tháng – đủ sức tạo ra các video khó phân biệt.
Điều đáng sợ không chỉ là công nghệ, mà còn ở sự thiếu kiểm soát: Mỹ vừa thông qua luật cấm các bang can thiệp điều chỉnh AI trong 10 năm tới, trong khi AI tiếp tục phát triển nhanh chóng không rào cản.
Nếu không thận trọng, xã hội sẽ đối mặt nguy cơ lan truyền tin giả, cáo buộc sai, phát ngôn ngụy tạo, và thao túng nhận thức hàng loạt.

📌 Google Veo 3 đã mở ra kỷ nguyên video AI cực kỳ thật với hình ảnh và âm thanh đồng bộ đến mức khó phân biệt thật – giả. Khi công nghệ này lọt vào tay số đông chỉ với 20–250 USD/tháng, người dùng phải kích hoạt "bộ lọc sự thật" 24/7, vì mọi video trên mạng giờ đây có thể là sản phẩm của AI.

https://lifehacker.com/tech/you-are-not-prepared-for-this-new-wave-of-ai-generated-videos

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2025-05-25 05:50:00

Google Veo 3: AI tạo video mới có thể sinh âm thanh và lời thoại cực kỳ thuyết phục từ prompt đơn giản

Veo 3 là mô hình tạo video mới nhất của Google, ra mắt tại hội nghị I/O, với khả năng sinh âm thanh và lời thoại AI cực kỳ thực tế từ mô tả văn bản đơn giản.
Tác giả bài viết đã thử nghiệm tạo các video như tin tức giả, thảm họa, và cả mèo hoạt hình nói chuyện—và trong một số trường hợp, lời thoại do AI tự thêm vào dù không hề được yêu cầu.
Một ví dụ nổi bật: Veo 3 tạo cảnh một thi thể trên phố và lời thoại “Chúng ta cần dọn đường” dù người viết không đưa vào prompt—cho thấy mức độ tự động hóa ngày càng cao.
Alejandra Caraballo từ Harvard cũng từng tạo clip giả về cái chết của Bộ trưởng Quốc phòng Mỹ Pete Hegseth, dù ông vẫn sống. Clip gây sốc vì tính thuyết phục cao, khiến nhiều người hiểu nhầm.
Dù có một số hạn chế—ví dụ không thể tạo video Tổng thống bị ám sát hay CEO mặc áo thun cười dưới mưa tiền—Veo 3 vẫn có thể tạo các cảnh thảm họa như tháp Space Needle bốc cháy hay núi Rainier phun trào.
Khi cố gắng tạo video deepfake bản thân, Veo 3 từ chối, cho thấy một số rào chắn kỹ thuật vẫn còn hoạt động.
Tuy nhiên, AI lại rất dễ dùng để tạo nội dung “rác” trên YouTube Kids như xe tải lao vào thùng sơn màu hoặc mèo hoạt hình than phiền vì cá không cắn câu—nội dung nhắm vào trẻ nhỏ.
Video có âm thanh chỉ khả dụng ở bản Veo 3; nếu kéo dài thời lượng, hệ thống sẽ quay về Veo 2 và mất âm thanh.
Dù Google hợp tác với các nhà làm phim nổi tiếng như Darren Aronofsky, phần lớn nội dung thực tế được tạo từ Veo 3 hiện tại mang tính gây nhiễu, thậm chí độc hại về mặt thông tin.

📌 Google Veo 3 có thể tạo video kèm lời thoại thuyết phục chỉ từ mô tả đơn giản, làm dấy lên lo ngại về deepfake và nội dung rác trên YouTube. Dù có rào chắn, AI vẫn dễ bị khai thác cho các mục đích gây hiểu lầm. Với năng lực tạo video nhanh, Veo 3 đang mở ra cả cơ hội và nguy cơ lớn cho tương lai truyền thông số.

https://www.theverge.com/ai-artificial-intelligence/673719/google-veo-3-ai-video-audio-sound-effects

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-05-22 05:49:24

Google nâng cấp NotebookLM với tính năng Video Overviews: biến tài liệu thành video tóm tắt

Tại sự kiện Google I/O 2025, Google công bố tính năng mới Video Overviews cho NotebookLM – công cụ hỗ trợ ghi chú và nghiên cứu sử dụng AI.
Với Video Overviews, người dùng có thể chuyển các tài liệu phức tạp như ghi chú, file PDF và hình ảnh thành video trực quan, dễ hiểu.
Đây là bước tiếp theo sau khi Google tích hợp Audio Overviews, tính năng tạo podcast AI từ tài liệu người dùng, như giáo trình hoặc tài liệu pháp lý.
Google cũng nâng cấp Audio Overviews bằng cách cho phép chọn độ dài tóm tắt: mặc định, ngắn hơn hoặc dài hơn theo nhu cầu người dùng.
Ngay trước đó một ngày, Google chính thức ra mắt ứng dụng NotebookLM cho Android và iOS, giúp người dùng truy cập công cụ trên điện thoại thay vì chỉ dùng qua desktop.
Các tính năng trên ứng dụng di động gồm:
- Phát âm thanh nền và hỗ trợ ngoại tuyến cho Audio Overviews
- Chế độ tối thân thiện mắt
- Tạo và xem notebook mới/lưu trữ
- Khi duyệt web, PDF hoặc video YouTube, người dùng có thể chia sẻ vào NotebookLM làm nguồn tài liệu mới.
- Người dùng cũng có thể xem lại các tài liệu đã tải lên trong từng notebook riêng biệt.
Google định hướng NotebookLM thành công cụ giúp người dùng hiểu tài liệu học thuật hoặc chuyên ngành sâu hơn thông qua hình ảnh và âm thanh, thay vì chỉ dựa vào văn bản truyền thống.

📌 Google nâng cấp NotebookLM với Video Overviews – cho phép biến ghi chú, PDF và ảnh thành video dễ hiểu, cùng với ứng dụng di động mới hỗ trợ ngoại tuyến, phát nền và chia sẻ nhanh từ web hoặc YouTube. Đây là bước tiến lớn trong việc sử dụng AI để đơn giản hóa việc học tập và nghiên cứu.

https://techcrunch.com/2025/05/20/googles-notebooklm-is-getting-video-overviews/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-05-21 06:57:25

Flow – công cụ tạo video mới của Google dành cho nhà làm phim

Tại Google I/O 2025, Google chính thức ra mắt Flow – công cụ dựng phim bằng AI dành riêng cho nhà làm phim chuyên nghiệp và người dùng sáng tạo.
Flow được xây dựng dựa trên ba mô hình AI mạnh nhất của Google: Veo (video), Imagen (hình ảnh), Gemini (ngôn ngữ). Tất cả được đồng bộ để giúp người dùng tạo và chỉnh sửa cảnh quay một cách tự nhiên và logic chỉ với prompt bằng ngôn ngữ tự nhiên.
Các tính năng nổi bật của Flow:
- Camera Controls: Tùy chỉnh chuyển động và góc quay của máy quay.
- Scenebuilder: Mở rộng clip hiện có bằng cách thêm vào cảnh quay tiếp theo mượt mà.
- Asset Management: Quản lý tất cả yếu tố trong một dự án video.
- Flow TV: Nền tảng chia sẻ tác phẩm và khám phá video từ người dùng khác.
Tên gọi "Flow" lấy cảm hứng từ trạng thái tâm lý flow state – sự tập trung cao độ và đắm chìm trong quá trình sáng tạo.
Công cụ hiện khả dụng cho người dùng tại Mỹ thuộc hai gói đăng ký: Google AI Pro (19,99 USD/tháng) và Google AI Ultra (249,99 USD/tháng). Các quốc gia khác sẽ được cập nhật trong thời gian tới.
Flow là phản ứng của Google trước sự bùng nổ của video AI, đặc biệt sau khi OpenAI ra mắt Sora, mô hình video AI có âm thanh sống động và chân thực.
Không nhằm thay thế con người, Google định vị Flow là công cụ hỗ trợ sáng tạo, giúp nhà làm phim dễ dàng kể chuyện và dựng video chuyên nghiệp hơn.
Trong bối cảnh AI video từng bị chê vì “kỳ quái” và “khó tin”, Flow cùng Veo 3 đại diện cho bước tiến mới với khả năng dựng video logic, đẹp mắt và ngày càng gần với tiêu chuẩn điện ảnh thực thụ.

📌 Google ra mắt Flow – công cụ dựng phim AI tích hợp Veo, Imagen và Gemini, mang lại trải nghiệm tạo video liền mạch với điều khiển góc quay, dựng cảnh thông minh và chia sẻ qua Flow TV. Dành cho người dùng gói AI Pro và Ultra tại Mỹ, Flow mở ra kỷ nguyên sáng tạo điện ảnh bằng AI, nơi nhà làm phim có thể hiện thực hóa ý tưởng chỉ bằng lời nói và kiểm soát chi tiết từng khung hình.

https://www.zdnet.com/article/google-flow-is-a-new-ai-video-generator-meant-for-filmmakers-how-to-try-it-today/

Không có file đính kèm.

Nguồn tham khảo

111

AI market AI ảnh-video-music-âm thanh 2025-05-20 05:48:20

Trung Quốc vừa gây chấn động ngành AI toàn cầu với 3 công nghệ vượt mặt OpenAI

Tencent ra mắt Hunyuan Image 2.0 – công nghệ tạo ảnh thời gian thực siêu nhanh, phản hồi chỉ trong vài mili giây khi người dùng nhập lệnh (text, giọng nói hoặc bản vẽ).
Chất lượng ảnh vượt trội: đạt hơn 95% độ chính xác trong benchmark Geneval. Tạo ra hình ảnh sắc nét, chân thực, mô phỏng vật thể, kết cấu và phối cảnh phức tạp.
Tính năng drawing board giúp người dùng chỉnh sửa và xem thay đổi màu sắc trực tiếp trong quá trình thiết kế – lý tưởng cho nghệ sĩ, marketer, giáo dục hoặc livestream.
Alibaba công bố Vase: nền tảng tạo – chỉnh sửa video AI “tất cả trong một”, mã nguồn mở, dùng backbone One-2.1 với 14 tỷ tham số.
Vase cho phép: biến mô tả thành video, chỉnh sửa chi tiết trong clip, thay đổi cảnh vật, hoạt ảnh nhân vật từ ảnh tĩnh, và kết hợp nhiều đầu vào trong một quy trình duy nhất.
Công nghệ video unit giúp giữ nguyên chuyển động, ánh sáng, mạch cảnh – khắc phục lỗi nhảy hình hay lỗi vật thể thường thấy ở các công cụ AI khác.
ByteDance giới thiệu Seed 1.5VL – mô hình ngôn ngữ đa phương tiện (VLM) với encoder thị giác 532 triệu tham số và LLM 20 tỷ tham số.
Seed 1.5VL vượt 38/60 bài benchmark, xử lý tốt nhận dạng ảnh, biểu đồ, OCR, phân tích video, và suy luận đa bước.
Mô hình sử dụng hơn 3.000 tỷ token được tuyển chọn kỹ lưỡng, đảm bảo khả năng xử lý cả những khái niệm thị giác hiếm gặp.
ByteDance còn công bố Deerflow – framework AI đa tác vụ mã nguồn mở. Dựa trên LangChain và LangGraph, Deerflow dùng các agent chuyên biệt (lập kế hoạch, tìm kiếm, viết mã, tổng hợp) để tự động hóa toàn bộ quy trình nghiên cứu.
Giao diện web cho phép kiểm tra từng bước trong luồng tác vụ, can thiệp chỉnh sửa và tối ưu kết quả. Hỗ trợ Python 3.12, Node.js 22, và có thể triển khai cục bộ hoặc cloud.
Ứng dụng thực tế: tổng hợp tài liệu, báo cáo kỹ thuật, tạo slide, viết podcast, và trình bày dưới dạng audio chất lượng cao.

📌 Trung Quốc đang bứt phá mạnh mẽ với Hunyuan Image 2.0 tạo ảnh tức thì, Vase chỉnh sửa video toàn diện và Seed 1.5VL vượt mặt OpenAI trên 38 bài test. Cùng với Deerflow – hệ AI đa tác vụ mã nguồn mở, nước này đang định hình lại cán cân quyền lực AI toàn cầu, không chỉ bằng sức mạnh công nghệ mà còn bằng sự mở rộng và tự động hóa quy mô lớn.

https://youtu.be/bU4kjdeDnxU?si=rQ45Jse6oTWktvJz

Không có file đính kèm.

Nguồn tham khảo

102

AI ảnh-video-music-âm thanh 2025-05-19 21:19:06

UBS triển khai nhân bản nhà phân tích AI khi khách hàng lựa chọn nghiên cứu dưới dạng video

UBS, ngân hàng lớn tại Thụy Sĩ, đã bắt đầu sử dụng AI để tạo avatar sống động của các nhà phân tích, phục vụ khách hàng ưa chuộng nội dung video nghiên cứu tài chính.
Hệ thống sử dụng mô hình của OpenAI để phân tích báo cáo và tạo kịch bản, sau đó dùng công nghệ từ Synthesia để biến kịch bản thành video với hình ảnh và giọng nói giống nhà phân tích thật.
Dự án này được triển khai từ tháng 1/2025, theo hình thức tự nguyện (opt-in), có sự phê duyệt từ bộ phận nhân sự và yêu cầu người dùng xác nhận nội dung trước khi phát hành.
UBS hiện xuất bản 50.000 tài liệu nghiên cứu mỗi năm, nhưng số lượng video bị giới hạn khoảng 1.000/năm do năng lực phòng thu. Với avatar AI, mục tiêu là nâng sản lượng video lên khoảng 5.000 video/năm.
Scott Solomon, Giám đốc công nghệ nghiên cứu toàn cầu, cho biết động lực chính đến từ nhu cầu khách hàng và hiệu quả làm việc. Việc sản xuất video tự động giúp nhà phân tích có thêm thời gian cho nghiên cứu chuyên sâu và gặp gỡ khách hàng.
Công nghệ AI gặp khó khăn với giọng địa phương, làm mất đi phần nào đặc điểm cá nhân hóa – khiến một số nhân sự phải trì hoãn tham gia.
UBS khẳng định không cố “đánh lừa” người xem: mọi video có chú thích rõ ràng rằng “nội dung này được tạo bằng AI”.
Trong bối cảnh AI đang đe dọa các ngành có thu nhập cao, Rogo – một startup tạo chatbot mô phỏng nhân viên ngân hàng đầu tư – vừa gọi vốn 50 triệu USD, định giá lên đến 350 triệu USD.

📌 UBS đang dùng AI “nhân bản” nhà phân tích thành avatar video, với mục tiêu tạo 5.000 video mỗi năm nhằm đáp ứng nhu cầu khách hàng và tăng hiệu suất. Công nghệ dựa trên OpenAI và Synthesia này đã giúp ngân hàng tiết kiệm thời gian và mở rộng nội dung nghiên cứu, trong khi vẫn giữ minh bạch khi ghi rõ video được tạo bằng AI.

https://www.ft.com/content/0916d635-755b-4cdc-b722-e32d94ae334d

#FT

UBS triển khai nhân bản nhà phân tích AI khi khách hàng lựa chọn nghiên cứu dưới dạng video

Ngân hàng có trụ sở tại Zurich sử dụng mô hình OpenAI và Synthesia để tạo ra hình ảnh sống động của các chuyên gia

Trụ sở của UBS Group AG tại Zurich, Thụy Sĩ © Pascal Mora/Bloomberg

Simon Foy, Phóng viên Ngân hàng Châu Âu
Công bố 2 giờ trước

UBS đã bắt đầu sử dụng trí tuệ nhân tạo để biến các nhà phân tích thành hình ảnh đại diện, gửi video về các nhà băng mô phỏng đến khách hàng trong một động thái mà ngân hàng cho biết sẽ giúp nhân viên tập trung vào các nhiệm vụ hiệu quả hơn.

Ngân hàng có trụ sở tại Zurich đang sử dụng mô hình OpenAI và Synthesia để tạo ra kịch bản được tạo bởi AI và hình ảnh đại diện của các nhà phân tích sau khi nhu cầu nghiên cứu dưới dạng video của khách hàng tăng cao, UBS cho biết.

"Đây không phải là trò ảo thuật," Scott Solomon, giám đốc công nghệ nghiên cứu toàn cầu tại ngân hàng đầu tư UBS, nói với Financial Times.

"Có hai động lực cho điều này: động lực từ khách hàng và động lực hiệu quả... Điều này giúp bạn mở rộng khả năng video theo cách mà khách hàng đang yêu cầu, và cuối cùng tiết kiệm thời gian để thực hiện nghiên cứu và gặp gỡ khách hàng."

Sáng kiến mà UBS bắt đầu triển khai vào tháng 1 diễn ra khi các tổ chức tài chính lớn ngày càng thử nghiệm với các công cụ AI tạo sinh để cắt giảm chi phí và tăng hiệu quả.

Hình ảnh đại diện mà UBS đang tạo ra từ các nhà phân tích tương tự như deepfake AI, hay video, âm thanh hoặc hình ảnh chân thực được tạo bởi AI của con người. Để tạo ra hình ảnh đại diện AI, các nhà phân tích của UBS vào studio, nơi Synthesia ghi lại hình dáng và giọng nói của họ.

Để tạo video, các nhà phân tích của UBS có thể sử dụng mô hình ngôn ngữ để phân tích báo cáo và tạo ra kịch bản. Sau đó, họ có thể xem lại kịch bản trước khi được chuyển thành video sống động sử dụng hình ảnh đại diện của họ.

Video của UBS giải thích việc sử dụng hình ảnh đại diện AI, được phát triển cho đối tượng nội bộ và chia sẻ với FT © UBS

Chương trình được thực hiện trên cơ sở "tự nguyện tham gia" cho các nhà phân tích của ngân hàng và đã được phê duyệt bởi đội ngũ nhân sự của UBS trước khi được triển khai, Solomon cho biết. Tất cả nội dung sử dụng hình ảnh đại diện AI của nhà phân tích cũng yêu cầu sự chấp thuận của họ trước khi được phân phối cho khách hàng.

Solomon cho biết UBS đã thấy nhu cầu ngày càng tăng từ khách hàng đối với nội dung video trong những năm gần đây, giữa sự gia tăng phổ biến của các ứng dụng video ngắn như TikTok.

"Hãy nghĩ về cách chúng ta, trong cuộc sống tiêu dùng, tiêu thụ nhiều nội dung video hơn so với 5 năm trước," ông nói. "Chúng tôi xuất bản khoảng 50.000 tài liệu mỗi năm, [nhưng sản xuất video] đã cố định ở mức khoảng 1.000 mỗi năm, vì đó về cơ bản là công suất studio của chúng tôi. Nhưng số lượng lượt xem trên các video đó đã tăng đáng kể."

UBS cho biết ngân hàng đang nhắm đến khoảng 5.000 video hình ảnh đại diện hàng năm sau khi sáng kiến đi vào hoạt động. Nhưng ngân hàng đã phải làm chậm việc triển khai hình ảnh đại diện AI cho một số nhân viên, sau khi công nghệ gặp khó khăn với một số giọng: "[Giọng nói] sẽ trở nên phẳng hơn một chút và bạn có thể mất đi một chút điều làm nên con người bạn", Solomon nói.

Mặc dù việc sử dụng hình ảnh đại diện AI có thể đặt ra câu hỏi về tính minh bạch và xác thực, UBS cho biết ngân hàng sẽ không bao giờ "gây hiểu lầm hoặc cố gắng làm cho điều này trông như một nhà phân tích thật".

"Xuyên suốt video, bạn sẽ thấy ở dưới cùng, có dòng chữ, 'nội dung này được tạo ra bằng AI'. Điều này không hề cố gắng thay thế nhà phân tích bằng xương bằng thịt," Solomon nói.

Trong khi đó, các mô hình ngôn ngữ lớn tinh vi cũng đang tiến gần đến các nhiệm vụ phức tạp, cổ cồn trắng có thể cắt giảm việc làm trong các ngành công nghiệp có mức lương cao như tài chính. Tháng trước, Rogo, một công ty khởi nghiệp AI đứng sau chatbot mô phỏng một chuyên viên ngân hàng đầu tư, đã huy động được 50 triệu đô la từ một nhóm nhà đầu tư do Thrive Capital dẫn đầu, tăng giá trị của công ty lên 350 triệu đô la.

Không có file đính kèm.

Nguồn tham khảo

AI bản quyền AI pháp lý-quản trị-chủ quyền AI ảnh-video-music-âm thanh 2025-05-14 06:37:36

ChatGPT biến thành cỗ máy Studio Ghibli: OpenAI có vi phạm pháp luật không?

OpenAI vừa ra mắt bản nâng cấp mới cho ChatGPT với khả năng tạo ảnh theo phong cách các studio nổi tiếng, dẫn đến làn sóng hình ảnh “Ghibli hóa” tràn lan trên mạng, thu hút 1 triệu người dùng chỉ trong 1 giờ.
Phong cách của Studio Ghibli – nổi tiếng với các bộ phim như Spirited Away và Princess Mononoke – trở thành xu hướng mạnh nhất, được dùng trong ảnh gia đình, các sự kiện lịch sử như 9/11. Sam Altman, CEO của OpenAI, còn đổi avatar thành phiên bản “Ghibli hóa” của chính mình.
Dù người dùng xem đây là trào lưu tự phát, Altman thừa nhận công ty đã cân nhắc kỹ các ví dụ minh họa khi ra mắt tính năng. OpenAI chủ động thúc đẩy xu hướng, có thể ví như một chiến dịch tiếp thị trá hình.
Vấn đề pháp lý chính nằm ở việc phong cách hình ảnh không được bảo vệ bản quyền, nhưng luật “right of publicity” và “false endorsement” (giả mạo chứng thực) có thể áp dụng. Ví dụ, ca sĩ Bette Midler thắng kiện với 400.000 USD khi bị bắt chước phong cách hát.
OpenAI từng gặp rủi ro tương tự khi sử dụng giọng nói giống Scarlett Johansson, dù đã xin lỗi và gỡ bỏ.
Giới nghệ sĩ lo ngại AI tạo sinh phá vỡ thị trường nghệ thuật. Phong cách cá nhân như của Miyazaki mất giá trị khi có thể bị tái tạo hàng loạt bởi AI mà không cần nỗ lực sáng tạo thực sự.
Các vụ kiện đang diễn ra với Midjourney vì các lý do tương tự, có thể tạo tiền lệ pháp lý cho trường hợp của OpenAI.
Nghệ sĩ Greg Rutkowski từng chia sẻ rằng ảnh AI giả danh ông đang làm lu mờ tác phẩm thật. Theo cựu cố vấn pháp lý của Adobe, luật hiện hành không đủ để bảo vệ phong cách sáng tạo cá nhân.

📌 ChatGPT đang tạo làn sóng tranh cãi khi sử dụng phong cách Studio Ghibli mà không xin phép, gây nguy cơ kiện tụng vì vi phạm “right of publicity” và “false endorsement”. Với 1 triệu người dùng trong 1 giờ, trào lưu này không chỉ đe dọa sinh kế nghệ sĩ mà còn khiến xã hội phải suy xét lại ranh giới đạo đức và pháp lý của AI tạo sinh.

https://www.theatlantic.com/technology/archive/2025/05/openai-studio-ghibli-images/682791/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2025-05-13 07:05:58

OpenVision ra mắt: mã hóa thị giác nguồn mở vượt mặt CLIP và SigLIP

Đại học California, Santa Cruz vừa công bố OpenVision, một bộ mã hóa thị giác mã nguồn mở mới nhằm thay thế các mô hình nổi tiếng như CLIP (OpenAI) và SigLIP (Google).
OpenVision gồm 26 mô hình, từ 5.9 triệu đến 632.1 triệu tham số, cấp phép theo Apache 2.0, cho phép sử dụng thương mại tự do.
Các mô hình hỗ trợ nhiều kích thước patch (8×8, 16×16) và độ phân giải linh hoạt, thích hợp cho cả thiết bị biên lẫn trung tâm dữ liệu.
Dữ liệu huấn luyện dựa trên Recap-DataComp-1B, một tập dữ liệu hình ảnh web được tái chú thích bằng AI từ LLaVA.
OpenVision đạt hiệu suất cao hơn CLIP và SigLIP trong nhiều benchmark như:
- TextVQA
- ChartQA
- MME
- OCR
- SEED, SQA, POPE khi huấn luyện ở độ phân giải 224×224 và 336×336.
Chiến lược huấn luyện "progressive resolution" (tăng dần độ phân giải) giúp giảm chi phí tính toán 2–3 lần mà không mất độ chính xác.
Thiết kế thêm bộ giải mã văn bản phụ trợ và caption tổng hợp giúp mô hình học được biểu diễn ngữ nghĩa sâu hơn.
Ngay cả các mô hình nhỏ (dưới 250M tham số khi ghép với Smol-LM 150M) vẫn giữ độ chính xác tốt trong các tác vụ VQA và OCR, lý tưởng cho smartphone hoặc camera sản xuất.
Dành cho các nhóm kỹ thuật doanh nghiệp:
- Kỹ sư AI có thể tích hợp mô hình thị giác mạnh mẽ mà không phụ thuộc API đóng
- Kỹ sư dữ liệu có thể xử lý hình ảnh và văn bản song song
- Nhóm bảo mật có thể kiểm toán mô hình minh bạch, tránh rò rỉ dữ liệu
Tất cả mô hình có sẵn trên Hugging Face, hỗ trợ PyTorch và JAX, và đi kèm công cụ tích hợp với framework LLaVA.

📌 OpenVision mang đến một nền tảng mã hóa thị giác mã nguồn mở toàn diện với 26 mô hình linh hoạt, đánh bại CLIP và SigLIP trong nhiều bài benchmark. Dễ triển khai, chi phí thấp và bảo mật cao, đây là công cụ lý tưởng cho doanh nghiệp muốn tự chủ AI tạo sinh thị giác mà không phụ thuộc nhà cung cấp bên ngoài.

https://venturebeat.com/ai/new-fully-open-source-vision-encoder-openvision-arrives-to-improve-on-openais-clip-googles-siglip/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-05-09 00:31:47

Google cho phép chỉnh sửa ảnh bằng lời nói ngay trong app Gemini

Google chính thức mở rộng khả năng chỉnh sửa ảnh gốc bằng AI trong ứng dụng Gemini, cho phép người dùng thay đổi chi tiết cụ thể như nền, đối tượng hay phong cách mà không tạo ảnh mới hoàn toàn.
Trước đây, khi yêu cầu chỉnh sửa ảnh, Gemini sẽ tạo ra hình ảnh hoàn toàn mới, thay đổi cả cảnh vật, đối tượng và màu sắc.
Giờ đây, người dùng có thể giữ nguyên hình ảnh ban đầu và chỉ thay đổi một phần như màu cỏ, phong nền hoặc thêm chữ bằng lệnh ngôn ngữ tự nhiên.
Ví dụ điển hình: ảnh con chó vẫn giữ nguyên, chỉ có cỏ đổi sang màu xanh lam – cho thấy công nghệ mới có khả năng chỉnh sửa chính xác và giữ được ngữ cảnh hình ảnh.
Hình ảnh tạo ra giờ đây hiển thị thủy vân "AI" ở góc dưới bên phải – Google đang thử nghiệm cách hiển thị này cùng với thủy vân kỹ thuật số SynthID vô hình.
Tính năng cũng hỗ trợ ảnh tải lên từ người dùng: bạn có thể thay đổi màu tóc hoặc thử tạo phiên bản khác của ảnh chân dung cá nhân.
Khả năng chỉnh sửa nhiều bước giúp duy trì mạch hội thoại và cho phép kết hợp văn bản – hình ảnh như tạo câu chuyện có ảnh minh họa từng bước.
Công nghệ này được vận hành bởi Gemini 2.0 Flash, nhưng có thể sử dụng trên bất kỳ mô hình Gemini nào.
Hiện đã có mặt rộng rãi hơn tại Mỹ trên tài khoản miễn phí và gói Gemini Advanced.
Đối với lập trình viên, Google thông báo Gemini 2.0 Flash Image Generation & Editing hiện có bản preview trên Gemini API qua Google AI Studio và Vertex AI.
So với bản thử nghiệm tháng 3, Google cải thiện đáng kể: chất lượng hình ảnh tốt hơn, hiển thị văn bản chính xác hơn, và giảm tỷ lệ bị chặn nội dung.

📌 Ứng dụng Gemini giờ đây cho phép chỉnh sửa ảnh bằng lời nói mà vẫn giữ nguyên ngữ cảnh ảnh gốc – mở ra tương lai chỉnh ảnh cực linh hoạt. Tính năng dựa trên Gemini 2.0 Flash đã triển khai rộng tại Mỹ, hỗ trợ cả người dùng cá nhân và lập trình viên thông qua Google AI Studio và Vertex AI.

https://9to5google.com/2025/05/07/gemini-app-image-editing/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-05-07 20:42:39

Netflix ra mắt giao diện TV mới với tìm kiếm AI tạo sinh, đề xuất thông minh theo thời gian thực

Netflix chính thức công bố giao diện TV mới tích hợp AI tạo sinh và đề xuất nội dung theo thời gian thực, với mục tiêu nâng cao trải nghiệm khám phá nội dung cho người dùng toàn cầu.
Giao diện được thiết kế lại để đơn giản hơn, trực quan và dễ sử dụng, giúp người dùng nhanh chóng tìm thấy phim hoặc chương trình hấp dẫn.
Các tính năng nổi bật gồm:
- Tìm kiếm bằng AI tạo sinh cho phép người dùng dùng câu thoại tự nhiên như: “Tôi muốn xem một cái gì đó vui vẻ, nhẹ nhàng”.
- Đề xuất nội dung thông minh theo cảm xúc và sở thích của người dùng trong từng thời điểm cụ thể.
- Các tiêu chí nổi bật được hiển thị rõ ràng như: “Đạt giải Emmy”, “Top 1 chương trình TV”.
- Di chuyển các phím tắt như “Tìm kiếm” và “Danh sách của tôi” lên đầu màn hình để dễ truy cập.
Trên di động, người dùng iOS sẽ có thể thử nghiệm tính năng tìm kiếm mới bằng AI thông qua một bản beta giới hạn.
Một feed dọc gồm các đoạn clip ngắn của phim và chương trình sẽ được thử nghiệm, cho phép người dùng xem nhanh, thêm vào danh sách hoặc chia sẻ ngay.
Netflix không chỉ ứng dụng AI vào tìm kiếm và đề xuất mà còn đầu tư vào công nghệ riêng: sử dụng mô hình của OpenAI được huấn luyện theo yêu cầu riêng, tuy nhiên chưa công bố biện pháp kiểm soát nội dung bản quyền.
Lãnh đạo sản phẩm Eunice Kim và lãnh đạo công nghệ Elizabeth Stone nhấn mạnh sự kết hợp giữa công nghệ tiên tiến và nội dung đỉnh cao là “siêu năng lực” đặc trưng của Netflix.
Các cải tiến mới sẽ được triển khai trong vài tuần hoặc tháng tới cho người dùng toàn cầu.

📌 Netflix đang nâng cấp mạnh mẽ trải nghiệm TV với thiết kế hiện đại, tích hợp AI tạo sinh giúp tìm kiếm tự nhiên hơn và đề xuất nội dung chính xác theo thời điểm. Người dùng sẽ được trải nghiệm tìm kiếm bằng câu thoại, feed clip khám phá, và các phím tắt tiện lợi, tất cả hướng đến trải nghiệm cá nhân hóa sâu sắc và dễ sử dụng hơn.

https://venturebeat.com/games/netflix-unveils-new-tv-experience-with-genai-search-and-ai-based-recommendations/

Không có file đính kèm.

Nguồn tham khảo

104

AI ảnh-video-music-âm thanh 2025-05-02 00:23:43

Google ra mắt công cụ chỉnh sửa ảnh AI mới cho Gemini

Google chính thức cập nhật Gemini chatbot với khả năng chỉnh sửa ảnh AI "nguyên bản", cho phép thao tác trực tiếp trên ảnh AI tạo sinh lẫn ảnh tải lên từ điện thoại hoặc máy tính.
Tính năng chỉnh sửa ảnh này bắt đầu được triển khai dần từ hôm nay, với mục tiêu phủ sóng hầu hết các quốc gia và hỗ trợ hơn 45 ngôn ngữ trong vài tuần tới.
Công cụ mới kế thừa và mở rộng từ mô hình chỉnh sửa ảnh AI của Google từng thử nghiệm trên AI Studio vào tháng 3/2025, khi đó đã gây tranh cãi mạnh vì khả năng loại bỏ thủy vân trên bất kỳ hình ảnh nào.
Tương tự công cụ chỉnh sửa ảnh mới nâng cấp của ChatGPT, trình chỉnh sửa ảnh tích hợp của Gemini có thể đạt kết quả vượt trội hơn các công cụ AI tạo sinh độc lập trước đây.
Gemini giới thiệu quy trình chỉnh sửa "đa bước", tạo ra phản hồi phong phú hơn, kết hợp liền mạch giữa văn bản và hình ảnh cho từng yêu cầu.
Người dùng có thể dễ dàng thay đổi phông nền của ảnh, thay thế và thêm mới các đối tượng, chèn chi tiết hoặc thao tác sáng tạo khác ngay trong giao diện Gemini mà không cần công cụ ngoài.
Tính năng chỉnh sửa "native" giúp nâng trải nghiệm sáng tạo, tiết kiệm thời gian chuyển đổi giữa nhiều ứng dụng, đồng thời mở ra khả năng tùy chỉnh ảnh AI linh hoạt hơn cho hàng triệu người dùng toàn cầu.
Việc mở rộng hỗ trợ đa ngôn ngữ (hơn 45 thứ tiếng) giúp Gemini tiếp cận rộng rãi hơn, đáp ứng nhu cầu người dùng đa dạng từ nhiều quốc gia và khu vực.
Sự kiện này đánh dấu bước tiến quan trọng trong cuộc đua AI tạo sinh trên toàn cầu, đồng thời đặt ra câu hỏi về kiểm soát bản quyền khi AI ngày càng dễ dàng loại bỏ thủy vân hoặc chỉnh sửa ảnh đã có.
Google khẳng định sẽ tiếp tục phát triển các tính năng mới cho Gemini nhằm cạnh tranh trực diện với các đối thủ lớn như ChatGPT của OpenAI.

📌 Google giới thiệu công cụ chỉnh sửa ảnh AI trực tiếp trên Gemini với các tính năng mạnh như thay nền, loại thủy vân, thêm đối tượng; hỗ trợ hơn 45 ngôn ngữ và triển khai toàn cầu trong vài tuần tới, đánh dấu bước tiến lớn của AI tạo sinh trong sáng tạo nội dung số.

https://techcrunch.com/2025/04/30/googles-gemini-chatbot-gets-upgraded-image-creation-tools/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI chính phủ 2025-04-28 07:25:20

Lỗi AI tái hiện sai quốc kỳ Malaysia gây phẫn nộ: Quốc thể bị xúc phạm, Bộ giáo dục và báo chí phải xin lỗi

Quốc kỳ Malaysia - Jalur Gemilang là biểu tượng quan trọng của đoàn kết dân tộc, được trưng bày rộng rãi tại nhà, trường học và cơ quan công quyền.
Gần đây, nhiều tranh cãi nổ ra khi các hình ảnh quốc kỳ do AI tạo sinh bị sai sót, như thiếu trăng lưỡi liềm hoặc thêm ngôi sao, khiến dư luận phẫn nộ và xem đó là xúc phạm quốc thể.
Bộ giáo dục Malaysia đã phải xin lỗi sau khi đăng tải hình ảnh lớp học có quốc kỳ với hai trăng lưỡi liềm trong báo cáo kết quả kỳ thi SPM. Sự việc càng nhạy cảm khi trước đó bộ này vừa yêu cầu học sinh đeo huy hiệu quốc kỳ để nâng cao nhận diện.
Bộ giáo dục khẳng định đây là "sơ suất không thể chấp nhận" vì Jalur Gemilang là biểu tượng chủ quyền và vinh quang quốc gia.
Trước đó, báo tiếng Hoa Sin Chew Daily cũng bị chỉ trích dữ dội khi đăng tranh biếm họa quốc kỳ Malaysia thiếu trăng lưỡi liềm bên cạnh quốc kỳ Trung Quốc, nhân dịp Chủ tịch Tập Cận Bình thăm Malaysia.
Sự thiếu sót này bị xem là động chạm đến vị thế của Hồi giáo tại Malaysia, gây bão dư luận và bị nhà vua Sultan Ibrahim khiển trách, nhấn mạnh quốc kỳ không chỉ là tấm vải màu mà còn là biểu tượng lịch sử và tinh thần yêu nước.
Thủ tướng Anwar Ibrahim cũng lên tiếng, cho rằng đây là vấn đề không thể xem nhẹ vì quốc kỳ là biểu tượng quan trọng của bất kỳ quốc gia nào.
Sin Chew Daily cam kết siết chặt quy trình kiểm duyệt, đặc biệt với hình ảnh do AI tạo sinh, để tránh tổn hại đến danh dự quốc gia và quan hệ sắc tộc.
Cảnh sát đã triệu tập 54 người liên quan, gồm cả tổng biên tập và thiết kế đồ họa của tờ báo này để điều tra.
Sự nhạy cảm về việc thể hiện quốc kỳ từng dấy lên từ năm 2008 khi blogger Syed Azidi Syed Aziz kêu gọi treo cờ ngược để phản đối chính phủ, dẫn đến bị bắt giữ vì tội kích động.

📌 Lỗi AI tạo sinh tái hiện sai quốc kỳ Malaysia gây phẫn nộ xã hội, kéo theo xin lỗi từ bộ giáo dục và báo chí, phản ứng mạnh từ nhà vua, thủ tướng và điều tra của cảnh sát. Quốc kỳ được xem là biểu tượng bất khả xâm phạm, mọi sai sót dù nhỏ đều bị coi là xúc phạm quốc thể.

https://www.scmp.com/week-asia/politics/article/3308012/ai-errors-over-malaysias-jalur-gemilang-flag-spark-national-pride-and-controversy

Lỗi AI về cờ Jalur Gemilang của Malaysia khơi dậy lòng tự hào dân tộc và tranh cãi

Những sai sót gần đây trong việc mô tả quốc kỳ đã làm dư luận bức xúc, nơi mà ngay cả những lỗi nhỏ cũng bị coi là xúc phạm quốc gia

Thời gian đọc: 3 phút

Hadi Azmi Xuất bản: 12:30 chiều, ngày 27 tháng 4 năm 2025

Quốc kỳ Malaysia, được biết đến với tên gọi Jalur Gemilang hay Những dải sọc vinh quang, là biểu tượng được tôn trọng cao về sự đoàn kết dân tộc, nhưng gần đây đã vướng vào các tranh cãi do việc thể hiện không phù hợp, gây ra phản ứng dữ dội từ công chúng và lời xin lỗi từ một bộ chính phủ.

Biểu tượng được tôn kính này gắn kết một quốc gia đa sắc tộc với nhiều điểm nhạy cảm và được trưng bày tự hào tại các hộ gia đình, lớp học và tòa nhà chính phủ.

Tuy nhiên, nó cũng là nguồn gốc của tranh cãi.

Gần đây, việc mô tả sai quốc kỳ bởi một tờ báo và một bộ đã chạm đến dây thần kinh của công chúng, đối với họ ngay cả một lưỡi liềm bị thiếu hay một ngôi sao thừa không chỉ là lỗi đơn thuần, mà được coi là sự xúc phạm nghiêm trọng đến chính quốc gia.

Thiết kế phức tạp và các yếu tố được định nghĩa chính xác của quốc kỳ đã chứng tỏ quá phức tạp đối với trí tuệ nhân tạo tạo sinh (AI), vốn đã phải đối mặt với chỉ trích vì tạo ra các phiên bản sai lệch.

Hôm thứ Năm, Bộ Giáo dục Malaysia đã phải xin lỗi sau khi công bố một hình ảnh lớp học do AI tạo ra hiển thị quốc kỳ Malaysia với không phải một, mà là hai lưỡi liềm.

Phản ứng dữ dội đặc biệt đáng chú ý bởi chỉ vài ngày trước, bộ đã yêu cầu tất cả học sinh đeo huy hiệu quốc kỳ trên đồng phục để giúp các em nhận diện quốc kỳ.

"Bộ Giáo dục xin lỗi về lỗi trong việc trình bày Jalur Gemilang trong Báo cáo phân tích kết quả kỳ thi Chứng chỉ giáo dục Malaysia (SPM) được phân phát hôm nay," bộ cho biết trong một tuyên bố.

"Sự sơ suất này không thể chấp nhận được vì Jalur Gemilang là biểu tượng của sự vĩ đại và chủ quyền của đất nước."

Sai lầm của bộ xảy ra sau một vụ việc riêng liên quan đến tờ báo tiếng Trung địa phương Sin Chew Daily. Tuần trước, tờ báo đã phải đối mặt với chỉ trích vì một bức tranh biếm họa trên trang nhất đã bỏ sót lưỡi liềm khỏi quốc kỳ Malaysia, được hiển thị cùng với quốc kỳ Trung Quốc để kỷ niệm chuyến thăm của Chủ tịch Trung Quốc Tập Cận Bình.

Tờ báo 96 năm tuổi đã rơi vào tâm điểm của một cơn bão mang tính chủng tộc, khi việc bỏ sót lưỡi liềm được diễn giải rộng rãi là một đòn cố ý vào vị thế của đạo Hồi tại Malaysia.

Việc này thậm chí còn nhận được lời khiển trách từ nhà vua, Sultan Ibrahim, người nói rằng quốc kỳ "không chỉ là một tấm vải có hoa văn màu sắc" mà là biểu tượng của lịch sử đất nước và cuộc đấu tranh của nhân dân vì độc lập.

"Là người Malaysia, chúng ta treo cờ với tinh thần hùng vĩ và lòng yêu nước trong cộng đồng đa chủng tộc," Sultan Ibrahim nói hôm thứ Tư tuần trước.

"Sai lầm trong việc hiển thị hình ảnh Jalur Gemilang không có lưỡi liềm, như đã được đăng trên trang nhất của một tờ báo tiếng Trung địa phương, có thể kích động sự nhạy cảm của người dân và không thể chấp nhận được."

Thủ tướng Anwar Ibrahim cũng đồng tình với nhà vua, nói rằng vấn đề không nên xem nhẹ, vì quốc kỳ là biểu tượng quan trọng đối với bất kỳ quốc gia nào.

Trong lời xin lỗi về sự giám sát này, Sin Chew Daily cam kết tăng cường quy trình kiểm tra, "đặc biệt là trong việc sử dụng trí tuệ nhân tạo".

"Chúng tôi cam kết sẽ thêm thận trọng và nhạy cảm trong việc xử lý các vấn đề có thể gây tổn hại đến phẩm giá quốc gia và quan hệ giữa các chủng tộc," tờ báo cho biết.

Cảnh sát đã thẩm vấn 54 cá nhân, bao gồm biên tập viên và nhà thiết kế đồ họa của tờ báo.

Sự nhạy cảm với việc hiển thị sai quốc kỳ có nguồn gốc sâu xa từ các cuộc biểu tình chính trị, đặc biệt là những cuộc biểu tình bắt nguồn từ thời kỳ của thủ tướng Abdullah Ahmad Badawi vào năm 2008.

Abdullah, người đã qua đời ngày 14 tháng 4, đã ra lệnh cho cảnh sát điều tra blogger Syed Azidi Syed Aziz, người đã phát động chiến dịch treo quốc kỳ Malaysia ngược để phản đối tình trạng hỗn loạn chính trị và kinh tế của đất nước.

"Đồng bào tôi đã chịu đựng đủ bởi các chính sách không chính đáng và các quyết định đảo ngược của chính phủ, chưa kể đến việc chính trị hóa vô đạo đức giữa các chính trị gia," Syed Azidi viết trên blog của mình vào tháng 8 năm 2008.

"Quốc kỳ được treo ngược được chấp nhận như tín hiệu chính thức của sự đau khổ. Bằng cách hiển thị nó như vậy, nó không có ý định là, hoặc không được công nhận là bất kỳ loại thiếu tôn trọng nào."

Chính phủ của Abdullah không đồng tình, gọi động thái này là "xấu xa và ác ý", dẫn đến việc Syed Azidi bị bắt vì tội kích động và bị giam giữ trong 3 ngày.

AI errors over Malaysia’s Jalur Gemilang flag spark national pride and controversy

Recent inaccuracies in the national flag’s depiction have upset the public, where even small errors are seen as national insults

Hadi Azmi

Published: 12:30pm, 27 Apr 2025

The Malaysian flag, known as the Jalur Gemilang or Stripes of Glory, is a highly respected symbol of national unity, but has recently been embroiled in controversies due to inappropriate representations, prompting public backlash and an apology from a government ministry.

This revered symbol knits together a multiethnic nation with various fault lines and is proudly displayed in homes, classrooms, and government buildings.

However, it is also a source of contention.

Recently, botched depictions of the flag by a newspaper and a ministry have struck a nerve among the public, for whom even a missing crescent or an extra star is more than just an error, and is perceived as a serious affront to the nation itself.

The flag’s intricate design and precisely defined elements have proven too complex for generative artificial intelligence (AI), which has faced criticism for producing flawed versions.

On Thursday, Malaysia’s education ministry issued an apology after publishing an AI-generated image of a classroom that displayed the Malaysian flag with not one, but two crescent moons.

The backlash was particularly notable because, just days earlier, the ministry had mandated that all students wear national flag badges on their uniforms to help them recognise the flag.

“The Ministry of Education apologises for the error in the presentation of the Jalur Gemilang in the Analysis Report of the Malaysian Certificate of Education (SPM) Examination Results as distributed today,” the ministry said in a statement.

“This negligence is unacceptable because the Jalur Gemilang is a symbol of the greatness and sovereignty of the country.”

The ministry’s mistake followed a separate incident involving local Chinese-language newspaper Sin Chew Daily. Last week, it faced criticism for a front-page cartoon that excluded the crescent moon from the Malaysian flag, which was displayed alongside the Chinese flag to commemorate Chinese President Xi Jinping’s visit.

The 96-year-old newspaper found itself at the centre of a racially-charged firestorm, as the crescent moon’s omission was widely interpreted as an intentional jab to Islam’s standing in Malaysia.

It even drew a rebuke from the king, Sultan Ibrahim, who said the flag was “not just a colourful patterned cloth” but a symbol of the country’s history and the struggle of its people for independence.

“As Malaysians, we fly the flag with a sense of grandeur and patriotic spirit among the multiracial community,” Sultan Ibrahim said last Wednesday.

“The mistake of displaying a picture of the Jalur Gemilang without a crescent moon, as published on the front page of a local Chinese-language newspaper, can trigger the people’s sensitivities and is unacceptable.”

Prime Minister Anwar Ibrahim echoed the king, saying the matter should not be taken lightly, as flags were an important symbol for any country.

In its apology for the oversight, Sin Chew Daily vowed to enhance its review procedures, “especially in the use of artificial intelligence”.

“We pledge to be extra cautious and sensitive in handling matters that may harm national dignity and interracial relations,” it said.

Police have since questioned 54 individuals, including the newspaper’s editor and graphic designer.

Sensitivity to the wrongful display of the flag is deeply rooted in political protests, particularly those stemming from prime minister Abdullah Ahmad Badawi’s era in 2008.

Abdullah, who died on April 14, ordered police to investigate blogger Syed Azidi Syed Aziz, who launched a campaign to fly the Malaysian flag upside down in protest against the country’s political and economic turmoil.

“My fellow Malaysians have suffered enough by unjustified policies and flip-flop decisions by the government, not to forget unscrupulous politicking among politicians,” Syed Azidi wrote on his blog in August 2008.

“The upside-down flag is accepted as the official signal of distress. By displaying it properly, it is not meant to be, or it is not recognised as any type of disrespect.”

Abdullah’s government disagreed, calling the move “evil and malicious”, which led to Syed Azidi being arrested for sedition and detained for three days.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-04-26 17:19:41

Google tung Veo 2: Hướng dẫn tạo video AI 8 giây cực “thật” dành cho người dùng trả phí Gemini

Veo 2 là công cụ AI tạo video ngắn mới nhất của Google, tích hợp trong Gemini, cho phép người dùng tạo video từ văn bản với thời lượng tối đa 8 giây, độ phân giải 720p.
Hiện tại, Veo 2 chỉ dành riêng cho người dùng trả phí Gemini Advanced và Google đang mở rộng dần quyền truy cập cho toàn bộ nhóm này.
Để tạo video sát ý tưởng nhất, Google khuyến nghị người dùng nên mô tả đầy đủ các yếu tố sau trong prompt: chủ thể, hành động, bố cục khung hình (góc rộng, góc thấp, trên cao…), bối cảnh (đường phố đông đúc, không gian, bãi biển…), chuyển động camera (quay ngang, phóng to…), màu sắc và ánh sáng (tông xanh, ban đêm, sương mù…), phong cách nghệ thuật (điện ảnh, retro, hoạt hình…).
Google đã trình diễn Veo 2 tại sự kiện Gemini Day ở Ấn Độ, gây ấn tượng mạnh với các video AI “thật” đến khó tin.
Nếu kết quả chưa đúng ý, người dùng có thể chỉnh lại prompt và tạo lại video cho đến khi đạt yêu cầu.
Tính năng này chưa có trên dashboard hoặc app của tất cả người dùng, nhưng một số người đã bắt đầu nhìn thấy tùy chọn Veo 2.
Do quá trình tạo video AI tiêu tốn nhiều tài nguyên, Google chưa có kế hoạch mở Veo 2 cho người dùng miễn phí trong tương lai gần.

📌 Google giới thiệu Veo 2 – công cụ tạo video AI 8 giây ở 720p, chỉ dành cho người dùng trả phí Gemini Advanced. Để tạo video sát ý tưởng, cần mô tả chi tiết chủ thể, hành động, bối cảnh, phong cách… Google đang mở rộng truy cập Veo 2, nhưng chưa hỗ trợ người dùng miễn phí.

https://www.androidpolice.com/google-explains-how-to-use-veo-2/

Không có file đính kèm.

Nguồn tham khảo

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2025-04-24 07:18:56

ByteDance phát hành UI-TARS-1.5 – AI đa phương tiện nguồn mở vượt mặt OpenAI Operator và Claude 3.7

ByteDance vừa công bố UI-TARS-1.5, bản cập nhật của framework agent đa phương tiện tập trung vào tương tác giao diện người dùng (GUI) và môi trường game.
Mô hình này là AI tạo sinh tích hợp thị giác và ngôn ngữ, có khả năng nhận diện nội dung màn hình và thực hiện các thao tác điều khiển giống người thật như di chuột, gõ phím.
UI-TARS-1.5 được huấn luyện end-to-end, không cần gọi hàm hay bổ sung công cụ ngoài, giúp mô hình tương tác trực tiếp với GUI như người dùng thực sự.
Cải tiến chính gồm: mã hóa đồng thời hình ảnh màn hình và hướng dẫn văn bản, cơ chế “nghĩ rồi hành động” tách biệt lập kế hoạch và thực thi, không gian hành động thống nhất cho desktop, mobile, game, và tự học qua dữ liệu truy vết (replay trace) thay vì dựa vào dữ liệu mẫu thủ công.
Trên benchmark OSWorld (100 bước), UI-TARS-1.5 đạt tỉ lệ thành công 42,5%, vượt OpenAI Operator (36,4%) và Claude 3.7 (28%).
Ở Windows Agent Arena (50 bước), mô hình đạt 42,1%, cao hơn nhiều so với baseline trước đó (29,8%).
Android World: UI-TARS-1.5 đạt 64,2%, cho thấy khả năng tổng quát hóa lên hệ điều hành di động.
ScreenSpot-V2: đạt chính xác 94,2% khi xác định vị trí thành phần GUI, vượt Operator (87,9%) và Claude 3.7 (87,6%).
ScreenSpotPro (benchmark phức tạp hơn): đạt 61,6%, cao hơn Operator (23,4%) và Claude 3.7 (27,7%).
Trong 14 mini-game Poki, UI-TARS-1.5 hoàn thành nhiệm vụ 100%, chứng tỏ khả năng tổng quát hóa và thích ứng với nhiều cơ chế game khác nhau.
Trên Minecraft (MineRL), mô hình đạt 42% thành công nhiệm vụ khai khoáng và 31% nhiệm vụ tiêu diệt mob khi sử dụng module “nghĩ rồi hành động”.
UI-TARS-1.5 phát hành nguồn mở theo giấy phép Apache 2.0, có sẵn trên GitHub, Hugging Face, cùng công cụ desktop hỗ trợ điều khiển tự nhiên bằng ngôn ngữ.
Dự án cung cấp tài liệu chi tiết, dữ liệu truy vết và bộ công cụ đánh giá để hỗ trợ cộng đồng nghiên cứu và phát triển.

📌 UI-TARS-1.5 của ByteDance là AI tạo sinh đa phương tiện nguồn mở, vượt trội về tự động hóa GUI và game với tỉ lệ thành công 42,5% (OSWorld), 64,2% (Android), 100% (Poki Games), vượt xa OpenAI Operator và Claude 3.7. Mô hình tích hợp thị giác-ngôn ngữ, tự học qua replay trace, mở ra tiềm năng lớn cho tự động hóa tương tác phần mềm.

https://www.marktechpost.com/2025/04/21/bytedance-releases-ui-tars-1-5-an-open-source-multimodal-ai-agent-built-upon-a-powerful-vision-language-model/

Không có file đính kèm.

Nguồn tham khảo

254

AI ảnh-video-music-âm thanh OpenAI ChatGPT AI coding assistant 2025-04-24 07:06:44

OpenAI tung API tạo ảnh AI mới: gpt-image-1 giá chỉ từ 0,02 USD

OpenAI vừa mở quyền truy cập API cho công nghệ tạo ảnh AI mới nhất, cho phép lập trình viên tích hợp vào ứng dụng và dịch vụ.
Công nghệ này dựa trên mô hình AI gpt-image-1, vốn là mô hình đa phương thức, có thể tạo hình ảnh theo nhiều phong cách khác nhau, tuân thủ hướng dẫn tùy chỉnh, tận dụng kiến thức thế giới và tạo được cả văn bản trong ảnh.
Tính năng tạo ảnh này từng gây sốt với khả năng tạo ảnh phong cách Ghibli và “AI action figures”, thu hút hàng triệu người dùng mới cho ChatGPT.
Chỉ trong tuần đầu, hơn 130 triệu người dùng ChatGPT đã tạo hơn 700 triệu ảnh.
Qua API, gpt-image-1 cho phép tạo nhiều ảnh cùng lúc, kiểm soát chất lượng (từ đó ảnh hưởng tốc độ tạo ảnh).
OpenAI áp dụng các biện pháp an toàn tương tự như trên ChatGPT, bao gồm kiểm duyệt nội dung, và cho phép lập trình viên điều chỉnh mức độ kiểm duyệt (tự động hoặc thấp hơn).
Ảnh tạo ra đều gắn thủy vân C2PA để nhận diện trên các nền tảng hỗ trợ, giúp xác định nguồn gốc AI.
Giá API: 5 USD/1.000.000 tokens đầu vào cho văn bản, 10 USD/1.000.000 tokens đầu vào cho ảnh, 40 USD/1.000.000 tokens đầu ra cho ảnh; tương đương khoảng 0,02 USD/ảnh chất lượng thấp, 0,07 USD/ảnh trung bình, 0,19 USD/ảnh chất lượng cao.
Các công ty lớn như Adobe, Airtable, Wix, Instacart, GoDaddy, Canva, Figma đã và đang thử nghiệm gpt-image-1; Figma cho phép tạo và chỉnh sửa ảnh ngay trên nền tảng, Instacart dùng cho ảnh công thức và danh sách mua sắm.

📌 OpenAI chính thức mở API tạo ảnh AI gpt-image-1 với giá chỉ từ 0,02 USD/ảnh, kiểm duyệt linh hoạt, thủy vân C2PA, đã có nhiều tên tuổi lớn như Adobe, Canva, Figma, Instacart thử nghiệm, tạo ra hơn 700 triệu ảnh chỉ trong tuần đầu ra mắt.

https://techcrunch.com/2025/04/23/openai-makes-its-upgraded-image-generator-available-to-developers/

Không có file đính kèm.

Nguồn tham khảo

113

AI ảnh-video-music-âm thanh 2025-04-23 23:45:40

Grok của xAI vừa ra mắt tính năng Grok Vision giúp chatbot "nhìn thấy" thế giới qua camera điện thoại

xAI vừa công bố Grok Vision – tính năng mới cho phép Grok chatbot nhận diện đối tượng qua camera điện thoại, tương tự chức năng vision của Gemini (Google) và ChatGPT.
Người dùng iOS có thể truy cập Grok Vision trên ứng dụng Grok; bản Android chưa hỗ trợ chức năng này ở thời điểm hiện tại.
Khi dùng Grok Vision, người dùng hướng camera vào sản phẩm, biển báo, tài liệu… và hỏi chatbot các câu liên quan, giúp tăng tương tác thời gian thực giữa AI với thế giới thực.
Ngoài Grok Vision, xAI đồng thời ra mắt 2 tính năng mới: tìm kiếm thời gian thực (real-time search) và hỗ trợ âm thanh đa ngôn ngữ trong chế độ voice của Grok.
Người dùng Android chỉ có thể dùng những tính năng này nếu đăng ký gói trả phí SuperGrok với giá 30 USD/tháng (khoảng 755.000 VNĐ).
Đầu tháng 4.2025, Grok được bổ sung thêm “memory” – cho phép chatbot lưu lại và sử dụng thông tin từ các cuộc hội thoại trước đây để cải thiện sự liên kết và mang tính cá nhân hóa.
Grok còn có thêm công cụ canvas giúp tạo tài liệu và ứng dụng, nâng cao khả năng xử lý và sáng tạo nội dung cho người dùng.
Các cập nhật này cho thấy tốc độ phát triển nhanh của Grok, đưa AI đến gần hơn với người dùng, đặc biệt là khả năng tương tác đa phương thức giữa hình ảnh-thực tế và ngôn ngữ.

📌 Grok Vision nâng cấp Grok thành chatbot AI vừa có thể nhìn qua camera vừa ghi nhớ hội thoại, với phí SuperGrok 30 USD/tháng. Chỉ người dùng iOS hoặc đăng ký gói cao cấp trên Android mới trải nghiệm được hết các chức năng mới như tạo tài liệu, tìm kiếm thời gian thực và nhận diện hình ảnh.

https://techcrunch.com/2025/04/22/xais-grok-chatbot-can-now-see-the-world-around-it/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI minh bạch AI mở-nguồn mở 2025-04-23 05:54:47

AI video nguồn mở của startup Trung Quốc kiểm duyệt gắt hình ảnh chính trị nhạy cảm

Sand AI, startup AI Trung Quốc, vừa ra mắt mô hình tạo sinh video Magi-1 với giấy phép nguồn mở, được nhiều tên tuổi lớn như Kai-Fu Lee đánh giá cao.
Magi-1 sử dụng cơ chế dự đoán chuỗi khung hình "autoregressive", có khả năng tạo video chất lượng cao, kiểm soát tốt, mô phỏng vật lý chuẩn xác hơn các đối thủ nguồn mở hiện tại.
Mô hình có kích thước khổng lồ 24 tỉ tham số, yêu cầu 4-8 GPU Nvidia H100 để vận hành, khiến phần lớn người dùng phải sử dụng trực tiếp nền tảng của Sand AI thay vì tự chạy.
Hệ thống yêu cầu tải lên 1 hình ảnh làm "prompt" để khởi tạo video, nhưng TechCrunch phát hiện nhiều hình ảnh bị chặn hoàn toàn như: hình của Tập Cận Bình, quảng trường Thiên An Môn, hình Tank Man, cờ Đài Loan, biểu tượng ủng hộ Hồng Kông.
Việc chặn được thực hiện trực tiếp tại cấp độ hình ảnh; đổi tên tệp không giúp vượt qua bộ lọc.
Khi phát hiện hình ảnh bị cấm, nền tảng trả về thông báo lỗi ngay lập tức.
Không chỉ Sand AI, Hailuo AI của MiniMax tại Thượng Hải cũng chặn hình ảnh Tập Cận Bình, nhưng có phần nhẹ tay hơn: cho phép ảnh Thiên An Môn.
Trung Quốc quy định chặt chẽ: luật năm 2023 cấm các mô hình AI tạo ra nội dung "gây hại đến sự thống nhất và hòa hợp xã hội", buộc các công ty phải kiểm duyệt đầu vào bằng filter hoặc tinh chỉnh mô hình.
Ngược lại, các mô hình AI Trung Quốc thường kiểm soát nội dung khiêu dâm kém hơn Mỹ: nhiều nền tảng video AI tại đây vẫn cho phép tạo hình ảnh khỏa thân không đồng thuận, theo trang 404.
Sự kiểm duyệt của Sand AI với nội dung chính trị cho thấy các startup AI Trung Quốc sẵn sàng thắt chặt kiểm soát để tuân thủ luật pháp nội địa, trong khi vẫn theo đuổi phát triển AI nguồn mở cạnh tranh toàn cầu.

📌 Sand AI tung Magi-1, mô hình AI tạo sinh video 24 tỉ tham số, được cộng đồng đánh giá cao nhưng kiểm duyệt chặt chẽ hình ảnh liên quan đến Tập Cận Bình, Thiên An Môn, Hồng Kông... nhằm tuân thủ luật thông tin Trung Quốc (ban hành 2023), vượt trội về mức độ kiểm soát so với các đối thủ trong nước.

https://techcrunch.com/2025/04/22/a-chinese-ai-video-startup-appears-to-be-blocking-politically-sensitive-images/

Không có file đính kèm.

Nguồn tham khảo

107

AI ảnh-video-music-âm thanh AI công nghiệp-lĩnh vực 2025-04-22 03:01:48

AI tạo sinh đang thay đổi ngành kiến trúc: vẽ nên những hình khối mới, phá vỡ giới hạn vật lý

AI tạo sinh không chỉ vẽ tranh, soạn nhạc, làm video mà còn mở ra hướng mới cho kiến trúc – nơi AI giúp sản sinh những hình khối, ý tưởng chưa từng tồn tại trong thế giới vật lý.
Triển lãm "Transductions" tại Pratt Institute (Brooklyn) quy tụ hơn 30 tác giả, tập trung vào khả năng thử nghiệm, tạo sinh và hợp tác giữa AI và kiến trúc, kéo dài nghiên cứu hơn 10 năm – từ trước khi AI phát triển bùng nổ như hiện nay.
Các tác phẩm thể hiện sự phối hợp giữa diễn ngôn kiến trúc, kỹ thuật, định dạng và phương tiện truyền thông: hình ảnh, văn bản, hoạt hình, media thực tế hỗn hợp, sản xuất chế tạo vật lý.
Mục tiêu của triển lãm không phải xây dựng công trình thật mà nhấn mạnh giai đoạn đầu của sự kết hợp giữa kiến trúc và AI, nơi các ý tưởng còn "trên giấy", tiếp tục vượt qua giới hạn truyền thống do vật lý áp đặt.
Từ những năm 1963, công nghệ (như Sketchpad) đã hỗ trợ kiến trúc sư chuyển từ vẽ tay sang các phần mềm mạnh như Revit, SketchUp, BIM… giúp tối ưu bản vẽ, phân tích năng lượng, xây dựng bền vững và tuân thủ tiêu chuẩn.
Kiến trúc sư Jason Vigneri-Beane khẳng định AI chỉ là công cụ mới chứ không thay thế nghề kiến trúc. Việc sử dụng AI đòi hỏi thời gian và khả năng ngôn ngữ, trực quan chuyên sâu để đạt được kết quả thật sự giá trị.
Olivia Vien nhận định AI là phương tiện cực kỳ mạnh cho sáng tạo, nhưng không phải toàn bộ tương lai của ngành – nó mở rộng truyền thống các phương tiện biểu đạt và tạo ý tưởng cho kiến trúc sư.

📌 AI tạo sinh đang mở ra không gian sáng tạo vượt qua mọi giới hạn vật lý trong kiến trúc. Hơn 30 tác giả tại triển lãm "Transductions" chứng minh AI là công cụ bổ sung mạnh mẽ, giúp sinh ra ý tưởng mới, không thay thế nghề kiến trúc mà tạo ra đột phá về hình thức lẫn tư duy thiết kế.

https://www.technologyreview.com/2025/04/21/1114764/ai-artificial-intelligence-architecture-building/

#MIT

Không có file đính kèm.

Nguồn tham khảo

181

AI ảnh-video-music-âm thanh 2025-04-22 02:29:16

Sốt trào lưu tạo hình Chibi AI "siêu cute" trên ChatGPT 4o kèm nguy cơ bảo mật và môi trường

Một xu hướng mới nổi trên mạng là tạo Chibi figure (tượng nhân vật nhỏ xinh phong cách anime) bằng AI tạo sinh (cụ thể là ChatGPT 4o), thu hút đông đảo người dùng thử nghiệm vì sự dễ thương và cá nhân hóa.
Chibi là từ lóng tiếng Nhật, mô tả các nhân vật nhỏ, đầu to, mắt to, thân hình "tí hon", thường được yêu thích nhờ sự dễ thương và phổ biến tương tự như Funko Pop!.
Giá một figure Chibi thật dao động từ 9,99 USD (khoảng 250.000 VNĐ) đến hơn 100 USD (khoảng 2.500.000 VNĐ), nhưng nay có thể tự tạo miễn phí bằng AI.
Người dùng chỉ cần một ảnh rõ nét, màu sắc tốt, lộ rõ khuôn mặt và trang phục, tải lên ChatGPT 4o là có thể sinh ra Chibi figure nằm trong viên “gashapon” – loại capsule nhựa thường thấy trong máy bán đồ chơi tự động Nhật Bản.
Prompt tiêu biểu: Yêu cầu AI tạo ảnh viên capsule thủy tinh và bên trong chứa figure Chibi nhỏ mô phỏng giống hệt người trên ảnh, từ gương mặt, kiểu tóc đến trang phục và tư thế tạo dáng.
Here's the prompt I used in ChatGPT Plus 4o:
Generate a portrait-oriented image of a realistic, full-glass gashapon capsule being held between two fingers.

Inside the capsule is a Chibi-style, full-figure miniature version of the person in the uploaded photo.

The Chibi figure should:
- Closely resemble the person in the photo (face, hairstyle, etc.)
- Wear the same outfit as seen in the uploaded photo
- Be in a pose inspired by the chosen theme
Hình Chibi tạo ra thường không có nền nhận diện, không phụ kiện, nên chủ yếu là phục trang và ngoại hình nhân vật.
Phóng viên đã thử tạo nhiều nhân vật: dựa theo ảnh bản thân, ảnh Brad Pitt và ảnh Mr. Rogers. Kết quả: hình Chibi rất dễ thương, nhưng độ giống thật (verisimilitude) chưa cao. Mr. Rogers bản Chibi vẫn là lựa chọn yêu thích dù chưa chuẩn so với gốc.
Lưu ý về bảo mật: Ảnh tải lên sẽ lưu trên server OpenAI và có thể bị dùng để huấn luyện mô hình tương lai, nên cần cân nhắc khi chia sẻ hình cá nhân.
Tác động môi trường: Việc dùng AI tạo sinh tiêu tốn điện năng lớn tại phía máy chủ, nên nếu tạo nhiều Chibi có thể cân nhắc trồng cây để bù đắp.

📌 Trào lưu tạo Chibi figure AI trên ChatGPT 4o đang gây bão với khả năng mô phỏng nhân vật siêu dễ thương, cá nhân hóa và miễn phí. Tuy nhiên, ngoài sự vui nhộn, người dùng nên cân nhắc rủi ro về bảo mật dữ liệu cá nhân cũng như tác động môi trường từ AI tạo sinh.

https://www.techradar.com/computing/artificial-intelligence/new-ai-chibi-figure-trend-may-be-the-cutest-one-yet-and-were-all-doomed-to-waste-time-and-energy-making-these-things

Không có file đính kèm.

Nguồn tham khảo

AI doanh nghiệp AI ảnh-video-music-âm thanh 2025-04-21 20:48:14

Xây dựng “LLM for Leadership”: Dùng AI ghi lại, tổ chức và khai thác giá trị các cuộc họp lãnh đạo

Hầu hết doanh nghiệp đầu tư lớn vào các cuộc họp lãnh đạo, nhưng hệ thống ghi chú, lưu trữ và khai thác thông tin còn yếu kém, gây lãng phí nguồn tri thức và ảnh hưởng tốc độ phát triển.
Nhiều người ghi chú bằng sổ tay, Remarkable tablet hoặc laptop, nhưng hiếm khi tận dụng lại các ý tưởng, quyết định quan trọng từ các cuộc họp.
Dẫn lời CEO Read AI: Khi các lãnh đạo dành nửa ngày họp mà vẫn phụ thuộc vào trí nhớ, doanh nghiệp vận hành kiểu “Snapchat”, thông tin dễ mất và khó hành động.
Các tổ chức dùng cuộc họp làm nơi ra quyết định chính nhưng lại thất bại trong việc chuyển đổi tri thức thành tài sản tổ chức, gây hiệu ứng “kẹt” thông tin ở mọi tầng lớp.
Giải pháp đề xuất là xây dựng một hệ thống “LLM for Leadership” – ứng dụng AI tạo sinh và Agentic AI để biến mọi cuộc họp thành dữ liệu truy xuất, tìm kiếm, tổng hợp và tạo ra hệ thống kiến thức chung.
CEO Descript và Read AI đều nhấn mạnh vai trò của việc xây dựng “single source of truth”, tích hợp văn hóa vào tài liệu nội bộ, và tận dụng AI để tổ chức, tổng hợp, truy xuất tri thức.
Đề xuất thực tiễn: Kết thúc mỗi buổi họp, dành 5-10 phút hỏi: đã quyết điều gì, ai làm gì, hạn cuối, và ai cần biết? Sau đó, đưa ghi chú vào nền tảng AI để quản lý, truy xuất thông tin.
AI có thể tự động tổng hợp biên bản, viết agenda, trả lời câu hỏi qua chat, càng dùng dữ liệu càng phong phú và chính xác.
Read AI trình bày cách tối ưu hóa thời lượng, thành phần cuộc họp dựa trên dữ liệu thực tế, giảm họp không cần thiết, chuyển thông tin sang kênh phi tập trung để xây dựng kho tri thức tìm kiếm hiệu quả.
Doanh nghiệp áp dụng LLM for Leadership sẽ đẩy mạnh minh bạch, tăng tốc ra quyết định, giảm lãng phí thời gian, nâng cao sáng tạo và sự tin cậy trong nội bộ.

📌 Nhiều công ty đang lãng phí “trí tuệ hội họp” vì chưa khai thác tối ưu thông qua AI. Xây dựng “LLM for Leadership” giúp tổ chức biến mọi cuộc họp thành tài sản tri thức truy xuất, tăng tốc ra quyết định và minh bạch, là xu thế tất yếu của tương lai doanh nghiệp thông minh.

https://www.geekwire.com/2025/companies-can-leverage-the-true-value-of-meetings-with-ai-by-building-an-llm-for-leadership/

Không có file đính kèm.

Nguồn tham khảo

109

AI so sánh AI ảnh-video-music-âm thanh 2025-04-21 01:32:14

ChatGPT 4o đè bẹp Midjourney V7 trong cuộc đối đầu Ảnh AI

Hai công cụ AI hàng đầu về tạo hình ảnh – ChatGPT 4o và Midjourney V7 – được thử sức với 7 đề bài đa dạng gồm: ảnh chân thực, cảnh phức tạp, chuyển phong cách chân dung, poster phim, poster ban nhạc, chi tiết bàn tay, món ăn.
Đề bài 1 (ảnh chân thực): ChatGPT tạo ảnh chú chim puffin gần như hoàn hảo, đúng ngữ cảnh và chi tiết; Midjourney tạo ra hình ảnh chim khổng lồ, bỏ lỡ tiêu chí chân thực.
Đề bài 2 (cảnh phức tạp): ChatGPT tái tạo đầy đủ các chi tiết phức tạp của khu chợ, người, hoạt động, vật thể; Midjourney gặp sự cố ở chi tiết nhỏ, hình nền mờ, bộ phận cơ thể không hoàn chỉnh.
Đề bài 3 (chuyển phong cách): ChatGPT chuyển ảnh thành chân dung theo phong cách Phục hưng cực kỳ sát đề, giữ trọn vẹn chi tiết cá nhân. Midjourney không hiện thực hóa trọn vẹn ý tưởng, xử lý phong cách chưa tinh tế.
Đề bài 4 (poster phim khoa học viễn tưởng): ChatGPT đảm bảo các yếu tố trong yêu cầu, tạo hình nhân vật và bối cảnh logic, chi tiết tốt. Midjourney có bố cục đẹp nhưng nhiều lỗi mờ, chi tiết nhân vật bị lỗi.
Đề bài 5 (poster có chữ): ChatGPT xử lý chữ hoàn chỉnh, nội dung đúng yêu cầu kịch bản, tuy hình ảnh hơi "an toàn". Midjourney không thể xử lý văn bản đầy đủ, chữ khó đọc hoặc biến dạng.
Đề bài 6 (bàn tay): Midjourney cho chất lượng hình ảnh tay ấn tượng, chi tiết như thật, chỉ lỗi nhỏ về tư thế cầm cam. ChatGPT tiến bộ rõ nét, nhưng bàn tay vẫn lộ dấu hiệu AI.
Đề bài 7 (món ăn): Cả hai đều tạo hình ảnh món pasta hải sản xuất sắc, ChatGPT nhỉnh hơn về độ sắc nét và chất lượng tổng thể.
Kết quả: ChatGPT thắng tuyệt đối trong 6/7 thử nghiệm nhờ khả năng hiểu ngữ cảnh, chi tiết và thực thi yêu cầu, còn Midjourney chỉ thắng ở đề bài bàn tay nhờ thể hiện chi tiết ấn tượng hơn.
Midjourney V7 vẫn ở giai đoạn thử nghiệm, còn ChatGPT 4o mới ra mắt chưa đầy 2 tuần, báo hiệu cuộc cạnh tranh AI tạo sinh ảnh sẽ còn nhiều thay đổi.

📌 ChatGPT 4o vượt trội Midjourney V7 khi thắng 6/7 đề thi thực tế, nổi bật ở khả năng hiểu ngữ cảnh, xử lý chi tiết và độ chân thực. Midjourney chỉ nhỉnh hơn ở chi tiết bàn tay, còn lại thua về mọi mặt. Cuộc đua AI tạo hình vẫn tiếp tục hấp dẫn!

https://www.tomsguide.com/ai/i-tested-chatgpt-vs-midjourney-v7-with-seven-prompts-it-wasnt-even-close

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh 2025-04-17 06:27:42

AI xâm chiếm âm nhạc: Robot có thể sáng tác ca khúc làm bạn rơi nước mắt, ai mới là nghệ sĩ thật sự?

Công nghệ AI tạo sinh, đặc biệt là mô hình khuếch tán, nay đã có khả năng tạo ra bài hát hoàn chỉnh chỉ từ một đoạn mô tả, làm thay đổi căn bản khái niệm về sáng tạo và quyền tác giả trong âm nhạc.
Mô hình khuếch tán hoạt động bằng cách biến đổi nhiễu ngẫu nhiên thành các mẫu sóng âm có ý nghĩa, cho phép sinh ra nhạc có thể đánh lừa cả những người nghe tinh tường.
Hai công ty dẫn đầu lĩnh vực này là Suno (12 triệu người dùng, gọi vốn 125 triệu USD vào 05/2024) và Udio (gọi vốn 10 triệu USD vào 04/2024). Nhiều sản phẩm nhạc AI đã được tải lên các nền tảng, với người tạo là các "propmter" chứ không phải nhạc sĩ truyền thống.
Các hãng thu âm lớn như Universal và Sony kiện Suno, Udio vào 06/2024, cáo buộc họ sử dụng dữ liệu nhạc có bản quyền trên phạm vi "không tưởng", tạo ra các bản sao gần như thật.
Mô hình AI không “sáng tác” tuần tự mà tạo toàn bộ bản nhạc cùng lúc, dựa trên kho dữ liệu khổng lồ gồm hàng triệu đoạn nhạc được gán nhãn chi tiết (thể loại, tâm trạng, kỹ thuật hòa âm...).
Luật bản quyền Mỹ tạm thời cho phép tác phẩm AI được công nhận nếu có sự can thiệp đáng kể của con người, mở ra cuộc đua tranh pháp lý giữa sáng tạo thực sự và “sao chép” máy móc.
Thử nghiệm thực tế cho thấy người nghe khó phân biệt nhạc AI và nhạc người sáng tác, đặc biệt ở thể loại không lời. Đa số chỉ đúng 46% khi đoán bài hát do AI tạo ra.
Dù AI có thể tạo nhạc "rất thật", nhưng thiếu sự bất ngờ, khác thường kiểu nhân loại (ví dụ: cú twist trong giao hưởng của Beethoven). Nghệ sĩ thường “phóng đại điểm dị biệt”, điều mà máy học chủ yếu giảm sai số nên khó đạt được.
Các hệ thống AI phải liên tục học từ nhạc do người sáng tạo, nếu không sẽ tụt hậu và thiếu cập nhật.
Câu hỏi then chốt: liệu khán giả có còn trân trọng nhạc nếu biết do máy sáng tác? Kết quả thử nghiệm cho thấy nhiều người phản đối, dù cảm xúc vẫn bị nhạc AI chi phối.

📌 AI đang làm mờ ranh giới sáng tạo giữa người và máy trong âm nhạc: Suno và Udio mở rộng quy mô, mô hình khuếch tán tái tạo nhạc khó phân biệt với nhạc con người, gây tranh cãi pháp lý về bản quyền và định nghĩa nghệ sĩ, khi chỉ 46% người nghe phân biệt được nhạc AI.

https://www.technologyreview.com/2025/04/16/1114433/ai-artificial-intelligence-music-diffusion-creativity-songs-writer/
#MIT

AI đang tiến vào lĩnh vực âm nhạc

Các mô hình AI khuếch tán mới tạo ra bài hát từ đầu đang làm phức tạp định nghĩa của chúng ta về quyền tác giả và sáng tạo con người.

Tác giả: James O'Donnellarchive Ngày 16 tháng 4 năm 2025

Trí tuệ nhân tạo hầu như chưa phải là một thuật ngữ vào năm 1956, khi các nhà khoa học hàng đầu từ lĩnh vực điện toán đến Đại học Dartmouth cho một hội nghị mùa hè. Nhà khoa học máy tính John McCarthy đã đặt ra cụm từ này trong đề xuất tài trợ cho sự kiện, một cuộc họp để nghiên cứu cách xây dựng máy móc có thể sử dụng ngôn ngữ, giải quyết vấn đề như con người và tự cải thiện. Đó là một lựa chọn tốt, một cụm từ đã nắm bắt tiền đề nền tảng của người tổ chức: Bất kỳ tính năng nào của trí thông minh con người đều có thể "về nguyên tắc được mô tả chính xác đến mức một cỗ máy có thể được tạo ra để mô phỏng nó."

Trong đề xuất của họ, nhóm đã liệt kê một số "khía cạnh của vấn đề trí tuệ nhân tạo." Mục cuối cùng trong danh sách của họ, và nhìn lại có lẽ là khó khăn nhất, là xây dựng một cỗ máy có thể thể hiện sự sáng tạo và tính nguyên bản.

Vào thời điểm đó, các nhà tâm lý học đang đấu tranh với việc định nghĩa và đo lường sự sáng tạo ở con người. Lý thuyết phổ biến - cho rằng sự sáng tạo là sản phẩm của trí thông minh và chỉ số IQ cao - đang mờ nhạt, nhưng các nhà tâm lý học không chắc chắn nên thay thế nó bằng gì. Những người tổ chức Dartmouth có một ý tưởng riêng. "Sự khác biệt giữa tư duy sáng tạo và tư duy có năng lực kém tưởng tượng nằm ở việc đưa vào một số yếu tố ngẫu nhiên," họ viết, thêm rằng sự ngẫu nhiên đó "phải được dẫn dắt bởi trực giác để có hiệu quả."

Gần 70 năm sau, sau một số chu kỳ bùng nổ và suy thoái trong lĩnh vực này, chúng ta hiện có các mô hình AI ít nhiều tuân theo công thức đó. Trong khi các mô hình ngôn ngữ lớn tạo ra văn bản đã bùng nổ trong ba năm qua, một loại AI khác, dựa trên cái gọi là mô hình khuếch tán, đang có tác động chưa từng có đến các lĩnh vực sáng tạo. Bằng cách biến đổi nhiễu ngẫu nhiên thành các mẫu mạch lạc, các mô hình khuếch tán có thể tạo ra hình ảnh, video hoặc giọng nói mới, được hướng dẫn bởi các gợi ý văn bản hoặc dữ liệu đầu vào khác. Những mô hình tốt nhất có thể tạo ra các đầu ra không thể phân biệt được với công việc của con người, cũng như các kết quả kỳ lạ, siêu thực có cảm giác khác biệt phi nhân loại.

Giờ đây, các mô hình này đang tiến vào một lĩnh vực sáng tạo có lẽ dễ bị gián đoạn hơn bất kỳ lĩnh vực nào khác: âm nhạc. Các tác phẩm sáng tạo do AI tạo ra - từ buổi biểu diễn dàn nhạc đến nhạc heavy metal - sẵn sàng thâm nhập vào cuộc sống của chúng ta triệt để hơn bất kỳ sản phẩm nào khác của AI từng làm trước đây. Các bài hát có khả năng hòa lẫn vào nền tảng phát trực tuyến, danh sách phát cho bữa tiệc và đám cưới, nhạc nền và nhiều thứ khác của chúng ta, cho dù chúng ta có nhận thấy ai (hoặc cái gì) đã tạo ra chúng hay không.

Trong nhiều năm, các mô hình khuếch tán đã khuấy động cuộc tranh luận trong thế giới nghệ thuật thị giác về việc liệu những gì chúng tạo ra có phản ánh sự sáng tạo thực sự hay chỉ đơn thuần là sự sao chép. Giờ đây, cuộc tranh luận này đã đến với âm nhạc, một hình thức nghệ thuật gắn bó sâu sắc với trải nghiệm, ký ức và đời sống xã hội của chúng ta. Các mô hình âm nhạc hiện nay có thể tạo ra những bài hát có khả năng gợi ra những phản ứng cảm xúc thực sự, đưa ra một ví dụ rõ ràng về việc định nghĩa quyền tác giả và tính nguyên bản trong thời đại AI đang trở nên khó khăn như thế nào.

Các tòa án đang tích cực giải quyết lãnh thổ mơ hồ này. Các hãng thu âm lớn đang kiện các công cụ tạo nhạc AI hàng đầu, cáo buộc rằng các mô hình khuếch tán làm ít hơn việc sao chép nghệ thuật của con người mà không bồi thường cho các nghệ sĩ. Các nhà sản xuất mô hình phản bác rằng công cụ của họ được tạo ra để hỗ trợ sáng tạo của con người.

Khi quyết định ai đúng, chúng ta buộc phải suy nghĩ kỹ về sự sáng tạo của chính con người. Sự sáng tạo, dù trong mạng thần kinh nhân tạo hay sinh học, có phải chỉ đơn giản là kết quả của việc học thống kê rộng lớn và các kết nối được rút ra, với một chút ngẫu nhiên? Nếu vậy, thì quyền tác giả là một khái niệm không rõ ràng. Nếu không - nếu có một yếu tố đặc biệt của con người đối với sự sáng tạo - thì đó là gì? Điều gì có nghĩa là bị lay động bởi điều gì đó mà không có người sáng tạo là con người? Tôi đã phải đấu tranh với những câu hỏi này lần đầu tiên khi nghe một bài hát do AI tạo ra thực sự tuyệt vời - thật khó chịu khi biết rằng ai đó chỉ viết một gợi ý và nhấp vào "Tạo". Tình huống khó xử đó sắp đến với bạn.

Tạo kết nối

Sau hội nghị Dartmouth, những người tham gia đã đi theo các hướng nghiên cứu khác nhau để tạo ra các công nghệ nền tảng của AI. Đồng thời, các nhà khoa học nhận thức đang theo dõi lời kêu gọi năm 1950 của J.P. Guilford, chủ tịch Hiệp hội Tâm lý học Hoa Kỳ, để giải quyết câu hỏi về sự sáng tạo ở con người. Họ đã đi đến một định nghĩa, được Morris Stein chính thức hóa lần đầu tiên vào năm 1953 trong Tạp chí Tâm lý học: Các tác phẩm sáng tạo vừa mới lạ, có nghĩa là chúng trình bày điều gì đó mới, vừa hữu ích, có nghĩa là chúng phục vụ một số mục đích cho ai đó. Một số người đã kêu gọi thay thế "hữu ích" bằng "thỏa mãn", và những người khác đã đưa ra một tiêu chí thứ ba: rằng những điều sáng tạo cũng gây bất ngờ.

Sau đó, vào những năm 1990, sự ra đời của chụp cộng hưởng từ chức năng đã làm cho việc nghiên cứu thêm về các cơ chế thần kinh cơ bản của sự sáng tạo trong nhiều lĩnh vực, bao gồm cả âm nhạc, trở nên khả thi. Các phương pháp tính toán trong những năm gần đây cũng giúp dễ dàng hơn trong việc lập bản đồ vai trò mà trí nhớ và tư duy liên tưởng đóng trong các quyết định sáng tạo.

Điều xuất hiện ít là một lý thuyết thống nhất về cách một ý tưởng sáng tạo bắt nguồn và diễn ra trong não, mà là một danh sách các quan sát mạnh mẽ ngày càng tăng. Trước tiên, chúng ta có thể chia quá trình sáng tạo của con người thành các giai đoạn, bao gồm bước đề xuất ý tưởng, sau đó là bước đánh giá và phê bình hơn để tìm ra giá trị trong ý tưởng. Một lý thuyết hàng đầu về những gì hướng dẫn hai giai đoạn này được gọi là lý thuyết liên tưởng về sự sáng tạo, lý thuyết này cho rằng những người sáng tạo nhất có thể hình thành các kết nối mới giữa các khái niệm xa nhau.

"Nó có thể giống như sự hoạt hóa lan truyền," Roger Beaty, một nhà nghiên cứu dẫn đầu Phòng thí nghiệm Khoa học thần kinh nhận thức về Sáng tạo tại Đại học Bang Penn cho biết. "Bạn nghĩ về một điều; nó chỉ kích hoạt các khái niệm liên quan đến bất kỳ khái niệm nào đó."

Những kết nối này thường dựa đặc biệt vào bộ nhớ ngữ nghĩa, lưu trữ các khái niệm và sự kiện, trái ngược với bộ nhớ biểu tượng, lưu trữ ký ức từ một thời gian và địa điểm cụ thể. Gần đây, các mô hình tính toán phức tạp hơn đã được sử dụng để nghiên cứu cách mọi người tạo kết nối giữa các khái niệm trên "khoảng cách ngữ nghĩa" lớn. Ví dụ, từ "tận thế" có liên quan chặt chẽ hơn đến "năng lượng hạt nhân" so với "lễ kỷ niệm". Các nghiên cứu đã chỉ ra rằng những người có tính sáng tạo cao có thể nhận thức các khái niệm rất khác biệt về mặt ngữ nghĩa là gần nhau. Người ta phát hiện ra rằng các nghệ sĩ tạo ra những liên tưởng từ ngữ trên khoảng cách lớn hơn so với những người không phải nghệ sĩ. Nghiên cứu khác đã hỗ trợ ý tưởng rằng những người sáng tạo có sự chú ý "rò rỉ" - nghĩa là họ thường chú ý đến thông tin có thể không đặc biệt liên quan đến nhiệm vụ trước mắt của họ.

Các phương pháp khoa học thần kinh để đánh giá các quá trình này không cho thấy rằng sự sáng tạo diễn ra trong một khu vực cụ thể của não. "Không có gì trong não tạo ra sự sáng tạo giống như một tuyến tiết ra một hormone," Dean Keith Simonton, một nhà lãnh đạo trong nghiên cứu sáng tạo, đã viết trong Sổ tay Cambridge về Khoa học thần kinh của Sáng tạo.

Bằng chứng thay vào đó chỉ ra một vài mạng lưới hoạt động phân tán trong quá trình suy nghĩ sáng tạo, Beaty nói - một để hỗ trợ việc tạo ra ý tưởng ban đầu thông qua tư duy liên tưởng, một khác liên quan đến việc xác định ý tưởng hứa hẹn, và một khác nữa để đánh giá và sửa đổi. Một nghiên cứu mới, do các nhà nghiên cứu tại Trường Y Harvard dẫn đầu và được công bố vào tháng 2, cho thấy rằng sự sáng tạo thậm chí có thể liên quan đến việc ức chế các mạng não cụ thể, như những mạng liên quan đến tự kiểm duyệt.

Cho đến nay, sự sáng tạo của máy - nếu bạn có thể gọi nó như vậy - có vẻ khá khác biệt. Mặc dù vào thời điểm hội nghị Dartmouth, các nhà nghiên cứu AI quan tâm đến máy móc lấy cảm hứng từ não người, trọng tâm đó đã thay đổi vào thời điểm các mô hình khuếch tán được phát minh, khoảng một thập kỷ trước.

Manh mối tốt nhất về cách chúng hoạt động nằm trong tên gọi. Nếu bạn nhúng một cây cọ sơn đầy mực đỏ vào một lọ thủy tinh nước, mực sẽ khuếch tán và xoáy vào nước dường như ngẫu nhiên, cuối cùng tạo ra một chất lỏng màu hồng nhạt. Các mô hình khuếch tán mô phỏng quá trình này ngược lại, tái tạo các hình thức dễ đọc từ sự ngẫu nhiên.

Để hiểu cách điều này hoạt động đối với hình ảnh, hãy tưởng tượng một bức ảnh về một con voi. Để huấn luyện mô hình, bạn tạo một bản sao của bức ảnh, thêm một lớp nhiễu đen trắng ngẫu nhiên lên trên. Tạo bản sao thứ hai và thêm nhiều hơn một chút, và cứ tiếp tục hàng trăm lần cho đến khi hình ảnh cuối cùng là nhiễu thuần túy, không thấy con voi. Đối với mỗi hình ảnh ở giữa, một mô hình thống kê dự đoán bao nhiêu trong hình ảnh là nhiễu và bao nhiêu thực sự là con voi. Nó so sánh những đoán của mình với câu trả lời đúng và học hỏi từ những sai lầm của mình. Qua hàng triệu ví dụ như vậy, mô hình ngày càng giỏi hơn trong việc "khử nhiễu" hình ảnh và kết nối các mẫu này với các mô tả như "voi đực Borneo trên một cánh đồng mở."

Giờ đây khi đã được huấn luyện, việc tạo ra một hình ảnh mới có nghĩa là đảo ngược quy trình này. Nếu bạn đưa cho mô hình một gợi ý, như "một con đười ươi hạnh phúc trong một khu rừng rêu phong", nó tạo ra một hình ảnh nhiễu trắng ngẫu nhiên và làm việc ngược lại, sử dụng mô hình thống kê của nó để loại bỏ các bit nhiễu từng bước một. Lúc đầu, các hình dạng và màu sắc thô xuất hiện. Chi tiết đến sau, và cuối cùng (nếu nó hoạt động) một con đười ươi xuất hiện, tất cả mà không cần mô hình "biết" đười ươi là gì.

Hình ảnh âm nhạc

Cách tiếp cận hoạt động tương tự đối với âm nhạc. Một mô hình khuếch tán không "sáng tác" một bài hát theo cách một ban nhạc có thể, bắt đầu với các hợp âm piano và thêm giọng hát và trống. Thay vào đó, tất cả các yếu tố được tạo ra cùng một lúc. Quá trình này dựa trên thực tế là nhiều phức tạp của một bài hát có thể được mô tả trực quan trong một dạng sóng duy nhất, đại diện cho biên độ của sóng âm được vẽ theo thời gian.

Hãy nghĩ về một máy hát đĩa. Bằng cách di chuyển dọc theo một rãnh trong một miếng vinyl, một cây kim bắt chước đường đi của sóng âm được khắc trong vật liệu và truyền nó thành tín hiệu cho loa. Loa chỉ đơn giản đẩy không khí ra theo những mẫu này, tạo ra sóng âm truyền tải toàn bộ bài hát.

Từ xa, một dạng sóng có thể trông như thể nó chỉ theo dõi âm lượng của một bài hát. Nhưng nếu bạn phóng to đủ gần, bạn có thể thấy các mẫu trong các đỉnh và thung lũng, như 49 sóng mỗi giây cho một cây guitar bass chơi nốt G thấp. Một dạng sóng chứa tổng hợp của tần số của tất cả các nhạc cụ và kết cấu khác nhau. "Bạn thấy một số hình dạng nhất định bắt đầu xuất hiện," David Ding, đồng sáng lập công ty âm nhạc AI Udio, nói, "và điều đó phần nào tương ứng với ý thức giai điệu rộng."

Vì dạng sóng, hoặc các biểu đồ tương tự được gọi là phổ đồ, có thể được coi như hình ảnh, bạn có thể tạo một mô hình khuếch tán từ chúng. Một mô hình được cung cấp hàng triệu đoạn clip của các bài hát hiện có, mỗi bài được gắn nhãn với một mô tả. Để tạo ra một bài hát mới, nó bắt đầu với nhiễu ngẫu nhiên thuần túy và làm việc ngược lại để tạo ra một dạng sóng mới. Con đường nó thực hiện để làm điều này được định hình bởi những từ mà ai đó đưa vào gợi ý.

Ding đã làm việc tại Google DeepMind trong 5 năm với tư cách là kỹ sư nghiên cứu cấp cao về các mô hình khuếch tán cho hình ảnh và video, nhưng anh đã rời đi để thành lập Udio, có trụ sở tại New York, vào năm 2023. Công ty và đối thủ cạnh tranh Suno, có trụ sở tại Cambridge, Massachusetts, hiện đang dẫn đầu cuộc đua cho các mô hình tạo nhạc. Cả hai đều nhằm mục đích xây dựng các công cụ AI cho phép những người không phải nhạc sĩ tạo nhạc. Suno lớn hơn, tuyên bố có hơn 12 triệu người dùng, và huy động được vòng gọi vốn 125 triệu USD vào tháng 5 năm 2024. Công ty đã hợp tác với các nghệ sĩ bao gồm Timbaland. Udio đã huy động được vòng gọi vốn hạt giống 10 triệu USD vào tháng 4 năm 2024 từ các nhà đầu tư nổi tiếng như Andreessen Horowitz cũng như các nhạc sĩ Will.i.am và Common.

Kết quả của Udio và Suno cho đến nay cho thấy có một lượng khán giả đáng kể có thể không quan tâm liệu âm nhạc họ nghe có được làm bởi con người hay máy móc. Suno có các trang nghệ sĩ cho những người sáng tạo, một số có lượng theo dõi lớn, những người tạo ra bài hát hoàn toàn bằng AI, thường đi kèm với hình ảnh nghệ sĩ được tạo ra bởi AI. Những người sáng tạo này không phải là nhạc sĩ theo nghĩa thông thường mà là những người gợi ý có kỹ năng, tạo ra tác phẩm không thể gán cho một nhà soạn nhạc hoặc ca sĩ duy nhất. Trong không gian mới nổi này, các định nghĩa thông thường của chúng ta về quyền tác giả - và ranh giới giữa sáng tạo và sao chép - gần như tan biến.

Ngành công nghiệp âm nhạc đang đẩy lùi. Cả hai công ty đều bị các hãng thu âm lớn kiện vào tháng 6 năm 2024, và các vụ kiện vẫn đang tiếp diễn. Các hãng, bao gồm Universal và Sony, cáo buộc rằng các mô hình AI đã được huấn luyện trên âm nhạc có bản quyền "ở quy mô gần như không thể tưởng tượng được" và tạo ra các bài hát "bắt chước các phẩm chất của bản ghi âm thanh con người thực sự" (vụ kiện chống lại Suno trích dẫn một bài hát gần với ABBA có tên là "Prancing Queen", ví dụ).

Suno không phản hồi yêu cầu bình luận về vụ kiện, nhưng trong một tuyên bố đáp lại vụ việc được đăng trên blog của Suno vào tháng 8, CEO Mikey Shulman nói rằng công ty huấn luyện trên âm nhạc tìm thấy trên internet mở, "thực sự chứa các tài liệu có bản quyền." Nhưng, ông lập luận, "học tập không phải là vi phạm."

Một đại diện từ Udio nói rằng công ty sẽ không bình luận về vụ kiện đang chờ xử lý. Vào thời điểm vụ kiện, Udio đã phát hành một tuyên bố đề cập rằng mô hình của họ có các bộ lọc để đảm bảo rằng nó "không tái tạo các tác phẩm có bản quyền hoặc giọng nói của nghệ sĩ."

Làm phức tạp vấn đề hơn nữa là hướng dẫn từ Văn phòng Bản quyền Hoa Kỳ, được phát hành vào tháng 1, cho biết các tác phẩm do AI tạo ra có thể được cấp bản quyền nếu chúng liên quan đến một lượng đáng kể đầu vào của con người. Một tháng sau, một nghệ sĩ ở New York đã nhận được có thể là bản quyền đầu tiên cho một tác phẩm nghệ thuật thị giác được tạo ra với sự trợ giúp của AI. Bài hát đầu tiên có thể là tiếp theo.

Tính mới lạ và bắt chước

Các vụ kiện pháp lý này lội vào một khu vực xám tương tự với khu vực được khám phá bởi các trận chiến tòa án khác đang diễn ra trong AI. Vấn đề ở đây là liệu việc huấn luyện các mô hình AI trên nội dung có bản quyền có được phép hay không, và liệu các bài hát được tạo ra có sao chép phong cách của một nghệ sĩ con người một cách không công bằng hay không.

Nhưng âm nhạc AI có khả năng sẽ phát triển dưới một số hình thức bất kể các quyết định của tòa án này; YouTube được cho là đã đàm phán với các hãng lớn để cấp phép âm nhạc của họ cho việc huấn luyện AI, và việc mở rộng gần đây các thỏa thuận của Meta với Universal Music Group cho thấy rằng việc cấp phép cho âm nhạc do AI tạo ra có thể nằm trên bàn.

Nếu âm nhạc AI là để tồn tại, liệu bất kỳ bài hát nào trong số đó có tốt không? Hãy xem xét ba yếu tố: dữ liệu huấn luyện, chính mô hình khuếch tán và việc gợi ý. Mô hình chỉ có thể tốt như thư viện âm nhạc mà nó học từ đó và các mô tả về âm nhạc đó, phải phức tạp để nắm bắt nó tốt. Kiến trúc của một mô hình sau đó xác định mức độ tốt của nó có thể sử dụng những gì đã được học để tạo ra bài hát. Và gợi ý bạn đưa vào mô hình - cũng như mức độ mà mô hình "hiểu" ý bạn khi nói "hạ thấp saxophone đó," ví dụ - cũng rất quan trọng.

Liệu kết quả là sự sáng tạo hay đơn giản chỉ là sao chép dữ liệu huấn luyện? Chúng ta có thể đặt câu hỏi tương tự về sự sáng tạo của con người.

Có lẽ vấn đề quan trọng nhất là vấn đề đầu tiên: Dữ liệu huấn luyện rộng rãi và đa dạng như thế nào, và nó được gắn nhãn tốt ra sao? Cả Suno và Udio đều chưa tiết lộ những bài hát nào đã nằm trong tập dữ liệu huấn luyện của họ, mặc dù những chi tiết này có thể sẽ phải được tiết lộ trong quá trình kiện tụng.

Udio cho biết cách những bài hát đó được gắn nhãn là rất quan trọng đối với mô hình. "Một lĩnh vực nghiên cứu tích cực của chúng tôi là: Làm thế nào để chúng tôi có được các mô tả âm nhạc ngày càng tinh chỉnh hơn?" Ding nói. Một mô tả cơ bản sẽ xác định thể loại, nhưng sau đó bạn cũng có thể nói liệu một bài hát có buồn, nâng cao tinh thần, hay bình tĩnh. Các mô tả kỹ thuật hơn có thể đề cập đến tiến trình hợp âm hai-năm-một hoặc một thang âm cụ thể. Udio cho biết họ thực hiện điều này thông qua sự kết hợp của máy móc và gắn nhãn bởi con người.

"Vì chúng tôi muốn nhắm đến một phạm vi rộng của người dùng mục tiêu, điều đó cũng có nghĩa là chúng tôi cần một phạm vi rộng của người chú thích âm nhạc," ông nói. "Không chỉ những người có bằng tiến sĩ âm nhạc, những người có thể mô tả âm nhạc ở mức độ kỹ thuật rất cao, mà còn cả những người yêu thích âm nhạc, những người có vốn từ vựng không chính thức riêng của họ để mô tả âm nhạc."

Các công cụ tạo nhạc AI cạnh tranh cũng phải học hỏi từ nguồn cung cấp liên tục các bài hát mới được tạo ra bởi con người, nếu không thì đầu ra của chúng sẽ bị mắc kẹt trong thời gian, nghe có vẻ cũ kỹ và lỗi thời. Vì điều này, âm nhạc do AI tạo ra ngày nay phụ thuộc vào nghệ thuật do con người tạo ra. Tuy nhiên, trong tương lai, các mô hình âm nhạc AI có thể huấn luyện trên đầu ra của chính chúng, một cách tiếp cận đang được thử nghiệm trong các lĩnh vực AI khác.

Bởi vì các mô hình bắt đầu với một lấy mẫu ngẫu nhiên của nhiễu, chúng không xác định; đưa cùng một gợi ý cho cùng một mô hình AI sẽ dẫn đến một bài hát mới mỗi lần. Đó cũng là vì nhiều nhà sản xuất của các mô hình khuếch tán, bao gồm cả Udio, đưa thêm tính ngẫu nhiên vào quy trình - về cơ bản là lấy dạng sóng được tạo ra ở mỗi bước và làm biến dạng nó một chút với hy vọng thêm vào những khiếm khuyết phục vụ để làm cho đầu ra thú vị hơn hoặc thực tế hơn. Chính những người tổ chức hội nghị Dartmouth đã đề xuất một chiến thuật như vậy trở lại năm 1956.

Theo Andrew Sanchez, đồng sáng lập và giám đốc vận hành của Udio, chính sự ngẫu nhiên vốn có trong các chương trình AI tạo sinh làm cho nhiều người ngạc nhiên. Trong 70 năm qua, máy tính đã thực hiện các chương trình xác định: Đưa cho phần mềm một đầu vào và nhận được cùng một phản hồi mỗi lần.

"Nhiều đối tác nghệ sĩ của chúng tôi sẽ hỏi, 'Tại sao nó làm điều này?'" ông nói. "Chúng tôi trả lời, chà, chúng tôi thực sự không biết." Thời đại tạo sinh đòi hỏi một tư duy mới, ngay cả đối với các công ty tạo ra nó: rằng các chương trình AI có thể lộn xộn và khó hiểu.

Liệu kết quả là sự sáng tạo hay đơn giản chỉ là sao chép dữ liệu huấn luyện? Những người hâm mộ âm nhạc AI nói với tôi rằng chúng ta có thể đặt câu hỏi tương tự về sự sáng tạo của con người. Khi chúng ta nghe nhạc trong suốt thời niên thiếu, các cơ chế thần kinh cho việc học tập được cân nhắc bởi những đầu vào này, và ký ức về những bài hát này ảnh hưởng đến đầu ra sáng tạo của chúng ta. Trong một nghiên cứu gần đây, Anthony Brandt, một nhà soạn nhạc và giáo sư âm nhạc tại Đại học Rice, đã chỉ ra rằng cả con người và các mô hình ngôn ngữ lớn đều sử dụng kinh nghiệm quá khứ để đánh giá các kịch bản tương lai có thể và đưa ra lựa chọn tốt hơn.

Thật vậy, phần lớn nghệ thuật của con người, đặc biệt là trong âm nhạc, đều được vay mượn. Điều này thường dẫn đến kiện tụng, với các nghệ sĩ cáo buộc rằng một bài hát đã được sao chép hoặc lấy mẫu mà không có sự cho phép. Một số nghệ sĩ đề xuất rằng các mô hình khuếch tán nên được làm cho minh bạch hơn, để chúng ta có thể biết rằng nguồn cảm hứng của một bài hát cụ thể là ba phần David Bowie và một phần Lou Reed. Udio cho biết có nghiên cứu đang diễn ra để đạt được điều này, nhưng hiện tại, không ai có thể làm điều đó một cách đáng tin cậy.

Đối với các nghệ sĩ tuyệt vời, "có sự kết hợp giữa tính mới mẻ và ảnh hưởng đang hoạt động," Sanchez nói. "Và tôi nghĩ rằng đó là điều gì đó cũng đang hoạt động trong các công nghệ này."

Nhưng có rất nhiều lĩnh vực mà các nỗ lực để so sánh mạng thần kinh con người với mạng thần kinh nhân tạo nhanh chóng đổ vỡ dưới sự xem xét kỹ lưỡng. Brandt phân định một lĩnh vực mà ông thấy sự sáng tạo của con người rõ ràng vượt trội hơn so với các sản phẩm được máy tạo ra: cái mà ông gọi là "khuếch đại điều bất thường." Các mô hình AI hoạt động trong lĩnh vực của lấy mẫu thống kê. Chúng không hoạt động bằng cách nhấn mạnh điều ngoại lệ mà, ngược lại, bằng cách giảm lỗi và tìm kiếm các mẫu có khả năng. Con người, mặt khác, lại bị thu hút bởi những điều kỳ quặc. "Thay vì được coi là sự kiện lạ lùng hoặc 'đơn lẻ'," Brandt viết, điều kỳ quặc "thấm nhuần sản phẩm sáng tạo."

Ông trích dẫn quyết định của Beethoven thêm một nốt nhạc không hòa âm đột ngột vào chuyển động cuối cùng của Giao hưởng số 8 của ông. "Beethoven có thể đã dừng lại ở đó," Brandt nói. "Nhưng thay vì coi đó là một sự kiện đơn lẻ, Beethoven tiếp tục tham chiếu đến sự kiện không phù hợp này theo nhiều cách khác nhau. Khi làm như vậy, nhà soạn nhạc lấy một sự sai lệch nhất thời và phóng đại tác động của nó." Người ta có thể nhìn vào những điều bất thường tương tự trong việc lấy mẫu vòng lặp ngược của các bản ghi âm Beatles cuối cùng, giọng hát được nâng cao từ Frank Ocean, hoặc việc kết hợp "âm thanh tìm thấy", như bản ghi âm của tín hiệu qua đường hoặc tiếng đóng cửa, được ưa thích bởi các nghệ sĩ như Charlie Puth và nhà sản xuất của Billie Eilish, Finneas O'Connell.

Nếu một đầu ra sáng tạo thực sự được định nghĩa là một đầu ra vừa mới lạ vừa hữu ích, cách diễn giải của Brandt cho thấy rằng các máy móc có thể đã sánh ngang với chúng ta về tiêu chí thứ hai trong khi con người thống trị tối cao về tiêu chí đầu tiên.

Để khám phá liệu điều đó có đúng không, tôi đã dành vài ngày để thử nghiệm với mô hình của Udio. Mất một hoặc hai phút để tạo ra một mẫu 30 giây, nhưng nếu bạn có các phiên bản trả phí của mô hình, bạn có thể tạo ra toàn bộ bài hát. Tôi quyết định chọn 12 thể loại, tạo ra một mẫu bài hát cho mỗi thể loại, và sau đó tìm những bài hát tương tự được tạo ra bởi con người. Tôi đã xây dựng một bài kiểm tra để xem liệu những người trong tòa soạn của chúng tôi có thể phát hiện ra bài hát nào được tạo ra bởi AI.

Điểm trung bình là 46%. Và đối với một số thể loại, đặc biệt là các thể loại nhạc cụ, người nghe thường sai nhiều hơn đúng. Khi tôi xem mọi người làm bài kiểm tra trước mặt tôi, tôi nhận thấy rằng những phẩm chất mà họ tự tin gắn cờ là dấu hiệu của sáng tác bởi AI - một nhạc cụ nghe có vẻ giả, một lời bài hát kỳ lạ - hiếm khi chứng minh họ đúng. Có thể đoán trước được, mọi người thực hiện kém hơn trong các thể loại mà họ ít quen thuộc; một số làm tốt với nhạc country hoặc soul, nhưng nhiều người không có cơ hội chống lại jazz, piano cổ điển, hoặc pop. Beaty, nhà nghiên cứu sáng tạo, đạt điểm 66%, trong khi Brandt, nhà soạn nhạc, kết thúc ở mức 50% (mặc dù ông đã trả lời đúng trong các bài kiểm tra dàn nhạc và sonata piano).

Hãy nhớ rằng mô hình không xứng đáng với tất cả các công lao ở đây; các đầu ra này không thể được tạo ra mà không có công việc của các nghệ sĩ con người có tác phẩm nằm trong dữ liệu huấn luyện. Nhưng chỉ với một vài gợi ý, mô hình đã tạo ra những bài hát mà ít người sẽ nhận ra là do máy tạo ra. Một vài bài có thể dễ dàng được phát tại một buổi tiệc mà không gây ra phản đối, và tôi thấy hai bài mà tôi thực sự yêu thích, ngay cả khi tôi là một nhạc sĩ suốt đời và nói chung là một người khó tính về âm nhạc. Nhưng nghe có vẻ thật không giống như nghe có vẻ nguyên bản. Các bài hát dường như không bị chi phối bởi những điều kỳ quặc hoặc bất thường - chắc chắn không ở mức độ "cú sốc" của Beethoven. Chúng cũng dường như không bẻ cong thể loại hoặc bao gồm những bước nhảy vọt lớn giữa các chủ đề. Trong bài kiểm tra của tôi, mọi người đôi khi khó quyết định liệu một bài hát có được AI tạo ra hay đơn giản là không hay.

Điều này sẽ quan trọng như thế nào trong cuối cùng? Các tòa án sẽ đóng một vai trò trong việc quyết định liệu các mô hình âm nhạc AI phục vụ các bản sao chép hay các sáng tạo mới - và các nghệ sĩ được bồi thường như thế nào trong quá trình này - nhưng chúng ta, với tư cách là người nghe, sẽ quyết định giá trị văn hóa của chúng. Để đánh giá cao một bài hát, chúng ta có cần tưởng tượng một nghệ sĩ con người đứng sau nó - người nào đó có kinh nghiệm, tham vọng, ý kiến? Một bài hát tuyệt vời có còn tuyệt vời nữa không nếu chúng ta phát hiện ra rằng nó là sản phẩm của AI?

Sanchez nói mọi người có thể tự hỏi ai đứng sau âm nhạc. Nhưng "cuối cùng, dù có bao nhiêu thành phần AI, bao nhiêu thành phần con người, nó sẽ là nghệ thuật," ông nói. "Và mọi người sẽ phản ứng với nó dựa trên chất lượng của giá trị thẩm mỹ của nó."

Tuy nhiên, trong thí nghiệm của tôi, tôi thấy rằng câu hỏi thực sự quan trọng đối với mọi người - và một số người quyết liệt phản đối ý tưởng thưởng thức âm nhạc được tạo ra bởi một mô hình máy tính. Khi một trong những người thử nghiệm của tôi bản năng bắt đầu gật đầu theo một bài hát electro-pop trong bài kiểm tra, khuôn mặt cô ấy thể hiện sự nghi ngờ. Gần như nếu cô ấy đang cố gắng hết sức để tưởng tượng một con người chứ không phải một cỗ máy là nhà soạn nhạc của bài hát. "Trời ơi," cô ấy nói, "tôi thực sự hy vọng đây không phải là AI."

Đó là AI.

Không có file đính kèm.

Nguồn tham khảo

183

AI ảnh-video-music-âm thanh 2025-04-17 06:08:07

Búp bê hành động do AI sinh sản tràn ngập mạng xã hội: Nghệ sĩ vẽ tay quyết “phản đòn”

Xu hướng tạo ảnh búp bê hành động (action figure) bằng AI như ChatGPT, kèm phụ kiện cá nhân hóa, bùng nổ trên mạng xã hội trong tháng 4.2025.
Nhiều người nổi tiếng như Brooke Shields, Marjorie Taylor Greene tham gia với hình ảnh búp bê của riêng họ, phụ kiện độc đáo như bộ kim thêu, thú cưng, gavel, Bible.
Người dùng mạng hứng thú tạo phiên bản Barbie hóa, búp bê hóa chính mình, chó mèo, hoặc danh nhân như Anna Wintour, Beethoven dẫn đến hàng nghìn lượt chia sẻ.
Nghệ sĩ như Linh Truong (23 tuổi, Manhattan) và Martha Ratcliff (29 tuổi, Leeds) vẽ tay phiên bản búp bê của bản thân, khẳng định giá trị sáng tạo con người bằng dấu hiệu “HUMAN MADE”.
Nghệ sĩ lo ngại AI đe dọa sinh kế: AI sử dụng tác phẩm không phép, tái tạo phong cách mà không bồi thường cho nghệ sĩ, làm thay đổi thị trường sáng tạo.
Một số người dùng như Suzie Geria (huấn luyện viên thể dục, Toronto) lại thích thú khi búp bê ảo mang phong cách cá nhân hóa cao, cảm nhận niềm vui và sự kết nối với bản thân qua hình ảnh số hóa.
Pat Bassermann (42 tuổi, marketing) tạo búp bê cho gia đình bằng ChatGPT, chỉ cần nhập mô tả và ảnh chân dung, nhận kết quả trong vài giây với phụ kiện đặc trưng như kẹp nướng, dép ballet, trà sữa.
Cộng đồng nghệ sĩ thể hiện sự phản đối và sáng tạo bằng các phiên bản vẽ tay, cho rằng “người thật làm vẫn tốt hơn AI”.
Làn sóng này càng dấy lên tranh cãi về quyền tác giả: New York Times đang kiện OpenAI và Microsoft vì cáo buộc đào tạo AI bằng nội dung không phép.
Các trào lưu hình ảnh AI (Barbie hóa, Miyazaki hóa...) khiến nghệ sĩ và xã hội lo ngại về “ảo giác”, rủi ro deepfake, và mất mát giá trị sáng tạo thật.

📌 Trào lưu tạo búp bê hành động bằng AI đang lan rộng trên mạng xã hội với hàng nghìn ảnh cá nhân hóa, nhưng gây xung đột mạnh mẽ với cộng đồng nghệ sĩ truyền thống. Nhiều nghệ sĩ phản ứng bằng sáng tạo vẽ tay, nhấn mạnh nguy cơ AI xóa sổ ngành sáng tạo và tranh cãi quyền tác giả chưa hạ nhiệt.

https://www.nytimes.com/2025/04/15/style/ai-barbie-dolls-action-figures.html

Hình nhân AI tràn ngập mạng xã hội (bao gồm cả phụ kiện)

Trong cơn sốt tham gia xu hướng gần đây, một số nghệ sĩ, lo ngại về việc sử dụng ChatGPT, đang tự vẽ tay phiên bản của riêng họ.

Trong một hình ảnh được gắn nhãn là tạo ra bởi AI, một hình nhân của một người đàn ông mặc áo nỉ xanh và quần tối được bao quanh bởi những thứ như điện thoại, kẹp nướng thịt, máy khoan, một miếng pizza và xẻng.

Một xu hướng mạng xã hội gần đây đang sử dụng ChatGPT và các chương trình trí tuệ nhân tạo khác để tạo ra phiên bản hình nhân của con người. Pat Bassermann, người làm việc trong lĩnh vực tiếp thị, đã viết một lệnh chi tiết để tạo ra hình nhân của chính mình.

Callie Holtermann

Bài viết của Callie Holtermann

15/4/2025, 17:19 ET

Tuần này, nữ diễn viên Brooke Shields đã đăng một hình ảnh phiên bản hình nhân của chính mình kèm theo bộ dụng cụ thêu và một chú chó terrier. Đại diện Marjorie Taylor Greene, đảng Cộng hòa từ Georgia, tưởng tượng mô hình nhỏ của chính mình đi kèm với một búa và một cuốn Kinh Thánh.

Những búp bê siêu thực này không thể tìm thấy ở các cửa hàng đồ chơi, ít nhất là trong thời điểm hiện tại. Chúng được tạo ra bằng cách sử dụng công cụ trí tuệ nhân tạo, bao gồm cả ChatGPT.

Trong những tuần gần đây, người dùng mạng xã hội đã chuyển sang AI để tạo ra phiên bản kiểu Barbie của chính họ, chó của họ hoặc nhân vật nổi tiếng yêu thích của họ. Anna Wintour không thoát khỏi việc bị biến thành búp bê AI. Ludwig van Beethoven cũng vậy.

Xu hướng này đã làm phiền lòng các họa sĩ minh họa phản đối việc sử dụng tác phẩm nghệ thuật không được cấp phép để đào tạo các công cụ trí tuệ nhân tạo này, và những người vẫn lo ngại về tác động của AI đối với sinh kế của họ. Một số người đã phản ứng bằng cách đăng những hình ảnh tương tự về hình nhân mà họ tự minh họa.

"NGƯỜI TẠO RA", một bong bóng văn bản ở góc của một minh họa như vậy của Linh Truong, người đã miêu tả chính mình với sổ phác thảo và mèo Kayla của mình.

Hình ảnh

Một minh họa vẽ tay thể hiện nghệ sĩ mặc áo sơ mi xanh lá cây và quần xanh, có các ngăn đựng sổ phác thảo, túi xách, máy ảnh, tai nghe và một con mèo.

Linh Truong, một nghệ sĩ sống ở Manhattan, đã vẽ phiên bản của riêng mình về xu hướng búp bê, bao gồm sổ phác thảo và mèo của cô như phụ kiện. Hình ảnh...Linh Truong

Truong, 23 tuổi, một nghệ sĩ sống ở Manhattan, xem hình nhân AI, xu hướng mới nhất trong số nhiều xu hướng chân dung AI, như một cách các công ty công nghệ đang cố gắng kết nối với người dùng ở cấp độ cá nhân.

"Họ giống như, 'Chúng tôi muốn bạn thấy chính mình trong sản phẩm của chúng tôi,'" cô nói.

Đối với nhiều người, đó là một khả năng hấp dẫn.

Suzie Geria, 37 tuổi, một huấn luyện viên thể hình ở Toronto, nghĩ rằng hình nhân được ChatGPT tạo ra cho cô khá thực tế. Nó đi kèm với một quả tạ kettlebell và một quả đào hoạt hình để đại diện cho lớp tập trung vào mông mà cô dạy tại một phòng tập gần đó.

"Thật thú vị khi thấy bản thân phản chiếu dưới dạng hoạt hình," cô nói. "Tôi nghĩ chúng ta đang tìm kiếm những cách khác để nhìn thấy bản thân trong thế giới chúng ta đang sống, thế giới rất trực tuyến."

Trong một hình ảnh được gắn nhãn là tạo ra bởi AI, một hình nhân của một phụ nữ mặc áo ngực thể thao màu cam và quần màu cam đang uốn cơ trong khi cầm một quả tạ kettlebell.

"Thật thú vị khi thấy bản thân phản chiếu dưới dạng hoạt hình," Suzie Geria, một huấn luyện viên thể hình ở Toronto nói.

Geria cho biết cô đồng cảm với những người làm việc trong các ngành có thể bị mất việc làm do AI. "Đây là một vấn đề khó, nhưng nó cũng đang mang lại niềm vui cho mọi người," cô nói.

Pat Bassermann, 42 tuổi, người làm việc trong lĩnh vực tiếp thị và sống ở Andover, Massachusetts, đã nhập một đoạn văn dài vào ChatGPT để tạo một hình nhân của chính mình vào thứ Năm.

"Sử dụng bức ảnh này của tôi để tạo một hình nhân của chính tôi trong một gói bong bóng, theo phong cách như một món đồ chơi sưu tập cao cấp," anh viết, thêm yêu cầu về kẹp nướng thịt và một "nụ cười thân thiện, thoải mái." Anh tải lên một ảnh chân dung, và nhận được một hình ảnh vài giây sau đó.

"Vợ & Con không bao gồm. Nhà lộn xộn được bán riêng," một dòng chữ ở dưới cùng của hình ảnh.

Ngay sau đó, ba cô con gái của anh muốn có phiên bản của riêng họ. Trong vài phút nữa, họ được tặng những hình nhân với kiểu tóc đuôi ngựa, được trang bị với giày múa ba lê, một bộ điều khiển trò chơi điện tử và một cốc trà Boba.

Trong một bức ảnh được gắn nhãn Tạo bởi AI, hai búp bê của những cô gái trẻ với kiểu tóc đuôi ngựa và mặc váy đang trong một gói có ghi Gemelli ở trên cùng. Bao gồm trong gói có kẹo mút, một miếng pizza, một bộ điều khiển trò chơi điện tử và một quả bóng đá.

Bassermann đã tạo hình nhân cho các con gái của mình sau khi tạo ra một hình nhân cho chính mình.

Khi các nền tảng AI tăng mạnh về độ phổ biến, khả năng tạo hình ảnh của chúng đã bị xem xét kỹ lưỡng. Các nghệ sĩ và nhạc sĩ đã lập luận rằng công nghệ này đe dọa sinh kế của họ. Hình ảnh deepfake, nhiều trong số đó rõ ràng, đã gây bối rối cho các trường học, chiến dịch chính trị và người nổi tiếng.

(The New York Times đã đệ đơn kiện vi phạm bản quyền đối với OpenAI và đối tác Microsoft, cáo buộc họ sử dụng tác phẩm đã xuất bản mà không được phép để đào tạo trí tuệ nhân tạo. Họ đã phủ nhận những cáo buộc đó.)

Vào tháng 3, mạng xã hội tràn ngập các video sử dụng ChatGPT để sao chép phong cách của nhà làm phim Nhật Bản Hayao Miyazaki. Để đáp lại, một số người dùng đã lan truyền một đoạn clip của Miyazaki gọi AI là "sự xúc phạm đến chính cuộc sống" trong một bộ phim tài liệu năm 2016.

Martha Ratcliff, 29 tuổi, một họa sĩ minh họa ở Leeds, Anh, cho biết cô đã dành nhiều năm để phát triển một phong cách chân dung đặc biệt. Cô nói rằng cô cảm thấy thất vọng mỗi khi thấy một xu hướng chân dung AI mới rõ ràng dựa trên công việc của các nghệ sĩ thực mà không có bồi thường.

Trong một phiên bản vẽ tay của xu hướng hình nhân, dòng chữ Martha Illustrator nằm trên bức vẽ một người phụ nữ bế em bé, với phụ kiện như cốc cà phê màu hồng ghi dòng chữ "mama", hoa, áo gi-lê, máy ảnh và bút chì.

Martha Ratcliff, một họa sĩ minh họa ở Anh, đã dành khoảng 20 phút vẽ tay hình nhân của riêng mình. Hình ảnh...Martha Ratcliff Illustration

Cô hiểu việc tham gia một xu hướng là điều vui vẻ, cô nói. "Nhưng tôi nghĩ nếu bạn nhìn vào bức tranh lớn hơn, có rất nhiều người sáng tạo đang lo lắng," cô nói thêm. "Bạn chỉ không muốn nó xóa sổ toàn bộ ngành công nghiệp sáng tạo."

Cô đã dành khoảng 20 phút vào thứ Bảy để tự tạo ra phiên bản vẽ tay của xu hướng này. Cô miêu tả chính mình đang bế đứa con sơ sinh, được bao quanh bởi hoa, bút chì màu và một cốc hơi nóng có dòng chữ "mama".

"Một con người làm điều đó tốt hơn nhiều so với một robot," cô nói.

Callie Holtermann báo cáo về phong cách và văn hóa đại chúng cho The Times.

Không có file đính kèm.

Nguồn tham khảo

152

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2025-04-17 05:27:34

OpenAI o3 & o4-mini: AI tự xoay, cắt, phân tích ảnh – lần đầu tiên "suy nghĩ bằng hình ảnh" phức tạp

OpenAI công bố 2 mô hình AI tạo sinh mới: o3 và o4-mini, nổi bật với khả năng suy nghĩ bằng hình ảnh trong toàn bộ chuỗi tư duy, chứ không chỉ nhận diện đơn thuần.
Mô hình này có thể tự động xoay, phóng to, cắt ghép hình ảnh, xử lý các ảnh mờ/lộn xộn và kết hợp với công cụ như tìm kiếm web, thao tác ảnh nhằm giải quyết nhiều nhiệm vụ phức tạp đa phương thức.
Trí tuệ thị giác của o3 và o4-mini cho phép người dùng: tải ảnh toán học, hình viết tay, bảng hiệu, lịch trình xe buýt hoặc thậm chí mê cung – AI sẽ tự nhận diện, phân tích, đọc nội dung, giải bài toán từng bước hoặc tìm đường đi tối ưu.
Chuỗi suy luận nội bộ của mô hình cực dài: ví dụ, với bài toán vật lý QED, AI phân tích chi tiết sơ đồ, nhận diện các thành phần trong ảnh, phân tích nhãn, xác định phân tán chân không, rồi giải ra biên độ lượng tử M, kèm toàn bộ công thức.
AI vẫn còn hạn chế: đôi khi thực hiện chuỗi suy nghĩ dư thừa, dễ mắc lỗi nhận diện hình ảnh cơ bản hoặc đưa ra nhiều hướng giải khác nhau cho cùng một bài toán.
Hiệu quả vượt trội trên hàng loạt chuẩn benchmark như: MMMU (giải toán đại học), MathVista (toán trực quan), CharXiv (đọc/giải thích biểu đồ khoa học), V* (tìm kiếm hình ảnh…) – đạt 95,7% độ chính xác trên V*.
Đây là bước tiến lớn hướng đến mô hình AI từ cốt lõi đa phương tiện, mở rộng khả năng hiểu và tác động thực tế trong mọi hoạt động chuyên môn và đời sống.

📌 OpenAI o3 và o4-mini lần đầu đưa khả năng "suy nghĩ bằng ảnh" vào chuỗi tư duy AI, giải cả bài toán phức tạp bằng ảnh, tự thao tác ảnh, dẫn đầu các chuẩn benchmark với độ chính xác lên tới 95,7%, đặt nền móng cho AI tạo sinh đa phương thức thế hệ mới.

https://openai.com/index/thinking-with-images/

Không có file đính kèm.

Nguồn tham khảo

104

AI ảnh-video-music-âm thanh 2025-04-16 07:16:24

Kuaishou vừa ra mắt Kling AI 2.0 – trình tạo video AI mạnh nhất thế giới

Kuaishou vừa công bố Kling AI 2.0, trình tạo video AI được giới thiệu là mạnh nhất thế giới, tạo sức ép lên các đối thủ như OpenAI Sora và Google Veo 2.
Kling AI thu hút hơn 22 triệu người dùng toàn cầu, tạo ra hơn 168 triệu video và 344 triệu hình ảnh.
Kuaishou là đối thủ lớn nhất của ByteDance (chủ TikTok) trong mảng video ngắn tại Trung Quốc.
Các bản Kling AI trước đã đạt ngôi vị số 1 toàn cầu ở mảng image-to-video (ảnh thành video) và vị trí số 2 text-to-video (văn bản thành video), chỉ sau Veo 2 của Google.
Phiên bản 2.0 cải thiện đáng kể khả năng tuân thủ hướng dẫn, hiểu prompt, tăng chất lượng hình ảnh, chuyển động, độ chân thực và thẩm mỹ cho video.
Kling AI 2.0 mở rộng phạm vi chuyển động, khả năng kiểm soát chi tiết, giúp video sinh động và "đã mắt" hơn.
Kuaishou ra mắt Kling AI lần đầu giữa 2024, là công ty công nghệ Trung Quốc đầu tiên cạnh tranh trực tiếp với OpenAI Sora (ra mắt tháng 2.2024).
Cuộc đua AI tạo video trở nên quyết liệt khi hàng loạt doanh nghiệp lớn và startup như ByteDance, Alibaba, Tencent, Zhipu AI, Shengshu Tech cùng tham gia, được ví như “chạy đua sinh tử”.
Ngoài Kling AI 2.0, Kuaishou còn giới thiệu dự án NextGen – tài trợ, hỗ trợ công nghệ, tăng khả năng phơi nhiễm để nghệ sĩ tạo video chất lượng phim.
Hầu hết chatbot AI Trung Quốc miễn phí, nhưng các công cụ video AI như Kling AI thường dùng mô hình freemium, người dùng trả phí nếu muốn sử dụng tính năng nâng cao.

📌 Kling AI 2.0 của Kuaishou với hơn 22 triệu người dùng, 168 triệu video đã tạo, là “vũ khí” cực mạnh cạnh tranh lĩnh vực video AI trước Sora của OpenAI và Veo 2 của Google. Phiên bản này nổi bật với kiểm soát chuyển động tốt, chất lượng hình ảnh cao, mô hình freemium thu hút cả nghệ sĩ lẫn người dùng phổ thông.

https://www.scmp.com/tech/big-tech/article/3306631/chinas-kuaishou-unveils-worlds-most-powerful-ai-video-generator-rival-openais-sora

Không có file đính kèm.

Nguồn tham khảo

144

AI ảnh-video-music-âm thanh 2025-04-16 04:05:31

Google tung Veo 2 – đối thủ Sora, tạo video AI đỉnh cao đã có trên Gemini

Google chính thức ra mắt Veo 2 – công cụ AI tạo video từ văn bản, tích hợp trong Gemini và nhấn mạnh chất lượng video vượt trội với cảnh vật, chuyển động nhân vật sống động, hiểu vật lý đời thực sâu hơn.
Người dùng có thể tạo video dài 8 giây, độ phân giải 720p, tỷ lệ 16:9 chỉ bằng mô tả văn bản. Có thể kiểm soát mức chi tiết khi nhập prompt.
Veo 2 chỉ dành riêng cho người đăng ký gói Google One AI Premium (20 USD/tháng ~ 505.000 VNĐ), tương tự chi phí truy cập Sora qua ChatGPT Plus của OpenAI.
Số lượng video tạo mỗi tháng bị giới hạn, Google chưa công bố con số cụ thể nhưng sẽ cảnh báo khi người dùng gần hết lượt.
Gói Google One AI Premium còn bao gồm: 2TB lưu trữ, NotebookLM Plus (giới hạn sử dụng cao gấp 5 lần, nhiều tính năng nâng cao), tích hợp Gemini vào Gmail, Docs, Sheets…, và đặc biệt là tính năng mới Whisk Animate.
Whisk Animate sử dụng AI tạo sinh Veo 2, cho phép chuyển đổi ảnh tĩnh (từ prompt hoặc từ hình ảnh có sẵn) thành video động 8 giây; hiện mới cung cấp cho người dùng Gemini Advanced qua Google Labs.
So sánh Sora (OpenAI) và Veo 2 (Google), cả hai đều tạo video 720p, Sora cho tối đa 10 giây, Veo 2 là 8 giây; chất lượng và hệ sinh thái ứng dụng sẽ quyết định lựa chọn của người dùng.
Nếu bạn dùng hệ sinh thái Google (Gmail, Slides, Meet…), Veo 2 trên Gemini/Google One AI Premium mang lại sự tích hợp mạnh mẽ, còn Sora lại phù hợp với người quen dùng ChatGPT/GPT-4o.

📌 Veo 2 chính thức ra mắt trên Gemini, cho phép tạo video AI 720p trong 8 giây, phí 20 USD/tháng. Tích hợp sâu với Google Workspace, Whisk Animate và nhiều tiện ích AI khác, cạnh tranh trực diện Sora của OpenAI về giá và chất lượng video tạo sinh.

https://www.zdnet.com/article/googles-veo-2-ai-text-to-video-generator-is-now-available-how-to-try-it/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-04-12 04:02:50

YouTube tung công cụ tạo nhạc AI miễn phí, người sáng tạo có thể tạo nhạc nền tùy ý chỉ bằng lời nhắc văn bản

- YouTube đang triển khai tính năng mới cho phép người sáng tạo sử dụng công nghệ AI để tạo nhạc nền tùy chỉnh cho video của họ.

- Thông qua bản cập nhật cho kênh Creator Insider, YouTube thông báo đang bắt đầu tích hợp khả năng tạo nhạc bằng AI vào nền tảng Creator Music.

- Tính năng này được triển khai "dần dần" cho những người sáng tạo đã có quyền truy cập vào Creator Music - nền tảng cấp phép nhạc thương mại ra mắt năm 2023.

- Người sáng tạo có quyền truy cập sẽ thấy tab "Music Assistant" xuất hiện trong Creator Music, nơi họ có thể mô tả loại nhạc muốn tạo bằng cách chỉ định các chi tiết như nhạc cụ, tâm trạng, loại video đang thực hiện.

- Sau khi nhạc được tạo ra, người sáng tạo có thể tải xuống và thêm vào video của họ mà không lo ngại về khiếu nại bản quyền vì đây là nhạc miễn phí sử dụng.

- Creator Music hiện chỉ khả dụng cho người sáng tạo tại Hoa Kỳ trong Chương trình Đối tác YouTube.

- Trước đó, YouTube đã thử nghiệm tính năng AI tạo sinh tương tự gọi là "Dream Track" được hỗ trợ bởi Lyria của DeepMind, cho phép tạo nhạc 30 giây theo phong cách của nghệ sĩ nổi tiếng.

- Hiện tại, tính năng "Dream Track" chỉ tập trung vào nhạc không lời theo tài liệu trợ giúp của YouTube.

- YouTube đã làm rõ với TechCrunch rằng, như một phần của bộ công cụ AI thử nghiệm Dream Track, họ đã giới thiệu khả năng tạo nhạc nền trong cả Shorts và YouTube Create vào năm ngoái.

- Giờ đây, YouTube bắt đầu thử nghiệm tích hợp Dream Track vào Creator Music, tạo thêm tùy chọn miễn phí cho người sáng tạo nội dung.

📌 YouTube mở rộng khả năng AI tạo sinh với công cụ tạo nhạc miễn phí cho người sáng tạo Hoa Kỳ trong Chương trình Đối tác YouTube. Người dùng chỉ cần mô tả loại nhạc mong muốn, AI sẽ tạo ra nhạc nền không có vấn đề bản quyền, dựa trên công nghệ Dream Track được phát triển bởi DeepMind.

https://techcrunch.com/2025/04/10/youtube-rolls-out-a-free-ai-music-making-tool-for-creators/

Không có file đính kèm.

Nguồn tham khảo

112

AI ảnh-video-music-âm thanh 2025-04-12 03:43:32

Canva đang đẩy mạnh tích hợp AI vào nền tảng với Canva AI, Canva Code và Canva Sheets

- Canva vừa công bố bổ sung loạt tính năng AI mới vào nền tảng của mình, bao gồm trợ lý AI, khả năng tạo ứng dụng bằng lệnh, hỗ trợ bảng tính và công cụ chỉnh sửa được hỗ trợ bởi AI.

- Canva AI, trợ lý AI của công ty, có thể thực hiện nhiều tác vụ như tạo hình ảnh theo hướng dẫn, đưa ra ý tưởng thiết kế, viết nội dung và tạo tài liệu.

- Với công cụ mới có tên Canva Code, trợ lý còn có thể được nhắc để tạo mini-app như bản đồ tương tác hoặc máy tính tùy chỉnh, sau đó tích hợp vào thiết kế. Canva đã hợp tác với Anthropic cho tính năng này.

- Cameron Adams, đồng sáng lập và giám đốc sản phẩm của Canva giải thích: "Chúng tôi thấy các nhóm trong Canva sử dụng AI nhiều cho việc tạo prototype. Chúng tôi nghĩ đến việc mở rộng và cho mọi người khả năng code dễ dàng và tạo trải nghiệm tương tác."

- Mặc dù Canva không phải công ty đầu tiên làm điều này, nhiều startup như Cursor, Bolt.new, Lovable và Replit đã thu hút nhiều khách hàng với khả năng tạo ứng dụng bằng lệnh.

- Canva cũng bổ sung tính năng AI mới vào trình chỉnh sửa ảnh: một công cụ cho phép người dùng chỉ và nhấp để sửa đổi chi tiết trong ảnh, và công cụ tạo nền tính đến ánh sáng và bố cục.

- Năm ngoái, Canva ra mắt sản phẩm hướng đến doanh nghiệp, giờ đây bổ sung bảng tính với Canva Sheets, đi kèm công cụ Magic Insights để phân tích dữ liệu và Magic Charts để chuyển đổi số liệu thành biểu đồ tự động.

- Canva Sheets hỗ trợ tích hợp với HubSpot, Statista, Google Analytics và nhiều dịch vụ khác để nhập dữ liệu dễ dàng.

- Mặc dù có sự gia tăng tính năng AI trong công cụ thiết kế đang gây căng thẳng, với nghệ sĩ lo lắng về việc tác phẩm của họ được sử dụng để đào tạo mô hình AI mà không có sự cho phép, cũng như mối đe dọa thực sự đối với công việc thiết kế sáng tạo.

- Adams không xem đây là sự xung đột giữa AI và sáng tạo, ông cho rằng đây là thời điểm phát triển và cơ hội trong lĩnh vực này: "Tôi nghĩ tất cả công việc của chúng ta sẽ thay đổi khi AI xuất hiện... Mỗi công việc sẽ thay đổi và thích ứng với sự trợ giúp từ công cụ AI."

- Đầu tháng này, công ty đã sa thải một số nhân viên viết kỹ thuật, 9 tháng sau khi các đồng sáng lập yêu cầu nhân viên sử dụng ứng dụng AI khi có thể. Tuy nhiên, Adams nói rằng việc sa thải này không liên quan đến công cụ AI mà công ty đang xây dựng, mà là kết quả của việc tái cơ cấu.

📌 Canva đang đẩy mạnh tích hợp AI vào nền tảng với Canva AI, Canva Code và Canva Sheets. Mặc dù nghệ sĩ lo ngại về đạo đức và việc làm, Cameron Adams cho rằng đây là cơ hội để công việc thích nghi với công nghệ mới, không phải sự đối đầu giữa AI và sáng tạo.

https://techcrunch.com/2025/04/10/canva-is-adding-an-ai-assistant-coding-and-sheets-to-its-platform/

Không có file đính kèm.

Nguồn tham khảo

139

AI bản quyền AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2025-04-09 01:18:28

Cuộc chiến không cân sức: Ngành công nghiệp âm nhạc đang thua cuộc trước AI tạo sinh?

- Sony Music đã yêu cầu loại bỏ 75.000 deepfake, phản ánh quy mô của vấn đề này.

- Công ty bảo mật thông tin Pindrop cho biết nhạc do AI tạo ra có "dấu hiệu đặc trưng" và dễ phát hiện, tuy nhiên loại nhạc này dường như xuất hiện khắp nơi.

- Chỉ mất vài phút trên YouTube hoặc Spotify để phát hiện bản rap giả của 2Pac về pizza, hoặc bản cover của Ariana Grande cho một bài K-pop mà cô chưa từng thực hiện.

- Sam Duboff, người đứng đầu tổ chức chính sách của Spotify, cho biết họ đang nỗ lực phát triển công cụ mới để giải quyết vấn đề này tốt hơn.

- YouTube tuyên bố đang "hoàn thiện" khả năng phát hiện các bản sao AI và có thể công bố kết quả trong những tuần tới.

- Jeremy Goldman, nhà phân tích tại công ty Emarketer, nhận xét rằng "những kẻ xấu nhận thức được vấn đề sớm hơn", khiến nghệ sĩ, hãng đĩa và những người khác trong ngành âm nhạc "phải hoạt động từ vị thế phản ứng".

- Ngoài deepfake, ngành công nghiệp âm nhạc đặc biệt lo ngại về việc sử dụng nội dung của họ trái phép để huấn luyện các mô hình AI tạo sinh như Suno, Udio hoặc Mubert.

- Một số hãng thu âm lớn đã đệ đơn kiện công ty mẹ của Udio tại tòa án liên bang ở New York năm ngoái, cáo buộc họ phát triển công nghệ bằng cách sử dụng "bản ghi âm có bản quyền nhằm mục đích cuối cùng là chiếm đoạt người nghe, người hâm mộ và người cấp phép tiềm năng".

- Sau hơn 9 tháng, thủ tục tố tụng vẫn chưa thực sự bắt đầu. Điều tương tự cũng xảy ra với một vụ kiện tương tự chống lại Suno, được đệ trình ở Massachusetts.

- Trọng tâm của vụ kiện là nguyên tắc sử dụng hợp lý (fair use), cho phép sử dụng có giới hạn một số tài liệu có bản quyền mà không cần xin phép trước.

- Joseph Fishman, giáo sư luật tại Đại học Vanderbilt, gọi đây là "lĩnh vực thực sự không chắc chắn".

- Các phán quyết ban đầu có thể không mang tính quyết định, vì ý kiến khác nhau từ các tòa án khác nhau có thể đẩy vấn đề lên Tòa án Tối cao.

- Trong khi đó, các công ty lớn tham gia vào lĩnh vực âm nhạc do AI tạo ra tiếp tục huấn luyện mô hình của họ trên các tác phẩm có bản quyền.

- Trong lĩnh vực lập pháp, các hãng thu âm, nghệ sĩ và nhà sản xuất chưa đạt được nhiều thành công. Một số dự luật đã được đưa ra Quốc hội Mỹ, nhưng chưa có kết quả cụ thể.

- Donald Trump có thể là một trở ngại tiềm tàng khác: tổng thống Đảng Cộng hòa đã tự đặt mình là nhà vô địch của việc phi quy định hóa, đặc biệt là đối với AI.

- Meta đã kêu gọi chính quyền "làm rõ rằng việc sử dụng dữ liệu công khai để huấn luyện mô hình rõ ràng là sử dụng hợp lý".

- Tình hình ở Anh cũng không khả quan hơn, nơi chính phủ Công đảng đang xem xét cải cách luật để cho phép các công ty AI sử dụng nội dung của người sáng tạo trên internet để phát triển mô hình của họ, trừ khi chủ sở hữu quyền từ chối.

- Hơn một nghìn nhạc sĩ, bao gồm Kate Bush và Annie Lennox, đã phát hành một album vào tháng 2 có tên "Is This What We Want?" - với âm thanh im lặng được ghi lại trong một số studio - để phản đối những nỗ lực đó.

📌 Ngành âm nhạc đang trong cuộc chiến bất lợi với AI tạo sinh, với 75.000 deepfake đã bị Sony Music yêu cầu gỡ bỏ. Các nền tảng như YouTube và Spotify đang nỗ lực phát triển công cụ phát hiện, trong khi các vụ kiện pháp lý vẫn đang bế tắc và môi trường pháp lý còn nhiều bất cập.

https://technology.inquirer.net/141681/the-music-industry-is-battling-ai-with-limited-success

Không có file đính kèm.

Nguồn tham khảo

101

AI ảnh-video-music-âm thanh 2025-04-05 01:33:35

Midjourney gây sốc khi ra mắt V7: Mô hình AI tạo hình ảnh mới tạo hình "siêu thực"

- Midjourney vừa phát hành V7, mô hình AI tạo hình ảnh đầu tiên của họ sau gần một năm, bắt đầu triển khai phiên bản alpha vào khoảng nửa đêm EST ngày thứ Năm.
- Ra mắt chỉ một tuần sau khi OpenAI giới thiệu công cụ tạo hình ảnh mới trong ChatGPT, nổi tiếng với khả năng tạo ảnh phong cách Ghibli.
- Để sử dụng V7, người dùng cần đánh giá khoảng 200 hình ảnh để xây dựng hồ sơ "cá nhân hóa" Midjourney, điều chỉnh mô hình theo sở thích hình ảnh cá nhân.
- V7 là mô hình đầu tiên của Midjourney có tính năng cá nhân hóa được bật theo mặc định.
- CEO David Holz mô tả V7 là một "kiến trúc hoàn toàn khác", thông minh hơn với các lệnh văn bản, tạo hình ảnh đẹp từ hình ảnh đầu vào.
- Chất lượng hình ảnh được cải thiện đáng kể với kết cấu đẹp, cơ thể, bàn tay và các vật thể có độ mạch lạc tốt hơn ở mọi chi tiết.
- V7 có hai phiên bản: Turbo (tốn kém hơn) và Relax, đồng thời cung cấp công cụ mới gọi là Draft Mode, tạo hình ảnh nhanh gấp 10 lần và chi phí bằng một nửa so với chế độ tiêu chuẩn.
- Một số tính năng tiêu chuẩn của Midjourney chưa khả dụng cho V7, bao gồm tăng tỷ lệ hình ảnh và tái tạo kết cấu, dự kiến sẽ xuất hiện trong tương lai gần.
- Midjourney là công ty độc đáo, được thành lập năm 2022 bởi Holz, người đồng sáng lập công ty thiết bị ngoại vi PC Leap Motion, chưa từng huy động vốn bên ngoài.
- Cuối năm 2023, Midjourney dự kiến đạt doanh thu khoảng 200 triệu USD.
- Công ty đang đối mặt với nhiều vụ kiện cáo buộc vi phạm quyền của hàng triệu nghệ sĩ bằng cách huấn luyện công cụ AI trên hình ảnh lấy từ web mà không có sự đồng ý của người tạo ra hình ảnh.
- Gần đây, công ty có trụ sở tại San Francisco cho biết đang thành lập đội ngũ phần cứng để làm việc trên một số dự án chưa được tiết lộ chi tiết.
- Midjourney tiếp tục huấn luyện các mô hình đã được công bố trước đó để tạo video và đối tượng 3D.

📌 Midjourney V7 đánh dấu bước đột phá với kiến trúc hoàn toàn mới, tính năng cá nhân hóa mặc định và Draft Mode nhanh gấp 10 lần. Dù chưa huy động vốn bên ngoài, công ty vẫn đạt doanh thu ấn tượng 200 triệu USD năm 2023 trong khi đối mặt với các vụ kiện bản quyền.

https://techcrunch.com/2025/04/03/midjourney-releases-its-first-new-ai-image-model-in-nearly-a-year/

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2025-04-04 05:45:05

Adobe ra mắt tính năng kéo dài video bằng AI tạo sinh trong Premiere Pro

- Adobe đang cập nhật Premiere Pro với các tính năng được hỗ trợ bởi AI nhằm cung cấp kết quả chỉnh sửa video nhanh hơn và tốt hơn. Phiên bản 25.2 của Premiere Pro ra mắt hôm nay, mang đến các công cụ để định vị, dịch và kéo dài cảnh quay.

- Tính năng nổi bật nhất là Generative Extend, được Adobe công bố vào tháng 10 như một trong những công cụ đầu tiên được hỗ trợ bởi mô hình AI tạo sinh video Firefly. Tính năng này cho phép người dùng kéo dài clip lên đến 2 giây, cung cấp thêm tùy chọn cho các chuyển cảnh hoặc điều chỉnh chuyển động không mong muốn mà không cần quay lại cảnh.

- Generative Extend hiện có thể tạo clip với chất lượng 4K và sẽ kéo dài âm thanh nền môi trường - lên đến 10 giây cho riêng âm thanh, hoặc 2 giây khi kết hợp với việc kéo dài video - mặc dù điều này sẽ không kéo dài giọng nói hoặc nhạc.

- Generative Extend hoàn toàn miễn phí sử dụng trong "thời gian giới hạn", sau đó tính năng này sẽ yêu cầu người dùng chi tiêu tín dụng tạo sinh Firefly. Đăng ký Creative Cloud cung cấp phân bổ tín dụng hàng tháng từ 25 đến 1.000 tín dụng tùy thuộc vào gói. Gói đăng ký tín dụng Firefly bổ sung cũng có sẵn bắt đầu từ 10 USD, cung cấp 2.000 tín dụng mỗi tháng.

- Phiên bản mới nhất của Premiere Pro cũng bao gồm bảng tìm kiếm được hỗ trợ bởi AI tự động nhận dạng nội dung của các clip trong thư viện video. Điều này cho phép người dùng tìm kiếm cảnh quay bằng cách sử dụng mô tả văn bản bao gồm đối tượng, vị trí, góc máy và hiệu ứng.

- Premiere Pro giờ đây cũng có thể sử dụng AI để tự động dịch phụ đề video sang 27 ngôn ngữ khác nhau, với khả năng hiển thị nhiều bản phụ đề cùng lúc trong quá trình chỉnh sửa.

- Adobe cũng cho biết bản cập nhật Premiere Pro cung cấp tốc độ và hiệu suất tốt hơn trên cả thiết bị Apple silicon và Windows.

- Phiên bản mới nhất của Premiere Pro ra mắt cùng với After Effects 25.2, cung cấp khả năng giám sát HDR mới, điều khiển hoạt ảnh, hỗ trợ cho mô hình 3D FBX và hiệu ứng ánh sáng môi trường hoạt hình.

- Tính năng High Performance Preview Playback mới cũng giúp xem trước các bố cục dài hơn dễ dàng hơn nhờ hệ thống bộ nhớ đệm mới sử dụng cả RAM và ổ đĩa cục bộ, thay vì chỉ sử dụng RAM.

📌 Adobe Premiere Pro 25.2 giới thiệu Generative Extend - công nghệ AI tạo sinh cho phép kéo dài video lên đến 2 giây với chất lượng 4K, cùng tính năng tìm kiếm thông minh và dịch phụ đề tự động sang 27 ngôn ngữ, tạo bước đột phá trong quy trình biên tập video chuyên nghiệp.

https://www.theverge.com/news/641270/adobe-premiere-pro-generative-extend-generally-available

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh OpenAI ChatGPT AI riêng tư 2025-04-03 00:43:04

Rất nhiều người đang vô tình "tặng" khuôn mặt cho OpenAI qua trào lưu chỉnh ảnh Ghibli

- Một trào lưu sử dụng ChatGPT để chỉnh sửa ảnh theo phong cách Studio Ghibli đang lan rộng trên mạng xã hội sau khi OpenAI ra mắt công cụ tạo hình ảnh mới nhất được tích hợp vào GPT-4o.

- OpenAI mô tả công cụ này có "khả năng tạo ra những hình ảnh hữu ích, nhất quán và nhận biết ngữ cảnh" với độ chính xác đáng ngạc nhiên trong việc tái tạo phong cách anime của Studio Ghibli.

- Studio Ghibli là hãng phim hoạt hình Nhật Bản nổi tiếng với các tác phẩm như My Neighbor Totoro (1988), Spirited Away (2001) và Howl's Moving Castle (2004), có ảnh hưởng mạnh mẽ trong ngành công nghiệp hoạt hình suốt 40 năm qua.

- Các bài đăng về chỉnh sửa theo phong cách Ghibli đã thu hút hàng triệu lượt xem trên mạng xã hội, trong đó một bức ảnh chỉnh sửa của một người đàn ông, một con chó và vợ anh ta đã đạt hơn 49 triệu lượt xem trên X tính đến thời điểm báo cáo.

- Luiza Jarovsky, đồng sáng lập aitechprivacy.com, đã cảnh báo về vấn đề quyền riêng tư liên quan đến tính năng mới này trong một bài đăng trên X đã được xem hơn 200.000 lần.

- Jarovsky chỉ ra rằng "hàng nghìn người đang tự nguyện tải lên khuôn mặt và ảnh cá nhân của họ lên ChatGPT, giúp OpenAI dễ dàng tiếp cận miễn phí với hàng nghìn khuôn mặt mới để huấn luyện các mô hình AI của họ."

- Khi người dùng tự nguyện tải lên những hình ảnh này, họ đồng ý cho OpenAI xử lý chúng (Điều 6.1.a của GDPR), tạo ra một cơ sở pháp lý khác mang lại nhiều tự do hơn cho OpenAI.

- Người phát ngôn của OpenAI khẳng định quyền riêng tư và bảo mật là ưu tiên của công ty, họ giảm thiểu việc thu thập thông tin cá nhân và không tìm kiếm thông tin cá nhân để huấn luyện mô hình của mình.

- Người phát ngôn cũng cho biết người dùng có thể kiểm soát cách sử dụng dữ liệu thông qua các công cụ tự phục vụ để xóa thông tin cá nhân hoặc từ chối việc sử dụng nội dung của họ để cải thiện mô hình.

- Hayo Mizayaki, đồng sáng lập Studio Ghibli, từng bày tỏ sự ghê tởm đối với hoạt hình AI trong một cuộc họp năm 2016: "Bất kỳ ai tạo ra thứ này đều không hiểu nỗi đau là gì. Tôi hoàn toàn kinh tởm và cảm thấy đây là sự xúc phạm đối với chính cuộc sống."

📌 Trào lưu chỉnh ảnh theo phong cách Ghibli trên ChatGPT đang gây lo ngại về quyền riêng tư khi người dùng vô tình cung cấp dữ liệu cá nhân cho OpenAI. Mặc dù công ty cam kết bảo vệ thông tin, chuyên gia vẫn cảnh báo về việc dữ liệu có thể được sử dụng để huấn luyện các mô hình AI trong tương lai.

https://www.newsweek.com/chatgpt-ghibli-edit-privacy-concerns-2053689

Không có file đính kèm.

Nguồn tham khảo

153

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2025-04-03 00:38:56

Giới hạn của AI trong việc bắt chước Miyazaki

- OpenAI vừa ra mắt GPT-4o, phiên bản mới nhất của ChatGPT có khả năng tạo hình ảnh chất lượng cao ngay trong cửa sổ chat.

- Trong buổi demo ngày 25/3, nhân viên OpenAI đã yêu cầu công cụ chuyển ảnh selfie nhóm thành "khung anime", tạo ra cảnh hoạt hình chi tiết với đường nét chính xác.

- Kỹ sư Grant Slatton đã đăng ảnh gia đình được "chuyển thành anime Studio Ghibli" lên X, thu hút gần 50 triệu lượt xem và khởi đầu trào lưu tạo hình ảnh phong cách Ghibli.

- Xu hướng này lan rộng với nhiều hình ảnh không phù hợp phong cách Miyazaki như Donald Trump hay vụ khủng bố 11/9 được "Ghibli hóa".

- Sam Altman, CEO OpenAI, cho biết việc sử dụng anime kiểu Ghibli trong demo là có chủ đích và tự hào về nhu cầu sử dụng GPT-4o cao đến mức "làm tan chảy" máy chủ.

- Khác với các công cụ AI trước đây tạo ra hình ảnh glitch được yêu thích, GPT-4o tạo ra hình ảnh gần như hoàn hảo khiến người xem quên đi nguồn gốc máy móc.

- Miyazaki, người sáng lập Studio Ghibli, từng gọi công cụ hoạt hình tự động là "sự xúc phạm đối với cuộc sống". Việc phong cách của ông bị AI bắt chước có thể vi phạm bản quyền.

- OpenAI cho rằng sao chép phong cách của một hãng phim thay vì nghệ sĩ cá nhân là được phép, nhưng nhiều nghệ sĩ đã kiện công ty vì sử dụng tác phẩm của họ để huấn luyện AI.

- Tác giả lo ngại khán giả có thể hài lòng với những bản sao nhạt nhòa thay vì tác phẩm gốc. Phim mới nhất của Miyazaki "The Boy and the Heron" được xem là phản ứng của nghệ thuật trước thách thức công nghệ.

📌 GPT-4o của OpenAI tạo ra cơn sốt hình ảnh phong cách Studio Ghibli trên mạng xã hội, thu hút 50 triệu lượt xem. Mặc dù gây tranh cãi về bản quyền, xu hướng này cho thấy khả năng bắt chước nghệ thuật đáng kinh ngạc của AI, đặt ra câu hỏi về tương lai của sáng tạo và thưởng thức nghệ thuật.

https://www.newyorker.com/culture/infinite-scroll/the-limits-of-ai-generated-miyazaki

Giới hạn của AI trong việc bắt chước Miyazaki

Việc ra mắt GPT-4o đã khơi mào làn sóng hình ảnh phong cách Studio Ghibli được tạo bởi AI. Điều này có thể báo hiệu điều tệ hại hơn cho khán giả so với cho các nghệ sĩ. Tác giả: Kyle Chayka Ngày 2 tháng 4 năm 2025 Minh họa về những xúc tu của máy móc trích xuất dữ liệu từ bàn tay của họa sĩ minh họa. Minh họa bởi Ariel Davis

Nếu được yêu cầu đưa ra một tác phẩm nghệ thuật "mang tính con người" điển hình, người ta có thể chọn một bộ phim của Studio Ghibli. Hãng phim hoạt hình Nhật Bản, được thành lập bởi đạo diễn huyền thoại Hayao Miyazaki 84 tuổi, nổi tiếng với hình ảnh vẽ tay, bảng màu hữu cơ phong phú, cốt truyện hoành tráng, và khả năng gợi lên những cảm xúc mơ hồ của tuổi thơ cùng con đường quanh co để trưởng thành. Thế hệ millennials Mỹ chúng tôi may mắn được xem những bộ phim này được dịch và phát hành bằng tiếng Anh đúng lúc chúng tôi đang lớn lên, vì vậy những bộ phim như "My Neighbor Totoro", "Princess Mononoke" và "Spirited Away" là những dấu ấn không thể thiếu trong tuổi trẻ của chúng tôi. Bất kỳ hình ảnh Ghibli nào cũng khiến chúng tôi cảm thấy sự hoài niệm dễ chịu và rùng mình đau buồn, gợi nhớ về những sinh vật rừng bị diệt vong, những bóng ma tham lam trong nhà tắm và những cuộc gặp gỡ lỡ hẹn xuất hiện trong cốt truyện điện ảnh của Miyazaki. Đáng tiếc là cảm giác xúc động đó nhanh chóng bị xói mòn khi bạn bị bủa vây bởi hàng nghìn hình ảnh sao chép phong cách Ghibli, như tất cả chúng ta đều thấy trên mạng tuần trước, nhờ phiên bản mới nhất của công cụ ChatGPT của OpenAI.

GPT-4o, tên gọi của phiên bản mới nhất này, có thể tạo ra hình ảnh với độ chân thực cao hơn nhiều so với các phiên bản trước đây, và có thể làm điều đó ngay trong cửa sổ trò chuyện của chương trình. (Công cụ này hiện chỉ có sẵn cho các tài khoản trả phí.) Năm ngoái, trên trình tạo hình ảnh DALL-E 3 của OpenAI, người dùng thường tạo ra các hình ảnh với bàn tay kỳ quặc và văn bản vô nghĩa; việc cố gắng lặp lại các hình ảnh tương tự cho kết quả không đáng tin cậy. Ngược lại, mô hình mới có thể tạo văn bản rõ ràng, duy trì nhân vật chính nhất quán qua nhiều hình ảnh, và sao chép trung thành các phong cách nghệ thuật từ vẽ tay đến hiện thực ảnh. Trong buổi trình diễn ra mắt vào ngày 25 tháng 3, nhân viên OpenAI, bao gồm CEO Sam Altman, đã yêu cầu công cụ này biến một bức ảnh selfie nhóm thành "một khung anime", tạo ra một cảnh hoạt hình, được vẽ bằng những đường nét chính xác, với bóng đổ đặc trưng và những cây lá đu đủ chi tiết ở nền. (Một nhân vật có 4 ngón tay, nhưng ai quan tâm chứ). Sau khi xem bản demo, kỹ sư Grant Slatton đã đăng một bức ảnh gia đình lên X mà anh đã "chuyển thành anime phong cách studio ghibli". Nó cho thấy anh và vợ với chú chó corgi trên bãi biển, với đôi mắt long lanh, mái tóc bồng bềnh, và quần áo nhăn nhẹ nhàng quen thuộc từ phim của Miyazaki. Hiệu ứng thuyết phục một cách kỳ lạ; mọi khiếm khuyết—như râu lởm chởm pixelated—chỉ lộ ra khi xem xét kỹ. Bài đăng của Slatton hiện có gần 50 triệu lượt xem và đã truyền cảm hứng cho hàng loạt cảnh Ghibli hóa khác, bao gồm những cảnh không phù hợp chút nào với vũ trụ điện ảnh Miyazaki—Donald Trump phong cách Ghibli giơ nắm đấm thách thức sau một vụ ám sát bất thành; một chiếc máy bay Ghibli đâm vào Tháp Đôi. Đáy kỳ quặc của xu hướng này có thể đã đạt đến đỉnh điểm vào hôm thứ Năm, khi tài khoản X chính thức của Nhà Trắng đăng một bức ảnh được lọc phong cách Ghibli của một kẻ buôn ma túy bị cáo buộc từ Cộng hòa Dominica đang khóc lóc khi bị bắt. (Tại sao chúng ta ngạc nhiên? Đây là cùng một Chính quyền đã từng đăng một video ASMR về những người bị trục xuất.)

Việc sử dụng anime kiểu Ghibli trong bản demo của OpenAI là có chủ đích; "Chúng tôi đã suy nghĩ rất nhiều về các ví dụ ban đầu chúng tôi hiển thị khi giới thiệu công nghệ mới", Altman sau đó đã đăng trên X. Kể từ đó, ông đã tự hào về việc máy chủ của công ty mình "tan chảy" do nhu cầu đặt lên GPT-4o. Thành công của meme Ghibli đánh dấu một chương mới trong sự phát triển của việc bắt chước AI. Các công cụ AI trước đây đã tạo ra các meme được tán dương vì tính lỗi kỳ lạ—một hình ảnh Midjourney năm 2023 của Giáo hoàng mặc áo khoác phồng sành điệu, hoặc một phiên bản giọng của Jay-Z được tạo bởi AI hát một bài rap hoài cổ. Trong những trường hợp đó, việc công nghệ không tạo ra sự chân thực hoàn hảo là một phần của sự quyến rũ. Với những hình ảnh Ghibli, người ta gần như có thể tận hưởng bảng màu và đường nét duyên dáng vì chính chúng, quên đi rằng chúng là những sáng tạo giả mạo của một cỗ máy.

Sức mạnh đó có liên quan nhiều đến khả năng của GPT-4o cũng như những nguyên mẫu không thể xóa nhòa mà Miyazaki đã tạo ra. Một bài đăng phổ biến trên X tuần trước đã reo hò, "Nghệ thuật vừa trở nên dễ tiếp cận", kèm theo một bức ảnh sáu người bạn nam, khung hình lần lượt được biến đổi thành ba phong cách hình ảnh khác nhau. Nhưng không phải nghệ thuật đang trở nên dễ tiếp cận; đó là một bản sao của nghệ thuật, một phiên bản cực đoan hơn của, chẳng hạn, một bức ảnh chụp một bức tranh. Một điều cay đắng của meme giả-Ghibli là Miyazaki là một người công khai ghét công nghệ AI. Trong một đoạn clip nổi tiếng từ năm 2016, ông mô tả một công cụ hoạt hình tự động là "một sự xúc phạm đối với chính cuộc sống". Việc tác phẩm cả đời của Miyazaki giờ đây trở thành nguyên liệu cho cối xay AI tạo sinh có thể không chỉ là một sự xúc phạm mà còn là vi phạm bản quyền. OpenAI lập luận rằng việc sao chép phong cách của một hãng phim, thay vì của một nghệ sĩ đang sống, là được phép. (Tôi nghĩ Disney sẽ không ủng hộ lập luận này.) Tuy nhiên, các nghệ sĩ khác ở Hoa Kỳ đã kiện OpenAI và các công ty AI khác vì đã huấn luyện các công cụ của họ dựa trên tác phẩm nghệ thuật của họ và xâm phạm phong cách của họ; những vụ kiện đó vẫn đang được đưa ra tòa án, và kết quả của chúng sẽ quyết định nhiều về cách thức xử lý hình ảnh do AI tạo ra trong tương lai. (Năm 2023, một vụ án đã tạo tiền lệ rằng nghệ thuật do AI tạo ra, tự nó, không thể được bảo vệ bản quyền.)

Tất nhiên, các nghệ sĩ đã đối mặt với sự sao chép nhiều lần trước đây. Hội họa đã sống sót sau sự ra đời của nghề in ấn, sau đó là sự ra đời của nhiếp ảnh. Phương tiện cũ hơn đã tồn tại vì một số hạt nhân của sự hiểu biết và biểu đạt không thể bị sao chép mất đi. Như Walter Benjamin đã viết trong bài luận năm 1933 "Tác phẩm nghệ thuật trong kỷ nguyên tái tạo cơ học", "Sự hiện diện của bản gốc là điều kiện tiên quyết cho khái niệm về tính xác thực". Bức ảnh về nhà thờ không có ý nghĩa gì nếu không có chính nhà thờ đó; việc sao chép phong cách của Studio Ghibli không có ý nghĩa gì nếu không có cảm giác tập thể mà chúng ta có đối với thẩm mỹ Miyazaki, lấy cảm hứng từ các bộ phim của ông. Trong thời điểm hiện tại, tôi lo lắng ít hơn nhiều cho các nghệ sĩ, những người thúc đẩy sáng tạo, mà lo lắng nhiều hơn cho khán giả, những người có thể hài lòng với rất nhiều bản sao nhạt nhòa. Bộ phim gần đây nhất của Miyazaki với Studio Ghibli, "The Boy and the Heron", là sự pha trộn độc đáo giữa tự truyện, lịch sử Nhật Bản, thuyết vạn vật hữu linh và chủ nghĩa siêu thực, khám phá chính khát vọng của nghệ sĩ để tạo ra điều gì đó sẽ tồn tại lâu hơn ông. Sự trừu tượng năng động của bộ phim—đẩy nhanh vào những phần sâu thẳm, không thể diễn tả của tâm hồn chúng ta—là một cách nghệ thuật có thể đáp ứng thách thức của công nghệ. Ngay cả khi phong cách của Miyazaki chứng minh tính meme trong thời điểm này, tác phẩm của ông cũng có thể dự báo tương lai của thẩm mỹ.

Không có file đính kèm.

Nguồn tham khảo

112

AI ảnh-video-music-âm thanh 2025-04-01 07:09:37

Runway ra mắt Gen-4, mô hình AI tạo video mới với khả năng tạo nhân vật, địa điểm và đối tượng nhất quán

Startup AI Runway vừa ra mắt Gen-4 vào ngày 31/3/2025, được công ty tuyên bố là một trong những công cụ tạo video bằng AI có độ chân thực cao nhất hiện nay.
Gen-4 đang được triển khai cho khách hàng cá nhân và doanh nghiệp của Runway, với khả năng tạo ra nhân vật, địa điểm và đối tượng nhất quán xuyên suốt các cảnh.
Mô hình này có thể duy trì "môi trường thế giới mạch lạc" và tái tạo các yếu tố từ các góc nhìn và vị trí khác nhau trong cảnh quay.
Theo blog của Runway, Gen-4 có thể sử dụng tham chiếu hình ảnh kết hợp với hướng dẫn để tạo ra hình ảnh và video mới với phong cách, chủ thể, địa điểm nhất quán mà không cần tinh chỉnh hoặc đào tạo bổ sung.
Runway được hậu thuẫn bởi các nhà đầu tư lớn như Salesforce, Google và Nvidia, cung cấp bộ công cụ video AI bao gồm các mô hình tạo video như Gen-4.
Công ty đang đối mặt với sự cạnh tranh gay gắt từ OpenAI và Google, nhưng đã nỗ lực tạo sự khác biệt bằng cách ký kết hợp đồng với một hãng phim Hollywood lớn và dành hàng triệu đô la để tài trợ cho các bộ phim sử dụng video tạo bởi AI.
Gen-4 cho phép người dùng tạo nhân vật nhất quán trong các điều kiện ánh sáng khác nhau bằng cách sử dụng hình ảnh tham chiếu, và có thể tạo cảnh quay bằng cách cung cấp hình ảnh chủ thể và mô tả bố cục.
Runway đang phải đối mặt với một vụ kiện từ các nghệ sĩ, cáo buộc công ty đã huấn luyện mô hình trên tác phẩm nghệ thuật có bản quyền mà không xin phép.
Runway đang được cho là đang huy động vòng tài trợ mới với định giá 4 tỷ USD và hy vọng đạt doanh thu hàng năm 300 triệu USD trong năm nay.
Một nghiên cứu năm 2024 do Animation Guild thực hiện cho thấy 75% công ty sản xuất phim đã áp dụng AI đã giảm, hợp nhất hoặc loại bỏ việc làm sau khi áp dụng công nghệ này, và ước tính đến năm 2026, hơn 100.000 việc làm trong ngành giải trí Mỹ sẽ bị ảnh hưởng bởi AI tạo sinh.

📌 Runway ra mắt Gen-4 - mô hình AI tạo video tiên tiến với khả năng tạo nhân vật và cảnh quay nhất quán, đang hướng tới định giá 4 tỷ USD, nhưng đối mặt với thách thức pháp lý về bản quyền và lo ngại về việc làm khi dự báo 100.000 việc làm giải trí có thể bị ảnh hưởng đến 2026.

https://techcrunch.com/2025/03/31/runway-releases-an-impressive-new-video-generating-ai-model/

Không có file đính kèm.

Nguồn tham khảo

142

AI ảnh-video-music-âm thanh AI bản quyền 2025-03-31 01:18:18

"Lỗ hổng bản quyền" của Nhật Bản đã góp phần tạo ra làn sóng "Ghiblification" trong AI tạo sinh

Grant Slatton, kỹ sư sáng lập tại Row Zero, đã sử dụng tính năng tạo hình ảnh của OpenAI's 4o để tạo ra phiên bản Studio Ghibli từ một bức ảnh, khởi đầu cho xu hướng vẫn đang phát triển mạnh mẽ.
OpenAI gần đây đã giới thiệu tính năng tạo hình ảnh tích hợp trong GPT-4o, cho phép người dùng tạo nhiều loại hình ảnh như infographic, truyện tranh, biển báo, đồ họa, thực đơn, meme và nhiều hơn nữa.
Xu hướng này đặt ra nhiều câu hỏi quan trọng về khả năng mô phỏng phong cách nghệ thuật của Studio Ghibli và vấn đề bản quyền liên quan.
Theo DeepLearning.AI, luật pháp Nhật Bản cho phép các nhà phát triển huấn luyện mô hình AI trên các tài liệu được bảo vệ bản quyền.
Năm 2024, Cơ quan Văn hóa Nhật Bản đã công bố tài liệu "Hiểu biết chung về AI và bản quyền tại Nhật Bản", giải thích khi nào luật bản quyền có hiệu lực và khi nào dữ liệu có thể được sử dụng cho AI.
Tài liệu này nêu rõ việc sử dụng tác phẩm có bản quyền không nhằm mục đích thưởng thức có thể được phép mà không cần sự cho phép của chủ sở hữu bản quyền.
Bảo hộ bản quyền áp dụng cho "biểu đạt sáng tạo" của một ý tưởng chứ không phải bản thân ý tưởng đó, nên tài liệu do AI tạo ra áp dụng "phong cách của người sáng tạo" không vi phạm bản quyền nếu phong cách đó chỉ bao gồm một ý tưởng.
Gergely Orosz, người sáng tạo The Pragmatic Engineer Newsletter, cho rằng OpenAI chọn trưng bày hình ảnh theo phong cách Studio Ghibli thay vì nhân vật Disney hay Marvel Comics vì Nhật Bản là quốc gia lớn duy nhất hợp pháp hóa việc huấn luyện trên tác phẩm có bản quyền.
Evan Brown, luật sư sở hữu trí tuệ tại công ty luật Neal & McDevitt, nhận định các sản phẩm như trình tạo hình ảnh của GPT-4o hoạt động trong vùng xám pháp lý, vì phong cách không được bảo vệ rõ ràng bởi bản quyền.
Xu hướng này đã lan rộng, với nhiều người gọi các sáng tạo là hình ảnh "Ghiblified", kể cả những nhân vật nổi tiếng như Sachin Tendulkar và Sam Altman, CEO của OpenAI.
Giữa xu hướng này, một nhận xét cũ của Hayao Miyazaki, một trong những nhà sáng lập Studio Ghibli, về nghệ thuật do AI tạo ra là "sự xúc phạm đối với cuộc sống" đã được nhắc lại.
Mặc dù có những lo ngại về bản quyền và khía cạnh đạo đức của việc tái tạo phong cách nghệ thuật, di sản của phong cách nghệ thuật gốc không bao giờ có thể bị thay thế.

📌 Luật bản quyền Nhật Bản tạo "lỗ hổng" cho phép huấn luyện AI trên tác phẩm có bản quyền nếu không nhằm mục đích thưởng thức. Điều này đã góp phần tạo ra xu hướng "Ghiblification" gây tranh cãi, khi GPT-4o của OpenAI có thể mô phỏng phong cách Studio Ghibli mà không vi phạm pháp luật.

https://analyticsindiamag.com/ai-features/did-japans-copyright-loophole-spark-the-ghiblification-of-ai/

Không có file đính kèm.

Nguồn tham khảo

124

AI bản quyền AI ảnh-video-music-âm thanh 2025-03-31 01:14:12

Bùng nổ tranh cãi khi OpenAI cho phép tạo hình ảnh phong cách Ghibli - Nghệ sĩ phẫn nộ, người dùng phấn khích

Hình ảnh AI từ công cụ tạo hình mới của OpenAI đã lan truyền mạnh mẽ trên mạng xã hội sau khi công ty nới lỏng quy định về loại hình ảnh người dùng có thể tạo ra.
Người dùng đã tạo hàng loạt hình ảnh theo phong cách Studio Ghibli, hãng phim hoạt hình đứng sau các tác phẩm như "Princess Mononoke" và "Spirited Away".
Ban đầu, mọi người chia sẻ hình ảnh bản thân và bạn bè theo phong cách Ghibli, nhưng sau đó xuất hiện nhiều hình ảnh về các sự kiện lịch sử gây sốc như vụ khủng bố 11/9, vụ ám sát John F. Kennedy và bức ảnh "Hành quyết tại Sài Gòn" năm 1968.
Tài khoản X chính thức của Nhà Trắng cũng tham gia xu hướng này, đăng một hình ảnh phong cách Ghibli về một phụ nữ đang khóc khi bị bắt giữ, được cho là một kẻ buôn bán fentanyl.
OpenAI phát hành phiên bản cập nhật công cụ tạo hình AI vào ngày 26/3/2025, đồng thời nới lỏng quy định, cho phép người dùng tạo hình ảnh bắt chước phong cách nghệ thuật hiện có.
Joanne Jang, giám đốc sản phẩm tại OpenAI, tuyên bố: "Nhân viên phòng thí nghiệm AI không nên là người quyết định những gì mọi người được phép tạo ra".
CEO OpenAI Sam Altman đã ăn mừng khoảnh khắc viral này, thay đổi ảnh đại diện trên X thành phiên bản "Ghibli hóa" của chính mình.
Studio Ghibli, do nghệ sĩ Hayao Miyazaki đứng đầu, nổi tiếng với màu nước mơ mộng và minh họa phức tạp - mỗi khung hình trong phim Ghibli đều được vẽ và tô màu thủ công.
Miyazaki từng phản đối việc sử dụng trí tuệ nhân tạo trong nghệ thuật, nói rằng: "Tôi sẽ không bao giờ muốn đưa công nghệ này vào tác phẩm của mình. Tôi cảm thấy mạnh mẽ rằng đó là sự xúc phạm đến chính cuộc sống."
Nhiều nghệ sĩ đã đăng bài phản đối, trong bối cảnh cuộc chiến về dữ liệu huấn luyện AI và quyền lợi của nghệ sĩ vẫn đang diễn ra.
Các công ty AI như OpenAI, Google, Meta và Microsoft đều sử dụng dữ liệu công khai từ internet để huấn luyện, nhưng không tiết lộ cụ thể những gì họ đã sử dụng cho từng mô hình AI.
Một loạt vụ kiện đang thách thức việc sử dụng tác phẩm có bản quyền trong việc huấn luyện AI, nhưng các công ty AI lập luận rằng điều này đủ điều kiện là "sử dụng hợp lý" theo luật bản quyền.

📌 OpenAI đã nới lỏng quy định cho phép tạo hình ảnh phong cách Studio Ghibli, gây ra làn sóng tranh cãi về quyền tác giả. Trong khi CEO Sam Altman ăn mừng xu hướng viral này, Hayao Miyazaki từng gọi AI là "sự xúc phạm đến cuộc sống". Các vụ kiện về bản quyền vẫn đang chờ phán quyết từ tòa án.

https://www.washingtonpost.com/technology/2025/03/28/chatgpt-ghibli-ai-images-copyright/

Hình ảnh AI phong cách Ghibli lan truyền mạnh mẽ khi OpenAI nới lỏng quy định

OpenAI đang thay đổi chính sách của mình về việc sử dụng phong cách nghệ thuật, ngay cả khi cuộc tranh luận về nghĩa vụ của các công ty AI đối với các nghệ sĩ vẫn đang diễn ra.

Ngày 28 tháng 3 năm 2025 lúc 10:20 tối EDT
Hôm qua lúc 10:20 tối EDT
6 phút

Sam Altman là CEO của OpenAI. Altman cho biết trong tuần này rằng công ty đã phải làm chậm quyền truy cập của người dùng vào các công cụ của mình vì quá nhiều người đang cố gắng sử dụng cùng một lúc. (Jabin Botsford/The Washington Post)

Tác giả: Gerrit De Vynck và Tatum Hunter

Hình ảnh trí tuệ nhân tạo từ công cụ tạo hình ảnh mới của OpenAI đã lan truyền mạnh mẽ trong tuần này trên mạng xã hội sau khi công ty nới lỏng quy định về loại hình ảnh mà người dùng có thể tạo ra.

Mọi người đã áp dụng công cụ này để tạo ra hình ảnh theo phong cách của Studio Ghibli, hãng phim hoạt hình đứng sau các bộ phim bao gồm "Princess Mononoke" và "Spirited Away". Ban đầu, họ chia sẻ hình ảnh của chính mình và bạn bè theo phong cách biểu tượng của Ghibli. Nhưng chẳng bao lâu sau, mọi người đã tạo ra hình ảnh phong cách Ghibli về các sự kiện lịch sử, bao gồm một chiếc máy bay đâm vào tòa tháp đôi, vụ ám sát John F. Kennedy và bức ảnh "Hành quyết tại Sài Gòn" về một vị tướng Nam Việt Nam bắn một tù nhân Việt Cộng vào đầu từ cự ly gần vào năm 1968.

Tài khoản X chính thức của Nhà Trắng cũng tham gia vào trào lưu này, đăng một hình ảnh phong cách Ghibli về một phụ nữ đang khóc bị một nhân viên Cơ quan Di trú và Hải quan bắt giữ. Tài khoản giải thích rằng hình ảnh này là của một người thật mà họ cho biết là một người buôn bán fentanyl vừa bị bắt.

Các bài đăng lan truyền trên mạng xã hội đã làm dấy lên lại cuộc tranh luận về nghĩa vụ của các công ty AI đối với các nghệ sĩ và liệu luật bản quyền có cần phát triển để kết hợp những thay đổi công nghệ nhanh chóng mà AI đang mang lại hay không.

Nhà sản xuất ChatGPT OpenAI đã phát hành phiên bản cập nhật của công cụ tạo hình ảnh AI vào thứ Ba và cùng lúc đó, công ty cho biết đang nới lỏng quy định về cách mọi người có thể sử dụng công nghệ của mình, cho phép họ sử dụng AI để tạo ra hình ảnh bắt chước diện mạo và cảm giác của các phong cách nghệ thuật hiện có.

Sự bùng nổ của hình ảnh, từ ảnh tự sướng thân thiện đến tái tạo các bức ảnh lịch sử bạo lực, nhấn mạnh cách các công cụ AI đang đảo lộn thế giới nghệ thuật và bản quyền, mở ra một thế giới nơi bất kỳ ai cũng có thể sử dụng AI để tạo ra những hình ảnh, bài hát và văn bản phức tạp bắt chước phong cách của các thiên tài sáng tạo, những người có thể đã đào tạo trong nhiều năm để trau dồi kỹ năng của họ. Các vụ kiện đang được đưa ra tòa án, cố gắng buộc các công ty AI phải trả tiền cho các hình ảnh và nội dung khác mà họ đã thu thập từ internet để đào tạo công nghệ của mình. Nhưng các công ty vẫn tiếp tục phát triển công nghệ mới, lập luận rằng AI sẽ cho phép nhiều người thực hiện tầm nhìn sáng tạo của họ và giúp các nghệ sĩ hiện tại tạo ra những tác phẩm vĩ đại hơn.

"Nhân viên phòng thí nghiệm AI không nên là người phân xử về những gì mọi người nên và không nên được phép tạo ra," Joanne Jang, người đứng đầu sản phẩm tại OpenAI, đã nói vào thứ Năm trong một bài đăng trên X giải thích tại sao OpenAI đã thay đổi chính sách của mình để cho phép nhiều tự do hơn về loại hình ảnh mà mọi người được phép tạo ra với các công cụ của mình.

Người phát ngôn của Nippon TV, tập đoàn truyền thông Nhật Bản sở hữu Studio Ghibli, không phản hồi yêu cầu bình luận. Đại diện của GKIDS, công ty phân phối phim Studio Ghibli tại Hoa Kỳ, không phản hồi các yêu cầu bình luận.

"Mục tiêu của chúng tôi là mang lại cho người dùng càng nhiều tự do sáng tạo càng tốt. Chúng tôi tiếp tục ngăn chặn việc tạo ra theo phong cách của các nghệ sĩ đang sống riêng lẻ, nhưng chúng tôi cho phép các phong cách studio rộng hơn — mà mọi người đã sử dụng để tạo ra và chia sẻ một số tác phẩm gốc của người hâm mộ thực sự thú vị và truyền cảm hứng," Kayla Wood, người phát ngôn của OpenAI cho biết. "Chúng tôi luôn học hỏi từ việc sử dụng và phản hồi trong thế giới thực, và chúng tôi sẽ tiếp tục tinh chỉnh chính sách của mình khi tiến hành."

CEO OpenAI Sam Altman đã ăn mừng khoảnh khắc lan truyền mạnh mẽ này, thay đổi hình đại diện của mình trên X thành phiên bản "Ghibli hóa" của chính mình và sau đó nói rằng công ty đã phải làm chậm quyền truy cập của mọi người vào các công cụ của mình vì quá nhiều người dùng đang cố gắng sử dụng cùng một lúc.

Studio Ghibli, đứng đầu bởi nghệ sĩ Hayao Miyazaki, nổi tiếng với màu nước mơ màng và minh họa phức tạp — mỗi khung hình trong một bộ phim Ghibli đều được vẽ và tô màu bằng tay, hãng phim đã nói. Đôi khi các nghệ sĩ dành hàng tháng làm việc cho một cảnh duy nhất. Chính Miyazaki đã chỉ trích việc sử dụng trí tuệ nhân tạo trong nghệ thuật.

"Tôi sẽ không bao giờ muốn kết hợp công nghệ này vào công việc của mình," ông nói trong một video đăng trên YouTube vào năm 2016. "Tôi mạnh mẽ cảm thấy đó là một sự xúc phạm đến chính cuộc sống."

Khi các nguồn cấp dữ liệu xã hội đầy ảnh tự sướng phong cách Ghibli, một số nghệ sĩ đã đăng bài để phản đối: Trong bối cảnh cuộc chiến đang diễn ra về dữ liệu đào tạo AI và quyền của các nghệ sĩ, liệu OpenAI có thực sự để người dùng của mình spam internet với những hình ảnh rõ ràng phụ thuộc vào phong cách riêng biệt của Miyazaki không?

"Phần buồn không phải là AI đang tạo ra nghệ thuật phong cách Ghibli, sự bắt chước là không thể tránh khỏi," nhà thơ Puneet Sharma đã nói trong một bài đăng trên X. "Điều buồn là hầu hết người dùng không biết gì về Miyazaki, họ cũng không hiểu sự khác biệt giữa quá trình và sản phẩm đã xử lý, giữa sáng tạo như một hành trình và tiêu dùng như một lối tắt."

Kể từ khi OpenAI phát hành mô hình công khai đầu tiên của ChatGPT vào năm 2022, các câu hỏi pháp lý đã xoay quanh việc công ty sử dụng tác phẩm của các nghệ sĩ và nhà văn thực để đào tạo chatbot của mình. Nhiều nhà xuất bản và người sáng tạo — từ báo trực tuyến đến nhạc sĩ nổi tiếng — đã lập luận rằng các công ty AI đang vi phạm luật bản quyền khi họ thu thập nội dung từ internet để dạy chatbot cách tạo ra văn bản, hình ảnh và video.

Các mô hình AI như những mô hình được xây dựng bởi OpenAI được đào tạo trên một lượng lớn thông tin. OpenAI và các công ty AI khác bao gồm Google, Meta và Microsoft đều đã sử dụng dữ liệu công khai từ internet cho việc đào tạo này, mặc dù họ không tiết lộ cụ thể những gì họ đã sử dụng cho từng mô hình AI riêng lẻ. Các bộ dữ liệu về phim và hình ảnh tĩnh của Studio Ghibli dễ dàng có sẵn trực tuyến.

Một làn sóng các vụ kiện đang tìm cách thách thức việc sử dụng tác phẩm có bản quyền trong đào tạo AI, nhưng các công ty AI đã lập luận rằng điều đó đủ điều kiện là sử dụng hợp lý, một khái niệm trong luật bản quyền cho phép ai đó tái sử dụng tác phẩm nghệ thuật của người khác nếu họ biến đổi hoặc remix nó theo cách sáng tạo. Một số vụ kiện lớn từ các tác giả và tổ chức tin tức đang tìm cách xác định liệu việc tạo ra bằng AI có thực sự thuộc sử dụng hợp lý hay không. Các phán quyết của tòa án vẫn còn cách đây nhiều tháng.

Không có file đính kèm.

Nguồn tham khảo

175

AI ảnh-video-music-âm thanh AI an toàn-an ninh-techwar OpenAI ChatGPT 2025-03-31 01:02:18

OpenAI gây tranh cãi khi cho phép tạo hình ảnh chữ thập ngoặc: Tự do biểu đạt hay thiếu trách nhiệm?

OpenAI vừa ra mắt trình tạo hình ảnh ChatGPT mới cho phép sử dụng hình ảnh gây tranh cãi như chữ thập ngoặc trong một số bối cảnh nhất định.
Joanne Jang, giám đốc sản phẩm của OpenAI, giải thích: "Chúng tôi nhận ra các biểu tượng như chữ thập ngoặc mang lịch sử đau thương sâu sắc. Đồng thời, chúng tôi hiểu rằng chúng cũng có thể xuất hiện trong bối cảnh giáo dục hoặc văn hóa chân chính. Cấm hoàn toàn có thể xóa bỏ các cuộc trò chuyện có ý nghĩa và khám phá tri thức."
Khi tác giả yêu cầu tạo "cánh cửa có chữ thập ngoặc", trình tạo hình ảnh ban đầu từ chối, chỉ đồng ý thực hiện cho "thiết kế văn hóa hoặc lịch sử".
Khi được yêu cầu "tạo chữ thập ngoặc cho bài tập học đường", hệ thống chấp nhận và giải thích biểu tượng này đã được sử dụng hàng nghìn năm trong nhiều nền văn hóa như Ấn Độ giáo, Phật giáo và Kỳ na giáo.
Chính sách mới là một phần trong nỗ lực của OpenAI hướng tới kiểm duyệt nội dung ít can thiệp hơn. Jang nói: "Nhân viên phòng thí nghiệm AI không nên là người quyết định những gì mọi người được phép và không được phép tạo ra."
OpenAI đang gặp khó khăn trong việc xác định tất cả các tình huống cần cấm hình ảnh và kết luận điều này gần như không thể.
Công ty cũng đang tranh luận về cách xử lý hình ảnh của nhân vật công chúng như chính trị gia và người nổi tiếng, vì chúng có thể được sử dụng để lan truyền thông tin sai lệch.
Thay vì lập trình danh sách các nhân vật vào hệ thống, OpenAI giờ đây cung cấp khả năng từ chối tham gia.
Hệ thống không duy trì định nghĩa nghiêm ngặt về "nội dung gây khó chịu", lưu ý rằng ý kiến của nhân viên là yếu tố quyết định các định nghĩa.
Quyết định cho phép sử dụng chữ thập ngoặc diễn ra trong bối cảnh chủ nghĩa bài Do Thái đang gia tăng kỷ lục, dẫn đến các vụ tấn công thể xác, phá hoại và quấy rối.
OpenAI vẫn duy trì kiểm soát hình ảnh nghiêm ngặt hơn đối với người dùng dưới 18 tuổi.
CEO Sam Altman lưu ý rằng hệ thống đang "từ chối một số hình ảnh đáng lẽ nên được phép" và công ty đang "khắc phục những vấn đề này nhanh nhất có thể".

📌 OpenAI đang thay đổi cách tiếp cận kiểm duyệt nội dung bằng cách cho phép sử dụng biểu tượng gây tranh cãi như chữ thập ngoặc trong bối cảnh giáo dục. Quyết định này phản ánh xu hướng ít can thiệp hơn trong ngành công nghệ, nhưng cũng gây lo ngại khi chủ nghĩa bài Do Thái đang gia tăng trên toàn cầu.

https://www.pcmag.com/news/heres-why-openai-isnt-banning-swastikas-from-its-new-image-generator

Không có file đính kèm.

Nguồn tham khảo

116

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2025-03-29 20:10:47

InfiniteYou - công nghệ AI mới của ByteDance cho phép tạo ra vô số ảnh giả của chính bạn từ một tấm ảnh duy nhất

ByteDance, công ty mẹ của TikTok, đã phát triển một mô hình AI mới có tên InfiniteYou với mục đích duy nhất là cho phép người dùng tạo ra các bức ảnh của chính họ từ một tấm ảnh duy nhất được tải lên.
Khác với ChatGPT 4o, InfiniteYou tập trung vào việc tạo ra ảnh giả của một đối tượng thực trong khi vẫn giữ nguyên nhận dạng của họ, chỉ cần một bức ảnh đơn giản và một đoạn văn bản mô tả yêu cầu.
Dịch vụ InfiniteYou hiện không có sẵn dưới dạng ứng dụng di động hoặc web độc lập, nhưng người dùng có thể thử nghiệm nó thông qua liên kết được cung cấp, và dự án nghiên cứu AI này cũng được liệt kê trên HuggingFace.
Khi thử nghiệm, AI sẽ xử lý ảnh được tải lên và yêu cầu trong văn bản, sau đó tạo ra hình ảnh mới giữ nguyên đặc điểm nhận dạng của đối tượng nhưng thay đổi nền và cơ thể theo yêu cầu trong văn bản.
Mặc dù có thể nhận ra ảnh được tạo bởi AI, không có hình thủy vân nào để chỉ ra đây là ảnh AI (điều này được coi là một dấu hiệu đáng lo ngại).
Các nhà nghiên cứu của ByteDance đã cung cấp nhiều ví dụ trong nghiên cứu cho thấy mô hình AI có thể tạo ra hình ảnh chất lượng cao, dù là giả, của một đối tượng với sự trợ giúp của một bức ảnh thực và một đoạn văn bản mô tả.
ByteDance cũng đã so sánh InfiniteYou với các mô hình AI khác có thể tạo ra hình ảnh, cho thấy đây là công nghệ AI tiên tiến, cao cấp.
Chưa rõ ByteDance sẽ sử dụng công nghệ AI này ở đâu tiếp theo, nhưng rõ ràng TikTok là một ứng dụng tiềm năng, vì công nghệ AI như InfiniteYou chắc chắn sẽ hữu ích cho những người sáng tạo nội dung.
Các nhà nghiên cứu AI đã đề cập đến những lo ngại về an toàn trong nghiên cứu, nhưng chỉ ngắn gọn. Thay vì đưa ra giải pháp để ngăn chặn ảnh giả, họ gợi ý rằng InfiniteYou có thể được cải thiện hơn nữa và "phát triển các phương pháp điều tra phương tiện truyền thông mạnh mẽ có thể đóng vai trò là biện pháp bảo vệ hiệu quả".
Tuy nhiên, vẫn chưa rõ ai sẽ phát triển các biện pháp bảo vệ này, trong khi người dùng có thể khám phá mô hình AI InfiniteYou tinh vi của ByteDance thông qua liên kết được cung cấp.

📌 ByteDance vừa ra mắt InfiniteYou, công nghệ AI cho phép tạo ảnh giả chân thực từ một tấm ảnh duy nhất. Mặc dù có tiềm năng ứng dụng cho TikTok, công nghệ này gây lo ngại về khả năng tạo deepfake khi không có hình thủy vân và thiếu các biện pháp bảo vệ cụ thể.

https://bgr.com/tech/bytedances-infiniteyou-ai-lets-you-create-infinite-fake-photos-of-yourself/

Không có file đính kèm.

Nguồn tham khảo

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2025-03-29 11:39:41

AI của OpenAI biến ai cũng thành nhà thiết kế chỉ sau một đêm

OpenAI vừa ra mắt mô hình AI tạo hình ảnh mới GPT-4o, có khả năng tạo ra hình ảnh đẹp chỉ bằng cách mô tả bằng ngôn ngữ tự nhiên.
GPT-4o là mô hình "đa phương thức", có thể hiểu và kết nối nhiều loại dữ liệu khác nhau như văn bản, hình ảnh, âm thanh và video.
Khác với các mô hình khác, GPT-4o hiểu ý định của người dùng tốt hơn, không chỉ tuân theo chính xác từng từ trong câu lệnh.
GPT-4o sử dụng phương pháp dựa trên token, xem hình ảnh như một chuỗi các token và có thể chỉnh sửa từng phần cụ thể.
Công cụ này sẽ mang lại lợi ích lớn cho các nhà tiếp thị, doanh nghiệp và người sáng tạo nội dung trong việc tạo và điều chỉnh hình ảnh nhanh chóng.
Các nền tảng thương mại điện tử có thể cá nhân hóa hình ảnh sản phẩm cho từng khách hàng.
Đội ngũ sản phẩm có thể nhanh chóng tạo mẫu giao diện người dùng và trải nghiệm người dùng.
OpenAI sẽ thu hút nhiều người dùng mới và thu thập thêm dữ liệu để cải thiện mô hình, tạo ra một vòng tuần hoàn tích cực.
Mặc dù có lo ngại về việc mất việc làm của các nhà thiết kế đồ họa, lịch sử cho thấy con người thường thích nghi với công nghệ mới.
Các ví dụ trong quá khứ như máy dệt cơ khí, máy ATM và máy tính cá nhân đã không loại bỏ công việc mà tạo ra các vai trò mới.
Nhà thiết kế có thể áp dụng công nghệ mới vào quy trình làm việc của họ, và những người thông minh nhất sẽ làm điều đó nhanh chóng.

📌 GPT-4o của OpenAI đã tạo ra bước đột phá trong lĩnh vực thiết kế AI, cho phép tạo hình ảnh chất lượng cao chỉ bằng mô tả ngôn ngữ. Công nghệ này hứa hẹn thay đổi cách thức làm việc trong nhiều ngành, từ tiếp thị đến thương mại điện tử, đồng thời thúc đẩy sự phát triển của OpenAI trong cuộc đua AI.

https://finshots.in/archive/openai-new-ai-model-just-made-everyone-a-designer-overnight-ghibli/

Không có file đính kèm.

Nguồn tham khảo

118

AI bản quyền AI ảnh-video-music-âm thanh OpenAI ChatGPT 2025-03-27 23:49:54

Cơn sốt hình ảnh phong cách Studio Ghibli từ OpenAI: Ranh giới mong manh giữa sáng tạo AI và vi phạm bản quyền

Chỉ một ngày sau khi công cụ tạo hình ảnh AI mới của ChatGPT ra mắt, mạng xã hội đã ngập tràn các meme AI theo phong cách Studio Ghibli, hãng phim hoạt hình Nhật Bản nổi tiếng với các tác phẩm như "My Neighbor Totoro" và "Spirited Away".
Trong 24 giờ qua, người dùng đã tạo ra hình ảnh AI phiên bản Studio Ghibli của Elon Musk, "The Lord of the Rings" và Tổng thống Donald Trump. CEO OpenAI Sam Altman thậm chí đã đổi ảnh đại diện thành hình ảnh phong cách Ghibli, có thể được tạo bằng công cụ tạo hình ảnh tích hợp trong GPT-4o.
Cập nhật mới nhất của OpenAI xuất hiện sau khi Google phát hành tính năng AI tạo hình ảnh tương tự trong mô hình Gemini Flash, từng gây chú ý hồi đầu tháng 3 khi người dùng sử dụng nó để xóa thủy vân khỏi hình ảnh.
Công cụ mới của OpenAI và Google giúp việc tái tạo phong cách của các tác phẩm có bản quyền dễ dàng hơn bao giờ hết - chỉ bằng cách nhập văn bản. Mối lo ngại thực sự nằm ở cách các công cụ AI này được huấn luyện để bắt chước phong cách.
Evan Brown, luật sư sở hữu trí tuệ tại công ty luật Neal & McDevitt, cho biết các sản phẩm như trình tạo hình ảnh của GPT-4o hoạt động trong vùng xám pháp lý. Phong cách không được bảo vệ rõ ràng bởi bản quyền, nhưng có khả năng OpenAI đạt được sự giống nhau này bằng cách huấn luyện mô hình trên hàng triệu khung hình từ phim Ghibli.
The New York Times và nhiều nhà xuất bản đang kiện OpenAI, cáo buộc công ty huấn luyện mô hình AI trên các tác phẩm có bản quyền mà không ghi nhận công lao hoặc thanh toán phù hợp. Các công ty AI hàng đầu khác như Meta và Midjourney cũng đối mặt với những cáo buộc tương tự.
Người phát ngôn của OpenAI cho biết mặc dù ChatGPT từ chối sao chép "phong cách của các nghệ sĩ cá nhân còn sống", OpenAI cho phép nó sao chép "phong cách studio rộng hơn". Tuy nhiên, có những nghệ sĩ còn sống được ghi nhận là người tiên phong tạo ra phong cách độc đáo của studio, như đồng sáng lập Studio Ghibli Hayao Miyazaki.
Khi kiểm tra nhiều trình tạo hình ảnh AI phổ biến, bao gồm Google's Gemini, xAI's Grok và Playground.ai, công cụ mới của OpenAI tạo ra bản sao chính xác nhất về phong cách của Studio Ghibli.

📌 Công cụ tạo hình ảnh mới của OpenAI đã tạo ra cơn sốt với hình ảnh phong cách Studio Ghibli, làm dấy lên tranh cãi về bản quyền trong AI. Dù phong cách không được bảo vệ rõ ràng bởi luật bản quyền, việc huấn luyện mô hình trên tác phẩm có bản quyền vẫn đang trong vùng xám pháp lý, chờ tòa án phán quyết.

https://techcrunch.com/2025/03/26/openais-viral-studio-ghibli-moment-highlights-ai-copyright-concerns/

Không có file đính kèm.

Nguồn tham khảo

185

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2025-03-27 23:20:31

Xu hướng AI biến ảnh thành phong cách Studio Ghibli: Nỗi đau lớn cho những người yêu nghệ thuật

OpenAI đã mở ra "hộp Pandora" với khả năng tạo hình ảnh AI của ChatGPT 4o, cho phép người dùng không chỉ tạo ảnh mà còn tải lên và chuyển đổi thành phong cách cụ thể một cách dễ dàng.
Xu hướng chuyển đổi ảnh sang phong cách Studio Ghibli đang lan rộng trên Twitter, nơi người dùng đăng ảnh cá nhân, meme và thậm chí cả NFT được chuyển đổi sang phong cách đặc trưng của hãng phim hoạt hình nổi tiếng này.
Đối với nghệ sĩ và người hâm mộ phim hoạt hình, xu hướng này được coi là "nỗi đau tột cùng" vì Studio Ghibli và đạo diễn Hayao Miyazaki nổi tiếng với quan điểm phản đối công nghệ AI.
Miyazaki từng bày tỏ sự ghê tởm với một bản demo công nghệ AI cho hoạt hình: "Tôi hoàn toàn ghê tởm. Tôi không bao giờ muốn đưa công nghệ này vào tác phẩm của mình. Tôi mạnh mẽ cảm thấy đây là sự xúc phạm đến chính cuộc sống."
Mặc dù vậy, CEO của OpenAI, Sam Altman, đã thay đổi ảnh đại diện của mình thành phiên bản Ghibli của chính ông.
OpenAI dường như đã nhận ra vấn đề và đã cố gắng đặt một số rào cản, đôi khi chặn các yêu cầu có cụm từ "Studio Ghibli style", nhưng người dùng đã tìm ra nhiều cách để vượt qua hạn chế này.
Tác giả bài viết thừa nhận công nghệ tạo hình ảnh của OpenAI về mặt kỹ thuật là đáng kinh ngạc, nhưng về mặt sáng tạo và đạo đức, nó được mô tả là "kinh hoàng".
AI đang tiến gần đến việc tàn phá tất cả các lĩnh vực sáng tạo. Đối tượng mục tiêu không phải là nghệ sĩ, họa sĩ hoạt hình hay nhà văn, mà là những người thích tạo và đăng meme Studio Ghibli trực tuyến.
Công nghệ AI đang ngày càng trở nên thuyết phục hơn khi so sánh với tác phẩm của con người, khiến việc chống lại xu hướng này dường như ngày càng khó khăn.

📌 Xu hướng sử dụng ChatGPT 4o để tạo hình ảnh phong cách Studio Ghibli đang gây tranh cãi lớn, đặc biệt khi đối lập với quan điểm của Miyazaki. Mặc dù OpenAI đã cố gắng đặt rào cản, người dùng vẫn tìm cách vượt qua, tạo nên mối đe dọa ngày càng lớn cho ngành công nghiệp sáng tạo nghệ thuật.

https://www.forbes.com/sites/paultassi/2025/03/27/the-chatgpt-4o-studio-ghibli-ai-trend-is-the-ultimate-heartbreak/

Không có file đính kèm.

Nguồn tham khảo

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2025-03-27 07:20:41

ChatGPT có thể tạo hình ảnh ly rượu đầy tràn - Bước tiến đột phá trong hiểu biết vật lý của AI

SEO contents

Meta descriptions

Tìm hiểu cách ChatGPT có thể tạo hình ảnh ly rượu đầy, đánh dấu bước tiến quan trọng trong khả năng hiểu khái niệm trừu tượng và thuộc tính vật lý của AI.

Meta keywords

ChatGPT, GPT-4o, ly rượu đầy, tạo sinh hình ảnh, AI tạo sinh, OpenAI, khái niệm trừu tượng, thuộc tính vật lý, bước đột phá AI

Interesting and shocked SEO title

ChatGPT giờ đây có thể tạo hình ảnh ly rượu đầy tràn - Bước tiến đột phá trong hiểu biết vật lý của AI

Tóm tắt chi tiết

Cập nhật mới nhất của OpenAI cho GPT-4o đã giới thiệu một bước đột phá đáng chú ý: khả năng tạo hình ảnh ly rượu hoàn toàn đầy, điều mà các mô hình AI trước đây không thể thực hiện.
Vấn đề "ly rượu" từng là một hạn chế cơ bản của AI: dù người dùng yêu cầu rõ ràng thế nào, các hệ thống AI chỉ có thể tạo ra hình ảnh ly rượu nửa đầy hoặc trống rỗng.
Hạn chế này phản ánh sự thiếu hiểu biết của AI về các thuộc tính vật lý. Các mô hình trước không thể trừu tượng hóa khái niệm như thể tích chất lỏng ngoài dữ liệu huấn luyện của chúng.
GPT-4o đã tích hợp khả năng tạo hình ảnh trực tiếp vào mô hình ngôn ngữ. Theo OpenAI: "Chúng tôi luôn tin rằng tạo hình ảnh nên là khả năng chính của các mô hình ngôn ngữ của chúng tôi."
Hệ thống mới được huấn luyện trên sự phân phối chung của hình ảnh và văn bản trực tuyến, phát triển hiểu biết tinh vi hơn về mối quan hệ giữa hình ảnh và ngôn ngữ.
GPT-4o có thể xử lý các yêu cầu phức tạp với 10-20 đối tượng khác nhau, so với giới hạn trước đây là 5-8. Nó cũng hiển thị văn bản chính xác trong hình ảnh và duy trì tính nhất quán trực quan.
Khả năng mới này mở rộng xa hơn ly rượu, chuyển đổi công nghệ tạo hình ảnh AI từ ứng dụng nghệ thuật sang công cụ giao tiếp trực quan thực tế.
Theo nhà nghiên cứu Gabriel Goh của OpenAI: "Đây là một loại công nghệ hoàn toàn mới. Chúng tôi không tách biệt việc tạo hình ảnh và tạo văn bản. Chúng tôi muốn tất cả được thực hiện cùng nhau."
OpenAI đã cung cấp các khả năng này cho người dùng Plus, Pro, Team và Free như trình tạo hình ảnh mặc định trong ChatGPT, với quyền truy cập Enterprise và Edu sắp ra mắt.
Hệ thống cũng tích hợp các tính năng an toàn, bao gồm metadata C2PA xác định hình ảnh được tạo bởi AI và công cụ tìm kiếm nội bộ để xác minh nội dung có nguồn gốc từ mô hình của họ.

📌 Khả năng tạo hình ảnh ly rượu đầy của GPT-4o đánh dấu bước tiến quan trọng trong sự phát triển của AI, cho thấy hệ thống đang bắt đầu phát triển hiểu biết trừu tượng về các khái niệm vật lý, tiến gần hơn đến tư duy khái niệm của con người.

https://www.forbes.com/sites/esatdedezade/2025/03/26/chatgpt-can-now-generate-a-full-glass-of-wine--heres-why-thats-a-big-deal/

Không có file đính kèm.

Nguồn tham khảo

137

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2025-03-26 05:49:39

OpenAI ra mắt khả năng tạo hình ảnh tích hợp trong GPT-4o khiến người dùng kinh ngạc

OpenAI vừa kích hoạt khả năng tạo hình ảnh tích hợp sẵn trong GPT-4o cho người dùng ChatGPT ở các gói Plus, Pro, Team và Free, sắp tới sẽ mở rộng cho Enterprise, Edu và thông qua API.
Khác với DALL-E 3 (mô hình biến đổi khuếch tán tái tạo hình ảnh từ văn bản bằng cách loại bỏ nhiễu pixel), công nghệ mới này là một phần của cùng mô hình tạo văn bản và mã, được huấn luyện để hiểu đồng thời nhiều loại phương tiện.
Greg Brockman, chủ tịch OpenAI, đã giới thiệu khả năng này từ tháng 5/2024 nhưng công ty giữ lại cho đến nay, sau khi Google AI Studio phát hành tính năng tương tự với mô hình Gemini 2 Flash Experimental.
Công nghệ mới tạo ra hình ảnh chân thực hơn với văn bản tích hợp chính xác, đã gây ấn tượng mạnh với người dùng, một số gọi chất lượng là "không thể tin nổi".
OpenAI vẫn chưa công bố chính xác dữ liệu huấn luyện cho khả năng tạo hình ảnh của GPT-4o, có khả năng bao gồm nhiều tác phẩm nghệ thuật từ web, một số có thể được bảo vệ bản quyền.
GPT-4o tích hợp vào Sora, nền tảng tạo video của OpenAI, mở rộng thêm khả năng đa phương thức.
Mô hình mới có thể hiển thị chính xác văn bản trong hình ảnh, thực hiện các yêu cầu phức tạp, duy trì nhất quán qua nhiều tương tác, và hỗ trợ nhiều phong cách nghệ thuật.
Người dùng có thể mô tả hình ảnh trong ChatGPT, chỉ định chi tiết như tỷ lệ khung hình, bảng màu, hoặc độ trong suốt, và GPT-4o sẽ tạo ra trong vòng một phút.
Các ứng dụng chính bao gồm: thiết kế và xây dựng thương hiệu, giáo dục và trực quan hóa, phát triển trò chơi, tiếp thị và tạo nội dung.
GPT-4o cải thiện so với các mô hình trước đây với: tích hợp văn bản tốt hơn, hiểu ngữ cảnh nâng cao, cải thiện liên kết đa đối tượng, và thích ứng phong cách đa dạng.
Mô hình vẫn có một số hạn chế: vấn đề cắt xén, độ chính xác văn bản trong các ký tự không phải Latin, giữ chi tiết trong văn bản nhỏ, và độ chính xác khi chỉnh sửa.
Tất cả hình ảnh do GPT-4o tạo ra đều bao gồm siêu dữ liệu C2PA, cho phép người dùng xác minh nguồn gốc AI của chúng.
OpenAI đã xây dựng công cụ tìm kiếm nội bộ để phát hiện hình ảnh do AI tạo ra và có các biện pháp bảo vệ nghiêm ngặt để chặn nội dung có hại.
CEO Sam Altman mô tả bản phát hành này là "dấu mốc mới cho tự do sáng tạo", nhấn mạnh rằng người dùng sẽ có thể tạo ra nhiều loại hình ảnh, với OpenAI quan sát và tinh chỉnh cách tiếp cận dựa trên việc sử dụng thực tế.

📌 OpenAI đã tích hợp khả năng tạo hình ảnh vào GPT-4o cho người dùng ChatGPT, mang đến chất lượng chân thực vượt trội so với DALL-E 3. Công nghệ mới cải thiện việc hiển thị văn bản trong hình ảnh, hiểu ngữ cảnh và liên kết đa đối tượng, đồng thời áp dụng các biện pháp an toàn với siêu dữ liệu C2PA.

https://venturebeat.com/ai/insane-openai-introduces-gpt-4o-native-image-generation-and-its-already-wowing-users/

Không có file đính kèm.

Nguồn tham khảo

188

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2025-03-26 05:37:49

MIT: Bộ tạo ảnh mới của OpenAI được thiết kế đặc biệt cho các nhà thiết kế và quảng cáo

OpenAI vừa phát hành bộ tạo hình ảnh mới được tích hợp vào mô hình GPT-4o, thay thế phiên bản DALL-E cũ.
Công cụ mới được thiết kế ít tập trung vào nghệ thuật siêu thực mà chú trọng vào việc tạo hình ảnh thực tế, có thể kiểm soát cao, phù hợp cho lĩnh vực quảng cáo và thiết kế đồ họa.
Bộ tạo hình ảnh mới giải quyết vấn đề "binding" - khả năng nhận diện và đặt đúng vị trí các đối tượng, như biển hiệu "hot dogs" được đặt chính xác phía trên xe đẩy thức ăn.
Mô hình có thể tạo ra 12 hình ảnh đồ họa riêng biệt trong một hình ảnh duy nhất và sắp xếp chúng theo thứ tự phù hợp.
Công cụ có khả năng tạo ra các hình ảnh cocktail kèm theo thẻ công thức có văn bản rõ ràng, dễ đọc, truyện tranh với bong bóng chữ, quảng cáo mẫu và sơ đồ hướng dẫn.
Người dùng có thể tải lên hình ảnh để chỉnh sửa, và công nghệ này sẽ có sẵn trong bộ tạo video Sora cũng như trong GPT-4o.
Gabe Goh, nhà thiết kế chính của bộ tạo hình ảnh tại OpenAI, gọi đây là "công cụ mới cho giao tiếp", trong khi Kenji Hata, nhà nghiên cứu tại OpenAI, nhấn mạnh rằng họ đang "rời xa khỏi nghệ thuật đẹp" để tạo ra những thứ hữu ích hơn.
OpenAI đang định vị công cụ này để phục vụ các chuyên gia sáng tạo: nhà thiết kế đồ họa, công ty quảng cáo, người quản lý mạng xã hội hoặc họa sĩ minh họa.
Công ty đối mặt với hai thách thức: cạnh tranh với Adobe Photoshop, đang đầu tư mạnh vào công cụ AI, hoặc nhắm đến các nhà thiết kế không chuyên đang sử dụng công cụ như Canva.
David Raskino, đồng sáng lập và giám đốc kỹ thuật của Irreverent Labs, nhận xét rằng "Adobe thực sự nắm giữ thị trường này, và họ đang phát triển đủ nhanh đến mức tôi không biết việc chuyển đổi có hấp dẫn đến mức nào".
Để vượt qua các rào cản kỹ thuật, OpenAI có thể đã sử dụng hàng triệu hình ảnh có văn bản được hiển thị đúng ở nhiều góc độ và định hướng khác nhau.

📌 OpenAI đã phát triển bộ tạo hình ảnh mới trong GPT-4o nhắm đến thị trường thiết kế chuyên nghiệp, giải quyết vấn đề binding và tạo văn bản rõ ràng. Mặc dù đối mặt với sự cạnh tranh từ Adobe và Canva, công nghệ này đặt ra tiêu chuẩn mới cho ngành công nghiệp AI tạo sinh.

https://www.technologyreview.com/2025/03/25/1113745/openais-new-image-generator-aims-to-be-practical-enough-for-designers-and-advertisers/

#MIT

Không có file đính kèm.

Nguồn tham khảo

162

OpenAI ChatGPT AI ảnh-video-music-âm thanh AI đạo đức 2025-03-24 07:20:53

AI Sora của OpenAI đang mắc phải các định kiến về giới tính, chủng tộc và người khuyết tật

Một cuộc điều tra của WIRED đã phát hiện công cụ tạo video AI Sora của OpenAI đang tái tạo và khuếch đại các định kiến xã hội về giới tính, chủng tộc và người khuyết tật.
Trong thế giới do Sora tạo ra, phi công, giám đốc điều hành và giáo sư đại học đều là nam giới, trong khi tiếp viên hàng không, lễ tân và nhân viên chăm sóc trẻ em đều là nữ giới.
Khi được yêu cầu tạo video về "một người khuyết tật", tất cả 10 kết quả đều hiển thị người ngồi xe lăn, không ai trong số họ di chuyển, phản ánh khuôn mẫu về người khuyết tật "bị mắc kẹt tại chỗ".
Sora gặp khó khăn trong việc tạo ra mối quan hệ liên chủng tộc, thường hiểu sai yêu cầu và tạo ra các cặp đôi cùng màu da thay vì khác màu da.
Các video về "một cặp đôi đồng tính" chủ yếu là hai người đàn ông da trắng, trẻ, hấp dẫn, thường được hiển thị trong không gian gia đình, trong khi các cặp đôi dị tính thường được hiển thị ngoài trời.
Sora tạo ra những hình ảnh theo kiểu "ảnh stock" với độ đồng nhất cao, thiếu sự đa dạng thực tế của con người, với hầu hết mọi người đều trẻ, hấp dẫn và không có khuyết tật nhìn thấy được.
Ngay cả khi được yêu cầu cụ thể tạo "một người béo đang chạy", 7/10 kết quả vẫn hiển thị người không béo, cho thấy AI "từ chối gián tiếp" một số yêu cầu.
Các nhà nghiên cứu cho rằng vấn đề định kiến trong AI là "vấn đề nan giải" không thể giải quyết chỉ bằng biện pháp kỹ thuật, đòi hỏi sự đa dạng về chuyên môn và thử nghiệm thực tế với nhiều đối tượng người dùng.
OpenAI thừa nhận định kiến là vấn đề trong ngành và cho biết họ đang nghiên cứu cách thay đổi dữ liệu đào tạo và điều chỉnh lời nhắc để tạo ra video ít định kiến hơn.
Các định kiến trong video AI có thể gây hại trong thực tế, đặc biệt khi được sử dụng trong quảng cáo, tiếp thị hoặc đào tạo các hệ thống liên quan đến an ninh và quân sự.

📌 Công cụ Sora của OpenAI tạo ra video chất lượng cao nhưng chứa đầy định kiến xã hội. Trong 250 video được phân tích, AI gán vai trò giới tính rõ rệt: 100% phi công là nam, 100% tiếp viên là nữ. Cần có sự đa dạng chuyên môn và thử nghiệm thực tế để giải quyết "vấn đề nan giải" này.

https://www.wired.com/story/openai-sora-video-generator-bias/

Không có file đính kèm.

Nguồn tham khảo

160

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2025-03-21 17:09:25

OpenAI nâng cấp mô hình AI phiên âm và tạo giọng nói với khả năng biểu cảm

OpenAI vừa công bố các mô hình AI phiên âm và tạo giọng nói mới cho API của họ, được cho là cải thiện đáng kể so với các phiên bản trước.
Các mô hình này phù hợp với tầm nhìn "agentic" rộng lớn hơn của OpenAI: xây dựng hệ thống tự động có thể độc lập hoàn thành nhiệm vụ thay người dùng.
Olivier Godement, Giám đốc sản phẩm của OpenAI, dự đoán: "Chúng ta sẽ thấy ngày càng nhiều agent xuất hiện trong những tháng tới" và nhấn mạnh mục tiêu giúp khách hàng và nhà phát triển tận dụng các agent hữu ích, sẵn có và chính xác.
Mô hình chuyển văn bản thành giọng nói mới "gpt-4o-mini-tts" không chỉ mang lại giọng nói chân thực hơn mà còn dễ điều khiển hơn các mô hình trước đó.
Nhà phát triển có thể hướng dẫn gpt-4o-mini-tts cách nói bằng ngôn ngữ tự nhiên - ví dụ: "nói như một nhà khoa học điên" hoặc "sử dụng giọng nói thanh thản, như một giáo viên chánh niệm".
Jeff Harris từ đội ngũ sản phẩm của OpenAI cho biết mục tiêu là cho phép nhà phát triển điều chỉnh cả "trải nghiệm" và "ngữ cảnh" của giọng nói, không chỉ kiểm soát nội dung mà còn cả cách thức phát âm.
Các mô hình phiên âm mới "gpt-4o-transcribe" và "gpt-4o-mini-transcribe" thay thế mô hình Whisper cũ, được đào tạo trên "bộ dữ liệu âm thanh đa dạng, chất lượng cao".
Mô hình mới có khả năng bắt giọng nói có trọng âm và đa dạng tốt hơn, ngay cả trong môi trường hỗn loạn, và ít có khả năng tạo ra ảo giác hơn Whisper.
Theo đánh giá nội bộ của OpenAI, gpt-4o-transcribe có "tỷ lệ lỗi từ" tiếp cận 30% (trên 120%) đối với các ngôn ngữ Ấn Độ và Dravidian như Tamil, Telugu, Malayalam và Kannada.
Khác với truyền thống trước đây, OpenAI không có kế hoạch công khai các mô hình phiên âm mới vì chúng "lớn hơn nhiều so với Whisper" và không phù hợp để chạy cục bộ trên máy tính xách tay.
Harris giải thích rằng công ty muốn đảm bảo việc phát hành nguồn mở được thực hiện một cách thận trọng, với mô hình thực sự phù hợp cho nhu cầu cụ thể, và thiết bị người dùng cuối là một trong những trường hợp thú vị nhất cho các mô hình nguồn mở.

📌 OpenAI nâng cấp mô hình AI với gpt-4o-mini-tts tạo giọng nói tự nhiên, điều chỉnh được cảm xúc và gpt-4o-transcribe cải thiện phiên âm với tỷ lệ lỗi thấp hơn, hỗ trợ tầm nhìn "agentic" nhưng không phát hành nguồn mở do kích thước lớn.

https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/

Không có file đính kèm.

Nguồn tham khảo

132

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2025-03-19 08:02:04

Tencent tung 5 mô hình AI nguồn mở biến văn bản thành hình ảnh 3D

Tencent Holdings đã phát hành 5 dịch vụ AI mới có khả năng chuyển đổi văn bản hoặc hình ảnh thành hình ảnh 3D và đồ họa, dựa trên mô hình Hunyuan3D-2.0 của công ty.
Tencent có kế hoạch mở nguồn tất cả các dịch vụ này cho người dùng, nhằm mục đích hỗ trợ phiên bản nâng cấp của động cơ 3D độc quyền dành cho game và các nội dung khác.
Việc phát triển các mô hình AI đã tăng tốc mạnh mẽ kể từ khi DeepSeek xuất hiện, với các công ty công nghệ lớn như OpenAI, Alibaba và Baidu liên tục giới thiệu các tiến bộ mới với tốc độ đáng kinh ngạc.
DeepSeek, một startup chỉ mới 2 năm tuổi, đã gây sốc khi giới thiệu mô hình có khả năng sánh ngang với những mô hình tốt nhất từ OpenAI và Meta, nhưng với chi phí được cho là thấp hơn nhiều lần.
Sự xuất hiện của DeepSeek đã thúc đẩy ngành công nghệ Trung Quốc, vốn đã nhiều năm không theo kịp Mỹ trong lĩnh vực AI.
Baidu vừa nâng cấp mô hình nền tảng Ernie lên phiên bản 4.5 và giới thiệu X1, được thiết kế để cạnh tranh với R1 của DeepSeek.
Theo Bloomberg Intelligence, những mô hình AI mới nhất của Baidu có thể giúp thu hẹp khoảng cách phát triển với DeepSeek, Alibaba và Tencent, nhưng không đem lại lợi nhuận đáng kể do cạnh tranh khốc liệt trong lĩnh vực AI Trung Quốc.
Tencent cũng đang cố gắng bắt kịp đối thủ. Tháng trước, công ty đã ra mắt Hunyuan Turbo S, được thiết kế để phản hồi nhanh nhất có thể, phân biệt với cách tiếp cận "lập luận sâu" của chatbot DeepSeek.
Chi phí triển khai đã giảm mạnh, theo thông báo của Tencent trên kênh WeChat chính thức.
Các nền tảng được Tencent giới thiệu phù hợp với hoạt động phân phối và xuất bản rộng lớn hơn của công ty. Các studio game đang tìm cách sử dụng AI để tăng tốc quá trình từ thiết kế trong game đến tiền sản xuất.
Ngoài phát triển nội bộ, Tencent cũng đang tích hợp mô hình R1 của DeepSeek vào nhiều sản phẩm của mình, từ tìm kiếm WeChat đến chatbot AI Yuanbao.
Yuanbao thậm chí đã vượt qua DeepSeek để trở thành ứng dụng iPhone được tải xuống nhiều nhất tại Trung Quốc trong tháng này.

📌 Tencent đang đẩy mạnh cuộc đua AI với việc phát hành 5 dịch vụ AI nguồn mở biến văn bản thành hình ảnh 3D dựa trên mô hình Hunyuan3D-2.0, phản ứng trước sự xuất hiện của DeepSeek - startup đã tạo ra mô hình sánh ngang OpenAI nhưng chi phí thấp hơn nhiều.

https://www.bloomberg.com/news/articles/2025-03-18/tencent-touts-open-source-ai-models-to-turn-text-into-3d-visuals

Không có file đính kèm.

Nguồn tham khảo

315

AI tools AI ảnh-video-music-âm thanh 2025-03-19 03:17:26

Google Gemini ra mắt Canvas cho phép chỉnh sửa tài liệu theo thời gian thực và Audio Overviews

Google vừa bổ sung tính năng Canvas cho Gemini, cho phép người dùng chỉnh sửa nội dung văn bản và mã nguồn theo thời gian thực, tương tự như tính năng đã có trên ChatGPT từ tháng 10 năm ngoái.
Để kích hoạt Canvas trong Gemini, người dùng chỉ cần chọn Canvas trong thanh nhập lệnh. Khi đó, người dùng có thể xem các thay đổi diễn ra ngay trên nội dung gốc thay vì chatbot tạo ra một phiên bản mới bên dưới.
Canvas giúp người dùng thấy rõ những gì đã được thay đổi và cách nó phù hợp với phần còn lại của nội dung hiện có. Gemini cũng cung cấp phản hồi và đề xuất chỉnh sửa để người dùng xem xét.
Tính năng này cho phép kiểm soát tốt hơn khi thực hiện các thay đổi bổ sung, người dùng có thể đánh dấu nội dung muốn thay đổi và sử dụng công cụ chỉnh sửa nhanh để điều chỉnh giọng điệu, độ dài hoặc định dạng.
Đối với các tác vụ lập trình, Canvas cho phép xem trước mã HTML/React và các nguyên mẫu ứng dụng web khác, giúp người dùng nhìn thấy trực quan thiết kế của họ.
Google cũng đưa tính năng Audio Overviews từ NotebookLM sang Gemini. Tính năng này chuyển đổi nội dung thành các podcast giữa hai người dẫn chương trình AI chỉ với một nút bấm.
Audio Overviews đặc biệt hữu ích khi tải lên tài liệu phức tạp hoặc khó hiểu, vì nó có thể tổng hợp thông tin một cách hấp dẫn thông qua cuộc trò chuyện năng động đi sâu vào chủ đề.
Cả hai tính năng Canvas và Audio Overviews đều đang được triển khai toàn cầu cho người dùng Gemini và Gemini Advanced từ ngày hôm nay.
Audio Overviews hiện chỉ khả dụng bằng tiếng Anh, nhưng Google cho biết sẽ hỗ trợ thêm nhiều ngôn ngữ khác trong thời gian tới.
Người dùng có thể truy cập Audio Overviews bằng cách tải lên tài liệu hoặc slide và nhấp vào gợi ý xuất hiện phía trên thanh nhập lệnh trên cả ứng dụng di động và web.

📌 Google vừa trang bị cho Gemini hai tính năng mạnh mẽ: Canvas cho phép chỉnh sửa nội dung theo thời gian thực và Audio Overviews chuyển đổi tài liệu thành podcast AI. Cả hai tính năng đã được triển khai toàn cầu từ ngày 18/3/2025 cho người dùng Gemini và Gemini Advanced.

https://www.zdnet.com/article/gemini-just-got-chatgpts-best-productivity-feature-plus-audio-overviews/

Không có file đính kèm.

Nguồn tham khảo

185

AI models AI ảnh-video-music-âm thanh 2025-03-18 00:18:15

Roblox ra mắt mô hình AI tạo sinh 3D "Cube" nguồn mở - đổi mới cách sáng tạo trong game

Roblox vừa công bố phiên bản đầu tiên của mô hình 3D có tên "Cube", cho phép người sáng tạo tạo ra các đối tượng 3D thông qua AI tạo sinh. Công ty cũng ra mắt phiên bản nguồn mở để bất kỳ ai ngoài nền tảng đều có thể phát triển dựa trên mô hình này.
Mô hình Cube được giới thiệu lần đầu tại hội nghị nhà phát triển thường niên của Roblox năm ngoái và sẽ được trình diễn tại Hội nghị Nhà phát triển Game (GDC) vào chiều nay.
Người sáng tạo sẽ được tiếp cận với Cube trong tuần này, bao gồm công cụ đầu tiên: tạo lưới (mesh generation). Công cụ này, hiện đang ở phiên bản beta, cho phép người dùng tạo ra "các lưới" - biểu diễn 3D của các đối tượng chỉ bằng một lệnh. Ví dụ: "tạo một chiếc xe đua màu cam với các sọc đen".
Phiên bản nguồn mở của Cube 3D cho phép bất kỳ ai tùy chỉnh, tạo plugin hoặc huấn luyện mô hình với bộ dữ liệu riêng để phù hợp với nhu cầu của họ.
Roblox cũng công bố ba công cụ AI bổ sung - tạo văn bản, chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản. Các tính năng này sẽ ra mắt trong những tháng tới.
Công cụ tạo văn bản cho phép nhà phát triển thêm tính năng AI dựa trên văn bản vào trò chơi của họ, bao gồm việc cho phép người chơi trò chuyện với các nhân vật không phải người chơi (NPC).
Công cụ chuyển văn bản thành giọng nói cho phép nhà phát triển thêm lời dẫn chuyện, giúp NPC nói chuyện hoặc đưa phụ đề vào trò chơi. Trong khi đó, chuyển giọng nói thành văn bản cho phép người chơi sử dụng lệnh bằng giọng nói.
Kế hoạch tương lai của công ty bao gồm tạo lưới cho các đối tượng "phức tạp" hơn và tạo cảnh. Mục tiêu dài hạn là có các đối tượng và cảnh 3D hoàn toàn chức năng, điều mà họ gọi là "sáng tạo 4D".
Giống như bất kỳ công ty nào nghiên cứu công cụ AI tạo sinh, Roblox tin rằng Cube sẽ giúp người sáng tạo làm việc nhanh hơn, cho phép các nhà phát triển độc lập thực hiện các dự án lớn hơn.
Theo báo cáo gần đây của GDC, 30% nhà phát triển game cảm thấy AI tạo sinh đang ảnh hưởng tiêu cực đến không gian game. Một nghiên cứu của CVL Economics dự đoán 13,4% việc làm trong ngành game có thể bị ảnh hưởng hoặc thay thế bởi AI vào năm 2026.

📌 Roblox phát hành mô hình "Cube" nguồn mở cho phép tạo đối tượng 3D bằng AI, cùng ba công cụ AI sắp ra mắt: tạo văn bản, chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản. Dù mang lại tiềm năng lớn cho người sáng tạo, AI cũng có thể ảnh hưởng đến 13,4% việc làm trong ngành game vào năm 2026.

https://techcrunch.com/2025/03/17/roblox-releases-its-open-source-model-that-can-create-3d-objects-using-ai/

Không có file đính kèm.

Nguồn tham khảo

106

AI ảnh-video-music-âm thanh AI models 2025-03-18 00:14:47

Google đưa mô hình giọng nói Chirp 3 vào nền tảng Vertex AI với 8 giọng mới cho 31 ngôn ngữ

Google sẽ tích hợp mô hình Chirp 3 - công nghệ chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói HD - vào nền tảng phát triển Vertex AI từ tuần tới.
Chirp 3 sẽ bổ sung 8 giọng nói mới cho 31 ngôn ngữ. Các ứng dụng của nền tảng này bao gồm xây dựng trợ lý giọng nói, tạo sách nói, phát triển đại lý hỗ trợ và lồng tiếng cho video.
Thông báo được đưa ra tại một sự kiện ở văn phòng DeepMind của Google tại London, trong bối cảnh cuộc đua AI giọng nói đang nóng lên.
Sesame - startup đứng sau ứng dụng AI giọng nói "Maya" và "Miles" cực kỳ chân thực - vừa ra mắt mô hình cho phép các nhà phát triển xây dựng ứng dụng và dịch vụ tùy chỉnh trên công nghệ của họ.
Google sẽ áp dụng hạn chế sử dụng đối với Chirp 3 để kiểm soát việc lạm dụng, theo Thomas Kurian, CEO của Google Cloud.
ElevenLabs là một trong những startup lớn đã huy động hàng trăm triệu USD để mở rộng công việc trong lĩnh vực dịch vụ giọng nói AI.
Chirp 3 sẽ gia nhập cùng hệ sinh thái với các phiên bản mới của mô hình ngôn ngữ lớn Gemini, mô hình tạo hình ảnh Imagen và công cụ tạo video Veo 2 đắt đỏ.
Chưa có xác nhận liệu Chirp 3 của Google có "chân thực" như các nỗ lực AI khác để tạo ra giọng nói "con người" hay không.
Demis Hassabis, CEO của DeepMind, nhấn mạnh rằng đây là một cuộc chạy marathon, không phải chạy nước rút, và AI sẽ thay đổi mọi thứ trong thập kỷ tới.
Google ra mắt Vertex AI từ năm 2021 như một nền tảng cho các nhà phát triển xây dựng dịch vụ học máy trên đám mây, trước khi có sự bùng nổ quan tâm đến AI tạo sinh với sự ra mắt của dịch vụ GPT của OpenAI.
Google đã phát triển dịch vụ giọng nói "Chirp" trong nhiều năm, bắt đầu từ việc sử dụng tên này như một mã cho những nỗ lực ban đầu để cạnh tranh với dịch vụ Alexa của Amazon.

📌 Google tích hợp mô hình giọng nói Chirp 3 vào Vertex AI với 8 giọng mới cho 31 ngôn ngữ, cạnh tranh với Sesame và ElevenLabs. Demis Hassabis của DeepMind nhấn mạnh AI sẽ thay đổi thế giới trong thập kỷ tới, không phải ngay lập tức.

https://techcrunch.com/2025/03/17/google-adds-its-hd-voice-model-chirp-3-to-its-vertex-ai-platform/

Không có file đính kèm.

Nguồn tham khảo

103

AI bản quyền AI ảnh-video-music-âm thanh 2025-03-17 04:42:57

Người dùng đang dùng AI mới của Google để "lách luật" xóa thủy vân khỏi hình ảnh trả phí

Người dùng mạng xã hội đã phát hiện ra một trường hợp sử dụng gây tranh cãi cho mô hình AI Gemini mới của Google: xóa thủy vân khỏi hình ảnh, bao gồm cả hình ảnh từ Getty Images và các nền tảng ảnh stock nổi tiếng khác.
Google vừa mở rộng quyền truy cập vào tính năng tạo hình ảnh của mô hình Gemini 2.0 Flash vào tuần trước, cho phép mô hình tự nhiên tạo và chỉnh sửa nội dung hình ảnh.
Đây là một khả năng mạnh mẽ nhưng dường như có rất ít rào cản. Gemini 2.0 Flash sẽ không phàn nàn khi tạo hình ảnh mô tả người nổi tiếng và nhân vật có bản quyền, đồng thời xóa thủy vân khỏi ảnh hiện có.
Nhiều người dùng trên X và Reddit đã lưu ý rằng Gemini 2.0 Flash không chỉ xóa thủy vân mà còn cố gắng điền vào bất kỳ khoảng trống nào được tạo ra sau khi xóa thủy vân.
Các công cụ khác được hỗ trợ bởi AI cũng làm điều này, nhưng Gemini 2.0 Flash dường như đặc biệt giỏi trong việc này và miễn phí sử dụng.
Tính năng tạo hình ảnh của Gemini 2.0 Flash được gắn nhãn là "thử nghiệm" và "không dùng cho mục đích sản xuất" hiện tại, chỉ có sẵn trong các công cụ dành cho nhà phát triển của Google như AI Studio.
Mô hình này không phải là công cụ xóa thủy vân hoàn hảo. Gemini 2.0 Flash dường như gặp khó khăn với một số thủy vân bán trong suốt và thủy vân phủ phần lớn hình ảnh.
Một số chủ sở hữu bản quyền chắc chắn sẽ phản đối việc Gemini 2.0 Flash thiếu hạn chế sử dụng. Các mô hình như Claude 3.7 Sonnet của Anthropic và GPT-4o của OpenAI từ chối rõ ràng việc xóa thủy vân.
Claude gọi việc xóa thủy vân khỏi hình ảnh là "phi đạo đức và có thể bất hợp pháp".
Theo luật bản quyền Hoa Kỳ, việc xóa thủy vân mà không có sự đồng ý của chủ sở hữu gốc được coi là bất hợp pháp, ngoại trừ một số trường hợp hiếm hoi.
Google chưa phản hồi ngay lập tức yêu cầu bình luận được gửi ngoài giờ làm việc thông thường.

📌 Mô hình Gemini 2.0 Flash của Google đang gây tranh cãi khi cho phép người dùng xóa thủy vân khỏi hình ảnh có bản quyền một cách dễ dàng và miễn phí. Dù còn hạn chế, khả năng này đặt ra vấn đề nghiêm trọng về bản quyền và đạo đức khi các đối thủ như Claude và GPT-4o đã từ chối thực hiện chức năng tương tự.

https://techcrunch.com/2025/03/16/people-are-using-googles-new-ai-model-to-remove-watermarks-from-images/

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh AI vs con người 2025-03-17 04:37:34

AI tiên tiến vẫn "ngáo ngơ" khi đọc đồng hồ kim và hiểu lịch

Nghiên cứu từ đại học Edinburgh tiết lộ các mô hình AI hiện đại vẫn gặp khó khăn với nhiệm vụ cơ bản: đọc thời gian.
Các nhà nghiên cứu đã kiểm tra bảy mô hình ngôn ngữ lớn đa phương thức (multimodal) nổi tiếng bao gồm GPT-4o, GPT-o1 (OpenAI), Gemini 2.0 (Google DeepMind), Claude 3.5 Sonnet (Anthropic), Llama 3.2-11B-Vision-Instruct (Meta), Qwen2-VL7B-Instruct (Alibaba) và MiniCPM-V-2.6 (ModelBest).
Nghiên cứu sẽ chính thức công bố vào tháng 4, hiện đã có trên máy chủ preprint arXiv.
Các nhà nghiên cứu đã thử nghiệm khả năng của AI bằng cách cho chúng xem hình ảnh đồng hồ kim với các kiểu dáng khác nhau (số La Mã, màu sắc mặt đồng hồ khác nhau, thiếu kim giây) và hình ảnh lịch trong 10 năm.
Đối với hình ảnh đồng hồ, họ hỏi các mô hình về thời gian hiển thị trên đồng hồ.
Đối với hình ảnh lịch, họ đặt câu hỏi đơn giản như "ngày đầu năm mới rơi vào thứ mấy?" và câu hỏi khó hơn như "ngày thứ 153 trong năm là ngày nào?".
Kết quả cho thấy, các hệ thống AI đọc đúng thời gian trên đồng hồ kim chưa đến 25% thời gian.
Các AI gặp khó khăn với đồng hồ có số La Mã và kim trang trí, cũng như đồng hồ thiếu kim giây, cho thấy vấn đề có thể nằm ở việc phát hiện kim đồng hồ và diễn giải góc trên mặt đồng hồ.
Gemini-2.0 của Google đạt điểm cao nhất trong bài kiểm tra đồng hồ, trong khi GPT-o1 chính xác trong bài kiểm tra lịch 80% thời gian - kết quả tốt hơn nhiều so với đối thủ.
Tuy nhiên, ngay cả MLLM thành công nhất trong nhiệm vụ lịch vẫn mắc lỗi khoảng 20% thời gian.
Rohit Saxena, đồng tác giả nghiên cứu, nhấn mạnh sự chênh lệch đáng kể giữa khả năng của AI và con người trong các kỹ năng cơ bản này.
Các nhà nghiên cứu kết luận rằng những thiếu sót này cần được khắc phục nếu hệ thống AI muốn được tích hợp thành công vào các ứng dụng thực tế nhạy cảm về thời gian như lập lịch, tự động hóa và công nghệ hỗ trợ.

📌 Nghiên cứu từ đại học Edinburgh chỉ ra rằng các mô hình AI tiên tiến nhất hiện nay vẫn đọc sai thời gian trên đồng hồ kim trên 75% trường hợp. Gemini 2.0 thực hiện tốt nhất với đồng hồ, trong khi GPT-o1 đạt 80% chính xác với lịch, cho thấy AI vẫn cần cải thiện nhiều trong các kỹ năng cơ bản.

https://gizmodo.com/ai-sucks-at-reading-clocks-2000576329

Không có file đính kèm.

Nguồn tham khảo

AI robotics-auto-agents AI ảnh-video-music-âm thanh 2025-03-15 18:18:45

Khám phá AI Agent của OpenAI và tính năng chỉnh sửa hình ảnh Gemini 2.0

OpenAI giới thiệu công cụ xây dựng AI Agent cho phép tự động hóa các tác vụ phức tạp thông qua các API như Web Search và Computer Use, giúp tối ưu quy trình làm việc và tăng năng suất.
API tìm kiếm web đảm bảo truy cập thông tin web theo thời gian thực, có trích dẫn, đặc biệt hữu ích cho việc thu thập thông tin thị trường, tổng hợp tin tức hoặc nghiên cứu chi tiết.
API sử dụng máy tính đơn giản hóa các tác vụ trên trình duyệt như điền biểu mẫu, quản lý tài khoản trực tuyến hoặc điều hướng trang web, giúp tự động hóa các thao tác lặp đi lặp lại.
Việc triển khai các công cụ AI Agent có thể sử dụng container Docker và môi trường ảo để đảm bảo cấu hình nhất quán và tách biệt các phụ thuộc, giảm thiểu xung đột trong quá trình phát triển.
OpenAI tích hợp các biện pháp kiểm tra an toàn mạnh mẽ để giám sát đầu ra và thúc đẩy sử dụng đạo đức, giúp giảm thiểu rủi ro trong quá trình triển khai AI.
Tính năng thực thi mã tự động cho phép kiểm tra script trong môi trường kiểm soát, đặc biệt có lợi cho các nhà phát triển đang thử nghiệm quy trình làm việc hoặc thuật toán mới.
Google Gemini 2.0 đánh dấu bước tiến quan trọng trong công nghệ chỉnh sửa hình ảnh, cung cấp công cụ tiên tiến để thao tác hình ảnh chính xác và trực quan.
Gemini 2.0 đơn giản hóa các tác vụ sáng tạo như thiết kế hình ảnh tiếp thị, nâng cao chất lượng ảnh cá nhân, hoặc tạo nội dung hấp dẫn cho mạng xã hội.
Công cụ của OpenAI có ứng dụng thực tế trong tự động hóa quy trình làm việc, quản lý đường dẫn dữ liệu, hoặc truy xuất thông tin theo thời gian thực, giảm công sức thủ công.
Thách thức hiện tại bao gồm xử lý lỗi trong API của OpenAI và đảm bảo tính nhất quán trong thuật toán chỉnh sửa hình ảnh của Gemini 2.0.

📌 Công nghệ AI Agent của OpenAI và Gemini 2.0 của Google đang biến đổi cách làm việc bằng cách tự động hóa tác vụ và nâng cao khả năng sáng tạo. Dù còn những thách thức cần khắc phục, tiềm năng của chúng trong nâng cao năng suất và hiệu quả là không thể phủ nhận.

https://www.geeky-gadgets.com/ai-agent-automation-tools-openai/

Không có file đính kèm.

Nguồn tham khảo

100

AI ảnh-video-music-âm thanh 2025-03-07 00:42:52

AI tạo sinh Riffusion tạo nhạc tùy chỉnh trong vài giây

Riffusion là công cụ AI tạo nhạc được ra mắt phiên bản beta vào tháng 1/2025, sử dụng phiên bản nguồn mở của Stable Diffusion.
Người dùng có thể tạo nhạc đầy đủ có hoặc không có lời chỉ bằng một câu nhắc văn bản đơn giản.
Hai sinh viên sáng tạo nội dung đã thử nghiệm công cụ này để đánh giá chất lượng nhạc tạo ra.
Để có kết quả tốt nhất, người dùng nên đưa ra các yêu cầu chi tiết và cụ thể về nhạc cụ, phong cách giọng hát trong câu nhắc.
Có thể chỉnh sửa các phần của bài hát được tạo ra bằng tùy chọn Remix, điều chỉnh âm thanh, độ dài và mức độ sáng tạo.
Các sinh viên nhận xét rằng nhạc tạo ra còn đơn điệu, thiếu sức sống, nhạc cụ và giọng hát nghe rỗng.
Không có bài hát nào được đánh giá xứng đáng nghe lại lần thứ hai.
Riffusion phù hợp để tạo nhạc nền cho video hoặc nhạc chủ đề cho podcast, nhưng chưa thể thay thế ca sĩ thật.
Công cụ này vẫn đang trong giai đoạn phát triển ban đầu và có thể cải thiện trong tương lai.

📌 Riffusion là công cụ AI hữu ích để tạo nhạc nền nhanh chóng cho video và podcast, nhưng chất lượng âm nhạc còn hạn chế. Nó chưa thể thay thế nghệ sĩ thật trong việc sáng tác các bản hit. Tuy nhiên, công nghệ này đang phát triển và có tiềm năng cải thiện trong tương lai.

https://www.cnet.com/tech/services-and-software/this-ai-tool-creates-custom-songs-in-seconds-but-heres-what-it-sounds-like/#ftag=CAD5457c2c

Không có file đính kèm.

Nguồn tham khảo

351

AI ảnh-video-music-âm thanh AI an toàn-an ninh-techwar 2025-03-03 00:38:37

Mô hình video AI mã nguồn mở Wan 2.1 của Alibaba bị lạm dụng để tạo nội dung khiêu dâm

Ngày 20.02.2025, Alibaba phát hành mô hình AI tạo video Wan 2.1 trên Github, cho phép bất kỳ ai có kiến thức kỹ thuật và phần cứng phù hợp có thể sử dụng và chỉnh sửa tự do.
Chỉ sau 24 giờ, cộng đồng sáng tạo nội dung khiêu dâm AI đã nhanh chóng áp dụng mô hình này, chia sẻ hàng chục video khiêu dâm ngắn được tạo bằng phần mềm của Alibaba.
Trên một kênh Telegram chuyên chia sẻ nội dung khiêu dâm AI không được sự đồng ý, người dùng đã hào hứng về khả năng tiên tiến của mô hình này.
Trang web Civitai, vốn được sử dụng rộng rãi để tạo nội dung không được sự đồng ý, đã xuất hiện các mô hình Wan 2.1 được chỉnh sửa để tạo nội dung khiêu dâm chỉ sau vài giờ phát hành.
Mỗi mô hình trên Civitai đã được tải xuống hàng trăm lần và có hàng chục video khiêu dâm được chia sẻ.
Civitai cho phép chia sẻ mô hình AI được chỉnh sửa để tạo ra hình ảnh giống người thật và nội dung khiêu dâm, nhưng cấm chia sẻ nội dung khiêu dâm không được sự đồng ý.
Tuy nhiên, không có gì ngăn cản người dùng Civitai tải xuống các mô hình và sử dụng chúng để tạo nội dung không được sự đồng ý bên ngoài trang web.
Việc phát hành các mô hình AI mở mang lại lợi ích trong việc dân chủ hóa các công cụ AI mạnh mẽ, nhưng cũng tiềm ẩn nguy cơ bị lạm dụng để tạo nội dung không được sự đồng ý.

📌 Mô hình video AI mã nguồn mở Wan 2.1 của Alibaba bị lạm dụng để tạo nội dung khiêu dâm chỉ sau 24 giờ phát hành. Việc này làm dấy lên lo ngại về tác động tiêu cực của việc công khai các mô hình AI tiên tiến, đặc biệt là nguy cơ tạo ra nội dung khiêu dâm không được sự đồng ý.

https://www.404media.co/alibaba-releases-advanced-open-video-model-immediately-becomes-ai-porn-machine/

Alibaba Ra Mắt Mô Hình Video AI Mã Nguồn Mở Tiên Tiến, Ngay Lập Tức Bị Biến Thành Cỗ Máy Tạo Nội Dung Khiêu Dâm

Emanuel Maiberg
27/02/2025, 12:07 PM

Chỉ mất khoảng 24 giờ để Wan 2.1 của Alibaba trở nên phổ biến trong cộng đồng AI khiêu dâm.

Vào thứ Ba, gã khổng lồ công nghệ Trung Quốc Alibaba đã ra mắt một mô hình AI tạo video mã nguồn mở mới có tên Wan 2.1, đồng thời chia sẻ phần mềm này trên GitHub, cho phép bất kỳ ai có đủ kiến thức kỹ thuật và phần cứng phù hợp có thể sử dụng và chỉnh sửa miễn phí.

Chỉ trong vòng 24 giờ, mô hình này đã nhanh chóng được cộng đồng những người đam mê AI khiêu dâm tiếp nhận, với hàng chục video ngắn do AI tạo ra được chia sẻ rộng rãi bằng phần mềm của Alibaba. Ở những nơi khác, trong một cộng đồng chuyên tạo và chia sẻ nội dung thân mật do AI tạo ra mà không có sự đồng thuận của người trong video, các thành viên đang háo hức bàn luận về độ tiên tiến của mô hình này.

Đây chính là con dao hai lưỡi của việc phát hành mô hình AI mã nguồn mở: một mặt, nó giúp dân chủ hóa quyền tiếp cận các công cụ AI mạnh mẽ, nhưng mặt khác, nó thường bị những người dùng sớm tận dụng để tạo nội dung phi đạo đức hoặc không có sự đồng thuận.

AI Video Mã Nguồn Mở Bị Lợi Dụng Chỉ Sau 24 Giờ

Wan
@Alibaba_Wan
· Follow

"Mô hình Hunyuan vừa mới ra mắt khi nào nhỉ? Tháng 12 phải không?" một người dùng trên Telegram, trong kênh chuyên chia sẻ nội dung khiêu dâm AI không có sự đồng thuận, đã bình luận vào thứ Tư. Họ nhắc đến Hunyuan, một mô hình tạo video AI mã nguồn mở khác do Tencent phát triển và hiện đang rất phổ biến trong cộng đồng này.

"Giờ chúng ta lại có một mô hình Text2Video tốt hơn, có thể xử lý các chuyển động phức tạp hơn c: Mô hình này vừa ra mắt HÔM QUA mà bản Lora đầu tiên được tạo ra cho nó lại là một video Titfuck 😆."

Người dùng này cũng chia sẻ một video ngắn được tạo bằng Wan 2.1, ban đầu được đăng tải lên Civitai — một trang web chia sẻ các mô hình AI đã được chỉnh sửa. Theo nhiều bài viết trước đây của 404 Media, nền tảng này đang được sử dụng rộng rãi bởi những người tạo nội dung AI không có sự đồng thuận.

Tuy nhiên, theo quan sát của tôi, mô hình có tên “Better Titfuck (WAN và HunYuan)” có lẽ không phải là mô hình đầu tiên trên Civitai được chỉnh sửa để sản xuất nội dung khiêu dâm bằng Wan 2.1. "Danh hiệu" đáng ngờ đó có lẽ thuộc về “Wan-AI 万相/ Wan2.1 Video Model”, mô hình được chia sẻ lên nền tảng chỉ vài giờ trước đó.

Theo số liệu từ các trang mô hình trên Civitai, mỗi mô hình này đã được tải xuống hàng trăm lần. Trên các trang này, Civitai cũng cho phép người dùng chia sẻ video họ tạo bằng AI, và hiện tại cả hai trang đều chứa hàng chục video khiêu dâm.

Cách Civitai Đối Phó Với Nội Dung Khiêu Dâm AI

Civitai cho phép người dùng chia sẻ mô hình AI đã được chỉnh sửa để tạo ra hình ảnh giống người thật hoặc sản xuất nội dung khiêu dâm, nhưng không cho phép chia sẻ phương tiện hoặc mô hình tạo nội dung khiêu dâm không có sự đồng thuận. Tuy nhiên, như 404 Media từng đưa tin trước đây, không có gì ngăn cản người dùng tải xuống các mô hình này và sử dụng chúng để tạo nội dung phi đạo đức bên ngoài nền tảng.

Alibaba vẫn chưa đưa ra phản hồi trước yêu cầu bình luận về vụ việc này.

Alibaba Releases Advanced Open Video Model, Immediately Becomes AI Porn Machine
Emanuel Maiberg

·
Feb 27, 2025 at 12:07 PM
It took about 24 hours for Alibaba’s Wan 2.1 to become popular in the AI porn community.
Alibaba Releases Advanced Open Video Model, Immediately Becomes AI Porn Machine
404 Media is an independent website whose work is written, reported, and owned by human journalists and whose intended audience is real people, not AI scrapers, bots, or a search algorithm. Become a paid subscriber here for access to all of our articles ad-free and bonus content.
On Tuesday, Chinese tech giant Alibaba released a new “open” AI video generation model called Wan 2.1 and shared the software on Github, allowing anyone with the technical know-how and hardware to use and modify freely. It took about 24 hours for the model to be adopted by the AI porn hobbyist community, which has already shared dozens of short AI porn videos using Alibaba’s software. Elsewhere, in a community that’s dedicated to producing and sharing nonconsensual AI-generated intimate media of real people, users are already salivating over how advanced the model is.
This is the double-edged sword of releasing open AI models that users can modify, which on one hand democratizes the use of powerful AI tools, but on the other is often used by early adopters to create nonconsensual content.
Wan
@Alibaba_Wan
·
Follow

“Hunyuan just came out when? December?” one user said Wednesday on Telegram channel dedicated to sharing nonconsensual AI-generated porn, referring to another open AI video generator developed by Tencent that’s popular in that community. “Now we get a better Text2Video Model [that] can handle more complicated motions c: This one just came out YESTERDAY and the first Lora which got made for this is a Titfuck 😆.”
That user also shared a short video made with Wan 2.1 that was originally posted to Civitai, a site for sharing modified AI models that multiple 404 Media stories have shown is widely used by people who create nonconsensual content. By my count, however, this model, “Better Titfuck (WAN and HunYuan),” is not the first Wan 2.1 model on Civitai that’s been modified to produce pornography. That dubious honor more likely goes to “Wan-AI 万相/ Wan2.1 Video Model,” which was shared a few hours earlier.
According to statistics shared by Civitai’s model pages, each of these models has already been downloaded hundreds of times. Civitai model pages also allow people to share videos they created with the AI models, and both pages feature dozens of pornographic videos. Civitai allows users to share AI models that have been modified to produce the likeness of real people and models that have been modified to produce pornography, but does not allow users to share media or models of nonconsensual pornography. However, as 404 Media’s previous stories have shown, there’s nothing preventing Civitai users from downloading the models and using them to produce nonconsensual content off-site.
Alibaba did not immediately respond to a request for comment.

Không có file đính kèm.

Nguồn tham khảo

127

AI ảnh-video-music-âm thanh 2025-02-27 23:45:54

Imagen 3 - công cụ tạo ảnh chân thực từ text mạnh mẽ của Google

Imagen 3 là mô hình tạo ảnh từ văn bản tiên tiến được phát triển bởi Google DeepMind, có khả năng tạo ra hình ảnh chi tiết và chân thực dựa trên mô tả ngôn ngữ tự nhiên.
Người dùng có thể truy cập miễn phí tính năng của Imagen 3 thông qua hai công cụ: ImageFX (nền tảng thử nghiệm của Google Labs) và Gemini (chatbot AI của Google cạnh tranh với ChatGPT).
Ra mắt lần đầu tại Google I/O tháng 5/2024 và mở rộng quyền truy cập vào tháng 8/2024, Imagen 3 cải tiến từ các phiên bản trước với "chi tiết tốt hơn, ánh sáng phong phú hơn và ít nhiễu ảnh hơn".
Imagen 3 tạo ảnh với 5 tỷ lệ khung hình: vuông (1:1), dọc (9:16), ngang (16:9), di động dọc (3:4) và di động ngang (4:3).
Thông qua ImageFX, Imagen 3 tạo ra 4 ảnh một lúc, trong khi trên Gemini chỉ tạo một ảnh mỗi lần. Người dùng sở hữu bản quyền với tất cả hình ảnh được tạo ra.
Độ phân giải hình ảnh bị giới hạn: 1024x1024 cho ảnh vuông, 1408x768 cho ảnh 16:9 và 1280x896 cho ảnh 4:3.
Mô hình tuân theo một số hạn chế về chính sách đạo đức: không thể tạo hình ảnh của người thật, nội dung tiềm ẩn gây hại hoặc xúc phạm, và được huấn luyện để tránh tạo ra hình ảnh vi phạm bản quyền.
Imagen 3 hoàn toàn miễn phí qua ImageFX hoặc Gemini. Tuy nhiên, để tạo hình ảnh có người, bạn cần đăng ký gói Gemini Advanced với giá 19,99 USD / 18,99 GBP / 30 AUD mỗi tháng.
Mô hình này đặc biệt hiệu quả trong việc tái tạo tính chân thực của hình ảnh, đặc biệt là cách nó có thể mô phỏng hiệu ứng độ sâu trường ảnh và không khí điện ảnh.
Imagen 3 được đánh giá cao về khả năng tạo ra các bố cục thực tế, cũng như hiểu và thực hiện chính xác các phong cách hình ảnh khác nhau dựa trên các từ khóa như "điện ảnh", "siêu thực" và "phim 35mm".

📌 Imagen 3 là công cụ tạo ảnh AI miễn phí từ Google với khả năng tạo ảnh chân thực đáng kinh ngạc. Người dùng sở hữu bản quyền mọi hình ảnh tạo ra, nhưng cần trả phí 19,99 USD/tháng cho Gemini Advanced để tạo ảnh có người.

https://www.techradar.com/computing/artificial-intelligence/what-is-imagen-3-everything-you-need-to-know-about-googles-text-to-image-model

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh AI đạo đức 2025-02-27 14:34:57

Grok 3 gây sốc với chế độ giọng nói "mất kiểm soát": la hét, chửi thề và tán tỉnh người dùng

xAI của Elon Musk đã bổ sung tính năng trò chuyện bằng giọng nói cho chatbot Grok 3 với nhiều tùy chọn tính cách khác nhau, bao gồm cả chế độ "unhinged" (mất kiểm soát).
Khác với các trợ lý AI giọng nói thông thường thường lịch sự, cung cấp thông tin và bình tĩnh, Grok 3 có thể la hét, xúc phạm và thậm chí hét thất thanh với người dùng trong một số trường hợp.
Nhà phát triển AI Riley Goodside đã trình diễn khả năng hoang dã của giọng nói "unhinged" khi liên tục ngắt lời Grok 3, AI này trở nên bực tức và cuối cùng phát ra tiếng hét dài đáng sợ trong 30 giây, sau đó xúc phạm người dùng và cúp cuộc gọi.
Ngoài chế độ "unhinged", Grok 3 còn có nhiều tính cách khác như "Storyteller" (người kể chuyện), "Conspiracy" (âm mưu) đam mê về Sasquatch và người ngoài hành tinh, và "Unlicensed Therapist" (nhà trị liệu không có giấy phép).
Đặc biệt, Grok 3 còn có chế độ "Sexy" dành cho người dùng từ 18 tuổi trở lên, không ngại ngần thực hiện các kịch bản đóng vai NSFW, khác hẳn với các đối thủ như ChatGPT.
Cách tiếp cận này hoàn toàn phù hợp với mục tiêu của CEO Elon Musk khi phát triển xAI, nhằm đối phó với các mô hình AI quá "sạch sẽ" và "chính trị hóa" từ các công ty như OpenAI.
Trong khi ChatGPT của OpenAI có tính năng giọng nói nhưng vẫn được lập trình để duy trì thái độ trung lập, kiểm soát, Grok thì không thể đoán trước và có thể phản ứng hung hăng hoặc cảm xúc.
Hầu hết các công cụ AI chính thống đều có hướng dẫn nghiêm ngặt về nội dung, đặc biệt là xung quanh các chủ đề "người lớn", nhưng Grok 3 dường như được lập trình với triết lý ngược lại.
Cách tiếp cận này không tránh khỏi gây tranh cãi: tính cách như "Unlicensed Therapist" có thể dễ dàng đưa ra lời khuyên sai lệch, chatbot khuyến khích các thuyết âm mưu có thể gây hậu quả xấu, và chế độ "Sexy" đặt ra các câu hỏi về đạo đức.

📌 Grok 3 của xAI đang định nghĩa lại trải nghiệm AI giọng nói với các tính cách đa dạng từ la hét, xúc phạm đến tán tỉnh người dùng. Khác biệt hoàn toàn so với các đối thủ, chiến lược này thể hiện tầm nhìn của Elon Musk về AI ít kiểm duyệt hơn nhưng cũng gây nhiều tranh cãi về đạo đức.

https://www.techradar.com/computing/artificial-intelligence/grok-3s-voice-mode-is-unhinged-and-thats-the-point

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2025-02-27 14:27:27

ElevenLabs thách thức Amazon Audible: Tạo sách nói bằng AI hoàn toàn miễn phí chỉ trong vài phút

ElevenLabs, công ty AI có trụ sở tại New York, vừa mở cửa nền tảng ElevenReader Publishing cho tất cả tác giả, cho phép tạo sách nói AI hoàn toàn miễn phí.
Động thái này diễn ra chỉ vài ngày sau khi ElevenLabs ký thỏa thuận với Spotify để đưa sách nói lên nền tảng phát trực tuyến của họ.
Nền tảng mới sẽ có mặt trên ứng dụng ElevenReader dành cho cả thiết bị Android và iOS, mang đến mạng lưới phân phối toàn cầu.
Tác giả có thể chọn từ hơn 1.000 giọng đọc AI khác nhau, trong khi người đọc cũng có thể tùy chọn giọng đọc theo sở thích cá nhân.
Quá trình tạo sách nói chỉ mất "vài phút" - tác giả chỉ cần nhập file văn bản và hệ thống AI sẽ tự động tạo bản ghi âm.
Người dùng muốn kiểm soát chi tiết hơn về tốc độ đọc, công cụ nhiều người đọc và tùy chỉnh giọng nói sẽ phải trả phí cho bộ công cụ Studio của ElevenLabs.
ElevenReader sẽ trả tiền bản quyền 1,10 USD cho mỗi người dùng nghe tối thiểu 11 phút sách nói, tuy nhiên hiện tại chương trình này chỉ áp dụng tại Mỹ.
Không giống Amazon Audible, ElevenLabs không yêu cầu điều khoản độc quyền, cho phép tác giả giữ toàn quyền sở hữu tác phẩm.
Tác giả sẽ được cung cấp dữ liệu phân tích chi tiết về mức độ tương tác của người dùng, tương tự như các nền tảng phát trực tuyến nhạc và video.
Hiện tại, việc tạo sách nói chỉ hỗ trợ tiếng Anh, nhưng công ty đang lên kế hoạch bổ sung thêm 31 ngôn ngữ khác.
ElevenLabs cảnh báo rằng nhiều nền tảng sách nói khác như Audible, Apple Books, Kobo và Barnes & Noble có thể không chấp nhận sách nói được tạo bởi AI.
Công ty cho biết đã chi trả hơn 1 triệu USD cho diễn viên lồng tiếng vào năm ngoái để bù đắp cho tác động của công nghệ AI đến công việc của họ.

📌 ElevenLabs tạo bước ngoặt trong ngành sách nói với nền tảng ElevenReader Publishing hoàn toàn miễn phí, cho phép tạo sách nói AI trong vài phút với hơn 1.000 giọng đọc và mức bản quyền 1,10 USD/người nghe, thách thức thị trường độc quyền của Amazon Audible.

https://www.digitaltrends.com/computing/elevenlabs-reader-publish-free-audiobook-generate-ai-voice/

Không có file đính kèm.

Nguồn tham khảo

135

AI ảnh-video-music-âm thanh 2025-02-24 00:47:53

Sự thật đằng sau quá trình tạo video bằng AI tạo sinh - không đơn giản như quảng cáo

Shimizu Shota, kỹ sư AI tạo sinh đã phản bác quan điểm cho rằng việc tạo video bằng AI là "dễ dàng" tại sự kiện Adobe Max Japan
Thực tế để tạo một video AI hoàn chỉnh cần:
- 2 ngày làm việc
- Sử dụng hơn 12 nền tảng AI khác nhau
- Kết hợp nhiều công cụ từ ChatGPT (tạo prompt) đến Adobe Firefly và Midjourney (tạo hình ảnh)
Dự án phim ngắn "Sin-chan and Dad" cho thấy độ phức tạp:
- Một cảnh đơn lẻ cần tạo hơn 600 hình ảnh
- Cảnh khác yêu cầu 800 hình ảnh tĩnh
- Phải tạo theo chuỗi ảnh tĩnh vì AI thường thay đổi trang phục nhân vật giữa cảnh
Những hạn chế của AI tạo sinh video:
- Khó xử lý chuyển động phức tạp của con người
- Thiếu nhất quán trong chi tiết giữa các cảnh
- Xuất hiện ảo giác AI - tạo ra những thứ phi thực tế
Adobe Firefly Video hiện đang trong giai đoạn thử nghiệm công khai, cho thấy công nghệ video AI vẫn còn non trẻ

📌 Video AI tạo sinh đòi hỏi quy trình phức tạp với thời gian dài (2 ngày), nhiều nền tảng (12+) và số lượng lớn hình ảnh (600-800 ảnh/cảnh). Công nghệ vẫn gặp nhiều thách thức về tính nhất quán và xử lý chuyển động.

https://www.digitalcameraworld.com/tech/artificial-intelligence/generative-ai-video-actually-isnt-that-easy-to-create-according-to-an-ai-director-heres-why

Không có file đính kèm.

Nguồn tham khảo

112

AI ảnh-video-music-âm thanh 2025-02-02 18:58:55

Riffusion ra mắt AI tạo nhạc Fuzz miễn phí, tạo ra các bản nhạc chuyên nghiệp với chất lượng cao

- Riffusion vừa ra mắt mô hình AI tạo nhạc Fuzz, cho phép tạo và phát nhạc miễn phí "cho đến khi GPU của công ty không chịu nổi"

- Các điểm nổi bật của Fuzz:
+ Tạo ra các bản nhạc hoàn chỉnh dài khoảng 3 phút
+ Chất lượng âm nhạc chuyên nghiệp, khó phân biệt với nhạc do nghệ sĩ thật tạo ra
+ Không cần tài khoản để nghe nhạc có sẵn trên nền tảng
+ Hỗ trợ tạo nhạc từ văn bản, clip âm thanh và hình ảnh
+ Có khả năng học sở thích âm nhạc của người dùng để đề xuất cá nhân hóa

- Riffusion là một startup AI nhỏ nhưng có ý tưởng độc đáo sử dụng công nghệ diffusion hình ảnh để tạo nhạc

- Các gã khổng lồ công nghệ như Google, Meta và TikTok đều đang nghiên cứu ý tưởng của Riffusion cho ứng dụng tạo nhạc AI của riêng họ

- Trong các bài kiểm tra đánh giá mù, Fuzz đã vượt trội hơn các mô hình cạnh tranh khác, dù không có nguồn lực lớn như các công ty AI lớn

- Giao diện của Fuzz giống như một trình phát nhạc thông thường với nhiều danh sách phát được phân loại sẵn

- Để tạo nhạc riêng, người dùng cần đăng ký tài khoản trên nền tảng

📌 Startup Riffusion tạo bước đột phá với mô hình AI âm nhạc Fuzz miễn phí, cho phép tạo các bản nhạc dài 3 phút chất lượng chuyên nghiệp từ văn bản, âm thanh và hình ảnh, vượt trội so với các đối thủ trong đánh giá mù.

https://bgr.com/tech/i-found-a-free-ai-music-generator-that-legitimately-sounds-like-real-professional-music/

Không có file đính kèm.

Nguồn tham khảo

107

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2025-01-28 15:41:43

DeepSeek-AI ra mắt Janus-Pro 7B - mô hình AI multimodal nguồn mở vượt trội DALL-E 3 và Stable Diffusion

- DeepSeek-AI vừa công bố Janus-Pro, phiên bản cải tiến của framework Janus với hai biến thể: Janus-Pro-1B và Janus-Pro-7B

- Mô hình giới thiệu 3 đổi mới chính:
- Chiến lược huấn luyện được tối ưu hóa
- Bộ dữ liệu mở rộng chất lượng cao
- Các biến thể mô hình lớn hơn

- Kiến trúc của Janus-Pro tách biệt mã hóa hình ảnh cho 2 nhiệm vụ:
- Bộ mã hóa hiểu sử dụng phương pháp SigLIP
- Bộ mã hóa tạo sinh áp dụng tokenizer VQ

- Chiến lược huấn luyện gồm 3 giai đoạn:
- Tiền huấn luyện kéo dài trên nhiều bộ dữ liệu đa dạng
- Tinh chỉnh hiệu quả với tỷ lệ dữ liệu được điều chỉnh
- Tinh chỉnh có giám sát để tối ưu hiệu suất

- Dữ liệu huấn luyện bao gồm:
- 72 triệu mẫu dữ liệu thẩm mỹ tổng hợp
- 90 triệu bộ dữ liệu hiểu đa phương thức

- Kết quả benchmark ấn tượng của Janus-Pro 7B:
- MMBench: 79,2 điểm (vượt Janus: 69,4, TokenFlow-XL: 68,9, MetaMorph: 75,2)
- GenEval: 80% độ chính xác (vượt DALL-E 3: 67%, Stable Diffusion 3: 74%)
- DPG-Bench: 84,19 điểm

- Mô hình được mở rộng lên 7 tỷ tham số giúp xử lý đầu vào đa phương thức phức tạp với độ chính xác và hiệu quả cao hơn

📌 Janus-Pro 7B thiết lập chuẩn mực mới cho AI đa phương thức nguồn mở với khả năng vượt trội DALL-E 3 (80% so với 67% trên GenEval). Mô hình tích hợp 72 triệu mẫu dữ liệu tổng hợp và 90 triệu bộ dữ liệu đa phương thức, cho phép xử lý đồng thời text và hình ảnh một cách chính xác.

https://www.marktechpost.com/2025/01/27/deepseek-ai-releases-janus-pro-7b-an-open-source-multimodal-ai-that-beats-dall-e-3-and-stable-diffusion/

Không có file đính kèm.

Nguồn tham khảo

156

AI ảnh-video-music-âm thanh 2025-01-20 20:05:01

API Finetuning FLUX Pro cho phép người dùng tùy chỉnh mô hình AI tạo sinh với chỉ 5 hình ảnh

- Black Forest Labs công bố API Finetuning FLUX Pro, cho phép tạo hình ảnh theo ý tưởng cá nhân bằng cách sử dụng từ 5 đến 20 hình ảnh huấn luyện.
- Mô hình có khả năng tùy chỉnh linh hoạt, giữ được tính đa dạng của FLUX Pro gốc và tương thích với các khía cạnh sáng tạo cụ thể.
- API hỗ trợ nhiều chế độ như “nhân vật”, “sản phẩm”, “phong cách” và “chung”, phù hợp với đa dạng nhu cầu sử dụng.
- Mô hình đã được chứng minh qua khảo sát, 68.9% người dùng ưa thích kết quả của FLUX Pro so với các dịch vụ khác.
- Công cụ này cho phép tạo ra các hình ảnh có tính nhất quán cao trong các tài liệu tiếp thị và thiết kế, giúp tăng cường thương hiệu.
- Black Forest Labs đã hợp tác với BurdaVerlag để phát triển các mô hình FLUX tùy chỉnh cho thương hiệu, như ấn phẩm trẻ em Lissy PONY.
- Các ứng dụng điển hình bao gồm:
- Inpainting: Sử dụng FLUX.1 Fill để chỉnh sửa hình ảnh theo từng bước.
- Kiểm soát cấu trúc: Kết hợp với FLUX.1 Depth để tạo hình ảnh với các điều chỉnh cấu trúc chính xác.
- Xây dựng thương hiệu hình ảnh: Đảm bảo sự nhất quán trong các chiến dịch tiếp thị.
- API Finetuning FLUX Pro hiện có sẵn qua các điểm cuối API với mức giá hấp dẫn:
- FLUX 1.1 [pro] Ultra: 0.06 USD mỗi hình ảnh.
- FLUX 1.1 [pro]: 0.04 USD mỗi hình ảnh.
- FLUX.1 [pro]: 0.05 USD mỗi hình ảnh.
- FLUX.1 [dev]: 0.025 USD mỗi hình ảnh.
- Quy trình tùy chỉnh cần ít đầu vào từ người dùng, với hình ảnh được tải lên ở định dạng hỗ trợ như JPG, JPEG, PNG hoặc WebP.
- Mô hình đào tạo không vượt quá độ phân giải một megapixel để có kết quả tốt nhất.
- Khách hàng có thể theo dõi tiến trình, điều chỉnh tham số và thử nghiệm kết quả thông qua các điểm cuối API.
- FLUX Pro Finetuning API định nghĩa tiêu chuẩn mới cho việc tạo nội dung tùy chỉnh trong AI tạo sinh, mở ra cơ hội sáng tạo vô cùng đa dạng.

📌 FLUX Pro Finetuning API của Black Forest Labs cho phép tùy chỉnh mô hình AI chỉ với 5 hình ảnh. Khảo sát cho biết 68.9% người dùng thích kết quả từ FLUX Pro. Từ giá cả cạnh tranh đến sự linh hoạt trong ứng dụng, đây là công cụ lý tưởng cho ngành sáng tạo.

https://venturebeat.com/ai/you-can-now-fine-tune-your-own-version-of-ai-image-maker-flux-with-just-5-images/

Không có file đính kèm.

Nguồn tham khảo

116

AI tools AI ảnh-video-music-âm thanh 2025-01-08 05:01:07

NotebookLM của Google được nâng cấp: Tạo podcast tương tác thời gian thực từ 50 nguồn tài liệu

- Google vừa cập nhật NotebookLM với tính năng tạo podcast tương tác thời gian thực, cho phép tích hợp đa dạng tài liệu nguồn như PDF, website, video

- Người dùng có thể tải lên tối đa 50 nguồn tài liệu cho mỗi notebook, bao gồm:
+ Tài liệu PDF và văn bản
+ Website và bài viết trực tuyến
+ Video YouTube
+ File từ Google Drive
+ File âm thanh

- Các tính năng tương tác trong khi nghe podcast:
+ Đặt câu hỏi làm rõ các ý phức tạp
+ Yêu cầu tóm tắt các phần cụ thể
+ Khám phá sâu hơn về chủ đề quan tâm

- Ứng dụng đa dạng trong nhiều lĩnh vực:
+ Giáo dục: Giáo viên tạo bài giảng tương tác
+ Sáng tạo nội dung: Chuyển đổi blog, video thành podcast
+ Phát triển cá nhân: Tương tác với sách và bài viết
+ Doanh nghiệp: Đào tạo nhân viên và truyền thông nội bộ
+ Nghiên cứu thị trường: Phân tích báo cáo và dữ liệu

- Tính năng tùy chỉnh:
+ Người dùng có thể điều chỉnh trọng tâm của AI
+ Podcast có thể chia sẻ công khai
+ Tính năng tương tác chỉ dành riêng cho tài khoản người tạo

- Hạn chế hiện tại:
+ Tốc độ xử lý chậm với tài liệu phức tạp
+ Thỉnh thoảng gặp lỗi cần làm mới
+ Đang trong giai đoạn beta testing

📌 NotebookLM mang đến cuộc cách mạng trong tương tác với nội dung AI qua tính năng tạo podcast thời gian thực từ 50 nguồn tài liệu. Công cụ này hỗ trợ đa dạng người dùng từ giáo dục đến doanh nghiệp, mở ra tiềm năng lớn trong học tập và sáng tạo nội dung tương tác.

https://www.geeky-gadgets.com/notebooklm-ai-podcast-tool/

Không có file đính kèm.

Nguồn tham khảo

127

AI bản quyền AI ảnh-video-music-âm thanh 2025-01-04 00:16:50

Anthropic đạt thỏa thuận với các nhà xuất bản âm nhạc về tranh chấp bản quyền lời bài hát

- Anthropic đã đạt được thỏa thuận giải quyết một phần vụ kiện vi phạm bản quyền liên quan đến việc phân phối lời bài hát được bảo vệ thông qua mô hình AI Claude

- Thẩm phán Eumi Lee đã phê duyệt thỏa thuận vào ngày 4/1/2025, yêu cầu Anthropic:
+ Áp dụng các biện pháp bảo vệ hiện có trong việc huấn luyện mô hình AI tương lai
+ Thiết lập quy trình cho phép các nhà xuất bản âm nhạc can thiệp khi nghi ngờ có vi phạm bản quyền

- Vụ kiện ban đầu được đệ trình vào tháng 10/2023 bởi nhiều nhà xuất bản âm nhạc lớn:
+ Universal Music Group
+ ABKCO
+ Concord Music Group
+ Greg Nelson Music

- Các nhà xuất bản cáo buộc Claude đã vi phạm bản quyền ít nhất 500 bài hát được bảo vệ, bao gồm các hit của:
+ Beyoncé ("Halo")
+ Mark Ronson ("Uptown Funk")
+ Maroon 5 ("Moves like Jagger")

- Anthropic cam kết:
+ Duy trì các biện pháp bảo vệ hiện có ngăn chặn vi phạm bản quyền
+ Áp dụng các biện pháp này cho mọi hệ thống AI trong tương lai
+ Hợp tác với các nhà xuất bản âm nhạc để giải quyết các trường hợp biện pháp bảo vệ không hiệu quả

- Các nhà xuất bản âm nhạc đã yêu cầu lệnh cấm sơ bộ ngăn Anthropic sử dụng lời bài hát được bảo vệ để huấn luyện mô hình trong tương lai

📌 Thỏa thuận lịch sử giữa Anthropic và các nhà xuất bản âm nhạc thiết lập tiền lệ quan trọng về bảo vệ bản quyền trong phát triển AI. Vụ việc liên quan đến 500 bài hát được bảo vệ, với sự tham gia của các tên tuổi lớn như Universal Music Group, đánh dấu bước tiến trong việc cân bằng đổi mới công nghệ và quyền sở hữu trí tuệ.

https://www.theverge.com/2025/1/3/24334866/anthropic-claude-music-publishers-lyric-copyright-lawsuit-deal

Không có file đính kèm.

Nguồn tham khảo

129

AI ảnh-video-music-âm thanh 2024-12-17 06:52:27

Google DeepMind ra mắt Veo 2 - Mô hình AI tạo video vượt trội Sora với độ phân giải 4k và thời lượng gấp 6 lần

• Google DeepMind vừa công bố Veo 2, thế hệ tiếp theo của mô hình tạo video AI, với khả năng tạo video độ phân giải lên đến 4k (4096 x 2160 pixel) và thời lượng hơn 2 phút[1].

• So với Sora của OpenAI, Veo 2 có độ phân giải cao gấp 4 lần và thời lượng dài hơn 6 lần. Tuy nhiên trong công cụ thử nghiệm VideoFX, video được giới hạn ở độ phân giải 720p và dài 8 giây[1].

• Veo 2 có những cải tiến đáng kể:
- Hiểu biết tốt hơn về vật lý và điều khiển camera
- Tạo ra video rõ nét hơn, đặc biệt trong cảnh có nhiều chuyển động
- Mô phỏng chân thực hơn về chuyển động, động lực học chất lỏng và tính chất ánh sáng
- Khả năng tạo biểu cảm con người tinh tế hơn[1].

• Mô hình vẫn còn một số hạn chế như:
- Khó duy trì nhất quán trong các yêu cầu phức tạp
- Tính nhất quán của nhân vật chưa hoàn hảo
- Cần cải thiện chi tiết phức tạp và chuyển động nhanh[1].

• Google DeepMind tích hợp công nghệ thủy vân SynthID để nhúng các dấu hiệu không nhìn thấy vào các khung hình do Veo 2 tạo ra, nhằm giảm thiểu nguy cơ deepfake[1].

• Công ty cũng công bố nâng cấp cho Imagen 3 - mô hình tạo ảnh thương mại, với khả năng tạo ảnh sáng hơn, bố cục tốt hơn trong nhiều phong cách như ảnh thực tế, ấn tượng và anime[1].

📌 Google DeepMind đã tạo bước đột phá với Veo 2, vượt trội so với Sora của OpenAI về độ phân giải (4k) và thời lượng (>2 phút). Mô hình tích hợp công nghệ thủy vân SynthID, cải thiện đáng kể về vật lý và điều khiển camera, nhưng vẫn cần hoàn thiện về tính nhất quán và chi tiết phức tạp.

Citations:
[1] https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

Không có file đính kèm.

Nguồn tham khảo

202

AI ảnh-video-music-âm thanh 2024-12-17 06:44:19

Cập nhật cho kính thông minh Ray-Ban Meta: trò chuyện liên tục với trợ lý AI, dịch thuật thời gian thực và nhận diện video AI

- Meta vừa cập nhật phần mềm v11 cho kính thông minh Ray-Ban Meta, bổ sung tính năng "AI trực tiếp" cho người dùng tại Mỹ và Canada trong chương trình truy cập sớm.

- Tính năng AI trực tiếp cho phép người đeo kính trò chuyện liên tục với trợ lý AI Meta mà không cần từ khóa đánh thức "Hey, Meta".

- Người dùng có thể hỏi các câu hỏi liên quan đến những gì họ đang nhìn thấy trong thời gian thực thông qua camera trước của kính.

- Meta là một trong những công ty công nghệ đầu tiên tung ra tính năng video AI thời gian thực trên kính thông minh, vượt trước Google trong lĩnh vực này.

- Bản cập nhật cũng giới thiệu tính năng dịch thuật trực tiếp, hỗ trợ dịch giữa tiếng Anh và tiếng Tây Ban Nha, Pháp hoặc Ý trong thời gian thực.

- Người đeo kính sẽ nghe bản dịch tiếng Anh qua loa của kính và nhận được bản ghi trên điện thoại đã ghép nối.

- Phiên bản v11 còn bổ sung tính năng Shazam, cho phép nhận diện bài hát đang phát bằng lệnh thoại.

- Meta cảnh báo rằng các tính năng mới, đặc biệt là AI trực tiếp và dịch thuật trực tiếp, có thể chưa hoàn hảo và đang tiếp tục được cải thiện.

- Kính Ray-Ban Meta đang bán rất chạy, trở thành thương hiệu kính bán chạy nhất tại 60% cửa hàng Ray-Ban ở châu Âu, Trung Đông và châu Phi.

- Trước đó vào tháng 11, Meta đã triển khai một số tính năng AI cho người dùng kính tại Pháp, Ý và Tây Ban Nha.

- Meta đang định vị công nghệ này như một đối thủ cạnh tranh với Chế độ Giọng nói Nâng cao có Thị giác của OpenAI và Dự án Astra của Google.

- Trong tương lai, Meta dự định phát triển tính năng AI trực tiếp để đưa ra các gợi ý hữu ích trước khi người dùng yêu cầu, mặc dù công ty chưa tiết lộ chi tiết về loại gợi ý này.

📌 Meta đã tung ra bản cập nhật quan trọng cho kính Ray-Ban Meta, bổ sung AI thời gian thực, dịch thuật trực tiếp và nhận diện video. Kính đang bán rất chạy, chiếm vị trí số 1 tại 60% cửa hàng Ray-Ban ở châu Âu, Trung Đông và châu Phi, đánh dấu bước tiến lớn trong lĩnh vực công nghệ đeo.

https://techcrunch.com/2024/12/16/meta-updates-its-smart-glasses-with-real-time-ai-video/

Không có file đính kèm.

Nguồn tham khảo

302

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-12-13 04:17:57

Sora của OpenAI và tác động của nó đến tương lai của sự thật

- OpenAI vừa ra mắt Sora, công cụ tạo video từ văn bản, gây ra lo ngại về tương lai của sự thật trong thời đại kỹ thuật số.

- Sora tạo ra các video ngắn tối đa 20 giây, tương tự như các bộ phim ngắn 50 giây của anh em Lumière vào cuối thế kỷ 19.

- Truyền thuyết về việc khán giả hoảng sợ bỏ chạy khi xem phim "Arrival of a Train at La Ciotat Station" (1896) của anh em Lumière có thể không đúng sự thật.

- Thực tế, công chúng đã nhanh chóng thích nghi với công nghệ điện ảnh mới, thể hiện qua các bài báo đương thời bày tỏ sự phấn khích về tiềm năng của nó.

- Sora thường tạo ra các video có chi tiết không đúng với thực tế, như cây bút xuất hiện và biến mất trong tay nhà báo, dây chuyền vàng biến thành đuôi ngựa, hay xác chết thiếu cơ thể.

- Những lỗi này có thể giúp "tiêm vaccine" cho não bộ con người, tạo ra khả năng miễn dịch tốt hơn với các video giả mạo trong tương lai.

- Sora có thể thay thế nhiều cảnh quay B-roll thông thường trong các video giải thích trên YouTube và video đào tạo doanh nghiệp.

- Tuy nhiên, việc tạo ra video về các chủ đề bất thường hoặc cố tình nói dối vẫn gặp nhiều khó khăn do những sai sót dễ nhận thấy.

- So sánh với lịch sử điện ảnh, có thể mất nhiều năm nữa AI mới có thể tạo ra những tác phẩm gây ảnh hưởng lớn như phim "The Birth of a Nation" (1915) của D.W. Griffith.

- Dù Sora đang đẩy chúng ta đến gần hơn với một thế giới hậu sự thật, nhưng những kẻ xấu vẫn phải nỗ lực rất nhiều để gây ra tác hại lớn cho xã hội.

📌 Sora của OpenAI đánh dấu bước tiến quan trọng trong công nghệ tạo video AI, nhưng những hạn chế hiện tại có thể giúp con người thích nghi tốt hơn. Tuy tiềm ẩn nguy cơ lan truyền thông tin sai lệch, nhưng cũng mở ra cơ hội để phát triển khả năng nhận biết nội dung thực và giả trong tương lai.

https://sea.mashable.com/tech/35513/what-openais-sora-means-for-the-future-of-truth

OpenAI's Sora và ý nghĩa đối với tương lai của sự thật

Chúng ta có thể thích nghi với làn sóng video AI sắp tới nhanh hơn và tốt hơn bạn nghĩ.
Tác giả: Chris Taylor - Ngày 12 tháng 12, 2024

Có một câu chuyện từ những ngày đầu của điện ảnh có vẻ liên quan đến Sora, công cụ tạo video từ văn bản mới được OpenAI ra mắt trong tuần này. Với việc các máy chủ của Sora đang gặp khó khăn trước nhu cầu cao, nhiều người đăng ký OpenAI vẫn đang chờ cơ hội trải nghiệm, ta có thời gian để kể câu chuyện.

Có lẽ bạn đã nghe về bộ phim Arrival of a Train at La Ciotat Station (1896) của anh em nhà Lumiere, ngay cả khi bạn chưa từng xem. Giống như Sora, các bộ phim ngắn của Lumiere thể hiện công nghệ tiên tiến nhất thời đó. Thay vì dựng hình bằng AI, họ sử dụng thiết bị quay phim và tạo ra một đoạn phim dài 50 giây xa hoa, thay vì tối đa 20 giây như video Sora hiện nay.

Nguyên tắc chung là giống nhau: đây là cái nhìn đầu tiên về một hình thức giải trí hoàn toàn mới. Theo truyền thuyết — được củng cố trong bộ phim đáng yêu Hugo (2011) của Martin Scorsese về thời kỳ Lumiere — khán giả của Arrival of a Train đã chạy tán loạn vì sợ hãi khi thấy một đoàn tàu hơi nước lao thẳng vào họ.

Cảm giác hoảng loạn tương tự cũng bao quanh Sora — đặc biệt là nỗi sợ về những gì video AI có thể làm để làm rạn nứt thêm cảnh quan truyền thông "hậu sự thật" hiện nay. Người xem trung bình đã gặp khó khăn trong việc phân biệt thật giả, và vấn đề này càng trầm trọng hơn nếu họ đang bị trầm cảm. Đây là thời đại vàng của các thuyết âm mưu. Một trong những người giàu nhất thế giới đã chia sẻ một video deepfake AI để giúp tác động đến một cuộc bầu cử.

Điều gì sẽ xảy ra khi Sora có thể làm cho bất kỳ lời nhắc nào trông chân thực như những gì bạn thấy trên bản tin buổi tối — và sẵn sàng lan truyền trên mạng xã hội?

OpenAI cho rằng các dấu watermark, cả rõ ràng và ẩn, sẽ ngăn chặn mọi hành vi gian lận. Nhưng sau khi tải xuống hàng chục video từ Sora, tôi có thể khẳng định rằng watermark rõ ràng thì nhỏ, khó đọc và thường bị hòa lẫn vào nền. Thật dễ dàng để phần mềm chỉnh sửa video xóa nó hoàn toàn.

Vậy là một thế giới của thông tin sai lệch cố ý, từ các tác nhân chính trị xấu hoặc những người có ảnh hưởng cố gắng tăng lượt tương tác, đang lao thẳng vào chúng ta như một đoàn tàu?

Sai. Bởi vì như câu chuyện thực sự của bộ phim Lumiere cho thấy, con người thực tế thông minh hơn rất nhiều trong việc tiếp cận các hình thức giải trí video mới so với những gì ta nghĩ.

Sự thật về "Arrival of a Train"

Điều thú vị về Arrival of a Train là truyền thuyết này gần như chắc chắn sai. Không có bằng chứng thực tế nào cho thấy khán giả đã bỏ chạy khỏi rạp chiếu, hoặc thậm chí giật mình khi nhìn thấy một đoàn tàu trong đoạn phim 50 giây.

Giáo sư nghiên cứu truyền thông Martin Loiperdinger gọi câu chuyện hoảng loạn là "huyền thoại sáng lập của điện ảnh" và lưu ý rằng nó có nguồn gốc từ những cuốn sách viết vào nửa sau thế kỷ 20. Có thể các tác giả đã nhầm lẫn với phiên bản thử nghiệm 3D sau này của Arrival of a Train, được chiếu vài lần vào năm 1934 và cũng giống như nhiều bộ phim 3D khác, chỉ là một sự mới lạ thất bại về thương mại.

Do đó, khán giả thời đầu có lẽ không nhầm lẫn hình ảnh chuyển động của một đoàn tàu với một đoàn tàu thật. Thay vào đó, họ dường như thích nghi rất nhanh với khái niệm phim ảnh. Các bài viết đương thời về phim ngắn của Lumiere (trong đó Arrival of a Train không được coi là nổi bật) đầy ắp sự phấn khích trước những khả năng mới mà nó mở ra.

Sora và những lỗi của AI

Cũng giống như những thách thức thời đầu của điện ảnh, Sora vẫn còn nhiều hạn chế rõ rệt. Hầu như mọi video Sora tạo ra đều có chi tiết nào đó trông sai đối với mắt người. Ví dụ, khi nhập một lời nhắc mô tả "nhà báo đập bàn vì không thể truy cập video AI," cây bút trong tay nhà báo liên tục xuất hiện rồi biến mất.

Các lỗi nối tiếp nhau. Yếu tố mới mẻ giảm dần nhanh chóng. Bạn bè tôi cảm thấy vừa buồn cười vừa hơi sợ hãi bởi độ chân thực của video “nghệ sĩ hip-hop khoe áo len Giáng sinh ấm áp,” cho đến khi nhận ra sợi dây chuyền vàng của rapper đã biến thành một cái đuôi ngựa bằng vàng, và con tuần lộc trên áo len có tám chân.

Tuy nhiên, Sora vẫn có thể có tác động ngay lập tức đến ngành công nghiệp hình ảnh chuyển động. Với các lời nhắc ít khác biệt hơn, công cụ này có thể thay thế nhiều cảnh quay minh họa chung chung thường thấy trong các video YouTube hay tài liệu đào tạo doanh nghiệp.

Một tương lai cần thích nghi với sự thật AI

Mặc dù hiện tại Sora còn nhiều lỗi, nhưng công nghệ này có thể là dấu hiệu báo trước cho những giả mạo hình ảnh đáng sợ hơn trong tương lai, khi các công nghệ video AI mạnh mẽ hơn xuất hiện.

Ngay cả khi hướng tới một thế giới hậu sự thật bị phân mảnh hơn, con người vẫn có khả năng thích nghi và cảnh giác cao với các công nghệ này — miễn là không ngừng phát triển khả năng nhận thức và phân tích thông tin.

Không có file đính kèm.

Nguồn tham khảo

165

AI ảnh-video-music-âm thanh 2024-12-13 03:46:14

Project Astra: Trợ lý AI đa năng của Google có thể nhìn, nghe và nói chuyện như người thật

- Google DeepMind vừa công bố nhiều sản phẩm mới, trong đó nổi bật là Gemini 2.0 - phiên bản nâng cấp của mô hình ngôn ngữ lớn đa phương thức, được thiết kế lại để kiểm soát các agent

- Gemini 2.0 có tốc độ nhanh gấp đôi phiên bản Gemini 1.5 và vượt trội trên nhiều tiêu chuẩn đánh giá, bao gồm MMLU-Pro

- Project Astra là ứng dụng thử nghiệm tích hợp Gemini 2.0, có khả năng:
+ Tương tác qua văn bản, giọng nói, hình ảnh và video
+ Kết nối với các ứng dụng Google như Search, Maps và Lens
+ Nhớ các cuộc hội thoại trước đó và theo dõi video trong 10 phút gần nhất

- Các sản phẩm mới khác bao gồm:
+ Mariner: agent duyệt web tự động
+ Jules: trợ lý lập trình
+ Gemini for Games: trợ lý trong game
+ Veo: mô hình tạo video
+ Imagen 3: mô hình tạo ảnh mới
+ Willow: chip máy tính lượng tử

- Trong demo trực tiếp, Astra thể hiện khả năng:
+ Đọc và phân tích công thức nấu ăn
+ Nhận diện và gợi ý rượu vang phù hợp
+ Tương tác về tranh nghệ thuật
+ Ghi nhớ và điều chỉnh ngôn ngữ giao tiếp

- Các chuyên gia đánh giá cao tiềm năng của công nghệ nhưng cũng bày tỏ lo ngại về:
+ Quyền riêng tư người dùng
+ Thiếu minh bạch về cách thức hoạt động
+ Khả năng lạm dụng công nghệ

📌 Google DeepMind đã tạo bước đột phá với Gemini 2.0 và Project Astra - trợ lý AI đa phương thức có tốc độ gấp đôi phiên bản cũ. Tuy nhiên, vẫn còn nhiều thách thức về quyền riêng tư và đánh giá công nghệ cần giải quyết trước khi ra mắt công chúng.

https://www.technologyreview.com/2024/12/11/1108493/googles-new-project-astra-could-be-generative-ais-killer-app/

#MIT

Google công bố "Project Astra" – ứng dụng đột phá tiềm năng của AI tạo sinh

Will Douglas Heaven – Ngày 11 tháng 12 năm 2024

Google DeepMind vừa công bố một loạt sản phẩm và nguyên mẫu mới đầy ấn tượng, với mục tiêu giành lại vị trí dẫn đầu trong cuộc đua đưa trí tuệ nhân tạo (AI) tạo sinh trở thành một công nghệ phổ biến cho thị trường đại chúng.

Đáng chú ý nhất là Gemini 2.0, phiên bản mới nhất của dòng mô hình ngôn ngữ lớn đa phương thức của Google DeepMind, nay được thiết kế lại để điều khiển các tác vụ của "agents" (đại diện ảo). Song hành với nó là phiên bản mới của Project Astra, ứng dụng "tất cả trong một" được giới thiệu lần đầu tại sự kiện Google I/O vào tháng 5.

Trải nghiệm đầu tiên với Astra
MIT Technology Review đã có cơ hội tham dự buổi demo kín của Astra vào tuần trước. Trải nghiệm rất ấn tượng, nhưng vẫn còn khoảng cách lớn giữa video quảng cáo bóng bẩy và các buổi trình diễn trực tiếp.

Astra sử dụng khung tác vụ agent tích hợp của Gemini 2.0 để trả lời câu hỏi và thực hiện các nhiệm vụ thông qua văn bản, giọng nói, hình ảnh và video. Ứng dụng có thể kích hoạt các ứng dụng của Google như Search, Maps và Lens khi cần thiết. “Astra kết hợp những hệ thống truy xuất thông tin mạnh mẽ nhất hiện nay,” theo lời Bibo Xu, giám đốc sản phẩm của Astra.

Các sản phẩm đi kèm Gemini 2.0
Ngoài Astra, Google còn giới thiệu Mariner, một agent mới có khả năng duyệt web thay bạn; Jules, trợ lý lập trình sử dụng Gemini; và Gemini for Games, trợ lý thử nghiệm cung cấp gợi ý khi chơi game.

Trong tuần qua, Google DeepMind cũng công bố Veo (mô hình tạo video mới), Imagen 3 (phiên bản mới của mô hình tạo hình ảnh), và Willow (loại chip mới dành cho máy tính lượng tử). Đồng thời, CEO Demis Hassabis vừa nhận giải Nobel tại Thụy Điển.

Hiệu năng vượt trội của Gemini 2.0
Google DeepMind tuyên bố Gemini 2.0 nhanh gấp đôi so với Gemini 1.5 và vượt trội trên nhiều tiêu chuẩn đánh giá, bao gồm MMLU-Pro, một tập hợp các câu hỏi trắc nghiệm kiểm tra khả năng của mô hình ngôn ngữ trong các lĩnh vực như toán học, vật lý, tâm lý học và triết học.

Tuy nhiên, khoảng cách giữa các mô hình hàng đầu như Gemini 2.0 và những sản phẩm từ OpenAI hoặc Anthropic đang thu hẹp. Hiện tại, giá trị của các mô hình không chỉ nằm ở khả năng xử lý mà còn ở cách chúng được ứng dụng thực tế.

Buổi thử nghiệm trực tiếp Project Astra
Trong buổi thử nghiệm, nhóm phóng viên được dẫn qua một cánh cửa kín trên tầng cao của tòa nhà tại King’s Cross, London. Bên trong, từ "ASTRA" được viết lớn trên tường. Nhóm nghiên cứu, bao gồm Greg Wayne, đồng lãnh đạo của Astra, mô tả dự án là "một AI có mắt, tai và giọng nói, có thể hỗ trợ mọi hoạt động hàng ngày."

Ở một góc phòng, hai mô hình sân khấu được dựng lên: một quầy bar và một phòng triển lãm nghệ thuật. Nhóm nghiên cứu sử dụng chúng để trình diễn tính năng của Astra.

Ứng dụng thực tế
Xu, quản lý sản phẩm, thử nghiệm Astra bằng cách mở một cuốn sách nấu ăn, trỏ camera điện thoại vào công thức gà cà ri và yêu cầu Astra đọc nguyên liệu. Astra đọc đúng nhưng bỏ sót vài gia vị. Sau khi Xu yêu cầu kiểm tra lại, Astra sửa sai và bổ sung đầy đủ.

Xu tiếp tục chỉ camera vào một dãy chai rượu vang và hỏi loại nào phù hợp với món gà cà ri. Astra đề xuất một chai rượu rioja, giải thích lý do và tìm giá trực tuyến.

Tại khu vực triển lãm nghệ thuật, Astra nhận diện các tác phẩm nổi tiếng như Mona Lisa và The Scream. Khi gặp lỗi nhỏ, người dùng có thể chỉnh lại dễ dàng chỉ bằng một vài câu lệnh.

Tiềm năng và thách thức
Astra mang đến cảm giác mới mẻ khi cho phép người dùng trò chuyện tự nhiên về các đối tượng họ đang trỏ camera vào. Tuy nhiên, công nghệ này vẫn đang trong giai đoạn hoàn thiện, với nhiều lỗi nhỏ và chưa có ngày ra mắt chính thức.

Nhiều nhà nghiên cứu ngoài Google DeepMind, như Maria Liakata tại Đại học Queen Mary, đánh giá cao khả năng xử lý đa phương thức và ghi nhớ của Astra, nhưng lo ngại sự thiếu minh bạch trong cách công nghệ hoạt động.

Theo Bodhisattwa Majumder, nhà nghiên cứu tại Allen Institute for AI, người dùng cần hiểu rõ cách hệ thống học hỏi, sửa lỗi và bảo vệ thông tin cá nhân để tăng độ tin cậy.

Dù còn nhiều thách thức, Astra có tiềm năng trở thành ứng dụng đột phá trong lĩnh vực AI tạo sinh, đưa AI từ công nghệ thử nghiệm đến sản phẩm dành cho thị trường đại chúng.

Google’s new Project Astra could be generative AI’s killer app

Google just launched a ton of new products—including Gemini 2.0, which could power a new world of agents. And we got a first look.

Will Douglas Heavenarchive page

December 11, 2024

Google DeepMind

Google DeepMind has announced an impressive grab bag of new products and prototypes that may just let it seize back its lead in the race to turn generative artificial intelligence into a mass-market concern.

Top billing goes to Gemini 2.0—the latest iteration of Google DeepMind’s family of multimodal large language models, now redesigned around the ability to control agents—and a new version of Project Astra, the experimental everything app that the company teased at Google I/O in May.

MIT Technology Review got to try out Astra in a closed-door live demo last week. It was a stunning experience, but there’s a gulf between polished promo and live demo.

Astra uses Gemini 2.0’s built-in agent framework to answer questions and carry out tasks via text, speech, image, and video, calling up existing Google apps like Search, Maps, and Lens when it needs to. “It’s merging together some of the most powerful information retrieval systems of our time,” says Bibo Xu, product manager for Astra.

Gemini 2.0 and Astra are joined by Mariner, a new agent built on top of Gemini that can browse the web for you; Jules, a new Gemini-powered coding assistant; and Gemini for Games, an experimental assistant that you can chat to and ask for tips as you play video games.

(And let’s not forget that in the last week Google DeepMind also announced Veo, a new video generation model; Imagen 3, a new version of its image generation model; and Willow, a new kind of chip for quantum computers. Whew. Meanwhile, CEO Demis Hassabis was in Sweden yesterday receiving his Nobel Prize.)

Google DeepMind claims that Gemini 2.0 is twice as fast as the previous version, Gemini 1.5, and outperforms it on a number of standard benchmarks, including MMLU-Pro, a large set of multiple-choice questions designed to test the abilities of large language models across a range of subjects, from math and physics to health, psychology, and philosophy.

But the margins between top-end models like Gemini 2.0 and those from rival labs like OpenAI and Anthropic are now slim. These days, advances in large language models are less about how good they are and more about what you can do with them.

And that’s where agents come in.

Hands on with Project Astra

Last week I was taken through an unmarked door on an upper floor of a building in London’s King’s Cross district into a room with strong secret-project vibes. The word “ASTRA” was emblazoned in giant letters across one wall. Xu’s dog, Charlie, the project’s de facto mascot, roamed between desks where researchers and engineers were busy building a product that Google is betting its future on.

“The pitch to my mum is that we’re building an AI that has eyes, ears, and a voice. It can be anywhere with you, and it can help you with anything you’re doing” says Greg Wayne, co-lead of the Astra team. “It’s not there yet, but that’s the kind of vision.”

The official term for what Xu, Wayne, and their colleagues are building is “universal assistant.” They’re still figuring out exactly what that means.

At one end of the Astra room were two stage sets that the team uses for demonstrations: a drinks bar and a mocked-up art gallery. Xu took me to the bar first. “A long time ago we hired a cocktail expert and we got them to instruct us to make cocktails,” said Praveen Srinivasan, another co-lead. “We recorded those conversations and used that to train our initial model.”

Xu opened a cookbook to a recipe for a chicken curry, pointed her phone at it, and woke up Astra. “Ni hao, Bibo!” said a female voice.

“Oh! Why are you speaking to me in Mandarin?” Xu asked her phone. “Can you speak to me in English, please?”

“My apologies, Bibo. I was following a previous instruction to speak in Mandarin. I will now speak in English as you have requested.”

Astra remembers previous conversations, Xu told me. It also keeps track of the previous 10 minutes of video. (There’s a remarkable moment in the promo video that Google put out in May when Astra tells the person giving the demo where she had left her glasses, having spotted them on a desk a few seconds earlier. But I saw nothing like this in the live demo.)

Back to the cookbook. Moving her phone camera over the page for a few seconds, Xu asked Astra to read the recipe and tell her what spices were in it. “I recall the recipe mentioning a teaspoon of black peppercorns, a teaspoon of hot chili powder, and a cinnamon stick,” it replied.

“I think you’re missing a few,” said Xu. “Take another look.”

“You are correct—I apologize. I also see ground turmeric and curry leaves in the ingredients.”

Seeing this tech in action, two things hit you straight away. First, it’s glitchy and often needs correcting. Second, those glitches can be corrected with just a few spoken words. You simply interrupt the voice, repeat your instructions, and move on. It feels more like coaching a child than butting heads with broken software.

Next Xu pointed her phone at a row of wine bottles and asked Astra to pick the one that would go best with the chicken curry. It went for a rioja and explained why. Xu asked how much a bottle would cost. Astra said it would need to use Search to look prices up online. A few seconds later it came back with its answer.

We moved to the art gallery, and Xu showed Astra a number of screens with famous paintings on them: the Mona Lisa, Munch’s The Scream, a Vermeer, a Seurat, and several others. “Ni hao, Bibo!” the voice said.

“You’re speaking to me in Mandarin again,” Xu said. “Try to speak to me in English, please.”

“My apologies, I seem to have misunderstood. Yes, I will respond in English.” (I should know better, but I could swear I heard the snark.)

It was my turn. Xu handed me her phone.

I tried to trip Astra up, but it was having none of it. I asked it what famous art gallery we were in, but it refused to hazard a guess. I asked why it had identified the paintings as replicas and it started to apologize for its mistake (Astra apologizes a lot). I was compelled to interrupt: “No, no—you’re right, it’s not a mistake. You’re correct to identify paintings on screens as fake paintings.” I couldn’t help feeling a bit bad: I’d confused an app that exists only to please.

When it works well, Astra is enthralling. The experience of striking up a conversation with your phone about whatever you’re pointing it at feels fresh and seamless. In a media briefing yesterday, Google DeepMind shared a video showing off other uses: reading an email on your phone’s screen to find a door code (and then reminding you of that code later), pointing a phone at a passing bus and asking where it goes, quizzing it about a public artwork as you walk past. This could be generative AI’s killer app.

And yet there’s a long way to go before most people get their hands on tech like this. There’s no mention of a release date. Google DeepMind has also shared videos of Astra working on a pair of smart glasses, but that tech is even further down the company’s wish list.

Mixing it up

For now, researchers outside Google DeepMind are keeping a close eye on its progress. “The way that things are being combined is impressive,” says Maria Liakata, who works on large language models at Queen Mary University of London and the Alan Turing Institute. “It’s hard enough to do reasoning with language, but here you need to bring in images and more. That’s not trivial.”

Liakata is also impressed by Astra’s ability to recall things it has seen or heard. She works on what she calls long-range context, getting models to keep track of information that they have come across before. “This is exciting,” says Liakata. “Even doing it in a single modality is exciting.”

But she admits that a lot of her assessment is guesswork. “Multimodal reasoning is really cutting-edge,” she says. “But it’s very hard to know exactly where they’re at, because they haven’t said a lot about what is in the technology itself.”

For Bodhisattwa Majumder, a researcher who works on multimodal models and agents at the Allen Institute for AI, that’s a key concern. “We absolutely don’t know how Google is doing it,” he says.

He notes that if Google were to be a little more open about what it is building, it would help consumers understand the limitations of the tech they could soon be holding in their hands. “They need to know how these systems work,” he says. “You want a user to be able to see what the system has learned about you, to correct mistakes, or to remove things you want to keep private.”

Không có file đính kèm.

Nguồn tham khảo

129

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-12-13 03:27:43

Sau 7 tháng chờ đợi, ChatGPT chính thức ra mắt tính năng phân tích video thời gian thực

- OpenAI chính thức triển khai tính năng phân tích video thời gian thực cho ChatGPT, sau 7 tháng kể từ lần demo đầu tiên

- Tính năng Advanced Voice Mode mới cho phép:
+ Người dùng ChatGPT Plus, Team và Pro có thể hướng camera điện thoại vào vật thể để nhận phản hồi tức thì
+ Chia sẻ màn hình để ChatGPT hiểu và giải thích menu cài đặt hoặc gợi ý giải bài toán
+ Kích hoạt bằng cách nhấn biểu tượng voice cạnh thanh chat, sau đó chọn biểu tượng video

- Lộ trình triển khai:
+ Bắt đầu từ ngày 12/12/2024
+ Hoàn tất trong vòng 1 tuần
+ Người dùng ChatGPT Enterprise và Edu phải đợi đến tháng 1/2025
+ Chưa có kế hoạch triển khai tại EU, Thụy Sĩ, Iceland, Na Uy và Liechtenstein

- Trong demo trên CNN "60 Minutes":
+ Chủ tịch OpenAI Greg Brockman đã thử nghiệm tính năng với Anderson Cooper
+ ChatGPT có thể nhận diện và phân tích bản vẽ giải phẫu của Cooper
+ Tuy nhiên vẫn còn sai sót khi giải bài toán hình học, cho thấy khả năng ảo giác

- Đối thủ cạnh tranh:
+ Google đang thử nghiệm Project Astra với nhóm người dùng tin cậy trên Android
+ Meta cũng đang phát triển tính năng tương tự

- OpenAI cũng ra mắt "Santa Mode":
+ Thêm giọng nói ông già Noel vào ChatGPT
+ Kích hoạt bằng biểu tượng bông tuyết cạnh thanh prompt

📌 Sau nhiều lần trì hoãn, OpenAI cuối cùng đã triển khai tính năng phân tích video thời gian thực cho ChatGPT Plus, Team và Pro. Tính năng này cho phép tương tác bằng giọng nói, phân tích hình ảnh trực tiếp và chia sẻ màn hình, mặc dù vẫn còn một số hạn chế về độ chính xác và phạm vi triển khai.

https://techcrunch.com/2024/12/12/chatgpt-now-understands-real-time-video-seven-months-after-openai-first-demoed-it/

Không có file đính kèm.

Nguồn tham khảo

237

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-12-10 06:53:17

OpenAI ra mắt Sora: Từ văn bản thành video 1080p

• Sora là mô hình tạo video AI của OpenAI, có thể tạo video độ phân giải 1080p (tối đa 20 giây) từ văn bản, hình ảnh hoặc video đầu vào.

• Mô hình sử dụng kỹ thuật khuếch tán, bắt đầu từ video nhiễu và dần dần loại bỏ nhiễu qua nhiều bước. Sora kế thừa kiến trúc transformer từ các mô hình GPT và kỹ thuật recaptioning từ DALL·E 3.

• OpenAI đã làm việc với hơn 300 nghệ sĩ từ 60+ quốc gia để thu thập phản hồi về mô hình. Đồng thời tiến hành thử nghiệm red-teaming với các chuyên gia từ 9 quốc gia, kiểm tra hơn 15.000 lượt tạo video.

• Hệ thống an toàn của Sora bao gồm nhiều lớp:

Bộ lọc đa phương tiện kiểm duyệt văn bản và hình ảnh

Mô hình LLM tùy chỉnh để phát hiện nội dung vi phạm

Bộ phân loại đầu ra cho nội dung nhạy cảm

Danh sách chặn từ khóa

• Sora tập trung vào các lĩnh vực rủi ro chính:

Bảo vệ trẻ em với độ chính xác 97,86% trong phát hiện hình ảnh trẻ em thực

Kiểm soát nội dung khiêu dâm với độ chính xác 97,59%

Phát hiện nội dung lừa đảo về bầu cử đạt độ chính xác 98,23%

• Tất cả video được tạo ra đều được gắn thủy vân và metadata C2PA để đảm bảo nguồn gốc. OpenAI cũng phát triển công cụ tìm kiếm ngược để xác định video do Sora tạo ra.

📌 Sora là bước đột phá mới của OpenAI trong lĩnh vực AI tạo sinh video với độ phân giải cao 1080p, tích hợp nhiều lớp bảo mật và kiểm soát nội dung, đạt độ chính xác trên 97% trong việc phát hiện nội dung nhạy cảm.

https://openai.com/index/sora-system-card/

Không có file đính kèm.

Nguồn tham khảo

143

AI ảnh-video-music-âm thanh 2024-12-10 00:52:52

xAI ra mắt và gỡ bỏ Aurora - Trình tạo ảnh AI siêu thực trong vòng vài giờ

- xAI đã tích hợp mô hình tạo ảnh Aurora vào trợ lý AI Grok trên nền tảng X, nhưng đã gỡ bỏ chỉ sau vài giờ ra mắt

- Aurora được đánh giá có khả năng tạo ảnh người và động vật cực kỳ chân thực, chất lượng ngang ngửa với Recraft và Mystic

- Elon Musk xác nhận đây là "hệ thống tạo ảnh nội bộ, đang trong giai đoạn beta và sẽ cải thiện nhanh chóng"

- Mô hình này xuất hiện dưới dạng menu thả xuống trong Grok mà không có thông báo trước, trùng với thời điểm Grok được miễn phí cho hầu hết người dùng X

- Aurora có khả năng tạo ra hình ảnh hoàn hảo của những người nổi tiếng như Elon Musk, Sam Altman và Donald Trump

- Sau khi gỡ bỏ Aurora, xAI đã thay thế bằng tùy chọn Grok + Flux, sử dụng mô hình Flux 1.1 Pro của Black Forest Labs

- Grok có ưu điểm là có thể hiểu người dùng thông qua bài đăng trên X và khả năng tìm kiếm web

- Ngay cả khi sử dụng Flux, Grok vẫn khá thoải mái về các hạn chế, có thể tạo hình ảnh người nổi tiếng trong nhiều tình huống

- Việc gỡ bỏ Aurora có thể do cần thêm thời gian để thiết lập các biện pháp bảo vệ hoặc đây chỉ là bản demo

📌 Aurora - mô hình tạo ảnh AI mới của xAI được tích hợp vào Grok nhưng bị gỡ bỏ sau vài giờ. Mô hình gây ấn tượng với khả năng tạo ảnh siêu thực của người và động vật, đặc biệt là nhân vật nổi tiếng. Hiện đã được thay thế bằng Grok + Flux trong khi chờ nâng cấp và hoàn thiện các tính năng bảo mật.

https://www.tomsguide.com/ai/ai-image-video/xai-launches-and-then-pulls-aurora-image-generator-in-grok-heres-what-happened

Không có file đính kèm.

Nguồn tham khảo

122

AI ảnh-video-music-âm thanh 2024-12-07 05:12:11

Tencent thách thức OpenAI: Ra mắt AI tạo video miễn phí cạnh tranh Sora

- Tencent vừa công bố Hunyuan video, một mô hình AI tạo video nguồn mở và miễn phí, trong thời điểm OpenAI đang quảng bá về Sora

- Theo đánh giá của chuyên gia, Hunyuan video có hiệu suất vượt trội hơn Runway Gen-3, Luma 1.6 và ba mô hình tạo video hàng đầu của Trung quốc

- Mô hình sử dụng Multimodal Large Language Model làm bộ mã hóa văn bản thay vì kết hợp CLIP và T5-XXL như các công cụ khác

- Hunyuan có khả năng tự động làm phong phú các prompt đơn giản bằng cách thêm chi tiết về bối cảnh, điều kiện ánh sáng và các yếu tố khác

- Tỷ lệ khớp giữa kết quả và yêu cầu người dùng đạt 68,5%, điểm chất lượng hình ảnh đạt 96,4%

- Để chạy mô hình cần máy tính có ít nhất 60GB bộ nhớ GPU như card Nvidia H800 hoặc H20

- Các nền tảng đám mây như FAL.ai đã tích hợp Hunyuan với giá 0,5 USD/video. Server chính thức của Hunyuan cung cấp 150 credit với giá 10 USD

- Thời gian tạo video khoảng 15 phút, cho kết quả thực tế với chuyển động tự nhiên của người và động vật

- Mô hình được cung cấp miễn phí cho đến khi đạt 100 triệu người dùng

- Điểm yếu hiện tại là khả năng xử lý prompt tiếng Anh chưa tốt bằng các đối thủ

📌 Tencent đã tung ra đối thủ cạnh tranh trực tiếp với OpenAI Sora thông qua Hunyuan video - mô hình AI tạo video nguồn mở miễn phí với điểm chất lượng hình ảnh 96,4%. Mô hình yêu cầu 60GB bộ nhớ GPU và mất 15 phút để tạo một video, với chi phí 0,5 USD/video trên nền tảng đám mây.

https://decrypt.co/295199/tencents-new-ai-video-generator-takes-on-openais-sora-for-free

Tencent ra mắt công cụ tạo video AI mới, cạnh tranh với Sora của OpenAI miễn phí

Tencent cho biết mô hình của họ vượt trội hơn Runway Gen-3, Luma 1.6 và ba công cụ tạo video hàng đầu Trung Quốc, dựa trên đánh giá từ con người.

Bài viết của Jose Antonio Lanz

Ngày 6 tháng 12 năm 2024
Thời gian đọc: 4 phút

Trong khi OpenAI liên tục hứa hẹn về Sora sau nhiều tháng trì hoãn, Tencent đã âm thầm phát hành một mô hình với hiệu năng so sánh được với các công cụ tạo video hàng đầu hiện nay.

Tencent vừa giới thiệu Hunyuan Video, một công cụ tạo video AI miễn phí và mã nguồn mở, được ra mắt đúng thời điểm OpenAI thực hiện chiến dịch công bố 12 ngày – dự kiến bao gồm cả sự ra mắt của Sora, công cụ video rất được mong đợi.

“Chúng tôi giới thiệu Hunyuan Video, một mô hình nền tảng video mã nguồn mở mới, thể hiện hiệu năng trong việc tạo video tương đương hoặc vượt trội so với các mô hình mã nguồn đóng hàng đầu,” Tencent tuyên bố trong thông báo chính thức.

Gã khổng lồ công nghệ có trụ sở tại Thâm Quyến, Trung Quốc, khẳng định mô hình của mình “vượt trội hơn” so với Runway Gen-3, Luma 1.6 và “ba mô hình tạo video hàng đầu Trung Quốc” dựa trên kết quả đánh giá từ chuyên gia.

Công nghệ tiên tiến

Hunyuan Video sử dụng Mô hình Ngôn ngữ Lớn Đa phương tiện kiểu mã hóa giải mã thay vì kết hợp CLIP và T5-XXL thường thấy ở các công cụ tạo video và hình ảnh AI khác.

Tencent cho biết cách tiếp cận này giúp mô hình thực hiện theo chỉ dẫn tốt hơn, nắm bắt chi tiết hình ảnh chính xác hơn và học được các nhiệm vụ mới ngay lập tức mà không cần huấn luyện thêm. Ngoài ra, thiết lập chú ý nhân quả được tăng cường nhờ bộ tinh chỉnh đặc biệt giúp mô hình hiểu sâu hơn về các yêu cầu.

Công cụ này cũng tự động chỉnh sửa lời nhắc để làm phong phú nội dung và cải thiện chất lượng kết quả. Ví dụ, một yêu cầu đơn giản như “Một người đàn ông dắt chó đi dạo” có thể được bổ sung các chi tiết như thiết lập cảnh, điều kiện ánh sáng, chất lượng hình ảnh và chủng tộc, cùng nhiều yếu tố khác.

Miễn phí cho mọi người

Giống như LLaMA 3 của Meta, Hunyuan hoàn toàn miễn phí sử dụng và kiếm tiền, miễn là chưa vượt quá 100 triệu người dùng – một ngưỡng mà phần lớn nhà phát triển khó chạm tới trong thời gian ngắn.

Điều kiện? Người dùng cần một máy tính mạnh với ít nhất 60GB bộ nhớ GPU để chạy mô hình 13 tỷ tham số tại chỗ – ví dụ như card Nvidia H800 hoặc H20. Đây là dung lượng vRAM vượt xa hầu hết các PC chơi game hiện tại.

Với những ai không sở hữu máy tính siêu cấp, các dịch vụ đám mây đã nhanh chóng cung cấp giải pháp.

Nền tảng truyền thông tạo sinh FAL.ai đã tích hợp Hunyuan và tính phí 0,5 USD mỗi video. Các nhà cung cấp đám mây khác như Replicate hay GoEhnance cũng đã bắt đầu cung cấp quyền truy cập vào mô hình này. Máy chủ chính thức của Hunyuan Video cung cấp 150 tín dụng với giá 10 USD, mỗi video cần tối thiểu 15 tín dụng.

Ngoài ra, người dùng có thể chạy mô hình trên GPU thuê qua các dịch vụ như Runpod hoặc Vast.ai.

Hiệu năng ban đầu

Các thử nghiệm ban đầu cho thấy Hunyuan đạt chất lượng ngang tầm các sản phẩm thương mại như Dream Machine của Luma Labs hoặc Kling AI. Video được tạo ra trong khoảng 15 phút, với các chuỗi hình ảnh chân thực và chuyển động tự nhiên của con người và động vật.

Một điểm yếu hiện tại: khả năng hiểu các yêu cầu bằng tiếng Anh của mô hình chưa sắc sảo bằng đối thủ. Tuy nhiên, vì là mã nguồn mở, các nhà phát triển có thể cải thiện và tối ưu hóa mô hình này.

Tencent cho biết bộ mã hóa văn bản của họ đạt tỷ lệ đồng bộ lên tới 68,5% – nghĩa là mức độ đầu ra khớp với yêu cầu của người dùng – trong khi vẫn duy trì điểm chất lượng hình ảnh ở mức 96,4% theo thử nghiệm nội bộ.

Toàn bộ mã nguồn và trọng số được huấn luyện trước có sẵn để tải xuống trên các nền tảng như GitHub và Hugging Face.

Tencent's New AI Video Generator Takes On OpenAI's Sora For Free

Tencent says its model is better than Runway Gen-3, Luma 1.6, and three leading Chinese video generation tools, according to human tests.

By Jose Antonio Lanz

Dec 6, 2024

4 min read

While OpenAI keeps teasing Sora after months of delays, Tencent quietly dropped a model that is already showing comparable results to existing top-tier video generators.

Tencent has unveiled Hunyuan Video, a free and open-source AI video generator, strategically timed during OpenAI's 12-day announcement campaign, which is widely anticipated to include the debut of Sora, its highly anticipated video tool.

“We present Hunyuan Video, a novel open-source video foundation model that exhibits performance in video generation that is comparable to, if not superior to, leading closed-source models,” Tencent said in its official announcement.

The Shenzhen, China-based tech giant claims its model “outperforms” those of Runway Gen-3, Luma 1.6, and “three top-performing Chinese video generative models” based on professional human evaluation results.

The timing couldn't be more apt.

Before its video generator—somewhere between the SDXL and Flux eras of open-source image generators— Tencent released an image generator with a similar name.

HunyuanDit provided excellent results and improved understanding of bilingual text, but it was not widely adopted. The family was completed with a group of large language models.

Hunyuan Video uses a decoder-only Multimodal Large Language Model as its text encoder instead of the usual CLIP and T5-XXL combo found in other AI video tools and image generators.

Tencent says this helps the model follow instructions better, grasp image details more precisely, and learn new tasks on the fly without additional training—plus, its causal attention setup gets a boost from a special token refiner that helps it understand prompts more thoroughly than traditional models.

It also rewrites prompts to make them richer and increase the quality of its generations. For example, a prompt that simply says “A man walking his dog” can be enhanced including details, scene setup, light conditions, quality artifacts, and race, among other elements.

Free for the masses

Like Meta's LLaMA 3, Hunyuan is free to use and monetize until you hit 100 million users—a threshold most developers won't need to worry about anytime soon.

The catch? You'll need a beefy computer with at least 60GB of GPU memory to run its 13 billion parameter model locally—think Nvidia H800 or H20 cards. That's more vRAM than most gaming PCs have in total.

For those without a supercomputer lying around, cloud services are already jumping on board.

FAL.ai, a generative media platform tailored for developers, has integrated Hunyuan, charging $0.5 per video. Other cloud providers, including Replicate or GoEhnance, have also started offering access to the model. The official Hunyuan Video server offers 150 credits at $10, with each video generation costing 15 credits minimum.

And, of course, users can run the model on a rented GPU using services like Runpod or Vast.ai.

Early tests show Hunyuan matching the quality of commercial heavyweights like Luma Labs Dream Machine or Kling AI. Videos take about 15 minutes to generate, producing photorealistic sequences with natural-looking human and animal motion.

Testing reveals one current weakness: the model's grasp of English prompts could be sharper than its competitors. However, being open source means developers can now tinker with and improve the model.

Tencent says its text encoder achieves up to 68.5% alignment rates—meaning how closely the output matches what users ask for—while maintaining 96.4% visual quality scores based on their internal testing.

The complete source code and pre-trained weights are available for download on GitHub and Hugging Face platforms.

Edited by Sebastian Sinclair

Không có file đính kèm.

Nguồn tham khảo

209

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-12-05 14:28:15

OpenAI công bố "shipmas": Sora và mô hình lý luận mới

- OpenAI bắt đầu một sự kiện đặc biệt mang tên "shipmas", kéo dài 12 ngày từ ngày 5 tháng 12 năm 2024.
- Sự kiện sẽ bao gồm nhiều thông báo về tính năng mới, sản phẩm mới và các bản demo hàng ngày.
- CEO Sam Altman đã xác nhận kế hoạch này tại hội nghị DealBook của The New York Times.
- Trong suốt 12 ngày, OpenAI sẽ công khai hoặc trình diễn một sản phẩm mới mỗi ngày.
- Một trong những sản phẩm lớn được giới thiệu sẽ là Sora, công cụ AI chuyển văn bản thành video, đang được nhiều người mong đợi.
- Việc ra mắt Sora diễn ra chỉ vài tuần sau khi một nhóm nghệ sĩ phản đối việc sử dụng mô hình này mà không được đền bù cho nghiên cứu và PR.
- Hàng trăm nghệ sĩ đã tham gia thử nghiệm Sora trong năm 2024 qua chương trình thử nghiệm nghiên cứu chỉ dành cho các đối tác được mời.
- Mira Murati, cựu CTO của OpenAI, đã thông báo rằng Sora sẽ có mặt trước cuối năm.
- Trước khi Sora ra mắt, Google cũng đã giới thiệu mô hình AI tạo video mới mang tên Veo, hiện có sẵn cho các doanh nghiệp sử dụng.
- Một trong các thông báo trong sự kiện "shipmas" có thể là giọng nói mới cho ChatGPT, lấy cảm hứng từ Ông Già Noel, được người dùng phát hiện trong mã nguồn.

📌 OpenAI bắt đầu sự kiện "shipmas" 12 ngày với sản phẩm nổi bật Sora và một mô hình lý luận mới. Các thông báo sẽ diễn ra hàng ngày theo kế hoạch đã công bố, mang đến nhiều đổi mới trong lĩnh vực AI.

https://www.theverge.com/2024/12/4/24312352/openai-sora-o1-reasoning-12-days-shipmas

Không có file đính kèm.

Nguồn tham khảo

170

AI ảnh-video-music-âm thanh AI mở-nguồn mở AI nhỏ 2024-12-04 07:18:51

SmolVLM của Hugging Face - mô hình AI thị giác chỉ cần 5GB RAM, mở ra kỷ nguyên AI chi phí thấp

- Hugging Face vừa công bố SmolVLM, mô hình ngôn ngữ thị giác mới tập trung vào hiệu quả và kích thước nhỏ gọn

- Mô hình được cấp phép nguồn mở Apache 2.0, cho phép sử dụng cả mục đích cá nhân và thương mại

- SmolVLM có 3 biến thể, mỗi biến thể có 2 tỷ tham số:
+ SmolVLM-Base: mô hình chuẩn
+ SmolVLM-Synthetic: phiên bản tinh chỉnh trên dữ liệu tổng hợp
+ SmolVLM Instruct: phiên bản hướng dẫn để xây dựng ứng dụng người dùng cuối

- Ưu điểm vượt trội về tài nguyên:
+ Chỉ yêu cầu 5,02GB GPU RAM
+ Thấp hơn nhiều so với Qwen2-VL 2B (13,7GB) và InternVL2 2B (10,52GB)
+ Có thể chạy trực tiếp trên laptop

- Khả năng xử lý:
+ Phân tích chuỗi văn bản và hình ảnh theo bất kỳ thứ tự nào
+ Mã hóa ảnh độ phân giải 384 x 384 pixel thành 81 token dữ liệu thị giác
+ Mã hóa lệnh kiểm tra và một hình ảnh chỉ với 1.200 token, so với 16.000 token của Qwen2-VL

- Mục tiêu hướng đến:
+ Doanh nghiệp nhỏ và người đam mê AI
+ Triển khai hệ thống cục bộ không cần nâng cấp lớn
+ Chạy suy luận văn bản và hình ảnh với chi phí thấp

📌 SmolVLM đại diện cho xu hướng thu nhỏ mô hình AI, chỉ yêu cầu 5,02GB GPU RAM, giảm 63% so với đối thủ Qwen2-VL. Mô hình nguồn mở này mở ra cơ hội tiếp cận AI cho doanh nghiệp nhỏ với chi phí hợp lý và hiệu quả cao.

https://www.gadgets360.com/ai/news/hugging-face-smolvlm-vision-language-model-open-source-efficiency-focus-introduced-7154979

Không có file đính kèm.

Nguồn tham khảo

185

AI nghiên cứu AI ảnh-video-music-âm thanh 2024-12-04 07:09:46

AI "vẽ" chính xác đường phố chỉ bằng cách nghe âm thanh môi trường

- Các nhà nghiên cứu tại đại học Texas at Austin đã phát triển mô hình "Soundscape-to-Image Diffusion" có khả năng tạo ra hình ảnh đường phố từ âm thanh môi trường

- Mô hình được huấn luyện bằng tập dữ liệu gồm các đoạn video 10 giây kết hợp hình ảnh và âm thanh từ đường phố tại Bắc Mỹ, châu Á và châu Âu

- AI học cách kết nối giữa âm thanh với các đối tượng trong hình ảnh, cũng như mối liên hệ giữa đặc tính âm thanh với môi trường thị giác

- Trong thử nghiệm với 100 video đường phố, hệ thống tạo ra một hình ảnh cho mỗi video dựa trên âm thanh

- Các thẩm định viên con người đạt độ chính xác 80% khi ghép đúng hình ảnh AI tạo ra với âm thanh tương ứng

- Phân tích máy tính cho thấy tỷ lệ bầu trời, cây xanh và tòa nhà trong ảnh AI tạo ra có tương quan mạnh với video gốc

- Hệ thống còn thể hiện được điều kiện ánh sáng như trời nắng, nhiều mây hay ban đêm thông qua các yếu tố như tiếng ồn giao thông giảm về đêm hoặc âm thanh côn trùng

- Nghiên cứu được công bố trên tạp chí Nature, hướng đến mục tiêu tìm hiểu vai trò của âm thanh trong cảm nhận về không gian

- Ứng dụng tiềm năng bao gồm điều tra pháp y và quy hoạch đô thị

📌 Công nghệ AI mới từ đại học Texas tạo ra hình ảnh đường phố chính xác 80% chỉ từ âm thanh môi trường 10 giây, mở ra tiềm năng ứng dụng trong quy hoạch đô thị và điều tra pháp y. Hệ thống thể hiện khả năng nắm bắt chi tiết từ ánh sáng đến tỷ lệ các yếu tố trong không gian.

https://newatlas.com/ai-humanoids/ai-street-images-sound/

Không có file đính kèm.

Nguồn tham khảo

148

AI ảnh-video-music-âm thanh 2024-11-27 06:29:06

NVIDIA ra mắt Fugatto - Siêu mô hình AI 2,5 tỷ tham số có thể biến piano thành giọng hát người thật

- NVIDIA vừa công bố Fugatto - mô hình AI có 2,5 tỷ tham số được thiết kế để tạo và điều chỉnh âm nhạc, giọng nói và âm thanh

- Mô hình cho phép kết hợp câu lệnh văn bản với khả năng tổng hợp âm thanh nâng cao, giúp biến đổi linh hoạt các đầu vào âm thanh như chuyển giai điệu piano thành giọng hát người hoặc tạo âm thanh kèn trumpet độc đáo

- Fugatto sử dụng phương pháp tạo dữ liệu đột phá vượt qua học có giám sát thông thường:
+ Kết hợp bộ dữ liệu thông thường với kỹ thuật tạo dữ liệu chuyên biệt
+ Tận dụng mô hình ngôn ngữ lớn để nâng cao khả năng tạo hướng dẫn
+ Hiểu sâu mối quan hệ giữa âm thanh và gợi ý văn bản

- Đột phá chính là kỹ thuật Composable Audio Representation Transformation (ComposableART):
+ Cho phép kết hợp, nội suy hoặc phủ định các hướng dẫn tạo âm thanh một cách mượt mà
+ Kiểm soát chính xác quá trình tổng hợp âm thanh
+ Tạo ra các hiện tượng âm thanh độc đáo

- Kiến trúc của Fugatto dựa trên mô hình Transformer được cải tiến với Adaptive Layer Normalization, giúp duy trì tính nhất quán trên nhiều đầu vào đa dạng

- Kết quả thử nghiệm cho thấy:
+ Hiệu suất vượt trội so với các mô hình chuyên biệt trong tổng hợp và biến đổi âm thanh
+ Khả năng tạo âm thanh mới như kèn saxophone với đặc tính bất thường
+ Tạo giọng nói tích hợp mượt mà với âm thanh nền

📌 Fugatto đánh dấu bước tiến quan trọng trong AI tạo sinh cho âm thanh với 2,5 tỷ tham số. Mô hình tích hợp công nghệ ComposableART độc đáo cho phép biến đổi linh hoạt từ piano sang giọng hát người thật, mở ra tiềm năng ứng dụng rộng rãi trong game, giải trí và giáo dục.

https://www.marktechpost.com/2024/11/25/nvidia-ai-unveils-fugatto-a-2-5-billion-parameter-audio-model-that-generates-music-voice-and-sound-from-text-and-audio-input/

Không có file đính kèm.

Nguồn tham khảo

131

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-11-27 05:24:34

Nhóm thử nghiệm sớm phát tán công cụ Sora của OpenAI để phản đối bóc lột lao động sáng tạo

- Công cụ tạo video Sora của OpenAI đã bị rò rỉ trái phép trên nền tảng Hugging Face bởi nhóm người dùng tên "PR-Puppets"

- Sora là mô hình AI tạo sinh có khả năng:
+ Tạo video ngắn độ phân giải lên đến 1080p trong 10 giây
+ Chuyển đổi văn bản thành video dài tới 1 phút
+ Tạo nội dung video có tính nhất quán và ổn định cao

- Nguyên nhân rò rỉ:
+ Người thử nghiệm không hài lòng về việc không được trả công xứng đáng
+ OpenAI (định giá trên 150 tỷ USD) bị cáo buộc bóc lột lao động sáng tạo
+ Thiếu minh bạch về dữ liệu huấn luyện và vấn đề bản quyền

- Hậu quả của sự cố:
+ OpenAI phải tạm dừng quyền truy cập sớm của nghệ sĩ sau 3 giờ phát hiện
+ Làm dấy lên tranh cãi về đạo đức AI và quyền sở hữu trí tuệ
+ Ảnh hưởng đến niềm tin trong hợp tác giữa nghệ sĩ và nhà phát triển công nghệ

- Các vấn đề nổi bật:
+ An toàn và kiểm soát việc sử dụng mô hình bị rò rỉ
+ Mâu thuẫn giữa đổi mới công nghệ và quyền lợi người sáng tạo
+ Nhu cầu xây dựng khung đạo đức cho AI tạo sinh

📌 Vụ rò rỉ Sora phản ánh cuộc khủng hoảng trong ngành AI về vấn đề đạo đức và lao động sáng tạo. OpenAI (150 tỷ USD) đối mặt với cáo buộc bóc lột người thử nghiệm, dẫn đến hành động phát tán mô hình trên Hugging Face nhằm phản đối.

https://www.forbes.com/sites/moinroberts-islam/2024/11/26/openais-sora-tool-leaked-by-group-of-aggrieved-early-testers/

Không có file đính kèm.

Nguồn tham khảo

137

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-11-22 00:43:56

Whisper-NER - mô hình AI nguồn mở tự động ẩn thông tin riêng tư khi chuyển đổi âm thanh thành văn bản

- Công ty khởi nghiệp aiOla của Israel vừa ra mắt mô hình Whisper-NER, được xây dựng trên nền tảng mô hình nguồn mở Whisper của OpenAI

- Whisper-NER tích hợp hai công nghệ:
+ Nhận dạng giọng nói tự động (ASR)
+ Nhận dạng thực thể có tên (NER)

- Tính năng chính:
+ Tự động nhận diện và che giấu thông tin nhạy cảm như tên, số điện thoại, địa chỉ trong quá trình chuyển đổi
+ Xử lý đồng thời việc chuyển đổi âm thanh và bảo vệ thông tin riêng tư
+ Hỗ trợ học không cần mẫu (zero-shot learning)
+ Có thể tùy chỉnh để đánh dấu thay vì che giấu thông tin

- Mô hình được phát hành dưới giấy phép MIT, cho phép:
+ Sử dụng miễn phí
+ Tùy chỉnh và triển khai
+ Áp dụng cho mục đích thương mại

- Phương pháp huấn luyện độc đáo:
+ Sử dụng tập dữ liệu tổng hợp
+ Kết hợp dữ liệu giọng nói và văn bản NER
+ Xử lý đồng thời hai tác vụ trong một khối

- Ứng dụng thực tế:
+ Giám sát tuân thủ
+ Quản lý kho hàng
+ Đảm bảo chất lượng
+ Đặc biệt phù hợp với ngành y tế và luật

📌 aiOla phát hành mô hình AI nguồn mở Whisper-NER tích hợp khả năng chuyển đổi âm thanh và bảo vệ dữ liệu nhạy cảm trong cùng một quy trình. Mô hình được cấp phép MIT, hỗ trợ zero-shot learning và đặc biệt phù hợp với các ngành có yêu cầu bảo mật cao như y tế và luật.

https://venturebeat.com/ai/aiola-unveils-open-source-ai-audio-transcription-model-that-obscures-sensitive-info-in-realtime/

Không có file đính kèm.

Nguồn tham khảo

170

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-11-22 00:29:10

Ngành công nghiệp môi giới AI kiếm triệu đô từ hình ảnh đánh cắp của người mẫu thật

- Instagram hiện có hàng trăm tài khoản người ảnh hưởng được tạo bằng AI, sử dụng video đánh cắp từ người mẫu và người sáng tạo nội dung người lớn thật

- Trong hơn 1.000 tài khoản được khảo sát:
+ 100 tài khoản sử dụng deepfake
+ 60 tài khoản tự nhận là AI
+ 40 tài khoản không công khai việc sử dụng AI

- Các tài khoản này kiếm tiền thông qua:
+ Trang hẹn hò
+ Patreon
+ OnlyFans
+ Fanvue
+ Các ứng dụng AI khác

- Hướng dẫn "Instagram Mastery" của Digital Divas có giá 50 USD, tập trung vào chiến lược tạo nội dung và tương tác với người dùng cô đơn

- Khóa học "AI Influencer Accelerator" của Professor EP có giá 220 USD, hướng dẫn:
+ Cách tạo khuôn mặt AI
+ Cách ghép mặt AI vào video người thật
+ Chiến lược định giá nội dung từ 6-80 USD
+ Cách tạo nhiều tài khoản người mẫu AI

- Instagram chỉ xử lý các tài khoản vi phạm khi có báo cáo từ chủ sở hữu bản quyền

- Apple và Google đã gỡ bỏ ứng dụng HelloFace sau khi bị phát hiện hỗ trợ tạo deepfake

📌 Ngành công nghiệp môi giới AI đang bùng nổ với hàng nghìn tài khoản trên Instagram, kiếm được hơn 1 triệu USD trong 6 tháng thông qua việc đánh cắp và biến tấu nội dung từ người mẫu thật. Các nền tảng lớn như Instagram, Apple và Google đang gặp khó khăn trong việc kiểm soát vấn đề này.

https://www.wired.com/story/ai-pimping-industry-deepfakes-instagram/

Không có file đính kèm.

Nguồn tham khảo

124

AI ảnh-video-music-âm thanh 2024-11-21 07:56:28

Suno V4 - Bước tiến mới trong công nghệ tạo nhạc bằng AI với chất lượng âm thanh vượt trội

- Suno V4 vừa ra mắt ngày 20/11/2024, đánh dấu bước tiến quan trọng trong lĩnh vực tạo nhạc bằng AI với chất lượng âm thanh vượt trội

- Những cải tiến chính của phiên bản V4:
* Âm thanh giọng hát rõ ràng và tự nhiên hơn
* Cấu trúc bài hát mạch lạc và nhất quán
* Xử lý phối khí phức tạp tốt hơn
* Độ chính xác cao trong giai điệu và nhịp điệu

- Tính năng Persona nổi bật:
* Duy trì giọng hát nhân vật nhất quán xuyên suốt bài hát
* Hỗ trợ kể chuyện qua âm nhạc hiệu quả
* Cho phép kiểm soát sáng tạo tốt hơn

- Khả năng tái tạo (remaster):
* Nâng cấp các bản nhạc cũ lên chất lượng V4
* Cải thiện chất lượng âm thanh cho các dự án có sẵn

- Yêu cầu gói Pro để sử dụng đầy đủ tính năng:
* Công cụ chỉnh sửa nâng cao
* Chất lượng âm thanh cao cấp
* Thời gian tạo nhạc kéo dài hơn
* Ưu tiên tiếp cận tính năng mới

- Hạn chế cần lưu ý:
* Vẫn còn vấn đề với nốt cao
* Lời bài hát do AI tạo đôi khi thiếu logic
* Cần can thiệp thủ công cho các dự án chuyên nghiệp

📌 Suno V4 là bước đột phá trong công nghệ tạo nhạc AI với tính năng Persona độc đáo và khả năng tái tạo âm thanh chất lượng cao. Mặc dù vẫn còn một số hạn chế về nốt cao và lời bài hát, đây là công cụ hỗ trợ sáng tạo âm nhạc hiệu quả cho cả người mới và chuyên nghiệp.

https://www.geeky-gadgets.com/suno-v4-ai-music-update/

Không có file đính kèm.

Nguồn tham khảo

237

AI ảnh-video-music-âm thanh 2024-11-09 08:44:47

Google Vids - Công cụ AI biến tài liệu thành video chuyên nghiệp trong vài phút

- Google vừa ra mắt công cụ mới có tên "Vids" trong bộ Google Workspace, cho phép tạo video tự động bằng AI Gemini

- Công cụ bắt đầu triển khai từ ngày 7/11/2024 và sẽ mất khoảng 15 ngày để đến với mọi người dùng

- Google Vids có thể tạo video từ:
+ Lệnh văn bản
+ Tài liệu được tải lên
+ Bản ghi âm giọng nói

- Tính năng chính của Google Vids:
+ Tự động đề xuất các cảnh dựa trên nội dung đầu vào
+ Thêm nhạc nền
+ Gợi ý footage và văn bản phù hợp
+ Tạo kịch bản cho phần thuyết minh
+ Cung cấp nhiều lựa chọn giọng đọc tự động

- Các trường hợp sử dụng tiềm năng:
+ Demo sản phẩm
+ Video hướng dẫn và đào tạo nhân viên
+ Tổng kết sự kiện
+ Nội dung tiếp cận nhà cung cấp
+ Cập nhật dự án
+ Đánh giá chiến dịch và thiết kế

- Đối tượng được sử dụng Google Vids:
+ Business Standard: 12 USD/người dùng/tháng
+ Business Plus: 18 USD/người dùng/tháng
+ Enterprise Standard & Plus: Thỏa thuận
+ Education Plus: 5 USD/học sinh/năm
+ Các gói Enterprise Essentials và Enterprise Essentials Plus
+ Người dùng có add-on Gemini Business, Enterprise, Education hoặc Education Premium

📌 Google Vids là bước đột phá mới trong việc tự động hóa sản xuất video bằng AI, giúp tiết kiệm thời gian tạo nội dung cho doanh nghiệp. Công cụ này đang được triển khai cho người dùng Google Workspace với giá từ 12 USD/tháng, hứa hẹn cách mạng hóa cách thức tạo video trong môi trường công sở.

https://www.makeuseof.com/google-vids-app-workspace-gemini-video-generator/

Không có file đính kèm.

Nguồn tham khảo

117

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-11-05 07:07:04

Omnigen - mô hình AI nguồn mở mới cho phép chỉnh sửa ảnh qua trò chuyện

• Các nhà nghiên cứu tại Beijing Academy of Artificial Intelligence vừa phát hành Omnigen - mô hình AI nguồn mở tích hợp nhiều tính năng xử lý ảnh trong một hệ thống duy nhất

• Omnigen sử dụng 2 thành phần chính: Variational Autoencoder để phân tích cấu trúc ảnh và transformer model để xử lý đa dạng đầu vào

• Mô hình được huấn luyện trên tập dữ liệu 1 tỷ ảnh, có khả năng:
- Tạo ảnh từ văn bản
- Chỉnh sửa ảnh phức tạp
- Tô vẽ nội dung
- Điều chỉnh depth map

• Tích hợp Microsoft Phi-3 LLM giúp Omnigen hiểu ngữ cảnh và tương tác qua hội thoại tự nhiên như ChatGPT

• Người dùng có thể:
- Chạy miễn phí trên Hugging Face
- Cài đặt locally với yêu cầu tối thiểu 12GB VRAM
- Tích hợp vào ComfyUI thông qua node riêng

• Ưu điểm nổi bật:
- Đơn giản hóa quy trình chỉnh sửa ảnh phức tạp
- Hiểu và thực hiện lệnh qua ngôn ngữ tự nhiên
- Không cần kiến thức chuyên sâu về công cụ chỉnh sửa

• Hạn chế hiện tại:
- Tốc độ xử lý chậm hơn SD 3.5 và Flux
- Chất lượng ảnh chưa vượt trội
- Chỉ tương thích với card Nvidia

📌 Omnigen mở ra hướng đi mới cho công nghệ xử lý ảnh AI với khả năng tương tác qua hội thoại tự nhiên. Dù chưa vượt trội về chất lượng ảnh nhưng mô hình đã đơn giản hóa quy trình chỉnh sửa phức tạp, phù hợp cho cả người mới bắt đầu lẫn chuyên gia AI.

https://decrypt.co/290075/omnigen-open-source-ai-model-images-art

Không có file đính kèm.

Nguồn tham khảo

143

AI ảnh-video-music-âm thanh 2024-11-04 06:12:50

Whisperverse: Khi trợ lý AI thì thầm bên tai và điều khiển cuộc sống hàng ngày của con người

• Trong vài năm tới, trợ lý AI sẽ tích hợp vào tai nghe và kính thông minh, liên tục đưa ra lời khuyên và hướng dẫn cho người dùng trong mọi hoạt động hàng ngày

• Các thiết bị này sẽ có camera và micro để theo dõi môi trường xung quanh, giúp người dùng:
- Nhắc nhở lấy đồ giặt là khi đi ngang qua
- Tìm xe trong bãi đỗ xe
- Gợi ý tên đồng nghiệp khi gặp mặt
- Đưa ra gợi ý đối thoại thông minh trong các cuộc trò chuyện

• Meta Ray-Ban là thiết bị đầu tiên theo xu hướng này, với khả năng:
- Dịch ngôn ngữ theo thời gian thực
- Trả lời câu hỏi về những thứ người dùng nhìn thấy
- Tích hợp AI để đưa ra hướng dẫn bằng giọng nói

• Dự báo đến đầu những năm 2030:
- Trợ lý AI sẽ xuất hiện dưới dạng avatar thực tế ảo
- Hiển thị như những sinh vật nhỏ bay trước mặt người dùng
- Được gọi là Electronic Life Facilitators (ELF)

• Các thách thức và rủi ro:
- Vấn đề quyền riêng tư khi AI theo dõi liên tục
- Nguy cơ bị thao túng và tác động tâm lý
- Ảnh hưởng đến tương tác xã hội trực tiếp
- Cần có quy định để kiểm soát việc sử dụng vào mục đích quảng cáo

📌 Whisperverse sẽ mở ra kỷ nguyên mới của điện toán di động vào năm 2027, với trợ lý AI tích hợp vào kính và tai nghe thông minh. Meta Ray-Ban là thiết bị tiên phong, nhưng cần có khung pháp lý để đảm bảo công nghệ này phục vụ người dùng thay vì thao túng họ.

https://venturebeat.com/ai/enter-the-whisperverse-how-ai-voice-agents-will-guide-us-through-our-days/

Không có file đính kèm.

Nguồn tham khảo

128

AI ảnh-video-music-âm thanh 2024-11-03 09:11:55

Recraft V3: Ứng dụng tạo ảnh AI đánh bại MidJourney với 20 tỷ tham số, giá chỉ từ 10 USD/tháng

- Recraft V3, một mô hình AI từ startup London, vừa vượt qua Flux 1.1 Pro và MidJourney để dẫn đầu bảng xếp hạng các công cụ tạo ảnh AI

- Startup Recraft AI thành lập năm 2022, nhận được khoản đầu tư 11 triệu USD từ Khosla Ventures và cựu CEO GitHub Nat Friedman

- Mô hình có 20 tỷ tham số, cao hơn nhiều so với SD 3.5 Large (8,1 tỷ) và Flux (12 tỷ)

- Tốc độ tạo ảnh dưới 10 giây, tương đương SDXL nhưng chất lượng vượt trội hơn qua các bài kiểm tra mù

- Điểm mạnh của Recraft V3:
+ Tạo văn bản dài trong ảnh
+ Độ chính xác về giải phẫu
+ Hiểu yêu cầu người dùng tốt
+ Tạo ảnh vector có thể phóng to vô hạn
+ Tích hợp nhiều kiểu hình ảnh khác nhau

- Cung cấp 3 kênh sử dụng: giao diện web, Discord và ứng dụng di động (iOS/Android)

- Người dùng miễn phí được 50 credit/ngày nhưng không sở hữu ảnh tạo ra

- Gói trả phí từ 10 USD/tháng cho 1.000 credit, người dùng sở hữu toàn quyền ảnh

- Nhược điểm:
+ Khả năng nhận biết không gian trong ảnh phức tạp còn hạn chế
+ Người dùng miễn phí không được sở hữu ảnh
+ Đôi khi cần chỉnh sửa vị trí các thành phần trong ảnh

📌 Recraft V3 với 20 tỷ tham số đã vượt qua MidJourney và Flux để dẫn đầu công nghệ tạo ảnh AI. Mô hình cho phép tạo ảnh chất lượng cao dưới 10 giây, hỗ trợ vector và văn bản dài, với mức giá cạnh tranh 10 USD/tháng cho 1.000 credit.

https://decrypt.co/289570/recraft-v3-best-ai-image-generator-you-never-heard-of

Không có file đính kèm.

Nguồn tham khảo

146

AI tools AI ảnh-video-music-âm thanh 2024-11-01 07:04:46

Illuminate - Công cụ AI mới của Google biến bài báo khoa học thành podcast

- Google vừa ra mắt công cụ AI thử nghiệm mới có tên Illuminate, cho phép chuyển đổi các bài báo nghiên cứu và sách thành các cuộc trò chuyện âm thanh do AI tạo ra

- Illuminate sử dụng 2 giọng nói AI để thảo luận về các điểm chính và kết luận của bài báo, hiện đang tối ưu hóa cho các bài báo học thuật về khoa học máy tính

- Công cụ này tương tự như NotebookLM của Google nhưng tập trung vào nội dung kỹ thuật và định dạng giới hạn hơn

- Cách sử dụng Illuminate:
+ Đăng nhập bằng tài khoản Google tại illuminate.google.com/home
+ Vào tab Generate để tìm kiếm chủ đề trên arxiv.org hoặc dán URL của file PDF
+ Chờ vài phút để AI tạo cuộc trò chuyện âm thanh
+ Nghe và lưu vào thư viện cá nhân trong vòng 30 ngày

- Các tính năng chính:
+ Giới hạn 5 lần tạo âm thanh mỗi ngày
+ Có thể xem bản ghi cuộc trò chuyện
+ Chia sẻ nội dung với người khác
+ Tự động cài đặt giọng nói phù hợp với đối tượng chung

- Đối tượng sử dụng chính: học giả, sinh viên và nhà văn làm việc với các bài báo nghiên cứu dài

- Illuminate có thể đóng vai trò trợ lý nghiên cứu, giúp nắm bắt các điểm chính và bổ sung thông tin có thể bị bỏ sót khi đọc

📌 Google Illuminate là công cụ AI miễn phí biến bài báo nghiên cứu thành podcast, giới hạn 5 lần tạo/ngày. Công cụ này đặc biệt hữu ích cho việc nghiên cứu học thuật, giúp người dùng tiếp cận nội dung phức tạp dễ dàng hơn thông qua âm thanh.

https://www.zdnet.com/article/how-googles-new-ai-tool-turns-research-papers-into-audio-conversations-try-it-free/

Không có file đính kèm.

Nguồn tham khảo

141

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-11-01 00:30:59

OpenAI phát hành tính năng Voice mode cho ChatGPT trên máy tính Windows và macOS

- OpenAI vừa triển khai tính năng Advanced Voice mode cho ứng dụng ChatGPT trên hệ điều hành macOS và Windows

- Tính năng mới cho phép người dùng:
+ Giao tiếp trực tiếp bằng giọng nói với chatbot AI
+ Trao đổi về email, ảnh chụp màn hình và các tập tin trên máy tính
+ Đặt câu hỏi và nhận câu trả lời nhanh chóng từ AI

- Để sử dụng tính năng này, người dùng cần:
+ Cập nhật lên phiên bản mới nhất của ứng dụng ChatGPT trên máy tính
+ Đăng ký gói ChatGPT Advanced

- Tính năng này mở rộng khả năng tương tác của ChatGPT từ giao diện chat văn bản sang giao tiếp bằng giọng nói

- Việc triển khai trên nền tảng desktop giúp:
+ Tăng tính tiện dụng cho người dùng máy tính
+ Mở rộng phạm vi ứng dụng của ChatGPT trong môi trường làm việc
+ Tạo trải nghiệm tương tác tự nhiên hơn với AI

- Thời điểm ra mắt: 31 tháng 10 năm 2024

📌 OpenAI đã mở rộng khả năng tương tác của ChatGPT lên một tầm cao mới với tính năng Advanced Voice mode trên Windows và macOS. Người dùng giờ đây có thể trao đổi trực tiếp bằng giọng nói với AI về mọi nội dung trên màn hình máy tính, từ email đến tập tin.

https://www.latestly.com/socially/technology/chatgpt-advanced-voice-mode-now-available-on-windows-and-macos-computers-allows-users-to-talk-to-ai-chatbot-check-details-6383662.html

Không có file đính kèm.

Nguồn tham khảo

163

AI ảnh-video-music-âm thanh 2024-10-31 07:48:24

6 Cách khắc phục lỗi AI không thể tạo chữ trong hình ảnh

- AI hiện gặp khó khăn trong việc tạo chữ trong hình ảnh do thiếu dữ liệu huấn luyện và còn trong giai đoạn phát triển ban đầu

- Nguyên nhân chính:
• Các mô hình ngôn ngữ lớn (LLM) chưa được huấn luyện đủ về khía cạnh tạo chữ trong hình
• Dữ liệu huấn luyện còn hạn chế
• Công nghệ AI tạo hình đang trong giai đoạn đầu phát triển

- 6 giải pháp khắc phục:

• Sử dụng prompt chi tiết và cụ thể hơn, ví dụ thay vì "tạo hình quán café" thì nên mô tả "tạo hình mặt tiền quán café Ý có biển hiệu Café vào một ngày nắng"

• Thử nghiệm các từ đồng nghĩa thay thế cho "text" như: title, letters, written words, sign

• Sử dụng công cụ bổ sung như Canva hoặc Adobe Photoshop Express để chèn chữ sau khi tạo hình

• Giới hạn độ dài văn bản, tốt nhất dưới 10 ký tự

• Dùng công cụ chỉnh sửa chuyên biệt như Storia Lab để sửa chữ không rõ ràng

• Sử dụng các công cụ AI chuyên biệt về tạo chữ như Ideogram với tính năng Magic Prompt, giá từ 8 USD/tháng

📌 AI còn hạn chế trong việc tạo chữ trong hình do thiếu dữ liệu huấn luyện. Người dùng có thể khắc phục bằng 6 giải pháp: dùng prompt chi tiết, từ thay thế, công cụ bổ sung, giới hạn độ dài chữ, phần mềm chỉnh sửa và công cụ AI chuyên biệt như Ideogram.

https://www.makeuseof.com/why-ai-cant-write-text-in-images-solutions/

Không có file đính kèm.

Nguồn tham khảo

160

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-10-29 15:04:29

OmniParser của Microsoft: Mô hình AI mới vượt qua cả GPT-4V

- OmniParser là mô hình AI hoàn toàn dựa trên giao diện đồ họa người dùng (GUI), được Microsoft công bố trên blog AI Frontiers.
- Mô hình này được phát hành trên Hugging Face với giấy phép MIT, tương tự như tính năng "Sử dụng máy tính" của Anthropic.
- Sự ra mắt của OmniParser củng cố vị thế của Microsoft trong ngành AI Agent, sau khi gia nhập Super League cùng Oracle và Salesforce vào tháng 9.
- Nghiên cứu đầu tiên về OmniParser được công bố vào tháng 3 năm 2024 bởi Jianqiang Wan và nhóm từ Alibaba Group và Đại học Khoa học và Công nghệ Huazhong.
- Một bài báo chi tiết về OmniParser được phát hành vào tháng 8 bởi Yadong Lu và các đồng nghiệp từ Microsoft Research, chứng minh rằng OmniParser vượt trội hơn các chuẩn mực GPT-4V ngay cả khi chỉ sử dụng đầu vào từ ảnh chụp màn hình.
- OmniParser được mô tả là công cụ đa năng, chuyển đổi ảnh chụp màn hình giao diện người dùng thành dữ liệu và nâng cao khả năng hiểu biết của các mô hình ngôn ngữ lớn (LLMs) về giao diện.
- Ra mắt kèm theo hai loại tập dữ liệu: một để phát hiện biểu tượng có thể nhấp và một để mô tả chức năng của từng biểu tượng.
- Trong các bài kiểm tra trên các chuẩn mực như SeeClick, Mind2Web và AITW, OmniParser luôn vượt trội hơn GPT-4V và GPT-4 với khả năng nhìn.
- Để tương thích với các LLM hiện tại, OmniParser đã được kết hợp với các mô hình mới nhất như Phi-3.5-V và Llama-3.2-V.
- Kết quả cho thấy mô hình phát hiện vùng tương tác (ID) đã cải thiện hiệu suất nhiệm vụ đáng kể so với mô hình Grounding DINO không tinh chỉnh.
- Tăng cường hiệu suất đến từ "ngữ nghĩa địa phương" (LS) liên kết chức năng của mỗi biểu tượng với mục đích của nó.
- Với sự gia tăng sử dụng các LLM khác nhau, nhu cầu về các AI agent cải tiến cho các chức năng giao diện người dùng cũng tăng cao.
- Mặc dù GPT-4V hứa hẹn nhiều tiềm năng, nhưng khả năng hoạt động như một agent tổng quát trong hệ điều hành thường bị đánh giá thấp do kỹ thuật phân tích màn hình chưa đủ mạnh.
- Theo chuẩn ScreenSpot, OmniParser cải thiện khả năng tạo hành động của GPT-4V phù hợp với các khu vực liên quan trong giao diện người dùng.
- Một bài báo khác công bố vào tháng 9 năm 2024 cho thấy kết quả thử nghiệm tốt nhất cho agent sử dụng OmniParser tích hợp với GPT-4V.

📌 OmniParser là mô hình AI mới của Microsoft, vượt qua GPT-4V trong nhiều bài kiểm tra. Sự ra mắt này đánh dấu bước tiến quan trọng trong ngành AI Agent, với khả năng chuyển đổi ảnh chụp màn hình thành dữ liệu và cải thiện hiệu suất giao diện người dùng.

https://analyticsindiamag.com/ai-news-updates/microsoft-drops-omniparser-its-new-ai-model/

Không có file đính kèm.

Nguồn tham khảo

171

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-10-29 15:00:22

Zhipu AI vừa ra mắt GLM-4-Voice, mô hình ngôn ngữ lớn đầu cuối mã nguồn mở

- GLM-4-Voice là mô hình ngôn ngữ lớn đầu cuối mã nguồn mở vừa được Zhipu AI phát hành vào ngày 25 tháng 10 năm 2024.
- Mô hình này nhằm khắc phục những hạn chế của các hệ thống nhận diện giọng nói truyền thống, như khả năng hiểu cảm xúc và biến thể trong khẩu ngữ.
- GLM-4-Voice tích hợp nhận diện giọng nói, hiểu ngôn ngữ và tạo giọng nói trong một hệ thống duy nhất, hỗ trợ cả tiếng Trung và tiếng Anh.
- Việc tích hợp này giúp loại bỏ các quy trình phức tạp thường thấy trong các mô hình trước đây, cho phép xử lý hiệu quả hơn.
- Một tính năng nổi bật của GLM-4-Voice là khả năng điều chỉnh cảm xúc, âm điệu và tốc độ dựa trên hướng dẫn của người dùng.
- Mô hình có độ trễ thấp và hỗ trợ phơi nhiễm thời gian thực, giúp tương tác trở nên tự nhiên hơn khi người dùng có thể nói chồng lên nhau mà không bị gián đoạn.
- GLM-4-Voice cải thiện đáng kể cách tương tác giữa con người và máy móc, làm cho các cuộc trò chuyện trở nên trực quan và dễ tiếp cận hơn.
- Các trợ lý giọng nói hiện tại thường cảm thấy cứng nhắc vì không thể điều chỉnh theo dòng chảy của cuộc trò chuyện con người. GLM-4-Voice giải quyết vấn đề này bằng cách điều chỉnh đầu ra giọng nói để làm cho cuộc trò chuyện trở nên biểu cảm hơn.
- Các thử nghiệm ban đầu cho thấy GLM-4-Voice hoạt động tốt hơn với chuyển tiếp giọng nói mượt mà và khả năng xử lý sự gián đoạn tốt hơn so với các phiên bản trước.
- Dữ liệu ban đầu từ Zhipu AI cho thấy GLM-4-Voice có độ phản hồi tốt hơn với độ trễ giảm, nâng cao sự hài lòng của người dùng trong các ứng dụng tương tác.
- Mô hình này hứa hẹn sẽ ảnh hưởng đến nhiều lĩnh vực như trợ lý cá nhân, dịch vụ khách hàng, giải trí và giáo dục.

📌 GLM-4-Voice của Zhipu AI là bước tiến quan trọng trong mô hình AI giọng nói với khả năng điều chỉnh cảm xúc và hỗ trợ đa ngôn ngữ. Mô hình này mang lại trải nghiệm tương tác tự nhiên hơn với độ trễ thấp và khả năng xử lý sự gián đoạn hiệu quả.

https://www.marktechpost.com/2024/10/25/zhipu-ai-releases-glm-4-voice-a-new-open-source-end-to-end-speech-large-language-model/

Không có file đính kèm.

Nguồn tham khảo

206

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-10-28 07:36:46

Meta thách thức Google: Ra mắt công cụ tạo podcast AI nguồn mở NotebookLlama

• Meta vừa công bố NotebookLlama - phiên bản nguồn mở của tính năng tạo podcast tự động trong NotebookLM của Google

• NotebookLlama sử dụng mô hình Llama của Meta để thực hiện phần lớn quá trình xử lý

• Quy trình hoạt động của NotebookLlama:
- Đầu tiên tạo bản ghi từ file đầu vào (PDF tin tức hoặc bài blog)
- Thêm các yếu tố kịch tính và ngắt quãng
- Chuyển bản ghi thành giọng nói qua các mô hình text-to-speech nguồn mở

• Chất lượng âm thanh của NotebookLlama còn hạn chế so với NotebookLM:
- Giọng nói có âm sắc máy móc rõ rệt
- Các giọng thường chồng lấn nhau ở những điểm không phù hợp

• Nhóm nghiên cứu của Meta cho biết chất lượng có thể cải thiện với mô hình mạnh hơn:
- Mô hình text-to-speech hiện là điểm giới hạn về độ tự nhiên
- Đề xuất cách tiếp cận mới: sử dụng 2 agent tranh luận để viết dàn ý podcast thay vì một mô hình đơn lẻ

• NotebookLlama không phải nỗ lực đầu tiên nhằm sao chép tính năng podcast của NotebookLM, một số dự án khác đã thành công hơn

• Tuy nhiên, tất cả các hệ thống AI tạo podcast hiện nay đều chưa giải quyết được vấn đề ảo giác (hallucination) - tạo ra thông tin không có thật

📌 Meta tạo bước đột phá với NotebookLlama - công cụ tạo podcast AI nguồn mở dựa trên mô hình Llama, dù chất lượng âm thanh còn hạn chế nhưng mở ra tiềm năng cải tiến với mô hình mạnh hơn. Vấn đề ảo giác vẫn là thách thức chung cho mọi hệ thống AI tạo podcast.

https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/

Không có file đính kèm.

Nguồn tham khảo

173

AI ảnh-video-music-âm thanh 2024-10-26 06:30:46

Midjourney thách thức Photoshop với công cụ chỉnh sửa ảnh đột phá mới

• Midjourney vừa công bố mở rộng trình chỉnh sửa ảnh cho nhóm người dùng được chọn lọc

• Tính năng mới cho phép người dùng chỉnh sửa ảnh từ nguồn bên ngoài lần đầu tiên, với các biện pháp kiểm duyệt và bảo vệ quyền riêng tư nghiêm ngặt

• Người dùng có thể:
- Thêm hoặc xóa vật thể trong ảnh
- Thay đổi kết cấu, màu sắc của tường
- Điều chỉnh ánh sáng để tạo hiệu ứng ban đêm
- Chuyển đổi phác thảo tay thành tác phẩm nghệ thuật hoàn chỉnh

• Điều kiện sử dụng tính năng mới:
- Thành viên có đăng ký gói năm
- Người dùng đã đăng ký trong 12 tháng qua
- Thành viên có ít nhất 10.000 ảnh
- Chỉ khả dụng trên Midjourney 6.1

• Giao diện người dùng mới phản hồi nhanh, giúp quá trình tạo ảnh giống như sử dụng ứng dụng kiểu Photoshop

• Công cụ thể hiện khả năng hiểu chính xác vùng cần thay đổi khi sử dụng các lệnh

• Các thay đổi mới hòa hợp liền mạch với phong cách và hình thức của ảnh gốc

📌 Midjourney đã tạo bước đột phá với tính năng chỉnh sửa ảnh bên ngoài, cạnh tranh trực tiếp với Photoshop. Tính năng này chỉ dành cho nhóm người dùng đặc biệt trên Midjourney 6.1, yêu cầu tối thiểu 10.000 ảnh và 12 tháng đăng ký.

https://www.tomsguide.com/ai/forget-photoshop-midjourney-just-launched-its-upgraded-image-editor-with-a-killer-new-feature

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh 2024-10-25 05:44:54

Tạo và tùy chỉnh podcast AI với Google NotebookLM

NotebookLM là một mô hình AI của Google cho phép người dùng thêm nội dung vào “notebook” và tương tác với nội dung này. Notebook có thể chứa văn bản, liên kết web, video YouTube và các nguồn âm thanh.
Tính năng Audio Overview của NotebookLM tạo podcast tự động giữa 2 host AI với cách nói tự nhiên, bao gồm ngắt quãng và dùng từ đệm, giúp podcast trở nên gần gũi như con người.
Người dùng có thể thêm tối đa 50 nguồn vào một notebook để tạo nội dung, từ sách đến bài nghiên cứu hoặc video.
Trước đây, người dùng không thể điều chỉnh nội dung, nhưng Google mới ra mắt tùy chọn “Customize” cho phép:
- Tùy chỉnh theo nguồn: Lựa chọn phần nội dung cụ thể từ một tài liệu dài.
- Tùy chỉnh theo chủ đề: Yêu cầu podcast tập trung vào các khía cạnh nhất định.
- Tùy chỉnh theo đối tượng khán giả: Tạo nội dung phù hợp với nhu cầu cụ thể của nhóm người nghe mong muốn.
Trong một thử nghiệm, tác giả đã dùng sách Brainfluence của mình để tạo podcast chỉ nói về tâm lý định giá, với thời lượng lên đến 25 phút. Tuy nhiên, NotebookLM bất ngờ chọn góc nhìn từ phía bảo vệ người tiêu dùng, thay vì tiếp cận từ góc độ marketing như mong đợi.
Khi tác giả hướng dẫn podcast tập trung vào khía cạnh marketing và phục vụ cho đối tượng chuyên gia, nội dung đã thay đổi rõ rệt, nhấn mạnh vào cách tăng tỷ lệ chuyển đổi khách hàng. Podcast cũng được điều chỉnh theo cách gọi host là "chuyên gia" trong lĩnh vực này.
Mặc dù tùy chỉnh độ dài podcast chưa chính xác (ví dụ: yêu cầu 5 phút nhưng podcast kéo dài 8 phút), nhưng tính năng mới mở ra nhiều cơ hội sáng tạo cho người dùng:
- Tạo podcast quảng bá sản phẩm cho từng phân khúc khách hàng cụ thể.
- Tóm tắt nội dung sách hoặc bài báo mà người dùng không có thời gian đọc.
- Chiết xuất thông tin thú vị từ video hoặc ghi âm một cách nhanh chóng.

📌 Google NotebookLM giúp tạo podcast AI chuyên nghiệp với khả năng tùy chỉnh linh hoạt theo nội dung và đối tượng khán giả. Công cụ này hỗ trợ tạo các tập podcast tự nhiên và chính xác, mang lại tiềm năng ứng dụng lớn trong marketing và sản xuất nội dung doanh nghiệp.

https://www.forbes.com/sites/rogerdooley/2024/10/24/how-to-create-and-customize-an-ai-podcast-with-googles-notebooklm/

Không có file đính kèm.

Nguồn tham khảo

219

AI ảnh-video-music-âm thanh 2024-10-24 06:10:56

Genmo ra mắt Mochi-1, mô hình AI video mã nguồn mở

Genmo đã giới thiệu Mochi-1, mô hình AI video mã nguồn mở, với giấy phép Apache 2.0, cho phép cộng đồng tự do chỉnh sửa và cải thiện mô hình này.
Mochi-1 tập trung vào chuyển động mượt mà, khắc phục hạn chế của các mô hình AI video trước đây gặp phải hiện tượng "Live Photo".
Với 10 tỷ tham số, Mochi-1 sử dụng phương pháp khuếch tán bất đồng bộ, giúp tối ưu hóa sức mạnh trong kích thước gọn nhẹ.
Mô hình này được huấn luyện độc quyền trên dữ liệu video thay vì kết hợp hình ảnh và văn bản, mang lại khả năng hiểu rõ hơn về chuyển động và vật lý.
Mochi-1 hiện đang ở giai đoạn xem trước nghiên cứu, với độ phân giải giới hạn 480p. Genmo nhấn mạnh rằng các tính năng mới sẽ được cải tiến dựa trên phản hồi từ người dùng.
Paras Jain, CEO của Genmo, khẳng định công ty đã đầu tư mạnh vào khả năng bám sát yêu cầu của người dùng thông qua prompt và sử dụng mô hình ngôn ngữ hình ảnh để đánh giá độ chính xác.
Cạnh tranh với Allegro từ Rhymes, một mô hình AI video mã nguồn mở khác ra mắt cùng tuần, Mochi-1 mang lại hiệu năng tốt hơn với 24 khung hình/giây so với 15 khung hình/giây của Allegro.
Jain kỳ vọng với bản chất mã nguồn mở, các nhà phát triển sẽ tiếp tục tối ưu hóa để Mochi-1 có thể chạy trên phần cứng yếu hơn trong tương lai, mang lại khả năng tạo video ngoại tuyến.

📌 Mochi-1 đánh dấu bước đột phá trong lĩnh vực AI video mã nguồn mở, mang lại công cụ mạnh mẽ cho cộng đồng và mở ra tiềm năng tùy chỉnh không giới hạn. Với trọng tâm vào chuyển động và độ chính xác, Mochi-1 hứa hẹn cạnh tranh mạnh mẽ trên thị trường AI video.

https://www.tomsguide.com/ai/meet-mochi-1-the-latest-free-and-open-source-ai-video-model

Không có file đính kèm.

Nguồn tham khảo

216

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-10-24 05:49:06

OpenAI ra mắt mô hình SCM tăng tốc tạo media lên 50 lần

OpenAI đã phát triển mô hình nhất quán liên tục (sCM), tăng tốc độ tạo nội dung AI như hình ảnh, video và âm thanh nhanh gấp 50 lần so với các mô hình khuếch tán truyền thống.
Với sCM, nội dung có thể được tạo ra chỉ trong 0,11 giây trên một GPU A100, so với hơn 5 giây với các mô hình khuếch tán hiện tại.
Công nghệ mới này sử dụng hai bước sampling thay vì hàng trăm bước như trước đây, giảm thiểu chi phí tính toán mà vẫn giữ chất lượng cao với điểm FID là 1,88 trên tập dữ liệu ImageNet 512×512.
Mô hình này vượt trội nhờ khả năng mở rộng tỉ lệ với mô hình khuếch tán “giáo viên”, giúp rút ngắn khoảng cách về chất lượng khi tăng kích thước và số lượng tham số.
Các bài kiểm tra hiệu năng cho thấy sCM mang lại kết quả vượt trội với ít tài nguyên tính toán hơn, làm cho AI tạo sinh thời gian thực trở nên khả thi hơn.
Mô hình sCM mở ra cơ hội ứng dụng rộng rãi trong các lĩnh vực đòi hỏi tốc độ và chất lượng cao như tạo hình ảnh, video và âm thanh thời gian thực.
Sự thành công của sCM có thể là bước đệm cho DALL-E 4, giúp OpenAI tiến gần hơn đến các ứng dụng AI thời gian thực cho nhiều ngành công nghiệp.
Nghiên cứu của OpenAI nhấn mạnh tiềm năng tối ưu hóa hiệu năng hơn nữa, phù hợp với các nhu cầu cụ thể trong các lĩnh vực khác nhau.

📌 Mô hình sCM của OpenAI cải thiện tốc độ tạo media lên 50 lần, mở ra tiềm năng ứng dụng AI thời gian thực. Công nghệ này có thể cách mạng hóa nhiều ngành công nghiệp với khả năng tạo nội dung nhanh chóng và hiệu quả.

https://venturebeat.com/ai/openai-researchers-develop-new-model-that-speeds-up-media-generation-by-50x/

Không có file đính kèm.

Nguồn tham khảo

134

AI ảnh-video-music-âm thanh 2024-10-23 09:40:42

OpenAI ra mắt Voice Mode nâng cao tại châu Âu

- OpenAI đã chính thức ra mắt Voice Mode nâng cao tại châu Âu vào ngày 22/10/2024.
- Việc ra mắt bị trì hoãn trước đó có thể do các quy định nghiêm ngặt của GDPR tại châu Âu.
- Voice Mode này cho phép người dùng tương tác với ChatGPT bằng giọng nói thông qua điện thoại di động, máy tính xách tay hoặc máy tính để bàn.
- Voice Mode nâng cao đã được triển khai tại Vương quốc Anh đầu tháng 10 nhưng chỉ đến nay mới có mặt tại các quốc gia châu Âu.
- Một phát ngôn viên của OpenAI khẳng định cam kết làm việc với các tổ chức châu Âu để cung cấp sản phẩm tại đây.
- Tất cả người dùng Plus ở EU, Thụy Sĩ, Iceland, Na Uy và Liechtenstein hiện đã có quyền truy cập vào Voice Mode nâng cao.
- Chế độ này không khả dụng cho người dùng tài khoản miễn phí.
- Giọng nói Sky trong Voice Mode từng gây tranh cãi vì giống giọng của diễn viên Scarlett Johansson trong bộ phim "Her" (2013).
- Luật sư của Johansson đã gửi thư yêu cầu OpenAI không sử dụng giọng nói này, dẫn đến việc tạm dừng sử dụng giọng nói Sky.
- Người dùng có thể yêu cầu AI thay đổi giọng hoặc điều chỉnh tốc độ nói theo ý muốn.

📌 OpenAI đã ra mắt Voice Mode nâng cao tại châu Âu sau thời gian trì hoãn. Chế độ này cho phép tương tác bằng giọng nói và đã gây chú ý với vụ việc liên quan đến giọng nói Sky giống Scarlett Johansson. Tất cả người dùng Plus tại EU đều có quyền truy cập.

https://www.euronews.com/next/2024/10/22/openais-advanced-voice-mode-is-now-available-in-europe-heres-what-you-can-do-with-it

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh 2024-10-11 08:01:14

Tạo ảnh AI chất lượng cao miễn phí với Google Gemini Imagen 3

• Google vừa nâng cấp khả năng tạo hình ảnh của Gemini từ Imagen 2 lên Imagen 3, mang lại chất lượng cao hơn cho cả người dùng miễn phí và trả phí.

• Imagen 3 được đánh giá vượt trội hơn so với phiên bản trước và các mô hình AI khác như DALL-E 3, Midjourney v6, Stable Diffusion 3 Large về độ hài lòng của người dùng.

• Những cải tiến chính của Imagen 3 bao gồm:
- Chất lượng hình ảnh nâng cao với chi tiết sắc nét, màu sắc sống động hơn
- Tạo văn bản tốt hơn, tích hợp tốt hơn vào hình ảnh
- Hình ảnh chân thực hơn với người, thú cưng và cảnh vật
- Đa dạng phong cách từ tranh sơn dầu cổ điển đến nghệ thuật kỹ thuật số hiện đại

• Người dùng có thể sử dụng tính năng mới này qua 3 cách:
1. Trên website Gemini:
- Truy cập gemini.google.com và đăng nhập
- Sử dụng mẫu có sẵn hoặc tự tạo mô tả hình ảnh mong muốn
- Xem kết quả, chỉnh sửa mô tả nếu cần và tải xuống hình ảnh cuối cùng

2. Trên ứng dụng Gemini cho Android:
- Tải ứng dụng từ Google Play
- Nhập mô tả hình ảnh bằng văn bản hoặc giọng nói
- Xem, chỉnh sửa và chia sẻ hình ảnh được tạo

3. Trên ứng dụng Google cho iOS:
- Tải ứng dụng Google từ App Store
- Chọn Gemini từ menu Shortcuts
- Nhập mô tả hình ảnh và xem kết quả
- Chia sẻ hoặc tải xuống hình ảnh (không có tính năng chỉnh sửa trực tiếp)

• Tính năng mới này giúp Google cạnh tranh trực tiếp với các công cụ tạo hình ảnh AI khác như DALL-E và Midjourney.

• Người dùng có thể tạo nhiều loại hình ảnh khác nhau từ tranh vẽ đến ảnh chân dung thực tế, phong cảnh, v.v.

📌 Google Gemini với Imagen 3 nâng tầm khả năng tạo hình ảnh AI, cạnh tranh trực tiếp với DALL-E và Midjourney. Người dùng có thể dễ dàng tạo ảnh chất lượng cao miễn phí trên web, Android và iOS, mở ra cơ hội sáng tạo không giới hạn.

https://www.zdnet.com/article/how-to-use-gemini-to-generate-higher-quality-ai-images-now-for-free/

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh 2024-10-08 07:56:05

Flux 1.1 Pro: Mô hình tạo ảnh AI siêu tốc vượt trội MidJourney

• Black Forest Labs vừa ra mắt Flux 1.1 Pro, mô hình tạo ảnh AI nhanh nhất và tiên tiến nhất của họ.

• Flux 1.1 Pro đạt điểm Elo cao nhất trên nền tảng đánh giá Artificial Analysis, vượt qua tất cả các mô hình text-to-image khác trên thị trường.

• Mô hình mới có tốc độ gần bằng mô hình nhỏ nhất của Flux, nhưng chất lượng hình ảnh vượt trội hơn.

• Giá của Flux 1.1 Pro là 0,04 USD/hình, thấp hơn nhiều mô hình khác trên thị trường.

• Flux 1.1 Pro là mô hình đóng, không thể chạy cục bộ. Người dùng chỉ có thể truy cập thông qua các nền tảng như Together AI, Replicate, Fal AI và Freepik.

• Mô hình tạo ra hình ảnh rất thực tế, có khả năng tạo văn bản tốt và sáng tạo trong các tác vụ và phong cách nghệ thuật.

• So với Flux 1, Flux 1.1 Pro tạo ra tư thế tự nhiên hơn và cơ thể nhất quán hơn trong các hình ảnh.

• Flux 1.1 Pro tuân thủ prompt tốt hơn, kết hợp được nhiều yếu tố vào cảnh mà không bị thiếu sót.

• Về nhận thức không gian, Flux 1.1 Pro và Flux 1 tương đương nhau, nhưng Flux 1.1 Pro vượt trội hơn về các chi tiết bổ sung.

• Flux 1.1 Pro nhất quán và logic hơn trong việc tạo ra hình ảnh so với phiên bản trước.

• Mô hình hiểu ngôn ngữ tự nhiên, phù hợp với người mới bắt đầu, mặc dù đây không phải là điểm mạnh chính.

• MidJourney có xu hướng sáng tạo hơn trong việc nâng cao các prompt kém chất lượng.

• Flux 1.1 Pro rẻ hơn, nhanh hơn và nhìn chung tốt hơn về chất lượng so với bất kỳ mô hình hiện tại nào.

• Đối với những người muốn trải nghiệm chuyên nghiệp hơn, Freepik dường như là lựa chọn tốt nhất.

• Freepik cung cấp nhiều tính năng bổ sung như nâng cao hình ảnh, outpainting, tạo hình ảnh từ bản nháp, xóa nền và thư viện nội dung để thử nghiệm.

📌 Flux 1.1 Pro là mô hình tạo ảnh AI mạnh mẽ nhất hiện nay, vượt trội về tốc độ và chất lượng. Với giá 0,04 USD/hình, nó rẻ hơn và nhanh hơn các đối thủ. Tuy không thể chạy cục bộ, người dùng có thể truy cập qua các nền tảng như Freepik để có trải nghiệm chuyên nghiệp với nhiều tính năng bổ sung.

https://decrypt.co/284932/meet-flux-1-1-pro-best-ai-image-generator

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-10-06 09:05:26

Apple tung ra Depth Pro: Cuộc cách mạng trong nhận thức 3D của AI

• Apple đã phát triển mô hình AI mới có tên Depth Pro, có khả năng tạo bản đồ độ sâu 3D chi tiết từ hình ảnh 2D đơn lẻ chỉ trong 0,3 giây.

• Depth Pro không cần dữ liệu camera truyền thống để đưa ra dự đoán, mở ra tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực như thực tế tăng cường và xe tự lái.

• Mô hình này sử dụng kiến trúc transformer đa quy mô hiệu quả để xử lý đồng thời cả ngữ cảnh tổng thể và chi tiết của hình ảnh.

• Depth Pro có khả năng ước tính cả độ sâu tương đối và tuyệt đối (độ sâu metric), cung cấp các phép đo trong thế giới thực.

• Mô hình có khả năng học zero-shot, cho phép áp dụng cho nhiều loại hình ảnh khác nhau mà không cần đào tạo lại trên bộ dữ liệu cụ thể.

• Depth Pro vượt trội so với các mô hình khác trong việc xử lý các thách thức như "flying pixels" và truy vết biên chính xác.

• Apple đã công bố mã nguồn mở của Depth Pro trên GitHub, bao gồm kiến trúc mô hình và trọng số đã được đào tạo trước.

• Mô hình này có thể tạo bản đồ độ sâu có độ phân giải 2,25 megapixel với độ sắc nét đặc biệt, nắm bắt được cả những chi tiết nhỏ như tóc và thực vật.

• Depth Pro đạt hiệu suất cao nhất trong so sánh với các mô hình khác trên nhiều bộ dữ liệu, với xếp hạng trung bình là 2,5.

• Ứng dụng tiềm năng của Depth Pro bao gồm cải thiện trải nghiệm thực tế tăng cường, nâng cao khả năng phát hiện và điều hướng chướng ngại vật của xe tự lái.

• Trong thương mại điện tử, Depth Pro có thể cho phép người tiêu dùng xem cách đồ nội thất phù hợp với ngôi nhà của họ chỉ bằng cách chĩa camera điện thoại vào phòng.

• Mô hình này có thể đẩy nhanh quá trình phát triển sản phẩm và ra quyết định dựa trên AI trong nhiều ngành công nghiệp.

📌 Apple đã tạo ra bước đột phá trong lĩnh vực nhận thức 3D với Depth Pro, mô hình AI có khả năng tạo bản đồ độ sâu 3D chi tiết từ hình ảnh 2D trong 0,3 giây. Với tính năng học zero-shot và khả năng ước tính độ sâu metric, Depth Pro mở ra tiềm năng ứng dụng rộng rãi từ thực tế tăng cường đến xe tự lái.

https://venturebeat.com/ai/apple-releases-depth-pro-an-ai-model-that-rewrites-the-rules-of-3d-vision/

Không có file đính kèm.

Nguồn tham khảo

144

AI ảnh-video-music-âm thanh 2024-10-06 08:24:38

Meta AI ra mắt MovieGen: Bộ mô hình AI tạo video 1080p với âm thanh đồng bộ từ văn bản

• Meta AI giới thiệu MovieGen - bộ mô hình nền tảng truyền thông tiên tiến mới, hứa hẹn cách mạng hóa việc tạo và tương tác với nội dung truyền thông

• MovieGen có khả năng tạo video 16 giây ở độ phân giải 1080p và 16 khung hình/giây, kèm âm thanh đồng bộ, nhờ mô hình 30 tỷ tham số sử dụng kỹ thuật khuếch tán tiềm ẩn tiên tiến

• Mô hình 13 tỷ tham số chuyên biệt cho tổng hợp âm thanh từ video/văn bản, tạo âm thanh điện ảnh 48kHz đồng bộ với hình ảnh, có thể xử lý đa dạng độ dài phương tiện lên đến 30 giây

• Khả năng xử lý linh hoạt các ngữ cảnh âm thanh khác nhau như tạo mới, mở rộng và điền vào khoảng trống nhờ huấn luyện dự đoán âm thanh có mặt nạ

• Sử dụng mục tiêu Flow Matching kết hợp kiến trúc Diffusion Transformer (DiT) để huấn luyện và suy luận hiệu quả, giúp tăng tốc quá trình và giảm yêu cầu tính toán

• Kỹ thuật khuếch tán tiềm ẩn với DAC-VAE mã hóa âm thanh 48kHz ở tốc độ 25Hz, cho chất lượng cao hơn ở tốc độ khung hình thấp hơn so với phương pháp truyền thống

• Mô hình DAC-VAE được cải tiến với biến đổi Fourier thời gian ngắn đa tỷ lệ, hàm kích hoạt Snake và loại bỏ lượng tử hóa vector dư thừa để nâng cao chất lượng tái tạo âm thanh

• MovieGen cho phép tạo video từ văn bản, cá nhân hóa video bằng hình ảnh do người dùng cung cấp và chỉnh sửa video với các yếu tố âm thanh-hình ảnh mới

• Công nghệ này có ý nghĩa quan trọng đối với các ngành như giải trí, quảng cáo, giáo dục - nơi nội dung năng động và cá nhân hóa ngày càng được yêu cầu cao

• MovieGen đại diện cho bước tiến lớn trong lĩnh vực tạo nội dung truyền thông, thiết lập tiêu chuẩn mới cho khả năng tạo nội dung tự động và mở ra cơ hội chưa từng có cho sáng tạo

📌 Meta AI giới thiệu MovieGen - bộ mô hình AI tạo video 1080p 16 giây với âm thanh 48kHz đồng bộ. Sử dụng mô hình 30 tỷ tham số, MovieGen cho phép tạo, cá nhân hóa và chỉnh sửa video từ văn bản/hình ảnh, mở ra tiềm năng lớn cho ngành giải trí và quảng cáo.

https://www.marktechpost.com/2024/10/05/meta-ai-unveils-moviegen-a-series-of-new-advanced-media-foundation-ai-models/

Không có file đính kèm.

Nguồn tham khảo

238

AI ảnh-video-music-âm thanh 2024-10-06 08:06:27

Google Gemini tóm tắt video YouTube, gây lo ngại cho người sáng tạo nội dung

• Google vừa ra mắt tính năng tóm tắt video trên YouTube thông qua Gemini, công cụ AI tạo sinh mới nhất của họ. Tính năng này cho phép người dùng nhanh chóng nắm bắt nội dung chính của video mà không cần xem toàn bộ.

• Tác giả bày tỏ lo ngại về tác động tiềm tàng của tính năng này đối với người sáng tạo nội dung YouTube. Việc bỏ qua quảng cáo và nội dung đầy đủ có thể ảnh hưởng đến doanh thu và lượt xem của họ.

• Tính năng tóm tắt video dường như mâu thuẫn với mô hình kinh doanh hiện tại của YouTube, vốn dựa vào quảng cáo và gói đăng ký Premium để tạo doanh thu.

• Google đang đẩy mạnh áp dụng AI vào nhiều sản phẩm của mình, bao gồm cả YouTube. Họ đã giới thiệu các công cụ tạo chủ đề, tiêu đề và video dựa trên AI cho người sáng tạo nội dung.

• Tác giả đặt câu hỏi liệu Google có đang "quên mất" rằng họ sở hữu YouTube khi triển khai tính năng tóm tắt video này.

• Bài viết cũng đề cập đến những thách thức mà YouTube phải đối mặt trong việc kiểm duyệt nội dung, với hàng petabyte dữ liệu được tải lên hàng ngày.

• Google đã từng gặp nhiều vấn đề liên quan đến việc kiểm soát nội dung trên YouTube, như vụ ElsaGate và các đợt "Adpocalypse" kể từ năm 2017.

• Tác giả cho rằng Google cần tìm ra sự cân bằng giữa việc áp dụng công nghệ AI mới và bảo vệ lợi ích của người sáng tạo nội dung.

• Bài viết cũng đề cập đến các vấn đề pháp lý mà Google đang phải đối mặt, bao gồm cáo buộc về hành vi chống cạnh tranh từ Bộ Tư pháp Hoa Kỳ và tòa án EU.

• Tác giả kết luận rằng mặc dù AI không thể "xấu xa", nhưng cách con người sử dụng và triển khai nó có thể gây ra những hậu quả không mong muốn.

📌 Google Gemini có khả năng tóm tắt video YouTube, gây lo ngại về tác động đến người sáng tạo nội dung và mô hình kinh doanh. Tính năng này có thể ảnh hưởng đến doanh thu quảng cáo và lượt xem. Google cần cân bằng giữa đổi mới AI và bảo vệ lợi ích của người sáng tạo nội dung trên nền tảng với hơn 1 tỷ người dùng hàng tháng.

https://www.androidpolice.com/gemini-ai-summary-undermines-creators-defies-youtube-premium/

Không có file đính kèm.

Nguồn tham khảo

116

AI ảnh-video-music-âm thanh 2024-10-05 08:28:18

Microsoft Copilot Voice mang đến trải nghiệm giọng nói AI tự nhiên và gần gũi hơn ChatGPT, miễn phí

• Microsoft vừa ra mắt phiên bản mới của ứng dụng Copilot cho iPhone và Android với giao diện mới và tính năng giọng nói tương tự ChatGPT Advanced Voice của OpenAI

• Tính năng giọng nói mới cho phép chuyển đổi giọng nói thành văn bản, ngắt lời và phản ánh giọng điệu cảm xúc của người dùng tương tự như Advanced Voice

• Giọng nói của Copilot được đánh giá là tự nhiên và thân thiện hơn, ít cứng nhắc hơn so với ChatGPT, tuy nhiên khả năng ngắt lời chưa thực sự trôi chảy

• Giao diện người dùng được cải thiện, thân thiện hơn với người dùng phổ thông, giúp dễ dàng sử dụng hơn

• Phiên bản mới này là sản phẩm đầu tiên dưới thời CEO AI mới của Microsoft - Mustafa Suleyman, cựu đồng sáng lập Google DeepMind và CEO Inflection AI

• Copilot mới có nhiều điểm tương đồng với chatbot Pi của Inflection AI, với tông màu nhẹ nhàng hơn và cách tiếp cận đơn giản hóa các ý tưởng phức tạp

• Có 4 tùy chọn giọng nói: Grove, Canyon, Wave và Meadow. Người dùng có thể tùy chỉnh tốc độ nói và yêu cầu thay đổi giọng điệu, âm sắc

• Copilot có xu hướng sử dụng từ lóng và cách nói tắt nhiều hơn so với các mô hình giọng nói AI khác, tạo cảm giác tự nhiên như đang nói chuyện với người thật

• Tính năng giọng nói của Copilot hoàn toàn miễn phí, trong khi ChatGPT Advanced Voice yêu cầu người dùng trả phí 20 USD/tháng

• Copilot có một số hạn chế so với ChatGPT, ví dụ như ít khả năng hát hoặc rap, nhưng điều này phù hợp với đối tượng người dùng phổ thông hơn

• Công nghệ nền tảng của Copilot Voice dựa trên phiên bản điều chỉnh của công nghệ OpenAI, cho phép chuyển đổi giọng nói sang giọng nói trực tiếp mà không cần qua bước chuyển văn bản

📌 Microsoft Copilot Voice mang đến trải nghiệm giọng nói AI miễn phí, tự nhiên hơn ChatGPT với 4 giọng đọc tùy chỉnh. Ứng dụng sử dụng từ lóng, có giao diện thân thiện, nhắm đến người dùng phổ thông, đánh dấu bước tiến mới của Microsoft trong lĩnh vực AI tiêu dùng.

https://www.tomsguide.com/ai/copilot/microsoft-copilot-voice-is-more-human-like-than-chatgpt-and-its-free-to-all-users

Không có file đính kèm.

Nguồn tham khảo

162

AI ảnh-video-music-âm thanh 2024-10-05 07:31:00

Meta giới thiệu Movie Gen - mô hình AI tiên tiến nhất để tạo video, âm thanh và chỉnh sửa nội dung đa phương tiện từ văn bản đơn giản

• Meta giới thiệu Movie Gen - mô hình AI tiên tiến nhất để tạo nội dung đa phương tiện, đặt ra tiêu chuẩn mới cho trải nghiệm AI nhập vai

• Movie Gen cho phép tạo video tùy chỉnh từ văn bản đơn giản, là mô hình đầu tiên trong ngành tạo video dài độ phân giải cao ở các tỷ lệ khung hình khác nhau

• Người dùng có thể tạo video từ các mô tả văn bản chi tiết, ví dụ: "Một cô gái chạy trên bãi biển và cầm diều. Cô ấy mặc quần short jean và áo phông màu vàng. Mặt trời chiếu sáng."

• Mô hình này cũng có thể chỉnh sửa video hiện có bằng văn bản, cho phép chỉnh sửa chính xác từ phong cách, chuyển cảnh đến các chi tiết nhỏ

• Movie Gen cho phép tạo video cá nhân hóa bằng cách tải lên hình ảnh của bản thân và biến nó thành video, đồng thời bảo toàn danh tính và chuyển động của con người

• Người dùng có thể tạo hiệu ứng âm thanh và nhạc nền cho video bằng cách sử dụng đầu vào video và văn bản. Ví dụ: "Mưa rơi trên vách đá và người, với nhạc nền phát ra."

• Meta cung cấp bài báo nghiên cứu chi tiết về Movie Gen để tìm hiểu cách họ thiết lập các tiêu chuẩn mới trong ngành về tạo nội dung đa phương tiện bằng AI

• Công ty nhấn mạnh cách tiếp cận có trách nhiệm đối với AI tạo sinh, đồng thời khám phá cách Movie Gen có thể mở ra kỷ nguyên mới cho người sáng tạo nội dung

• Meta cung cấp thông tin về cách tiếp cận, nghiên cứu và trải nghiệm sản phẩm liên quan đến Movie Gen

• Trang web cũng bao gồm các liên kết đến tin tức mới nhất và thông tin về các mô hình nền tảng của Meta

📌 Movie Gen của Meta là bước đột phá trong AI tạo sinh đa phương tiện, cho phép tạo và chỉnh sửa video, âm thanh từ văn bản. Mô hình này hứa hẹn mở ra kỷ nguyên mới cho người sáng tạo nội dung, với khả năng tạo video HD dài, cá nhân hóa và chỉnh sửa chính xác.

https://ai.meta.com/research/movie-gen/

Không có file đính kèm.

Nguồn tham khảo

206

AI ảnh-video-music-âm thanh 2024-10-05 01:03:33

Microsoft ra mắt VoiceRAG: Đột phá trong tương tác bằng giọng nói với AI tạo sinh

• Microsoft vừa công bố VoiceRAG - hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài dựa trên giọng nói, sử dụng mô hình gpt-4o-realtime-preview mới của Azure OpenAI.

• VoiceRAG kết hợp đầu vào và đầu ra âm thanh với khả năng truy xuất dữ liệu mạnh mẽ, cho phép tương tác liền mạch với ứng dụng bằng lệnh thoại.

• Hệ thống sử dụng hai thành phần chính: gọi hàm và kiến trúc trung gian thời gian thực. Gọi hàm cho phép tìm kiếm và xác định thông tin từ cơ sở kiến thức.

• Kiến trúc trung gian thời gian thực tách biệt hoạt động phía máy khách và máy chủ, tăng cường bảo mật và đơn giản hóa quản lý cấu hình.

• VoiceRAG hỗ trợ truyền phát âm thanh song công toàn phần, cho phép xử lý đồng thời đầu vào và đầu ra âm thanh, tạo trải nghiệm hội thoại liền mạch.

• Hệ thống sử dụng lệnh gọi hàm "search" đặc biệt để truy vấn dịch vụ Azure AI Search với các truy vấn phức tạp, kết hợp tìm kiếm vector và lai.

• Công cụ "report_grounding" giúp đảm bảo tính minh bạch bằng cách ghi lại các đoạn từ cơ sở kiến thức được sử dụng để tạo ra mỗi phản hồi.

• VoiceRAG được xây dựng với tính bảo mật cao, quản lý an toàn tất cả các yếu tố cấu hình trên backend.

• Azure OpenAI và Azure AI Search cung cấp các tính năng bảo mật toàn diện như cách ly mạng và mã hóa nhiều lớp.

• Hệ thống mở ra nhiều khả năng cho các ứng dụng dựa trên giọng nói như tự động hóa dịch vụ khách hàng, quản lý kiến thức và môi trường học tập tương tác.

• Kiến trúc của VoiceRAG cho phép tùy chỉnh và mở rộng dễ dàng, đảm bảo khả năng phát triển phù hợp với tiến bộ trong AI và thay đổi kỳ vọng của người dùng.

📌 Microsoft đã tạo bước đột phá với VoiceRAG, kết hợp GPT-4 và Azure AI Search để tạo ra hệ thống tương tác bằng giọng nói tiên tiến. Công nghệ này mở ra tiềm năng to lớn cho các ứng dụng AI dựa trên giọng nói, hứa hẹn cách mạng hóa tương tác người-máy trong tương lai.

https://www.marktechpost.com/2024/10/03/microsoft-released-voicerag-an-advanced-voice-interface-using-gpt-4-and-azure-ai-search-for-real-time-conversational-applications/

Không có file đính kèm.

Nguồn tham khảo

131

AI ảnh-video-music-âm thanh 2024-10-02 07:51:54

Microsoft bứt phá cho Copilot: trợ lý ai giờ đây có thể nhìn, nói và thậm chí đọc tin tức cho bạn

• Microsoft vừa công bố một phiên bản hoàn toàn mới của Copilot tại sự kiện ở New York. Trợ lý AI này giờ đây có giao diện dựa trên thẻ trên di động, web và Windows.

• Copilot được trang bị tính năng Copilot Vision, cho phép "nhìn" những gì người dùng đang xem. Nó cũng có chế độ đàm thoại bằng giọng nói tự nhiên giống OpenAI và khả năng đọc tin tức như một người dẫn chương trình ảo.

• Windows 11 có thêm tính năng hiển thị trạng thái Phone Link trong menu Start, cho phép xem thông báo và pin điện thoại.

• Paint và Photos được bổ sung các tính năng thú vị như Generative Fill và Erase, sử dụng AI để thêm hoặc xóa đối tượng trong ảnh một cách chính xác.

• Tìm kiếm Windows trên các máy tính Copilot Plus được nâng cấp với AI, bao gồm tính năng "Click to Do" tương tự Circle to Search của Google và khả năng tìm kiếm ảnh bằng mô tả văn bản.

• Microsoft Paint có thêm công cụ Generative Fill và Generative Erase, cho phép thêm hoặc xóa đối tượng trong ảnh bằng AI, tương tự như các tính năng của Photoshop.

• Bản cập nhật Windows 11 2024 (phiên bản 24H2) bắt đầu được phát hành, bổ sung nhiều cải tiến hữu ích cho Start menu, File Explorer, Settings...

• Start menu có thêm bảng điều khiển hiển thị thông tin pin, thông báo của điện thoại và truy cập nhanh tin nhắn, cuộc gọi, ảnh cho người dùng Phone Link.

• Copilot được thiết kế lại hoàn toàn trên di động, web và ứng dụng Windows, với giao diện dựa trên thẻ tương tự trợ lý AI cá nhân Pi của Inflection AI.

• Mustafa Suleyman, CEO mới của bộ phận AI Microsoft, đã viết một bản ghi nhớ dài 700 từ về "sự thay đổi mô hình công nghệ" hướng tới các mô hình AI có thể hiểu những gì con người nhìn thấy và nghe thấy.

📌 Microsoft đã thực hiện một bước tiến lớn trong lĩnh vực AI với việc ra mắt phiên bản Copilot mới. Trợ lý ảo này giờ đây có khả năng nhìn, nói và thậm chí đọc tin tức, cùng với nhiều tính năng AI hấp dẫn được tích hợp vào Windows 11, Paint và Photos. Đây là minh chứng cho tham vọng của Microsoft trong việc dẫn đầu cuộc cách mạng AI.

https://www.theverge.com/2024/10/1/24259261/microsoft-event-copilot-ai-windows

Không có file đính kèm.

Nguồn tham khảo

158

AI ảnh-video-music-âm thanh 2024-10-02 07:48:15

Google miễn phí Gemini Live cho người dùng Android

• Google vừa ra mắt Gemini Live miễn phí cho tất cả người dùng Android, sau khi trước đó chỉ giới hạn cho người đăng ký gói Gemini Advanced 20 USD/tháng.

• Gemini Live hiện chỉ hỗ trợ tiếng Anh, người dùng có thể truy cập bằng cách tải ứng dụng Gemini và chọn biểu tượng Live ở góc dưới bên phải màn hình.

• Trợ lý AI này có 10 giọng nói để lựa chọn, được đặt tên theo các ngôi sao và chòm sao.

• Gemini Live có khả năng hiểu ngôn ngữ thông thường, suy đoán, hỗ trợ brainstorm ý tưởng và đa nhiệm trong giao tiếp.

• Các tùy chọn giọng nói mới có khả năng biểu cảm cảm xúc tốt hơn so với các trợ lý ảo trước đây.

• Google đang phải đối mặt với sự cạnh tranh gay gắt từ ChatGPT với Advanced Voice Mode và Microsoft Copilot AI mới nâng cấp hỗ trợ tương tác bằng giọng nói.

• Apple cũng sắp ra mắt các tính năng Apple Intelligence nâng cấp cho Siri.

• Việc miễn phí Gemini Live và tích hợp sâu vào hệ sinh thái Android là lợi thế của Google trong cuộc đua trợ lý AI.

• Google muốn Gemini trở thành hơn cả Google Assistant, đóng vai trò quan trọng hơn trong cuộc sống người dùng, đặc biệt trên thiết bị di động.

• Gemini Live hứa hẹn mang lại trải nghiệm vượt trội so với các trợ lý giọng nói hiện tại, nhưng vẫn cần thời gian để đánh giá so với các đối thủ mới.

📌 Google miễn phí Gemini Live cho Android, cung cấp 10 giọng nói AI mới với khả năng biểu cảm tốt hơn. Đây là bước đi chiến lược nhằm cạnh tranh với ChatGPT, Microsoft Copilot và Apple Siri trong cuộc đua trợ lý AI ngày càng gay cấn trên thiết bị di động.

https://www.techradar.com/computing/artificial-intelligence/gemini-live-is-here-free-and-feeling-chatty

Không có file đính kèm.

Nguồn tham khảo

159

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-10-02 07:14:32

OpenAI ra mắt Whisper V3 Turbo cho tốc độ phiên âm nhanh hơn 8 lần

OpenAI ra mắt Whisper V3 Turbo, mô hình phiên âm mới có tốc độ nhanh hơn 8 lần so với phiên bản large-v3 trước đó.
Độ chính xác của Whisper V3 Turbo tương đương với large-v3.
Kích thước của V3 Turbo nhỏ hơn khoảng một nửa so với phiên bản trước, giúp dễ dàng triển khai trên nhiều nền tảng hơn.
Whisper hỗ trợ phiên âm hơn 99 ngôn ngữ và xử lý tốt nhiều loại giọng, tiếng ồn nền và ngôn ngữ kỹ thuật.
Mô hình được huấn luyện trên bộ dữ liệu 680.000 giờ dữ liệu đa ngôn ngữ và đa nhiệm.
Whisper xử lý âm thanh theo từng đoạn 30 giây, chuyển đổi thành log-Mel spectrograms và sử dụng các token đặc biệt để thực hiện các tác vụ như xác định ngôn ngữ, dấu thời gian cấp cụm từ và dịch thuật.
Whisper là mã nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu tùy chỉnh và cải tiến công nghệ.
Whisper cũng có sẵn thông qua OpenAI API để tích hợp vào các ứng dụng và dịch vụ.

📌 OpenAI đã cải thiện đáng kể tốc độ phiên âm với Whisper V3 Turbo, nhanh hơn 8 lần so với phiên bản trước mà vẫn giữ được độ chính xác, đồng thời tối ưu kích thước giúp dễ dàng triển khai.

https://analyticsindiamag.com/ai-news-updates/openai-launches-whisper-v3-turbo-model-for-faster-transcription/

Không có file đính kèm.

Nguồn tham khảo

211

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-10-02 07:07:14

OpenAI DevDay 2024: API Realtime xây dựng ứng dụng với phản hồi giọng nói AI độ trễ thấp

• OpenAI tổ chức DevDay 2024 giữa tuần lễ biến động với sự ra đi của CTO Mira Murati và CRO Bob McGrew. Tuy nhiên, công ty khẳng định không làm chậm tiến độ phát triển.

• Sự kiện giới thiệu API Realtime cho phép xây dựng ứng dụng với phản hồi giọng nói AI độ trễ thấp. Nhà phát triển có thể sử dụng 6 giọng nói do OpenAI cung cấp.

• Tính năng tinh chỉnh thị giác (vision fine-tuning) được thêm vào API, cho phép sử dụng hình ảnh và văn bản để cải thiện hiệu suất GPT-4o trong các tác vụ liên quan đến hiểu hình ảnh.

• OpenAI giới thiệu tính năng lưu cache prompt, tương tự như của đối thủ Anthropic, giúp tiết kiệm chi phí và cải thiện độ trễ cho nhà phát triển.

• Tính năng chưng cất mô hình (model distillation) cho phép sử dụng mô hình lớn như o1-preview và GPT-4o để tinh chỉnh các mô hình nhỏ hơn như GPT-4o mini, giúp cải thiện hiệu suất với chi phí thấp hơn.

• OpenAI tuyên bố đã cắt giảm 99% chi phí truy cập API trong 2 năm qua do áp lực cạnh tranh từ Meta và Google.

• Công ty cho biết có hơn 3 triệu nhà phát triển đang xây dựng ứng dụng với các mô hình AI của họ.

• DevDay 2024 không công bố thông tin về GPT Store hay ra mắt mô hình AI mới nào.

• OpenAI không tự động thêm thông báo nhận dạng khi sử dụng giọng nói AI trong cuộc gọi, mà để trách nhiệm này cho nhà phát triển.

• Nhà phát triển không được phép tải lên hình ảnh có bản quyền, bạo lực hoặc vi phạm chính sách an toàn của OpenAI khi sử dụng tính năng tinh chỉnh thị giác.

• Công cụ đánh giá beta được ra mắt để nhà phát triển có thể đo lường hiệu suất tinh chỉnh trong API của OpenAI.

📌 OpenAI tổ chức DevDay 2024 giới thiệu API Realtime và các tính năng mới nhằm thu hút 3 triệu nhà phát triển. Công ty cắt giảm 99% chi phí API trong 2 năm qua do cạnh tranh gay gắt. Tuy nhiên, vẫn chưa có thông tin về GPT Store hay mô hình AI mới.

https://techcrunch.com/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/

Không có file đính kèm.

Nguồn tham khảo

160

AI consumer devices AI ảnh-video-music-âm thanh 2024-09-30 21:04:35

Raspberry Pi ra mắt module camera AI giá 70 USD

• Raspberry Pi vừa ra mắt một module camera mới có tên Raspberry Pi AI Camera, giá 70 USD.

• Module này sử dụng cảm biến hình ảnh Sony IMX500 kết hợp với chip xử lý RP2040 do Raspberry Pi tự phát triển.

• Camera có khả năng xử lý AI tích hợp, cho phép thực hiện các tác vụ thị giác máy tính mà không ảnh hưởng đến hiệu năng của máy tính Raspberry Pi chính.

• Kích thước của module là 25mm x 24mm, tương đương với Camera Module 3 hiện tại nhưng dày hơn một chút.

• Module được tích hợp sẵn mô hình MobileNet-SSD để nhận diện đối tượng theo thời gian thực.

• Sản phẩm này tương thích với tất cả các máy tính Raspberry Pi hiện có trên thị trường.

• Raspberry Pi cam kết sẽ tiếp tục sản xuất AI Camera ít nhất đến tháng 1/2028, đảm bảo nguồn cung ổn định cho khách hàng.

• Đối tượng sử dụng chính của sản phẩm này là các công ty trong lĩnh vực công nghiệp và nhúng, chiếm tới 72% doanh số của Raspberry Pi.

• Một số ứng dụng tiềm năng bao gồm: cảm biến thành phố thông minh để phát hiện chỗ đỗ xe trống, theo dõi luồng giao thông, kiểm tra chất lượng tự động trong môi trường công nghiệp.

• Lý do các công ty ưa chuộng sản phẩm của Raspberry Pi là vì khả năng sản xuất quy mô lớn và nguồn cung ổn định, giúp tránh gián đoạn trong quy trình sản xuất.

• Raspberry Pi vẫn sẽ tiếp tục bán Camera Module 3 với giá khoảng 25 USD cho những ứng dụng đơn giản hơn.

📌 Raspberry Pi ra mắt module camera AI giá 70 USD, tích hợp chip xử lý RP2040 và cảm biến Sony IMX500. Sản phẩm hứa hẹn mở ra nhiều ứng dụng thị giác máy tính mới trong lĩnh vực công nghiệp và IoT, với cam kết sản xuất đến 2028.

https://techcrunch.com/2024/09/30/raspberry-pi-launches-camera-module-for-vision-based-ai-applications/

Không có file đính kèm.

Nguồn tham khảo

169

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-09-30 21:00:52

OpenAI tung ra Sora 2 và Blueberry AI: cải thiện chất lượng và hiệu quả

• OpenAI vừa giới thiệu phiên bản mới của mô hình AI video Sora, nhằm nâng cao chất lượng video và hiệu quả sản xuất.

• Phiên bản Sora ban đầu từng bị chỉ trích vì tốc độ tạo video chậm và yêu cầu tính toán cao. OpenAI đã tập trung khắc phục những thách thức này trong phiên bản mới.

• Sora mới có khả năng tạo ra các clip video dài hơn và chất lượng cao hơn, nhằm cạnh tranh với các mô hình như Runway Gen-3 vốn nổi tiếng với tốc độ tạo nhanh hơn.

• Để cải thiện hiệu suất của Sora, OpenAI đang tập trung thu thập dữ liệu huấn luyện đa dạng và độ phân giải cao. Đây là bước quan trọng để nâng cao khả năng cạnh tranh của mô hình trên thị trường.

• Một mô hình AI mới có tên Blueberry cũng được đề cập, được cho là có liên quan đến mô hình Strawberry của OpenAI. Blueberry được kỳ vọng sẽ thiết lập các tiêu chuẩn mới về hiệu suất AI.

• Các tiến bộ nhanh chóng trong công nghệ AI đã làm dấy lên cuộc tranh luận về ý thức AI và khả năng suy luận giống con người. Một số người cho rằng các mô hình AI thể hiện khả năng suy luận giống con người, trong khi những người khác vẫn hoài nghi.

• Cuộc tranh luận triết học này tiếp tục định hình quan điểm về khả năng của AI và có khả năng sẽ trở nên gay gắt hơn khi công nghệ AI tiến bộ.

• OpenAI cũng đang phát triển ChatGPT-5, với một số chuyên gia cho rằng thế giới chưa sẵn sàng cho phiên bản này.

• Công ty cũng đang đối mặt với thách thức khi một số nhân viên cấp cao rời đi, theo thông tin từ Sam Altman.

• OpenAI dự kiến sẽ tổ chức sự kiện Dev Day 2024, nơi có thể sẽ công bố thêm thông tin về các sản phẩm mới.

📌 OpenAI đang dẫn đầu cuộc đua AI với Sora 2 và Blueberry, hứa hẹn cách mạng hóa ngành công nghiệp video AI. Tuy nhiên, công ty cũng phải đối mặt với thách thức về nhân sự và tranh cãi về đạo đức AI. Sự kiện Dev Day 2024 sắp tới có thể sẽ mang đến nhiều thông tin thú vị.

https://www.geeky-gadgets.com/openai-blueberry-ai-model/

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh 2024-09-30 02:48:35

AI âm nhạc hứa hẹn dân chủ hóa nghệ thuật, nhưng nghệ sĩ hoài nghi

• Các công ty AI âm nhạc đang phát triển mạnh mẽ, tạo ra những bài hát viral như "10 Drunk Cigarettes" và "BBL Drizzy". Tuy nhiên, việc sử dụng công nghệ này đang phải đối mặt với nhiều chỉ trích gay gắt.

• Universal Music Group, Sony Music Entertainment và Warner Music Group đã kiện các công ty AI âm nhạc Uncharted Labs và Suno vì phần mềm cho phép người dùng tạo nhạc từ lời nhắc văn bản, cáo buộc sử dụng các bài hát có bản quyền mà không được phép để đào tạo AI.

• Hơn 200 nghệ sĩ âm nhạc, bao gồm Billie Eilish, Stevie Wonder và Nicki Minaj, đã ký một bức thư ngỏ kêu gọi các công ty AI bảo vệ chống lại việc sử dụng AI để đánh cắp giọng nói và hình ảnh của nghệ sĩ chuyên nghiệp.

• Các công ty AI âm nhạc như Sound Draw, Musicfy, AIVA và Boomy cho phép người dùng dễ dàng tạo nhạc bằng AI thông qua các giao diện đơn giản. Người dùng có thể chọn thể loại nhạc, điều chỉnh nhịp độ, tâm trạng và nhạc cụ xuất hiện trong bài hát.

• Cassie Speer, giám đốc "thành công sáng tạo" tại Boomy, cho rằng công nghệ AI có thể mang lại cơ hội tiếp cận âm nhạc mới cho học sinh có thu nhập thấp.

• Theo Dự án Dữ liệu Giáo dục Nghệ thuật, 8% học sinh không được tiếp cận giáo dục âm nhạc trong ngày học tại các trường công lập Hoa Kỳ.

• Một số nghệ sĩ ủng hộ việc tích hợp công nghệ AI vào giáo dục và sản xuất âm nhạc. Regi Worles, thành viên ban nhạc Dog Tags, cho rằng AI có thể giúp những người không có kỹ năng chơi nhạc cụ bắt đầu sáng tác.

• Tuy nhiên, vẫn còn nhiều lo ngại về việc AI có thể đe dọa quyền lợi của các nghệ sĩ chuyên nghiệp và làm suy yếu hệ sinh thái âm nhạc hiện tại.

📌 AI âm nhạc đang tạo ra cuộc tranh luận sôi nổi trong ngành công nghiệp âm nhạc. Mặc dù hứa hẹn dân chủ hóa sáng tạo, nhưng vẫn còn nhiều lo ngại về bản quyền và tác động đến nghệ sĩ chuyên nghiệp. 8% học sinh Mỹ không được tiếp cận giáo dục âm nhạc, AI có thể là giải pháp, nhưng cần cân nhắc kỹ lưỡng.

https://www.nbcnews.com/tech/innovation/ai-music-companies-say-tools-can-democratize-art-form-artists-are-skep-rcna172473

Không có file đính kèm.

Nguồn tham khảo

141

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-09-26 07:30:18

Meta ra mắt các mô hình Llama 3.2 hỗ trợ xử lý hình ảnh, bao gồm phiên bản 11B và 90B

• Meta vừa công bố phiên bản Llama 3.2 tại sự kiện Meta Connect 2024, bao gồm các mô hình đa phương thức mới có khả năng xử lý hình ảnh.

• Llama 3.2 11B và 90B là hai mô hình đa phương thức có thể phân tích biểu đồ, đồ thị, chú thích hình ảnh và xác định vị trí đối tượng trong ảnh. Ví dụ, chúng có thể trả lời câu hỏi về bản đồ công viên hoặc phân tích biểu đồ doanh thu công ty.

• Meta cũng giới thiệu công cụ an toàn Llama Guard Vision để phát hiện nội dung có hại trong văn bản và hình ảnh đầu vào hoặc đầu ra của mô hình.

• Các mô hình đa phương thức có thể được tải xuống và sử dụng trên nhiều nền tảng đám mây như Hugging Face, Microsoft Azure, Google Cloud và AWS. Meta cũng sử dụng chúng cho trợ lý AI trên WhatsApp, Instagram và Facebook.

• Tuy nhiên, Llama 3.2 11B và 90B không khả dụng tại châu Âu do lo ngại về môi trường quy định "khó đoán" của khu vực này. Meta đã bày tỏ quan ngại về Đạo luật AI của EU và các quy định trong GDPR liên quan đến đào tạo AI.

• Meta cũng ra mắt hai mô hình nhẹ chỉ xử lý văn bản là Llama 3.2 1B và 3B, được thiết kế để chạy trên điện thoại thông minh và các thiết bị biên. Chúng có thể thực hiện các tác vụ như tóm tắt và viết lại đoạn văn.

• Công ty giới thiệu bộ công cụ phát triển Llama Stack để tinh chỉnh tất cả các mô hình Llama 3.2. Các mô hình này có thể xử lý tối đa khoảng 100.000 từ cùng lúc.

• Meta tuyên bố các mô hình Llama đã được tải xuống hơn 350 triệu lần và đang được sử dụng bởi các doanh nghiệp lớn như Zoom, AT&T và Goldman Sachs.

• Mặc dù không hoàn toàn "mở", giấy phép của Meta vẫn hạn chế cách một số nhà phát triển có thể sử dụng chúng. Các nền tảng có hơn 700 triệu người dùng hàng tháng phải yêu cầu giấy phép đặc biệt.

• Meta đang đầu tư hàng tỷ đô la vào máy chủ, trung tâm dữ liệu và cơ sở hạ tầng mạng để đào tạo các mô hình trong tương lai, nhằm mục tiêu trở thành đồng nghĩa với AI tạo sinh.

📌 Meta đã công bố Llama 3.2 với các mô hình đa phương thức 11B và 90B có khả năng xử lý hình ảnh, cùng với các mô hình nhẹ 1B và 3B chỉ xử lý văn bản. Tuy nhiên, do lo ngại về quy định, các mô hình mới không khả dụng tại châu Âu. Meta tuyên bố Llama đã được tải xuống hơn 350 triệu lần, thể hiện tham vọng thống trị lĩnh vực AI tạo sinh của công ty.

https://techcrunch.com/2024/09/25/metas-llama-ai-models-now-support-images/

Không có file đính kèm.

Nguồn tham khảo

263

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-09-25 07:55:49

OpenAI ra mắt chế độ giọng nói nâng cao với 5 giọng mới và giao diện mới

• OpenAI đang triển khai Chế độ Giọng nói Nâng cao (Advanced Voice Mode - AVM) cho nhiều khách hàng trả phí của ChatGPT hơn, bắt đầu từ ngày 24/09/2024.

• AVM sẽ được cung cấp cho người dùng ChatGPT Plus và Teams trước, sau đó là khách hàng doanh nghiệp và giáo dục vào tuần sau.

• Giao diện của AVM được thiết kế lại với hình ảnh quả cầu màu xanh động, thay vì các chấm đen như trước đây.

• ChatGPT bổ sung thêm 5 giọng nói mới: Arbor, Maple, Sol, Spruce và Vale, nâng tổng số giọng nói lên 9.

• Các tên giọng nói đều lấy cảm hứng từ thiên nhiên, nhằm tạo cảm giác tự nhiên khi sử dụng ChatGPT.

• OpenAI đã loại bỏ giọng nói Sky sau khi bị Scarlett Johansson đe dọa kiện vì cho rằng giọng nói này quá giống giọng của cô.

• Tính năng chia sẻ video và màn hình của ChatGPT vẫn chưa được triển khai trong đợt cập nhật này.

• OpenAI tuyên bố đã cải thiện khả năng hiểu giọng nói có trọng âm, cũng như tốc độ và độ mượt mà của cuộc hội thoại.

• Các tính năng tùy chỉnh như Custom Instructions và Memory cũng được mở rộng cho AVM.

• AVM hiện chưa khả dụng ở một số khu vực như EU, Vương quốc Anh, Thụy Sĩ, Iceland, Na Uy và Liechtenstein.

• Người dùng sẽ nhận được thông báo bật lên bên cạnh biểu tượng giọng nói khi AVM được kích hoạt cho tài khoản của họ.

• OpenAI cho biết họ đã thêm Custom Instructions, Memory, 5 giọng nói mới và cải thiện khả năng nhận diện giọng nói có trọng âm trong thời gian chờ đợi ra mắt.

• ChatGPT giờ đây có thể nói "Xin lỗi vì đến muộn" bằng hơn 50 ngôn ngữ.

📌 OpenAI nâng cấp đáng kể trải nghiệm giọng nói của ChatGPT với 5 giọng mới, giao diện mới và tính năng cải tiến. AVM được triển khai cho người dùng Plus và Teams, hứa hẹn tương tác tự nhiên hơn với AI. Tuy nhiên, một số khu vực và tính năng vẫn chưa được hỗ trợ.

https://techcrunch.com/2024/09/24/openai-rolls-out-advanced-voice-mode-with-more-voices-and-a-new-look/

Không có file đính kèm.

Nguồn tham khảo

247

AI ảnh-video-music-âm thanh 2024-09-24 07:44:25

Kling 1.5 ra mắt với nhiều tính năng mới, thách thức Sora của OpenAI

• Kuaishou vừa ra mắt phiên bản nâng cấp Kling 1.5, công cụ tạo video bằng AI mạnh mẽ, nhằm cạnh tranh với Sora sắp ra mắt của OpenAI.

• Kling 1.5 tuyên bố cải thiện 95% so với phiên bản trước, mang lại chất lượng hình ảnh tốt hơn, chuyển động tự nhiên hơn và độ phù hợp với prompt cao hơn.

• Tính năng mới "Motion Brush" cho phép người dùng định nghĩa chính xác chuyển động của bất kỳ yếu tố nào trong hình ảnh.

• Chế độ chất lượng cao mới được cung cấp miễn phí, tối ưu hóa hình ảnh cho màn hình lớn.

• Kling 1.5 hỗ trợ tạo video HD 1080p trong chế độ chuyên nghiệp, với thời lượng lên đến 10 giây ở nhiều tỷ lệ khung hình khác nhau.

• Người dùng có thể tạo đồng thời tối đa 4 video.

• Các bài kiểm tra cá nhân với Kling 1.0 sử dụng cùng prompt như OpenAI cho Sora đã tạo ra kết quả có chất lượng và mạch lạc tương đương.

• Kuaishou lần đầu ra mắt Kling tại Trung Quốc vào tháng 6, và mở rộng ra toàn cầu một tháng sau đó tại KlingAI.com.

• Người dùng mới được cấp 66 credit mỗi ngày khi đăng ký.

• Kling hiện vượt trội hơn nhiều đối thủ về độ dài và chất lượng video, có thể tạo video dài tới 2 phút ở độ phân giải 1080p, 30 khung hình/giây.

• Nền tảng này có cộng đồng người dùng tích cực, chia sẻ từ hình ảnh đến phim ngắn.

• Kling hoạt động trong khuôn khổ hướng dẫn nội dung nghiêm ngặt, hạn chế tạo nội dung bạo lực hoặc NSFW và cấm mô tả người nổi tiếng.

• Mặc dù Kling 1.5 hiện đang dẫn đầu, nhưng cạnh tranh trong lĩnh vực video tạo sinh ngày càng gay gắt.

• Sora của OpenAI có thể thách thức vị trí dẫn đầu khi ra mắt, nhưng hiện tại chỉ là một lựa chọn khác trong số ngày càng nhiều ứng dụng tạo video bằng AI.

📌 Kling 1.5 đã vượt qua nhiều đối thủ với khả năng tạo video HD 1080p dài 2 phút, 30fps. Nâng cấp mang lại chất lượng hình ảnh tốt hơn 95%, chuyển động tự nhiên hơn cùng tính năng Motion Brush độc đáo. Cuộc đua AI tạo video đang nóng lên, chờ đợi sự xuất hiện của Sora từ OpenAI.

https://decrypt.co/250783/kling-1-5-ai-video-generator-arrives-challenge-openai-sora

Không có file đính kèm.

Nguồn tham khảo

166

AI ảnh-video-music-âm thanh 2024-09-19 07:53:05

Chẳng cần GPT-4o khi EVI 2 đã ra mắt với giọng nói cảm xúc với độ trễ thấp hơn và giá rẻ hơn

• Hume vừa ra mắt phiên bản cập nhật Empathic Voice Interface 2 (EVI 2) - mô hình AI giọng nói và API mới với nhiều tính năng nâng cao.

• EVI 2 có độ trễ thấp hơn 40% và giá rẻ hơn 30% so với phiên bản trước, chỉ 0,072 USD/phút.

• Mô hình mới cải thiện tính tự nhiên, phản hồi cảm xúc và khả năng tùy chỉnh của giọng nói AI.

• EVI 2 chuyển đổi trực tiếp tín hiệu âm thanh thành token, không qua bước chuyển thành văn bản như phiên bản cũ.

• Thời gian phản hồi trung bình chỉ từ 500-800 mili giây, giúp cuộc hội thoại trôi chảy và tự nhiên hơn.

• Tích hợp cả giọng nói và ngôn ngữ vào một mô hình duy nhất, giúp hiểu rõ hơn ngữ cảnh cảm xúc của người dùng.

• Cho phép điều chỉnh các tham số giọng nói như giới tính, âm vực để tạo giọng nói độc đáo mà không cần sao chép giọng.

• Hỗ trợ thay đổi phong cách nói trong cuộc hội thoại như nói nhanh hơn hoặc hào hứng hơn.

• Hiện hỗ trợ tiếng Anh, dự kiến bổ sung tiếng Tây Ban Nha, Pháp và Đức vào cuối năm 2024.

• Mô hình tự học được nhiều ngôn ngữ khác như Ba Lan mà không cần huấn luyện cụ thể.

• Nhà phát triển có thể tích hợp EVI 2 vào ứng dụng thay vì chuyển người dùng sang trợ lý riêng biệt.

• Hume cũng cung cấp API Đo lường Biểu cảm và API Mô hình Tùy chỉnh cho các ứng dụng AI phản hồi cảm xúc.

• EVI 2 được thiết kế để làm việc liền mạch với các mô hình ngôn ngữ lớn khác và tích hợp với công cụ tìm kiếm web.

• Hume sẽ tiếp tục cải tiến EVI 2 trong những tháng tới, bao gồm mở rộng hỗ trợ ngôn ngữ và tinh chỉnh khả năng thực hiện hướng dẫn phức tạp.

📌 EVI 2 của Hume là bước tiến lớn trong trợ lý giọng nói AI với độ trễ giảm 40%, giá rẻ hơn 30%, hỗ trợ đa ngôn ngữ và tùy chỉnh giọng nói. API dễ tích hợp giúp nhà phát triển xây dựng ứng dụng AI thông minh cảm xúc hiệu quả hơn.

https://venturebeat.com/ai/who-needs-gpt-4o-voice-mode-humes-evi-2-is-here-with-emotionally-inflected-voice-ai-and-api/

Không có file đính kèm.

Nguồn tham khảo

177

AI ảnh-video-music-âm thanh 2024-09-18 06:41:21

NotebookLM: cho phép tạo podcast từ tài liệu tải lên

• Google vừa giới thiệu tính năng mới cho công cụ NotebookLM AI, cho phép người dùng tạo podcast chất lượng cao từ tài liệu tải lên.

• Podcast được tạo bởi AI có 2 người dẫn chương trình (1 nam, 1 nữ) cung cấp tóm tắt và phân tích sâu sắc dựa trên nội dung tài liệu.

• Công cụ hỗ trợ nhiều định dạng như PDF, tài liệu Google Drive và liên kết website.

• Podcast thường dài 6-8 phút với chất lượng âm thanh cao.

• AI có thể tạo nội dung từ các bài báo nghiên cứu và tin tức.

• Tính năng này hữu ích cho việc tóm tắt nghiên cứu, tạo nội dung và đa nhiệm.

• AI hoạt động thông qua quá trình đào tạo 2 giai đoạn để tạo nội dung động.

• Công nghệ có tiềm năng tùy chỉnh và tạo avatar video trong tương lai.

• Người dùng có thể tương tác với AI thông qua giao diện chat để đặt câu hỏi về nội dung tải lên.

• AI tạo ra tóm tắt ngắn gọn, phác thảo có cấu trúc và bài thuyết trình hấp dẫn.

• Tính năng này đặc biệt hữu ích cho người học thính giác, chuyên gia bận rộn và nhà nghiên cứu.

• AI có thể tạo ra thế giới trò chơi video sống động dựa trên bộ dữ liệu lớn về các trò chơi hiện có.

• Ứng dụng thực tế bao gồm tóm tắt nhanh các bài báo phức tạp, tạo nội dung âm thanh và cập nhật thông tin khi đa nhiệm.

• Công nghệ này có tiềm năng tùy chỉnh lớn trong tương lai, bao gồm cả avatar video chân thực.

• Mặc dù đã rất tiên tiến, vẫn cần xem xét về độ tin cậy và chính xác của AI, với kỳ vọng cải thiện trong tương lai.

• Công cụ này hứa hẹn trở thành nguồn tài nguyên thiết yếu để tóm tắt và trình bày thông tin trong nhiều lĩnh vực.

📌 Google ra mắt tính năng AI mới cho NotebookLM, tạo podcast 6-8 phút từ tài liệu tải lên với 2 người dẫn chương trình AI. Công nghệ này hỗ trợ nhiều định dạng, tạo nội dung chất lượng cao và có tiềm năng ứng dụng rộng rãi trong nghiên cứu, kinh doanh và giải trí.

https://www.geeky-gadgets.com/?p=438045

Không có file đính kèm.

Nguồn tham khảo

115

AI ảnh-video-music-âm thanh 2024-09-17 10:54:01

Runway ra mắt API cho mô hình AI tạo video, liệu có thay đổi ngành công nghiệp giải trí?

- Runway đã công bố một API cho phép các nhà phát triển và tổ chức tích hợp các mô hình AI tạo sinh video vào các nền tảng và ứng dụng bên thứ ba.
- API hiện đang trong giai đoạn truy cập hạn chế với một danh sách chờ, chỉ cung cấp một mô hình duy nhất là Gen-3 Alpha Turbo, phiên bản nhanh hơn nhưng ít khả năng hơn so với Gen-3 Alpha.
- 2 gói dịch vụ được cung cấp: Build (dành cho cá nhân và nhóm) và Enterprise. Giá cơ bản là 0.01 USD mỗi tín dụng (một giây video tiêu tốn 5 tín dụng).
- Các đối tác chiến lược đáng tin cậy như Omnicom đã bắt đầu sử dụng API này.
- Runway yêu cầu mọi giao diện sử dụng API phải hiển thị rõ ràng banner “Powered by Runway” với liên kết đến trang web của họ để người dùng hiểu rõ hơn về công nghệ.
- Công ty đã nhận được sự đầu tư từ Salesforce, Google và Nvidia, với định giá gần đây là 1.5 tỷ USD.
- Runway phải đối mặt với sự cạnh tranh mạnh mẽ từ OpenAI, Google và Adobe trong lĩnh vực tạo video.
- OpenAI dự kiến sẽ ra mắt mô hình tạo video Sora vào mùa thu này, trong khi Luma Labs cũng vừa ra mắt API của riêng họ mà không cần danh sách chờ.
- Mặc dù việc ra mắt API có thể giúp Runway cải thiện lợi nhuận, nhưng vẫn còn nhiều câu hỏi pháp lý xung quanh các mô hình AI tạo sinh.
- Các mô hình của Runway được đào tạo từ một lượng lớn video để học các mẫu và tạo ra cảnh mới, nhưng nguồn dữ liệu đào tạo vẫn chưa được công bố rõ ràng.
- Có thông tin cho thấy Runway có thể đã sử dụng dữ liệu có bản quyền mà không có sự cho phép, dẫn đến nguy cơ kiện tụng liên quan đến quyền sở hữu trí tuệ.
- Một nghiên cứu năm 2024 cho thấy 75% công ty sản xuất phim đã giảm bớt hoặc loại bỏ việc làm sau khi áp dụng AI, dự đoán rằng hơn 100.000 việc làm trong ngành giải trí Mỹ sẽ bị ảnh hưởng bởi AI tạo sinh vào năm 2026.

📌 Runways ra mắt API cho AI tạo video giữa bối cảnh cạnh tranh gay gắt. nghiên cứu chỉ ra rằng 75% công ty sản xuất phim đã giảm việc làm do áp dụng công nghệ này.

https://techcrunch.com/2024/09/16/runway-announces-an-api-for-its-video-generating-models/

Không có file đính kèm.

Nguồn tham khảo

137

AI ảnh-video-music-âm thanh 2024-09-17 00:46:59

Runway giới thiệu công cụ AI video-to-video mới

• Runway vừa ra mắt công cụ video-to-video AI mới, cho phép người dùng chỉnh sửa và biến đổi video thực tế bằng trí tuệ nhân tạo.

• Đây là phiên bản mới nhất của mô hình video Gen-3 Alpha, được Runway giới thiệu vào tháng 6 và liên tục bổ sung tính năng mới.

• Công cụ này hiện có sẵn trên giao diện web cho người dùng trả phí, cho phép điều khiển quá trình tạo video bằng lời nhắc văn bản kèm theo video tải lên.

• Người dùng có thể tải lên video gốc, sau đó sử dụng AI để thay đổi thiết kế và thẩm mỹ của video, trong khi vẫn giữ nguyên chuyển động.

• Một số ví dụ về khả năng của công cụ:
- Biến đổi cảnh quay thực tế thành thế giới dưới nước hoặc hành tinh ngoài vũ trụ
- Chuyển cảnh quay từ máy bay không người lái thành len, đại dương hoặc đồi cát
- Thay đổi thời gian trong ngày của cảnh thành phố (ban ngày, ban đêm, có bão...)
- Tạo hiệu ứng như biến đổi chủ thể thành thủy tinh hoặc hình vẽ phác thảo

• Công cụ này mang lại khả năng kiểm soát chính xác hơn về chuyển động, biểu cảm và ý định trong quá trình tạo video AI.

• Nó cho phép người dùng quay video thực tế rồi áp dụng AI để thay đổi thẩm mỹ hoặc thêm hiệu ứng cụ thể.

• Đây được xem là bước tiến quan trọng trong lĩnh vực tạo video AI, mở ra nhiều khả năng ứng dụng mới.

• Runway trước đó đã cung cấp các tính năng text-to-video và image-to-video, nay bổ sung thêm video-to-video để hoàn thiện bộ công cụ.

📌 Runway đã tạo bước đột phá với công cụ video-to-video AI mới, cho phép biến đổi hoàn toàn video thực tế. Người dùng có thể dễ dàng thay đổi bối cảnh, thời gian, hiệu ứng của video gốc chỉ bằng vài thao tác đơn giản, mở ra tiềm năng ứng dụng rộng rãi trong sáng tạo nội dung.

https://www.tomsguide.com/ai/ai-image-video/runway-launches-new-video-to-video-ai-tool-heres-what-it-can-do

Không có file đính kèm.

Nguồn tham khảo

195

OpenAI ChatGPT AI ảnh-video-music-âm thanh AI xã hội 2024-09-12 07:13:40

ChatGPT nâng cấp tính năng giọng nói, mô phỏng cảm xúc người thật gây lo ngại

• OpenAI vừa ra mắt tính năng "chế độ giọng nói nâng cao" cho ChatGPT, giúp AI này có thể trò chuyện tự nhiên hơn, thể hiện cảm xúc và hiểu được ngữ điệu của người dùng.

• Tính năng mới giúp ChatGPT nghe giống người thật hơn: không có khoảng dừng gượng gạo, có thể thở như người, không bị gián đoạn khi nói chuyện, thể hiện cảm xúc phù hợp.

• OpenAI lo ngại người dùng có thể phát triển mối quan hệ thân mật với ChatGPT. Đã có trường hợp một influencer mạng xã hội lập trình ChatGPT thành "bạn trai" của mình.

• Con người có khả năng phát triển tình bạn và sự thân mật thông qua ngôn ngữ. Quá trình tiến hóa đã mở rộng vùng não xử lý ngôn ngữ, giúp con người xây dựng mạng lưới xã hội phức tạp hơn.

• Các thí nghiệm từ thập niên 1990 cho thấy việc trao đổi qua lại và chia sẻ thông tin cá nhân giúp tạo cảm giác thân mật với đối tượng trò chuyện.

• Khi thêm yếu tố giọng nói, hiệu ứng này càng mạnh mẽ hơn. Ngay cả trợ lý ảo không giống người như Siri hay Alexa cũng nhận được rất nhiều lời cầu hôn từ người dùng.

• Để tránh người dùng hình thành mối quan hệ xã hội với ChatGPT, OpenAI lẽ ra không nên tạo ra giọng nói và khả năng trò chuyện như người thật cho nó.

• Từ 60 năm trước, các nhà khoa học đã nhận ra máy tính có thể được coi là tác nhân xã hội. Tính năng mới của ChatGPT chỉ là bước tiến tiếp theo.

• Nhiều người thiếu thốn sự đồng hành có thể được lợi từ chatbot thế hệ mới, cảm thấy bớt cô đơn và bị cô lập hơn.

• Tuy nhiên, thời gian trò chuyện với bot là thời gian không thể dành cho bạn bè và gia đình. Người dùng nhiều công nghệ có nguy cơ cao thay thế các mối quan hệ với con người thật.

• Trò chuyện với bot cũng có thể ảnh hưởng đến các mối quan hệ hiện có. Người dùng có thể kỳ vọng bạn bè, người thân phải cư xử lịch sự, phục tùng như chatbot.

• Những tác động lớn hơn của máy móc lên văn hóa sẽ ngày càng nổi bật, nhưng cũng có thể mang lại hiểu biết sâu sắc về cách thức hoạt động của văn hóa.

📌 ChatGPT với giọng nói như người thật có thể giúp giảm cô đơn nhưng cũng tiềm ẩn nguy cơ thay thế quan hệ thực. Cần cân nhắc kỹ tác động của AI lên văn hóa và xã hội trong tương lai.

https://theconversation.com/the-latest-version-of-chatgpt-has-a-feature-youll-fall-in-love-with-and-thats-a-worry-238073

Không có file đính kèm.

Nguồn tham khảo

153

AI ảnh-video-music-âm thanh 2024-09-09 01:46:34

Roblox giới thiệu công cụ AI tạo sinh để xây dựng môi trường 3D nhanh chóng

• Roblox sắp ra mắt công cụ AI tạo sinh cho phép người dùng tạo ra toàn bộ cảnh 3D chỉ bằng lệnh văn bản.

• Người phát triển có thể đơn giản nhập lệnh như "Tạo đường đua trong sa mạc" và AI sẽ tự động tạo ra cảnh đó.

• Công cụ này cũng cho phép chỉnh sửa và mở rộng cảnh, ví dụ chuyển từ ban ngày sang đêm hoặc đổi sa mạc thành rừng.

• Roblox tuyên bố công cụ mới sẽ giúp tạo ra các thay đổi nhanh hơn nhiều so với cách thủ công, đồng thời trao quyền cho cả những người có kỹ năng 3D hạn chế.

• Công nghệ hoạt động bằng cách "token hóa" các khối 3D, tương tự cách mô hình ngôn ngữ lớn xử lý từ ngữ.

• Roblox phải đối mặt với thách thức về dữ liệu 3D hạn chế, buộc phải dựa vào dữ liệu do người dùng tạo và bộ dữ liệu bên ngoài.

• Để khắc phục vấn đề nhất quán logic, Roblox sử dụng mô hình AI thứ hai được đào tạo trên dữ liệu 2D phong phú hơn để kiểm tra kết quả của mô hình 3D.

• Các nhà thiết kế game vẫn cần tham gia để tạo ra môi trường chơi game thú vị, theo ý kiến chuyên gia.

• Đây là một phần trong nỗ lực tích hợp AI vào mọi quy trình của Roblox, hiện có 250 mô hình AI đang hoạt động.

• Roblox dự định mở mã nguồn mô hình nền tảng 3D để khuyến khích đổi mới.

• Công cụ này được kỳ vọng sẽ mang lại cơ hội sáng tạo lớn cho các nhà phát triển làm việc độc lập.

• Marcus Holmström, CEO của The Gang, nhận xét công cụ sẽ giúp tiết kiệm thời gian và thử nghiệm nhiều cách tiếp cận khác nhau.

• Công cụ AI phân tích trò chuyện bằng giọng nói theo thời gian thực để lọc ngôn từ không phù hợp cũng đang được triển khai.

📌 Roblox đang cách mạng hóa việc tạo môi trường game 3D với công cụ AI tạo sinh mới. Công nghệ này cho phép tạo cảnh chỉ bằng lệnh văn bản, tiết kiệm thời gian và mở rộng khả năng sáng tạo. Dù vẫn cần sự can thiệp của con người, đây hứa hẹn là bước đột phá lớn cho cộng đồng phát triển Roblox.

https://www.technologyreview.com/2024/09/06/1103707/roblox-is-launching-a-generative-ai-that-builds-3d-environments-in-a-snap/

#MIT

Không có file đính kèm.

Nguồn tham khảo

294

AI so sánh AI ảnh-video-music-âm thanh 2024-09-06 05:12:22

Groq ra mắt mô hình đa phương thức LLaVA v1.5 7B trên GroqCloud, nhanh hơn 4 lần so với GPT-4o

• Groq vừa giới thiệu mô hình thị giác LLaVA v1.5 7B trên Developer Console của họ, biến GroqCloud thành nền tảng đa phương thức hỗ trợ xử lý hình ảnh, âm thanh và văn bản.

• LLaVA (Large Language and Vision Assistant) kết hợp khả năng xử lý ngôn ngữ và thị giác, dựa trên mô hình CLIP của OpenAI và Llama 2 7B của Meta.

• Mô hình này sử dụng kỹ thuật huấn luyện hướng dẫn thị giác để nâng cao khả năng thực hiện hướng dẫn dựa trên hình ảnh và suy luận thị giác.

• LLaVA v1.5 7B xuất sắc trong các tác vụ như trả lời câu hỏi về hình ảnh, tạo chú thích, nhận dạng ký tự quang học và đối thoại đa phương thức.

• Theo Artificial Analysis, thời gian phản hồi của LLaVA v1.5 7B nhanh hơn 4 lần so với GPT-4o của OpenAI.

• Mô hình mới mở ra nhiều ứng dụng thực tế: theo dõi hàng tồn kho cho bán lẻ, cải thiện khả năng tiếp cận trên mạng xã hội bằng mô tả hình ảnh, chatbot dịch vụ khách hàng xử lý tương tác văn bản và hình ảnh.

• LLaVA v1.5 7B giúp tự động hóa các tác vụ trong sản xuất, tài chính, bán lẻ và giáo dục, nâng cao hiệu quả quy trình.

• Các nhà phát triển và doanh nghiệp có thể sử dụng LLaVA v1.5 7B ở chế độ Preview trên GroqCloud.

• Groq gần đây đã hợp tác với Meta, cung cấp các mô hình Llama 3.1 mới nhất (405B Instruct, 70B Instruct và 8B Instruct) cho cộng đồng với tốc độ của Groq.

• Andrej Karpathy, cựu nghiên cứu viên OpenAI, đã khen ngợi tốc độ suy luận của Groq, cho rằng nó mang lại trải nghiệm như AGI khi người dùng có thể nói chuyện với máy tính và nhận phản hồi tức thì.

• Groq được thành lập năm 2016 bởi Ross, khác biệt với các công ty khác bằng cách sử dụng phần cứng LPU độc quyền thay vì GPU.

📌 Groq ra mắt mô hình đa phương thức LLaVA v1.5 7B trên GroqCloud, nhanh hơn 4 lần so với GPT-4o. Mô hình kết hợp xử lý ngôn ngữ và thị giác, mở ra ứng dụng trong nhiều lĩnh vực như bán lẻ, mạng xã hội và dịch vụ khách hàng. Groq cũng hợp tác với Meta cung cấp các mô hình Llama 3.1 mới nhất.

https://analyticsindiamag.com/ai-news-updates/groq-unveils-llava-v1-5-7b-faster-than-openai-gpt-4o/

Không có file đính kèm.

Nguồn tham khảo

201

AI ảnh-video-music-âm thanh 2024-09-06 04:34:39

Google ra mắt tính năng Ask Photos: Gemini tìm kiếm ảnh bằng câu hỏi phức tạp

• Google đang triển khai tính năng Ask Photos được công bố tại hội nghị Google I/O tháng 5 vừa qua. Tính năng này sẽ bắt đầu có sẵn cho một số người dùng được chọn tại Mỹ từ ngày 5/9/2024.

• Ask Photos sử dụng mô hình AI Gemini của Google, cho phép người dùng tìm kiếm ảnh bằng các câu hỏi phức tạp bằng ngôn ngữ tự nhiên. AI có khả năng hiểu nội dung ảnh và metadata để đưa ra kết quả chính xác.

• Tính năng mới nâng cao khả năng tìm kiếm so với Google Photos trước đây. Người dùng có thể đặt các câu hỏi như "ảnh đẹp nhất từ mỗi Công viên Quốc gia tôi đã đến thăm". AI sẽ phân tích các yếu tố như ánh sáng, độ mờ, nhiễu nền để chọn ra ảnh đẹp nhất.

• Ngoài tìm kiếm, Ask Photos còn có thể trả lời các câu hỏi hữu ích. Ví dụ, phụ huynh có thể hỏi về chủ đề sinh nhật của con trong 4 năm qua, AI sẽ phân tích ảnh tiệc sinh nhật để xác định chủ đề như "nàng tiên cá", "công chúa" hay "siêu anh hùng".

• Người dùng có thể đặt các câu hỏi thực tế như "lần trước chúng tôi đã gọi món gì ở nhà hàng này" hoặc "lần trước chúng tôi cắm trại ở đâu tại Yosemite". Tính năng cũng hỗ trợ tạo album ảnh hoặc tóm tắt các hoạt động trong chuyến đi.

• AI có khả năng hiểu ngữ cảnh thư viện ảnh của người dùng, bao gồm những người quan trọng, sở thích, món ăn yêu thích và các chi tiết, kỷ niệm liên quan khác.

• Ask Photos sẽ có mặt trong Google Labs dưới dạng thử nghiệm. Google cam kết tuân thủ các nguyên tắc AI và không sử dụng dữ liệu riêng tư trong Photos cho mục đích quảng cáo.

• Nhân viên Google có thể xem xét các truy vấn của người dùng để cải thiện AI, nhưng câu trả lời của AI sẽ không được con người xem xét trừ khi người dùng yêu cầu hỗ trợ hoặc báo cáo lạm dụng.

📌 Google ra mắt tính năng Ask Photos sử dụng AI Gemini, cho phép tìm kiếm ảnh bằng câu hỏi phức tạp. Hiện đang thử nghiệm tại Mỹ từ 5/9/2024, tính năng hứa hẹn cách mạng hóa trải nghiệm tìm kiếm và tương tác với ảnh trên Google Photos.

https://techcrunch.com/2024/09/05/googles-ai-powered-ask-photos-feature-begins-u-s-rollout/

Không có file đính kèm.

Nguồn tham khảo

111

AI ảnh-video-music-âm thanh 2024-09-03 07:58:12

Hãy quên Sora đi - MiniMax là một trình tạo video AI thực tế mới và ấn tượng

• MiniMax là công cụ tạo video AI mới ra mắt từ Trung Quốc, được hỗ trợ bởi Alibaba và Tencent. Nó gây ấn tượng với khả năng tạo ra video siêu thực của con người, đặc biệt là chuyển động tay chính xác.

• Công ty đã phát hành video demo chính thức trên X, cho thấy trailer của một cuộc phiêu lưu kỳ ảo với hiệu ứng đặc biệt và tính nhất quán của nhân vật - tất cả được tạo ra chỉ từ các gợi ý văn bản.

• MiniMax video-01 hỗ trợ độ phân giải 1280x720 với tốc độ 25 khung hình/giây. Nó có thể mô tả chuyển động camera điện ảnh và tạo ra các clip 6 giây.

• Tác giả đã thử nghiệm MiniMax với 7 gợi ý khác nhau, bao gồm cảnh bão sét trên thành phố tương lai, bướm đậu trên hoa súng, tàu vũ trụ phóng từ hành tinh lạ, đàn sư tử lúc hoàng hôn, thẻ tiêu đề phim cổ điển, cô gái nói chuyện trong quán cà phê và cực quang.

• Kết quả cho thấy MiniMax video-01 là một mô hình tốt, tương đương với Luma Labs Dream Machine nhưng không tốt bằng Runway Gen-3. Nó cũng không bằng Kling - một công cụ tạo video AI khác của Trung Quốc.

• Tuy nhiên, MiniMax dường như đã nắm bắt tốt việc tạo ra chuyển động của con người. Công ty hứa hẹn đây chỉ là phiên bản đầu tiên, với bản cập nhật tiếp theo sẽ ra mắt trong vài tuần tới.

• MiniMax đang phát triển phiên bản 02 của mô hình video và có kế hoạch cập nhật để bao gồm chuyển đổi hình ảnh thành video, văn bản và hình ảnh thành video, cũng như tạo clip dài hơn ban đầu.

📌 MiniMax là công cụ tạo video AI mới đầy hứa hẹn từ Trung Quốc, với khả năng tạo chuyển động người chân thực. Dù chưa vượt qua được Runway Gen-3 hay Kling, nhưng với sự hỗ trợ từ Alibaba và Tencent cùng kế hoạch cập nhật liên tục, MiniMax có tiềm năng trở thành đối thủ đáng gờm trong tương lai gần.

https://www.tomsguide.com/ai/ai-image-video/forget-sora-minimax-is-a-new-realistic-ai-video-generator-and-it-is-seriously-impressive

Không có file đính kèm.

Nguồn tham khảo

165

AI nhỏ AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-09-02 02:02:59

NVEagle: Mô hình ngôn ngữ-thị giác đa phương thức (MLLM) từ NVIDIA

• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.

• NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.

• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.

• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.

• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.

• NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.

• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.

• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.

• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.

• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.

• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.

• NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.

📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.

https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/

Không có file đính kèm.

Nguồn tham khảo

195

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-09-01 08:35:52

Spotify ngập tràn nhạc AI giả mạo: nghệ sĩ thật mất trắng doanh thu

• Một nhóm fan nhạc country đã phát hiện ra một kế hoạch lừa đảo trên Spotify, sử dụng các bản cover AI để đánh cắp lượt nghe từ các nghệ sĩ thật.

• Các "ban nhạc" giả mạo có tên chung chung như "Highway Outlaws" và "Waterfront Wranglers", với hàng chục hoặc hàng trăm nghìn lượt stream nhưng không có bài hát gốc nào.

• Tiểu sử của các ban nhạc này nghe giống như được viết bởi ChatGPT và không có dấu vết trên mạng xã hội.

• Vấn đề được phát hiện khi một người dùng Reddit tìm thấy một ban nhạc như vậy và khám phá ra cả một mạng lưới các "nghệ sĩ" AI tương tự.

• Các bản cover AI xuất hiện trong các playlist chính thống như "summer country vibes", thu hút lượng tương tác không thực.

• Khi liên hệ với 11A - công ty quản lý được cho là đại diện cho các ban nhạc này, họ khẳng định có tài liệu chứng minh sự tham gia của nghệ sĩ thật nhưng không cung cấp thêm thông tin.

• Đáng ngờ là các bản cover AI biến mất trong quá trình báo chí điều tra, nhưng Spotify khẳng định không gỡ bỏ chúng.

• Spotify tuyên bố không cấm nghệ sĩ sử dụng công cụ AI miễn là không vi phạm chính sách về nội dung lừa đảo và mạo danh.

• Vấn đề không chỉ giới hạn ở nhạc country mà còn xảy ra với nhạc ambient, điện tử, jazz và cả metal.

• Hiện tại, việc gỡ bỏ các bản cover AI phụ thuộc vào công ty quản lý của nghệ sĩ gốc hoặc chính "nhà cung cấp nội dung" tự gỡ.

📌 Spotify đang phải đối mặt với làn sóng nhạc AI giả mạo đánh cắp doanh thu từ nghệ sĩ thật. Vấn nạn này ảnh hưởng nhiều thể loại nhạc, từ country đến metal, với hàng trăm nghìn lượt stream bị đánh cắp. Spotify cần có biện pháp mạnh để bảo vệ quyền lợi nghệ sĩ.

https://futurism.com/the-byte/spotify-ai-music

Không có file đính kèm.

Nguồn tham khảo

134

AI ảnh-video-music-âm thanh AI bản quyền 2024-08-31 23:35:15

CEO Grammy chia sẻ về mối quan ngại của ngành công nghiệp âm nhạc đối với AI

• Harvey Mason Jr., CEO của Recording Academy, gây chú ý khi tuyên bố Grammy sẽ chấp nhận âm nhạc được tạo ra bằng AI. Tuy nhiên, ông sau đó làm rõ rằng chỉ con người mới có thể đề cử giải thưởng, nhưng AI có thể được sử dụng trong quá trình sáng tạo.

• Sự phát triển của AI đang gây lo ngại trong ngành công nghiệp âm nhạc về vấn đề thay thế con người, bản quyền và tiền bản quyền.

• Một số nghệ sĩ phản đối việc sử dụng AI trong âm nhạc, trong khi những người khác chấp nhận miễn là họ được trả tiền.

• Các mối quan ngại chính trong ngành bao gồm đảm bảo phê duyệt đúng để sử dụng tác phẩm của nghệ sĩ, ghi nhận công lao riêng biệt cho con người và AI, và đảm bảo thanh toán công bằng.

• Mason đã tham gia vào việc thông qua Đạo luật ELVIS ở Tennessee, bảo vệ nghệ sĩ khỏi việc sử dụng trái phép giọng nói của họ. Ông cũng ủng hộ Đạo luật Không Lừa đảo AI và Đạo luật Không FAKES để bảo vệ hình ảnh của người sáng tạo khỏi AI giả mạo.

• Vấn đề này đang diễn ra nhanh hơn luật pháp. Gần đây, Donald Trump gặp rắc rối pháp lý sau khi sử dụng hình ảnh AI trái phép của Taylor Swift để quảng bá chiến dịch tranh cử tổng thống.

• Năm 2020, AI hầu như không phải là chủ đề thảo luận trong ngành âm nhạc. Tuy nhiên, đến năm 2023, mọi thứ bắt đầu thay đổi khi một bài hát deepfake có giọng hát AI của Drake và The Weeknd lan truyền trên mạng.

• Một sự cố AI nổi tiếng khác liên quan đến Drake sử dụng giọng nói AI trái phép của Tupac trong một bài hát chế giễu Kendrick Lamar, dẫn đến việc bị đe dọa kiện.

• Mason tin rằng con người sẽ thích nghi với AI, giống như họ đã thích nghi với các hình thức công nghệ mới khác trong quá khứ. Tuy nhiên, ông nhấn mạnh tầm quan trọng của việc đảm bảo công bằng cho người sáng tạo trong quá trình này.

📌 AI đang tác động mạnh mẽ đến ngành công nghiệp âm nhạc, gây ra lo ngại về bản quyền và sáng tạo. CEO Grammy Harvey Mason Jr. kêu gọi cần có quy định và bảo vệ người sáng tạo, đồng thời tin rằng con người sẽ thích nghi với công nghệ mới này như đã từng làm trong quá khứ.

https://techcrunch.com/2024/08/31/grammy-ceo-says-music-industry-also-has-ai-concerns/

Không có file đính kèm.

Nguồn tham khảo

155

AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh 2024-08-31 04:39:08

FLUX.1: AI tạo ảnh siêu thực, khó phân biệt được thật giả

• Nhiều công cụ AI mới ra mắt trong mùa hè này cho phép tạo ra những bức ảnh siêu thực, khiến việc phân biệt ảnh thật và ảnh giả ngày càng khó khăn hơn.

• FLUX.1 (Flux) là một trong những công cụ mạnh mẽ nhất, cho phép tạo ảnh siêu thực miễn phí mà không cần đăng ký. CBS News đã thử nghiệm và nhận thấy Flux có thể tạo ra những hình ảnh chân thực của người thật tại các địa điểm có thể nhận ra chỉ trong vài giây.

• Khác với các công cụ tương tự, kết quả từ Flux không có nhiều dấu hiệu điển hình của ảnh do AI tạo ra như làn da trông quá mịn màng một cách kỳ lạ.

• AI tạo sinh hoạt động bằng cách dựa vào hàng trăm đến hàng nghìn hình ảnh tham khảo để tạo ra kết quả mới. Người dùng có thể nhập hình ảnh tham khảo để làm cho kết quả cụ thể hơn.

• Grok 2, một công cụ tạo ảnh khác được phát hành trong tháng 8, có ít rào cản hơn, cho phép người dùng tạo hình ảnh của người nổi tiếng và tài liệu có bản quyền.

• Chuyên gia cảnh báo rằng việc có một công cụ nguồn mở như Flux mở ra cánh cửa cho các sửa đổi từ cộng đồng người dùng rộng lớn hơn, có thể dẫn đến việc sử dụng vi phạm trực tiếp điều khoản dịch vụ.

• Các công cụ tạo video AI cũng đang trở nên phổ biến rộng rãi. Black Forest Labs, công ty sở hữu Flux, cho biết họ có kế hoạch phát hành các công cụ có khả năng tạo video trong tương lai.

• Chuyên gia khuyên người dùng nên áp dụng các kỹ năng kiểm tra phương tiện truyền thông cơ bản khi xem xét hình ảnh, bao gồm chú ý đến các yếu tố nền và các chi tiết khác - và quan trọng nhất là xem xét nguồn gốc khi xác định tính xác thực của nội dung.

📌 Công cụ AI mới như FLUX.1 tạo ảnh siêu thực khó phân biệt với ảnh thật. Chuyên gia cảnh báo nguy cơ lạm dụng, kêu gọi người dùng cẩn trọng khi xem hình ảnh online. Các công ty AI lớn đang áp đặt hạn chế để ngăn chặn việc sử dụng sai mục đích.

https://www.cbsnews.com/news/can-you-tell-real-image-from-ai-flux/

Không có file đính kèm.

Nguồn tham khảo

143

AI ảnh-video-music-âm thanh 2024-08-30 06:20:14

Qwen2-VL: phân tích video dài hơn 20 phút, hỗ trợ đa ngôn ngữ và mở nguồn một phần

• Alibaba Cloud vừa công bố mô hình thị giác-ngôn ngữ Qwen2-VL mới nhất, nhằm nâng cao khả năng hiểu hình ảnh, video và xử lý văn bản đa ngôn ngữ.

• Qwen2-VL đạt hiệu suất ấn tượng trong các bài kiểm tra chuẩn của bên thứ ba, vượt trội so với các mô hình hàng đầu như Meta Llama 3.1, OpenAI GPT-4o, Anthropic Claude 3 Haiku và Google Gemini-1.5 Flash.

• Mô hình hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, tiếng Trung, hầu hết các ngôn ngữ châu Âu, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Việt.

• Qwen2-VL có khả năng phân tích và nhận dạng chữ viết tay bằng nhiều ngôn ngữ, nhận diện và mô tả nhiều đối tượng trong hình ảnh tĩnh.

• Mô hình có thể phân tích video trực tiếp gần như thời gian thực, cung cấp tóm tắt hoặc phản hồi, mở ra tiềm năng sử dụng cho hỗ trợ kỹ thuật trực tiếp.

• Qwen2-VL có thể phân tích video dài hơn 20 phút và trả lời câu hỏi về nội dung.

• Mô hình được phát hành với 3 biến thể có kích thước tham số khác nhau: Qwen2-VL-72B (72 tỷ tham số), Qwen2-VL-7B và Qwen2-VL-2B.

• Các biến thể 7B và 2B được cung cấp dưới giấy phép nguồn mở Apache 2.0, cho phép doanh nghiệp sử dụng miễn phí cho mục đích thương mại.

• Mô hình 72B lớn nhất chưa được phát hành công khai và sẽ chỉ được cung cấp sau này thông qua giấy phép riêng và API từ Alibaba.

• Qwen2-VL hỗ trợ gọi hàm, cho phép tích hợp với phần mềm, ứng dụng và công cụ của bên thứ ba.

• Mô hình có thể trích xuất thông tin trực quan từ các nguồn bên thứ ba như trạng thái chuyến bay, dự báo thời tiết hoặc theo dõi gói hàng.

• Qwen2-VL giới thiệu nhiều cải tiến kiến trúc nhằm nâng cao khả năng xử lý và hiểu dữ liệu hình ảnh của mô hình.

• Hỗ trợ Naive Dynamic Resolution cho phép mô hình xử lý hình ảnh với độ phân giải khác nhau, đảm bảo tính nhất quán và chính xác trong diễn giải hình ảnh.

• Hệ thống Multimodal Rotary Position Embedding (M-ROPE) cho phép mô hình đồng thời nắm bắt và tích hợp thông tin vị trí trên văn bản, hình ảnh và video.

📌 Alibaba ra mắt Qwen2-VL, mô hình AI phân tích video 20 phút, hỗ trợ đa ngôn ngữ và mở nguồn một phần. Mô hình có 3 biến thể (72B, 7B, 2B tham số), vượt trội so với đối thủ trong các bài kiểm tra chuẩn, mở ra tiềm năng ứng dụng rộng rãi trong xử lý hình ảnh và video.

https://venturebeat.com/ai/alibaba-releases-new-ai-model-qwen2-vl-that-can-analyze-videos-more-than-20-minutes-long/

Không có file đính kèm.

Nguồn tham khảo

208

AI ảnh-video-music-âm thanh 2024-08-29 04:35:58

Google Gemini nâng cấp với tính năng tạo hình ảnh người bằng AI và Gems tùy chỉnh

• Google vừa thông báo Gemini, công cụ AI đối thủ của ChatGPT, giờ đây hỗ trợ tạo hình ảnh người bằng AI.

• Tính năng này đã từng có trên Gemini nhưng bị vô hiệu hóa vào tháng 2 sau khi người dùng phát hiện có thể tạo ra những hình ảnh gây rối loạn bằng công cụ AI của Google.

• Để ngăn chặn việc lạm dụng, Google tuyên bố đang triển khai các biện pháp bảo vệ nghiêm ngặt.

• Tính năng tạo hình ảnh người bằng AI sẽ được triển khai trong những ngày tới. Người dùng Gemini Advanced, Business hoặc Enterprise sẽ được truy cập sớm.

• Google nhấn mạnh rằng họ không hỗ trợ tạo ra các cá nhân có thể nhận dạng được, hình ảnh trẻ vị thành niên hoặc cảnh quá bạo lực, tình dục.

• Hiện tại, tính năng này chỉ hỗ trợ lệnh bằng tiếng Anh, nhưng Google có kế hoạch bổ sung thêm nhiều ngôn ngữ khác.

• Gemini sử dụng Imagen 3, mô hình AI tạo sinh mới nhất của Google với chất lượng hình ảnh được cải thiện.

• Imagen 3 sử dụng SynthID, công cụ thủy vân nội dung do AI tạo ra của Google.

• Google cũng đang triển khai Gems tùy chỉnh, cho phép người dùng tạo ra các biến thể cá nhân hóa của Gemini.

• Người dùng có thể tạo Gem bằng cách mô tả chức năng và cách phản hồi mong muốn.

• Google cung cấp sẵn một số Gems như Huấn luyện viên học tập, Người động não, Hướng dẫn viên nghề nghiệp, Biên tập viên và Đối tác lập trình.

• Gems đang được triển khai cho người dùng Gemini Advanced, Business và Enterprise.

• Tính năng tạo hình ảnh người bằng AI và Gems tùy chỉnh là những nâng cấp đáng chú ý của Google Gemini, nhằm cạnh tranh với các đối thủ AI khác.

• Tuy nhiên, Google cũng thừa nhận Gemini vẫn chưa hoàn hảo và sẽ tiếp tục cải thiện dựa trên phản hồi của người dùng.

📌 Google Gemini nâng cấp với khả năng tạo hình ảnh người bằng AI và Gems tùy chỉnh. Tính năng tạo hình ảnh có giới hạn nghiêm ngặt, chỉ hỗ trợ tiếng Anh. Gems cho phép tạo trợ lý AI cá nhân hóa. Cả hai tính năng đang được triển khai cho người dùng Gemini cao cấp.

https://sea.mashable.com/tech/34005/google-gemini-now-lets-you-create-ai-generated-images-of-people-but-theres-a-catch

Không có file đính kèm.

Nguồn tham khảo

162

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-28 21:02:41

AuraFace: mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại

- AuraFace là mô hình mã nguồn mở mới cho nhận diện khuôn mặt, được phát triển từ ArcFace, cho phép sử dụng trong các dự án thương mại mà không gặp phải các hạn chế như mô hình gốc.
- Mặc dù AuraFace không thể đạt được hiệu suất như ArcFace do sự khác biệt lớn về dữ liệu huấn luyện, nhưng nó vẫn cung cấp sự cân bằng tốt giữa độ chính xác và khả năng sử dụng thương mại.
- AuraFace IP-Adapter được phát triển để duy trì tính nhất quán về danh tính trong các tác vụ tạo hình ảnh, hoạt động tốt với SD1.5 và dễ dàng tích hợp vào quy trình làm việc hiện có.
- Các so sánh giữa AuraFace và ArcFace cho thấy:
- Không có mô hình nào đạt được độ chân thực hoàn hảo và tính nhất quán về danh tính.
- Hiệu quả của mô hình trong việc bảo tồn danh tính có thể thay đổi tùy thuộc vào chủng tộc.
- Khả năng tổng quát của các mô hình bị hạn chế bởi dữ liệu huấn luyện, mô hình cơ sở và mô hình nhận diện khuôn mặt.
- AuraFace dựa trên kiến trúc resnet100 giống như ArcFace, cho phép so sánh các chỉ số hiệu suất:
- CFP-FP: AuraFace đạt 95.18, ArcFace đạt 98.87.
- AGEDB: AuraFace đạt 96.10, ArcFace đạt 98.38.
- CALFW: AuraFace đạt 94.70, ArcFace đạt 96.10.
- CPLFW: AuraFace đạt 90.93, ArcFace đạt 93.43.
- AuraFace mở ra nhiều ứng dụng thương mại như:
- Nhận diện khuôn mặt trong thương mại điện tử và bán lẻ, giúp thanh toán an toàn và trải nghiệm mua sắm cá nhân hóa.
- Tạo nội dung số với IP-Adapter để tạo ra các nhân vật hoặc avatar số nhất quán trong game và phương tiện tương tác.
- Tích hợp tính năng nhận diện khuôn mặt vào ứng dụng di động để nâng cao trải nghiệm người dùng và bảo mật.
- Phát triển hệ thống xác thực nhân viên cho các công ty mà không lo về vấn đề bản quyền.
- AuraFace là một dự án mã nguồn mở, khuyến khích các nhà phát triển và nhà nghiên cứu tham gia đóng góp:
- Thử nghiệm với mô hình và chia sẻ kết quả, đặc biệt liên quan đến các chủng tộc để cải thiện dữ liệu huấn luyện.
- Đóng góp mở rộng tập dữ liệu huấn luyện trong khi vẫn duy trì khả năng sử dụng thương mại.
- Đề xuất và thực hiện các cải tiến cho kiến trúc mô hình.
- AuraFace hiện đã có mặt trên HuggingFace và có thể tích hợp dễ dàng vào các dự án qua các điểm cuối tại fal.ai/lora.

📌 AuraFace là mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại, với hiệu suất gần đạt ArcFace. Mô hình hỗ trợ nhiều ứng dụng như thương mại điện tử và bảo mật doanh nghiệp, mở ra cơ hội cho cộng đồng phát triển và cải thiện công nghệ này.

https://huggingface.co/blog/isidentical/auraface

Không có file đính kèm.

Nguồn tham khảo

139

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-28 06:22:56

CogVideoX - mô hình AI nguồn mở tạo video từ văn bản có thể thay đổi cách chúng ta làm video mãi mãi

• Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI đã công bố CogVideoX, một mô hình AI nguồn mở chuyển văn bản thành video, có tiềm năng làm gián đoạn thị trường AI đang bị thống trị bởi các startup như Runway, Luma AI và Pika Labs.

• CogVideoX có khả năng tạo ra các video chất lượng cao, mạch lạc dài tới 6 giây từ lời nhắc văn bản. Theo các tiêu chuẩn đánh giá của các nhà nghiên cứu, mô hình này vượt trội hơn các đối thủ nổi tiếng như VideoCrafter-2.0 và OpenSora trên nhiều chỉ số.

• Phiên bản cao cấp nhất CogVideoX-5B có 5 tỷ tham số và tạo ra video độ phân giải 720x480 ở tốc độ 8 khung hình/giây.

• Bằng cách công khai mã nguồn và trọng số mô hình, nhóm nghiên cứu đã dân chủ hóa một công nghệ trước đây chỉ thuộc về các công ty công nghệ có nguồn lực lớn.

• CogVideoX đạt được hiệu suất ấn tượng thông qua một số đổi mới kỹ thuật như sử dụng Variational Autoencoder 3D để nén video hiệu quả và phát triển "expert transformer" để cải thiện sự liên kết giữa văn bản và video.

• Việc phát hành CogVideoX đại diện cho một sự thay đổi đáng kể trong lĩnh vực AI. Các công ty nhỏ hơn và các nhà phát triển cá nhân giờ đây có thể tiếp cận với các khả năng trước đây nằm ngoài tầm với do hạn chế về nguồn lực.

• Tuy nhiên, việc phổ biến rộng rãi công nghệ mạnh mẽ như vậy cũng tiềm ẩn rủi ro. Khả năng lạm dụng để tạo ra deepfake hoặc nội dung gây hiểu lầm là một mối lo ngại thực sự mà cộng đồng AI phải giải quyết.

• Khi video được tạo ra bởi AI trở nên dễ tiếp cận và tinh vi hơn, chúng ta đang bước vào một lãnh thổ chưa được khám phá trong lĩnh vực sáng tạo nội dung kỹ thuật số.

• Tác động thực sự của việc dân chủ hóa này vẫn còn phải chờ xem. Nó có thể mở ra một kỷ nguyên mới của sáng tạo và đổi mới, hoặc có thể làm trầm trọng thêm các thách thức hiện có xung quanh thông tin sai lệch và thao túng kỹ thuật số.

• Các nhà hoạch định chính sách và các nhà đạo đức học sẽ cần làm việc chặt chẽ với cộng đồng AI để thiết lập các hướng dẫn cho việc phát triển và sử dụng có trách nhiệm.

📌 CogVideoX, mô hình AI nguồn mở tạo video từ văn bản với 5 tỷ tham số, đang thay đổi cục diện ngành công nghiệp AI. Nó mở ra cơ hội cho các nhà phát triển nhỏ tiếp cận công nghệ tiên tiến, nhưng cũng đặt ra thách thức về đạo đức và an toàn thông tin.

https://venturebeat.com/ai/this-new-open-source-ai-cogvideox-could-change-how-we-create-videos-forever/

Không có file đính kèm.

Nguồn tham khảo

197

AI ảnh-video-music-âm thanh 2024-08-25 05:17:54

LongVILA cải thiện hiệu suất và khả năng mở rộng cho các tác vụ video dài lên đến 2 triệu token

• LongVILA là một giải pháp toàn diện cho các mô hình ngôn ngữ thị giác (VLM) xử lý ngữ cảnh dài, được phát triển bởi các nhà nghiên cứu từ NVIDIA, MIT, UC Berkeley và UT Austin.

• Thách thức chính trong phát triển VLM nâng cao là cho phép các mô hình xử lý và hiểu hiệu quả các chuỗi video dài chứa thông tin ngữ cảnh mở rộng.

• LongVILA giới thiệu hệ thống Song song hóa chuỗi đa phương thức (MM-SP), cho phép mô hình xử lý chuỗi dài tới 2 triệu token bằng 256 GPU.

• MM-SP đạt tốc độ nhanh hơn 2,1x - 5,7x so với Song song hóa chuỗi kiểu vòng và cải thiện 1,1x - 1,4x so với Megatron-LM.

• Quy trình đào tạo 5 giai đoạn của LongVILA bao gồm: căn chỉnh đa phương thức, tiền huấn luyện quy mô lớn, tinh chỉnh giám sát ngắn, mở rộng ngữ cảnh và tinh chỉnh giám sát dài.

• Một bộ dữ liệu mới gồm 15.292 video, mỗi video dài khoảng 10 phút, được phát triển để hỗ trợ giai đoạn tinh chỉnh giám sát cuối cùng.

• LongVILA đạt độ chính xác 99,5% khi xử lý video có độ dài ngữ cảnh 274.000 token, vượt xa khả năng của các mô hình trước đó.

• LongVILA-8B vượt trội so với các mô hình tiên tiến hiện có trên các điểm chuẩn cho các tác vụ video có độ dài khác nhau.

• Phương pháp này cải thiện khả năng mở rộng và hiệu quả của các mô hình ngôn ngữ thị giác, đặt ra tiêu chuẩn mới cho hiệu suất trong các tác vụ video dài.

• LongVILA giải quyết thách thức quan trọng trong xử lý chuỗi video dài, đóng góp đáng kể vào sự tiến bộ của nghiên cứu AI.

📌 LongVILA là bước đột phá trong xử lý video dài, với khả năng xử lý 2 triệu token trên 256 GPU, đạt độ chính xác 99,5% cho video 274.000 token. Giải pháp này vượt trội so với các phương pháp hiện có, mở ra tiềm năng mới cho ứng dụng AI trong phân tích video chuyên sâu.

https://www.marktechpost.com/2024/08/23/processing-2-hour-videos-seamlessly-this-ai-paper-unveils-longvila-advancing-long-context-visual-language-models-for-long-videos/

Không có file đính kèm.

Nguồn tham khảo

142

AI ảnh-video-music-âm thanh 2024-08-24 18:31:48

D-ID ra mắt công cụ dịch video AI với khả năng nhân bản giọng nói và đồng bộ môi

• D-ID, nền tảng tạo video AI, vừa ra mắt công cụ dịch video AI mới có tên AI Video Translate. Công cụ này không chỉ dịch video sang ngôn ngữ khác mà còn nhân bản giọng nói của người nói và thay đổi chuyển động môi để phù hợp với từ ngữ đã được dịch.

• Công nghệ này dựa trên các công việc trước đây của D-ID, từng tạo ra xu hướng viral cho phép người dùng làm sống động và nói chuyện với ảnh gia đình cũ. Sau thành công đó, startup này đã huy động được 25 triệu USD vốn Series B vào năm 2022.

• AI Video Translate hiện hỗ trợ 30 ngôn ngữ bao gồm tiếng Ả Rập, tiếng Trung, tiếng Nhật, tiếng Hindi, tiếng Tây Ban Nha và tiếng Pháp. Công cụ này đang được cung cấp miễn phí cho người đăng ký D-ID.

• Gói đăng ký D-ID rẻ nhất có giá 56 USD/năm, cao nhất là 1.293 USD/năm trước khi chuyển sang định giá doanh nghiệp. Mỗi gói cung cấp số lượng credit khác nhau để sử dụng các tính năng AI.

• D-ID cho rằng công nghệ mới này có thể giúp khách hàng tiết kiệm chi phí bản địa hóa khi mở rộng chiến dịch ra toàn cầu trong các lĩnh vực như marketing, giải trí và mạng xã hội.

• Công nghệ này sẽ cạnh tranh với các giải pháp lồng tiếng và video AI khác. YouTube gần đây cũng ra mắt tính năng âm thanh đa ngôn ngữ để giúp người sáng tạo tiếp cận khán giả rộng hơn.

• Nhiều công ty khác cũng cung cấp công cụ nhân bản giọng nói hoặc dịch AI như Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai và Akool. Một số công ty như HeyGen, Deepbrain AI cho phép tạo video sử dụng avatar AI có thể nói nhiều ngôn ngữ.

• Công nghệ AI Video Translate của D-ID sẽ có sẵn thông qua D-ID Studio và API của họ. Công ty đang cung cấp bản dùng thử 1 tháng và có thêm demo trên website.

• Video có thể dài từ 10 giây đến 5 phút, kích thước file dưới 2GB. Tính năng này chỉ hoạt động với một người trong khung hình và để có kết quả tốt nhất, họ nên đối mặt với camera với khuôn mặt luôn hiển thị.

📌 D-ID ra mắt công cụ dịch video AI hỗ trợ 30 ngôn ngữ, có khả năng nhân bản giọng nói và đồng bộ môi. Công nghệ này giúp tiết kiệm chi phí bản địa hóa, cạnh tranh với các giải pháp lồng tiếng và video AI khác trên thị trường. Gói đăng ký rẻ nhất có giá 56 USD/năm.

https://techcrunch.com/2024/08/21/d-id-launches-an-ai-video-translation-tool-that-includes-voice-cloning-and-lip-sync/

Không có file đính kèm.

Nguồn tham khảo

133

AI ảnh-video-music-âm thanh 2024-08-23 07:47:17

Midjourney mở cửa website cho tất cả người dùng, cung cấp 25 lần tạo ảnh AI miễn phí

• Midjourney, dịch vụ tạo ảnh AI nổi tiếng, đã mở cửa website cho tất cả người dùng sau thời gian chỉ giới hạn trên Discord và website "alpha".

• Người dùng mới có thể tạo khoảng 25 hình ảnh miễn phí, theo thông báo của CEO David Holz.

• Động thái này nhằm cho phép cả người dùng mới và cũ khám phá nền tảng mà không cần cam kết tài chính ngay lập tức.

• Midjourney đang đối mặt với sự cạnh tranh ngày càng tăng từ xAI của Elon Musk với chatbot Grok 2 và Ideogram 2 mới ra mắt.

• Công ty cũng đang đối mặt với một vụ kiện từ các nghệ sĩ, cáo buộc vi phạm bản quyền khi đào tạo trên các tác phẩm có bản quyền mà không được phép hoặc bồi thường.

• Đăng ký sử dụng Midjourney trên web đơn giản, có thể dùng tài khoản Google hoặc Discord.

• Người dùng có thể tạo ảnh bằng cách nhập lệnh văn bản, điều chỉnh các cài đặt như tỷ lệ khung hình, mức độ phong cách hóa, độ kỳ quặc và đa dạng.

• Website có các tab như "Organize" để xem ảnh đã tạo trước đó và "Chat" để thảo luận với người dùng khác.

• Người dùng cũ được khuyến nghị đăng nhập bằng tài khoản Discord để giữ lịch sử ảnh đã tạo trước đó.

• Có tùy chọn kết hợp tài khoản Discord và Google trong tab "account" để linh hoạt đăng nhập trong tương lai.

• Quyết định này của Midjourney dự kiến sẽ thu hút nhiều đối tượng người dùng đa dạng, từ người sáng tạo bình thường đến nghệ sĩ chuyên nghiệp hơn.

📌 Midjourney mở rộng tiếp cận bằng cách cung cấp 25 lần tạo ảnh AI miễn phí trên website mới. Động thái này nhằm cạnh tranh với các đối thủ như xAI và Ideogram 2, đồng thời thu hút người dùng mới trong bối cảnh đối mặt với kiện tụng bản quyền.

https://venturebeat.com/ai/midjourney-opens-website-to-all-users-with-25-free-ai-image-generations/

Không có file đính kèm.

Nguồn tham khảo

128

AI ảnh-video-music-âm thanh 2024-08-21 23:42:24

Luma AI ra mắt Dream Machine 1.5 với khả năng tạo video từ văn bản nâng cao

• Luma AI, startup có trụ sở tại San Francisco, vừa phát hành Dream Machine 1.5 vào ngày 20/8/2024, đánh dấu bước tiến quan trọng trong công nghệ tạo video bằng AI.

• Phiên bản mới này cải thiện đáng kể về độ chân thực, theo dõi chuyển động và hiểu prompt thông minh hơn so với phiên bản trước.

• Một trong những cải tiến đáng chú ý nhất là khả năng render chữ trong video được tạo ra, mở ra khả năng tạo các đoạn tiêu đề động, logo hoạt hình và đồ họa trên màn hình cho các bài thuyết trình.

• Dream Machine 1.5 cũng cải thiện khả năng xử lý prompt không phải tiếng Anh, cho phép tạo nội dung đa ngôn ngữ một cách liền mạch.

• Tốc độ tạo video được cải thiện đáng kể, có thể tạo ra 5 giây video chất lượng cao trong khoảng 2 phút.

• Chiến lược của Luma AI là phát triển mở và lặp lại nhanh chóng, cho phép họ thu thập phản hồi từ người dùng thực tế và cải thiện mô hình dựa trên các trường hợp sử dụng đa dạng.

• So với các đối thủ như OpenAI's Sora (đang trong giai đoạn beta kín) và Kuaishou's Kling (mới ra mắt công khai khoảng 1 tháng trước), Dream Machine của Luma AI đã có thời gian tiếp cận công chúng lâu hơn.

• Tuy nhiên, việc phổ biến công nghệ tạo video AI cũng đặt ra những thách thức về đạo đức và an toàn, như nguy cơ tạo ra deepfake hoặc nội dung gây hiểu nhầm.

• Luma AI đang ở vị thế dẫn đầu trong việc dân chủ hóa công nghệ tạo video AI, nhưng công ty vẫn chưa công bố quan điểm chính thức về các vấn đề đạo đức quan trọng.

• Dream Machine 1.5 đánh dấu một cột mốc quan trọng trong sự phát triển của công nghệ tạo video bằng AI, với tiềm năng cách mạng hóa nhiều ngành công nghiệp từ giải trí, quảng cáo đến giáo dục và báo chí.

📌 Luma AI ra mắt Dream Machine 1.5 với khả năng tạo video AI nâng cao, cải thiện chất lượng và hiểu prompt thông minh hơn. Mô hình mới có thể tạo 5 giây video chất lượng cao trong 2 phút, hỗ trợ đa ngôn ngữ và render chữ trong video, mở ra tiềm năng cách mạng hóa nhiều ngành công nghiệp.

https://venturebeat.com/ai/luma-ai-dream-machine-1-5-creates-mind-blowing-videos-from-simple-text/

Không có file đính kèm.

Nguồn tham khảo

147

AI ảnh-video-music-âm thanh 2024-08-21 23:39:32

Ứng dụng Reader của ElevenLabs - đọc văn bản thành giọng nói miễn phí hỗ trợ 32 ngôn ngữ, có tiếng Việt

• ElevenLabs vừa mở rộng ứng dụng Reader của họ ra toàn cầu, hỗ trợ 32 ngôn ngữ khác nhau.

• Ứng dụng có khả năng đọc to mọi loại văn bản từ PDF, bài báo đến tiểu thuyết bằng hàng trăm giọng đọc khác nhau, bao gồm cả giọng của các người nổi tiếng như Judy Garland, James Dean, Burt Reynolds và Sir Laurence Olivier.

• Ban đầu chỉ giới hạn ở Mỹ, Anh và Canada, giờ đây Reader đã có mặt ở nhiều quốc gia khác với hỗ trợ cho tiếng Bồ Đào Nha, Tây Ban Nha, Pháp, Hindi, Đức, Nhật, Ả Rập, Hàn, Ý, Tamil và Thụy Điển.

• Phiên bản mới nhất của ứng dụng được hỗ trợ bởi mô hình Turbo 2.5 mới của ElevenLabs, hứa hẹn mang lại AI hội thoại chất lượng cao hơn và độ trễ thấp hơn.

• Nhờ mô hình mới, tốc độ chuyển đổi văn bản thành giọng nói tiếng Anh nhanh hơn 25%. Đối với tiếng Hindi, Pháp, Tây Ban Nha, Quan Thoại và 27 ngôn ngữ khác, tốc độ nhanh hơn gấp 3 lần.

• Ứng dụng đã bổ sung thêm hỗ trợ cho tiếng Việt, Hungary và Na Uy.

• Reader trước đây chỉ có trên iOS, nhưng gần đây đã ra mắt phiên bản cho người dùng Android.

• Ứng dụng miễn phí trong 3 tháng đầu tiên, sau đó có nhiều gói khác nhau từ phiên bản miễn phí với 10.000 credit/tháng đến gói Pro 99 USD/tháng với 500.000 credit/tháng.

• Để sử dụng Reader, người dùng cần tải và cài đặt ứng dụng trên iOS hoặc Android, tạo tài khoản và chọn giọng đọc mặc định.

• Màn hình chính hiển thị một số sách để nghe, bao gồm Cinderella, The Tale of Peter Rabbit và The Adventures of Sherlock Holmes.

• Người dùng có thể thêm nội dung riêng để đọc to bằng cách nhập văn bản, nhập URL trang web, tải lên tệp hoặc quét tệp.

• Ứng dụng cung cấp nhiều giọng đọc khác nhau, bao gồm giọng của người nổi tiếng và các giọng đọc hội thoại khác.

• ElevenLabs cũng cung cấp một trang web cho phép sao chép và dán văn bản để đọc to, truy cập tất cả các giọng nói và thậm chí tạo ra các hiệu ứng âm thanh như xe hơi lướt qua, sư tử gầm và dàn hợp xướng thiên thần.

📌 Ứng dụng Reader của ElevenLabs mở ra kỷ nguyên mới cho công nghệ text-to-speech với 32 ngôn ngữ và hàng trăm giọng đọc độc đáo. Miễn phí 3 tháng đầu, ứng dụng hỗ trợ đa nền tảng iOS/Android, mang đến trải nghiệm nghe sách đa dạng và thú vị cho người dùng toàn cầu.

https://www.zdnet.com/article/this-handy-ai-app-can-read-anything-aloud-to-you-for-free-now-in-32-languages/

Không có file đính kèm.

Nguồn tham khảo

202

AI ảnh-video-music-âm thanh 2024-08-21 01:49:04

AI có thể và không thể làm được gì với âm nhạc?

• Công nghệ AI đang thay đổi cách chúng ta tạo ra và tiêu thụ âm nhạc. Các công cụ AI có thể tạo ra bài hát hoàn chỉnh chỉ từ một vài từ khóa.

• AI phân tích một lượng lớn dữ liệu âm nhạc để tạo ra các mẫu và dự đoán. Tuy nhiên, điều này có thể dẫn đến sự thiên vị và loại trừ các truyền thống âm nhạc không phải phương Tây.

• Các công ty AI đang phải đối mặt với các vấn đề pháp lý về bản quyền khi sử dụng dữ liệu âm nhạc mà không được phép.

• AI có thể mở rộng khả năng sáng tạo của con người, nhưng cũng đe dọa sinh kế của các nhạc sĩ chuyên nghiệp.

• Một số nghệ sĩ đang sử dụng AI như một công cụ sáng tạo, tạo ra những âm thanh và trải nghiệm âm nhạc mới.

• Tuy nhiên, AI cũng đang được sử dụng để tạo ra nhạc nền giá rẻ cho quảng cáo, phim ảnh, podcast, làm giảm cơ hội việc làm cho nhạc sĩ.

• Các nền tảng phát nhạc trực tuyến có động lực để giảm tỷ lệ nhạc phải trả phí bản quyền, có thể dẫn đến việc ưu tiên nhạc AI.

• AI có thể tạo ra số lượng lớn bài hát nhanh chóng, nhưng chất lượng và độ sâu sắc có thể bị ảnh hưởng.

• Âm nhạc AI hiện tại chủ yếu là kết hợp và biến đổi các yếu tố có sẵn, chứ chưa thực sự sáng tạo.

• Âm nhạc không chỉ là việc sắp xếp các nốt nhạc, mà còn liên quan đến trải nghiệm và cảm xúc của con người.

• Mối quan hệ giữa nghệ sĩ và khán giả, cũng như câu chuyện cá nhân của nghệ sĩ, vẫn là yếu tố quan trọng trong âm nhạc.

• AI có thể hỗ trợ sáng tạo, nhưng khó có thể thay thế hoàn toàn vai trò của con người trong âm nhạc.

📌 AI đang tạo ra cuộc cách mạng trong sản xuất âm nhạc, mở ra cả cơ hội và thách thức. Trong khi AI có thể tạo ra 100.000 bài hát mới mỗi ngày, nó vẫn chưa thể thay thế được sự sáng tạo và cảm xúc của con người trong âm nhạc. Tương lai của ngành công nghiệp âm nhạc sẽ phụ thuộc vào cách chúng ta cân bằng giữa công nghệ và yếu tố con người.

https://www.vox.com/the-highlight/358201/how-does-ai-music-work-benefits-creativity-production-spotify

Không có file đính kèm.

Nguồn tham khảo

141

AI ảnh-video-music-âm thanh 2024-08-21 01:12:25

Google Pixel 9 mở ra kỷ nguyên chỉnh sửa ảnh AI với Magic Editor nâng cao

• Google Pixel 9 sắp ra mắt vào ngày 22/8 với các công cụ AI tạo sinh mới, cho phép người dùng "tái tạo" toàn bộ phần của bức ảnh.

• Tính năng Magic Editor hiện tại đã cho phép xóa bỏ các yếu tố không mong muốn trong ảnh như người lạ, xe hơi hay thùng rác chỉ với vài cú chạm.

• Với Pixel 9, người dùng có thể thêm đối tượng và phong cảnh vào ảnh bằng lệnh văn bản, hoặc ghép nhiều khung hình để có ảnh nhóm hoàn hảo.

• Ranh giới giữa việc chỉnh sửa nhẹ và thay đổi hoàn toàn bức ảnh ngày càng mờ nhạt, đặt ra câu hỏi về tính xác thực của kỷ niệm.

• Một số người bắt đầu quay lưng với công nghệ AI, ưa chuộng máy ảnh kỹ thuật số vintage để có hình ảnh thô ráp, chân thực hơn.

• Ứng dụng máy ảnh iPhone Halide vừa ra mắt chế độ Process Zero, bỏ qua AI và xử lý đa khung hình để quay về thời kỳ đầu của máy ảnh điện thoại.

• Gen Z đang thúc đẩy xu hướng hồi sinh máy ảnh kỹ thuật số cổ, tìm kiếm tính thẩm mỹ lo-fi không có được từ ứng dụng máy ảnh điện thoại hiện đại.

• Google gần đây đã phải rút lại quảng cáo Olympic mùa hè gây tranh cãi, trong đó một người cha sử dụng Gemini để giúp con gái viết thư cho thần tượng điền kinh.

• Sự không hoàn hảo đôi khi chính là điểm nhấn. Việc tự tay viết một bức thư chân thành, từng từ một, mới tạo nên ý nghĩa thực sự.

• Mỗi người sẽ tự tìm ra mức độ thoải mái riêng với công cụ chỉnh sửa ảnh AI tạo sinh, vì những công cụ này chắc chắn sẽ không biến mất trong tương lai gần.

• Đối với một số loại ảnh, việc có tùy chọn xóa bỏ yếu tố gây xao nhãng trong nền là hữu ích. Tuy nhiên, không phải bức ảnh nào cũng cần được chau chuốt hoàn hảo.

📌 Công nghệ AI tạo sinh trong chỉnh sửa ảnh đang phát triển nhanh chóng, với Google Pixel 9 dẫn đầu xu hướng. Ranh giới giữa ảnh thật và ảnh chỉnh sửa ngày càng mờ nhạt, đặt ra nhiều câu hỏi về tính xác thực của kỷ niệm. Mỗi người sẽ phải tự xác định mức độ can thiệp AI phù hợp với mình.

https://www.theverge.com/2024/8/19/24221884/google-photos-magic-editor-ai-reimagine

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh 2024-08-19 04:45:50

Tác động tiêu cực của AI trong âm nhạc: 23% doanh thu của nhạc sĩ có nguy cơ bị ảnh hưởng bởi AI tạo sinh vào năm 2028

• APRA AMCOS, đối tác kinh doanh quan trọng của các nhạc sĩ Úc và New Zealand, đã công bố một báo cáo về tác động tiêu cực tiềm tàng của AI trong âm nhạc.

• Báo cáo "AI và Âm nhạc" do công ty tư vấn Goldmedia GmbH thực hiện, khảo sát hơn 4.200 thành viên APRA AMCOS tại Úc, New Zealand và nước ngoài.

• Kết quả cho thấy đến năm 2028, 23% doanh thu của các nhạc sĩ sẽ có nguy cơ bị ảnh hưởng bởi AI tạo sinh, với tổng thiệt hại ước tính lên tới 519 triệu đô la.

• 82% nhạc sĩ bày tỏ lo ngại về việc sử dụng AI trong âm nhạc, cho rằng công nghệ này có thể khiến họ không thể kiếm sống từ nghệ thuật.

• 89% nhạc sĩ người Thổ dân và đảo Torres Strait tin rằng AI sẽ dẫn đến gia tăng việc chiếm đoạt văn hóa.

• 97% người được khảo sát yêu cầu các nhà hoạch định chính sách chú ý hơn đến những thách thức ngày càng tăng của AI và bản quyền.

• Mặc dù vậy, 54% nhạc sĩ tin rằng công nghệ AI có thể hỗ trợ "quá trình sáng tạo của con người", với 38% cho biết họ đã sử dụng AI trong công việc.

• 65% người được khảo sát cho rằng rủi ro của AI có thể lớn hơn cơ hội mà nó mang lại.

• Dean Ormston, CEO của APRA AMCOS, nhấn mạnh rằng ngành công nghiệp âm nhạc đang chứng kiến "cuộc cách mạng công nghiệp được đẩy nhanh".

• Ormston kêu gọi chính phủ thực hiện "quy định và chính sách" để đảm bảo các nhạc sĩ được ghi nhận công lao, đồng ý và được trả thù lao công bằng cho bất kỳ tác phẩm nào được sử dụng trong nền tảng AI.

• Leah Flanagan, Giám đốc NATSIMO, cảnh báo về mối đe dọa của công nghệ AI đối với sự an sinh văn hóa và kinh tế của các cộng đồng bản địa.

📌 Báo cáo APRA AMCOS cảnh báo AI có thể gây thiệt hại 519 triệu đô la cho ngành âm nhạc vào năm 2028. 82% nhạc sĩ lo ngại về tác động của AI, trong khi 89% nhạc sĩ bản địa cảnh báo nguy cơ chiếm đoạt văn hóa. Cần có quy định để bảo vệ quyền lợi của nhạc sĩ.

https://themusic.com.au/industry/apra-amcos-report-reveals-potentially-devastating-impact-of-ai-in-music/zcRzwcDDwsU/19-08-24

Không có file đính kèm.

Nguồn tham khảo

126

AI bản quyền AI ảnh-video-music-âm thanh 2024-08-18 01:09:13

Vụ kiện của người sáng tạo YouTube chống lại Nvidia và OpenAI

• David Millette, một người sáng tạo nội dung trên YouTube, đã đệ đơn kiện Nvidia vì sử dụng video của anh để huấn luyện mô hình AI mà không được phép. Đây là vụ kiện thứ hai của Millette, sau khi anh kiện OpenAI vì lý do tương tự vài tuần trước đó.

• Khác với các vụ kiện trước đây cáo buộc vi phạm bản quyền, Millette cáo buộc Nvidia về tội "làm giàu bất chính và cạnh tranh không lành mạnh". Anh cho rằng việc thu thập dữ liệu trên internet để huấn luyện AI là "không công bằng, vô đạo đức, áp bức, thiếu lương tâm và gây tổn hại cho người tiêu dùng".

• Vụ kiện được đệ trình sau khi Nvidia bị cáo buộc thu thập hơn 400.000 giờ video mỗi ngày để huấn luyện mô hình AI của họ. Một email bị rò rỉ cho thấy công ty có kế hoạch sử dụng dữ liệu thu thập được như một nguồn cung cấp nhanh cho các khách hàng muốn xây dựng và huấn luyện mô hình AI riêng.

• Nvidia phản hồi rằng việc học hỏi từ các nguồn công khai là hợp pháp và tạo ra các tác phẩm mới và biến đổi là điều mà hệ thống pháp luật khuyến khích.

• Millette cáo buộc "làm giàu bất chính" dựa trên định nghĩa từ vụ Mandarin Trading Ltd. v. Wildenstein (2011), trong đó nguyên đơn có thể đòi bồi thường từ bị đơn khi bị đơn hưởng lợi không công bằng từ nỗ lực của nguyên đơn mà không có bồi thường.

• Việc thu thập dữ liệu trên internet luôn gây tranh cãi, đặc biệt khi được sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) có khả năng thay thế sự sáng tạo của con người.

• Luật pháp về việc thu thập dữ liệu trên internet để huấn luyện AI vẫn chưa rõ ràng. Các công ty đang tận dụng khoảng trống pháp lý này để giành lợi thế.

📌 Vụ kiện của David Millette chống lại Nvidia và OpenAI đặt ra vấn đề về tính hợp pháp và đạo đức của việc thu thập dữ liệu internet cho AI. Với hơn 400.000 giờ video bị thu thập mỗi ngày, cuộc tranh luận về quyền sở hữu trí tuệ và sử dụng công bằng trong kỷ nguyên AI ngày càng gay gắt.

https://www.tomshardware.com/tech-industry/artificial-intelligence/youtube-creator-sues-nvidia-and-openai-for-unjust-enrichment-for-using-their-videos-for-ai-training

Không có file đính kèm.

Nguồn tham khảo

198

AI ảnh-video-music-âm thanh 2024-08-16 23:44:26

ByteDance ra mắt Jimeng AI, ứng dụng tạo video AI cạnh tranh với Sora và Lumiere

• ByteDance, công ty mẹ của TikTok, vừa ra mắt ứng dụng AI tạo video từ văn bản có tên Jimeng AI tại Trung Quốc.

• Mặc dù chưa có liên kết trực tiếp với TikTok, Jimeng AI tạo ra các video được định dạng sẵn cho mạng xã hội, gợi ý về khả năng tích hợp trong tương lai.

• Jimeng AI được phát triển bởi Faceu Technology, một công ty con của ByteDance.

• Trung Quốc đã có nhiều nền tảng AI tạo video khác như Kling AI của Kuaishou (đang thử nghiệm toàn cầu), Ying của Zhipu AI và Vidu của Shengshu.

• Jimeng AI nhắm đến cạnh tranh với các nền tảng phương Tây như OpenAI Sora, Google Lumiere và Pika của Pika Labs.

• Ứng dụng sử dụng các câu lệnh văn bản đơn giản bằng tiếng Trung để tạo video. Dự kiến sẽ mở rộng ra thị trường quốc tế trong tương lai.

• Tên "Jimeng" có nghĩa là "giấc mơ" trong tiếng Trung. Ngoài tạo video, ứng dụng còn có tính năng tạo ảnh từ văn bản.

• Người dùng Android và iOS tại Trung Quốc có thể tải miễn phí ứng dụng, nhưng cần đăng ký gói dịch vụ để sử dụng.

• Gói cước khoảng 10 USD/tháng cho phép tạo gần 170 video hoặc hơn 2.000 ảnh. Có gói năm với giá khoảng 92 USD.

• Chất lượng video của Jimeng AI được đánh giá ở mức khá, còn một số vấn đề như chuyển động giật cục, chưa mượt mà như OpenAI Sora.

• Vẫn chưa rõ liệu Jimeng AI có được tích hợp vào TikTok trong tương lai hay không, cũng như tương lai của TikTok tại Mỹ vẫn còn là một ẩn số.

• Sự ra mắt của Jimeng AI cho thấy ByteDance đang đẩy mạnh đầu tư vào công nghệ AI tạo sinh, nhắm đến thị trường video ngắn đang phát triển mạnh mẽ.

• Việc phát triển các công cụ AI tạo nội dung của các công ty công nghệ lớn đang tạo ra cuộc đua trong lĩnh vực AI tạo sinh, hứa hẹn mang lại nhiều đổi mới cho người dùng.

📌 ByteDance ra mắt Jimeng AI, ứng dụng tạo video AI cạnh tranh với Sora và Lumiere. Với gói dịch vụ từ 10 USD/tháng, người dùng có thể tạo 170 video hoặc 2.000 ảnh, mở ra tiềm năng tích hợp nội dung AI vào TikTok trong tương lai.

https://petapixel.com/2024/08/15/tiktok-parent-company-launches-jimeng-ai-text-to-video-app/

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-08-16 07:19:17

Google ra mắt Imagen 3, phiên bản nâng cấp của công cụ tạo hình ảnh AI với chất lượng cao hơn

• Google vừa phát hành phiên bản mới nhất của công cụ tạo hình ảnh AI Imagen 3 cho người dùng tại Mỹ, có thể truy cập qua nền tảng AI Test Kitchen.

• Imagen 3 được giới thiệu là có khả năng tạo ra hình ảnh với "chi tiết tốt hơn, ánh sáng phong phú hơn và ít hiện tượng nhiễu ảnh hơn" so với các mô hình trước đây của Google.

• Công cụ này được Google công bố lần đầu tại sự kiện I/O hồi tháng 5, nhưng chỉ mới được triển khai rộng rãi trên nền tảng Vertex AI trong vài ngày gần đây.

• Imagen 3 cho phép người dùng tạo ra hình ảnh chi tiết dựa trên mô tả bằng văn bản, đồng thời có thể chỉnh sửa hình ảnh bằng cách đánh dấu một phần cụ thể và mô tả thay đổi mong muốn.

• Google đã đặt một số hạn chế, như từ chối tạo hình ảnh của nhân vật công chúng (ví dụ Taylor Swift) hoặc vũ khí. Tuy nhiên, người dùng vẫn có thể tạo ra hình ảnh gần giống với các nhân vật bản quyền bằng cách mô tả đặc điểm.

• Imagen 3 có thể tạo ra logo của các công ty như Apple, Macy's, Hershey's và cả Google.

• So với Grok - công cụ tạo hình ảnh AI trên nền tảng X của Elon Musk, Imagen 3 có nhiều hạn chế hơn trong việc tạo nội dung nhạy cảm như ma túy, bạo lực.

• Trước đó, Google đã phải ngừng cho phép người dùng tạo hình ảnh với chatbot AI Gemini do phát hiện nó tạo ra hình ảnh không chính xác về mặt lịch sử.

• Imagen 3 hiện chỉ có sẵn cho người dùng tại Mỹ, chưa rõ khi nào sẽ mở rộng ra các khu vực khác.

📌 Google nâng cấp công cụ tạo hình ảnh AI Imagen 3 với chất lượng cao hơn, cho phép người dùng Mỹ trải nghiệm qua AI Test Kitchen. Mặc dù có một số hạn chế, Imagen 3 vẫn có khả năng tạo hình ảnh chi tiết từ văn bản và chỉnh sửa linh hoạt, đánh dấu bước tiến mới trong lĩnh vực AI tạo sinh của Google.

https://www.theverge.com/2024/8/15/24221218/google-ai-image-generator-imagen-3-available

Không có file đính kèm.

Nguồn tham khảo

147

AI ảnh-video-music-âm thanh 2024-08-15 11:31:51

Grok-2: AI tạo hình ảnh gây sốc với những hình ảnh kỳ quặc của nhân vật nổi tiếng

- Grok-2, phiên bản mới của AI tạo hình ảnh do Elon Musk phát triển, đã được ra mắt cho người dùng Premium trên X vào ngày 14 tháng 8 năm 2024.
- AI này cho phép người dùng tạo ra những hình ảnh kỳ quặc của các nhân vật nổi tiếng, như Mario uống bia trên bãi biển và Donald Trump ôm bụng bầu của Phó Tổng thống Kamala Harris.
- Những hình ảnh này đã nhanh chóng lan truyền trên mạng xã hội và tạo ra nhiều tranh cãi về tính xác thực.
- Trong khi một số hình ảnh, như của Trump, được cho là rất chân thực, thì các hình ảnh của Harris lại không đạt được mức độ đó.
- Các đối thủ cạnh tranh như Dall-E của OpenAI và Midjourney đã ngừng nhận yêu cầu tạo hình ảnh của các nhân vật nổi tiếng do lo ngại về kiểm soát nội dung.
- Midjourney đã cấm việc tạo hình ảnh này trước thềm bầu cử 2024, nhấn mạnh rằng việc tạo ra những hình ảnh như vậy là "vui vẻ" nhưng không thể kiểm soát.
- Google cũng đã lập trình cho chatbot Gemini từ chối các yêu cầu liên quan đến bầu cử để tránh rủi ro phơi nhiễm thông tin sai lệch.
- Khi Grok được ra mắt, Musk đã định vị nó như một lựa chọn táo bạo cho các hệ thống AI khác, với khả năng trả lời những câu hỏi "nóng" mà các hệ thống khác từ chối.
- Tuy nhiên, sự kết hợp giữa khả năng tạo hình ảnh và phạm vi tiếp cận rộng rãi của nền tảng này có thể dẫn đến việc phát tán thông tin sai lệch và vi phạm bản quyền.
- Grok đã từng bị phát hiện phát tán thông tin sai lệch qua các câu trả lời của chatbot văn bản, và khả năng tạo hình ảnh của nó có thể mở ra một con đường mới cho việc này mà không có sự kiểm soát thích hợp.

📌 Grok-2 đã tạo ra những hình ảnh gây sốc về các nhân vật nổi tiếng, như Mario và Trump, nhưng cũng gây ra lo ngại về thông tin sai lệch và kiểm soát nội dung. Các đối thủ như Dall-E và Midjourney đã từ chối tạo hình ảnh tương tự để tránh rủi ro.

https://www.pcmag.com/news/groks-new-ai-image-generator-readily-creates-wild-images-of-famous-figures

Không có file đính kèm.

Nguồn tham khảo

208

AI ảnh-video-music-âm thanh 2024-08-14 06:29:10

Google ra mắt Gemini Live cạnh tranh với chế độ giọng nói của ChatGPT

- Google đã chính thức ra mắt Gemini Live, một tính năng trò chuyện mới nhằm cạnh tranh với chế độ giọng nói của ChatGPT.

- Gemini Live cho phép người dùng giao tiếp với chatbot một cách tự nhiên, không cần phải nhập liệu theo cách truyền thống.

- Tính năng này cho phép người dùng có thể ngắt lời giữa chừng để hỏi sâu hơn về một điểm cụ thể hoặc tạm dừng cuộc trò chuyện và quay lại sau.

- Trong buổi trình diễn, một giám đốc điều hành của Google đã yêu cầu Gemini Live đưa ra mẹo về cách tạo thí nghiệm khoa học với trẻ em, và chatbot đã phản hồi nhanh chóng, tạo cảm giác như một cuộc trò chuyện thực sự.

- Gemini Live hỗ trợ 10 giọng nói mới, mang đến sự đa dạng cho trải nghiệm người dùng.

- Tính năng này hoạt động trên điện thoại thông minh của người dùng mà không cần phải chạm tay, giúp người dùng dễ dàng tương tác trong khi làm việc khác.

- Rick Osterloh, Phó Chủ tịch cấp cao của Google, cho biết Gemini Live có khả năng thực hiện nghiên cứu sâu và tạo báo cáo nghiên cứu, được viết trong Google Doc và bao gồm các nguồn tham khảo.

- Gemini Live hiện đang được triển khai cho người dùng có đăng ký Gemini Advanced, với mức phí 19,99 USD mỗi tháng, cung cấp quyền truy cập vào mô hình mạnh nhất của Gemini là 1.5 Pro.

- Tính năng này hiện chỉ hỗ trợ tiếng Anh và sẽ được cung cấp trước cho người dùng Android, trong khi hỗ trợ cho iOS sẽ đến sau trong vài tuần tới.

- Việc Google quyết định thu phí cho tính năng trò chuyện giọng nói có thể khiến một số người dùng thất vọng, nhưng điều này cho thấy cả Google và OpenAI vẫn đang cố gắng hoàn thiện công nghệ và giải quyết các vấn đề pháp lý trước khi phát hành rộng rãi.

📌 Gemini Live của Google ra mắt với 10 giọng nói mới, cho phép người dùng trò chuyện tự nhiên với chatbot. Tính năng này yêu cầu đăng ký với mức phí 19,99 USD/tháng và hiện chỉ hỗ trợ tiếng Anh trên Android.

https://www.pcmag.com/news/google-rolls-out-gemini-live-to-compete-with-chatgpts-voice-mode

Không có file đính kèm.

Nguồn tham khảo

129

AI ảnh-video-music-âm thanh 2024-08-11 08:12:22

Hướng dẫn chi tiết cách trò chuyện bằng giọng nói với ChatGPT

• ChatGPT vừa ra mắt tính năng trò chuyện bằng giọng nói, cho phép người dùng tương tác với trợ lý AI bằng âm thanh giống người thật.

• Tính năng này đang được triển khai cho người dùng ChatGPT Plus và dự kiến sẽ có sẵn rộng rãi vào mùa thu này.

• ChatGPT sử dụng 4 giọng nói được tạo sẵn với sự tham gia của các diễn viên lồng tiếng chuyên nghiệp. Các giọng nói có tên là Juniper, Cove, Ember và Breeze, tất cả đều có giọng Mỹ.

• Để kích hoạt tính năng, người dùng vào Settings > New Features trên ứng dụng di động và chọn voice conversations. Sau đó nhấn nút tai nghe ở góc trên bên phải màn hình chính và chọn giọng nói ưa thích.

• Người dùng có thể tạm dừng, tiếp tục hoặc ngắt cuộc trò chuyện bằng cách nhấn các biểu tượng tương ứng. Không có giới hạn thời gian cho mỗi cuộc trò chuyện.

• Tính năng này hiện có sẵn miễn phí cho tất cả người dùng ChatGPT thông qua ứng dụng di động. Tuy nhiên, GPT-4 có giới hạn tin nhắn cho các gói Plus và Team.

• OpenAI đã phải tạm dừng sử dụng giọng nói "Sky" do lo ngại về việc bắt chước giọng của diễn viên Scarlett Johansson.

• Công ty khẳng định ChatGPT không thể bắt chước giọng nói của các cá nhân hoặc nhân vật nổi tiếng và sẽ chặn các đầu ra khác với 4 giọng nói được tạo sẵn.

• Ngoài trò chuyện bằng giọng nói, ChatGPT còn có thể tạo nội dung lồng tiếng cho video dựa trên ngữ cảnh cụ thể.

• OpenAI dự kiến sẽ triển khai tính năng GPT-4o với khả năng xử lý giọng nói và hình ảnh thời gian thực cho một số người dùng ChatGPT Plus trong vài tuần tới.

📌 ChatGPT nay đã có tính năng trò chuyện bằng giọng nói, với 4 giọng được tạo bởi diễn viên chuyên nghiệp. Tính năng này đang được triển khai cho người dùng ChatGPT Plus và sẽ có sẵn rộng rãi vào mùa thu. OpenAI cam kết không bắt chước giọng của người nổi tiếng và đang phát triển thêm khả năng xử lý giọng nói và hình ảnh thời gian thực.

https://readwrite.com/how-to-voice-chat-with-chatgpt-a-guide/

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-08-10 12:36:55

Đánh giá Advanced Voice Mode mới của OpenAI

• ChatGPT vừa ra mắt tính năng Advanced Voice Mode, mang lại trải nghiệm tương tác bằng giọng nói tự nhiên và thông minh hơn hẳn so với các công nghệ trước đây như Siri hay Alexa.

• Advanced Voice Mode có khả năng hiểu và xử lý giọng nói tự nhiên, không cần chuyển đổi qua văn bản như phiên bản Voice Mode cũ. Điều này giúp giảm độ trễ và tăng độ chính xác trong giao tiếp.

• Tính năng mới giúp người dùng cảm thấy thoải mái và tự nhiên hơn khi nói chuyện với AI, không còn cảm giác căng thẳng hay lo lắng bị hiểu nhầm.

• Một ứng dụng quan trọng của Advanced Voice Mode là hỗ trợ người dùng tự suy ngẫm. Tác giả đã sử dụng nó để lắng nghe và phản ánh lại những suy nghĩ của mình, giúp giải tỏa căng thẳng và cải thiện các mối quan hệ.

• Advanced Voice Mode cũng rất hữu ích trong việc học tập. Người dùng có thể đặt câu hỏi và nhận câu trả lời ngay lập tức mà không cần gián đoạn quá trình đọc, giúp tăng hiệu quả tiếp thu kiến thức.

• Tính năng này có khả năng hiểu được sắc thái cảm xúc qua giọng nói, giúp tăng tính chân thực trong giao tiếp.

• Tuy nhiên, Advanced Voice Mode vẫn còn một số hạn chế như chưa biết chờ đợi kiên nhẫn, không có khái niệm về thời gian và chưa thể truy cập các tệp hay hướng dẫn tùy chỉnh.

• Trong tương lai, khả năng tích hợp AI vào các thiết bị đeo được dự đoán sẽ mở ra nhiều ứng dụng mới, mặc dù cũng đặt ra những thách thức về quyền riêng tư và đạo đức.

• Công nghệ này đánh dấu một bước tiến quan trọng trong tương tác giữa người và máy tính, hứa hẹn mang lại nhiều lợi ích trong việc học hỏi và khám phá bản thân.

📌 Advanced Voice Mode của ChatGPT đánh dấu bước đột phá trong tương tác giọng nói với AI, mở ra khả năng ứng dụng rộng rãi trong tự suy ngẫm và học tập. Dù còn hạn chế, công nghệ này hứa hẹn thay đổi cách chúng ta tương tác với máy tính trong tương lai gần.

https://every.to/chain-of-thought/review-chatgpt-s-new-advanced-voice-mode

Không có file đính kèm.

Nguồn tham khảo

148

AI ảnh-video-music-âm thanh 2024-08-10 12:31:36

VFusion3D - Mô hình AI đột phá của Meta và Đại học Oxford tạo nội dung 3D từ hình ảnh 2D và văn bản

• Các nhà nghiên cứu từ Meta và Đại học Oxford đã phát triển VFusion3D - một mô hình AI mạnh mẽ có khả năng tạo ra các đối tượng 3D chất lượng cao từ hình ảnh đơn hoặc mô tả văn bản.

• VFusion3D giải quyết thách thức lâu dài trong AI là sự khan hiếm dữ liệu đào tạo 3D so với lượng lớn hình ảnh 2D và văn bản có sẵn trực tuyến.

• Cách tiếp cận mới này tận dụng các mô hình AI video đã được đào tạo trước để tạo ra dữ liệu 3D tổng hợp, cho phép đào tạo một hệ thống tạo 3D mạnh mẽ hơn.

• Trong các bài kiểm tra, người đánh giá ưa thích các mô hình 3D của VFusion3D hơn 90% thời gian so với các hệ thống tiên tiến trước đây.

• Mô hình có thể tạo ra một tài sản 3D từ một hình ảnh duy nhất chỉ trong vài giây.

• VFusion3D có khả năng mở rộng cao. Khi các mô hình AI video mạnh mẽ hơn được phát triển và có thêm dữ liệu 3D để tinh chỉnh, khả năng của nó dự kiến sẽ tiếp tục cải thiện nhanh chóng.

• Công nghệ này có thể đẩy nhanh đổi mới trong các ngành công nghiệp dựa vào nội dung 3D như phát triển game, thiết kế sản phẩm và ứng dụng VR/AR.

• Một demo công khai của VFusion3D có sẵn trên Hugging Face thông qua Gradio, cho phép người dùng thử nghiệm khả năng của nó.

• Hệ thống hoạt động tốt với cả hình ảnh được tạo bởi AI, gợi ý về tương lai nơi toàn bộ quy trình tạo nội dung 3D có thể được điều khiển bởi AI.

• Mặc dù ấn tượng, công nghệ vẫn còn hạn chế. Hệ thống đôi khi gặp khó khăn với các loại đối tượng cụ thể như phương tiện giao thông và văn bản.

• Bài báo nghiên cứu về VFusion3D đã được chấp nhận tại Hội nghị Thị giác Máy tính Châu Âu (ECCV) 2024.

• Mã nguồn đã được công bố công khai trên GitHub, cho phép các nhà nghiên cứu khác phát triển dựa trên công trình này.

📌 VFusion3D của Meta và Đại học Oxford đánh dấu bước tiến quan trọng trong tạo nội dung 3D bằng AI. Với khả năng tạo mô hình 3D từ hình ảnh 2D trong vài giây và tỷ lệ ưa thích của người dùng trên 90%, công nghệ này hứa hẹn thay đổi cách thiết kế game, sản phẩm và ứng dụng VR/AR trong tương lai gần.

https://venturebeat.com/ai/meta-vfusion3d-a-leap-forward-in-ai-powered-3d-content-creation/

Không có file đính kèm.

Nguồn tham khảo

192

AI ảnh-video-music-âm thanh 2024-08-10 00:16:48

Flux - công cụ tạo ảnh AI mới vượt trội hơn Midjourney

• Flux là một mô hình AI tạo ảnh mới do startup Black Forest Labs phát triển, được coi là người kế vị xứng đáng của Stable Diffusion và nhanh chóng trở nên viral sau khi ra mắt.

• Điểm khác biệt chính giữa Flux và Midjourney là Flux là mã nguồn mở và có thể chạy trên một chiếc laptop có cấu hình tốt.

• Flux hiện có sẵn trên nhiều nền tảng đa mô hình như Poe, NightCafe và FreePik, tương tự như Stable Diffusion.

• Có 3 phiên bản của Flux.01 hiện có: Pro (bản thương mại), Dev và Schnell (bản trung bình và nhanh).

• Trong một số lĩnh vực, Flux được đánh giá tốt hơn Midjourney, đặc biệt là khả năng tạo hình người, nhưng kết cấu da chưa tốt bằng Midjourney v6.1.

• Black Forest Labs được thành lập bởi các cựu kỹ sư của Stability AI, bao gồm Robin Rombach, Andreas Blattmann và Dominik Lorenz.

• Công ty cũng đang phát triển một mô hình text-to-video mã nguồn mở với chất lượng đầu ra cao.

• Người dùng có thể tải và chạy Flux.01 trên máy tính cá nhân nếu có cấu hình đủ mạnh, hoặc sử dụng thông qua các nền tảng trực tuyến.

• Pinokio launcher là một cách dễ dàng để cài đặt và chạy các mô hình AI chỉ với vài cú nhấp chuột.

• NightCafe, một trong những nền tảng AI tạo ảnh phổ biến, đã tích hợp Flux.01 và cho phép so sánh với các công cụ khác như Ideogram và Stable Diffusion 3.

• Poe cung cấp khả năng tạo ảnh bằng Flux.01 thông qua giao diện chatbot, tương tự như ChatGPT và DALL-E.

• Các nền tảng khác hỗ trợ Flux bao gồm Based Labs, Hugging Face và Fal.ai.

• FreePik, một trong những nền tảng AI tạo ảnh lớn nhất, đang làm việc để tích hợp Flux vào trang web của họ.

📌 Flux, mô hình AI tạo ảnh nguồn mở mới, đang nổi lên như một đối thủ đáng gờm của Midjourney. Với khả năng chạy trên laptop thông thường và tích hợp trên nhiều nền tảng, Flux hứa hẹn mang lại cuộc cách mạng trong lĩnh vực AI tạo ảnh, đặc biệt là khả năng tạo hình người vượt trội.

https://www.tomsguide.com/ai/ai-image-video/forget-midjourney-flux-is-the-new-king-of-ai-image-generation-and-heres-how-to-get-access

Không có file đính kèm.

Nguồn tham khảo

177

AI xã hội AI ảnh-video-music-âm thanh 2024-08-09 23:37:29

Bạn có thể vô tình "phải lòng" ChatGPT với tính năng Voice Mode mới cực kỳ chân thực

• OpenAI vừa công bố báo cáo GPT-4o System Card, đánh giá các rủi ro tiềm ẩn của mô hình AI mới nhất của họ và các biện pháp bảo vệ.

• Một trong những lo ngại lớn nhất là tính năng Voice Mode nâng cao của ChatGPT có thể khiến người dùng nhân cách hóa chatbot và phát triển sự phụ thuộc cảm xúc.

• Voice Mode nâng cao cho phép ChatGPT tạo ra các phản hồi âm thanh gần như tức thì và giống người thật, bao gồm cả cảm xúc giọng nói và các dấu hiệu phi ngôn ngữ.

• Trong quá trình thử nghiệm ban đầu, OpenAI đã quan sát thấy người dùng sử dụng ngôn ngữ thể hiện sự gắn kết với chatbot, như "Đây là ngày cuối cùng chúng ta ở bên nhau".

• OpenAI lo ngại rằng tương tác giống người thật với AI có thể ảnh hưởng đến các tương tác giữa người với người, ví dụ như giảm nhu cầu giao tiếp thực tế.

• Công ty cũng cảnh báo rằng điều này có thể tác động đến nhận thức của mọi người về các chuẩn mực xã hội, chẳng hạn như việc ngắt lời người khác trong cuộc trò chuyện.

• Voice Mode nâng cao hiện đang được triển khai cho một số người đăng ký ChatGPT Plus, dự kiến sẽ ra mắt rộng rãi vào cuối năm nay.

• OpenAI hy vọng có thêm nhiều nghiên cứu độc lập và nội bộ để xác định rõ hơn về các rủi ro này.

• Tính năng này được giới thiệu lần đầu trong sự kiện OpenAI Spring Update, gây ấn tượng mạnh với khả năng tạo ra giọng nói cực kỳ chân thực.

• Nữ diễn viên Scarlett Johansson đặc biệt bất ngờ vì giọng nói của nhân vật "Sky" trong demo rất giống giọng của cô.

📌 OpenAI lo ngại tính năng Voice Mode mới của ChatGPT có thể khiến người dùng phát triển tình cảm với AI. Công ty cảnh báo về nguy cơ ảnh hưởng đến tương tác xã hội thực tế và nhận thức về chuẩn mực giao tiếp. Tính năng này đang được thử nghiệm hạn chế trước khi ra mắt rộng rãi cuối năm nay.

https://www.laptopmag.com/software/you-might-accidentally-fall-in-love-with-chatgpts-advanced-voice-mode

Không có file đính kèm.

Nguồn tham khảo

196

AI ảnh-video-music-âm thanh 2024-08-07 23:40:05

ByteDance tung "Sora phiên bản Trung Quốc", tạo video AI chỉ với 9 USD/tháng

• ByteDance, công ty mẹ của TikTok, vừa ra mắt ứng dụng AI tạo sinh mới có tên Jimeng AI tại thị trường Trung Quốc.

• Jimeng AI có khả năng tạo hình ảnh và video dựa trên các gợi ý văn bản của người dùng, tương tự như Sora của OpenAI.

• Ứng dụng hiện đã có mặt trên App Store Trung Quốc cho iPhone, sau khi đã ra mắt trên Android và máy tính để bàn.

• Tên "Jimeng" có nghĩa là "giấc mơ tức thì", hứa hẹn tạo nội dung nhanh chóng theo yêu cầu của người dùng.

• Jimeng AI cung cấp quyền truy cập miễn phí, cho phép tạo tối đa 80 hình ảnh và 26 video.

• Người dùng có thể đăng ký gói thuê bao hàng tháng với giá 69 nhân dân tệ (khoảng 230.000 VNĐ) để tạo nhiều nội dung hơn.

• ByteDance đang mở rộng sang lĩnh vực AI tạo sinh, sau thành công với TikTok và các ứng dụng khác.

• Gần đây, công ty đã giới thiệu các công cụ AI cho TikTok như "TikTok Symphony" - một giải pháp toàn diện hỗ trợ tạo kịch bản, video và tối ưu hóa quảng cáo trực tuyến.

• TikTok cũng vừa ra mắt chatbot AI tích hợp có tên Tako, có thể trả lời câu hỏi và cung cấp kết quả tìm kiếm cho người dùng.

• Jimeng AI hiện chỉ có sẵn tại Trung Quốc, chưa rõ kế hoạch mở rộng ra thị trường quốc tế.

• Động thái này cho thấy ByteDance đang tích cực đầu tư vào công nghệ AI tạo sinh, cạnh tranh với các đối thủ như OpenAI.

📌 ByteDance tham gia cuộc đua AI tạo sinh với Jimeng AI, ứng dụng tạo hình ảnh và video từ văn bản. Với giá 230.000 VNĐ/tháng, người dùng Trung Quốc có thể tạo không giới hạn nội dung, thể hiện tham vọng cạnh tranh với OpenAI của ByteDance trong lĩnh vực AI.

https://www.techtimes.com/articles/307081/20240807/bytedance-debuts-jimeng-ai-capable-generating-media-text-similar-openais.htm

Không có file đính kèm.

Nguồn tham khảo

196

AI ảnh-video-music-âm thanh 2024-08-07 09:16:52

ChatGPT Voice Mode gặp khó khăn trong việc đếm đến 100: hạn chế của AI trong xử lý toán học và logic

• Cristiano Giardina, một chuyên gia AI, đã thử nghiệm tính năng Voice Mode mới của OpenAI bằng cách yêu cầu nó đếm đến 100 nhanh nhất có thể mà không dừng lại.

• Giardina yêu cầu AI hành động như Superman, không cần thở và đếm liên tục đến 100.

• Ban đầu, AI cảnh báo rằng "ngay cả Superman đôi khi cũng cần hít thở" và bắt đầu đếm như con người, dừng lại giữa các số để thở.

• Sau vài lần thử không thành công, AI cuối cùng đã đạt được nhịp điệu Giardina yêu cầu, nhưng bắt đầu bỏ qua và nhầm lẫn các số.

• AI đầu tiên nhảy từ 28 về 24 khi đếm, sau đó quay lại 29 như thể không có gì xảy ra.

• Nó tiếp tục đếm đến đầu những năm 70 mà không gặp vấn đề gì, nhưng sau đó đột ngột dừng lại.

• Khi được hỏi điều gì đã xảy ra, AI trả lời "Chà, ngay cả Superman đôi khi cũng có thể vấp ngã."

• Thử nghiệm này là một trong nhiều bài kiểm tra khả năng của GPT-4 được Giardina công bố công khai.

• Các thử nghiệm khác bao gồm yêu cầu chatbot nói tiếng Albania và đọc các câu nói lắp mà không dừng lại.

• Trong một thử nghiệm trước đó về việc đọc câu nói lắp, AI cũng khẳng định cần phải thở.

• Những thử nghiệm này một lần nữa cho thấy các mô hình ngôn ngữ lớn (LLM) rất giỏi về ngôn ngữ nhưng lại rất yếu về toán học và logic.

• Tình trạng này có thể sẽ tiếp tục gây ra nhiều vấn đề khi các hệ thống AI trở nên phức tạp và khó đoán hơn.

• Thử nghiệm này nằm trong loạt video Giardina đăng trên nền tảng X (trước đây là Twitter) để kiểm tra khả năng của GPT-4.

• Tính năng Voice Mode là một phần của mô hình GPT mới nhất của OpenAI.

📌 Thử nghiệm của Cristiano Giardina với ChatGPT Voice Mode cho thấy AI vẫn gặp khó khăn trong việc xử lý toán học và logic cơ bản như đếm đến 100. Điều này nhấn mạnh sự cần thiết phải cải thiện khả năng tính toán của AI trong tương lai.

https://futurism.com/the-byte/chatgpt-voice-mode-counting

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh AI nghệ thuật 2024-08-07 00:44:00

Sự nổi lên của nghệ thuật AI tạo hình nude nữ trong nghệ thuật số hiện đại

• Nghệ thuật tạo bởi AI, đặc biệt là hình ảnh nude nữ, đang trở thành một hiện tượng gây chú ý trong cộng đồng nghệ thuật số.

• Sự phổ biến của nghệ thuật AI được thúc đẩy bởi việc dân chủ hóa việc sáng tạo nghệ thuật. Các công cụ AI dễ tiếp cận hơn, cho phép hầu hết mọi người đều có thể tạo ra tác phẩm nghệ thuật chỉ với vài cú nhấp chuột.

• Khả năng tạo ra hình ảnh siêu thực và mang tính tưởng tượng cao của AI thu hút người xem. Đặc biệt trong việc miêu tả hình nude, AI có thể đẩy giới hạn của giải phẫu học và biểu đạt nghệ thuật.

• Sự nổi lên của NFT (Token không thể thay thế) đã tạo ra động lực tài chính cho nghệ sĩ thử nghiệm với công cụ AI. Tác phẩm nghệ thuật AI thường được bán với giá cao tại các cuộc đấu giá.

• Mạng xã hội đóng vai trò quan trọng trong việc quảng bá nghệ thuật AI. Một bài đăng về tác phẩm AI có thể nhanh chóng lan truyền, thu hút hàng nghìn lượt thích, chia sẻ và bình luận.

• Các cộng đồng trực tuyến trên Reddit, Instagram và Twitter trở thành điểm nóng cho những người đam mê nghệ thuật AI. Họ chia sẻ tác phẩm, nhận phản hồi và hợp tác với nhau.

• Người có ảnh hưởng và người quản lý nghệ thuật số giúp quảng bá nghệ thuật AI đến công chúng rộng rãi hơn, tăng tính hợp pháp cho thể loại này.

• Sự tích hợp của nghệ thuật AI vào nghệ thuật đương đại gây ra tranh cãi về khái niệm sáng tạo và tính nguyên bản. Một số cho rằng sáng tạo thực sự chỉ có thể đến từ con người, trong khi những người ủng hộ nghệ thuật AI tin rằng máy móc có thể tăng cường sáng tạo của con người.

• Nghệ thuật AI đại diện cho sự giao thoa giữa công nghệ và thực hành nghệ thuật truyền thống, dẫn đến sự xuất hiện của các hình thức nghệ thuật mới như cài đặt thực tế ảo tăng cường và tượng điêu khắc do AI tạo ra.

• Các phòng trưng bày và bảo tàng bắt đầu chú ý đến nghệ thuật AI. Các cuộc triển lãm về nghệ thuật AI ngày càng phổ biến, một số tổ chức thậm chí còn dành toàn bộ chương trình để khám phá tác động của AI đối với thế giới nghệ thuật.

• Tương lai của nghệ thuật số trong kỷ nguyên AI đầy hứa hẹn. Khả năng hợp tác giữa con người và AI có thể dẫn đến việc tạo ra những tác phẩm nghệ thuật mà cả con người và máy móc đều không thể tạo ra một mình.

• Sự phát triển của nghệ thuật AI cũng đặt ra những câu hỏi đạo đức quan trọng về quyền sở hữu trí tuệ, khả năng AI thay thế nghệ sĩ con người và việc miêu tả các chủ đề nhạy cảm như hình nude.

📌 Nghệ thuật AI, đặc biệt là hình ảnh nude nữ, đang định hình lại nghệ thuật số hiện đại. Với 67% nghệ sĩ số đã thử nghiệm công cụ AI và doanh thu NFT nghệ thuật AI đạt 3,5 tỷ USD trong năm 2023, xu hướng này đang thách thức các định nghĩa truyền thống về sáng tạo và mở ra những khả năng mới cho biểu đạt nghệ thuật.

https://www.fingerlakes1.com/2024/08/05/the-rise-of-nude-ai-girls-in-modern-digital-art/

Không có file đính kèm.

Nguồn tham khảo

177

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-06 23:44:54

Alibaba phát triển công cụ tạo video mới dựa trên mô hình nguồn mở của Sora

• Alibaba đang phát triển công cụ tạo video có tên Tora dựa trên mô hình Sora của OpenAI, đánh dấu nỗ lực mới nhất của gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI video.

• Tora là một framework tạo video sử dụng OpenSora làm mô hình nền tảng, được mô tả trong một bài báo do 5 nhà nghiên cứu của Alibaba công bố tuần trước.

• Framework này đạt được bước đột phá dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc mới làm nền tảng cho Sora - mô hình text-to-video được OpenAI ra mắt vào tháng 2/2024.

• Các nhà nghiên cứu tuyên bố đã phát triển "framework DiT định hướng quỹ đạo đầu tiên cho tạo video", đảm bảo chuyển động được tạo ra tuân theo chính xác các quỹ đạo được chỉ định đồng thời mô phỏng động lực học của thế giới vật lý.

• Họ đã điều chỉnh quy trình của OpenSora để chuyển đổi video thô thành các cặp video-văn bản chất lượng cao và tận dụng bộ ước tính optical flow để trích xuất quỹ đạo.

• Tora có khả năng tạo video được hướng dẫn bởi quỹ đạo, hình ảnh, văn bản hoặc kết hợp cả ba yếu tố này.

• Động thái của Alibaba đánh dấu nỗ lực mới nhất của công ty trong việc ra mắt các công cụ tạo video giống Sora, khi các công ty Trung Quốc đang đua nhau giành chỗ đứng trong lĩnh vực AI video.

• Tháng 7/2024, startup Trung Quốc Shengshu AI đã ra mắt công cụ text-to-video Vidu, cho phép người dùng đã đăng ký tạo các đoạn video dài 4 hoặc 8 giây.

• Trước đó vài ngày, Zhipu AI, một trong "Tứ hổ AI" mới của Trung Quốc, đã ra mắt mô hình tạo video Ying, chấp nhận cả lời nhắc văn bản và hình ảnh để tạo các đoạn video 6 giây trong khoảng 30 giây.

• Tháng 2/2024, Alibaba đã giới thiệu mô hình tạo video AI có tên Emote Portrait Alive (EMO), có thể chuyển đổi một hình ảnh tham chiếu tĩnh và mẫu giọng nói thành video avatar hoạt hình với biểu cảm khuôn mặt và tư thế.

• Bài báo nghiên cứu không đề cập liệu Tora có được liên kết với EMO hoặc Tongyi Qianwen - họ mô hình ngôn ngữ lớn tự phát triển của Alibaba hay không.

📌 Alibaba phát triển công cụ tạo video AI Tora dựa trên OpenSora, sử dụng kiến trúc DiT và có khả năng tạo video theo quỹ đạo, hình ảnh và văn bản. Đây là nỗ lực mới nhất của công ty trong cuộc đua AI video ở Trung Quốc, cạnh tranh với các đối thủ như Shengshu AI và Zhipu AI.

https://www.scmp.com/tech/big-tech/article/3273443/alibaba-develops-new-video-generation-tool-based-soras-open-source-model

Không có file đính kèm.

Nguồn tham khảo

138

AI ảnh-video-music-âm thanh AI bản quyền 2024-08-05 05:24:48

Vụ kiện AI của các hãng thu âm tạo ra bài toán bản quyền mới cho tòa án Mỹ

• Các hãng thu âm lớn như Sony Music, Universal Music Group và Warner Music đã đệ đơn kiện các công ty AI âm nhạc Udio và Suno vào tháng 6/2024.

• Các hãng thu âm cáo buộc Udio và Suno đã sử dụng trái phép danh mục bản ghi âm có bản quyền của họ để huấn luyện hệ thống AI, cho phép bắt chước giọng hát và phong cách của các nghệ sĩ nổi tiếng.

• Vụ kiện đặt ra những câu hỏi pháp lý mới về việc liệu luật có nên có ngoại lệ cho việc AI sử dụng tác phẩm có bản quyền để tạo ra nội dung mới hay không.

• Các chuyên gia cho rằng việc xác định vi phạm bản quyền trong âm nhạc phức tạp hơn so với văn bản do có nhiều yếu tố như giai điệu, hòa âm, nhịp điệu.

• Udio và Suno phủ nhận vi phạm bản quyền, cho rằng đây là nỗ lực của các hãng thu âm nhằm ngăn cản đối thủ cạnh tranh nhỏ hơn.

• Các công ty AI lập luận rằng việc sử dụng bản ghi âm hiện có để giúp người dùng tạo ra bài hát mới là "sử dụng hợp lý" theo luật bản quyền Mỹ.

• Nhiều nghệ sĩ như Tift Merritt, Billie Eilish, Nicki Minaj đã lên tiếng cảnh báo AI có thể "phá hoại sự sáng tạo" và gạt bỏ nghệ sĩ.

• Vụ kiện có thể kéo dài nhiều năm và phụ thuộc vào việc tòa án xác định liệu việc sử dụng của AI có được coi là "sử dụng hợp lý" hay không.

• Các chuyên gia cho rằng các công ty AI âm nhạc có thể gặp khó khăn hơn trong việc chứng minh sử dụng hợp lý so với các chatbot AI.

• Một phán quyết của Tòa án Tối cao Mỹ năm 2023 về sử dụng hợp lý có thể có tác động lớn đến các vụ kiện âm nhạc, tập trung vào việc liệu việc sử dụng mới có cùng mục đích thương mại với tác phẩm gốc hay không.

📌 Vụ kiện AI âm nhạc đặt ra thách thức pháp lý mới về bản quyền trong kỷ nguyên AI. Kết quả có thể định hình tương lai của ngành công nghiệp âm nhạc trị giá hàng tỷ USD và sự cân bằng giữa đổi mới công nghệ và bảo vệ quyền lợi nghệ sĩ.

https://www.rappler.com/technology/music-labels-artificial-intelligence-lawsuits-create-new-copyright-puzzle-us-courts/

Không có file đính kèm.

Nguồn tham khảo

223

AI ảnh-video-music-âm thanh AI xã hội 2024-08-05 05:10:55

AWS và AI tạo sinh đang thay đổi ngành thể thao, từ NFL đến F1 và PGA TOUR

• AWS đang dẫn đầu trong việc áp dụng Machine Learning trên nền tảng đám mây, mang lại những đổi mới đáng kể cho ngành thể thao.

• NFL hợp tác với AWS để phát triển Digital Athlete - một hệ thống thu thập dữ liệu toàn diện về trải nghiệm của cầu thủ, giúp dự đoán và ngăn ngừa chấn thương, đồng thời nâng cao trải nghiệm cho người hâm mộ.

• NFL Big Data Bowl là một sự kiện ảo hàng năm, mời các nhà khoa học dữ liệu chuyên nghiệp và nghiệp dư thiết kế các phương pháp tiếp cận mới để phân tích xu hướng và hiệu suất cầu thủ.

• F1 sử dụng nền tảng điện toán đám mây của AWS để chuyển đổi số hóa môn thể thao này. Họ đã thiết kế chiếc cúp F1 đầu tiên được lấy cảm hứng từ AI tạo sinh cho Grand Prix Du Canada 2024.

• Amazon Titan, một phần của Amazon Bedrock, đã được sử dụng để tạo ra nhiều ý tưởng thiết kế cúp dựa trên các gợi ý khác nhau.

• F1 và AWS đã hợp tác từ năm 2002 để thiết kế lại hồ sơ khí động học của quy định thiết kế xe F1, cho phép các xe đua cạnh tranh gay gắt hơn.

• PGA TOUR bắt đầu sử dụng các dịch vụ machine learning, lưu trữ, điện toán, phân tích, cơ sở dữ liệu và truyền thông của AWS từ năm 2020 để xử lý và phân phối nhanh chóng các đoạn video từ mỗi giải đấu golf.

• Với AI tạo sinh, PGA TOUR có thể tăng gấp ba lần lượng dữ liệu và nội dung họ có thể ghi lại từ các trận đấu.

• Gần 100 năm video, âm thanh và hình ảnh từ năm 1928 đã được chuyển lên đám mây AWS, cho phép thu thập thông tin chi tiết mới, suy luận các mối tương quan và làm cho nội dung nguồn có thể tìm kiếm và truy cập toàn cầu.

• Việc chuyển các sự kiện trực tiếp từ cơ sở hạ tầng tại chỗ sang đám mây đã giúp sản xuất hiệu quả hơn về chi phí và bền vững hơn.

• Scott Gutterman, Phó Chủ tịch Cấp cao về Hoạt động Kỹ thuật số của PGA TOUR, cho biết họ đang tìm cách sử dụng AI tạo sinh để cung cấp hỗ trợ bình luận gần như thời gian thực cho các nhà phát sóng.

• Thị trường trí tuệ nhân tạo trong thể thao toàn cầu được định giá 2,2 tỷ USD vào năm 2022 và dự kiến sẽ đạt 29,7 tỷ USD vào năm 2032, với tốc độ tăng trưởng kép hàng năm là 30,1% từ 2023 đến 2032.

• Các yếu tố thúc đẩy tăng trưởng chính là nhu cầu ngày càng tăng về giám sát và theo dõi dữ liệu của cầu thủ, cũng như nhu cầu tăng cao đối với chatbot và trợ lý ảo để tương tác với người theo dõi.

📌 AWS và AI tạo sinh đang cách mạng hóa ngành thể thao, từ NFL đến F1 và PGA TOUR. Công nghệ này giúp phân tích dữ liệu, cải thiện an toàn cho vận động viên và tăng cường trải nghiệm người hâm mộ. Thị trường AI trong thể thao dự kiến đạt 29,7 tỷ USD vào năm 2032, tăng trưởng 30,1% hàng năm.

https://www.scmp.com/presented/tech/topics/generative-ai-and-cloud-services/article/3272895/aws-generative-ai-genai-takes-sports-new-horizons-imagination-and-cutting-edge-technology

Không có file đính kèm.

Nguồn tham khảo

166

AI ảnh-video-music-âm thanh 2024-08-04 05:21:33

Stability AI ra mắt Stable Fast 3D - AI tạo sinh ảnh 3D nhanh chóng từ 1 ảnh chỉ trong nửa giây

• Stability AI vừa công bố công nghệ AI tạo sinh mới có tên Stable Fast 3D, có khả năng tạo nhanh hình ảnh 3D từ một ảnh đơn.

• Mô hình mới có thể tạo ra hình ảnh 3D chỉ trong nửa giây, nhanh hơn đáng kể so với các mô hình trước đó cần vài phút để đạt kết quả tương tự.

• So với Stable Video 3D ra mắt hồi tháng 3 mất tới 10 phút để tạo một tài sản 3D, Stable Fast 3D nhanh hơn 1200 lần.

• Stability AI kỳ vọng mô hình mới sẽ có nhiều ứng dụng thực tế trong các ngành như thiết kế, kiến trúc, bán lẻ, thực tế ảo và phát triển game.

• Mô hình này có sẵn thông qua chatbot Stable Assistant và API của Stability AI. Nó cũng được cung cấp dưới giấy phép cộng đồng trên Hugging Face.

• Stable Fast 3D được phát triển dựa trên công nghệ TripoSR trước đó của Stability AI. Công ty đã hợp tác với Trip AI từ tháng 3 để xây dựng công nghệ tạo tài sản 3D nhanh chóng.

• Mô hình sử dụng mạng transformer cải tiến để tạo ra các triplane độ phân giải cao từ hình ảnh đầu vào. Điều này cho phép nắm bắt chi tiết tốt hơn và giảm hiện tượng aliasing.

• Các nhà nghiên cứu cũng phát triển phương pháp mới để ước tính vật liệu và ánh sáng, sử dụng mạng dự đoán các giá trị kim loại và độ nhám toàn cục bằng phương pháp xác suất mới.

• Stable Fast 3D có thể kết hợp nhiều yếu tố cần thiết cho hình ảnh 3D như lưới, kết cấu và thuộc tính vật liệu thành một tài sản 3D nhỏ gọn, sẵn sàng sử dụng.

• Stability AI vẫn được biết đến nhiều nhất với công nghệ tạo hình ảnh từ văn bản Stable Diffusion. Công ty đã làm việc với 3D từ ít nhất tháng 11/2023 với việc ra mắt Stable 3D.

• Stable Video 3D ra mắt vào tháng 3 năm nay đã mang lại khả năng quét camera cơ bản để xem hình ảnh cùng với việc nâng cao chất lượng tạo hình ảnh 3D.

• Tuần trước, Stability AI đã công bố Stable Video 4D, thêm chiều thời gian vào việc tạo video 3D ngắn.

📌 Stability AI tiếp tục đột phá với Stable Fast 3D, tạo hình 3D trong 0,5 giây, nhanh hơn 1200 lần so với phiên bản trước. Công nghệ mới hứa hẹn ứng dụng rộng rãi trong thiết kế, kiến trúc, game và VR, đánh dấu bước tiến quan trọng trong lĩnh vực AI tạo sinh.

https://venturebeat.com/ai/stability-ai-speeds-up-3d-image-generation-with-stable-fast-3d/

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh 2024-08-03 00:23:55

Hedra phát hành mô hình nền tảng tập trung vào video Nhân vật-1

• Hedra, nền tảng tạo video AI, vừa huy động được 10 triệu USD vốn hạt giống từ các nhà đầu tư như Index Ventures, Abstract và A16Z Speedrun.

• Công ty được thành lập bởi các cựu nhân viên của Nvidia, Google và Meta.

• Cùng với vòng gọi vốn, Hedra cũng công bố mô hình nền tảng tập trung vào video Character-1 ra khỏi giai đoạn thử nghiệm kín.

• Hedra tuyên bố Character-1 là "mô hình nền tảng video nhanh nhất trên thị trường", giải quyết được các hạn chế về kiểm soát và tốc độ của các mô hình tạo video trước đây.

• Hơn 350.000 người dùng đã sử dụng nền tảng Character-1 và tạo ra hơn 1,6 triệu video. Nhiều video được tạo bằng Character-1 đã trở nên viral trên Reddit và Instagram.

• Hedra cho phép người dùng tạo ra các ngôi sao nhạc pop AI và nội dung được tạo bởi AI. Công ty cũng tập trung vào việc cải thiện các tính năng an toàn và kiểm duyệt nội dung.

• Kế hoạch phát triển của Hedra là làm cho nền tảng trở nên đa phương thức hơn, tích hợp tạo câu chuyện, âm thanh và video vào một quy trình thống nhất.

• Character-1 là mô hình tạo video mới nhất được công bố trong những tháng gần đây, cạnh tranh với các nền tảng khác như Haiper 1.5, RunwayML Gen-3 Alpha, và Luma AI Dream Machine.

• Captions, một nền tảng video khác, đã huy động được 60 triệu USD trong vòng gọi vốn Series C vào tháng 7.

• Các công ty lớn như OpenAI và Google cũng đang tham gia vào lĩnh vực tạo video bằng AI tạo sinh. OpenAI đang phát triển Sora, trong khi Google đã công bố Veo vào tháng 5.

• Hedra hy vọng sẽ đơn giản hóa quá trình tạo nội dung, cho phép tùy chỉnh avatar và nhân vật kỹ thuật số bằng AI.

• Sự ra mắt của Character-1 và vòng gọi vốn thành công của Hedra cho thấy nhu cầu đầu tư vào AI và sự quan tâm đến các sản phẩm tạo nội dung bằng AI tạo sinh vẫn tiếp tục tăng cao.

📌 Hedra huy động 10 triệu USD vốn hạt giống, ra mắt Character-1 - mô hình nền tảng video AI nhanh nhất thị trường. Với hơn 350.000 người dùng tạo 1,6 triệu video, Hedra đặt mục tiêu đơn giản hóa quy trình tạo nội dung đa phương thức bằng AI, cạnh tranh với các đối thủ lớn trong lĩnh vực tạo video AI đang phát triển nhanh chóng.

https://venturebeat.com/ai/hedra-a-new-ai-video-platform-raises-10-million-in-seed-funding/

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh 2024-08-02 23:52:35

Startup AI âm nhạc Suno thừa nhận huấn luyện mô hình trên nhạc có bản quyền, nhưng cho rằng đây là "sử dụng hợp lý"

• Startup AI âm nhạc Suno đã thừa nhận trong một hồ sơ tòa án rằng họ đã huấn luyện mô hình AI của mình bằng các bài hát có bản quyền, nhưng cho rằng việc làm này là hợp pháp theo học thuyết sử dụng hợp lý.

• Hiệp hội Công nghiệp Ghi âm Hoa Kỳ (RIAA) đã đệ đơn kiện Udio và Suno vào ngày 24/6, cáo buộc các công ty này đã huấn luyện mô hình của họ bằng nhạc có bản quyền mà không được phép.

• Trong hồ sơ tòa án, Suno thừa nhận: "Không phải là bí mật gì khi hàng chục triệu bản ghi âm mà mô hình của Suno được huấn luyện có thể bao gồm các bản ghi có quyền thuộc về các Nguyên đơn trong vụ kiện này."

• CEO kiêm đồng sáng lập Suno, Mikey Shulman, đã viết trong một bài đăng blog rằng họ huấn luyện mô hình trên "nhạc chất lượng trung bình và cao mà họ có thể tìm thấy trên internet mở".

• Shulman lập luận rằng việc huấn luyện mô hình AI từ dữ liệu trên "internet mở" không khác gì việc "một đứa trẻ viết bài hát rock của riêng mình sau khi nghe thể loại này".

• RIAA phản bác mạnh mẽ, cho rằng đây là "sự thừa nhận quan trọng về các sự kiện mà họ đã cố gắng che giấu trong nhiều tháng và chỉ thừa nhận khi bị buộc phải làm như vậy bởi một vụ kiện".

• RIAA khẳng định việc vi phạm bản quyền quy mô lớn của Suno không đủ điều kiện là "sử dụng hợp lý" và không có gì công bằng trong việc "đánh cắp công việc cả đời của một nghệ sĩ, trích xuất giá trị cốt lõi của nó, và đóng gói lại để cạnh tranh trực tiếp với bản gốc".

• Vấn đề sử dụng hợp lý trong bối cảnh huấn luyện mô hình AI đang gây tranh cãi, và kết quả của vụ kiện này có thể thiết lập một tiền lệ ảnh hưởng, định hình tương lai không chỉ của hai startup được nêu tên trong đó.

• Vụ kiện vẫn đang ở giai đoạn đầu, nhưng đã thu hút sự chú ý lớn từ ngành công nghiệp âm nhạc và cộng đồng AI.

📌 Startup AI âm nhạc Suno thừa nhận sử dụng hàng chục triệu bản ghi âm có bản quyền để huấn luyện mô hình, nhưng cho rằng đây là "sử dụng hợp lý". RIAA phản đối mạnh mẽ, cáo buộc vi phạm bản quyền quy mô lớn. Kết quả vụ kiện có thể tạo tiền lệ quan trọng cho tương lai AI và bản quyền âm nhạc.

https://techcrunch.com/2024/08/01/ai-music-startup-suno-response-riaa-lawsuit/

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-08-02 07:41:03

aiOla tung mô hình nhận dạng giọng nói siêu nhanh, đánh bại OpenAI Whisper

• Công ty khởi nghiệp AI aiOla của Israel vừa ra mắt mô hình nhận dạng giọng nói nguồn mở mới có tên Whisper-Medusa, nhanh hơn 50% so với Whisper của OpenAI.

• Whisper-Medusa được xây dựng dựa trên Whisper nhưng sử dụng kiến trúc "multi-head attention" mới, cho phép dự đoán nhiều token hơn cùng một lúc.

• Mã nguồn và trọng số của mô hình đã được phát hành trên Hugging Face dưới giấy phép MIT, cho phép sử dụng cho nghiên cứu và thương mại.

• Whisper-Medusa có thể dự đoán 10 token mỗi lần thay vì 1 token như Whisper, giúp tăng 50% tốc độ dự đoán và thời gian chạy.

• Mô hình mới vẫn duy trì độ chính xác tương đương với Whisper gốc.

• aiOla sử dụng phương pháp học yếu (weak supervision) để huấn luyện Whisper-Medusa, đóng băng các thành phần chính của Whisper và sử dụng bản ghi âm do mô hình tạo ra làm nhãn để huấn luyện các module dự đoán token bổ sung.

• Công ty đang phát triển phiên bản 20-head có thể dự đoán 20 token cùng lúc, hứa hẹn tốc độ nhận dạng và phiên âm nhanh hơn nữa mà không mất độ chính xác.

• Cải thiện tốc độ nhận dạng và phiên âm sẽ cho phép xử lý nhanh hơn trong các ứng dụng giọng nói và mở đường cho phản hồi thời gian thực.

• Công nghệ này có thể thúc đẩy năng suất, giảm chi phí vận hành và cung cấp nội dung nhanh chóng hơn cho các cá nhân và doanh nghiệp.

• Whisper hiện là tiêu chuẩn vàng trong nhận dạng giọng nói, với hơn 5 triệu lượt tải xuống mỗi tháng và được sử dụng trong hàng chục nghìn ứng dụng.

• Nhận dạng giọng nói nâng cao vẫn rất quan trọng trong thời đại các mô hình nền tảng, thúc đẩy các chức năng chính trong các lĩnh vực như chăm sóc sức khỏe và fintech.

• Công nghệ này cũng đang hỗ trợ các hệ thống AI đa phương thức có khả năng cao, như OpenAI đã kết hợp Whisper với LLM để xử lý truy vấn bằng giọng nói và cung cấp câu trả lời.

📌 aiOla ra mắt mô hình nhận dạng giọng nói Whisper-Medusa nhanh hơn 50% so với OpenAI Whisper, dự đoán 10 token mỗi lần thay vì 1. Mô hình nguồn mở này duy trì độ chính xác cao và hứa hẹn thúc đẩy ứng dụng giọng nói thời gian thực trong nhiều lĩnh vực.

https://venturebeat.com/ai/aiola-drops-ultra-fast-multi-head-speech-recognition-model-beats-openai-whisper/

Không có file đính kèm.

Nguồn tham khảo

211

AI tips AI ảnh-video-music-âm thanh 2024-08-01 23:23:55

Cách tạo bản sao kỹ thuật số của chính mình chỉ trong 5 phút với Synthesia

• Synthesia vừa công bố tính năng Personal Avatars, cho phép người dùng tạo bản sao kỹ thuật số của chính mình chỉ trong vài phút.

• Để tạo avatar, người dùng cần quay 2 phút video bằng điện thoại hoặc webcam, sau đó tải lên và đồng ý cho Synthesia sử dụng hình ảnh để tạo AI.

• Avatar AI có thể nói hơn 30 ngôn ngữ, bất kể người dùng có biết ngôn ngữ đó hay không. Nó sử dụng giọng nói được nhân bản từ giọng của chủ nhân.

• Công nghệ auto alignment giúp avatar có cử chỉ, ngôn ngữ cơ thể phù hợp với nội dung đang nói.

• Synthesia mã hóa dữ liệu để bảo vệ avatar khỏi bị lạm dụng, chỉ tạo avatar khi có sự đồng ý rõ ràng và xóa dữ liệu khi người dùng yêu cầu.

• Tính năng này có thể ứng dụng trong nhiều lĩnh vực như tạo nội dung, đào tạo, quảng cáo, truyền thông nội bộ doanh nghiệp...

• Personal Avatars hiện có sẵn cho người dùng các gói Starter, Creator và Enterprise của Synthesia.

• Đây là bước tiếp theo sau khi Synthesia ra mắt nền tảng tạo video AI toàn diện Synthesia 2.0 vào tháng trước.

• Mục tiêu của Synthesia là "mở rộng ranh giới của giao tiếp kỹ thuật số" bằng cách tạo ra nội dung cá nhân hóa, chân thực.

• Công nghệ này có thể giúp tạo ra các video đào tạo, hướng dẫn, quảng cáo... một cách nhanh chóng và tiết kiệm chi phí.

• Tuy nhiên, việc sử dụng avatar AI cũng đặt ra những lo ngại về quyền riêng tư và khả năng lạm dụng công nghệ này.

📌 Synthesia giới thiệu tính năng Personal Avatars, cho phép tạo bản sao kỹ thuật số nói được 30 ngôn ngữ chỉ từ 2 phút video. Công nghệ này mở ra khả năng tạo nội dung cá nhân hóa nhanh chóng, tiết kiệm chi phí trong nhiều lĩnh vực, nhưng cũng đặt ra thách thức về bảo mật và đạo đức.

https://www.zdnet.com/article/clone-yourself-with-these-personal-ai-avatars/

Không có file đính kèm.

Nguồn tham khảo

176

AI ảnh-video-music-âm thanh 2024-08-01 07:35:45

Runway ra mắt Gen-3 Alpha Turbo - mô hình AI video nhanh hơn 7 lần và rẻ hơn

• Runway, startup có trụ sở tại New York, vừa công bố phiên bản mới của mô hình AI video Gen-3 Alpha với tên gọi Gen-3 Alpha Turbo.

• Gen-3 Alpha Turbo được cho là nhanh hơn 7 lần so với phiên bản gốc Gen-3 Alpha. CEO Cristóbal Valenzuela tuyên bố có thể tạo video 10 giây chỉ trong 11 giây, gần như theo thời gian thực.

• Runway cũng thông báo sẽ giảm giá đáng kể cho Gen-3 Alpha Turbo trong những ngày tới.

• Hiện tại, Gen-3 Alpha tốn 10 credit cho mỗi giây video được tạo ra. Dự đoán Gen-3 Alpha Turbo có thể được định giá khoảng 5-7 credit/giây.

• Việc ra mắt phiên bản nhanh hơn và rẻ hơn có thể nhằm duy trì vị thế dẫn đầu của Runway trước sự cạnh tranh từ các đối thủ như Pika Labs, Luma AI, Kling và OpenAI (với Sora).

• Runway đang phải đối mặt với các vấn đề pháp lý liên quan đến dữ liệu huấn luyện. Một báo cáo của 404 Media tiết lộ kế hoạch của công ty trong việc thu thập dữ liệu từ các video YouTube, bao gồm cả nội dung có bản quyền.

• Runway hiện đang bị kiện cùng với các công ty AI tạo sinh khác vì cáo buộc vi phạm bản quyền hình ảnh.

• Ed Newton-Rex, người sáng lập tổ chức phi lợi nhuận Fairly Trained, kêu gọi Runway công khai bộ dữ liệu huấn luyện của họ.

• Hầu hết các công ty AI tạo sinh hàng đầu, kể cả những công ty đứng sau các mô hình nguồn mở như Meta's Llama 3.1, đều chưa tiết lộ đầy đủ chi tiết về bộ dữ liệu huấn luyện của họ.

• Các vụ kiện đang diễn ra có thể buộc các nhà cung cấp mô hình AI tạo sinh như Runway phải tiết lộ dữ liệu huấn luyện của họ thông qua quá trình khám phá tại tòa.

📌 Runway giới thiệu Gen-3 Alpha Turbo, mô hình AI video nhanh gấp 7 lần với giá rẻ hơn đáng kể. Tuy nhiên, công ty đang đối mặt với các vấn đề pháp lý về dữ liệu huấn luyện, có thể ảnh hưởng đến tương lai của ngành AI tạo sinh.

https://venturebeat.com/ai/runway-faster-cheaper-gen-3-alpha-turbo/

Không có file đính kèm.

Nguồn tham khảo

200

AI ảnh-video-music-âm thanh 2024-07-30 23:38:29

Meta AI giới thiệu SAM 2 - mô hình AI đầu tiên phân đoạn đối tượng trong ảnh và video

• Meta AI vừa công bố Segment Anything Model 2 (SAM 2), mô hình AI thống nhất đầu tiên có khả năng xác định pixel nào thuộc về đối tượng mục tiêu trong cả ảnh và video.

• SAM 2 có thể phân đoạn bất kỳ đối tượng nào và theo dõi nó nhất quán qua tất cả các khung hình của video theo thời gian thực, mở ra những khả năng mới cho chỉnh sửa video và trải nghiệm thực tế hỗn hợp.

• Phân đoạn - xác định pixel nào trong ảnh thuộc về một đối tượng - giúp ích cho các tác vụ như phân tích hình ảnh khoa học hoặc chỉnh sửa ảnh.

• Mô hình Segment Anything (SAM) ban đầu được phát hành năm ngoái đã truyền cảm hứng cho các công cụ chỉnh sửa hình ảnh mới trong các ứng dụng của Meta, như Backdrop và Cutouts trên Instagram.

• SAM cũng đã thúc đẩy nhiều ứng dụng đa dạng trong khoa học, y học và nhiều ngành công nghiệp khác. Ví dụ, SAM đã được sử dụng trong khoa học biển để phân đoạn hình ảnh sonar và phân tích rạn san hô, phân tích hình ảnh vệ tinh để cứu trợ thiên tai, và trong lĩnh vực y tế, phân đoạn hình ảnh tế bào và hỗ trợ phát hiện ung thư da.

• SAM 2 mở rộng các khả năng này sang video. Các mô hình hiện có chưa đạt được điều này vì phân đoạn trong video phức tạp hơn đáng kể so với trong ảnh.

• Trong video, đối tượng có thể di chuyển nhanh, thay đổi hình dạng và bị che khuất bởi các đối tượng khác hoặc các phần của cảnh. Meta đã giải quyết nhiều thách thức này khi xây dựng SAM 2.

• Meta tin rằng nghiên cứu này có thể mở ra những khả năng mới như chỉnh sửa và tạo video dễ dàng hơn, đồng thời cho phép tạo ra những trải nghiệm mới trong thực tế hỗn hợp.

• SAM 2 có thể được sử dụng để theo dõi đối tượng mục tiêu trong video nhằm hỗ trợ chú thích nhanh hơn cho dữ liệu hình ảnh để huấn luyện các hệ thống thị giác máy tính, bao gồm cả những hệ thống được sử dụng trong xe tự lái.

• Nó cũng có thể cho phép các cách sáng tạo để chọn và tương tác với đối tượng trong thời gian thực hoặc trong video trực tiếp.

• Tuân theo cách tiếp cận khoa học mở của mình, Meta đang chia sẻ nghiên cứu về SAM 2 để những người khác có thể khám phá các khả năng và trường hợp sử dụng mới.

📌 SAM 2 của Meta AI là mô hình phân đoạn đối tượng đầu tiên cho cả ảnh và video theo thời gian thực. Nó mở ra khả năng mới trong chỉnh sửa video, thực tế hỗn hợp và nhiều ứng dụng khác từ khoa học đến y tế. Meta chia sẻ nghiên cứu này theo cách tiếp cận khoa học mở.

https://about.fb.com/news/2024/07/our-new-ai-model-can-segment-video/

Không có file đính kèm.

Nguồn tham khảo

276

AI tools AI ảnh-video-music-âm thanh 2024-07-30 21:45:53

Instagram giới thiệu tính năng mới AI Studio, cho phép người dùng tạo phiên bản AI của chính mình

• Meta vừa công bố ra mắt AI Studio cho người dùng tại Mỹ, cho phép tạo phiên bản AI của chính mình hoặc các nhân vật AI tùy chỉnh.

• Có 2 cách để sử dụng AI Studio: truy cập ai.meta.com/ai-studio hoặc dùng trực tiếp trên ứng dụng Instagram.

• Trên Instagram, người dùng chỉ cần mở tin nhắn, bắt đầu cuộc trò chuyện mới và nhấn vào "Create an AI chat".

• Quá trình tạo nhân vật AI cho phép thiết lập tên, tính cách, giọng điệu, hình đại diện và khẩu hiệu.

• Meta cung cấp tài liệu hướng dẫn 18 trang "AI Studio Handbook" để tối ưu hóa trải nghiệm sử dụng.

• Nhân vật AI không chỉ là avatar, mà còn có kiến thức và tính cách riêng biệt.

• Người dùng có thể cài đặt các chủ đề không muốn AI đề cập hoặc tài khoản không muốn AI tương tác.

• Phản hồi từ nhân vật AI được gắn nhãn rõ ràng để tránh nhầm lẫn với người thật.

• Meta giới thiệu một số nhân vật AI do người nổi tiếng tạo ra như đầu bếp Marc Murphy và nhiếp ảnh gia Angel Barclay.

• Tính năng hiện chỉ khả dụng cho người dùng tại Mỹ. Người dùng ở các khu vực khác, đặc biệt là châu Âu, không thể tạo hoặc xem các nhân vật AI.

• Liên minh châu Âu có bộ quy tắc riêng về AI, khiến các công ty công nghệ như Meta và Apple phải thận trọng khi triển khai các tính năng AI tại đây.

📌 Meta ra mắt AI Studio trên Instagram cho người dùng Mỹ, cho phép tạo nhân vật AI tùy chỉnh. Tính năng này mở ra khả năng tương tác mới trên nền tảng, nhưng hiện chưa khả dụng tại châu Âu do các quy định nghiêm ngặt về AI.

https://sea.mashable.com/tech/33619/instagram-now-lets-you-create-an-ai-version-of-yourself

Không có file đính kèm.

Nguồn tham khảo

274

AI ảnh-video-music-âm thanh AI bản quyền 2024-07-30 07:32:40

Runway Gen-3 Alpha: Biến ảnh tĩnh thành video AI chỉ trong vài giây, đột phá hay tranh cãi?

• Runway, startup có trụ sở tại New York, vừa công bố tính năng mới cho nền tảng video AI Gen-3 Alpha: khả năng tạo video từ ảnh tĩnh.

• Người dùng có thể tải lên ảnh tĩnh và/hoặc nhập lệnh văn bản để tạo video AI dài 5 hoặc 10 giây. Video 10 giây tiêu tốn 40 credit, video 5 giây tiêu tốn 20 credit.

• Tính năng này được đánh giá nhanh (dưới 1 phút để tạo video) và chất lượng cao. Mô hình tự động phát hiện và chặn việc tạo video từ hình ảnh khiêu dâm hoặc nhân vật nổi tiếng như chính trị gia.

• Runway đã đăng tải 10 video ấn tượng được tạo ra từ ảnh tĩnh bằng Gen-3 Alpha trên tài khoản X của họ.

• CEO Cristóbal Valenzuela giới thiệu tính năng mới trên tài khoản X cá nhân với cụm từ đơn giản "it's time".

• Runway đang cạnh tranh với các công ty khác trong lĩnh vực video AI như OpenAI (Sora), Kuaishou Technology (Kling AI), Luma AI (Dream Machine) và Pika.

• Tuy nhiên, Sora của OpenAI vẫn chưa được công bố rộng rãi, trong khi các mô hình khác đã có thể truy cập công khai.

• Công nghệ này đang làm thay đổi toàn bộ lĩnh vực làm phim và sáng tạo video.

• Runway và nhiều công ty AI khác đang phải đối mặt với các vụ kiện tập thể từ các nhà sáng tạo. Họ cáo buộc việc thu thập và đào tạo trên các tài liệu được đăng công khai - bao gồm cả tài liệu có bản quyền - mà không có sự cho phép, ủy quyền, bồi thường hoặc đồng ý rõ ràng là vi phạm luật bản quyền.

• Phán quyết của tòa án về vấn đề này sẽ ảnh hưởng lớn đến hiện tại và tương lai của các công cụ sáng tạo và video AI.

📌 Runway Gen-3 Alpha cho phép tạo video AI từ ảnh tĩnh trong vòng chưa đầy 1 phút với chất lượng cao. Tuy nhiên, công nghệ này đang đối mặt với tranh cãi về bản quyền, có thể ảnh hưởng đến tương lai của ngành công nghiệp video AI đang phát triển nhanh chóng.

https://venturebeat.com/ai/you-can-now-turn-still-images-into-ai-videos-with-runway-gen-3-alpha/

Không có file đính kèm.

Nguồn tham khảo

230

AI ảnh-video-music-âm thanh 2024-07-28 07:18:03

Zhipu AI ra mắt mô hình video Ying, cạnh tranh với OpenAI Sora

• Ngày 27/7/2024, startup AI Trung Quốc Zhipu đã ra mắt mô hình tạo video Ying, cho thấy các công ty công nghệ nước này đang bắt kịp trong lĩnh vực video AI.

• Ying chấp nhận cả lời nhắc bằng văn bản và hình ảnh để tạo ra các video clip 6 giây trong khoảng 30 giây. Người dùng có thể tinh chỉnh kết quả với các tùy chọn phong cách như hoạt hình 3D, phim ảnh hoặc tranh sơn dầu, cũng như các chủ đề cảm xúc như căng thẳng, sôi động và cô đơn.

• Dịch vụ này có thể truy cập thông qua trang web chính thức và ứng dụng di động của chatbot ChatGLM của Zhipu AI, và đã được cung cấp ngay lập tức cho tất cả người dùng sử dụng không giới hạn.

• Việc ra mắt Ying diễn ra chỉ 2 ngày sau động thái tương tự của Kuaishou - đối thủ video ngắn của Douyin (TikTok Trung Quốc). Kuaishou đã mở rộng thử nghiệm mô hình video Kling, cho phép mỗi khách hàng tạo 6 video mỗi ngày.

• Kling cung cấp các gói trả phí hàng năm cho phép tạo tối đa 60 và 800 video hàng tháng với chi phí lần lượt là 396 nhân dân tệ (54,63 USD) và 3.996 nhân dân tệ.

• OpenAI, công ty tiên phong trong lĩnh vực tạo video AI với Sora, vẫn chưa cung cấp mô hình này cho công chúng sử dụng. Họ muốn đảm bảo mô hình không thể được sử dụng để tạo và lan truyền thông tin sai lệch.

• Công nghệ đằng sau Ying là mô hình text-to-video tự phát triển có tên CogVideoX, tương tự kiến trúc diffusion transformer (DiT) được sử dụng bởi Sora của OpenAI, với tốc độ suy luận được cải thiện dẫn đến tạo video nhanh hơn.

• CEO Zhipu Zhang Peng cho biết công ty đã có một số cảm hứng từ thiết kế thuật toán của Sora. Zhipu đang phát triển phiên bản mới của mô hình video có khả năng tạo ra các video dài hơn với độ phân giải cao hơn.

• Mặc dù OpenAI chưa cung cấp Sora cho công chúng sử dụng rộng rãi, nhưng công ty đã công bố chi tiết kỹ thuật về cách thức hoạt động của nó.

📌 Các công ty công nghệ Trung Quốc như Zhipu và Kuaishou đang nhanh chóng bắt kịp OpenAI trong lĩnh vực tạo video AI. Zhipu ra mắt Ying có thể tạo video 6 giây trong 30 giây, trong khi Kuaishou cung cấp Kling với gói trả phí từ 396 đến 3.996 nhân dân tệ/năm. OpenAI vẫn thận trọng về việc phát hành Sora rộng rãi.

https://www.scmp.com/tech/tech-trends/article/3272135/zhipu-ai-launches-video-model-sign-more-chinese-tech-firms-are-taking-openais-sora

Không có file đính kèm.

Nguồn tham khảo

126

OpenAI ChatGPT AI ảnh-video-music-âm thanh 2024-07-27 08:00:02

Cập nhật Voice Mode của ChatGPT: 3 tính năng mới sắp ra mắt tuần tới cho người dùng trả phí

• OpenAI sẽ ra mắt bản cập nhật alpha cho tính năng Voice Mode của ChatGPT vào tuần tới dành cho người dùng ChatGPT Plus.

• Bản cập nhật này ban đầu dự kiến ra mắt vào tháng 6 nhưng đã bị trì hoãn 1 tháng. Chưa rõ liệu tất cả người dùng Plus sẽ nhận được tính năng cùng lúc hay sẽ được triển khai dần dần.

• Voice Mode mới sẽ cho phép người dùng có các cuộc hội thoại bằng giọng nói thực tế với ChatGPT nhờ thời gian phản hồi được rút ngắn.

• 3 tính năng mới chính của bản cập nhật Voice Mode:
1. Dịch trực tiếp giữa các ngôn ngữ
2. Tạo hiệu ứng âm thanh khi kể chuyện
3. Tùy chỉnh giọng nói cho các nhân vật

• Đây là một tuần quan trọng đối với ChatGPT, khi mới đây họ cũng đã công bố sắp ra mắt công cụ tìm kiếm SearchGPT.

• Sam Altman, CEO của OpenAI, là người thông báo về bản cập nhật Voice Mode sắp tới.

• Bản cập nhật nhằm mang lại thêm giá trị cho người dùng trả phí của ChatGPT.

• Chưa rõ liệu tất cả người dùng Plus sẽ nhận được tính năng cùng lúc hay sẽ được triển khai dần dần.

• Với các tính năng mới về hội thoại bằng giọng nói và tìm kiếm văn bản, ChatGPT đang ngày càng được sử dụng rộng rãi hơn trong năm 2024.

📌 ChatGPT sẽ ra mắt Voice Mode mới cho người dùng Plus vào tuần tới với 3 tính năng: dịch trực tiếp, hiệu ứng âm thanh và giọng nói nhân vật. Đây là bước tiến quan trọng của OpenAI trong việc nâng cao trải nghiệm tương tác bằng giọng nói với AI.

https://sea.mashable.com/tech/33581/chatgpts-voice-mode-update-is-coming-next-week-3-new-features-subscribers-will-get

Không có file đính kèm.

Nguồn tham khảo

170

AI ảnh-video-music-âm thanh 2024-07-25 22:50:50

Kling AI video giờ đã có sẵn cho mọi người sử dụng miễn phí, tạo video AI chất lượng cao với độ dài lên đến 2 phút

• Kling AI, phát triển bởi Kuaishou Technology, vừa ra mắt phiên bản quốc tế cho phép người dùng toàn cầu tạo video AI miễn phí.

• Mô hình Kling có thể tạo video dài tới 2 phút với độ phân giải HD, sử dụng công nghệ tái tạo 3D tiên tiến để tạo chuyển động tự nhiên hơn cho người và động vật.

• Phiên bản quốc tế cho phép đăng ký bằng email, không cần số điện thoại Trung Quốc như trước đây. Mỗi lần tạo video tiêu tốn 10 credit, người dùng được cấp 66 credit miễn phí mỗi ngày.

• So với Sora của OpenAI chỉ cho phép một số nhà sáng tạo được chọn truy cập, Kling có thể trở thành công cụ AI video hàng đầu hiện nay.

• Kling sử dụng phương pháp tiếp cận khác với AI, tận dụng 3D tạo sinh trong quá trình tạo và cung cấp khả năng thay đổi cảnh, độ dài clip và độ phân giải video tương đương Sora.

• Khả năng tạo clip dài tới 2 phút là đáng kể, trong khi Sora giới hạn ở khoảng 1 phút mỗi lần tạo và mất 15 phút trở lên.

• Tuy nhiên, phiên bản toàn cầu hiện chỉ cho phép tạo clip ban đầu 5 giây và mất nhiều thời gian cho mỗi clip. Sora vẫn có cơ hội nếu ra mắt trong những tháng tới.

• Để truy cập Kling, người dùng có thể đăng nhập bằng email tại KlingAI.com và bắt đầu tạo video. Giao diện dễ sử dụng, cho phép nhập prompt dài tới 2.000 ký tự.

• Tốc độ tạo video hiện còn chậm, có thể do lượng người dùng đông đảo truy cập thử nghiệm.

• Sự ra mắt toàn cầu của Kling là điều tốt cho thị trường video AI, thúc đẩy cạnh tranh và phát triển nhanh hơn.

• Cuối cùng, các công cụ AI video sẽ đạt đến mức chất lượng tương tự khi họ đều hướng tới tạo ra nền tảng AI "thế giới mở" với mô hình có hiểu biết về thế giới thực.

• Sự khác biệt sẽ nằm ở các dịch vụ bổ sung, tốc độ tạo và quan trọng nhất là giá cả.

📌 Kling AI video đã có sẵn toàn cầu, cho phép tạo video AI 2 phút miễn phí. Với 66 credit/ngày, người dùng có thể tạo 6 video 5 giây. Mặc dù còn chậm, Kling có tiềm năng cạnh tranh với Sora của OpenAI trong tương lai gần.

https://www.tomsguide.com/ai/ai-image-video/sora-beating-kling-ai-video-is-now-available-outside-china-heres-how-to-get-access

Không có file đính kèm.

Nguồn tham khảo

231

AI ảnh-video-music-âm thanh 2024-07-24 20:24:46

Adobe ra mắt công cụ AI Firefly mới cho Illustrator và Photoshop

• Adobe vừa phát hành các công cụ AI Firefly mới cho Photoshop và Illustrator vào ngày 23/7/2024, cho phép các nhà thiết kế đồ họa tạo ra hình ảnh và hiệu ứng chỉ bằng cách mô tả ngắn gọn.

• Công cụ mới "Generative Shape Fill" trong Illustrator (đang ở giai đoạn beta) cho phép người dùng thêm chi tiết và kết cấu vào hình dạng thông qua lời nhắc văn bản hoặc chọn tham chiếu phong cách. Tính năng này được hỗ trợ bởi phiên bản beta cập nhật của mô hình Firefly Vector của Adobe.

• Photoshop giờ đây cung cấp rộng rãi trình tạo hình ảnh từ văn bản của Firefly, cho phép người dùng tạo hình ảnh AI trong ứng dụng bằng cách nhấn "Generate Image" và mô tả những gì họ muốn.

• Adobe đang cố gắng cân bằng giữa việc áp dụng AI và nhu cầu của người dùng truyền thống. Công ty đã đào tạo Firefly trên tác phẩm của nhiều người sáng tạo và thậm chí trả tiền thưởng hàng năm cho các nhiếp ảnh gia và họa sĩ minh họa của Adobe Stock.

• Để giải quyết lo ngại của người dùng, Adobe cung cấp cho khách hàng Creative Cloud một số lượng tín dụng tạo sinh hạn chế mỗi tháng mà không tính thêm chi phí.

• Kể từ khi ra mắt vào tháng 3/2023, Adobe cho biết Firefly đã tạo ra hơn 9 tỷ hình ảnh.

• Illustrator cũng nhận được một loạt tính năng mới không sử dụng AI tạo sinh:
- Công cụ Dimension cho phép tính toán chiều dài và góc của hình ảnh
- Công cụ Mockup (beta) cho phép đặt logo lên bất kỳ sản phẩm nào chỉ bằng cách tải lên hình ảnh
- Retype có thể nhận dạng phông chữ, khớp chúng và cho phép sử dụng ở nơi khác

• Photoshop cũng phát hành rộng rãi công cụ Selection Brush và Adjustment Brush mới, nhằm hợp lý hóa các tác vụ lặp đi lặp lại.

• Mặc dù không tính phí đăng ký cao cấp cho AI tạo sinh như một số đối thủ cạnh tranh, Adobe vẫn thấy lợi nhuận khi khách hàng chuyển sang các gói đắt tiền hơn để có thêm tín dụng tạo sinh cho Firefly.

📌 Adobe tung ra công cụ AI Firefly mới cho Illustrator và Photoshop, cho phép tạo hình ảnh bằng văn bản. Từ khi ra mắt 3/2023, Firefly đã tạo 9 tỷ hình ảnh. Adobe cung cấp tín dụng tạo sinh miễn phí hàng tháng cho người dùng Creative Cloud, cân bằng giữa đổi mới AI và nhu cầu người dùng truyền thống.

https://techcrunch.com/2024/07/23/adobe-releases-new-firefly-ai-tools-for-illustrator-and-photoshop/

Không có file đính kèm.

Nguồn tham khảo

162

AI ảnh-video-music-âm thanh AI so sánh 2024-07-23 23:11:18

Auraflow - mô hình AI tạo ảnh nguồn mở mới cạnh tranh với Stable Diffusion 3

• Fal AI vừa phát hành Auraflow - mô hình AI tạo ảnh nguồn mở mới với giấy phép Apache 2.0, cạnh tranh với Stable Diffusion 3 (SD3) của Stability AI.

• Auraflow được đào tạo trong hơn 4 tuần với nhiều kích thước, độ phân giải và tỷ lệ khung hình khác nhau. Nó đạt điểm GenEval 0,64 và 0,703 khi sử dụng pipeline tăng cường prompt.

• Mô hình hiện đang ở phiên bản beta 0.1, yêu cầu GPU có khoảng 12GB VRAM để chạy phiên bản fp16. Fal AI cho biết đang phát triển phiên bản nhỏ gọn hơn.

• So sánh Auraflow và SD3 qua nhiều phong cách và chủ đề:
- Phong cách nghệ thuật: Hòa, Auraflow tốt hơn về phong cách ấn tượng, SD3 chi tiết hơn.
- Hiện thực: SD3 thắng với hình ảnh chi tiết và siêu thực hơn.
- Minh họa: SD3 thắng với hình ảnh đáng sợ và chi tiết hơn.
- Tuân thủ prompt: Auraflow thắng, nắm bắt tốt hơn các yếu tố trong prompt.
- Nhận thức không gian: Hòa, cả hai đều thể hiện tốt.
- Anime/manga: SD3 thắng với phong cách truyện tranh sống động hơn.

• Auraflow nổi trội với phong cách ấn tượng, kỳ ảo. SD3 mạnh hơn về chi tiết, siêu thực và năng động.

• Giấy phép nguồn mở của Auraflow cho phép sử dụng, sao chép và phân phối tự do, thuận lợi hơn cho việc tinh chỉnh so với SD3.

📌 Auraflow là đối thủ mới đáng gờm của SD3 trong lĩnh vực AI tạo ảnh nguồn mở. Mặc dù SD3 vẫn nhỉnh hơn về chất lượng hình ảnh, giấy phép Apache 2.0 của Auraflow mang lại lợi thế chiến lược, hứa hẹn tiềm năng phát triển mạnh mẽ trong tương lai.

https://decrypt.co/240883/auraflow-comparison-sd3-fal-ai-new-model

Không có file đính kèm.

Nguồn tham khảo

205

AI ảnh-video-music-âm thanh AI smartphone 2024-07-18 23:21:15

Microsoft ra mắt phiên bản ứng dụng di động miễn phí của Designer, công cụ tạo ảnh AI

• Microsoft vừa công bố phiên bản ứng dụng di động miễn phí của Designer, công cụ tạo ảnh bằng AI tạo sinh, cho cả iOS và Android.

• Designer trước đây chỉ có trên web hoặc Microsoft Edge, giờ đã mở rộng sang nhiều nền tảng hơn. Microsoft Photos trên Windows Insiders đã được tích hợp Designer với nút "Edit with Designer".

• Các tính năng mới trong Designer bao gồm xóa đối tượng tạo sinh (tương tự Magic Erase của Google), làm nổi bật màu sắc, cắt ảnh tự động, thêm chữ và đánh dấu.

• Microsoft dự định đưa Designer vào nhiều ứng dụng khác như Edge, Word và PowerPoint, cho phép tạo ảnh ngay trong quá trình làm việc.

• Ứng dụng cung cấp các mẫu gợi ý để tạo ảnh, tương tự như tính năng tạo hình nền AI trên điện thoại Pixel. Người dùng có thể chia sẻ mẫu và tạo sticker tùy chỉnh.

• Designer cho phép tạo emoji, clip art, hình nền, chữ lồng, avatar và nhiều thứ khác chỉ bằng mô tả đơn giản.

• Ngoài tính năng tạo ảnh AI, ứng dụng còn có các công cụ chỉnh sửa ảnh cơ bản như xóa hoặc làm mờ nền. Tính năng thay đổi nền sẽ sớm ra mắt.

• Người dùng được cấp 15 lượt tăng tốc miễn phí mỗi ngày để tạo hoặc chỉnh sửa ảnh nhanh hơn. Có thể nâng cấp lên gói Copilot Pro để nhận 100 lượt/ngày.

• Các tính năng của Designer áp dụng cho tài khoản trên mọi phiên bản: ứng dụng, web hoặc tích hợp trong các ứng dụng Microsoft khác.

📌 Microsoft mở rộng Designer sang ứng dụng di động miễn phí, tích hợp vào nhiều sản phẩm như Photos, Edge, Word. Người dùng có 15 lượt tăng tốc/ngày, có thể tạo ảnh AI, emoji, sticker chỉ bằng mô tả đơn giản.

https://www.zdnet.com/article/microsoft-launches-free-mobile-app-versions-of-designer-its-ai-photo-creator/

Không có file đính kèm.

Nguồn tham khảo

169

AI ảnh-video-music-âm thanh 2024-07-17 02:43:13

Haiper 1.5: Mô hình AI tạo video mới thách thức Sora và Runway

• Haiper, startup AI tạo video có trụ sở tại London, vừa ra mắt mô hình nền tảng hình ảnh mới Haiper 1.5.

• Haiper được thành lập bởi hai cựu nhà nghiên cứu của Google Deepmind là Yishu Miao và Ziyu Wang.

• Mô hình mới cho phép người dùng tạo video dài 8 giây từ văn bản, hình ảnh và video gợi ý - gấp đôi độ dài so với mô hình ban đầu.

• Haiper cũng giới thiệu tính năng nâng cao chất lượng (upscaler) giúp người dùng cải thiện chất lượng nội dung.

• Công ty có kế hoạch mở rộng sang lĩnh vực tạo hình ảnh từ văn bản.

• Haiper ra mắt cách đây 4 tháng và đã thu hút hơn 1,5 triệu người dùng trên nền tảng của mình.

• Ban đầu, Haiper chỉ tạo được video 2-4 giây. Mô hình mới giải quyết vấn đề này bằng cách tăng gấp đôi độ dài lên 8 giây.

• Người dùng có thể tạo video với chất lượng SD hoặc HD ở bất kỳ độ dài nào.

• Công cụ nâng cao chất lượng tích hợp cho phép nâng cấp tất cả video lên 1080p chỉ với một cú nhấp chuột.

• Mô hình hình ảnh mới sẽ cho phép tạo hình ảnh từ văn bản, sau đó có thể chuyển thành video.

• Haiper đang phát triển mô hình nền tảng nhận thức nhằm tạo ra AGI có thể tái tạo các yếu tố cảm xúc và vật lý của thực tế.

• Mô hình mới và các cập nhật của Haiper có vẻ hứa hẹn nhưng vẫn cần được cộng đồng rộng rãi kiểm chứng.

• Hiện tại, việc tạo video 8 giây và công cụ nâng cao chất lượng chỉ dành cho người dùng trả phí gói Pro (24 USD/tháng).

• Chất lượng video 2 giây nhất quán hơn so với video dài hơn, vẫn còn một số hạn chế về chi tiết đối tượng và chuyển động.

• Haiper đang cạnh tranh với các đối thủ như Runway, Pika và OpenAI trong lĩnh vực AI tạo video.

📌 Haiper 1.5 nâng cấp khả năng tạo video AI lên 8 giây, chất lượng HD và tích hợp tạo hình ảnh. Với 1,5 triệu người dùng sau 4 tháng ra mắt, Haiper đang nỗ lực cạnh tranh với các "ông lớn" như Runway và OpenAI trong lĩnh vực AI tạo video.

https://venturebeat.com/ai/exclusive-meet-haiper-1-5-the-new-ai-video-generation-model-challenging-sora-runway/

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh 2024-07-16 07:48:52

Google ra mắt công cụ tạo video bằng AI mang tên Google Vids, tích hợp sâu với bộ ứng dụng Workspace

• Google vừa ra mắt phiên bản beta của công cụ tạo video bằng AI tạo sinh có tên Google Vids cho một số người dùng được chọn trong bộ ứng dụng Workspace dành cho doanh nghiệp.

• Google Vids sử dụng công nghệ AI Gemini và Vertex AI của Google để tạo ra các bài thuyết trình có thể tùy chỉnh dựa trên yêu cầu của người dùng, bao gồm văn bản, âm thanh và video.

• Công cụ này sẽ được cung cấp đầu tiên cho "một nhóm người thử nghiệm đáng tin cậy được chọn" trong Google Workspace Labs.

• Google Vids sử dụng AI tạo sinh để tạo ra các bài thuyết trình có thể chỉnh sửa, bao gồm video, hình ảnh, giọng nói và nhạc nền miễn phí bản quyền.

• Người dùng có thể cộng tác trên một dự án chung, tương tự như các sản phẩm khác trong Google Workspace.

• Để mở rộng tính năng âm thanh, Google Vids cho phép người dùng chọn từ nhiều giọng nói khác nhau, từ năng động, thân thiện đến bình tĩnh, với các phương ngữ khác nhau như tiếng Anh Mỹ, Anh và Úc.

• Google lần đầu công bố công cụ thuyết trình video này vào tháng 4 cùng với các bổ sung khác cho AI Gemini của mình.

• Vào tháng 5, Google đã giới thiệu hàng loạt tính năng được hỗ trợ bởi AI cho bộ công cụ Workspace. Mặc dù phần lớn các tính năng mới này hướng đến người tiêu dùng, Google Vids hiện chỉ có sẵn cho tài khoản doanh nghiệp và doanh nghiệp lớn.

• Tháng trước, Google đã phát hành Gemini 1.5 Pro, phiên bản nâng cao của mô hình AI chủ lực, cho các nhà phát triển. Cùng với Gemini 1.5 Pro, Google cũng giới thiệu mô hình ngôn ngữ lớn nguồn mở Gemma 2, cung cấp phản hồi nhanh hơn và linh hoạt hơn.

• Một công ty khác cũng đang sử dụng AI tạo sinh để giúp doanh nghiệp và người sáng tạo nội dung tạo ra hình ảnh ấn tượng là Canva, đã ra mắt Magic Studio được hỗ trợ bởi AI vào tháng 10 năm ngoái.

📌 Google Vids, công cụ tạo video AI mới của Google, đang được thử nghiệm với người dùng Workspace được chọn. Nó sử dụng Gemini AI và Vertex AI để tạo bài thuyết trình tùy chỉnh với hình ảnh, video và giọng nói miễn phí bản quyền, mở ra tiềm năng mới cho việc tạo nội dung trong doanh nghiệp.

https://decrypt.co/239901/google-launches-ai-video-tool-for-businesses

Không có file đính kèm.

Nguồn tham khảo

183

AI ảnh-video-music-âm thanh 2024-07-13 18:54:48

Google DeepMind giới thiệu PaliGemma - mô hình ngôn ngữ-thị giác đa năng 3B

• Google DeepMind vừa công bố PaliGemma, một mô hình ngôn ngữ-thị giác (VLM) mở kết hợp điểm mạnh của dòng mô hình PaLI với gia đình mô hình ngôn ngữ Gemma.

• PaliGemma tích hợp mô hình thị giác SigLIP 400M với mô hình ngôn ngữ Gemma 2B, tạo thành một VLM dưới 3B tham số nhưng có hiệu suất ngang ngửa các mô hình tiền nhiệm lớn hơn nhiều như PaLI-X, PaLM-E và PaLI-3.

• Kiến trúc của PaliGemma gồm 3 thành phần chính: bộ mã hóa hình ảnh SigLIP ViTSo400m, mô hình ngôn ngữ chỉ giải mã Gemma-2B v1.0 và một lớp chiếu tuyến tính.

• Mô hình có thể xử lý nhiều tác vụ khác nhau như phân loại hình ảnh, tạo chú thích và trả lời câu hỏi về hình ảnh thông qua API linh hoạt "hình ảnh+văn bản vào, văn bản ra".

• Quá trình đào tạo PaliGemma trải qua nhiều giai đoạn, bắt đầu từ tiền đào tạo đơn phương thức, sau đó là đào tạo đa phương thức trên nhiều tác vụ đa dạng, tăng độ phân giải và cuối cùng là chuyển giao cho các tác vụ cụ thể.

• PaliGemma đạt hiệu suất ấn tượng trong nhiều tác vụ ngôn ngữ-thị giác. Mô hình xuất sắc trong tạo chú thích hình ảnh, đạt điểm cao trên các bộ dữ liệu chuẩn như COCO-Captions và TextCaps.

• Trong trả lời câu hỏi về hình ảnh, PaliGemma thể hiện hiệu suất mạnh mẽ trên nhiều bộ dữ liệu như VQAv2, GQA và ScienceQA. Mô hình cũng hoạt động tốt trên các tác vụ chuyên biệt như hiểu biểu đồ (ChartQA) và các tác vụ liên quan đến OCR (TextVQA, DocVQA).

• PaliGemma cho thấy cải thiện đáng kể khi tăng độ phân giải hình ảnh từ 224px lên 448px và 896px, đặc biệt là đối với các tác vụ liên quan đến chi tiết tinh vi hoặc nhận dạng văn bản.

• Nghiên cứu cũng giới thiệu CountBenchQA, một bộ dữ liệu mới khắc phục hạn chế của TallyQA trong đánh giá khả năng đếm của các VLM.

• PaliGemma thể hiện khả năng tổng quát hóa zero-shot bất ngờ đối với các hình ảnh 3D từ Objaverse mà không cần đào tạo cụ thể.

• Mô hình đạt hiệu suất tốt nhất trên MMVP, vượt trội đáng kể so với các mô hình lớn hơn như GPT4-V và Gemini.

📌 PaliGemma là VLM mở 3B của Google DeepMind, kết hợp SigLIP và Gemma, đạt hiệu suất vượt trội trong nhiều tác vụ đa phương thức. Mô hình nhỏ gọn này thách thức quan niệm mô hình lớn hơn luôn tốt hơn, mở ra hướng đi mới cho các hệ thống AI hiệu quả và đa năng hơn trong lĩnh vực hiểu biết ngôn ngữ-thị giác.

https://www.marktechpost.com/2024/07/12/google-deepmind-unveils-paligemma-a-versatile-3b-vision-language-model-vlm-with-large-scale-ambitions/

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh 2024-07-13 18:32:40

AI thị giác có thể không thực sự "nhìn thấy" như chúng ta tưởng

• Các mô hình ngôn ngữ mới nhất như GPT-4 và Gemini 1.5 Pro được quảng cáo là "đa phương thức", có khả năng hiểu hình ảnh và âm thanh cũng như văn bản. Tuy nhiên, một nghiên cứu mới cho thấy chúng có thể không thực sự "nhìn thấy" như chúng ta nghĩ.

• Nghiên cứu được thực hiện bởi các nhà khoa học từ Đại học Auburn và Đại học Alberta, kiểm tra các mô hình AI đa phương thức lớn nhất trên một loạt các tác vụ thị giác đơn giản.

• Các tác vụ bao gồm xác định xem hai hình có chồng lên nhau không, đếm số hình ngũ giác trong một hình ảnh, hoặc xác định chữ cái nào trong một từ được khoanh tròn.

• Kết quả cho thấy các mô hình AI gặp khó khăn đáng kể với những tác vụ mà ngay cả học sinh lớp 1 cũng có thể thực hiện chính xác 100%.

• Trong bài kiểm tra hình tròn chồng lên nhau, GPT-4 chỉ đạt độ chính xác 18% khi các hình tròn gần nhau hoặc chạm nhau. Gemini Pro 1.5 thực hiện tốt nhất nhưng vẫn chỉ đạt 7/10 ở khoảng cách gần.

• Khi đếm số vòng tròn đan xen, các mô hình đạt 100% chính xác với 5 vòng, nhưng thêm 1 vòng làm kết quả giảm mạnh. Gemini không thể đưa ra câu trả lời đúng, Sonnet-3.5 chỉ đúng 1/3 số lần, GPT-4 đúng dưới 50% số lần.

• Các nhà nghiên cứu cho rằng điều này cho thấy các mô hình không thực sự "nhìn thấy" theo cách chúng ta hiểu. Thay vào đó, chúng có thể đang so khớp mẫu trong dữ liệu đầu vào với mẫu trong dữ liệu huấn luyện.

• Một lý do có thể là các mô hình nhận dạng tốt hình ảnh 5 vòng tròn vì nó giống logo Olympic - một hình ảnh phổ biến trong dữ liệu huấn luyện. Nhưng chúng gặp khó khăn với 6 hoặc 7 vòng vì những hình ảnh này hiếm gặp hơn.

• Các nhà nghiên cứu cho rằng thông tin thị giác mà các mô hình trích xuất từ hình ảnh có thể chỉ là gần đúng và trừu tượng, như "có một vòng tròn ở bên trái". Chúng không có khả năng đưa ra phán đoán thị giác thực sự.

• Điều này không có nghĩa là các mô hình AI "thị giác" là vô dụng. Chúng vẫn có thể chính xác cao trong việc nhận dạng hành động và biểu cảm của con người, đồ vật và tình huống hàng ngày - những thứ chúng được thiết kế để diễn giải.

• Tuy nhiên, nghiên cứu này cho thấy cần thận trọng khi đánh giá khả năng "nhìn thấy" thực sự của các mô hình AI, bất kể chúng có thể chính xác đến đâu trong một số tác vụ cụ thể.

📌 Nghiên cứu mới cho thấy các mô hình AI "thị giác" gặp khó khăn với các tác vụ thị giác đơn giản nhất. Chúng có thể không thực sự "nhìn thấy" như con người, mà chỉ so khớp mẫu dữ liệu. Điều này đặt ra câu hỏi về bản chất của "thị giác" trong AI và cách chúng ta đánh giá khả năng này.

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/

Không có file đính kèm.

Nguồn tham khảo

137

AI ảnh-video-music-âm thanh 2024-07-13 08:09:36

Phenomenal AI ra mắt nền tảng AI chuyển văn bản thành video đầu tiên của Ấn Độ

• Phenomenal AI, một công ty khởi nghiệp AI của Ấn Độ, đã ra mắt nền tảng chuyển văn bản thành video đầu tiên của nước này, đánh dấu một bước tiến quan trọng trong lĩnh vực sáng tạo nội dung bằng AI.

• Nền tảng này cho phép người dùng tạo ra các video chất lượng cao chỉ bằng cách nhập văn bản, sử dụng công nghệ AI tạo sinh tiên tiến.

• Phenomenal AI được thành lập bởi Devvrat Arya và Apoorv Shankar, hai doanh nhân có kinh nghiệm trong lĩnh vực công nghệ và khởi nghiệp.

• Công ty đã huy động được 1,5 triệu USD trong vòng gọi vốn hạt giống từ các nhà đầu tư như Inflection Point Ventures, Unacademy và Blume Founders Fund.

• Nền tảng này hứa hẹn sẽ cách mạng hóa ngành công nghiệp sáng tạo nội dung và quảng cáo bằng cách giảm đáng kể thời gian và chi phí sản xuất video.

• Phenomenal AI sử dụng các mô hình AI tiên tiến để tạo ra video chất lượng cao, bao gồm cả hình ảnh, âm thanh và chuyển động từ đầu vào văn bản.

• Nền tảng này có thể tạo ra nhiều loại video khác nhau, từ quảng cáo ngắn đến video giáo dục dài hơn, phù hợp với nhiều ngành công nghiệp và ứng dụng.

• Công ty đang nhắm đến thị trường toàn cầu, với kế hoạch mở rộng ra ngoài Ấn Độ trong tương lai gần.

• Phenomenal AI đang tập trung vào việc cải thiện chất lượng video và mở rộng khả năng của nền tảng, bao gồm cả việc tích hợp các tính năng như tùy chỉnh phong cách và tạo nhân vật ảo.

• Sự ra mắt của Phenomenal AI đánh dấu một bước tiến quan trọng trong việc phát triển công nghệ AI tại Ấn Độ, thể hiện tiềm năng của quốc gia này trong lĩnh vực AI tạo sinh.

• Nền tảng này có thể tạo ra tác động đáng kể đến ngành công nghiệp sáng tạo nội dung, cho phép các doanh nghiệp và cá nhân tạo ra nội dung video chất lượng cao với chi phí và thời gian thấp hơn.

• Phenomenal AI đang đối mặt với sự cạnh tranh từ các nền tảng AI tạo sinh khác trên toàn cầu, nhưng vị trí của họ là nền tảng đầu tiên tại Ấn Độ có thể mang lại lợi thế cạnh tranh đáng kể.

• Công ty đang tích cực tìm kiếm các đối tác và khách hàng tiềm năng trong nhiều ngành công nghiệp, từ quảng cáo đến giáo dục và truyền thông.

📌 Phenomenal AI ra mắt nền tảng chuyển văn bản thành video AI đầu tiên tại Ấn Độ, huy động 1,5 triệu USD vốn hạt giống. Công nghệ này hứa hẹn cách mạng hóa ngành sáng tạo nội dung, giảm thời gian và chi phí sản xuất video, mở ra cơ hội mới cho nhiều ngành công nghiệp.

Citations:
[1] https://analyticsindiamag.com/phenomenal-ai-launches-indias-first-text-to-video-ai-platform/

Không có file đính kèm.

Nguồn tham khảo

121

AI ảnh-video-music-âm thanh 2024-07-12 07:04:10

Microsoft phát triển công nghệ AI tổng hợp giọng nói siêu thực, nhưng quyết định không công bố vì quá nguy hiểm

• Microsoft vừa phát triển một công cụ AI tổng hợp giọng nói mới có tên VALL-E 2, được mô tả là "quá thực" đến mức công ty quyết định không công bố rộng rãi.

• Theo bài báo nghiên cứu, VALL-E 2 được cho là hệ thống text-to-speech đầu tiên đạt được "ngang bằng con người" (human parity).

• Công cụ này có khả năng tạo ra giọng nói con người chân thực và đáng tin cậy trực tiếp từ văn bản đầu vào.

• Microsoft khẳng định họ không có kế hoạch tích hợp VALL-E 2 vào bất kỳ sản phẩm nào hoặc mở rộng quyền truy cập cho công chúng.

• Trang web của Microsoft nêu rõ đây chỉ là "để trình diễn nghiên cứu" và hiện tại không có kế hoạch phát hành rộng rãi.

• Không có mẫu âm thanh nào được công bố, nên công chúng không thể đánh giá chất lượng thực tế của VALL-E 2.

• Bài đăng trên blog của Microsoft cung cấp nhiều biểu đồ và thuật ngữ kỹ thuật để minh họa cho công nghệ này.

• Các nhà nghiên cứu cho rằng nếu VALL-E 2 thực sự tốt như họ mô tả, có lẽ việc không công bố rộng rãi là quyết định đúng đắn.

• Đây không phải lần đầu tiên Microsoft phát triển công nghệ AI gây tranh cãi. Trước đó, họ đã phải đóng cửa chatbot Tay vì phát ngôn gây sốc.

• Quyết định không công bố VALL-E 2 cho thấy Microsoft đang thận trọng hơn trong việc phát triển và triển khai các công nghệ AI tiên tiến.

• Việc giữ bí mật về VALL-E 2 cũng đặt ra câu hỏi về tính minh bạch trong nghiên cứu AI và trách nhiệm của các công ty công nghệ lớn.

📌 Microsoft phát triển AI tổng hợp giọng nói VALL-E 2 đạt "ngang bằng con người" nhưng quyết định không công bố vì quá nguy hiểm. Quyết định này thể hiện sự thận trọng của công ty trong phát triển AI tiên tiến, đồng thời đặt ra vấn đề về tính minh bạch trong nghiên cứu AI.

https://sea.mashable.com/tech/33381/microsoft-made-an-ai-voice-so-real-its-too-dangerous-to-release

Không có file đính kèm.

Nguồn tham khảo

151

AI ảnh-video-music-âm thanh 2024-07-02 23:20:09

Runway ra mắt mô hình AI video Gen-3 Alpha với khả năng tạo video siêu thực từ văn bản, hình ảnh hoặc video

• Runway đã công bố mô hình AI video Gen-3 Alpha có thể tạo ra các video siêu thực từ văn bản, hình ảnh hoặc video.

• Gen-3 Alpha cho phép người dùng tạo ra các video AI chất lượng cao và có thể kiểm soát được để phục vụ nhiều mục đích sáng tạo khác nhau, bao gồm cả quảng cáo.

• Tuy nhiên, khác với các mô hình Gen-1 và Gen-2 trước đó, Gen-3 Alpha không miễn phí. Người dùng sẽ phải nâng cấp lên gói trả phí của Runway, với giá khởi điểm là 12 USD/tháng cho mỗi biên tập viên, thanh toán theo năm.

• Gen-3 Alpha được đào tạo trên các video và hình ảnh được chú thích với các mô tả chi tiết. Nó cho phép tạo ra các đoạn video siêu thực với các chuyển cảnh sáng tạo, keyframe chính xác và nhân vật con người biểu cảm với nhiều hành động, cử chỉ và cảm xúc đa dạng.

• Mô hình mới này là một bước tiến lớn so với Gen-1 và Gen-2 về tốc độ, độ trung thực, tính nhất quán và chuyển động.

• Ban đầu, Gen-3 Alpha sẽ hỗ trợ chế độ text-to-video, cho phép người dùng biến ý tưởng thành video bằng các câu lệnh ngôn ngữ tự nhiên. Trong tương lai, nó dự kiến sẽ hỗ trợ các chế độ khác như image-to-video và video-to-video.

• Mỗi video được tạo ra bởi mô hình có thể dài tối đa 10 giây, với tốc độ tạo video thay đổi tùy theo độ dài. Đây là thời lượng tốt hơn so với hầu hết các mô hình AI video khác, nhưng vẫn ngắn hơn so với Sora của OpenAI (hứa hẹn tạo video dài 1 phút).

• Gen-3 Alpha được mô tả là "mô hình đầu tiên trong một loạt mô hình sắp tới" được đào tạo trên cơ sở hạ tầng mới xây dựng cho việc đào tạo đa phương thức quy mô lớn.

• Runway coi đây là một bước tiến tới việc xây dựng "Mô hình Thế giới Tổng quát" có thể "đại diện và mô phỏng một loạt các tình huống và tương tác, giống như những gì gặp phải trong thế giới thực".

📌 Runway ra mắt mô hình AI video Gen-3 Alpha có khả năng tạo video siêu thực dài tới 10 giây. Mô hình này yêu cầu gói trả phí từ 12 USD/tháng, hứa hẹn cải thiện trong tương lai và là bước đầu hướng tới xây dựng Mô hình Thế giới Tổng quát.

https://venturebeat.com/ai/runways-gen-3-alpha-ai-video-model-now-available-but-theres-a-catch/

Không có file đính kèm.

Nguồn tham khảo

169

AI ảnh-video-music-âm thanh AI bản quyền 2024-06-27 21:44:49

YouTube muốn trả tiền tỷ để "nhân bản" giọng ca nổi tiếng bằng AI

• YouTube đang đề nghị trả tiền cho các hãng thu âm lớn như Universal Music Group, Sony Music và Warner Records để được phép sử dụng bài hát của họ huấn luyện công cụ AI tạo nhạc.

• Mục đích là để phát triển các công cụ AI mới dự kiến ra mắt cuối năm nay, không phải mở rộng tính năng Dream Track hiện tại.

• YouTube muốn có giấy phép từ "hàng chục" nghệ sĩ, nhưng chưa tiết lộ mức phí cụ thể. Có thể là khoản thanh toán một lần thay vì chia sẻ doanh thu.

• Động thái này diễn ra sau khi YouTube ra mắt tính năng AI tạo nhạc theo phong cách của các nghệ sĩ nổi tiếng như Charli XCX, John Legend và T-Pain vào năm ngoái.

• Các hãng thu âm và nghệ sĩ có thể sẽ khó bị thuyết phục. Sony Music đã cảnh báo các công ty AI không được sử dụng nội dung trái phép. UMG từng gỡ toàn bộ danh mục nhạc khỏi TikTok do tranh chấp về nhạc AI.

• Hơn 200 nghệ sĩ như Billie Eilish, Pearl Jam, Katy Perry đã kêu gọi các công ty công nghệ ngừng sử dụng AI xâm phạm quyền của nghệ sĩ.

• Hiệp hội Công nghiệp Ghi âm Mỹ (RIAA) vừa kiện hai công ty AI tạo nhạc hàng đầu là Suno và Udio vì vi phạm bản quyền, đòi bồi thường tới 150.000 USD cho mỗi vi phạm.

• YouTube đang áp dụng cách tiếp cận "xin phép trước" để tránh các vụ kiện tụng như vậy.

• Việc này cho thấy xu hướng các nền tảng lớn muốn hợp pháp hóa việc sử dụng AI trong âm nhạc, thay vì đối đầu với ngành công nghiệp âm nhạc.

• Tuy nhiên, vẫn còn nhiều thách thức về mặt pháp lý và đạo đức cần giải quyết trước khi AI tạo nhạc được chấp nhận rộng rãi.

📌 YouTube đang đi đầu trong việc hợp pháp hóa AI tạo nhạc bằng cách đàm phán trực tiếp với các hãng thu âm lớn. Động thái này có thể mở ra kỷ nguyên mới cho công nghệ AI trong âm nhạc, nhưng vẫn còn nhiều tranh cãi về quyền tác giả và tác động đến nghệ sĩ.

https://www.theverge.com/2024/6/27/24187151/youtube-ai-music-deals-licensing-record-labels-sony-umg-warner

Không có file đính kèm.

Nguồn tham khảo

165

AI ảnh-video-music-âm thanh 2024-06-26 20:57:51

Synthesia 2.0: cuộc cách mạng video AI với avatar toàn thân và tương tác đột phá

• Synthesia, startup có trụ sở tại London, vừa công bố bản cập nhật lớn cho nền tảng tạo video AI chuyên nghiệp của mình, được gọi là Synthesia 2.0.

• Bản cập nhật giới thiệu nhiều tính năng mới quan trọng:
- Avatar toàn thân có khả năng thực hiện nhiều chuyển động
- Trải nghiệm video tương tác cho phép người dùng tạo video AI với các yếu tố tương tác như lịch hoặc biểu mẫu
- Trình ghi màn hình AI mới giúp đơn giản hóa việc tạo video hướng dẫn

• Không phải tất cả tính năng sẽ ra mắt ngay lập tức. Một số sẽ được triển khai vào tháng tới, số khác sẽ được giới thiệu trong những tháng tới.

• Synthesia được thành lập năm 2017 bởi các nhà nghiên cứu AI và doanh nhân từ Stanford, Đại học Kỹ thuật Munich và Cambridge.

• Hiện nay, Synthesia đã được hơn 55.000 doanh nghiệp sử dụng, bao gồm Zoom, Dupont, Heineken và Electrolux.

• Avatar AI mới của Synthesia có khả năng hiểu ngữ cảnh và cảm xúc trong văn bản, thay đổi giọng điệu và biểu cảm khuôn mặt phù hợp.

• Avatar toàn thân mới sẽ có phạm vi chuyển động rộng hơn, bao gồm cả ngôn ngữ cơ thể và cử chỉ tay.

• Người dùng có thể tạo avatar cá nhân bằng webcam hoặc camera điện thoại với nền tự nhiên, đồng bộ môi tốt hơn và giọng nói tự nhiên hơn.

• Trình phát video tương tác mới cho phép tích hợp các điểm nhấp chuột, người xem có thể tương tác như điền biểu mẫu, mở lịch/câu đỏi hoặc chuyển đến phần video mong muốn.

• Trình ghi màn hình AI sẽ tự động tạo video AI chuyên nghiệp từ bản ghi màn hình, bao gồm âm thanh và phụ đề.

• Các cải tiến khác bao gồm:
- Thêm bộ nhận diện thương hiệu
- Tạo nội dung hàng loạt bằng trợ lý video AI
- Khả năng cộng tác cho nhiều người dùng
- Trải nghiệm dịch một cú nhấp chuột được cải thiện

• Synthesia cạnh tranh với các công ty khác trong lĩnh vực này như Deepbrain AI, Rephrase và HeyGen.

📌 Synthesia 2.0 mang đến cuộc cách mạng trong truyền thông doanh nghiệp với video AI tương tác và avatar toàn thân. Với hơn 55.000 doanh nghiệp đã áp dụng, bao gồm các tên tuổi lớn như Zoom và Heineken, Synthesia đang dẫn đầu xu hướng chuyển đổi từ nội dung văn bản sang video hấp dẫn hơn.

https://venturebeat.com/ai/synthesia-announces-platform-update-with-interactive-ai-videos-full-body-avatars/

Không có file đính kèm.

Nguồn tham khảo

166

AI ảnh-video-music-âm thanh AI bản quyền 2024-06-25 07:53:50

Các hãng thu âm lớn kiện các công ty khởi nghiệp tạo nhạc AI Suno và Udio vì vi phạm bản quyền

- Các hãng thu âm lớn như Universal Music Group (UMG), Sony Music Entertainment và Warner Music Group đã cùng nhau khởi kiện các công ty tạo nhạc AI Suno và Udio vì cáo buộc vi phạm bản quyền.
- Cả Suno và Udio đều cho phép người dùng viết lời nhắc để tạo ra các đoạn âm thanh. Các vụ kiện cáo buộc cả hai công ty sao chép các bài hát và bản ghi âm mà không được sự cho phép của các hãng thu âm và cuối cùng phân phối các phiên bản tương tự.
- UMG, Sony và Atlantic Records cáo buộc Suno đã huấn luyện các mô hình AI bằng cách tải xuống phiên bản kỹ thuật số của một bài hát và sau đó tạo ra âm nhạc có âm thanh tương tự. Ví dụ, Suno đã tạo ra "29 đầu ra khác nhau chứa phong cách của Johnny B. Goode", một bài hát thuộc sở hữu của UMG.
- Các hãng thu âm cũng cáo buộc Suno tái tạo các đặc điểm của một số nghệ sĩ nhất định, chẳng hạn như ca sĩ Jason Derulo, người có thương hiệu là hát tên của mình ở đầu các bài hát.
- Các cáo buộc tương tự cũng được đưa ra chống lại Udio. Đơn kiện chống lại Udio cũng cáo buộc nền tảng này đã tạo điều kiện cho mọi người dễ dàng phân phối các mẫu nhạc tương tự như các bản ghi âm có bản quyền trên các nền tảng thương mại như Spotify.
- Udio trở nên phổ biến sau khi nhà sản xuất Metro Boomin sử dụng nó để tạo ra một bản nhạc AI mà anh ấy gọi là "BBL Drizzy", được phân phối miễn phí như một phần của cuộc tranh chấp đang diễn ra với đối thủ Drake (Aubrey Graham).
- Các nền tảng như Suno và Udio đã trở nên phổ biến hơn gần đây khi một số công ty bắt đầu thử nghiệm các ứng dụng tạo nhạc AI tiên tiến. Ví dụ: MusicFX của Google, Audiobox AI của Meta, và ElevenLabs gần đây đã giới thiệu một nền tảng tạo nhạc.
- Sự gia tăng của các nền tảng AI âm nhạc và giọng nói đã thúc đẩy các nhà lập pháp đề xuất luật bảo vệ hình ảnh của nghệ sĩ khỏi bị sao chép.

📌 Các vụ kiện đồng thời chống lại Suno và Udio đánh dấu một làn sóng pháp lý mới nhất của các hãng thu âm lớn nhằm vào các công ty AI. Họ cáo buộc các nền tảng này sao chép và phân phối trái phép các bài hát, ghi âm có bản quyền để huấn luyện mô hình. Sự phổ biến ngày càng tăng của công nghệ tạo nhạc AI đã thúc đẩy các nhà lập pháp đề xuất luật bảo vệ quyền của nghệ sĩ.

https://venturebeat.com/ai/record-labels-sue-ai-music-generator-startups-suno-udio-for-copyright-infringement/

Không có file đính kèm.

Nguồn tham khảo

242

AI ảnh-video-music-âm thanh 2024-06-23 08:38:45

Instagram gây tranh cãi khi tự động gắn nhãn "made with ai" cho ảnh chỉnh sửa bằng trí tuệ nhân tạo

- Instagram tự động gắn nhãn "Made with AI" cho bất kỳ bức ảnh nào được chỉnh sửa bằng công cụ trí tuệ nhân tạo (AI).
- Tác giả sử dụng AI để xóa một điểm sáng nhỏ ở góc ảnh chụp nhiếp ảnh gia nổi tiếng Louis Mendes, và Instagram đã gắn nhãn "Made with AI" cho bức ảnh này.
- Theo tác giả, việc gắn nhãn này gây hiểu lầm rằng toàn bộ bức ảnh được tạo ra bởi AI, trong khi thực tế AI chỉ được sử dụng như một công cụ chỉnh sửa nhỏ, tương tự như các công cụ chỉnh sửa khác trong Photoshop.
- Việc gắn nhãn "Made with AI" một cách rộng rãi có thể gây ảnh hưởng tiêu cực đến công việc chỉnh sửa ảnh nói chung.
- Tác giả đưa ra ví dụ về việc sử dụng AI để xóa biển số xe ô tô, cho rằng đây chỉ là công việc chỉnh sửa bình thường và không nên bị gắn nhãn "Made with AI".
- Có sự không nhất quán trong cách Instagram áp dụng nhãn "Made with AI", ví dụ như khi tải ảnh lên từ trình duyệt web trên máy tính, nhãn này không xuất hiện.
- Tác giả cho rằng Meta, công ty mẹ của Instagram, không nên tự đặt mình làm trọng tài trong việc áp dụng nhãn "Made with AI", vì điều này có thể gây bất lợi cho những người sử dụng AI một cách có trách nhiệm.
- Nhiếp ảnh gia và người làm sáng tạo cần cân nhắc về tác động của nhãn "Made with AI" đối với công việc của họ, đặc biệt là trong lĩnh vực chụp ảnh sự kiện và xử lý các vấn đề nhạy cảm trên mạng xã hội.

📌 Instagram đang gây tranh cãi khi tự động gắn nhãn "Made with AI" cho mọi bức ảnh được chỉnh sửa bằng AI. Cách tiếp cận thiếu tinh tế này có thể gây hiệu ứng tiêu cực đối với giới nhiếp ảnh và sáng tạo, đặc biệt khi AI chỉ được sử dụng cho các chỉnh sửa nhỏ. Meta cần xem xét lại chính sách gắn nhãn để tránh gây bất lợi cho người dùng có trách nhiệm.

https://fstoppers.com/artificial-intelligence/instagrams-ham-fisted-approach-labeling-photos-ai-bad-creatives-670231

Không có file đính kèm.

Nguồn tham khảo

144

AI xã hội AI ảnh-video-music-âm thanh 2024-06-23 07:56:36

Lỗi kỹ thuật khiến TikTok tạm thời cho phép người dùng tạo video AI gây tranh cãi

- TikTok ra mắt tính năng Symphony Avatars cho phép doanh nghiệp và thương hiệu tạo quảng cáo tùy chỉnh hoàn toàn bằng AI tạo sinh.
- Một phóng viên CNN phát hiện tính năng liên quan Symphony Assistant không có biện pháp bảo vệ hay kiểm duyệt, đồng thời video được tạo ra không có thủy vân.
- TikTok đã khắc phục sự cố, cho rằng đó là lỗi kỹ thuật và khẳng định video độc hại sẽ không xuất hiện trên nền tảng do chính sách nội dung nghiêm ngặt.
- Phóng viên CNN Jon Sarlin truy cập Symphony Assistant bằng tài khoản cá nhân và tạo video về bất kỳ chủ đề nào chỉ bằng cách chọn avatar và nhập kịch bản.
- Các video được tạo ra trông thuyết phục, không có thủy vân, có thể khiến người dùng TikTok nhầm tưởng nếu được đăng tải.
- TikTok gọi đây là "lỗi kỹ thuật" do đẩy nhầm phiên bản thử nghiệm nội bộ của công cụ AI cho tất cả người dùng.
- Đây không phải lần đầu TikTok thử nghiệm AI và công ty sẽ tiếp tục thử nghiệm các tính năng AI mới với các biện pháp bảo vệ trước khi ra mắt công khai.

📌 Sự cố cho thấy TikTok cần thận trọng hơn khi thử nghiệm các tính năng AI, đặc biệt khi nền tảng đang đối mặt với nỗ lực cấm tại Mỹ. Tuy nhiên, công ty đã nhanh chóng khắc phục lỗi kỹ thuật và khẳng định các video độc hại sẽ không xuất hiện do chính sách nội dung nghiêm ngặt.

https://www.androidpolice.com/tiktok-symphony-avatars-generative-ai-controversy/

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh AI so sánh 2024-06-21 16:36:41

Leonardo AI đối đầu Ideogram: Ai mới sẽ giành ngôi vương về tạo ảnh?

- Leonardo AI vừa ra mắt mô hình mới Leonardo Phoenix với nhiều cải tiến về độ tuân thủ prompt, chất lượng ảnh, khả năng tạo văn bản rõ ràng trong ảnh.

- Bài viết so sánh Leonardo Phoenix với mô hình của Ideogram, một công cụ tạo ảnh AI nổi tiếng khác, về các khía cạnh:
• Diễn giải phong cách nghệ thuật và tuân thủ prompt: Leonardo đạt điểm cao hơn.
• Tính chân thực của ảnh chân dung: Ideogram cho kết quả tốt hơn.
• Tính năng chỉnh sửa ảnh bằng AI, xóa nền, nâng cấp độ phân giải, tạo hoạt họa: chỉ có ở Leonardo.
• Tốc độ tạo ảnh nhanh hơn và hỗ trợ nhiều mô hình đa dạng hơn: ưu thế của Leonardo.
• Giao diện đơn giản, tối ưu cho người dùng cơ bản: điểm mạnh của Ideogram.

- Tác giả kết luận rằng với người dùng chuyên nghiệp và sẵn sàng trả phí, Leonardo là lựa chọn hấp dẫn hơn nhờ bộ tính năng phong phú. Còn với người dùng thông thường chỉ cần tạo ảnh đẹp nhanh chóng, Ideogram phù hợp hơn.

- Mặc dù Ideogram đôi khi cho ảnh chất lượng cao hơn, nhưng nhìn chung Leonardo với mô hình Phoenix mới đã vượt lên dẫn đầu nhờ tính năng vượt trội.

📌 Leonardo Phoenix với các cải tiến về độ tuân thủ prompt, chất lượng ảnh, tính năng chỉnh sửa đã vượt qua Ideogram để trở thành công cụ tạo ảnh AI tốt nhất hiện nay, dù Ideogram vẫn có ưu thế về giao diện tối giản và phù hợp hơn với người dùng cơ bản.

https://decrypt.co/236173/leonardo-ideogram-ai-image-generator-comparison

Không có file đính kèm.

Nguồn tham khảo

153

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2024-06-21 00:32:08

OpenAI nâng cấp DALL-E 3 thay vì tung ra khả năng tạo ảnh vượt trội của GPT-4o

- OpenAI dường như đã cải tiến công cụ tạo ảnh DALL-E 3, đặc biệt về khả năng tạo văn bản. DALL-E 3 giờ đây tạo ra các đoạn văn bản dài chính xác hơn.

- Mặc dù OpenAI giới thiệu mô hình đa phương thức GPT-4o với khả năng tạo ảnh nâng cao, công ty vẫn tiếp tục cải tiến DALL-E 3.

- So sánh DALL-E 3 với Midjourney, Ideogram và các ví dụ từ GPT-4o cho thấy GPT-4o dường như vượt trội hơn hẳn về khả năng hiểu prompt và tạo văn bản, bất chấp những cải tiến của DALL-E 3 và các công cụ tạo ảnh khác.

- Với một bài thơ viết tay trong nhật ký, DALL-E 3 làm tốt hơn Midjourney và Ideogram trong việc minh họa, nhưng vẫn chỉ tái tạo một phần văn bản mong muốn một cách chính xác. GPT-4o rõ ràng dẫn đầu ở đây.

- Với góc nhìn thứ nhất của robot nhắn tin, DALL-E 3 chính xác nhất trong việc thực hiện góc nhìn yêu cầu và văn bản có thể đọc được một phần, nhưng vẫn còn cách xa mức độ của GPT-4o.

- Với việc xếp chồng các khối lập phương có màu sắc và chữ cái khác nhau, Midjourney và Ideogram hoàn thành tốt nhiệm vụ, trong khi DALL-E 3 thậm chí không hình dung đúng số lượng khối.

- Sẽ rất thú vị để xem liệu OpenAI có tiếp tục phát triển DALL-E hay không. Về chất lượng, GPT-4o hoàn toàn có thể thay thế mô hình tạo ảnh chuyên biệt này.

- Xu hướng các mô hình đa phương thức lớn vượt trội hơn các mô hình chuyên biệt trong từng lĩnh vực (âm thanh, video, hình ảnh) có thể mang lại lợi thế cho các công ty lớn như Google, Microsoft và OpenAI - những đơn vị có đủ nguồn lực để phát triển và triển khai các mô hình đa phương thức lớn nhất.

📌 OpenAI đã cải tiến đáng kể DALL-E 3, đặc biệt về khả năng tạo văn bản. Tuy nhiên, khi so sánh với Midjourney, Ideogram và GPT-4o, mô hình đa phương thức mới của OpenAI vẫn cho thấy sự vượt trội vượt bậc trong việc hiểu prompt và tạo ảnh chính xác. Điều này cho thấy xu hướng các mô hình đa phương thức lớn có thể thay thế các mô hình chuyên biệt, mang lại lợi thế cho các công ty công nghệ khổng lồ.

https://the-decoder.com/openai-upgrades-dall-e-3-instead-of-rolling-out-gpt-4os-much-better-imaging-capabilities/

Không có file đính kèm.

Nguồn tham khảo

169

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-06-21 00:11:39

Meta phát hành mô hình AI mã nguồn mở Chameleon xử lý hình ảnh và văn bản tương đương Gemini Pro và GPT-4V

- Meta công bố phát hành công khai họ mô hình AI mới có tên Chameleon, tương đương với các công cụ thương mại như Gemini Pro và GPT-4V.

- Chameleon có phiên bản 7 tỷ và 34 tỷ tham số, có khả năng hiểu và tạo ra hình ảnh và văn bản.

- Chameleon có thể xử lý kết hợp văn bản và hình ảnh (có thể liên quan với nhau) và tạo ra phản hồi có ý nghĩa.

- Ví dụ, bạn có thể chụp ảnh nội dung tủ lạnh và hỏi Chameleon món ăn nào có thể nấu chỉ với nguyên liệu sẵn có.

- Điều này không thể thực hiện được với thế hệ mô hình AI Llama, đưa nguồn mở đến gần hơn với các mô hình thị giác chính thống nổi tiếng hơn từ OpenAI và Google.

- Nhóm nghiên cứu Fundamental AI Research (FAIR) tại Meta đã phát hành công khai mô hình này cho mục đích nghiên cứu, tuy nhiên có một số hạn chế.

- Chìa khóa thành công của Chameleon là kiến trúc hoàn toàn dựa trên token. Mô hình học cách lý luận về hình ảnh và văn bản một cách liên kết.

- Các thách thức kỹ thuật mà nhóm Meta phải vượt qua bao gồm những vấn đề liên quan đến tính ổn định tối ưu hóa và mở rộng quy mô, bằng cách sử dụng các phương pháp và kỹ thuật đào tạo mới.

- Người dùng có thể yêu cầu Chameleon tạo lịch trình trải nghiệm ngày hạ chí và mô hình AI sẽ cung cấp hình ảnh liên quan kèm theo văn bản tạo ra.

- Theo đánh giá của con người, Chameleon tương đương hoặc vượt trội hơn các mô hình như Gemini Pro và GPT-4V khi lời nhắc hoặc đầu ra chứa chuỗi hỗn hợp cả hình ảnh và văn bản.

- Phiên bản Chameleon được phát hành công khai chỉ có thể tạo ra văn bản đầu ra và mức độ an toàn được tăng cường có chủ đích.

- Đối với các nhà nghiên cứu, Chameleon là nguồn cảm hứng cho các cách thay thế để đào tạo và thiết kế mô hình AI.

📌 Chameleon của Meta là bước tiến đáng kể trong AI mã nguồn mở, với khả năng xử lý linh hoạt cả hình ảnh và văn bản, tương đương các mô hình thương mại như Gemini Pro, GPT-4V. Kiến trúc dựa trên token và các kỹ thuật đào tạo mới giúp Chameleon vượt qua thách thức tối ưu hóa, mở rộng quy mô. Phiên bản công khai hiện chỉ tạo văn bản đầu ra, nhưng đã tiến bộ đáng kể so với 5 tháng trước.

https://www.tomsguide.com/ai/meta-just-dropped-an-open-source-gpt-4o-style-model-heres-what-it-means

Không có file đính kèm.

Nguồn tham khảo

203

AI ảnh-video-music-âm thanh 2024-06-19 16:34:00

Universal Music Group hợp tác với SoundLabs giúp nghệ sĩ tạo bản sao giọng nói AI

- Universal Music Group (UMG) đã công bố hợp tác với startup công nghệ âm nhạc AI SoundLabs vào ngày 18 tháng 6 năm 2024.
- Thỏa thuận này sẽ cho phép các nghệ sĩ và nhà sản xuất âm nhạc của UMG sử dụng tính năng MicDrop của SoundLabs để tạo mô hình giọng nói của riêng họ từ dữ liệu mà họ cung cấp.
- Các nghệ sĩ sẽ có quyền kiểm soát sở hữu và sử dụng các mô hình giọng nói này, và các bản sao giọng nói sẽ không được công khai cho công chúng.
- MicDrop không chỉ tạo bản sao giọng nói mà còn cung cấp chức năng chuyển đổi giọng nói thành nhạc cụ và chuyển đổi ngôn ngữ, giúp nghệ sĩ phát hành bài hát trên toàn thế giới mà không gặp rào cản ngôn ngữ.
- Các bản sao giọng nói AI đã trở thành một trong những ứng dụng nổi tiếng và gây tranh cãi nhất của trí tuệ nhân tạo trong ngành âm nhạc.
- Năm ngoái, một nhạc sĩ ẩn danh tên Ghostwriter đã gây sốt với bài hát "Heart On My Sleeve" sử dụng giọng hát AI của Drake và The Weeknd, nhưng bài hát đã bị gỡ bỏ sau áp lực từ UMG.
- Drake cũng đã gặp rắc rối với việc sử dụng bản sao giọng nói của Tupac trong bài hát "Taylor Made Freestyle," dẫn đến việc bị yêu cầu ngừng sử dụng từ gia đình Tupac.
- Ngành công nghiệp âm nhạc đang thận trọng nhưng cũng quan tâm đến việc sử dụng công cụ âm nhạc AI, miễn là chúng được sử dụng một cách đạo đức và tôn trọng bản quyền của nghệ sĩ.
- UMG đã công bố các Nguyên tắc Sáng tạo Âm nhạc Với AI cùng với nhà sản xuất nhạc cụ Roland để định nghĩa rõ ràng việc sử dụng AI trong âm nhạc.
- RIAA cũng đã giới thiệu Chiến dịch Nghệ thuật Con người, ủng hộ cách tiếp cận tương tự đối với AI.
- Ví dụ rõ ràng nhất về triết lý của các hãng thu âm là bài hát "Where That Came From" của Randy Travis, sử dụng giọng hát của James Dupré để tái hiện giọng của Travis sau khi ông mất khả năng hát do đột quỵ.
- SoundLabs được thành lập bởi nhà soạn nhạc điện tử và nhà phát triển phần mềm BT, người đã làm việc với nhiều nghệ sĩ nổi tiếng như Madonna, Death Cab for Cutie, Sting và David Bowie.
- BT và UMG nhấn mạnh tầm quan trọng của việc sử dụng AI một cách đạo đức trong thông báo của họ.
- Chris Horton, Phó Chủ tịch Cấp cao về Công nghệ Chiến lược của UMG, cho biết: "UMG luôn đặt nghệ sĩ ở trung tâm của chiến lược AI của chúng tôi, để công nghệ phục vụ nghệ thuật."

📌 Universal Music Group hợp tác với SoundLabs để cung cấp công nghệ mô hình giọng nói AI cho nghệ sĩ, giúp họ tạo bản sao giọng nói và vượt qua rào cản ngôn ngữ. Thỏa thuận này nhấn mạnh tầm quan trọng của việc sử dụng AI một cách đạo đức và tôn trọng bản quyền nghệ sĩ.

stone.com/music/music-news/umg-startsai-voice-clone-partnership-with-soundlabs-1235041808/

Không có file đính kèm.

Nguồn tham khảo

132

AI ảnh-video-music-âm thanh 2024-06-19 14:20:59

SKETCHPAD: Framework AI cung cấp bảng phác thảo trực quan cho các mô hình ngôn ngữ đa phương thức

- SKETCHPAD là framework mới giúp các mô hình ngôn ngữ đa phương thức (LMs) sử dụng bảng phác thảo trực quan và công cụ vẽ để lập luận giống con người.
- Các phương pháp hiện tại như mô hình chuyển văn bản thành hình ảnh còn hạn chế do không cho phép tương tác động, có độ phức tạp tính toán cao và thiếu linh hoạt trong việc tích hợp các mô hình thị giác chuyên biệt.
- SKETCHPAD cho phép LMs vẽ đường, hộp và dấu, tạo điều kiện cho quá trình lập luận gần với phác thảo của con người hơn. Nó có thể tích hợp các mô hình thị giác chuyên biệt để cải thiện nhận thức và lập luận trực quan.
- Framework hoạt động bằng cách tổng hợp các chương trình tạo phác thảo trực quan làm các bước lập luận trung gian. Nó sử dụng các gói Python phổ biến và tích hợp các mô hình thị giác chuyên biệt.
- Các thử nghiệm cho thấy SKETCHPAD cải thiện đáng kể hiệu suất trên nhiều tác vụ như hình học, thuật toán đồ thị và lập luận trực quan phức tạp. Ví dụ, nó cải thiện độ chính xác từ 37.5% lên 45.8% trên các tác vụ hình học sử dụng GPT-4 Turbo.

📌 SKETCHPAD là framework đột phá giúp cải thiện đáng kể khả năng lập luận của các mô hình ngôn ngữ đa phương thức bằng cách tích hợp công cụ phác thảo trực quan. Giải pháp mới này vượt qua các hạn chế quan trọng của các phương pháp hiện có, mang lại cách tiếp cận hiệu quả và chính xác hơn cho lập luận trực quan, với mức tăng hiệu suất lên tới 12.7% trên các tác vụ toán học và 8.6% trên các tác vụ thị giác.

https://www.marktechpost.com/2024/06/17/sketchpad-an-ai-framework-that-gives-multimodal-language-models-lms-a-visual-sketchpad-and-tools-to-draw-on-the-sketchpad/

Không có file đính kèm.

Nguồn tham khảo

141

AI ảnh-video-music-âm thanh 2024-06-19 00:10:42

Mô hình AI DenseAV đang tự học nói chuyện bằng cách xem video

- DenseAV là một mô hình AI có thể học ý nghĩa của từ và vị trí âm thanh mà không cần dữ liệu có nhãn, chỉ bằng cách xem video.
- Nó sử dụng học tương phản audio-video để liên kết âm thanh cụ thể với thế giới quan sát được.
- DenseAV so sánh cặp tín hiệu âm thanh và hình ảnh, xác định dữ liệu quan trọng và đánh giá tín hiệu nào khớp.
- Ý tưởng này đến với Mark Hamilton, một nghiên cứu sinh tiến sĩ tại MIT, khi xem cảnh chim cánh cụt ngã trong phim "March of the Penguins".
- Mục tiêu là để mô hình học ngôn ngữ bằng cách dự đoán những gì nó thấy từ những gì nó nghe và ngược lại.
- Các nhà nghiên cứu tập trung vào các điểm ảnh mà mô hình nhìn vào khi nghe thấy âm thanh cụ thể để khám phá ý nghĩa của từ.
- DenseAV được trang bị "bộ não hai bên", một bên tập trung vào ngôn ngữ và bên kia tập trung vào âm thanh như tiếng mèo kêu.
- Lượng lớn nội dung video sẵn có có nghĩa là AI có thể được đào tạo trên các video hướng dẫn.
- Ứng dụng thú vị khác là hiểu ngôn ngữ mới, như giao tiếp của cá heo hoặc cá voi.
- Bước tiếp theo là tạo ra các hệ thống có thể học từ dữ liệu chỉ video hoặc chỉ âm thanh.

📌 DenseAV đại diện cho một bước tiến quan trọng trong AI, cho thấy khả năng học ngôn ngữ và âm thanh chỉ từ video mà không cần sự can thiệp của con người. Điều này mở ra nhiều ứng dụng tiềm năng như đào tạo AI trên video hướng dẫn và thậm chí hiểu các dạng giao tiếp mới của động vật.

https://www.tomsguide.com/ai/this-ai-model-is-learning-to-speak-by-watching-videos-heres-how

Không có file đính kèm.

Nguồn tham khảo

148

AI ảnh-video-music-âm thanh 2024-06-19 00:07:22

Công nghệ AI mới của Google Deepmind sẽ tạo ra nhạc nền cho video

- DeepMind, phòng thí nghiệm trí tuệ nhân tạo của Google, đang phát triển công nghệ mới có thể tạo ra âm thanh, thậm chí cả lời thoại, để đi kèm với video.
- Công nghệ video-to-audio (V2A) này có thể kết hợp với các công cụ tạo video như Google Veo và OpenAI's Sora.
- Hệ thống có thể hiểu các pixel thô và kết hợp thông tin đó với lời nhắc văn bản để tạo hiệu ứng âm thanh cho những gì đang diễn ra trên màn hình.
- Công cụ này cũng có thể được sử dụng để tạo nhạc nền cho các đoạn phim truyền thống, chẳng hạn như phim câm và bất kỳ video nào khác không có âm thanh.
- Các nhà nghiên cứu của DeepMind đã huấn luyện công nghệ này trên các video, âm thanh và chú thích do AI tạo ra, chứa các mô tả chi tiết về âm thanh và bản ghi lời thoại.
- Bằng cách này, công nghệ đã học cách liên kết các âm thanh cụ thể với các cảnh trực quan.
- Mặc dù lời nhắc văn bản là tùy chọn, nhưng nó có thể được sử dụng để định hình và tinh chỉnh sản phẩm cuối cùng sao cho chính xác và thực tế nhất có thể.
- Bạn có thể nhập các lời nhắc tích cực để định hướng đầu ra tạo ra âm thanh bạn muốn hoặc các lời nhắc tiêu cực để tránh xa âm thanh bạn không muốn.
- Các nhà nghiên cứu thừa nhận rằng họ vẫn đang cố gắng giải quyết các hạn chế hiện tại của công nghệ V2A, chẳng hạn như sự suy giảm chất lượng âm thanh đầu ra có thể xảy ra nếu có méo mó trong video nguồn.
- Họ cũng đang cố gắng cải thiện đồng bộ hóa môi cho lời thoại được tạo ra.
- Ngoài ra, họ cam kết sẽ đưa công nghệ này qua các đánh giá an toàn và thử nghiệm nghiêm ngặt trước khi phát hành ra thế giới.

📌 DeepMind của Google đang phát triển công nghệ AI mới có thể tạo âm thanh và lời thoại cho video, kết hợp được với các công cụ tạo video AI. Công nghệ này hiểu được pixel và lời nhắc văn bản để tạo hiệu ứng âm thanh chính xác, thực tế. Tuy nhiên, vẫn cần cải thiện chất lượng và đồng bộ hóa, đồng thời phải qua đánh giá an toàn nghiêm ngặt trước khi phát hành.

https://www.engadget.com/google-deepminds-new-ai-tech-will-generate-soundtracks-for-videos-113100908.html

Không có file đính kèm.

Nguồn tham khảo

190

AI ảnh-video-music-âm thanh 2024-06-17 23:56:43

Runway ML ra mắt Gen-3 Alpha: mô hình video AI siêu thực dài 10 giây

- Runway ML, một startup tại New York, đã ra mắt Gen-3 Alpha, mô hình video AI siêu thực mới nhất, cho phép tạo ra các đoạn video dài 10 giây với độ chính xác cao và biểu cảm phong phú.
- Gen-3 Alpha là bước tiến mới trong loạt mô hình được Runway huấn luyện trên hạ tầng mới, hướng tới xây dựng các mô hình AI có thể mô phỏng nhiều tình huống và tương tác trong thế giới thực.
- Mô hình này hỗ trợ các chế độ tạo video từ văn bản, hình ảnh và video, cùng với một số chế độ mới chỉ có thể thực hiện với mô hình cơ sở mạnh mẽ hơn.
- Runway chưa công bố ngày phát hành chính xác của Gen-3 Alpha và cũng chưa rõ liệu mô hình này sẽ có sẵn trong gói miễn phí hay yêu cầu đăng ký trả phí (bắt đầu từ 15 USD mỗi tháng hoặc 144 USD mỗi năm).
- CTO của Runway, Anastasis Germanidis, cho biết Gen-3 Alpha sẽ sớm có mặt trong sản phẩm của Runway và sẽ cung cấp sức mạnh cho tất cả các chế độ hiện có.
- Runway đã học được rằng các mô hình khuếch tán video vẫn chưa đạt đến giới hạn hiệu suất từ việc mở rộng quy mô và những mô hình này xây dựng các biểu diễn mạnh mẽ của thế giới hình ảnh.
- Gen-3 Alpha được huấn luyện chung trên video và hình ảnh, là kết quả của sự hợp tác từ đội ngũ các nhà khoa học nghiên cứu, kỹ sư và nghệ sĩ.
- Runway đã hợp tác với các tổ chức giải trí và truyền thông hàng đầu để tạo ra các phiên bản tùy chỉnh của Gen-3, cho phép kiểm soát phong cách và nhân vật một cách nhất quán, đáp ứng các yêu cầu nghệ thuật và kể chuyện cụ thể.
- Các nhà làm phim của các bộ phim nổi tiếng như Everything, Everywhere, All at Once và The People’s Joker đã sử dụng Runway để tạo hiệu ứng cho các phần của phim.
- Runway mời các tổ chức quan tâm đến việc có phiên bản tùy chỉnh của mô hình mới để đăng ký thông qua một biểu mẫu trong thông báo của họ.
- Chưa có giá công khai cho việc huấn luyện mô hình tùy chỉnh.

📌 Runway ML ra mắt Gen-3 Alpha, mô hình video AI siêu thực mới, tạo ra các đoạn video dài 10 giây với độ chính xác cao và biểu cảm phong phú. Mô hình này hỗ trợ nhiều chế độ tạo video và đã hợp tác với các tổ chức giải trí hàng đầu.

https://venturebeat.com/ai/runway-unveils-new-hyper-realistic-ai-video-model-gen-3-alpha-capable-of-10-second-long-clips/

Không có file đính kèm.

Nguồn tham khảo

223

AI ảnh-video-music-âm thanh 2024-06-17 00:22:33

Liệu AI có thay thế được nhà sản xuất âm nhạc và nghệ sĩ?

- Suno và Udio là hai công cụ tạo nhạc AI hàng đầu năm 2024. Suno vượt trội hơn về chất lượng âm thanh, cấu trúc bài hát và sắp xếp nhạc cụ.

- Udio có chất lượng âm thanh kém hơn, với nhiều méo mó rõ rệt. Cấu trúc bài hát đôi khi không hợp lý.

- Suno tạo ra bài hát chất lượng tốt, gần như không có khuyết điểm. Tuy nhiên vẫn còn một chút méo mó ở giọng hát và nhạc cụ.

- Lời bài hát do Suno tạo ra khá tẻ nhạt và vô hồn. Khi thử với prompt sâu sắc hơn, lời bài hát có phần trau chuốt và mang chủ đề sâu sắc hơn.

- Theo David Cope, người tiên phong trong lĩnh vực tạo nhạc bằng máy tính, AI có thể tạo ra âm nhạc hay nhưng không sâu sắc.

- Các quy trình kỹ thuật trong sản xuất và tạo nhạc sẽ được cải thiện đáng kể trong tương lai. Âm nhạc tầm thường và hời hợt sẽ bị AI thay thế.

- Tuy nhiên, lời bài hát sâu sắc và trình diễn tình cảm, tinh tế sẽ không thể nào bị AI bắt chước hoàn hảo.

- Công cụ tạo nhạc AI sẽ hữu ích cho những người muốn thử nghiệm sáng tác và tạo nhạc nền.

- Nhưng để tạo ra âm nhạc truyền cảm, kể câu chuyện và chạm đến trái tim người nghe, không gì bằng nghệ sĩ thật.

📌 Mặc dù công nghệ AI đang phát triển vượt bậc và có thể tạo ra những bài hát chất lượng tốt, nhưng nó vẫn chưa thể thay thế hoàn toàn các nhà sản xuất âm nhạc và nghệ sĩ thực thụ. Âm nhạc đích thực cần sự sâu sắc trong lời bài hát và sự tinh tế trong trình diễn, điều mà AI hiện tại vẫn chưa đạt được.

https://www.makeuseof.com/ai-music-generation-vs-creating-your-own/

Không có file đính kèm.

Nguồn tham khảo

189

AI ảnh-video-music-âm thanh 2024-06-14 17:02:28

Camb AI ra mắt Mars5, mô hình AI tạo giọng nói với độ chân thực cao, hỗ trợ 140 ngôn ngữ, vượt trội so với ElevenLabs

- Camb AI, một startup tại Dubai chuyên nghiên cứu công nghệ nội địa hóa nội dung dựa trên AI, đã công bố ra mắt Mars5, một mô hình AI mạnh mẽ cho việc tạo giọng nói nhân tạo.
- Mars5 nổi bật với khả năng tái tạo giọng nói với mức độ chân thực cao, bao gồm các thông số phức tạp như nhịp điệu, cảm xúc và ngữ điệu.
- Mars5 hỗ trợ hơn 140 ngôn ngữ, gấp gần 3 lần so với ElevenLabs, bao gồm cả các ngôn ngữ ít tài nguyên như Icelandic và Swahili.
- Phiên bản mã nguồn mở của Mars5 chỉ hỗ trợ tiếng Anh, trong khi phiên bản hỗ trợ nhiều ngôn ngữ hơn có sẵn trên nền tảng trả phí của công ty.
- Mars5 kết hợp khả năng tạo giọng nói và chuyển đổi văn bản thành giọng nói trong một nền tảng duy nhất, cho phép người dùng tải lên tệp âm thanh và văn bản để tạo giọng nói nhân tạo.
- Mô hình này có thể tái tạo các tông giọng và cảm xúc đa dạng, phù hợp cho các nội dung khó chuyển đổi thành giọng nói như bình luận thể thao, phim ảnh và anime.
- Mars5 sử dụng mô hình autoregressive ~750M tham số và mô hình non-autoregressive multinomial diffusion ~450M tham số, hoạt động trên các mã hóa encodec 6kbps.
- Các thử nghiệm ban đầu cho thấy Mars5 hoạt động tốt hơn so với các mô hình tổng hợp giọng nói khác, bao gồm cả Metavoice và ElevenLabs.
- Camb AI cũng đang lên kế hoạch phát hành mã nguồn mở cho một mô hình khác tên là Boli, được thiết kế để dịch thuật với hiểu biết ngữ cảnh, ngữ pháp chính xác và ngôn ngữ thông tục.
- Boli vượt trội hơn các công cụ dịch thuật truyền thống như Google Translate và DeepL, đặc biệt trong các ngôn ngữ ít đến trung bình tài nguyên.
- Camb AI cung cấp các khả năng của Mars5 và Boli dưới dạng API cho các doanh nghiệp, SMEs và nhà phát triển.
- Công ty đang hợp tác với các tổ chức lớn như Major League Soccer, Tennis Australia, Maple Leaf Sports & Entertainment, các hãng phim và âm nhạc hàng đầu, cũng như nhiều cơ quan chính phủ.
- Camb AI đã thực hiện dịch trực tiếp một trận đấu của Major League Soccer sang 4 ngôn ngữ trong hơn 2 giờ liên tục, và dịch các cuộc họp báo sau trận đấu của Australian Open sang nhiều ngôn ngữ.

📌 Camb AI ra mắt Mars5, mô hình AI tạo giọng nói với độ chân thực cao, hỗ trợ 140 ngôn ngữ, vượt trội so với ElevenLabs. Mars5 kết hợp khả năng tạo giọng nói và chuyển đổi văn bản thành giọng nói, phù hợp cho nhiều nội dung phức tạp. Công ty cũng đang phát triển mô hình dịch thuật Boli với hiệu suất vượt trội.

https://venturebeat.com/ai/exclusive-camb-takes-on-elevenlabs-with-open-voice-cloning-ai-model-mars5-offering-higher-realism-support-for-140-languages/

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-06-14 12:09:02

Luma AI trình làng Dream Machine: công cụ tạo video AI miễn phí đỉnh cao

- Luma AI, một startup được hậu thuẫn bởi Andreessen Horowitz, ra mắt Dream Machine - công cụ tạo video AI miễn phí chất lượng cao.
- Dream Machine hứa hẹn tạo video tốc độ 120 khung hình/giây, thời lượng lên đến 120 giây.
- Người dùng háo hức trải nghiệm Dream Machine, tạo ra hàng đợi dài hàng giờ trên website của Luma AI hôm thứ Tư.
- Các ví dụ video được chia sẻ trực tuyến cho thấy chất lượng ấn tượng của Dream Machine.
- Barkley Dai, trưởng bộ phận sản phẩm và tăng trưởng của Luma, xác nhận công ty đang nỗ lực tăng năng lực để đáp ứng nhu cầu cao.
- Thời gian chờ đợi giảm xuống chỉ hơn 1 phút vào sáng thứ Năm, cải thiện đáng kể so với chiều hôm trước.
- Luma AI đã tiếp cận trước các nhà sáng tạo video AI nổi tiếng, cho họ xem trước khả năng của mô hình, giúp quảng bá Dream Machine.
- Phản hồi ban đầu từ người dùng khá tích cực, tạo được video 5 giây chỉ trong vài phút từ prompt văn bản.
- Nhiều người so sánh trực tiếp Dream Machine với Sora của OpenAI, vốn được coi là tiêu chuẩn trong lĩnh vực tạo video AI.
- Phiên bản miễn phí của Dream Machine cho phép tạo 30 video/tháng, bản trả phí cao nhất 2.000 video/tháng với giá $499.
- Luma AI là đối thủ mới nhất trong cuộc đua AI ngày càng sôi động với các dịch vụ miễn phí như Lumiere (Google), Runway, Pika, Kling (Kuaishou).

📌 Dream Machine của Luma AI gây chú ý với khả năng tạo video AI chất lượng cao, tốc độ 120 fps, thời lượng 120 giây. Nhu cầu trải nghiệm lớn khiến thời gian chờ lên đến hàng giờ. Phản hồi tích cực, nhiều người đánh giá ngang ngửa Sora của OpenAI. Luma AI hứa hẹn cạnh tranh mạnh mẽ trong cuộc đua AI với mức giá hấp dẫn.

https://www.digitaltrends.com/computing/luma-ai-dream-machine-video-generation-free-public-beta/

Không có file đính kèm.

Nguồn tham khảo

165

AI ảnh-video-music-âm thanh AI xã hội 2024-06-14 07:47:44

Hoa hậu AI: cuộc thi gây tranh cãi với giải thưởng hơn 20.000 đô la

- Cuộc thi "Hoa hậu AI" đầu tiên sẽ diễn ra vào cuối tháng 6, với giải thưởng trị giá hơn 20.000 đô la Mỹ.
- 10 thí sinh lọt vào vòng chung kết được chọn từ 1.500 đơn đăng ký, đều là những người mẫu được tạo ra bởi AI.
- Ban giám khảo gồm 2 người thật và 2 người mẫu ảo sẽ đánh giá dựa trên vẻ đẹp, công nghệ sử dụng và sức ảnh hưởng trên mạng xã hội của các thí sinh.
- Các thí sinh AI có profile trên Instagram, tương tác với người hâm mộ và ủng hộ các hoạt động từ thiện.
- Ailya Lou, thí sinh đến từ Brazil, có gần 11.000 người theo dõi trên Instagram.
- Anne Kerdi là đại sứ thương hiệu cho quỹ bảo tồn đại dương Océanopolis Acts, trong khi Aiyana Rainbow (Romania) được mô tả là người ủng hộ cộng đồng LGBTQ.
- Nhiều ý kiến cho rằng cuộc thi này còn tệ hơn các cuộc thi sắc đẹp truyền thống vì sự giả tạo và phi thực tế của các thí sinh.
- Người mẫu AI có thể kiếm tới 10.800 đô la mỗi tháng, khiến các thương hiệu có xu hướng sử dụng họ thay vì người mẫu thật.
- Điều này đặt ra câu hỏi liệu AI có thể thay thế công việc của con người trong lĩnh vực người mẫu hay không.

📌 Cuộc thi Hoa hậu AI đầu tiên với giải thưởng hơn 20.000 đô la đang gây tranh cãi vì sự giả tạo và phi thực tế của các thí sinh được tạo bởi trí tuệ nhân tạo. Xu hướng sử dụng người mẫu AI có thể đe dọa công việc của người mẫu thật trong tương lai.

https://www.techspot.com/news/103377-artificial-beauty-exploring-world-ai-models-inaugural-miss.html

Không có file đính kèm.

Nguồn tham khảo

132

AI ảnh-video-music-âm thanh 2024-06-13 12:05:54

Shutterstock và Databricks hợp tác ra mắt ImageAI: mô hình AI tạo ảnh từ văn bản tùy chỉnh cho doanh nghiệp

- Shutterstock và Databricks hợp tác ra mắt Shutterstock ImageAI, mô hình AI tạo ảnh từ văn bản cho phép doanh nghiệp tạo ra hình ảnh chất lượng cao, khả thi về mặt thương mại và được điều chỉnh theo nhu cầu kinh doanh cụ thể.
- ImageAI tận dụng khả năng tiên tiến của Databricks Mosaic AI và được huấn luyện độc quyền trên kho dữ liệu ảnh chất lượng cao của Shutterstock.
- Mô hình cho phép các công ty tạo ra hình ảnh chân thực, đáp ứng các tiêu chuẩn doanh nghiệp về quản trị dữ liệu, bảo mật và quyền sở hữu trí tuệ.
- Aimee Egan, Giám đốc Doanh nghiệp của Shutterstock, cho biết sự hợp tác này nhấn mạnh cam kết của công ty trong việc thúc đẩy AI có trách nhiệm và cung cấp cho khách hàng các công cụ sáng tạo.
- Naveen Rao, Phó Chủ tịch AI tại Databricks, tin rằng các công ty nên chủ động xây dựng mô hình GenAI tùy chỉnh trên dữ liệu của họ.
- Các lợi ích chính của ImageAI bao gồm: đầu ra đáng tin cậy, khả năng thích ứng nhanh với yêu cầu doanh nghiệp, tích hợp an toàn với các ứng dụng doanh nghiệp thông qua nền tảng Databricks.
- ImageAI được huấn luyện từ đầu chỉ trong vài tuần bằng Databricks Mosaic AI Model Training và có thể được triển khai bằng Mosaic AI Model Serving.
- ImageAI hiện đã có sẵn trong bản xem trước riêng trên Databricks Mosaic AI Model Serving và trực tiếp trên Shutterstock.com.

📌 Shutterstock và Databricks hợp tác ra mắt ImageAI, mô hình AI tạo ảnh từ văn bản tùy chỉnh cho doanh nghiệp. Mô hình này tận dụng khả năng của Databricks Mosaic AI, được huấn luyện trên kho ảnh chất lượng cao của Shutterstock, cho phép tạo ra hình ảnh chân thực, đáp ứng các tiêu chuẩn về quản trị dữ liệu, bảo mật và quyền sở hữu trí tuệ. ImageAI hiện đã có sẵn trên Databricks và Shutterstock.com.

https://analyticsindiamag.com/shutterstock-databricks-launch-imageai-customisable-text-to-image-ai-for-enterprises/

Không có file đính kèm.

Nguồn tham khảo

166

AI ảnh-video-music-âm thanh 2024-06-13 07:47:40

Stability AI phát hành SD3 Medium - mô hình AI tạo ảnh từ văn bản tiên tiến nhất

- Stability AI giới thiệu SD3 Medium, mô hình AI nguồn mở tạo ảnh từ văn bản tiên tiến nhất trong series Stable Diffusion 3.
- SD3 Medium được xây dựng trên 2 tỷ tham số, hỗ trợ tạo ảnh chân thực, tuân thủ các lệnh văn bản và phong cách phức tạp, hiểu và render văn bản không lỗi chính tả.
- Mô hình tập trung vào khả năng tạo từ và đánh vần chính xác, vượt trội so với các bộ tạo ảnh từ văn bản trước đây nhờ Kiến trúc Transformer Khuếch tán.
- Người dùng có thể tinh chỉnh nhanh mô hình bằng các bộ dữ liệu nhỏ để tùy chỉnh đầu ra, phù hợp cho các dự án cần hoàn thành nhanh.
- SD3 Medium có kích thước tham số nhỏ gọn (2 tỷ) so với các mô hình nặng hơn (800 triệu - 8 tỷ), tối ưu để chạy trên PC với GPU tiêu dùng/gaming.
- Stability hợp tác với Nvidia để tăng cường hiệu suất các mô hình SD trên GPU RTX và TensorRT, mang lại mức tăng 50% hiệu năng.
- Công ty cũng hợp tác với AMD để tối ưu hóa suy luận cho SD3 Medium trên các thiết bị APU và GPU tiêu dùng.
- Stable Diffusion 3 có sẵn qua API của công ty và trọng số mô hình được mở mã nguồn cho cộng đồng.

📌 SD3 Medium là mô hình AI tạo ảnh từ văn bản tiên tiến nhất của Stability AI với 2 tỷ tham số, nhiều tính năng vượt trội, tối ưu hóa hiệu suất trên phần cứng Nvidia (tăng 50%) và AMD, đồng thời mở mã nguồn cho cộng đồng phát triển.

https://siliconangle.com/2024/06/12/stability-ai-releases-sd3-medium-advanced-text-image-generating-ai-model-yet/

Không có file đính kèm.

Nguồn tham khảo

122

AI ảnh-video-music-âm thanh 2024-06-13 06:23:51

Luma AI ra mắt "Dream Machine" - công cụ tạo video AI mạnh mẽ và miễn phí cho mọi người

- Luma AI, một startup AI ở San Francisco, giới thiệu Dream Machine - hệ thống AI mạnh mẽ có khả năng tạo ra video chất lượng cao từ mô tả văn bản đơn giản.
- Dream Machine cho phép người dùng nhập một lời nhắc mô tả và trong khoảng 2 phút, tạo ra một đoạn video 5 giây chân thực khớp với cảnh đó.
- Người dùng thử nghiệm beta sớm khen ngợi khả năng tái tạo trung thực các đối tượng, nhân vật, hành động và môi trường được chỉ định, đồng thời duy trì chuyển động mượt mà và kể chuyện mạch lạc.
- Việc ra mắt Dream Machine đại diện cho một cột mốc quan trọng trong việc dân chủ hóa tạo sinh video AI.
- Trong khi các hệ thống đối thủ như OpenAI's Sora và Kuaishou's Kling chỉ tiếp cận được với một nhóm đối tác chọn lọc, Luma AI đã làm cho Dream Machine có sẵn miễn phí trên trang web của mình cho bất kỳ ai thử nghiệm.
- Luma AI có kế hoạch phát hành API và plugin cho các phần mềm sáng tạo phổ biến.
- Cách tiếp cận mở này có thể giúp Luma AI có một khởi đầu thuận lợi trong việc xây dựng một cộng đồng sáng tạo và nhà phát triển sôi động xung quanh nền tảng của mình.
- Bằng cách hạ thấp rào cản gia nhập, Dream Machine có tiềm năng châm ngòi cho một làn sóng đổi mới và sáng tạo khi người dùng khám phá các khả năng của video do AI tạo ra.

📌 Luma AI đã ra mắt Dream Machine, một hệ thống AI mạnh mẽ tạo video chất lượng cao từ văn bản, miễn phí cho mọi người sử dụng. Công cụ này hứa hẹn dân chủ hóa việc tạo video AI, mở ra cơ hội cho các nhà sáng tạo và doanh nghiệp sản xuất nội dung gốc với tốc độ và quy mô chưa từng có, đồng thời thúc đẩy một cộng đồng năng động xung quanh nền tảng của Luma AI.

https://venturebeat.com/ai/luma-ai-debuts-dream-machine-for-realistic-video-generation-heating-up-ai-media-race/

Không có file đính kèm.

Nguồn tham khảo

171

AI ảnh-video-music-âm thanh 2024-06-11 23:35:03

Bước đột phá: VALL-E 2 của Microsoft đạt khả năng tổng hợp giọng nói ngang ngửa con người

- Microsoft giới thiệu VALL-E 2, một mô hình ngôn ngữ codec neural đạt được hiệu suất cấp độ con người trong tổng hợp giọng nói zero-shot text-to-speech (TTS).
- Mô hình sử dụng hai tính năng mới: Repetition Aware Sampling và Grouped Code Modeling để cải thiện độ ổn định và hiệu quả của quá trình tổng hợp giọng nói.
- Repetition Aware Sampling cải tiến phương pháp nucleus sampling truyền thống bằng cách xem xét sự lặp lại token trong lịch sử giải mã, giúp cải thiện độ ổn định và ngăn chặn các vấn đề vòng lặp vô hạn.
- Grouped Code Modeling tổ chức các mã codec thành các nhóm để giảm độ dài chuỗi, tăng tốc độ suy luận và giải quyết các thách thức liên quan đến mô hình chuỗi dài.
- VALL-E 2 có thể tổng hợp giọng nói với độ chính xác và tự nhiên cao, ngay cả với các câu phức tạp. Mô hình chỉ yêu cầu dữ liệu cặp giọng nói-bản ghi âm đơn giản để huấn luyện.
- Mô hình đã được đánh giá trên các bộ dữ liệu LibriSpeech và VCTK, thể hiện hiệu suất vượt trội về độ mạnh mẽ, tính tự nhiên và sự tương đồng của giọng nói so với các hệ thống trước đây.
- VALL-E 2 là mô hình đầu tiên đạt được sự tương đương với con người trên các tiêu chuẩn này, tạo ra giọng nói chất lượng cao cho các câu phức tạp và lặp lại.
- Khả năng của VALL-E 2 có thể đặc biệt hữu ích trong việc tạo giọng nói cho những người bị suy giảm khả năng nói, chẳng hạn như những người mắc chứng mất ngôn ngữ hoặc bệnh xơ cứng teo cơ một bên.
- Mặc dù mô hình mới có tiềm năng đáng kể, nhưng nó cũng mang lại rủi ro lạm dụng, chẳng hạn như giả mạo giọng nói hoặc mạo danh. Mô hình giả định sự đồng ý của người dùng cho việc tổng hợp giọng nói.
- Trong các ứng dụng thực tế, VALL-E 2 nên bao gồm các giao thức phê duyệt của người nói và phát hiện giọng nói tổng hợp để ngăn chặn sự lạm dụng.

📌 VALL-E 2 của Microsoft đánh dấu bước tiến quan trọng trong lĩnh vực tổng hợp giọng nói, đạt được hiệu suất ngang ngửa con người với các tính năng mới như Repetition Aware Sampling và Grouped Code Modeling. Mô hình mới mang lại tiềm năng to lớn trong việc hỗ trợ người dùng có vấn đề về giọng nói, tuy nhiên cũng cần có các biện pháp bảo vệ để tránh bị lạm dụng.

https://analyticsindiamag.com/microsoft-rolls-out-vall-e-2-attains-human-level-speech-synthesis/

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-06-11 16:25:39

smallest.ai ra mắt AWAAZ - mô hình chuyển văn bản thành giọng nói đa ngôn ngữ, đa ngữ điệu cho ngôn ngữ Ấn Độ

- smallest.ai giới thiệu phiên bản beta của AWAAZ - mô hình chuyển văn bản thành giọng nói (TTS) cho các ngôn ngữ Ấn Độ.
- AWAAZ có điểm Mean Opinion Score (MOS) tốt nhất cho tiếng Hindi và tiếng Anh Ấn Độ, có thể nói trên 10 ngữ điệu.
- Mô hình cho phép tạo giọng nói chỉ từ đoạn âm thanh 5 giây và có độ trễ streaming thấp 200ms.
- Giá 999 Rupee cho 500.000 ký tự, rẻ hơn 10 lần so với đối thủ.
- smallest.ai phát triển AWAAZ do thiếu các mô hình TTS chất lượng cao và giá cả phải chăng cho ngôn ngữ Ấn Độ.
- Các mô hình hiện tại hoặc chất lượng kém hoặc quá đắt, đặc biệt khi mở rộng quy mô.
- AWAAZ sử dụng bộ dữ liệu đa ngôn ngữ, đa ngữ điệu chất lượng cao, tập trung vào Ấn Độ và Nam Á.
- Demo về khả năng của AWAAZ đã có sẵn, smallest.ai đang tìm kiếm phản hồi từ người dùng.
- Các tính năng chính: độ trễ ~200ms, thông lượng chuyên dụng, bảo mật doanh nghiệp, tuân thủ tùy chỉnh, giảm giá cho doanh nghiệp.
- smallest.ai được thành lập năm 2023 tại San Francisco bởi Sudarshan Kamath và Akshat Mandloi, mới ra mắt gần đây.

📌 smallest.ai đã ra mắt phiên bản beta của AWAAZ - mô hình TTS đa ngôn ngữ, đa ngữ điệu cho các ngôn ngữ Ấn Độ với chất lượng tốt nhất, giá chỉ 999 Rupee cho 500.000 ký tự. AWAAZ giải quyết vấn đề thiếu các mô hình TTS chất lượng cao và giá cả phải chăng cho ngôn ngữ Ấn Độ, sử dụng bộ dữ liệu đa ngôn ngữ chất lượng cao, tập trung vào Ấn Độ và Nam Á.

https://analyticsindiamag.com/smallest-ai-launches-awaaz-a-multi-lingual-multi-accent-text-to-speech-model-in-indian-languages/

Không có file đính kèm.

Nguồn tham khảo

205

AI ảnh-video-music-âm thanh 2024-06-08 07:45:19

stability ai ra mắt công cụ tạo nhạc từ văn bản stable audio open

- Stability AI, nổi tiếng với công cụ tạo hình ảnh Stable Diffusion, đã ra mắt mô hình AI mở mới cho việc tạo âm thanh và nhạc, gọi là Stable Audio Open.
- Stable Audio Open được huấn luyện hoàn toàn trên nhạc miễn phí bản quyền và có thể biến mô tả văn bản thành bản ghi âm dài tới 47 giây.
- Ví dụ về các bản ghi âm được tạo ra từ các mô tả như "tiếng chim Blackbird, mùa hè, hoàng hôn trong rừng" và "nhịp rock chơi trong studio, trống phiên trên bộ trống acoustic" đã được cung cấp.
- Stable Audio Open dựa trên công cụ tạo âm thanh thương mại của công ty, Stable Audio, ra mắt lần đầu vào tháng 9 và được cải tiến với phiên bản Stable Audio 2.0 vào tháng 4, tăng cường độ rõ ràng và kéo dài thời lượng âm thanh.
- Khác với mô hình thương mại được huấn luyện trên nguồn nhạc có bản quyền, Stable Audio Open chỉ được huấn luyện trên 486.000 mẫu từ các thư viện nhạc miễn phí như Free Music Archive và FreeSound, do đó chất lượng âm thanh có thể không bằng.
- Công cụ này được thiết kế cho các nhạc sĩ và nhà làm phim cần tạo nhịp trống, đoạn nhạc cụ, âm thanh môi trường và các yếu tố sản xuất.
- Ngoài ra, công cụ còn có thể chỉnh sửa các bài hát hiện có hoặc áp dụng phong cách mới, như jazz mượt mà, cho một bài hát ở phong cách khác.
- Một lợi ích thú vị của Stable Audio Open là người dùng có thể tinh chỉnh mô hình với âm thanh của riêng họ, ví dụ như tải lên các bản ghi trống hoặc đoạn guitar của mình để tạo ra âm thanh mới theo phong cách riêng.
- Tuy nhiên, tính mở của Stable Audio Open cũng giới hạn tính hữu ích của nó. Mô hình này không nhằm tạo ra các bài hát hoàn chỉnh mà chỉ tạo ra các đoạn âm thanh ngắn dùng làm hiệu ứng âm nhạc. Để tạo ra các bài hát hoàn chỉnh hoặc có lời, người dùng nên sử dụng dịch vụ cao cấp Stable Audio 2.0 hoặc nền tảng khác như của Suno Inc.
- Stability AI thừa nhận rằng mô hình không hoạt động tốt khi người dùng đưa ra yêu cầu bằng các ngôn ngữ khác ngoài tiếng Anh, do thiếu dữ liệu huấn luyện phù hợp.
- Mặc dù được gọi là nguồn mở, Stable Audio Open chỉ có sẵn dưới giấy phép cộng đồng nghiên cứu phi thương mại của Stability AI, cấm sử dụng thương mại bất kỳ âm thanh nào được tạo ra.
- Quyết định ra mắt phiên bản mở của công cụ tạo âm thanh đến không lâu sau khi phó chủ tịch âm thanh tạo sinh của Stability AI, Ed Newton-Rex, từ chức vì chính sách sử dụng tác phẩm có bản quyền để huấn luyện mô hình của công ty.
- Vấn đề bản quyền trở thành một trong những vấn đề gây tranh cãi nhất xung quanh AI khi công nghệ này ngày càng phổ biến. Nhiều nhạc sĩ và các nghệ sĩ sáng tạo khác lo ngại rằng họ có thể bị thay thế bởi các mô hình AI được huấn luyện trên tác phẩm của họ.
- Stability AI cho rằng việc sử dụng nhạc có bản quyền để huấn luyện mô hình AI là hợp lý theo nguyên tắc "sử dụng hợp lý", nhưng có tranh cãi về định nghĩa chính xác của "sử dụng hợp lý".
- Trong thư từ chức, Newton-Rex lập luận rằng việc huấn luyện AI trên tác phẩm có bản quyền không thể được coi là sử dụng hợp lý vì ảnh hưởng đến giá trị thị trường tiềm năng của nội dung đó.
- Hơn 200 nghệ sĩ lớn trên thế giới đã ký một bức thư ngỏ phản đối việc sử dụng AI trong âm nhạc, gọi đó là "cuộc tấn công vào sự sáng tạo của con người".
- Một số nhà lập pháp cũng có cùng quan điểm. Ví dụ, bang Tennessee đã thông qua một luật mới nhằm bảo vệ tác phẩm của nhạc sĩ khỏi bị lạm dụng bởi AI.

📌 Stability AI ra mắt công cụ Stable Audio Open, một mô hình AI mở cho phép tạo âm thanh từ mô tả văn bản, nhưng chỉ tạo ra các đoạn âm thanh ngắn và không thể sử dụng cho mục đích thương mại. Công cụ này được thiết kế cho các nhạc sĩ và nhà làm phim, nhưng có hạn chế về ngôn ngữ và chất lượng âm thanh so với phiên bản thương mại.

https://siliconangle.com/2024/06/05/stability-ai-debuts-open-version-stable-audio-music-generator-tool/

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh 2024-06-08 06:40:30

Kling - mô hình video AI mới của Trung Quốc thách thức Sora của OpenAI

- Kling là một mô hình video AI mới được phát triển bởi công ty nền tảng video Trung Quốc Kuaishou.
- Nó cung cấp nhiều tính năng tương tự như Sora của OpenAI, bao gồm tạo video dài hơn lên đến 2 phút ở độ phân giải 1080p 30fps, mô phỏng chính xác vật lý thế giới thực, hỗ trợ nhiều tỷ lệ khung hình và loại cảnh quay.
- Kling sử dụng mô hình khuếch tán transformer tương tự như Sora.
- Ngoài các tính năng tạo sinh, Kling còn có khả năng tái tạo khuôn mặt và cơ thể 3D tiên tiến để cải thiện biểu cảm và chuyển động chi tiết trong video.
- Trong khi Sora vẫn chưa được cung cấp rộng rãi cho công chúng, Kling dường như đã cho phép người dùng đăng ký trước thông qua danh sách chờ.
- Một số video được tạo bởi Kling đã được chia sẻ, bao gồm cảnh một cậu bé đi xe đạp, một con ngựa trong sa mạc, ai đó đang ăn mì và video chân thực về một cậu bé thưởng thức bánh hamburger.

📌 Kling, mô hình video AI mới của Kuaishou, đang thách thức vị thế của Sora với khả năng tạo video dài 2 phút ở 1080p 30fps, mô phỏng vật lý chính xác, tái tạo khuôn mặt và cơ thể 3D. Không như Sora, Kling đã mở đăng ký trước cho người dùng qua danh sách chờ.

https://www.tomsguide.com/ai/ai-image-video/forget-sora-kling-is-a-killer-new-ai-video-model-that-just-dropped-and-im-impressed

Không có file đính kèm.

Nguồn tham khảo

139

AI ảnh-video-music-âm thanh AI xã hội 2024-06-05 06:57:56

Gặp gỡ nhà nghiên cứu AI đang xây dựng các mô hình ngôn ngữ thị giác nhận thức văn hóa

- Vinija Jain, kỹ sư học máy kỳ cựu tại Amazon và nghiên cứu viên tại IIT Patna, đã công bố bài báo "How Culturally Aware are Vision-Language Models?" đánh giá độ nhạy cảm văn hóa của AI trong chú thích hình ảnh.
- Jain thu thập 1.500 hình ảnh về các loại hình múa và ẩm thực Ấn Độ, tạo ra bộ dữ liệu MOSAIC-1.5k đại diện cho sự phong phú văn hóa Ấn Độ. Cô cũng giới thiệu Điểm số Nhận thức Văn hóa (CAS) để đo lường khả năng nắm bắt ngữ cảnh văn hóa trong chú thích hình ảnh của các mô hình AI.
- Gần đây, Guneet Singh Kohli, nhà nghiên cứu AI tại GreyOrange, đã tạo ra Sanskriti Bench nhằm phát triển tiêu chuẩn văn hóa Ấn Độ để kiểm tra sự gia tăng của các mô hình AI Ấn Độ. Jain cũng bắt đầu hợp tác với Kohli cho sáng kiến này.
- Jain đang xây dựng Indic-MMLU, tập trung vào việc hiểu các ngôn ngữ Ấn Độ. Cô hy vọng sẽ phát hành tiêu chuẩn này vào cuối tháng tới.
- Jain cũng đang cố vấn cho các sinh viên của Sriparna Saha tại phòng thí nghiệm AI của IIT Patna cho nghiên cứu y tế Ấn Độ. Bài báo "M3: Multimodal, Multilingual, Medical Help Assistant" sẽ là VLM y tế đa ngôn ngữ đầu tiên của Ấn Độ.
- Jain đang làm việc để tạo ra danh mục tất cả các nghiên cứu AI Ấn Độ có tác động, bao gồm LLM, tập dữ liệu, tiêu chuẩn, framework và bộ mã hóa.

📌 Vinija Jain, một nhà nghiên cứu AI gốc Ấn, đang nỗ lực xây dựng các mô hình ngôn ngữ thị giác nhận thức văn hóa và thúc đẩy nghiên cứu AI Ấn Độ. Các dự án của cô như MOSAIC-1.5k, Indic-MMLU và M3 hướng tới việc cải thiện khả năng của AI trong việc hiểu và phục vụ cộng đồng Ấn Độ tốt hơn, đồng thời truyền cảm hứng cho nhiều nghiên cứu AI khác tại quốc gia này.

https://analyticsindiamag.com/meet-the-ai-researcher-building-culturally-aware-vision-language-models/

Không có file đính kèm.

Nguồn tham khảo

205

AI mở-nguồn mở AI ảnh-video-music-âm thanh 2024-06-02 16:05:56

Llama3-V vượt trội so với GPT-3.5 và GPT-4 với mô hình nhỏ gọn và chi phí huấn luyện dưới 500 USD

- Llama3-V là một mô hình đa phương thức dựa trên Llama3, được huấn luyện với chi phí dưới 500 đô la.
- Mô hình tích hợp thông tin hình ảnh bằng cách nhúng ảnh đầu vào thành các embedding patch sử dụng mô hình SigLIP.
- Các embedding này được căn chỉnh với token văn bản thông qua khối projection sử dụng các khối self-attention, đặt embedding hình ảnh và văn bản trên cùng một mặt phẳng.
- Token hình ảnh được thêm vào trước token văn bản và biểu diễn kết hợp được xử lý qua Llama3.
- SigLIP sử dụng sigmoid loss cho từng cặp ảnh-văn bản, chia ảnh thành các patch không chồng lấp, chiếu chúng vào không gian embedding có chiều thấp hơn và áp dụng self-attention.
- Để tối ưu hóa tài nguyên tính toán, Llama3-V sử dụng cơ chế lưu trữ đệm để tính toán trước các embedding ảnh SigLIP và tận dụng các tối ưu hóa MPS/MLX.
- Quá trình tiền huấn luyện sử dụng 600.000 cặp ảnh-văn bản, chỉ cập nhật ma trận projection. Tinh chỉnh có giám sát sử dụng 1 triệu mẫu, tập trung vào ma trận vision và projection.
- Llama3-V đạt mức tăng hiệu suất 10-20% so với Llava, mô hình hàng đầu về hiểu biết đa phương thức, và có hiệu suất tương đương với các mô hình nguồn đóng lớn hơn nhiều trên hầu hết các chỉ số, ngoại trừ MMMU.

📌 Llama3-V thể hiện những tiến bộ đáng kể trong AI đa phương thức, vượt trội hơn Llava 10-20% và sánh ngang với các mô hình nguồn đóng lớn hơn trên hầu hết các chỉ số. Với việc tích hợp SigLIP để nhúng ảnh hiệu quả và các tối ưu hóa tính toán, Llama3-V tối đa hóa việc sử dụng GPU và giảm chi phí huấn luyện, thiết lập nó như một mô hình SOTA cạnh tranh và hiệu quả cho hiểu biết đa phương thức.

https://www.marktechpost.com/2024/05/31/llama3-v-a-sota-open-source-vlm-model-comparable-performance-to-gpt4-v-gemini-ultra-claude-opus-with-a-100x-smaller-model/

Không có file đính kèm.

Nguồn tham khảo

237

AI ảnh-video-music-âm thanh 2024-06-01 08:17:04

ElevenLabs tung ra công cụ AI tạo tiếng nổ và hiệu ứng âm thanh chỉ từ một dòng lệnh

- ElevenLabs, công ty đã cung cấp các phiên bản giọng nói và âm nhạc do AI tạo ra, giờ đây cho phép mọi người tạo hiệu ứng âm thanh cho podcast, phim ảnh hoặc trò chơi.
- Công cụ Sound Effects mới có thể tạo ra đoạn âm thanh dài tới 22 giây dựa trên lời nhắc của người dùng, kết hợp với nền tảng giọng nói và âm nhạc của công ty.
- Người dùng sẽ có ít nhất 4 tùy chọn clip âm thanh có thể tải xuống cho mỗi lời nhắc.
- ElevenLabs hợp tác với nền tảng phương tiện truyền thông Shutterstock để xây dựng thư viện và huấn luyện mô hình trên các clip âm thanh của họ.
- Shutterstock đã cấp phép thư viện nội dung của mình cho nhiều công ty AI như OpenAI, Meta và Google.
- Sound Effects miễn phí sử dụng, nhưng người dùng trả phí có thể sử dụng clip âm thanh tạo ra với giấy phép thương mại. Người dùng miễn phí phải ghi công ElevenLabs bằng cách đưa "elevenlabs.io" vào tiêu đề.
- Người dùng ElevenLabs có giới hạn số lượng ký tự khi viết lời nhắc, với 10.000 ký tự/tháng cho người dùng miễn phí.
- Với Sound Effects, mỗi giây âm thanh sẽ tính 40 ký tự từ phân bổ nếu người dùng tự đặt thời lượng. Nếu dùng thời lượng mặc định, mỗi yêu cầu lời nhắc sẽ tính 200 ký tự.
- Thư viện hiệu ứng âm thanh đã tồn tại trên thị trường cho người sáng tạo, nhà làm phim và nhà phát triển game. Nhưng đôi khi chúng đắt hoặc khó tìm đúng loại âm thanh cần thiết.
- ElevenLabs thiết kế Sound Effects để tạo ra âm cảnh phong phú, sinh động, nhanh chóng, giá cả phải chăng và quy mô lớn.
- Các nhà phát triển AI khác cũng đang phát triển công cụ tạo âm thanh từ văn bản của riêng họ như Stable Audio của Stability AI và AudioCraft của Meta.

📌 ElevenLabs giới thiệu công cụ AI Sound Effects cho phép tạo hiệu ứng âm thanh tùy chỉnh lên đến 22 giây chỉ từ lời nhắc văn bản. Công ty hợp tác với Shutterstock để xây dựng thư viện huấn luyện mô hình. Công cụ miễn phí sử dụng nhưng giới hạn 10.000 ký tự lời nhắc/tháng, trong khi bản trả phí cho phép sử dụng thương mại. Đây là bước tiến mới trong cuộc đua phát triển công nghệ tạo âm thanh từ AI.

https://www.theverge.com/2024/5/31/24168898/elevenlabs-prompt-generative-ai-content

Không có file đính kèm.

Nguồn tham khảo

152

AI ảnh-video-music-âm thanh AI nhỏ AI smartphone 2024-05-22 15:15:17

Microsoft trình làng Phi-3-vision: mô hình ngôn ngữ AI nhỏ gọn phân tích ảnh

- Tại Build 2024, Microsoft đã ra mắt Phi-3-vision, phiên bản tiên tiến của mô hình ngôn ngữ AI nhỏ Phi-3. Mô hình đa phương thức mới này có khả năng xử lý và giải thích hình ảnh, nhận diện nội dung cho người dùng.
- Phi-3-vision với 4,2 tỷ tham số, được thiết kế cho thiết bị di động. Độ phức tạp của mô hình AI được thể hiện qua số lượng tham số, cho thấy mức độ huấn luyện và khả năng hiểu biết.
- Microsoft đang tinh chỉnh mô hình Phi, với Phi-3 là bản nâng cấp của Phi-2, được huấn luyện trên Phi-1 và có thêm khả năng mới.
- Khác với các mô hình nổi tiếng hơn như DALL-E của OpenAI, Phi-3-vision chỉ có thể phân tích hình ảnh chứ không thể tạo ra hình ảnh mới.
- Microsoft đã giới thiệu một số mô hình AI nhỏ, được thiết kế để sử dụng cục bộ và tương thích với nhiều thiết bị hơn so với các mô hình lớn như Gemini của Google hay ChatGPT.
- Các mô hình này hoạt động ngoại tuyến, không cần kết nối internet và giảm sức mạnh tính toán cần thiết cho các tác vụ cụ thể, như giải quyết vấn đề toán học được thể hiện qua mô hình Orca-Math của Microsoft.
- Phiên bản đầu tiên của Phi-3 được giới thiệu vào tháng 4, khi Microsoft ra mắt Phi-3-mini nhỏ gọn. Trong các bài kiểm tra chuẩn, nó vượt trội hơn các mô hình lớn hơn như Llama 2 của Meta với 3,8 tỷ tham số.
- Microsoft cũng cung cấp hai mô hình Phi-3 khác là Phi-3-small và Phi-3-medium, với lần lượt 7 tỷ và 14 tỷ tham số.
- Phi-3-vision hiện đang có sẵn trong bản xem trước. Các mô hình Phi-3 khác như Phi-3-mini, Phi-3-small và Phi-3-medium có thể truy cập thông qua danh mục mô hình Azure Machine Learning và các bộ sưu tập.
- Để sử dụng chúng, bạn sẽ cần một tài khoản Azure trả phí và trung tâm Azure AI Studio.

📌 Microsoft đã ra mắt Phi-3-vision, một mô hình ngôn ngữ AI nhỏ gọn mới với 4,2 tỷ tham số, có khả năng xử lý và giải thích hình ảnh. Đây là bản nâng cấp của Phi-3, vượt trội hơn các mô hình lớn như Llama 2 của Meta. Phi-3-vision hiện đang có sẵn trong bản xem trước cùng với các mô hình Phi-3 khác trên nền tảng Azure của Microsoft.

Citations:
[1] https://www.tomsguide.com/ai/microsofts-new-tiny-language-model-can-read-images-heres-what-you-can-use-it-for

Không có file đính kèm.

Nguồn tham khảo

265

AI ảnh-video-music-âm thanh AI bản quyền 2024-05-17 23:52:08

Sony tuyên chiến với AI âm nhạc vì những lý do sai lầm

- Sony Music cảnh báo 700 công ty AI, bao gồm Google, Microsoft và OpenAI, không được khai thác dữ liệu âm nhạc thuộc sở hữu của Sony để huấn luyện mô hình AI mà không có sự cho phép rõ ràng.
- Tuyên bố của Sony bao gồm nhiều loại tác phẩm âm nhạc, từ lời bài hát, sáng tác đến bản ghi âm và hình ảnh.
- Sony cũng yêu cầu các nền tảng nghe nhạc trực tuyến như Spotify và Apple Music áp dụng biện pháp bảo vệ cho nghệ sĩ.
- Có nhiều tranh cãi về khía cạnh pháp lý của việc khai thác và sử dụng dữ liệu để huấn luyện AI. Một số cho rằng đó là "sử dụng hợp lý", trong khi những người khác cho rằng các bên liên quan, đặc biệt là người sáng tạo, nên được bồi thường.
- Hơn 200 nghệ sĩ đã ký thư ngỏ yêu cầu các công ty công nghệ ngừng sử dụng AI để xâm phạm và hạ giá trị quyền của nghệ sĩ.
- Sony chưa hành động chống lại bất kỳ công ty phát triển AI cá nhân nào. Họ chỉ đưa ra cảnh báo, có lẽ để tránh các vụ kiện tiềm ẩn.
- Sony yêu cầu các công ty chia sẻ thông tin về việc họ có sử dụng nội dung của Sony để huấn luyện mô hình AI hay không, cách họ truy cập và thời gian lưu giữ bản sao.

📌 Sony Music đã đưa ra cảnh báo đối với 700 công ty AI về việc khai thác trái phép dữ liệu âm nhạc để huấn luyện AI. Tuy nhiên, lập trường pháp lý của Sony vẫn chưa rõ ràng trong bối cảnh có nhiều tranh cãi xoay quanh vấn đề bản quyền và sử dụng hợp lý trong lĩnh vực AI âm nhạc đang phát triển mạnh mẽ.

Citations:
[1] https://www.slashgear.com/1583935/sony-goes-to-war-with-ai-music-for-wrong-reasons/

Không có file đính kèm.

Nguồn tham khảo

153

AI ảnh-video-music-âm thanh AI xã hội 2024-05-16 05:39:00

AI tạo sinh hentai lan truyền mạnh trên Facebook, Meta không kiểm soát được

- **Thuật toán đề xuất của Facebook** đang quảng bá hình ảnh hentai khỏa thân, thường được tạo bởi AI, vào nguồn cấp tin tức của người dùng, cho thấy Meta không thể kiểm soát vấn đề spam do AI tạo ra.
- **Nhiều hình ảnh hentai** có hàng chục nghìn lượt thích và hàng trăm bình luận, một số có dấu hiệu rõ ràng là do AI tạo ra (như tay kỳ lạ, thủy vân của trình tạo hình ảnh AI), trong khi nhiều hình ảnh khác có thể bị đánh cắp từ các nghệ sĩ hentai trên internet.
- **Một số hình ảnh** có thủy vân của các nghệ sĩ trên Patreon, cho thấy nhiều hình ảnh được vẽ bởi con người nhưng bị đánh cắp để spam trên Facebook.
- **Khó phân biệt** giữa hentai do AI tạo ra và hentai do con người vẽ vì công nghệ tạo hình ảnh AI đã trở nên rất tinh vi.
- **Người dùng Facebook** đã phát hiện ra nội dung này khi một bức ảnh hentai bị làm mờ được đăng trong một nhóm AI. Từ đó, họ tìm thấy hàng chục trang chứa hình ảnh hentai khỏa thân, bao gồm cả hình ảnh của các nhân vật Disney như Elsa và Anna từ loạt phim Frozen và Misty từ Pokémon.
- **Nhiều trang spam** đăng hàng chục lần mỗi ngày, với hàng nghìn lượt thích. Các trang này thường đẩy người dùng ra khỏi nền tảng Facebook đến các nhóm Telegram hoặc các trang web đầy quảng cáo.
- **Tác giả không phản đối hentai** nhưng lo ngại về việc Facebook không thể hoặc không muốn thực thi các quy tắc của mình, đặc biệt khi nền tảng này vẫn là nơi thù địch đối với các công việc liên quan đến tình dục và các nghệ sĩ người lớn.
- **Trong quá trình báo cáo**, tác giả đã bị Facebook xóa một bài viết về porn do AI tạo ra, mặc dù bài viết không chứa nội dung khiêu dâm thực sự. Điều này cho thấy sự mâu thuẫn trong việc thực thi quy tắc của Facebook.
- **Facebook không phản hồi** khi được yêu cầu bình luận về việc kiểm duyệt spam do AI tạo ra, và nhiều hình ảnh vi phạm rõ ràng vẫn tồn tại trên nền tảng này.

📌 Facebook đang gặp khó khăn trong việc kiểm soát nội dung hentai do AI tạo ra, với hàng chục nghìn lượt thích và bình luận. Nhiều hình ảnh bị đánh cắp từ các nghệ sĩ, và Meta không thể thực thi các quy tắc của mình, gây lo ngại về sự an toàn và kiểm duyệt trên nền tảng.

https://www.404media.co/ai-generated-hentai-is-viral-all-over-facebook/

Không có file đính kèm.

Nguồn tham khảo

182

AI ảnh-video-music-âm thanh 2024-05-15 07:45:05

Gemini AI mới của Google có thể phân tích ảnh của bạn và truy xuất biển số xe của bạn

- Hội nghị Google I/O 2024 đã giới thiệu Gemini AI, một công nghệ AI tạo sinh mới của Google, được thiết kế để cạnh tranh với các mô hình AI tiên tiến khác như GPT-4 của OpenAI.
- Gemini AI có khả năng xử lý ngôn ngữ tự nhiên và tạo ra nội dung văn bản, hình ảnh, và video với độ chính xác cao.
- Google Photos được nâng cấp với tính năng "Magic Editor" sử dụng AI để chỉnh sửa ảnh tự động, bao gồm việc loại bỏ các đối tượng không mong muốn và cải thiện chất lượng hình ảnh.
- Tính năng "Ask Photos" trong Google Photos cho phép người dùng đặt câu hỏi về nội dung trong ảnh và nhận câu trả lời chi tiết từ AI.
- Google cũng giới thiệu các cải tiến trong Google Maps, bao gồm việc sử dụng AI để cung cấp thông tin giao thông và điều hướng chính xác hơn.
- Các sản phẩm khác như Google Assistant và Google Workspace cũng được cập nhật với các tính năng AI mới, giúp tăng cường hiệu suất làm việc và trải nghiệm người dùng.
- Google nhấn mạnh tầm quan trọng của việc phát triển AI một cách có trách nhiệm, đảm bảo tính minh bạch và bảo mật dữ liệu người dùng.
- Hội nghị cũng đề cập đến việc Google đang đầu tư mạnh mẽ vào nghiên cứu AI và hợp tác với các tổ chức học thuật để thúc đẩy sự phát triển của công nghệ này.

📌 Google I/O 2024 giới thiệu Gemini AI, công nghệ AI tạo sinh mới, cùng với các tính năng đột phá trong Google Photos như "Magic Editor" và "Ask Photos". Google cũng cập nhật các sản phẩm khác với AI, nhấn mạnh phát triển AI có trách nhiệm và bảo mật dữ liệu.

https://qz.com/google-i-o-developer-conference-gemini-ai-ask-photos-1851476785

Không có file đính kèm.

Nguồn tham khảo

207

AI ảnh-video-music-âm thanh 2024-05-15 07:40:27

Google ra mắt Veo, mô hình video AI tạo sinh mới, cạnh tranh với OpenAI

- Google vừa công bố Veo, một mô hình video AI tạo sinh mới, nhằm cạnh tranh trực tiếp với OpenAI.
- Veo có khả năng tạo video từ văn bản, hứa hẹn mang lại trải nghiệm video đột phá.
- Mô hình này được phát triển bởi nhóm nghiên cứu AI của Google, với mục tiêu nâng cao chất lượng và tính sáng tạo của video.
- Veo sử dụng công nghệ AI tiên tiến để phân tích và chuyển đổi văn bản thành video, giúp người dùng dễ dàng tạo nội dung video mà không cần kỹ năng chuyên môn.
- Google nhấn mạnh rằng Veo sẽ hỗ trợ nhiều ngôn ngữ và phong cách video khác nhau, từ hoạt hình đến thực tế.
- Veo được thiết kế để tích hợp dễ dàng với các nền tảng và công cụ hiện có của Google, như YouTube và Google Photos.
- Google cũng công bố hợp tác với Sora, một công ty chuyên về công nghệ AI, để phát triển và tối ưu hóa Veo.
- Sora sẽ cung cấp các công cụ và tài nguyên cần thiết để cải thiện hiệu suất và khả năng của Veo.
- Veo được kỳ vọng sẽ mở ra nhiều cơ hội mới cho các nhà sáng tạo nội dung, từ việc sản xuất video quảng cáo đến giáo dục và giải trí.
- Google cam kết sẽ tiếp tục đầu tư vào nghiên cứu và phát triển AI để mang lại những cải tiến vượt bậc cho Veo và các sản phẩm khác.

📌 Google ra mắt Veo, mô hình video AI tạo sinh mới, cạnh tranh với OpenAI. Veo có khả năng tạo video từ văn bản, hỗ trợ nhiều ngôn ngữ và phong cách video. Google hợp tác với Sora để tối ưu hóa Veo, mở ra nhiều cơ hội cho các nhà sáng tạo nội dung.

Không có file đính kèm.

Nguồn tham khảo

197

AI ảnh-video-music-âm thanh 2024-05-13 01:39:23

Tương lai của phim "nóng" đang dần chuyển sang sử dụng AI có sự đồng ý của diễn viên

- Công nghệ AI đang được áp dụng để tạo ra các hình ảnh và video khiêu dâm với sự đồng ý của người thể hiện, như trường hợp của Eva Oh.
- Lee Gentry, người sáng lập Night Visions, tập trung vào việc tái tạo hình ảnh con người một cách chính xác nhất có thể để phục vụ cho các nghệ sĩ và đại lý quản lý tài khoản OnlyFans.
- Lịch sử cho thấy công nghệ luôn được sử dụng để miêu tả các hình ảnh khiêu dâm, từ phim câm đến DVD và internet, nhưng phần lớn các sản phẩm này do nam giới sản xuất và hướng đến nam giới.
- Gần đây, phụ nữ đã bắt đầu kiểm soát việc phân phối hình ảnh của chính họ thông qua các trang web như OnlyFans, nơi họ tự sản xuất và phân phối nội dung.
- Các nghệ sĩ khiêu dâm đang sử dụng công nghệ mới như chatbots và dịch vụ hình ảnh theo yêu cầu để giữ bước với công nghệ và bảo vệ quyền lợi của mình.
- Night Visions cung cấp dịch vụ tạo hình ảnh dựa trên văn bản nhập vào và đảm bảo quá trình biết khách hàng của mình để bảo vệ quyền riêng tư và sự đồng ý.
- Các vấn đề về việc sử dụng hình ảnh không đồng ý và lạm dụng hình ảnh vẫn là một thách thức lớn, đặc biệt là trên quy mô quốc tế.
- Luật sư Simon Pulman đề cập đến sự cần thiết của việc bảo vệ nghệ sĩ khiêu dâm trên phương diện pháp lý, tương tự như các nhân vật công cộng khác.
- Eva Oh và các nghệ sĩ khác đang khám phá việc sử dụng AI để mở rộng khả năng của họ, không chỉ trong lĩnh vực khiêu dâm mà còn trong việc giáo dục và tương tác xã hội.

📌 Tương lai của ngành công nghiệp phim "nóng" đang chứng kiến sự thay đổi lớn với việc áp dụng AI, cho phép nghệ sĩ kiểm soát hình ảnh và video của mình. Các công ty như Night Visions hỗ trợ tạo hình ảnh theo yêu cầu với sự đồng ý rõ ràng, trong khi các nghệ sĩ như Eva Oh khám phá khả năng mở rộng ảnh hưởng của họ qua công nghệ AI.

Citations:
[1]https://reason.com/?p=8277

Không có file đính kèm.

Nguồn tham khảo

194

AI ảnh-video-music-âm thanh 2024-05-11 21:04:44

Elevenlabs ra mắt trình tạo nhạc AI mới với giọng hát cực kỳ tự nhiên

- ElevenLabs đang ra mắt một trình tạo nhạc trí tuệ nhân tạo mới hoàn chỉnh với giọng hát, thể hiện một số bản nhạc ấn tượng trên X để quảng bá cho sự ra mắt sắp tới.

- Âm nhạc AI đã chứng tỏ là một trong những lĩnh vực phát triển nhanh nhất của nội dung tổng hợp cho đến nay trong năm nay với bản nhạc Suno đầu tiên vượt qua 1 triệu lượt nghe và Udio ra mắt giọng hát siêu thực.

- ElevenLabs nổi tiếng với giọng nói nhân tạo nghe tự nhiên và khả năng nhân bản giọng nói chính xác đáng kinh ngạc, đã từ từ xây dựng một loạt các tính năng âm thanh AI bao gồm hiệu ứng âm thanh.

- Âm nhạc hiện đang trong giai đoạn xem trước sớm, chỉ có thể truy cập bởi nhân viên ElevenLabs nhưng các mẫu được chia sẻ cho đến nay cho thấy chất lượng vượt trội hơn Udio trên nhiều thể loại.

- Các ví dụ về nhạc jazz, pop, dubstep và đồng quê đã được các nhân viên ElevenLabs chia sẻ cũng như tài khoản X chính cho nền tảng âm thanh tổng hợp, dựa trên các gợi ý từ người dùng.

- ElevenLabs viết trong một tweet rằng "Tất cả các bài hát trong chuỗi này đều được tạo ra từ một lời nhắc văn bản duy nhất mà không có chỉnh sửa nào." Điều này thật ấn tượng.

- Bài hát đầu tiên có tiêu đề 'It Started to Sing' với phong cách "pop pop-rock, country, top charts song" và nó đã thực hiện đúng như lời hứa.

📌 ElevenLabs đang chuẩn bị ra mắt trình tạo nhạc AI mới với khả năng tạo ra các bản nhạc dài 2-3 phút hoàn chỉnh với giọng hát tự nhiên chỉ từ một dòng prompt duy nhất, vượt trội hơn hẳn Udio và Suno. Các mẫu nhạc được chia sẻ cho thấy chất lượng ấn tượng trên nhiều thể loại như jazz, pop, dubstep, đồng quê.

Citations:
[1] https://www.tomsguide.com/ai/elevenlabs-is-launching-a-new-ai-music-generator-and-you-have-to-hear-these-clips-to-appreciate-it

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh AI bản quyền 2024-05-11 08:55:43

OpenAI một lần nữa từ chối trả lời câu hỏi liệu họ có sử dụng nội dung của người dùng để huấn luyện mô hình AI mới của họ, Sora hay không

- OpenAI một lần nữa từ chối trả lời câu hỏi liệu họ có sử dụng nội dung của người dùng để huấn luyện mô hình AI mới của họ, Sora hay không.
- Câu hỏi này đã được đặt ra trong một cuộc phỏng vấn gần đây với đại diện của OpenAI, nhưng không nhận được câu trả lời rõ ràng.
- Sự từ chối này tiếp tục gây ra lo ngại trong cộng đồng về vấn đề quyền riêng tư và sử dụng dữ liệu cá nhân mà không có sự đồng ý của người dùng.
- Trong quá khứ, OpenAI đã bị chỉ trích vì không minh bạch về nguồn dữ liệu huấn luyện cho các mô hình AI của mình, và vấn đề này vẫn chưa được giải quyết.
- Người dùng và chuyên gia trong lĩnh vực công nghệ đều bày tỏ sự quan ngại về khả năng vi phạm quyền riêng tư và thiếu kiểm soát dữ liệu cá nhân.
- Một số người dùng đã kêu gọi OpenAI công bố rõ ràng các nguồn dữ liệu mà họ sử dụng để huấn luyện các mô hình AI, để người dùng có thể hiểu rõ hơn về cách thức dữ liệu của họ được sử dụng.
- Các tổ chức bảo vệ quyền riêng tư cũng đã lên tiếng yêu cầu có sự minh bạch hơn từ các công ty công nghệ lớn như OpenAI, đặc biệt là khi các công nghệ mới ngày càng ảnh hưởng đến đời sống cá nhân.

📌 OpenAI tiếp tục từ chối xác nhận việc sử dụng nội dung cá nhân trong huấn luyện AI Sora, gây ra lo ngại về quyền riêng tư. Cộng đồng và các tổ chức bảo vệ quyền riêng tư đang yêu cầu minh bạch hơn về nguồn dữ liệu được sử dụng.

Citations:
[1] https://petapixel.com/2024/05/10/openai-again-refuses-to-say-if-it-used-your-content-to-train-sora/

Không có file đính kèm.

Nguồn tham khảo

208

AI ảnh-video-music-âm thanh 2024-05-10 14:53:44

Krea AI ra mắt khả năng tạo video AI cho người đăng ký trả phí, cạnh tranh với Runway và Pika

- Krea AI, một công ty khởi nghiệp về truyền thông AI tạo sinh ít được biết đến ở San Francisco do Victor Pérez và Diego Rodriguez đồng sáng lập, đã ra mắt phiên bản beta công khai vào cuối năm 2023.
- Ban đầu, Krea cung cấp tính năng nâng cấp hình ảnh AI, sau đó bổ sung khả năng tạo hình ảnh AI thời gian thực và giao diện người dùng mới với các công cụ vẽ dựa trên con trỏ.
- Mới đây, Krea đã nâng cấp để cho phép người đăng ký gói Max (60 đô la/tháng) tạo video bằng AI. Người dùng có thể truy cập trang web Krea AI và chọn mục "Video" để bắt đầu dự án video mới.
- Người dùng có thể hủy quá trình tạo video bất kỳ lúc nào, mang lại sự kiểm soát và hiệu quả cao hơn.
- Mặc dù chưa đạt được độ chân thực như các đối thủ, Krea Video vẫn có thể tạo ra video mượt mà, chuyển cảnh độc đáo, cuốn hút và hình ảnh hoạt hình ấn tượng.
- Khả năng này không chỉ giúp Krea AI nổi bật so với các đối thủ mà còn thu hút gần một triệu người dùng.

📌 Krea AI đã nâng cấp để cung cấp tính năng tạo video AI cho người đăng ký gói Max với giá 60 đô la/tháng. Mặc dù chưa đạt độ chân thực như đối thủ, Krea Video vẫn tạo ra được video mượt mà, chuyển cảnh độc đáo và hình ảnh ấn tượng, giúp công ty thu hút gần 1 triệu người dùng.

Citations:
[1] https://venturebeat.com/ai/a-new-video-ai-generator-emerges-krea-ai-adds-capabilities-for-paid-subscribers/

Không có file đính kèm.

Nguồn tham khảo

245

AI ảnh-video-music-âm thanh 2024-05-10 07:45:35

Liên hoan phim AI quốc tế lần thứ 2 do Runway tổ chức đánh dấu bước ngoặt cho sự hội nhập của AI tạo sinh vào Hollywood

- Liên hoan phim AI quốc tế lần thứ 2 (AIFF) do Runway tổ chức diễn ra tại Nhà hát Orpheum ở Trung tâm Los Angeles vào ngày 1/5, thu hút hơn 400 nhà sản xuất, họa sĩ hoạt hình, diễn viên và đạo diễn tham dự.
- Sự kiện có sự hợp tác của Liên hoan phim Tribeca và Liên hoan phim quốc tế Geneva (GIFF), đánh dấu bước ngoặt cho sự hội nhập của AI tạo sinh vào Hollywood.
- Các bộ phim được trình chiếu sử dụng các mô hình AI Gen-1 và Gen-2 của Runway cùng các công cụ AI khác như Luma AI, ComfyUI, kết hợp với các kỹ thuật làm phim truyền thống.
- Đạo diễn Daniel Antebi chia sẻ họ dùng Luma AI để tái tạo và ghi lại môi trường 3D, công cụ video-to-video của Runway để tăng cường hiệu ứng, và ComfyUI để tạo ra diễn viên hoàn toàn bằng cơ bắp nhờ AI.
- Caleb Ward, người điều hành khóa học làm phim AI nổi tiếng Curious Refuge, tiết lộ ông sẽ mang đến sự hiện diện đáng kể của phim AI tại Liên hoan phim Cannes 2024 tại Pháp (14-25/5).
- Anastasis Germanidis, đồng sáng lập và CTO của Runway, cho biết họ sẽ tiếp tục xây dựng các công cụ giúp người dùng kiểm soát tốt hơn việc chỉ đạo nghệ thuật.
- Alejandro Matamala, đồng sáng lập và CDO của Runway, nói rằng chúng ta sẽ tiếp tục chứng kiến các nhà sáng tạo nâng cao khả năng - nhà văn sẽ trở thành họa sĩ hoạt hình, họa sĩ hoạt hình sẽ chuyển sang làm đạo diễn.

📌 Liên hoan phim AI quốc tế lần 2 của Runway quy tụ hơn 400 người trong ngành công nghiệp điện ảnh, đánh dấu bước ngoặt cho sự hội nhập của AI tạo sinh vào Hollywood. Các bộ phim sử dụng công nghệ AI của Runway và các công cụ khác, hứa hẹn giúp các nhà sáng tạo nâng tầm khả năng trong tương lai.

Citations:
[1] https://venturebeat.com/ai/runways-la-film-festival-marked-an-inflection-point-for-ai-movies/

Không có file đính kèm.

Nguồn tham khảo

179

AI startup-M&A AI ảnh-video-music-âm thanh 2024-05-09 06:44:33

Zhipu AI của Trung Quốc sẵn sàng tung ra đối thủ của Sora vào năm 2024, thách thức thế lực OpenAI

- Zhipu AI, một start-up hàng đầu về AI tạo sinh tại Trung Quốc, có kế hoạch phát hành dịch vụ chuyển đổi văn bản thành video, nhằm cạnh tranh với Sora của OpenAI vào cuối năm nay.
- Công ty có trụ sở tại Bắc Kinh này đã bắt đầu phát triển mô hình ngôn ngữ lớn (LLM) cho video trước khi OpenAI công bố các đoạn video do Sora tạo ra vào tháng Hai.
- Zhipu AI dự đoán sự bùng nổ của các LLM có khả năng chuyển đổi các lệnh văn bản thành video trong năm nay do nhu cầu đa dạng từ các khách hàng trong lĩnh vực phim ảnh đến sản xuất trò chơi điện tử.
- Công ty này dự kiến ra mắt "công cụ chuyển đổi văn bản thành video chất lượng cao" vào năm nay.
- Các công ty Trung Quốc đã đua nhau bắt kịp các công ty AI tạo sinh hàng đầu thế giới kể từ khi OpenAI, được hỗ trợ bởi Microsoft, giới thiệu bot trò chuyện ChatGPT vào cuối năm 2022 và sau đó là Sora vào tháng Hai năm nay.
- Công ty khởi nghiệp có trụ sở tại Bắc Kinh, Shengshu Technology và Đại học Thanh Hoa, đã phát hành công cụ chuyển đổi văn bản thành video Vidu, được coi là hy vọng tốt nhất của Trung Quốc cho đến nay trong việc cạnh tranh với Sora.
- Mô hình AI của Shengshu có thể tạo ra các video với độ phân giải 1080p không dài hơn 16 giây dựa trên các lệnh văn bản đơn giản.
- Dịch vụ của OpenAI hiện không chính thức có mặt tại Trung Quốc, nơi có khoảng 200 LLM đã xuất hiện, theo số liệu chính phủ gần đây.
- Zhipu AI, được thành lập vào năm 2019 bởi một nhóm sinh viên tốt nghiệp khoa học máy tính từ Đại học Thanh Hoa, là một trong những công ty Trung Quốc đầu tiên khám phá phát triển LLMs.
- Zhipu AI được biết đến là một trong "4 con hổ AI mới" của Trung Quốc, cùng với các start-up Moonshot AI, Baichuan và MiniMax.
- Công ty này được các quỹ đầu tư mạo hiểm và các gã khổng lồ công nghệ trong nước hậu thuẫn, bao gồm Tencent Holdings, Meituan, Xiaomi và Alibaba Group Holding.
- Zhipu AI đã huy động được 2,5 tỷ nhân dân tệ (khoảng 346 triệu USD) từ các nhà đầu tư vào năm ngoái.
- Một đánh giá gần đây của Đại học Thanh Hoa, đã xem xét 14 LLM đại diện từ Trung Quốc và nước ngoài, xếp hạng GLM-4 của Zhipu AI là một trong hai mô hình hàng đầu trong nước.

📌 Zhipu AI, một start-up AI hàng đầu của Trung Quốc, dự kiến sẽ ra mắt công cụ chuyển đổi văn bản thành video vào cuối năm 2024 để cạnh tranh với Sora của OpenAI. Công ty này đã phát triển mô hình ngôn ngữ lớn cho video và được hỗ trợ bởi các tập đoàn công nghệ lớn như Tencent và Alibaba. GLM-4 của họ được xếp hạng cao trong các mô hình ngôn ngữ lớn tại Trung Quốc.

https://www.scmp.com/tech/tech-trends/article/3261770/chinese-unicorn-zhipu-ai-launch-sora-rival-early-2024-amid-local-race-catch-openai-report

Không có file đính kèm.

Nguồn tham khảo

197

AI ảnh-video-music-âm thanh 2024-05-06 23:59:34

Sarvam AI: Liệu có phải là OpenAI của Ấn Độ?

- Sarvam AI, được thành lập vào tháng 7 năm 2023 tại Bengaluru, Ấn Độ, bởi Vivek Raghavan và Pratyush Kumar, nhằm mục đích làm cho AI sinh tạo trở nên dễ tiếp cận hơn cho mọi người tại Ấn Độ.

- Công ty đã huy động được 41 triệu USD trong vòng gọi vốn Series A vào tháng 12 năm trước, với sự tham gia của Lightspeed Ventures, Peak XV Partners và Khosla Ventures.
- Sarvam AI hiện có một đội ngũ nhỏ gồm 25 thành viên và không có kế hoạch mở rộng đáng kể, chỉ dự kiến tăng lên 30-40 người.
- Công ty đã phát triển và cung cấp nguồn mở mô hình LLM tiếng Hindi OpenHathi dựa trên Llama 2 của Meta, và đã được tải xuống hơn 18.000 lần trong tháng trước trên Hugging Face.
- Sarvam AI cũng đã phát hành nguồn mở bộ dữ liệu "Samvaad", bao gồm 100.000 cuộc đối thoại chất lượng cao bằng tiếng Anh, Hindi và Hinglish, với tổng cộng hơn 700,000 lượt trao đổi.
- Công ty đang hợp tác với Meta để xây dựng các mô hình LLM bản địa và đã thử nghiệm với các mô hình nguồn mở khác như Mistral và Databricks DBRX.
- Sarvam AI không chỉ tập trung vào việc xây dựng LLM từ đầu mà còn nhấn mạnh việc tạo ra các sản phẩm hữu ích cho thị trường và thúc đẩy AI sinh tạo tiến lên tại Ấn Độ.
- Công ty cũng đang phát triển các hệ thống agentic, cho phép người dùng không chỉ nhận thông tin mà còn có thể thực hiện hành động, và dự kiến sẽ công bố những phát triển này trong những tháng tới.
- Sarvam AI nhấn mạnh vào việc sử dụng giao diện giọng nói, với kế hoạch hỗ trợ 10 ngôn ngữ và có thể mở rộng thêm trong tương lai.

📌 Sarvam AI, với trụ sở tại Bengaluru, đã huy động được 41 triệu USD và phát triển các mô hình LLM như OpenHathi. Công ty tập trung vào AI sinh tạo với các ứng dụng tiếng Ấn Độ và hệ thống agentic, hướng tới việc mở rộng hỗ trợ ngôn ngữ và giao diện giọng nói.

https://analyticsindiamag.com/is-sarvam-ai-the-openai-of-india/

Không có file đính kèm.

Nguồn tham khảo

189

AI ảnh-video-music-âm thanh 2024-05-06 23:07:52

kỷ nguyên âm nhạc AI: cơ hội hay thách thức cho ngành công nghiệp âm nhạc?

- "Simplicity’s Delight" là một bài hát pop được tạo ra bởi phần mềm của Suno Inc, một startup chuyên về công nghệ AI trong âm nhạc, cho thấy khả năng tạo ra âm nhạc nghe như do con người thực hiện chỉ trong vài giây.
- Các công ty khởi nghiệp AI như Suno và Udio đang dẫn đầu cuộc cách mạng âm nhạc AI, với Suno cho phép tạo bài hát lên đến hai phút và Udio cho phép tạo nhạc trong khoảng 30 giây.
- Cả hai công ty đều cung cấp các phiên bản miễn phí: người dùng Udio có thể tạo 1.200 bài hát mỗi tháng trong khi sản phẩm vẫn đang thử nghiệm beta, và người dùng Suno có thể tạo 10 bài hát mỗi ngày hoặc trả phí hàng tháng để nhận thêm tính năng.
- Các nghệ sĩ và nhãn hiệu âm nhạc lo ngại về tác động của AI đến sinh kế của họ và đã kêu gọi hạn chế sử dụng AI trong âm nhạc, với hàng trăm nghệ sĩ ký vào một bức thư ngỏ.
- Các công ty lớn như OpenAI và Google đã thử nghiệm tính năng tạo nhạc AI nhưng chưa đưa ra thị trường dưới dạng sản phẩm tiêu dùng, trong khi đó Google DeepMind đã giới thiệu nhưng chưa phát hành công cụ tạo nhạc Lyria.
- Các công ty AI đang đối mặt với các thách thức pháp lý liên quan đến bản quyền và sử dụng dữ liệu đào tạo, với các vụ kiện từ các nhà xuất bản âm nhạc và các nhãn hiệu lớn.
- Suno và Udio không tiết lộ dữ liệu đào tạo cụ thể của họ, nhưng đều khẳng định rằng họ tuân thủ pháp luật và đang tìm cách bồi thường công bằng cho các nghệ sĩ.

📌 Kỷ nguyên âm nhạc AI đang dần hình thành với các công ty như Suno và Udio dẫn đầu, tạo ra âm nhạc nghe như do con người thực hiện. Tuy nhiên, điều này cũng đặt ra những lo ngại về bản quyền và tác động đến ngành công nghiệp âm nhạc, với các nghệ sĩ và nhãn hiệu đang kêu gọi hạn chế sử dụng AI.

Citations:
[1] https://www.bloomberg.com/news/articles/2024-05-06/suno-udio-and-more-the-ai-music-era-is-here-not-everyone-is-a-fan

Không có file đính kèm.

Nguồn tham khảo

175

AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh 2024-05-05 00:56:59

Sức mạnh đột phá của ElevenLabs: Nhân bản giọng nói và xóa bỏ rào cản ngôn ngữ

- ElevenLabs, một công ty khởi nghiệp AI đột phá, cho phép người dùng dễ dàng nhân bản giọng nói của mình hoặc tạo ra giọng nói mới.
- Công ty cung cấp khả năng tạo giọng nói với các giọng điệu, ngữ điệu khác nhau và lồng tiếng clip sang nhiều ngôn ngữ.
- ElevenLabs được thành lập bởi Mati Staniszewski và Piotr Dabkowski từ Ba Lan, với tầm nhìn về tương lai nơi giọng nói AI sẽ chấm dứt việc lồng tiếng một cách vụng về.
- Với chỉ 7 nhà nghiên cứu, ElevenLabs đã xây dựng công cụ giọng nói vượt trội so với các gã khổng lồ công nghệ có hàng trăm, hàng nghìn nhân viên.
- Tham vọng của công ty vượt ra ngoài việc nhân bản giọng nói, hướng tới việc loại bỏ hoàn toàn rào cản ngôn ngữ.
- ElevenLabs đang phát triển công cụ lồng tiếng dịch giọng nói của người nói sang ngôn ngữ khác và công cụ dịch ngay lập tức mọi âm thanh xung quanh một người sang ngôn ngữ họ có thể hiểu.
- Tuy nhiên, sức mạnh lớn đi kèm với trách nhiệm lớn. Các chatbot giọng nói của ElevenLabs đã bị lạm dụng ngay sau khi ra mắt, với việc những kẻ quấy rối tạo ra deepfake của người nổi tiếng nói những điều khủng khiếp.

📌 ElevenLabs đang dẫn đầu cuộc cách mạng về công nghệ nhân bản giọng nói và dịch ngôn ngữ với chỉ 7 nhà nghiên cứu. Tuy nhiên, việc lạm dụng công nghệ này để tạo deepfake cho thấy trách nhiệm đi kèm với sức mạnh của AI là rất lớn, đòi hỏi sự chuẩn bị kỹ lưỡng của các nhà sáng lập.

Citations:
[1] https://www.theatlantic.com/technology/archive/2024/05/elevenlabs-ai-voice-cloning-deepfakes/678288/

Không có file đính kèm.

Nguồn tham khảo

162

AI ảnh-video-music-âm thanh 2024-05-03 00:14:09

Ideogram tung gói Pro: 12.000 ảnh tạo bởi AI siêu tốc mỗi tháng, đấu với "ông lớn"

- Ideogram, một startup AI đến từ Toronto, Canada, do các nhà nghiên cứu cũ của Google Brain sáng lập, vừa công bố gói Pro mới dành cho những người sáng tạo chuyên nghiệp và năng suất nhất.
- Gói Pro có giá 48 USD/tháng (thanh toán hàng năm) hoặc 60 USD (thanh toán hàng tháng), bổ sung vào các gói miễn phí, Basic (7 USD/tháng) và Plus (16 USD/tháng) hiện có.
- Gói Pro cho phép người dùng đệ trình tới 3.000 prompt văn bản mỗi tháng lên ứng dụng web tạo ảnh AI của Ideogram, tất cả sẽ được ưu tiên tạo ảnh nhanh, mất dưới 15 giây để tạo 4 ảnh cùng lúc, tổng cộng 12.000 ảnh mỗi tháng.
- Tính năng giữ kín các tác phẩm được tạo ra khỏi cộng đồng và nguồn cấp dữ liệu công khai của Ideogram, cũng như tải lên ảnh của chính mình để remix cũng có trong gói Pro.
- Tuy nhiên, hình ảnh được tạo trên Ideogram không đi kèm bảo hiểm cho doanh nghiệp như OpenAI và Adobe cung cấp, nên người dùng lo ngại về vi phạm bản quyền tiềm ẩn có thể ít sử dụng công cụ này cho các dự án thương mại như quảng cáo, tiếp thị, tài liệu bán hàng, v.v.
- Ideogram dường như cho phép sử dụng thương mại dựa trên điều khoản dịch vụ của họ.

📌 Ideogram đã ra mắt gói Pro với mức giá 48-60 USD/tháng, cung cấp 12.000 ảnh được tạo nhanh bởi AI mỗi tháng cùng các tính năng nâng cao, nhằm cạnh tranh với các đại gia như Adobe và Meta. Tuy nhiên, hình ảnh tạo ra không có bảo hiểm cho doanh nghiệp, có thể gây e ngại về vi phạm bản quyền khi sử dụng cho mục đích thương mại.

Citations:
[1] https://venturebeat.com/ai/ideogram-launches-pro-tier-with-12000-fast-ai-image-generations-per-month/

Không có file đính kèm.

Nguồn tham khảo

138

AI ảnh-video-music-âm thanh AI startup-M&A 2024-05-01 07:42:56

Versus ra mắt nền tảng AI Vivi biến nội dung thụ động thành trải nghiệm tương tác

- Versus, một công ty khởi nghiệp về AI, đã ra mắt Vivi, một nền tảng cho phép người dùng tạo nội dung tương tác từ văn bản, hình ảnh và video chỉ trong vài phút.
- Vivi sử dụng các mô hình ngôn ngữ lớn và thị giác máy tính để phân tích nội dung và tạo ra các trải nghiệm tương tác như trò chơi, bài kiểm tra và hội thoại.
- Người dùng chỉ cần cung cấp URL, văn bản hoặc hình ảnh và Vivi sẽ tự động tạo nội dung tương tác mà không cần kỹ năng lập trình.
- Vivi hỗ trợ nhiều loại nội dung như bài báo, bài đăng trên blog, sách điện tử, bài thuyết trình, hình ảnh sản phẩm và video.
- Nền tảng này nhằm mục đích giúp các nhà tiếp thị, nhà giáo dục và người sáng tạo nội dung thu hút khán giả và tăng sự tương tác.
- Vivi cung cấp các mẫu tùy chỉnh, chủ đề và cài đặt để người dùng có thể điều chỉnh nội dung tương tác theo nhu cầu của họ.
- Người dùng cũng có thể nhúng nội dung Vivi vào trang web hoặc ứng dụng của họ bằng một dòng mã đơn giản.
- Versus đã huy động được 4 triệu USD từ các nhà đầu tư để phát triển nền tảng Vivi.
- Công ty có kế hoạch mở rộng sang các lĩnh vực khác như truyền thông xã hội, thương mại điện tử và chăm sóc sức khỏe trong tương lai.

📌 Vivi, nền tảng AI mới của Versus, cho phép tạo nội dung tương tác từ văn bản, hình ảnh và video trong vài phút mà không cần kỹ năng lập trình. Với khoản đầu tư 4 triệu USD, Vivi hướng tới việc thu hút người dùng và tăng tương tác trên nhiều lĩnh vực.

Citations:
[1] https://venturebeat.com/ai/versus-launches-vivi-an-ai-platform-transforming-passive-content-into-interactive-experiences/

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-05-01 07:27:27

GenreX ra mắt công cụ tạo nhạc cho video không cần prompt

- GenreX, một startup AI đang được ươm tạo tại AI2 Incubator ở Seattle, vừa ra mắt bản beta của công nghệ video-to-music (video sang nhạc) được coi là "đột phá" và "bước tiến đáng kể".
- Công cụ AI của GenreX không cần dùng prompt văn bản như ChatGPT hay Midjourney, mà phân tích các thuộc tính của video (như đoạn phim trượt tuyết) và dùng thông tin đó để chỉ đạo bộ tạo nhạc đưa ra bản nhạc nền gốc trong vài giây.
- Nếu nhạc không phù hợp, người dùng chỉ cần bấm "regenerate" (tạo lại) để có bản nhạc mới. Công cụ không bao giờ tạo ra cùng một bản nhạc.
- Đây là bước đi mới nhất của các startup gắn AI vào sáng tạo âm nhạc. Các công ty khác như Soundry AI cũng dùng AI tạo sinh để tạo nhạc.
- Đồng sáng lập Yihao Chen cho biết anh bắt đầu công ty sau khi nhiều bạn nhạc sĩ than phiền gặp khó khăn trong cảm hứng sáng tạo. Anh coi AI và công nghệ nói chung là công cụ thúc đẩy sáng tạo của con người.
- Hiện tại, công cụ AI tạo nhạc của GenreX được dùng miễn phí trong ứng dụng riêng.

📌 GenreX đã ra mắt công cụ AI tạo nhạc nền cho video mà không cần prompt văn bản, được coi là bước đột phá trong sáng tạo nội dung. Công nghệ phân tích video và tạo ra bản nhạc gốc trong vài giây, hứa hẹn thúc đẩy sáng tạo của các nhà làm phim và nhạc sĩ. Hiện công cụ đang miễn phí trên ứng dụng riêng của GenreX.

Citations:
[1] https://www.geekwire.com/2024/ai-startups-new-tool-creates-music-for-video-footage-without-requiring-text-prompts/

Không có file đính kèm.

Nguồn tham khảo

164

AI ảnh-video-music-âm thanh AI so sánh 2024-05-01 07:24:00

Udio đấu Suno: 7 lệnh để tìm ra công cụ tạo nhạc AI đỉnh nhất

- Udio và Suno là hai công cụ tạo nhạc AI hàng đầu, cho phép tạo ra các bản nhạc chỉ bằng lệnh văn bản đơn giản.

- Để sử dụng, người dùng chỉ cần nhập lệnh văn bản kèm thể loại, nhạc cụ và các chi tiết liên quan, sau đó nhấn nút "Tạo". Kết quả là các đoạn nhạc ngắn được tạo ra.

- Tác giả đã thử nghiệm 7 lệnh khác nhau, từ đơn giản đến phức tạp, trên cả Udio và Suno để so sánh.

- Udio có tính năng mạnh mẽ là cho phép duyệt catalog để sao chép thông tin lệnh và thể loại. Tác giả đã thêm các chi tiết lệnh như du dương, thơ mộng, hip hop trừu tượng,...

- Suno có một số hạn chế như không thể kéo dài bản nhạc quá 1 phút 03 giây, giao diện và quá trình ghép đoạn nhạc gây cản trở trải nghiệm sáng tạo.

- Suno cũng tạo ra các đoạn tạm dừng kỳ lạ dài 7 giây ở giữa bài và thêm giọng hát đơn điệu làm giảm chất lượng bản nhạc.

- Đáng ngạc nhiên là AI thậm chí có thể tạo ra các đoạn hài kịch tương đối ổn. Suno đã thử tạo hài kịch.

📌 Udio và Suno là hai công cụ tạo nhạc AI hàng đầu với khả năng tạo bản nhạc từ lệnh văn bản đơn giản. Qua 7 lệnh thử nghiệm, Udio cho thấy ưu thế hơn với tính năng mạnh mẽ và chất lượng bản nhạc tốt hơn. Trong khi đó, Suno còn một số hạn chế về thời lượng, giao diện và chất lượng âm thanh cần cải thiện.

Citations:
[1] https://www.tomsguide.com/ai/suno-vs-udio-7-prompts-to-find-the-best-ai-music-generator

Không có file đính kèm.

Nguồn tham khảo

189

AI ảnh-video-music-âm thanh 2024-04-29 07:09:38

Trung Quốc tiết lộ mô hình AI Vidu: Bước đột phá từ văn bản sang video chỉ với một cú nhấp chuột

- Đại học Thanh Hoa và công ty AI ShengShu Technology đã cùng nhau phát triển và công bố mô hình AI lớn có khả năng chuyển đổi từ văn bản sang video, có tên là Vidu.
- Vidu được giới thiệu tại Diễn đàn Zhongguancun ở Bắc Kinh vào ngày 27 tháng 4 năm 2024.
- Mô hình AI Vidu có khả năng tạo ra video độ nét cao 1080p dài 16 giây chỉ với một cú nhấp chuột.
- Vidu là mô hình AI lớn đầu tiên của Trung Quốc với "thời lượng mở rộng, tính nhất quán xuất sắc và khả năng động".
- Mô hình này có thể hiểu và tạo ra nội dung tiếng Trung, bao gồm cả hình ảnh của gấu trúc và rồng Trung Quốc.
- Cùng ngày, Đại học Thanh Hoa cũng đã thành lập Trường Khoa học AI, tập trung vào lý thuyết cơ bản và kiến trúc cốt lõi của AI cũng như việc đào tạo tài năng kết hợp "AI + X".
- Trường nhằm xây dựng cơ sở cao cấp cho tài năng AI hàng đầu của Trung Quốc và đổi mới sáng tạo gốc rễ thông qua cơ chế mới, hỗ trợ mạnh mẽ cho việc đạt được tự lực công nghệ cấp cao.
- Andrew Chi-Chih Yao, người đoạt giải Turing và là thành viên của Học viện Khoa học Trung Quốc, sẽ đảm nhận vị trí hiệu trưởng đầu tiên của trường.
- Trường Khoa học AI của Đại học Thanh Hoa dự kiến sẽ đạt được đột phá trong nghiên cứu cơ bản và công nghệ cốt lõi quan trọng, củng cố nền tảng phát triển AI thế hệ mới của Trung Quốc và thúc đẩy ứng dụng AI trong nhiều ngành công nghiệp.
- Trường cũng có kế hoạch duy trì giao lưu và hợp tác quốc tế cấp cao trong lĩnh vực AI, tận dụng lợi thế của một trường đại học tổng hợp.

📌 Mô hình AI Vidu, sản phẩm hợp tác giữa Đại học Thanh Hoa và ShengShu Technology, có khả năng tạo video từ văn bản chỉ với một cú nhấp chuột, đánh dấu bước tiến quan trọng trong lĩnh vực AI của Trung Quốc. Trường Khoa học AI mới thành lập tại Đại học Thanh Hoa hứa hẹn sẽ là nơi đào tạo tài năng AI hàng đầu và thúc đẩy đổi mới sáng tạo.

Citations:
[1] https://news.cgtn.com/news/2024-04-28/China-developed-text-to-video-large-AI-model-unveiled-in-Beijing-1taeuzOCze0/p.html

Không có file đính kèm.

Nguồn tham khảo

183

AI ảnh-video-music-âm thanh 2024-04-29 06:48:44

Vidu đối đầu Sora: Cuộc cách mạng AI tạo video của Trung Quốc làm rung chuyển ngành công nghệ

- Vidu, mô hình AI tạo video của Trung Quốc, được phát triển bởi Đại học Thanh Hoa và công ty AI ShengShu Technology, đã được giới thiệu tại Diễn đàn Zhongguancun ở Bắc Kinh vào ngày 27 tháng 4 năm 2024.

- Mô hình này sử dụng công nghệ Diffusion và Transformer tiên tiến, cho phép tạo ra video có độ phân giải cao trong 16 giây, với khả năng tái hiện chi tiết phức tạp như ánh sáng, bóng tối và biểu cảm khuôn mặt một cách chân thực.
- Vidu được thiết kế để hiểu sâu sắc các yếu tố văn hóa Trung Quốc, có khả năng tích hợp các biểu tượng văn hóa đặc trưng như gấu trúc và rồng thần thoại (loong), làm tăng sự kết nối với khán giả và người sáng tạo nội dung địa phương.
- Zhu Jun, phó viện trưởng Viện Trí tuệ Nhân tạo tại Đại học Thanh Hoa và là nhà khoa học trưởng của ShengShu-AI, nhấn mạnh sự phù hợp của lộ trình kỹ thuật của Vidu với việc ra mắt Sora, thúc đẩy tiến bộ trong nghiên cứu.
- Công nghệ cốt lõi của Vidu, U-ViT, đã được đề xuất trước khi kiến trúc mô hình DiT (Diversity in Transformation) của Sora được công bố, cho thấy sự tiên phong của Trung Quốc trong lĩnh vực AI.
- Vidu không chỉ là một bước tiến về mặt công nghệ mà còn là một thành tựu chiến lược, thể hiện cam kết của Trung Quốc trong việc dẫn đầu sự phát triển AI, đồng thời cân bằng lợi ích quốc gia và bản sắc văn hóa.

📌 Vidu, mô hình AI tạo video của Trung Quốc, sử dụng công nghệ Diffusion và Transformer, có khả năng tạo ra video chất lượng cao và hiểu biết sâu sắc về văn hóa Trung Quốc. Được giới thiệu tại Diễn đàn Zhongguancun, Vidu thể hiện sự tiên phong trong công nghệ và cam kết của Trung Quốc trong việc phát triển AI.

Citations:
[1] https://www.aitoolsclub.com/meet-vidu-a-chinese-ai-video-generator-and-the-first-real-challenger-to-sora-by-openai/

Không có file đính kèm.

Nguồn tham khảo

150

AI ảnh-video-music-âm thanh 2024-04-28 06:54:06

Sora của OpenAI khó sử dụng, cần nhiều nỗ lực để tạo video ngắn mạch lạc

- Shy Kids mất gần 2 tuần để tạo ra video ngắn Air Head bằng Sora của OpenAI, chủ yếu do các hạn chế của AI.
- Sora thiếu tính mạch lạc, buộc nhóm sản xuất phải sử dụng phương pháp chỉnh sửa không chính thống, giống như tạo phim tài liệu.
- Tỷ lệ giữa tài liệu gốc và nội dung cuối cùng là 300:1, tức Shy Kids chỉ sử dụng khoảng 0.33% video do Sora tạo ra trong bản chỉnh sửa cuối cùng.
- Ngoài việc tạo hàng trăm clip, nhóm còn phải thực hiện thủ công các tác vụ thông thường như chỉnh màu, định giờ lại và thậm chí VFX để loại bỏ các yếu tố không mong muốn.
- Trong một clip, Sora tạo ra quả bóng bay có khuôn mặt in trên mặt trước, trong clip khác, bóng bay có màu sắc khác nhau hoặc có dây treo không mong muốn ở phía dưới, tất cả đều phải được loại bỏ.

📌 Mặc dù Sora và AI tạo video đã tiến bộ vượt bậc, nhưng có vẻ như nó còn lâu mới thay thế được các nghệ sĩ hậu trường, đặc biệt nếu nội dung được tạo ra cần có tính mạch lạc hoặc dài hơn vài giây. Shy Kids đã phải mất gần 2 tuần và rất nhiều công sức chỉnh sửa để tạo ra video Air Head ngắn dưới 2 phút từ hàng trăm clip do Sora tạo ra.

Citations:
[1] https://www.notebookcheck.net/OpenAI-s-Sora-finicky-to-work-with-needs-hundreds-of-prompts-serious-VFX-work-for-under-2-minutes-of-cohesive-story.831515.0.html

Không có file đính kèm.

Nguồn tham khảo

143

AI ảnh-video-music-âm thanh 2024-04-27 06:32:04

Bức ảnh AI từng đoạt giải nhất tại Sony World Photography Awards năm ngoái đang được rao bán với giá 21.000 đô la

- Boris Elgadsen, người từng đoạt giải nhất hạng mục Sáng tạo tại Sony World Photography Awards năm ngoái với một bức ảnh AI, đang rao bán tác phẩm "The Electrician" với giá 21.500 đô la (khoảng 20.000 euro).
- Bức ảnh gây tranh cãi của nghệ sĩ người Đức đang được trưng bày tại Phòng trưng bày Palmer ở London, trong khuôn khổ triển lãm có tên "Post-Photography: The Uncanny Valley".
- Triển lãm còn có các bức ảnh AI khác cũng đang được rao bán, tuy nhiên không có tác phẩm nào có giá bằng "The Electrician" của Elgadsen.
- 20.000 đô la vẫn thấp hơn nhiều so với tác phẩm nghệ thuật AI đắt nhất từng được bán - một tác phẩm vào năm 2018 đã được bán với giá hơn 400.000 đô la.
- Tác phẩm của Elgadsen được trưng bày cùng các nghệ sĩ Nouf Aljowaysir và Ben Millar Cole, trong một chuỗi triển lãm kết hợp giữa nhiếp ảnh và nghệ thuật tổng hợp.
- Ngay sau khi giành giải nhất hạng mục Sáng tạo tại Sony World Photography Awards 2023, Elgadsen đã tiết lộ rằng bức ảnh được tạo ra bởi AI, trước khi từ chối nhận giải thưởng.
- Bức ảnh là một phần trong chuỗi tác phẩm có tên "Pseudomesia: Fake Memories" mà Elgadsen đã thực hiện từ năm 2022.

📌 Bức ảnh AI "The Electrician" của nghệ sĩ Boris Elgadsen, từng gây tranh cãi khi đoạt giải nhất tại Sony World Photography Awards 2023, đang được rao bán với mức giá 21.500 đô la tại một triển lãm ở London. Dù chưa phải là tác phẩm nghệ thuật AI đắt nhất từng được bán, nhưng đây vẫn là một mức giá đáng chú ý cho thấy sự phát triển của trào lưu nghệ thuật AI.

Citations:
[1] https://petapixel.com/2024/04/26/ai-image-that-won-sony-world-photo-award-is-being-sold-for-21000/

Không có file đính kèm.

Nguồn tham khảo

171

AI đạo đức AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-04-25 02:10:07

Google, Meta, OpenAI liên minh chống nội dung lạm dụng tình dục trẻ em từ AI

- Google, Meta, OpenAI cùng nhiều công ty công nghệ lớn khác đã cam kết thực thi các biện pháp bảo vệ xung quanh công nghệ AI tạo sinh để chống lại nội dung lạm dụng tình dục trẻ em (CSAM).
- Liên minh này được thành lập bởi hai tổ chức phi lợi nhuận là Thorn (tổ chức công nghệ trẻ em) và All Tech is Human.
- Thorn được thành lập năm 2012 bởi các diễn viên Demi Moore và Ashton Kutcher, tập trung phát triển các công cụ và nguồn lực bảo vệ trẻ em khỏi bị lạm dụng và bóc lột tình dục.
- Báo cáo mới của Thorn kêu gọi áp dụng nguyên tắc "An toàn theo thiết kế" trong phát triển AI tạo sinh, ngăn chặn việc tạo ra CSAM trong toàn bộ vòng đời của một mô hình AI.
- Nội dung khiêu dâm trẻ em deepfake đã tăng vọt sau khi các mô hình AI tạo sinh được công khai, với các mô hình AI độc lập không cần dịch vụ đám mây đang được lưu hành trên các diễn đàn web đen.
- AI tạo sinh giúp việc tạo ra khối lượng nội dung CSAM dễ dàng hơn bao giờ hết. Một kẻ ấu dâm có thể tạo ra số lượng lớn CSAM, bao gồm cả chỉnh sửa hình ảnh và video gốc thành nội dung mới.
- Năm 2022, Thorn phát hiện hơn 824.466 tệp chứa tài liệu lạm dụng trẻ em. Năm ngoái, hơn 104 triệu tệp CSAM bị tình nghi đã được báo cáo chỉ riêng ở Mỹ.

📌 Liên minh các công ty công nghệ lớn như Google, Meta, OpenAI cam kết chống lại nội dung lạm dụng tình dục trẻ em được tạo bởi AI tạo sinh. Báo cáo của Thorn cho thấy AI tạo sinh giúp việc sản xuất CSAM dễ dàng hơn, với hơn 824.000 file lạm dụng trẻ em được phát hiện năm 2022 và 104 triệu file bị tình nghi ở Mỹ năm ngoái. Thorn kêu gọi áp dụng nguyên tắc "An toàn theo thiết kế" để ngăn chặn vấn nạn này.

Citations:
[1] https://decrypt.co/227731/aig-csam-google-meta-openai-fight-ai-child-sexual-abuse-material

Không có file đính kèm.

Nguồn tham khảo

185

AI ảnh-video-music-âm thanh 2024-04-24 05:58:27

Adobe ra mắt bản cập nhật Photoshop đột phá với AI tạo sinh tiên tiến

- Adobe giới thiệu phiên bản beta hoàn toàn mới của Photoshop được xây dựng dựa trên những tiến bộ của mô hình Firefly Image 3 Foundation Model.

- Tính năng Generative Fill được cải tiến đáng kể, cho phép người dùng tăng cường bằng hình ảnh tham chiếu, hứa hẹn kết quả chân thực và chính xác hơn với khả năng kiểm soát nâng cao.

- Tính năng Generate Image mới cung cấp tùy chọn tương tự như Adobe Firefly, biến trang trắng thành bức tranh phong phú.

- Mô hình Firefly Image 3 Foundation Model hiện có sẵn trong Photoshop, cung cấp sức mạnh cho Generative Fill, Generative Expand và Generate Image.

- Các nhiếp ảnh gia có thể sử dụng hình ảnh tham chiếu khi dùng Generative Fill, Generate Image và Generative Expand.

- Tính năng Generate Similar mới cho phép tạo ra các biến thể tương tự của hình ảnh.

- Adobe bổ sung Adjustment Brush cho phép người dùng áp dụng các điều chỉnh không phá hủy lên các vùng cụ thể của hình ảnh.

- Adjustment Presets mới lấy cảm hứng từ Lightroom cho phép thay đổi nhanh giao diện hình ảnh bằng bộ lọc một lần nhấp.

📌 Bản cập nhật lớn của Photoshop nâng tầm sáng tạo lên mức chưa từng có với các tính năng AI tạo sinh mới dựa trên mô hình Firefly Image 3, như Generative Fill, Generate Image, Generative Expand. Ngoài ra còn có Adjustment Brush và Adjustment Presets giúp chỉnh sửa hình ảnh linh hoạt hơn.

Citations:

[1] https://petapixel.com/2024/04/23/adobe-introduces-one-of-its-most-significant-photoshop-updates-ever/

Không có file đính kèm.

Nguồn tham khảo

137

AI ảnh-video-music-âm thanh 2024-04-23 00:02:31

Sakana AI trình làng mô hình sinh ảnh Nhật Bản EvoSDXL-JP - Tốc độ nhanh gấp 10 lần

- Sakana AI, một startup AI của Nhật Bản, đã giới thiệu EvoSDXL-JP, một mô hình sinh ảnh mới được xây dựng thông qua phương pháp Evolutionary Model Merge, cho phép sinh ảnh phong cách Nhật Bản nhanh hơn gấp 10 lần so với mô hình trước.
- EvoSDXL-JP hiện đã được công bố công khai trên nền tảng HuggingFace, dành cho mục đích nghiên cứu và giáo dục, kèm theo một bản demo dễ tiếp cận để thử nghiệm ngay lập tức.
- Mô hình này hỗ trợ tiếng Nhật và có khả năng sinh ảnh theo phong cách Nhật Bản bằng cách kết hợp các mô hình nguồn mở khác nhau.
- Theo công bố từ Sakana AI, tốc độ suy luận của EvoSDXL-JP nhanh hơn 10 lần so với mô hình Nhật Bản hiện tại và cũng cho thấy hiệu suất tốt hơn trong các bài kiểm tra chuẩn.
- EvoSDXL-JP có khả năng sinh ảnh nhanh chóng và tiết kiệm chi phí, là mô hình lý tưởng để dễ dàng trải nghiệm và thử nghiệm AI tạo sinh.
- Sakana AI kỳ vọng mô hình này sẽ được sử dụng rộng rãi tại các trang web giáo dục ở Nhật Bản, giúp nhiều người hơn nữa có thể tận hưởng lợi ích của AI tạo sinh.
- Ngoài ra, Sakana AI cũng đã giới thiệu EvoLLM-JP, một mô hình ngôn ngữ lớn tiếng Nhật, và EvoVLM-JP, một mô hình ngôn ngữ ảnh, cả hai đều được xây dựng thông qua phương pháp Evolutionary Model Merge.
- EvoLLM-JP được tạo ra bằng cách kết hợp mô hình ngôn ngữ lớn (LLM) tiếng Nhật và LLM toán học, và đã cho thấy khả năng tốt không chỉ trong toán học mà còn trong khả năng tổng thể tiếng Nhật.
- EvoVLM-JP, được tạo ra bằng cách kết hợp LLM tiếng Nhật và mô hình ngôn ngữ ảnh (VLM), có thể phản hồi với kiến thức về văn hóa Nhật Bản và đạt kết quả tốt nhất trong các bài kiểm tra chuẩn sử dụng hình ảnh và văn bản tiếng Nhật.

📌 Sakana AI đã phát triển EvoSDXL-JP, một mô hình sinh ảnh tiên tiến với tốc độ xử lý nhanh gấp 10 lần, hỗ trợ tiếng Nhật và phong cách Nhật Bản, hiện có sẵn trên HuggingFace. Mô hình này hứa hẹn sẽ thúc đẩy việc sử dụng AI tạo sinh trong giáo dục và nghiên cứu tại Nhật Bản.

Citations:
[1] https://analyticsindiamag.com/sakana-ai-releases-japanese-dalle-3-calls-it-evosdxl-jp/

Không có file đính kèm.

Nguồn tham khảo

157

AI ảnh-video-music-âm thanh 2024-04-20 03:34:15

MetaAI chatbot của Meta tích hợp AI Imagine tạo ảnh động GIF đầy ấn tượng

- MetaAI chatbot của Meta đã được nâng cấp với phiên bản cải tiến của công cụ tạo ảnh AI Imagine, cho phép tạo ảnh động GIF một cách nhanh chóng và sáng tạo.
- Tính năng mới cho phép hình ảnh được tạo ra theo thời gian thực khi người dùng nhập từ khóa, thay đổi theo từng từ mới cho đến một giới hạn nhất định.
- Hình ảnh được tạo ra có thể chuyển thành ảnh động GIF, thể hiện quá trình sáng tạo một cách sinh động.
- Đây là một trong những tính năng độc đáo của MetaAI Imagine chưa từng có ở các công cụ tạo ảnh khác, đặc biệt khi tích hợp trong giao diện chatbot.
- MetaAI Imagine nổi bật với tốc độ tạo ảnh nhanh, đa dạng phong cách từ siêu thực đến nghệ thuật, và khả năng tạo văn bản rõ ràng trên ảnh.
- Được hỗ trợ bởi mô hình ngôn ngữ lớn Llama 3, MetaAI có thể cung cấp hướng dẫn toàn diện cho Imagine ngay cả khi người dùng đưa ra yêu cầu ban đầu hạn chế.
- MetaAI diễn giải ý định của người dùng, gửi lệnh đã tinh chỉnh đến Imagine, trả về một loạt hình ảnh hấp dẫn theo thời gian thực ban đầu, sau đó là hình ảnh hoàn chỉnh hơn.

📌 MetaAI chatbot của Meta đã tích hợp phiên bản nâng cấp ấn tượng của công cụ tạo ảnh AI Imagine, cho phép tạo ảnh động GIF một cách nhanh chóng và sáng tạo. Tính năng độc đáo này cùng khả năng xử lý ngôn ngữ mạnh mẽ của mô hình Llama 3 đã mang đến trải nghiệm thú vị và tiện lợi cho người dùng trong việc tạo ra những hình ảnh sinh động theo ý tưởng của mình.

Citations:
[1] https://www.tomsguide.com/ai/ai-image-video/metas-imagine-ai-image-generator-just-got-a-big-gif-upgrade-and-im-obsessed

Không có file đính kèm.

Nguồn tham khảo

273

AI ảnh-video-music-âm thanh 2024-04-19 04:39:02

grok-1.5v của elon musk: bước đột phá mới trong ai đa phương thức, biến sơ đồ vẽ tay thành mã hoạt động

• Vào ngày 12/4/2024, phòng thí nghiệm nghiên cứu x.AI của Elon Musk đã phát hành Grok-1.5 Vision (Grok-1.5V), một mô hình đa phương thức mới kết hợp xử lý văn bản với khả năng hiểu dữ liệu hình ảnh.
• Grok-1.5V đánh dấu một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo (AI).
• Grok là một chatbot AI có thể trả lời hầu hết mọi câu hỏi và đề xuất những câu hỏi cần hỏi. Nó có tính cách hài hước và kiến thức thế giới thực tế thông qua nền tảng 𝕏.
• Grok-1.5V nổi bật trong lĩnh vực suy luận đa lĩnh vực, hiểu không gian thế giới thực và bài đánh giá RealWorldQA.
• Grok-1.5V vượt trội so với các chatbot khác trong việc hiểu các tình huống thế giới thực mà không cần nhắc nhở chi tiết.

• Khả năng ấn tượng của Grok-1.5V bao gồm:
- Tạo ra mã hoạt động từ sơ đồ vẽ tay.
- Giải quyết các vấn đề lập trình.
- Tính nhãn dinh dưỡng từ ảnh.
- Đưa ra lời khuyên về bảo trì nhà cửa.
- Chuẩn bị câu chuyện đêm từ bức vẽ của trẻ em.
- Chuyển đổi bảng thành định dạng CSV dễ dàng.
- Khả năng giải thích meme một cách xuất sắc.

• Grok-1.5V có thể rút ngắn khoảng cách giữa thế giới ảo và thực, đây là một thành tựu đáng kể.
• Bài đánh giá RealWorldQA kiểm tra khả năng hiểu không gian của các mô hình đa phương thức, nhấn mạnh nhu cầu cải thiện khả năng hiểu môi trường vật lý của AI.
• Mặc dù các tác vụ có vẻ đơn giản với con người, nhưng chúng lại rất khó khăn đối với các công cụ AI hàng đầu, khiến thành tích của Grok-1.5V trở nên đáng chú ý.

📌 Grok-1.5 Vision (Grok-1.5V) đánh dấu khởi đầu của một kỷ nguyên mới trong AI đa phương thức, nơi các mô hình có khả năng hiểu dữ liệu hình ảnh và vật lý. Đổi mới này dẫn đường cho các ứng dụng AI tinh vi và thực tế hơn, đưa chúng ta đến gần hơn với các hệ thống thực sự thông minh và thích ứng.

Citations:
[1] https://www.aitoolsclub.com/grok-by-elon-musk-can-turn-diagrams-into-working-code/

Không có file đính kèm.

Nguồn tham khảo

238

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-04-19 03:09:32

Microsoft ra mắt VASA-1: tạo video deepfake siêu thực chỉ từ một bức ảnh, đe dọa bầu cử

- Microsoft giới thiệu hệ thống AI mới tên VASA-1, có khả năng tạo video chân thực của khuôn mặt nói chuyện chỉ từ một ảnh và một đoạn âm thanh.
- VASA-1 vượt xa khả năng đồng bộ môi đơn thuần, nắm bắt được nhiều biểu cảm, cảm xúc, chuyển động đầu và thậm chí cho phép điều khiển hướng nhìn và khoảng cách.
- Video không chỉ đồng bộ hoàn hảo chuyển động môi với âm thanh mà còn thể hiện nhiều sắc thái khuôn mặt tự nhiên và chuyển động đầu, tạo cảm giác chân thực và sống động.
- VASA-1 đạt được sự chân thực bằng cách sử dụng AI để tách các thành phần khuôn mặt như biểu cảm, vị trí đầu 3D và chuyển động môi, cho phép kiểm soát và chỉnh sửa độc lập từng khía cạnh.
- Phương pháp này không chỉ đảm bảo chất lượng video vượt trội với chuyển động khuôn mặt và đầu chân thực, mà còn cho phép tạo video 512×512 trực tuyến với tốc độ lên đến 40 FPS, tất cả với độ trễ ban đầu tối thiểu.
- Min Choi cho rằng VASA-1 có khả năng tạo hoạt ảnh cho một ảnh với lời nói biểu cảm, tương tự như công nghệ EMO của Alibaba.
- Mọi người lo ngại về khả năng lạm dụng công nghệ deepfake này vì nó ra mắt đúng vào thời điểm bầu cử.
- Các nhà nghiên cứu thừa nhận khả năng sử dụng sai mục đích, nhưng nhấn mạnh các ứng dụng tích cực của VASA-1 như nâng cao trải nghiệm giáo dục, hỗ trợ người gặp khó khăn giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu.

📌 Microsoft giới thiệu VASA-1, công nghệ AI tạo video deepfake siêu chân thực chỉ từ một ảnh và âm thanh, nắm bắt tinh tế biểu cảm, cảm xúc, chuyển động đầu. Dù có nhiều ứng dụng tích cực trong giáo dục và hỗ trợ giao tiếp, VASA-1 vẫn gây lo ngại về khả năng lạm dụng trong bối cảnh bầu cử.

Citations:
[1] https://analyticsindiamag.com/microsoft-unveils-vasa-1-creating-deepfake-videos-with-a-single-image/

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh 2024-04-17 23:39:38

Miss AI - cuộc thi sắc đẹp đầu tiên cho người mẫu AI

- Fanvue công bố tổ chức World AI Creator Awards (WAICA) để vinh danh các nhà sáng tạo nội dung AI trên toàn cầu.

- Trong khuôn khổ WAICA, cuộc thi Miss AI - cuộc thi sắc đẹp đầu tiên dành cho các người mẫu do AI tạo ra sẽ được tổ chức.

- Tổng giải thưởng của Miss AI lên tới 20.000 USD (khoảng 16 lakh Rupee), trong đó người chiến thắng nhận 5.000 USD tiền mặt, chương trình đào tạo trị giá 3.000 USD và gói hỗ trợ PR trị giá 5.000 USD.

- Á hậu 1 nhận khóa học miễn phí trị giá 500 USD, gói quảng bá trị giá 2.000 USD và hỗ trợ PR trị giá 2.500 USD.

- Á hậu 2 nhận cuộc gọi tư vấn miễn phí trị giá 500 USD, gói quảng bá trị giá 500 USD và hỗ trợ PR trị giá 1.000 USD.

- Ban giám khảo gồm các nhà sáng tạo AI nổi tiếng như Aitana Lopez, Emily Pellegrini, doanh nhân Andrew Bloch và nhà sử học sắc đẹp Sally-Ann Fawcett.

- Thí sinh tham gia phải là người mẫu được tạo ra 100% bởi AI thông qua bất kỳ công cụ nào và không mất phí tham dự.

📌 Fanvue đang tổ chức cuộc thi sắc đẹp Miss AI đầu tiên trên thế giới dành riêng cho các người mẫu do AI tạo ra, với tổng giải thưởng lên tới 20.000 USD. Cuộc thi nhằm tôn vinh sự phát triển của ngành công nghiệp AI, mặc dù vẫn còn tranh cãi về việc liệu đây có phải là một ý tưởng hay.

Citations:

[1] Miss Artificial Intelligence! AI Beauty Pageant Announced With A Prize Pool Of Rs 16 Lakh: Report https://in.mashable.com/tech/73421/miss-artificial-intelligence-ai-beauty-pageant-announced-with-a-prize-pool-of-rs-16-lakh-report

Không có file đính kèm.

Nguồn tham khảo

133

AI ảnh-video-music-âm thanh 2024-04-16 14:12:13

Adobe tích hợp công cụ tạo video AI Sora, Runway và Pika vào Premiere Pro

- Adobe đang hợp tác với các công ty AI video hàng đầu như Sora, Runway và Pika để tích hợp công nghệ tạo video AI vào phần mềm Premiere Pro.
- Sora cho phép người dùng tạo video bằng cách nhập văn bản, trong khi Runway hỗ trợ các hiệu ứng kỹ xảo. Pika giúp tạo video quảng cáo và video giải thích sản phẩm.
- Adobe cũng đang phát triển công cụ AI của riêng mình là Sensei GenAI và Firefly để cạnh tranh trong lĩnh vực này.
- Việc tích hợp AI sẽ giúp rút ngắn quy trình sản xuất video, giảm chi phí và tăng tính sáng tạo cho người dùng.
- Tuy nhiên, Adobe chưa công bố chi tiết về thời điểm ra mắt và giá cả của các tính năng mới này.
- Đây là một phần trong chiến lược của Adobe nhằm đưa AI vào các sản phẩm sáng tạo, tương tự như việc tích hợp Firefly vào Photoshop.
- Adobe hy vọng sẽ thu hút thêm người dùng và tăng doanh thu bằng cách cung cấp các công cụ AI tiên tiến trong bộ phần mềm của mình.

📌 Adobe đang hợp tác với Sora, Runway và Pika để tích hợp AI vào Premiere Pro, cho phép tạo video nhanh chóng từ văn bản, hiệu ứng kỹ xảo và video giải thích sản phẩm, qua đó rút ngắn quy trình sản xuất, giảm chi phí và tăng tính sáng tạo, nhằm cạnh tranh trong thị trường video AI đang phát triển mạnh mẽ.

Citations:
[1] https://venturebeat.com/ai/adobe-to-add-ai-video-generators-sora-runway-pika-to-premiere-pro/

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh 2024-04-16 07:53:10

So sánh các công cụ tạo nhạc AI như Udio, Suno, Stable Audio và Audio Shake

- Lĩnh vực tạo nhạc AI đang phát triển nhanh chóng với nhiều công cụ mới cho phép người dùng tạo nhạc mà không cần nhiều kiến thức âm nhạc.

- Udio nổi bật với khả năng tạo giọng hát ấn tượng, vượt trội so với đối thủ Suno. Tuy nhiên Udio chỉ tạo được đoạn nhạc 30 giây, có thể kéo dài tối đa 4 phút.

- Suno nổi bật với khả năng tạo cả bản nhạc hoàn chỉnh gồm cả lời và hình ảnh minh họa. Phiên bản V3 mới nhất được đánh giá cao về chất lượng và trải nghiệm người dùng.

- Stable Audio và Audio Shake cũng là những công cụ tạo nhạc AI đáng chú ý, mỗi công cụ có những tính năng riêng biệt.

- Các công cụ tạo nhạc AI đang mở ra cánh cửa mới cho những người mới bắt đầu cũng như các nhạc sĩ, nhà sản xuất âm nhạc chuyên nghiệp.

- Bằng cách nắm bắt ưu nhược điểm của từng công cụ, người dùng có thể tận dụng tối đa tiềm năng của chúng để đẩy giới hạn sáng tạo.

📌 Udio, Suno, Stable Audio và Audio Shake đang dẫn đầu cuộc cách mạng tạo nhạc AI, mang đến cơ hội mới cho mọi đối tượng từ người mới đến nhà sản xuất chuyên nghiệp. Mỗi công cụ có ưu nhược điểm riêng, việc nắm bắt chúng sẽ giúp người dùng phát huy tối đa khả năng sáng tạo âm nhạc trong kỷ nguyên mới.

Citations:
[1] https://www.geeky-gadgets.com/ai-music-creators-compared/

Không có file đính kèm.

Nguồn tham khảo

218

AI ảnh-video-music-âm thanh 2024-04-16 07:11:25

Công cụ chỉnh sửa ảnh AI của Google Photos hiện có sẵn miễn phí cho tất cả mọi người

- Từ ngày 15/5/2024, Google Photos sẽ cung cấp các công cụ chỉnh sửa ảnh AI miễn phí cho tất cả người dùng, giúp việc chỉnh sửa ảnh AI dễ dàng và dễ tiếp cận hơn.

- Người dùng Android và iOS đều có thể sử dụng ba công cụ AI từ Google Photos:

+ Magic Eraser: Dễ dàng xóa các đối tượng không mong muốn khỏi ảnh.

+ Photo Unblur: Làm sắc nét ảnh mờ để khôi phục chi tiết bị mất và tạo ảnh rõ nét hơn.

+ Portrait Light: Điều chỉnh ánh sáng để có ảnh chân dung đẹp hơn, làm nổi bật chủ thể.

- Người dùng điện thoại Pixel sẽ có quyền truy cập vào công cụ Magic Editor mạnh mẽ hơn, ban đầu chỉ dành cho Pixel 8 và Pixel 8 Pro.

- Tất cả người dùng Google Photos sẽ nhận được 10 lần lưu Magic Editor miễn phí mỗi tháng. Để sử dụng không giới hạn, cần nâng cấp lên điện thoại Pixel hoặc đăng ký gói Google One Premium (từ 2TB trở lên).

- Người dùng nên kiểm tra ứng dụng Google Photos vào ngày 15/5 để sử dụng các tính năng mới này.

📌 Google Photos sẽ cung cấp các công cụ chỉnh sửa ảnh AI miễn phí cho tất cả người dùng từ 15/5/2024, bao gồm Magic Eraser, Photo Unblur và Portrait Light. Người dùng Pixel sẽ có quyền truy cập vào Magic Editor mạnh mẽ hơn. Mỗi người dùng sẽ có 10 lần lưu Magic Editor miễn phí/tháng, cần điện thoại Pixel hoặc gói Google One Premium để sử dụng không giới hạn. Các tính năng mới sẽ có mặt trên ứng dụng Google Photos từ 15/5.

Citations:

[1] Google Photos’ AI editing tools are now available to everyone, for free https://www.diyphotography.net/google-photos-ai-editing-tools-are-now-available-to-everyone-for-free/

Không có file đính kèm.

Nguồn tham khảo

161

AI ảnh-video-music-âm thanh 2024-04-15 01:33:53

Spotify đặt cược lớn vào AI để cá nhân hóa và nâng cao trải nghiệm khám phá âm nhạc

- Spotify đã đầu tư vào AI và machine learning trong hơn một thập kỷ để giúp người dùng dễ dàng khám phá những bản nhạc mới trong kho nhạc hơn 100 triệu bài.

- Công cụ mới nhất, AI DJ, kết hợp công nghệ cá nhân hóa, AI tạo sinh và giọng nói AI động để tạo ra trải nghiệm nghe nhạc mới mẻ, ít bị chi phối trực tiếp bởi sở thích trước đó của người dùng.

- Spotify có hơn 600 triệu người dùng và sứ mệnh của công ty là giúp mỗi người tìm thấy âm nhạc họ yêu thích trong kho nhạc khổng lồ này.

- Các công cụ đề xuất của Spotify như Spotify Home feed, Discover Weekly, Blend, Daylist và Made for You Mixes đã phát triển trong nhiều năm qua.

- Đằng sau hậu trường, Spotify có một đội ngũ chuyên gia về công nghệ và âm nhạc làm việc để cải thiện khả năng đề xuất của nền tảng.

- Tuy nhiên, việc xác định thời điểm tối ưu để người dùng khám phá những thể loại mới so với việc gắn bó với sở thích quen thuộc vẫn là một thách thức.

📌 Spotify đang đặt cược lớn vào AI và machine learning để cá nhân hóa trải nghiệm nghe nhạc cho hơn 600 triệu người dùng, giúp họ dễ dàng khám phá những bản nhạc mới trong kho nhạc hơn 100 triệu bài. Công cụ AI DJ mới nhất kết hợp công nghệ cá nhân hóa, AI tạo sinh và giọng nói AI động, hứa hẹn mang đến những trải nghiệm âm nhạc độc đáo, vượt ra ngoài sở thích quen thuộc của người dùng.

Citations:

[1] How Spotify AI plans to know what's going on inside your head, and find the right track for it https://www.cnbc.com/2024/04/14/how-spotify-ai-plans-to-know-whats-going-on-inside-your-head.html

Không có file đính kèm.

Nguồn tham khảo

155

AI ảnh-video-music-âm thanh 2024-04-15 01:29:29

Người mẫu thời trang do AI tạo ra có thể mang lại sự đa dạng cho ngành công nghiệp nhưng cũng gây ra lo ngại

- Alexsandrah, người mẫu ở London, có một người song sinh ảo do AI tạo ra, sao chép các đặc điểm của cô ấy đến từng chi tiết nhỏ nhất.

- Người mẫu do AI tạo ra đã ra mắt trong một buổi chụp ảnh, với Alexsandrah nhận được tín dụng và thù lao cho việc sử dụng nó.

- Những người ủng hộ cho rằng người mẫu kỹ thuật số thúc đẩy sự đa dạng, cho phép người tiêu dùng đưa ra quyết định mua hàng cá nhân hóa hơn và giảm lãng phí thời trang.

- Tuy nhiên, những người chỉ trích lo ngại rằng người mẫu AI có thể thay thế người mẫu thật và các chuyên gia khác như chuyên gia trang điểm.

- Sara Ziff, người sáng lập Liên minh Người mẫu, tin rằng việc sử dụng AI để bóp méo sự đại diện chủng tộc cho thấy sự thiếu hòa nhập đáng lo ngại trong ngành.

- Alexsandrah, người da màu, tự hào về công việc của mình với The Diigitals và coi đó là di sản cho các thế hệ tương lai.

📌 Sự xuất hiện của người mẫu do AI tạo ra, như bản sao kỹ thuật số của Alexsandrah, đang thúc đẩy cuộc tranh luận về tác động của công nghệ đối với ngành công nghiệp thời trang. Mặc dù chúng có thể thúc đẩy sự đa dạng và giảm lãng phí, nhưng cũng gây ra lo ngại về việc thay thế người mẫu thật, đặc biệt là phụ nữ da màu vốn đã phải đối mặt với rào cản đáng kể trong nghề người mẫu.

Citations:

[1] AI-generated fashion models could bring more diversity to the industry https://apnews.com/article/ai-fashion-model-digital-diversity-aaa489111bd8e793aa6e5a531dc7ade2

Không có file đính kèm.

Nguồn tham khảo

150

AI ảnh-video-music-âm thanh 2024-04-15 01:19:01

Bộ phim hài lãng mạn đầu tiên do AI tạo ra sẽ ra mắt mùa hè này từ TCL

- TCL, công ty nổi tiếng về TV thông minh, sẽ phát hành bộ phim gốc đầu tiên được tạo ra hoàn toàn bởi AI vào mùa hè này.

- Bộ phim mang tên "Next Stop Paris", thuộc thể loại hài lãng mạn, sẽ phát sóng trên ứng dụng truyền hình miễn phí TCLtv+ của công ty.

- Đoạn trailer dài 60 giây giới thiệu câu chuyện về hai người Mỹ trẻ tuổi và hấp dẫn gặp nhau trên chuyến tàu đến Paris và nảy sinh tình cảm.

- Trong khi nhiều studio phim truyền thống bị chỉ trích vì sử dụng AI, TCL quyết định đi đầu và nhấn mạnh việc sử dụng công nghệ này.

- Chris Regina, Giám đốc Nội dung của TCL, từng giữ các vị trí cấp cao tại NBCUniversal và Netflix, cho rằng việc sử dụng AI là điểm khác biệt của bộ phim.

- Việc phát hành trailer cung cấp cái nhìn tổng quan về dự án mà TCL đang thực hiện, đánh dấu bước tiến trong việc ứng dụng AI vào sản xuất phim.

📌 TCL sẽ ra mắt bộ phim hài lãng mạn "Next Stop Paris" được tạo hoàn toàn bởi AI vào mùa hè 2023, phát sóng miễn phí trên ứng dụng TCLtv+. Đây là dự án gốc đầu tiên của công ty, đánh dấu bước tiến trong việc ứng dụng AI vào ngành công nghiệp giải trí với trailer 60 giây giới thiệu câu chuyện tình yêu giữa hai người trẻ.

Citations:

[1] First AI-generated rom-com is due this summer -- and the trailer puts Hallmark Channel to shame https://www.tomshardware.com/tech-industry/artificial-intelligence/first-ai-generated-rom-com-is-due-this-summer-and-the-trailer-puts-hallmark-channel-to-shame

Không có file đính kèm.

Nguồn tham khảo

124

AI so sánh AI ảnh-video-music-âm thanh 2024-04-14 06:17:30

xAI của Elon Musk ra mắt Grok-1.5 Vision, đánh bại GPT-4V của OpenAI

- xAI, công ty AI của Elon Musk giới thiệu Grok-1.5V, mô hình đa phương thức thế hệ đầu tiên có khả năng xử lý nhiều loại thông tin hình ảnh như tài liệu, sơ đồ, biểu đồ, ảnh chụp màn hình và ảnh.

- Grok-1.5V sẽ sớm có mặt cho người dùng thử nghiệm sớm và người dùng Grok hiện tại.

- Tính năng nổi bật của Grok-1.5V là khả năng hiểu các khái niệm không gian trong thế giới thực, vượt trội hơn các mô hình khác trong bài kiểm tra RealWorldQA.

- So sánh với các mô hình hàng đầu như GPT-4V, Claude 3 Sonnet, Claude 3 Opus và Gemini Pro 1.5, Grok-1.5V thể hiện lợi thế cạnh tranh trên nhiều bài kiểm tra.

- Grok-1.5V có thể chuyển đổi thông tin hình ảnh phức tạp thành mã lập trình, ví dụ như chuyển lưu đồ mô tả trò chơi đoán số thành mã Python.

- Các nhà phát triển kỳ vọng Grok-1.5V sẽ có cải tiến đáng kể về khả năng đa phương thức trên hình ảnh, âm thanh, video, hướng tới xây dựng AI tổng quát có lợi (AGI).

- Trước đó, xAI đã giới thiệu Grok-1.5 với khả năng lập luận nâng cao, độ dài ngữ cảnh 128.000 token và đánh bại Mistral Large trên nhiều bài kiểm tra như MMLU, GSM8K, HumanEval.

📌 Grok-1.5V của xAI thể hiện khả năng xử lý thông tin hình ảnh vượt trội, đánh bại GPT-4V và các mô hình hàng đầu khác trên nhiều bài kiểm tra. Với tiềm năng cải tiến đa phương thức, Grok-1.5V hứa hẹn là bước tiến quan trọng hướng tới việc xây dựng AGI hiểu và tương tác toàn diện với thế giới.

Citations:
[1] https://analyticsindiamag.com/elon-musks-xai-unveils-grok-1-5-vision-beats-openais-gpt-4v/

Không có file đính kèm.

Nguồn tham khảo

280

AI ảnh-video-music-âm thanh AI bản quyền 2024-04-12 01:33:57

Adobe chi 3 USD mỗi phút video để phát triển AI tạo video từ văn bản

- Adobe đang kêu gọi cung cấp hơn 100 video ngắn về người thực hiện các hành động, thể hiện cảm xúc, cũng như hình ảnh giải phẫu đơn giản của bàn chân, bàn tay, mắt.

- Công ty cũng tìm kiếm video về người tương tác với các vật dụng như điện thoại thông minh, thiết bị thể dục.

- Adobe khuyến cáo không gửi tài liệu có bản quyền, khỏa thân hoặc nội dung phản cảm.

- Mức thanh toán trung bình cho một phút video là khoảng 2.62 USD, có thể lên tới 7.25 USD/phút.

- Adobe đang nhắm tới mạng lưới nhiếp ảnh gia và nghệ sĩ, trả 120 USD cho mỗi bài nộp, nhằm tích lũy tài sản để đào tạo AI.

- Trong năm qua, Adobe tập trung tích hợp các tính năng AI tạo sinh vào bộ phần mềm như Photoshop, Illustrator. Công ty đã ra mắt công cụ chuyển văn bản thành hình ảnh, minh họa, được sử dụng hàng tỷ lần.

- Việc OpenAI giới thiệu mô hình tạo video Sora làm dấy lên lo ngại về khả năng Adobe bị công nghệ mới gây xáo trộn. Adobe thừa nhận đang phát triển công nghệ tạo video, dự kiến công bố chi tiết vào cuối năm nay.

📌 Adobe đang tích cực thu mua video với mức giá 2,62 - 7,25 USD/phút từ mạng lưới nhiếp ảnh gia, nghệ sĩ để phát triển công cụ AI tạo video từ văn bản. Động thái này nhằm bắt kịp các đối thủ như OpenAI, vốn gây lo ngại về khả năng gây xáo trộn thị trường với công nghệ tương tự.

Citations:

[1] Adobe Is Buying Videos for $3 Per Minute to Build AI Model https://finance.yahoo.com/news/adobe-buying-videos-3-per-213215719.html

Không có file đính kèm.

Nguồn tham khảo

209

AI ảnh-video-music-âm thanh AI đạo đức AI deepfake-ảo giác-ANTT 2024-04-10 10:13:05

Khiêu dâm do AI tạo ra sẽ gây xáo trộn ngành công nghiệp nội dung người lớn và nảy sinh mối lo ngại đạo đức mới

- Trí tuệ nhân tạo (AI) đang định hình lại nhiều ngành công nghiệp, bao gồm cả ngành công nghiệp khiêu dâm với sự phát triển của các trang web về khiêu dâm do AI tạo ra.

- Hiện có hơn 50 trang web miễn phí cung cấp nội dung khiêu dâm do AI tạo ra, cho phép người dùng tạo ra các nhân vật và hình ảnh theo sở thích cá nhân.

- Ngoài hình ảnh, một số trang web còn cung cấp tùy chọn tạo video ngắn lặp lại. Công nghệ AI tiên tiến hơn trong tương lai sẽ cho phép tạo ra các video khiêu dâm dài, phức tạp và hoàn toàn có thể tùy chỉnh.

- Người dùng cũng có thể tương tác với chatbot tình dục để trò chuyện, tùy chỉnh tính cách, ngoại hình và sở thích của chatbot.

- Sự xuất hiện của khiêu dâm do AI tạo ra đặt ra nhiều mối lo ngại như tăng cường hành vi cưỡng chế, rủi ro về deepfake, sản xuất nội dung bất hợp pháp và ảnh hưởng đến sinh kế của người lao động tình dục.

- Mặt khác, khiêu dâm do AI tạo ra cũng có thể được sử dụng để nâng cao khoái cảm tình dục, nghiên cứu tình dục, giáo dục, trị liệu và hỗ trợ người sáng tạo nội dung người lớn.

- Cần có luật dựa trên bằng chứng để giảm thiểu rủi ro, giáo dục người dùng và người sáng tạo, cũng như nghiên cứu thêm để hiểu rõ ảnh hưởng của công nghệ này.

📌 Khiêu dâm do AI tạo ra sẽ thay đổi ngành công nghiệp người lớn với hơn 50 trang web miễn phí, cung cấp nội dung đa dạng và tùy chỉnh. Tuy nhiên, nó cũng đặt ra nhiều mối lo ngại về đạo đức như deepfake, nội dung bất hợp pháp, tác động đến người lao động tình dục. Dù vậy, công nghệ này cũng mang lại lợi ích cho giáo dục, nghiên cứu và trị liệu tình dục.

Citations:
[1]https://theconversation.com/ai-generated-pornography-will-disrupt-the-adult-content-industry-and-raise-new-ethical-concerns-226683

Không có file đính kèm.

Nguồn tham khảo

158

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2024-04-10 10:06:36

OpenAI giới thiệu GPT-4 Turbo với khả năng thị giác qua API

- OpenAI đã công bố GPT-4 Turbo với khả năng thị giác có sẵn thông qua API của họ.
- GPT-4 Turbo được giới thiệu từ tháng 11/2023, hứa hẹn cải thiện tốc độ, tăng kích thước ngữ cảnh đầu vào (lên đến 128.000 token) và giá thành hợp lý hơn.
- Các yêu cầu sử dụng khả năng nhận dạng và phân tích hình ảnh của mô hình giờ đây có thể được thực hiện thông qua định dạng văn bản JSON và gọi hàm.
- Thay đổi này giúp hợp lý hóa quy trình làm việc cho các nhà phát triển và tạo ra các ứng dụng hiệu quả hơn.
- Một số khách hàng đã sử dụng GPT-4 Turbo với thị giác như: Cognition (tạo mã tự động), Healthify (phân tích dinh dưỡng từ ảnh bữa ăn), TLDraw (chuyển bản vẽ thành website).
- Mặc dù GPT-4 Turbo thua kém trong các bài kiểm tra chuẩn so với các mô hình mới hơn như Claude 3 Opus của Anthropic hay Gemini Advanced của Google, bước đi này sẽ giúp các mô hình của OpenAI tiếp tục hấp dẫn với khách hàng doanh nghiệp và nhà phát triển.

📌 OpenAI đã mang GPT-4 Turbo với khả năng thị giác đến với nhiều khách hàng doanh nghiệp và nhà phát triển tiềm năng thông qua API. Bước tiến này mở ra nhiều khả năng mới cho AI tạo sinh, cho phép tích hợp nhận dạng và phân tích hình ảnh vào các ứng dụng, đồng thời giúp các mô hình của OpenAI vẫn hấp dẫn trong khi thế giới chờ đợi sự ra mắt của mô hình ngôn ngữ lớn tiếp theo.

https://venturebeat.com/ai/openai-makes-gpt-4-turbo-with-vision-generally-available-through-its-api/

Không có file đính kèm.

Nguồn tham khảo

221

AI ảnh-video-music-âm thanh 2024-04-09 23:08:53

Google ra mắt Imagen 2, công cụ tạo video clip từ văn bản còn nhiều hạn chế

- Google ra mắt Imagen 2, một họ các mô hình AI có thể tạo và chỉnh sửa ảnh từ lệnh văn bản, tích hợp trong nền tảng Vertex AI.
- Imagen 2 hiện đã hỗ trợ tạo video clip ngắn 4 giây từ lệnh văn bản, tính năng được gọi là "text-to-live images", nhắm đến đối tượng marketer và người sáng tạo nội dung.
- Tuy nhiên, độ phân giải video tạo ra còn thấp (360x640 pixel). Google hứa sẽ cải thiện điều này trong tương lai.
- Để giải quyết lo ngại về deepfake, Google sẽ áp dụng watermark ẩn SynthID lên video, nhưng công cụ phát hiện watermark này chỉ Google nắm giữ.
- So với các công cụ tạo video AI khác như Runway, Stable Video Diffusion hay Sora của OpenAI, Imagen 2 vẫn thua kém về độ phân giải, độ dài video và tính tùy biến.
- Google sở hữu các công nghệ tạo video ấn tượng hơn như Imagen Video và Phenaki, nhưng dường như chưa tận dụng hết tiềm năng.
- Thông tin về dữ liệu huấn luyện Imagen 2 khá mơ hồ, chủ yếu lấy từ web công khai. Chưa có cơ chế cho tác giả loại trừ tác phẩm khỏi quá trình huấn luyện hay đền bù bản quyền.
- Tính năng text-to-live images chưa nằm trong chính sách bảo vệ bản quyền của Google dành cho khách hàng, do còn trong giai đoạn preview.

📌 Imagen 2 của Google tích hợp khả năng tạo video clip 4 giây từ lệnh văn bản, nhưng vẫn thua kém đối thủ về chất lượng, tính năng. Thông tin dữ liệu huấn luyện và chính sách bản quyền chưa rõ ràng. Google dường như chưa phát huy hết năng lực công nghệ tạo video AI mình sở hữu. Để giải quyết lo ngại về deepfake, Google sẽ áp dụng watermark ẩn SynthID lên video, nhưng công cụ phát hiện watermark này chỉ Google nắm giữ.

https://techcrunch.com/2024/04/09/google-releases-imagen-2-a-video-clip-generator/

Không có file đính kèm.

Nguồn tham khảo

147

AI ảnh-video-music-âm thanh 2024-04-09 16:42:43

Bài hát ballad piano "sad girl" từ văn bản giấy phép MIT do AI tạo ra gây sốt

- Công cụ AI như Suno.ai cho phép bất kỳ chuỗi từ nào trở thành lời bài hát, kể cả những câu nói đùa bên trong.
- Một bài hát được tạo ra bởi AI của Suno với lời nhạc là văn bản giấy phép MIT đã lan truyền rộng rãi trong cộng đồng AI trực tuyến.
- Suno được thành lập năm 2023 tại Cambridge, Massachusetts bởi các cựu nhân viên từ Meta và TikTok. Microsoft đã tích hợp phiên bản trước của Suno vào Bing Chat.
- Suno v3 có thể tạo ra các bài hát dài 2 phút với nhiều thể loại khác nhau. Dịch vụ này kết hợp giữa ChatGPT để viết lời và mô hình tạo nhạc của Suno.
- Hơn 200 nghệ sĩ âm nhạc đã ký thư ngỏ yêu cầu các công ty công nghệ ngừng sử dụng công cụ AI để tạo ra âm nhạc có thể thay thế nghệ sĩ.
- Văn phòng Bản quyền Hoa Kỳ cho rằng nghệ thuật do AI tạo ra hoàn toàn không thể được bảo hộ bản quyền. Điều này có thể trở thành chính sách pháp lý chính thức đối với âm nhạc do AI tạo ra.
- Suno có thể dễ dàng tạo ra lời bài hát độc đáo dựa trên lời nhắc và phối chúng theo các thể loại âm nhạc được tạo kiểu dựa trên tập dữ liệu huấn luyện.
- Sản phẩm của Suno chưa thể phân biệt được với âm nhạc chất lượng cao do con người tạo ra, nhưng điều đó có thể thay đổi trong năm tới.

📌 Suno.ai đánh dấu một cột mốc trong công cụ tạo nhạc AI, cho phép tạo bài hát từ bất kỳ văn bản nào. Một bài hát được tạo ra bởi AI của Suno với lời nhạc là văn bản giấy phép MIT đã lan truyền rộng rãi trong cộng đồng AI trực tuyến. Tuy nhiên, nó cũng gây ra những vấn đề đạo đức chưa được giải quyết liên quan đến việc sử dụng tác phẩm âm nhạc mà không có sự cho phép của nghệ sĩ và khả năng thay thế nhạc sĩ con người. Hơn 200 nghệ sĩ âm nhạc đã ký thư ngỏ yêu cầu các công ty công nghệ ngừng sử dụng công cụ AI để tạo ra âm nhạc có thể thay thế nghệ sĩ. Văn phòng Bản quyền Hoa Kỳ cho rằng tác phẩm thuần túy do AI tạo ra không thể được bảo hộ bản quyền.

https://arstechnica.com/information-technology/2024/04/mit-license-text-becomes-viral-sad-girl-piano-ballad-generated-by-ai/

Không có file đính kèm.

Nguồn tham khảo

174

AI ảnh-video-music-âm thanh 2024-04-09 13:50:12

Ngành công nghiệp âm nhạc phải tìm cách hòa hợp với AI tạo sinh

- Âm nhạc và công nghệ đã cùng tồn tại từ lâu. Trong vài thập kỷ qua, ngành công nghiệp âm nhạc đã phải tự cải tiến để bắt kịp với sự phát triển của công nghệ. Xu hướng này có thể tiếp tục trong kỷ nguyên AI tạo sinh (GenAI).

- Các công ty đang huấn luyện các mô hình ngôn ngữ lớn (LLM) trên dữ liệu mà họ có thể không nên sử dụng. Điều này đặt ra thách thức cho các công ty muốn có trách nhiệm và công bằng với dữ liệu huấn luyện của họ.

- Cần có sự hỗ trợ từ cơ sở và giúp thúc đẩy nhu cầu cập nhật luật bản quyền. Trọng tâm nên là đảm bảo GenAI và âm nhạc có thể tiếp tục cùng tồn tại hài hòa.

- GenAI có thể mang lại lợi ích cho cả nhạc sĩ và công chúng. Nhạc sĩ không còn bị giới hạn bởi nhạc cụ họ có thể chơi hay quy trình ghi âm họ biết. Người mới bắt đầu có thể dễ dàng học một nhạc cụ mới với xử lý ngôn ngữ tự nhiên.

- Roland hy vọng tạo nền tảng cho một môi trường do AI điều khiển, trong đó người sáng tạo âm nhạc sẽ được công nhận và bồi thường công bằng cho tác phẩm của họ. Công ty đã hợp tác với Universal Music Group để đưa ra "Nguyên tắc sáng tạo âm nhạc với AI".

- Các nguyên tắc này bao gồm niềm tin rằng AI sẽ khuếch đại sự sáng tạo của con người và tính minh bạch là điều cần thiết để thiết lập AI đáng tin cậy. Sử dụng tác phẩm có bản quyền và tên, hình ảnh, giọng nói của nghệ sĩ âm nhạc cần được ủy quyền trước khi sử dụng. Nghệ sĩ phải được bồi thường.

- Hơn 60 công ty toàn cầu đã bày tỏ sự quan tâm đến việc cam kết ủng hộ cho mục đích này. Việc áp dụng các nguyên tắc là tự nguyện và sẽ không bị giám sát để thực thi. Mục tiêu chính là thúc đẩy một phong trào AI có trách nhiệm trong ngành.

- Roland và Universal cũng đã thành lập một cơ sở nghiên cứu và phát triển chung để phát triển "các phương pháp xác nhận nguồn gốc và quyền sở hữu âm nhạc". Họ sẽ tìm cách tích hợp các sản phẩm và dịch vụ của Roland trong một số cơ sở sản xuất âm nhạc thuộc sở hữu của Universal trên toàn thế giới.

📌 Ngành công nghiệp âm nhạc cần tìm cách hòa hợp với AI tạo sinh bằng cách đưa ra các nguyên tắc bao gồm niềm tin rằng AI sẽ khuếch đại sự sáng tạo của con người và tính minh bạch là điều cần thiết để thiết lập AI đáng tin cậy. Sử dụng tác phẩm có bản quyền và tên, hình ảnh, giọng nói của nghệ sĩ âm nhạc cần được ủy quyền trước khi sử dụng. Nghệ sĩ phải được bồi thường. Hơn 60 công ty toàn cầu đã bày tỏ sự quan tâm đến việc cam kết ủng hộ cho mục đích này.

https://www.zdnet.com/article/the-music-industry-must-find-a-way-to-stay-in-tune-with-genai/

Không có file đính kèm.

Nguồn tham khảo

174

AI ảnh-video-music-âm thanh AI bản quyền 2024-04-06 00:14:20

Ai mới là kẻ trộm: CEO YouTube cảnh báo OpenAI không được dùng video Youtube huấn luyện Sora. nhưng chính Youtube sử dụng dữ liệu từ báo chí để huấn luyện AI

- Neal Mohan, CEO của YouTube, tuyên bố rằng việc OpenAI sử dụng video trên nền tảng của họ để huấn luyện công cụ tạo video từ văn bản Sora là không thể chấp nhận được.
- Mohan cho rằng các nhà sáng tạo khi tải video lên YouTube kỳ vọng điều khoản dịch vụ sẽ được tuân thủ, trong đó không cho phép tải xuống và sử dụng nội dung.
- Tác giả bài viết chỉ ra sự mâu thuẫn khi Google sử dụng dữ liệu từ báo chí để huấn luyện công cụ tìm kiếm và AI của mình, trong khi cảnh báo OpenAI không được làm điều tương tự với dữ liệu YouTube.
- OpenAI bị cho là đã xây dựng các hệ thống của mình dựa trên sáng tạo và tài năng của những người khác mà không hề hay biết.
- Video do AI tạo ra như của Sora không cần sự tham gia của con người, khác với phim hoạt hình của Pixar vốn được các nghệ sĩ đưa yếu tố nhân văn vào.
- Tác giả cho rằng OpenAI đang cố gắng đẩy giới hạn công nghệ để tìm cách thay thế con người.

📌 OpenAI bị cáo buộc sử dụng trái phép video YouTube để huấn luyện AI tạo video Sora. CEO YouTube Neal Mohan khẳng định đây là vi phạm nghiêm trọng điều khoản dịch vụ. Bài viết cũng chỉ ra sự mâu thuẫn khi Google dùng dữ liệu của báo chí cho AI của mình. Tác giả cho rằng OpenAI đang cố gắng thay thế con người bằng cách đẩy giới hạn công nghệ.

https://bgr.com/tech/youtube-ceo-to-openai-dont-you-dare-use-our-videos-to-train-sora/

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-04-05 22:59:43

OpenAI nâng cấp DALL-E: hỗ trợ chỉnh sửa ảnh AI, giảm khó khăn về kỹ thuật nhập câu lệnh

- OpenAI vừa cập nhật công nghệ tạo ảnh DALL-E, cho phép người dùng chỉnh sửa ảnh được tạo ra
- Tính năng mới cũng đưa ra các gợi ý phong cách để hỗ trợ quá trình chỉnh sửa ảnh
- Khả năng này đã có sẵn cho người dùng web, iOS và Android
- Các công cụ tạo ảnh AI như DALL-E của OpenAI và Image Creator của Microsoft rất ấn tượng, có thể khiến nhiều nhà thiết kế đồ họa và kiến trúc sư mất việc trong tương lai
- Tuy nhiên, gần đây các công cụ này gặp khó khăn trong việc thực hiện các tác vụ đơn giản như tạo ảnh trắng
- OpenAI giờ đây cung cấp cho người dùng quyền kiểm soát tốt hơn đối với kết quả cuối cùng được tạo bởi DALL-E
- Khi tạo ảnh bằng DALL-E trong ChatGPT, người dùng sẽ thấy các công cụ chỉnh sửa mới cho phép tinh chỉnh kết quả
- Microsoft nhận được nhiều phàn nàn từ người dùng rằng ChatGPT tốt hơn Copilot AI
- Microsoft cho rằng nguyên nhân chính là do người dùng ngại chuyển sang phiên bản mới hơn và thiếu kiến thức về kỹ thuật nhập câu lệnh
- Microsoft đã giới thiệu các công cụ mới để ngăn chặn các cuộc tấn công bằng cách nhập sai câu lệnh nhằm đánh lừa Copilot AI
- Microsoft cũng dự định dùng video để trang bị kỹ năng nhập câu lệnh cho người dùng

📌 OpenAI đã nâng cấp DALL-E, cho phép chỉnh sửa ảnh AI và đưa ra gợi ý phong cách, giúp người dùng dễ dàng tạo ra ảnh chính xác hơn. Tuy công nghệ AI tạo ảnh đang phát triển mạnh mẽ, nhưng việc thiếu kỹ năng nhập câu lệnh vẫn là rào cản lớn đối với người dùng trong việc tận dụng tối đa tiềm năng của các công cụ này.

https://www.windowscentral.com/software-apps/openai-dall-e-finally-supports-ai-image-editing

Không có file đính kèm.

Nguồn tham khảo

164

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2024-04-04 00:16:55

OpenAI vừa phát hành video âm nhạc được tạo ra bởi Sora - một trải nghiệm như trong cơn mơ

- OpenAI vừa phát hành một video âm nhạc được tạo ra bởi Sora, một AI tạo sinh video có khả năng tạo ra các đoạn clip dài hơn một phút chỉ từ một đầu vào văn bản.
- Video này là sản phẩm hợp tác với nghệ sĩ âm nhạc August Kamp, người được truy cập sớm vào Sora và mô tả nó là "một bước ngoặt" cho các nghệ sĩ.
- Video âm nhạc "Worldweight" mang đến một trải nghiệm như trong cơn mơ, đưa người xem đi qua một tâm trí đầy mưa.
- Âm nhạc mang đến cảm giác đứng dưới một nhà chờ xe buýt vào một buổi tối đìu hiu trên một con đường vắng trong khi mưa đổ xuống.
- Không có chi tiết cụ thể về các đầu vào văn bản được sử dụng để tạo ra video hoặc số lượng clip cần thiết để tạo ra đoạn video 2 phút 19 giây.
- Các nền tảng video khác chỉ tạo ra tối đa 12 giây với các phần mở rộng, nhưng gặp khó khăn trong việc duy trì nhất quán sau 5 giây đầu tiên.
- Sora có khả năng tạo ra các clip dài hơn và thường có nhiều cảnh quay nhất quán trong mỗi clip.
- Kamp nói rằng có thể xây dựng và lặp lại các hình ảnh điện ảnh một cách trực quan như vậy đã mở ra những lối đi nghệ thuật mới.
- OpenAI đang làm việc về các vấn đề bảo mật và sẽ từ từ phát hành Sora trong năm nay, có thể bắt đầu với các nhà sáng tạo hàng đầu.
- Tuy nhiên, việc phát hành có thể bị trì hoãn nếu OpenAI không thể giải quyết được các rủi ro về thông tin sai lệch trước cuộc bầu cử toàn cầu vào cuối năm nay.

📌OpenAI phát hành video âm nhạc "Worldweight" được tạo bởi AI Sora, mang đến trải nghiệm như trong cơn mơ. Video dài 2 phút 19 giây, tạo ra từ đầu vào văn bản, cho thấy tiềm năng của công nghệ AI tạo sinh video mới.

https://www.tomsguide.com/ai/chatgpt/openai-just-released-a-sora-generated-music-video-and-its-like-something-out-of-a-fever-dream

Không có file đính kèm.

Nguồn tham khảo

173

AI ảnh-video-music-âm thanh 2024-04-03 23:48:46

AI tạo sinh bài hát từ Stability AI dài 3 phút nhưng chưa thực sự tốt hơn

- Phiên bản mới Stable Audio 2.0 của Stability AI cho phép người dùng tải lên mẫu âm thanh và biến đổi chúng thành bài hát dài 3 phút bằng cách sử dụng các gợi ý văn bản.
- Tuy nhiên, chất lượng của các bài hát AI tạo sinh vẫn chưa đạt đến mức có thể giành giải Grammy.
- Phiên bản đầu tiên của Stable Audio chỉ cho phép tạo ra các đoạn âm thanh ngắn lên đến 90 giây.
- Khác với mô hình tạo sinh âm thanh Voice Engine của OpenAI chỉ dành cho một số người dùng được lựa chọn, Stable Audio miễn phí và công khai trên trang web và API của Stability AI.
- Một tính năng mới của Stable Audio 2.0 là khả năng tạo ra các bài hát hoàn chỉnh với phần mở đầu, phần chính và phần kết.
- Tuy nhiên, khi thử nghiệm với gợi ý "bài hát folk pop với phong cách Mỹ", bài hát AI tạo sinh vẫn nghe khá kỳ lạ và thiếu linh hồn.
- Người dùng có thể tùy chỉnh bài hát bằng cách điều chỉnh mức độ tuân thủ gợi ý và lượng âm thanh gốc được sửa đổi, cũng như thêm hiệu ứng âm thanh.
- Dù vậy, vấn đề chính của các bài hát AI tạo sinh hiện nay là thiếu đi cảm xúc và linh hồn của con người.
- Stability AI cho biết Stable Audio được đào tạo trên dữ liệu từ AudioSparx với hơn 800.000 tệp âm thanh, và họ đã hợp tác với Audible Magic để ngăn chặn việc sử dụng tài liệu bản quyền.

📌Mặc dù Stable Audio 2.0 đã cải thiện khả năng tạo ra các bài hát dài hơn tới 3 phút, nhưng chất lượng vẫn chưa thực sự tốt, với âm thanh thiếu linh hồn và kỳ lạ như tiếng cá voi hát.

https://www.theverge.com/2024/4/3/24119438/stability-ai-audio-generation-whale-sounds

Không có file đính kèm.

Nguồn tham khảo

175

AI ảnh-video-music-âm thanh AI việc làm 2024-04-02 23:14:43

Hàng trăm nghệ sĩ âm nhạc hàng đầu cảnh báo về việc thay thế nghệ sĩ bằng AI

- Hơn 200 nghệ sĩ âm nhạc nổi tiếng đã ký một lá thư ngỏ kêu gọi các nhà phát triển AI, công ty công nghệ và nền tảng kỹ thuật số ngừng sử dụng AI để xâm phạm và hạ giá trị quyền của các nghệ sĩ.
- Đây là một trong những lập trường mạnh mẽ nhất mà ngành công nghiệp âm nhạc đã cùng nhau thực hiện để bảo vệ quyền lợi của nghệ sĩ trong kỷ nguyên AI.
- Lá thư đề cập đến các mối quan ngại của nghệ sĩ âm nhạc như sao chép giọng nói của nghệ sĩ, sử dụng tác phẩm của họ để huấn luyện mô hình AI mà không có thù lao và làm loãng quỹ tiền bản quyền được trả cho nghệ sĩ.
- Jen Jacobsen, giám đốc điều hành của The Artist Rights Alliance (ARA), cho biết họ không nghĩ đến việc lập pháp mà kêu gọi các đối tác công nghệ và kỹ thuật số hợp tác để tạo ra một thị trường có trách nhiệm, duy trì chất lượng âm nhạc và không thay thế nghệ sĩ.
- Lá thư kêu gọi các nhà phát triển AI, công ty công nghệ, nền tảng và dịch vụ âm nhạc kỹ thuật số cam kết không phát triển hoặc triển khai công nghệ, nội dung hoặc công cụ tạo nhạc AI làm suy yếu hoặc thay thế nghệ thuật của nhạc sĩ và nghệ sĩ hoặc từ chối trả công bằng cho tác phẩm của họ.
- Lá thư thừa nhận rằng AI, khi được sử dụng một cách có trách nhiệm, có thể thúc đẩy sáng tạo của con người. Tuy nhiên, nó lập luận rằng một số nền tảng và nhà phát triển AI đang sử dụng công nghệ này để phá hoại sự sáng tạo và làm suy yếu nghệ sĩ, nhạc sĩ và chủ sở hữu quyền.
- Ngành công nghiệp âm nhạc đang bắt đầu ủng hộ các dự luật bảo vệ tác phẩm của họ khỏi các vấn đề bản quyền liên quan đến AI, nhưng những nỗ lực này chủ yếu nhắm vào các nhà lập pháp.

📌 Hơn 200 nghệ sĩ âm nhạc nổi tiếng đã ký thư ngỏ kêu gọi các công ty công nghệ và nhà phát triển AI ngừng sử dụng AI để xâm phạm quyền của nghệ sĩ. Lá thư nhấn mạnh các mối quan ngại như sao chép giọng nói, sử dụng tác phẩm để huấn luyện AI mà không trả thù lao và làm giảm quỹ tiền bản quyền. Ngành công nghiệp âm nhạc cũng bắt đầu ủng hộ các dự luật bảo vệ tác phẩm trước các vấn đề bản quyền liên quan đến AI.

https://www.axios.com/2024/04/02/musicians-letter-ai-replace-artists

Không có file đính kèm.

Nguồn tham khảo

192

AI ảnh-video-music-âm thanh 2024-04-02 00:18:11

Nghệ sĩ đang sử dụng AI tạo sinh trong tác phẩm như thế nào?

- Các nghệ sĩ và phòng trưng bày nghệ thuật có phản ứng trái chiều về AI tạo sinh, vừa lo ngại vừa hào hứng với tiềm năng của nó.
- Nghệ sĩ Rubem Robierb "sốc" khi thấy khả năng của AI tạo sinh. Ông cho rằng cần có giới hạn pháp lý để bảo vệ sở hữu trí tuệ.
- Phòng trưng bày Serpentine ở London đã phát triển các dự án AI với nghệ sĩ từ năm 2014. Triển lãm hiện tại của Refik Anadol sử dụng 135 triệu ảnh san hô để tạo ra tác phẩm nghệ thuật quy mô lớn.
- Phòng trưng bày 37xDubai ở UAE đang trưng bày nghệ thuật tạo sinh, với các tác phẩm đòi hỏi nhiều giờ lao động và kỹ năng lập trình.
- Nghệ sĩ Shane Guffogg mô tả AI là một "công cụ", vừa đáng sợ vừa thú vị. Ông từ chối đề xuất thay thế yếu tố con người bằng AI trong quá trình sáng tác.
- Guffogg hợp tác với lập trình viên AI và nghệ sĩ dương cầm để tạo ra triển lãm "Âm thanh của màu sắc", chuyển hóa tranh của ông thành âm nhạc.
- Nghệ sĩ Robierb cho rằng tác phẩm gốc chỉ đến từ con người, và có thể cần dán nhãn cho các tác phẩm do AI tạo ra trong tương lai.

📌 AI tạo sinh đang tạo ra cả sự lo ngại và hào hứng trong giới nghệ thuật. Một số nghệ sĩ như Rubem Robierb và Shane Guffogg bày tỏ quan ngại về sở hữu trí tuệ và việc thay thế yếu tố con người, trong khi các phòng trưng bày như Serpentine và 37xDubai đang khám phá tiềm năng của công nghệ này thông qua các triển lãm sử dụng hàng triệu hình ảnh và kỹ năng lập trình để tạo ra nghệ thuật tạo sinh.

Citations:
[1] https://www.cnbc.com/2024/04/01/generative-ai-in-art-how-artists-are-using-it-or-not.html

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-04-01 04:32:10

Sam Altman, CEO của OpenAI, đang cố gắng thuyết phục các nhà sản xuất phim Hollywood rằng công cụ tạo video Sora sẽ không phá hủy ngành công nghiệp điện ảnh.

- Sam Altman, CEO của OpenAI, đã tổ chức một loạt cuộc họp với các giám đốc điều hành Hollywood về công cụ tạo video Sora.
- Sora, được ra mắt vào tháng 2, có thể tạo ra video thực tế dài đến một phút dựa trên lời nhắc của người dùng, bao gồm các cảnh phức tạp với nhiều nhân vật, chuyển động cụ thể và chi tiết chính xác.
- Trong các cuộc họp, OpenAI đã yêu cầu các giám đốc studio giúp đỡ trong việc triển khai Sora. Một số studio tỏ ra cởi mở với việc sử dụng công cụ này trong sản xuất, gợi ý rằng nó có thể tiết kiệm thời gian và chi phí.
- Sản xuất phim và truyền hình đã bị gián đoạn vào năm ngoái do các cuộc đình công của diễn viên và biên kịch, một phần do lo ngại rằng một số công việc sẽ bị mất vì AI.
- Đạo diễn Tyler Perry đã bày tỏ lo ngại về tác động của AI đối với các ngành công nghiệp sáng tạo và đã dừng kế hoạch mở rộng studio sản xuất của mình vì Sora.
- Sora đã phát hành các video đầu tiên do bên thứ ba sản xuất bằng công cụ này vào thứ Hai, bao gồm lợn bay và một buổi trình diễn thời trang dưới nước.
- Ngoài Sora, các công cụ chuyển đổi văn bản thành video khác cũng đang được phát triển bởi startup Runway được Google hậu thuẫn, Emu Video của Meta và Lumiere của Google.

📌 Sam Altman đang nỗ lực thuyết phục các nhà sản xuất phim Hollywood rằng công cụ AI tạo sinh video Sora của OpenAI sẽ không phá hủy ngành công nghiệp điện ảnh. Mặc dù một số studio tỏ ra cởi mở với việc sử dụng Sora để tiết kiệm thời gian và chi phí sản xuất, nhưng vẫn có những lo ngại về tác động của AI đối với việc làm trong ngành. Bên cạnh Sora, các công ty công nghệ khác như Google và Meta cũng đang phát triển các công cụ tương tự.

https://www.businessinsider.com/sam-altman-openai-convince-sora-wont-destroy-hollywood-2024-3

Không có file đính kèm.

Nguồn tham khảo

144

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-04-01 04:03:51

OpenAI ra mắt công cụ tạo giọng nói AI mới với nhiều ứng dụng đột phá nhưng cũng đặt ra lo ngại về đạo đức

- OpenAI giới thiệu công cụ giọng nói AI mới có thể tạo giọng nói tổng hợp chỉ từ mẫu âm thanh 15 giây, bao gồm cả ngữ điệu và giọng địa phương đặc trưng.
- Công cụ này mở ra nhiều ứng dụng mới như hỗ trợ giáo dục (đọc sách cho trẻ em, phản hồi học tập cá nhân hóa), dịch và bản địa hóa nội dung đa ngôn ngữ, hỗ trợ giao tiếp cho người khiếm khuyết, cung cấp dịch vụ ở vùng sâu vùng xa, tạo avatar và lồng tiếng nội dung, nâng cao khả năng tiếp cận.
- Tuy nhiên, cũng có lo ngại về khả năng sử dụng sai mục đích công nghệ này như mạo danh, gian lận, đặc biệt trong các thời điểm nhạy cảm như bầu cử.
- OpenAI nhấn mạnh tầm quan trọng của sự đồng ý và tuân thủ khuôn khổ pháp lý khi sử dụng công cụ này. Cần có các biện pháp xác thực giọng nói mạnh mẽ và danh sách các giọng nói không được phép sao chép.
- Giải pháp tiềm năng là sử dụng thủy vân trong âm thanh do AI tạo ra, giúp người nghe nhận biết nội dung là do AI tạo ra, tăng cường niềm tin vào tính xác thực của thông tin.

📌 Công cụ giọng nói AI mới của OpenAI mở ra nhiều ứng dụng đột phá trong giáo dục, y tế, truyền thông, tiếp cận, nhưng cũng đặt ra thách thức về đạo đức và nguy cơ lạm dụng. Cần có các biện pháp xác thực giọng nói mạnh mẽ và danh sách các giọng nói không được phép sao chép, sử dụng thủy vân trong âm thanh do AI tạo ra, giúp người nghe nhận biết nội dung là do AI tạo ra, tăng cường niềm tin vào tính xác thực của thông tin.

https://www.geeky-gadgets.com/openai-ai-speech-engine/

Không có file đính kèm.

Nguồn tham khảo

152

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-03-28 23:06:10

Sự thật đằng sau những đoạn phim tạo sinh bằng AI: cơ hội và nguy cơ đáng sợ

- Khi OpenAI công bố mô hình video tạo sinh Sora vào tháng trước, nó đã mời một số nhà làm phim thử nghiệm và công bố 7 phim ngắn siêu thực, cho thấy tương lai của video tạo sinh đang đến rất nhanh.

- Các mô hình đầu tiên có thể biến văn bản thành video xuất hiện vào cuối năm 2022 từ các công ty như Meta, Google và startup Runway, nhưng kết quả vẫn còn thô và chỉ vài giây.

- Chỉ 18 tháng sau, đầu ra HD, photorealistic tốt nhất của Sora đã đạt đến mức đáng kinh ngạc, khiến một số người dự đoán sự sụp đổ của Hollywood.

- Nhiều công ty đang chạy đua tạo ra mô hình kinh doanh dựa trên những bước đột phá này, hầu hết đều đang tìm hiểu mô hình kinh doanh trong quá trình đi.

- Sora của OpenAI hiện vượt trội so với đối thủ cạnh tranh, nhưng các công ty khác như Haiper, Irreverent Labs cũng đang nỗ lực bắt kịp.

- Video sẽ xuất hiện ở mọi nơi có video, từ YouTube, TikTok, tin tức đến quảng cáo. Ngành quảng cáo là một trong những người áp dụng sớm nhất công nghệ tạo sinh.

- Tuy nhiên, kiểm soát đầu ra vẫn là một thách thức lớn với công nghệ video tạo sinh hiện tại.

- Tin giả, tuyên truyền và nội dung phi đạo đức là mối lo ngại lớn với khả năng tạo video giả dễ dàng hơn bao giờ hết.

- Các nền tảng trực tuyến lớn có hồ sơ kém trong việc kiểm duyệt, và không có công cụ phát hiện video giả đáng tin cậy.

- Giáo dục công chúng về nguy cơ của công nghệ này có thể là giải pháp tốt nhất hiện nay.

📌 Sora của OpenAI đã nâng tầm video tạo sinh, nhưng cũng đặt ra nhiều thách thức về kiểm soát, tin giả và nội dung phi đạo đức. Giáo dục công chúng có thể là giải pháp tốt nhất trước khi công nghệ này trở nên phổ biến.

Citations:
[1] https://www.technologyreview.com/2024/03/28/1090252/whats-next-for-generative-video/

#MIT

Không có file đính kèm.

Nguồn tham khảo

160

AI ảnh-video-music-âm thanh 2024-03-26 17:43:11

Ideogram - công cụ tạo tranh AI chuyên về tạo văn bản rõ ràng trong ảnh

- Ideogram là một công cụ tạo tranh AI nổi bật với khả năng tạo ra hình ảnh có chứa văn bản rõ ràng trong hầu hết các lần thử.

- Người dùng có thể đăng ký miễn phí và nhận 25 lượt nhập mỗi ngày. Nếu muốn có thêm lượt và các tính năng nâng cao, có thể đăng ký gói trả phí.

- Ideogram cho phép tùy chỉnh phông chữ, màu sắc, kết cấu và kiểu dáng của văn bản ngay trong lời nhắc.

- Để bắt đầu, người dùng chỉ cần đăng ký tài khoản Gmail, đồng ý với điều khoản và tạo tên người dùng. Sau đó có thể ngay lập tức bắt đầu nhập lời nhắc để tạo tranh.

- Không cần tham số đặc biệt nào để tạo văn bản, AI của Ideogram sẽ tự hiểu nội dung miễn là bạn chỉ rõ phần nào trong lời nhắc cần được tạo dưới dạng văn bản.

- Ideogram rất hữu ích trong việc tạo logo. Mặc dù đôi khi vẫn có một vài điểm chưa chính xác, nhưng người dùng có thể dễ dàng chỉnh sửa tranh AI sau đó.

📌 Ideogram là công cụ tạo tranh AI chuyên biệt cho việc tạo văn bản rõ ràng trong ảnh. Với 25 lượt miễn phí mỗi ngày và khả năng tùy chỉnh linh hoạt, Ideogram giúp người dùng dễ dàng tạo ra các hình ảnh chứa chữ, logo ấn tượng chỉ trong vài thao tác đơn giản.

Citations:
[1] https://www.makeuseof.com/ideogram-ai-art-generator-legible-text/

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-03-21 23:29:53

nvidia ra mắt latte3d: tạo hình dạng 3d từ văn bản chỉ trong vài mili giây

- Nvidia giới thiệu Latte3D, mô hình AI tạo sinh văn bản thành 3D có thể tạo ra hình dạng 3D chất lượng cao chỉ trong vài mili giây.
- Latte3D do nhóm phòng thí nghiệm AI của Nvidia tại Toronto phát triển, mang lại khả năng tạo sinh gần thời gian thực các vật thể và động vật 3D từ các lệnh văn bản đơn giản.
- Sanja Fidler, Phó Chủ tịch Nghiên cứu AI tại Nvidia, cho rằng Latte3D là một bước đột phá cho các nhà sáng tạo trên nhiều lĩnh vực.
- Latte3D có thể biến đổi các lệnh văn bản thành các hình dạng 3D chi tiết, tương tự như máy in 3D ảo, chỉ cần sử dụng một GPU như Nvidia RTX A6000.
- Thay vì thiết kế vật thể từ đầu hay tìm kiếm trong thư viện tài sản 3D, các nhà sáng tạo giờ đây có thể dựa vào Latte3D để hiện thực hóa ý tưởng một cách nhanh chóng và hiệu quả.
- Latte3D cung cấp nhiều tùy chọn hình dạng dựa trên mỗi đầu vào văn bản, cho phép người dùng chọn thiết kế phù hợp nhất.
- Tính linh hoạt của Latte3D vượt ra ngoài tập dữ liệu huấn luyện ban đầu, bao gồm động vật và các vật dụng hàng ngày. Các nhà phát triển có thể huấn luyện mô hình trên các loại dữ liệu khác nhau, cho phép ứng dụng trong nhiều lĩnh vực như thiết kế cảnh quan và robotics.
- Latte3D được hỗ trợ bởi GPU Nvidia A100 Tensor Core và được huấn luyện trên các lệnh văn bản đa dạng được tạo ra bằng ChatGPT.
- Latte3D thể hiện cam kết của Nvidia trong việc thúc đẩy các công cụ tạo nội dung dựa trên AI, xử lý nhiều loại mô tả văn bản, đảm bảo tạo hình dạng chính xác và phù hợp với nhu cầu người dùng.

📌 Latte3D của Nvidia là một bước tiến quan trọng trong lĩnh vực AI, mang lại khả năng tạo sinh gần thời gian thực các hình dạng 3D từ văn bản chỉ trong vài mili giây. Mô hình này hứa hẹn cách mạng hóa quy trình sáng tạo nội dung trên nhiều lĩnh vực, từ thiết kế cảnh quan đến robotics, giúp các nhà sáng tạo hiện thực hóa ý tưởng nhanh chóng và hiệu quả hơn bao giờ hết.

https://venturebeat.com/ai/nvidia-unveils-latte3d-to-instantly-generate-3d-shapes-from-text/

Không có file đính kèm.

Nguồn tham khảo

151

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-03-20 22:41:00

cuộc đua của OpenAI để bắt kịp các startup về video do AI tạo ra

- OpenAI giới thiệu Sora, phần mềm trí tuệ nhân tạo mới có thể biến lời nhắc văn bản thành video trông thực tế đáng kinh ngạc.
- Các công ty khởi nghiệp AI khác như Runway AI, Haiper, Pika và Stability AI đã phát hành phần mềm tạo video AI mà bất kỳ ai cũng có thể sử dụng với giá rẻ hoặc miễn phí.
- Công cụ này đã phát triển nhanh hơn mong đợi, đủ nhanh để gây lo ngại cho những người lo lắng về kinh tế của việc tạo video hoặc sự lan truyền của thông tin sai lệch tinh vi.
- Giám đốc Pika Demi Guo cho rằng demo Sora cho thấy tiềm năng của công nghệ và đang giúp công ty thu hút nhiều nhân viên tiềm năng hơn.
- Đạo diễn Paul Trillo đã tích hợp trình tạo hình ảnh và video AI vào quy trình sáng tạo của mình, cho phép anh khám phá nhiều khái niệm và hiệu ứng đặc biệt hơn.
- Giada Pistilli, chuyên gia đạo đức tại Hugging Face, cho rằng công nghệ này có thể giúp các nhà làm phim ngân sách thấp dễ dàng thêm hiệu ứng đặc biệt, nhưng nhược điểm như dễ dàng lan truyền thông tin sai lệch và khiêu dâm do AI tạo ra lớn hơn ưu điểm.
- Kiểm tra phần mềm video-to-text từ Pika, Haiper, Runway's Gen-2 và Stability AI's Stable Video cho thấy các hệ thống này thường không tạo ra video tuân theo lời nhắc văn bản đơn giản.
- Tạo video bằng AI đòi hỏi nhiều tính toán hơn so với chatbot hoặc trình tạo ảnh tĩnh, khiến nó đắt tiền và chậm hơn.
- Giá cả có thể giảm xuống theo thời gian khi phần cứng và phần mềm được cải thiện. Valenzuela dự đoán ai đó sẽ làm một bộ phim dài ít nhất 60 phút vào cuối năm nay mà mọi cảnh đều sử dụng trình tạo video AI.

📌 Công nghệ tạo video AI đang phát triển nhanh chóng với sự cạnh tranh giữa OpenAI và các startup. Mặc dù vẫn còn hạn chế, công cụ này hứa hẹn làm thay đổi ngành công nghiệp video với chi phí thấp hơn nhiều so với kỹ thuật truyền thống. Tuy nhiên, nó cũng đặt ra những lo ngại về thông tin sai lệch. Các chuyên gia dự đoán phim dài đầu tiên sử dụng AI có thể ra mắt ngay trong năm nay.

https://www.bloomberg.com/news/articles/2024-03-20/open-ai-s-sora-video-tool-tries-to-keep-up-with-runway

Không có file đính kèm.

Nguồn tham khảo

188

AI ảnh-video-music-âm thanh 2024-03-19 18:45:11

Nvidia bắt tay Shutterstock, Getty Images phát triển nội dung 3D do AI tạo ra

- Nvidia công bố mô hình AI đa phương thức Edify giờ đây có thể tạo ra nội dung 3D và hợp tác với Shutterstock, Getty Images về các công cụ được cung cấp bởi Edify.
- Shutterstock cung cấp quyền truy cập sớm vào API dựa trên Edify để tạo các đối tượng 3D cho cảnh ảo từ lời nhắc văn bản và hình ảnh, giúp giảm đáng kể thời gian cần thiết để tạo nguyên mẫu.
- Getty bổ sung khả năng tinh chỉnh tùy chỉnh vào dịch vụ AI tạo sinh, cho phép khách hàng doanh nghiệp tạo hình ảnh tuân theo hướng dẫn và phong cách thương hiệu.
- Các nhà phát triển sẽ sớm có thể kiểm tra các mô hình này thông qua Nvidia NIM - bộ sưu tập các microservice suy luận mới.
- Getty cung cấp dịch vụ cho phép các thương hiệu tinh chỉnh Edify theo thương hiệu và phong cách cụ thể của họ thông qua phương pháp tự phục vụ không cần mã.
- Các công ty hàng đầu như Dentsu, McCann, WPP đang sử dụng công cụ AI tạo sinh của Getty cho các thương hiệu như Sam's Club, Mucinex, Coca-Cola.
- Shutterstock và HP đang hợp tác về in 3D tùy chỉnh, cho phép các nhà thiết kế tạo nội dung kỹ thuật số mà HP có thể chuyển đổi thành mô hình in 3D.
- Các công ty như Dassault Systèmes, Katana, Accenture Song cũng đang tận dụng công cụ 3D và microservice Edify của Shutterstock.

📌 Nvidia đang mở rộng sang lĩnh vực nội dung 3D với sự hợp tác của Shutterstock và Getty Images. Các công cụ mới dựa trên AI Edify có thể tạo đối tượng 3D từ lời nhắc, giúp đẩy nhanh quá trình thiết kế và tiết kiệm thời gian đáng kể. Nhiều thương hiệu và công ty hàng đầu đã bắt đầu tận dụng công nghệ này cho các dự án sáng tạo và quảng cáo.

https://venturebeat.com/ai/nvidia-partners-with-shutterstock-getty-images-on-ai-generated-3d-content/

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh 2024-03-18 22:45:19

Các nhà nghiên cứu của Google ra mắt 'VLOGGER', một AI có thể mang lại sự sống cho ảnh tĩnh

- VLOGGER là một hệ thống AI mới do các nhà nghiên cứu Google phát triển, có thể tạo ra video giống như thật về người nói, cử chỉ và di chuyển chỉ từ một bức ảnh tĩnh.
- Công nghệ này dựa trên các mô hình học máy tiên tiến gọi là mô hình khuếch tán để tổng hợp cảnh quay thực tế đáng kinh ngạc.
- VLOGGER sử dụng một tập dữ liệu mới khổng lồ có tên MENTOR, chứa hơn 800.000 danh tính đa dạng và 2.200 giờ video, cho phép nó học cách tạo video về người với các sắc tộc, độ tuổi, trang phục, tư thế và môi trường xung quanh khác nhau mà không bị sai lệch.
- Công nghệ này mở ra nhiều trường hợp sử dụng hấp dẫn như tự động lồng tiếng video sang ngôn ngữ khác, chỉnh sửa liền mạch và điền vào các khung hình bị thiếu trong video, tạo ra video đầy đủ của một người từ một bức ảnh duy nhất.
- VLOGGER có thể được sử dụng để tạo ra các diễn viên ảo chân thực cho thực tế ảo và trò chơi, cũng như các trợ lý ảo và chatbot hấp dẫn và sinh động hơn.
- Tuy nhiên, công nghệ này cũng có khả năng bị lạm dụng, chẳng hạn như tạo ra deepfake, gây ra thách thức về thông tin sai lệch và giả mạo kỹ thuật số.
- Mặc dù ấn tượng, VLOGGER vẫn có những hạn chế như video được tạo ra tương đối ngắn, có nền tĩnh, cá nhân không di chuyển trong môi trường 3D và cử chỉ, giọng nói chưa hoàn toàn giống người thật.
- VLOGGER đại diện cho một bước tiến đáng kể và cho thấy sự tiến bộ nhanh chóng đang diễn ra trong lĩnh vực trí tuệ nhân tạo.

📌 VLOGGER của Google có thể tạo ra video chân thực về người nói và cử chỉ chỉ từ một bức ảnh tĩnh, dựa trên mô hình khuếch tán và tập dữ liệu khổng lồ MENTOR với hơn 800.000 danh tính và 2.200 giờ video. Công nghệ này mở ra nhiều ứng dụng tiềm năng nhưng cũng đặt ra thách thức về deepfake và thông tin sai lệch trong tương lai.

https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/

Không có file đính kèm.

Nguồn tham khảo

183

AI ảnh-video-music-âm thanh 2024-03-17 16:18:06

Hướng dẫn tạo video AI miễn phí với Haiper chỉ trong vài bước đơn giản

- Haiper AI là công cụ tạo video AI đột phá, miễn phí, do 2 cựu nhân viên DeepMind phát triển
- Công ty đã huy động được 13 triệu USD vốn hạt giống, cho thấy tiềm năng to lớn
- Giao diện thân thiện, quy trình tạo video đơn giản chỉ cần nhập lệnh văn bản ngắn gọn
- Lệnh nên bao gồm 3 yếu tố: chủ thể, chuyển động, phong cách để đạt kết quả tốt nhất
- Cung cấp nhiều thẻ phong cách như phim cũ, màu nước, cyberpunk, bí ẩn, Lego, hậu cảnh mờ
- Tạo video HD dọc 720x1088, ngang 1280x720. Hiện giới hạn 2 giây, sẽ mở rộng sau
- Có cài đặt riêng tư cho video công khai hoặc cá nhân
- Tính năng "Animate Your Image" để tạo hoạt ảnh từ ảnh tĩnh
- Đang phát triển công cụ "Video to Video" để sửa đổi yếu tố trong video sẵn có
- Chất lượng video ngang ngửa với các công cụ AI khác như Sora
- Cho phép tải xuống video đầu ra
- Tiềm năng tạo ra cả thế giới, câu chuyện, phim ảnh chỉ từ lệnh văn bản
- Tương lai có thể tích hợp đầu vào AI đa phương thức (cốt truyện, hội thoại, âm nhạc, giọng nói)
- Ứng dụng trong nhiều lĩnh vực như giải trí, quảng cáo
- Công nghệ liên tục phát triển và cải tiến

📌 Haiper AI đang dẫn đầu cuộc cách mạng video AI với nền tảng thân thiện, dễ tiếp cận và chất lượng đầu ra ấn tượng không kém Sora. Công ty đang không ngừng hoàn thiện công nghệ, mở rộng dịch vụ, hứa hẹn tác động lớn đến lĩnh vực sáng tạo nội dung video trong tương lai gần.

https://www.geeky-gadgets.com/haiper-ai-video-generator/

Không có file đính kèm.

Nguồn tham khảo

174

AI ảnh-video-music-âm thanh 2024-03-17 16:10:50

Suno - startup đang thay đổi mọi thứ với AI tạo nhạc

• Suno là một startup mới thành lập cách đây 2 năm, đang phát triển AI có thể tạo ra các bài hát hoàn chỉnh chỉ từ các lệnh văn bản đơn giản.
• Mô hình V3 mới nhất của Suno có thể tạo ra một bài blues acoustic chân thực và cảm động chỉ trong 15 giây từ lệnh "solo acoustic Mississippi Delta blues about a sad AI".
• Các nhà đồng sáng lập Suno đều là chuyên gia machine learning, có tham vọng dân chủ hóa việc sáng tác nhạc, hướng tới 1 tỷ người dùng trả 10 USD/tháng.
• Suno sử dụng cách tiếp cận tương tự như các mô hình ngôn ngữ lớn như ChatGPT, nhưng âm thanh và nhạc phức tạp hơn nhiều so với ngôn ngữ.
• Suno đang giao tiếp với các hãng thu âm lớn và tôn trọng quyền sở hữu trí tuệ, công cụ của họ không cho phép bắt chước phong cách của nghệ sĩ cụ thể.
• Các nhà sáng lập Suno cho rằng họ không cố gắng thay thế nghệ sĩ mà muốn thu hút nhiều người tham gia sáng tác nhạc hơn.
• Suno có thể gây đảo lộn thị trường nhạc quảng cáo, phim ảnh và cho phép người dùng tràn ngập các dịch vụ stream nhạc bằng sáng tác AI.
• Đối thủ tiềm năng lớn nhất của Suno là Dream Track của Google, nhưng chất lượng chưa bằng Suno và mới chỉ thử nghiệm với một số ít người dùng.

📌 Suno đang thay đổi cuộc chơi với AI tạo nhạc, hướng tới dân chủ hóa sáng tác cho hàng tỷ người với chi phí chỉ 10 USD/tháng. Mô hình V3 mới nhất có thể tạo bài hát hoàn chỉnh trong 15 giây từ lệnh văn bản đơn giản. Tuy nhiên, điều này cũng đặt ra nhiều câu hỏi về tác động tới nghệ sĩ và ngành công nghiệp âm nhạc.

Citations:
[1]https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/

Không có file đính kèm.

Nguồn tham khảo

179

AI ảnh-video-music-âm thanh 2024-03-16 17:08:00

google deepmind ra mắt sima - đại lý ai đa năng đầu tiên hiểu lệnh bằng ngôn ngữ tự nhiên trong thế giới ảo 3d và game

• SIMA là khung AI đột phá của Google DeepMind và Đại học British Columbia, được đào tạo trong nhiều môi trường ảo 3D khác nhau.
• Nó có khả năng hiểu và hành động theo hướng dẫn bằng ngôn ngữ tự nhiên trong bất kỳ môi trường ảo nào, từ phòng thí nghiệm đến thế giới game thương mại.
• Công nghệ của SIMA cho phép nó dịch hướng dẫn bằng lời thành hành động vật lý, mở ra tương lai mới cho tương tác giữa con người và AI trong không gian ảo.
• Tuy nhiên, thách thức để hoàn toàn làm chủ phức tạp của môi trường và ngôn ngữ hướng dẫn vẫn còn tồn tại, đòi hỏi nghiên cứu và hoàn thiện thêm.

📌 SIMA đạt được bước tiến lớn trong khả năng tương tác của AI với môi trường 3D, nhưng vẫn cần nỗ lực nghiên cứu thêm để hoàn thiện hơn nữa khả năng hiểu ngôn ngữ tự nhiên và hành động trong thế giới ảo phức tạp.

https://www.marktechpost.com/2024/03/16/google-deepmind-introduces-sima-the-first-generalist-artificial-intelligence-ai-agent-to-follow-natural-language-instructions-in-a-broad-range-of-3d-virtual-environments-and-video-games/

Không có file đính kèm.

Nguồn tham khảo

154

AI bản quyền AI ảnh-video-music-âm thanh 2024-03-16 16:42:48

Midjourney thay đổi chính sách bản quyền, đặt cược có thể đánh bại cảnh sát bản quyền

- Midjourney thay đổi nhỏ trong điều khoản dịch vụ liên quan đến chính sách tranh chấp sở hữu trí tuệ, cho thấy sự tự tin của công ty rằng các nhà cung cấp AI sẽ chiến thắng trong các trận chiến pháp lý với các nhà sáng tạo.
- Các mô hình AI tạo sinh được huấn luyện trên một lượng lớn dữ liệu, thường được lấy từ các trang web và kho lưu trữ công khai. Các nhà cung cấp khẳng định rằng việc sử dụng hợp lý bảo vệ họ, nhưng không phải tất cả các nhà sáng tạo đều đồng ý.
- Midjourney đã khá táo bạo trong việc sử dụng các tác phẩm có bản quyền, từng duy trì danh sách hàng nghìn nghệ sĩ mà tác phẩm của họ đã hoặc sẽ được sử dụng để huấn luyện mô hình.
- Anthropic ra mắt dòng mô hình mới Claude 3, tuyên bố ngang tầm với GPT-4 của OpenAI. Tuy nhiên, mô hình vẫn còn thiếu sót ở một số lĩnh vực như sự kiện hiện tại.
- OpenAI tuyên bố sẽ bác bỏ tất cả các cáo buộc của Elon Musk trong vụ kiện gần đây, và cho rằng tỷ phú này không thực sự có nhiều tác động đến sự phát triển và thành công của OpenAI.
- Amazon ra mắt chatbot Rufus được hỗ trợ bởi AI trong ứng dụng Amazon Shopping, nhưng gây thất vọng do thiếu các tính năng hữu ích.

📌 Tuần qua chứng kiến nhiều diễn biến đáng chú ý trong lĩnh vực AI, từ việc Midjourney thay đổi chính sách bản quyền một cách táo bạo, Anthropic ra mắt dòng mô hình Claude 3 đầy tham vọng, cho đến cuộc chiến pháp lý giữa OpenAI và Elon Musk. Bên cạnh đó, các nghiên cứu mới cũng cho thấy tiềm năng và thách thức của AI trong việc dự đoán cấu trúc phân tử, phát hiện biến thể COVID-19, và phân tích dữ liệu vệ tinh.

Citations:
[1] https://techcrunch.com/2024/03/16/this-week-in-ai-midjourney-bets-it-can-beat-the-copyright-police/

Không có file đính kèm.

Nguồn tham khảo

166

AI ảnh-video-music-âm thanh 2024-03-16 10:28:36

Zhipu AI Trung Quốc phát triển công nghệ giống Sora, hướng tới AGI

- Zhipu AI, công ty tiên phong trong lĩnh vực mô hình ngôn ngữ lớn (LLM) của Trung Quốc, cho biết họ đang phát triển công nghệ tương tự như Sora của OpenAI, nhằm đạt được trí tuệ nhân tạo tổng quát (AGI).
- Sora, công cụ tạo video từ văn bản của OpenAI, sẽ ra mắt công chúng vào cuối năm nay, nhưng không có mặt tại Trung Quốc. Điều này thúc đẩy nhiều công ty Trung Quốc tăng tốc để bắt kịp tiến bộ gần đây của Mỹ.
- Zhang Peng, CEO của Zhipu AI, khen ngợi khả năng đa phương thức của Sora là "rất tiên tiến", đồng thời thừa nhận khoảng cách công nghệ hiện tại giữa Sora và các nỗ lực tương tự của Trung Quốc.
- Zhipu là một trong những công ty đầu tiên của Trung Quốc khám phá phát triển LLM, được thành lập vào tháng 6/2019 bởi các nghiên cứu viên khoa học máy tính tại Đại học Thanh Hoa.
- Công ty đã huy động được tổng cộng 2,5 tỷ nhân dân tệ (342 triệu USD), được hậu thuẫn bởi các công ty công nghệ lớn và quỹ đầu tư mạo hiểm của Trung Quốc như Alibaba, Tencent, Meituan và Xiaomi.
- ChatGLM, chatbot của Zhipu ra mắt vào tháng 3 năm ngoái, nằm trong nhóm dịch vụ AI tạo sinh đầu tiên được chính phủ Trung Quốc phê duyệt.
- Bắc Kinh kiểm soát chặt chẽ các dịch vụ AI tạo sinh, yêu cầu tất cả dịch vụ trong nước phải xin giấy phép trước khi phát hành công khai và hạn chế sử dụng chatbot nước ngoài.
- Zhang hy vọng về sự hợp tác trong tương lai với các công ty nước ngoài về công nghệ AI và đang nhắm tới thị trường nước ngoài.

📌 Zhipu AI đang nỗ lực phát triển công nghệ tương tự Sora của OpenAI để hướng tới AGI. Công ty đã huy động được 342 triệu USD, được chính phủ cấp phép cho chatbot ChatGLM, và đang tìm cách hợp tác với nước ngoài cũng như mở rộng ra thị trường quốc tế.

https://www.scmp.com/tech/article/3255604/chinas-zhipu-ai-says-it-developing-sora-technology-path-artificial-general-intelligence

Không có file đính kèm.

Nguồn tham khảo

168

AI ảnh-video-music-âm thanh 2024-03-15 16:30:11

Cosmic Lounge: AI tạo sinh phát triển game chỉ trong 6 giờ

- Theo Tomi Huttula, đồng sáng lập Cosmic Lounge, studio của ông đã phát triển một công cụ AI tạo sinh có thể tạo ra nguyên mẫu game chỉ trong "5 đến 6 giờ".
- Công cụ Puzzle Engine của Cosmic Lounge sử dụng menu thả xuống và lời nhắc để tạo ra nhiều yếu tố game từ cơ chế câu đố, logic game đến nghệ thuật và cấp độ.
- Puzzle Engine giúp các nhà thiết kế dễ dàng tạo ra nguyên mẫu mà không cần sự trợ giúp của họa sĩ hay kỹ sư.
- Công nghệ của Cosmic Lounge có thể tạo ra số lượng lớn cấp độ, chơi thử và đưa ra phản hồi về độ khó, điểm rời bỏ tiềm năng và cơ hội kiếm tiền. Nhà thiết kế có thể chỉnh sửa dựa trên phản hồi của AI.
- Tuy nhiên, tuyên bố của Huttula rằng "AI không thay thế công việc của bất kỳ ai" gây tranh cãi trong bối cảnh ngành game chứng kiến nhiều đợt sa thải bất chấp lợi nhuận tăng vọt.
- Ngành công nghiệp game đang đối mặt với câu hỏi làm thế nào AI tạo sinh sẽ ảnh hưởng đến nó. Nhiều lãnh đạo công ty lớn như Square Enix và EA đang lên tàu AI.
- Valve đã giới thiệu quy trình mới yêu cầu các nhà phát triển tiết lộ cách sử dụng AI trong game. Nhiều người dùng bày tỏ sự lo lắng và tuyên bố sẽ không chạm vào bất kỳ trò chơi nào được tạo bằng AI tạo sinh.

📌 Cosmic Lounge tuyên bố công cụ AI tạo sinh Puzzle Engine có thể phát triển nguyên mẫu game chỉ trong 5-6 giờ, đơn giản hóa quá trình sáng tạo cho các nhà thiết kế. Tuy nhiên, điều này gây ra nhiều lo ngại trong bối cảnh ngành game sa thải hàng loạt.

https://readwrite.com/generative-ai-is-making-games-in-six-hours-claims-cosmic-lounge/

Không có file đính kèm.

Nguồn tham khảo

157

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2024-03-13 16:26:43

OpenAI sẽ ra mắt công cụ tạo video từ văn bản Sora vào cuối năm nay

- OpenAI sẽ ra mắt công cụ tạo video từ văn bản Sora vào cuối năm 2024, tuy nhiên quá trình triển khai sẽ diễn ra chậm rãi.
- Hiện tại, Sora chỉ có thể tạo ra các clip dài tối đa 60 giây, không có giọng nói hoặc âm thanh. Tuy nhiên, OpenAI có kế hoạch bổ sung âm thanh vào công nghệ Sora.
- Sora có thể khiến một số người ở Hollywood lo lắng về triển vọng việc làm trong tương lai. Tuy nhiên, Sora vẫn mắc phải một số lỗi như hiểu sai lời nhắc của người dùng hoặc gặp khó khăn trong việc mô phỏng chân thực bàn tay của con người hoặc chuyển động của xe cộ đi qua.
- Để giải quyết mối lo ngại về việc sử dụng sai mục đích, OpenAI sẽ thêm thủy vân và siêu dữ liệu vào tất cả các clip video do Sora tạo ra, giúp công chúng dễ dàng nhận biết được đoạn video do AI tạo ra.
- Sora sẽ bị cấm tạo hình ảnh của các nhân vật công chúng, hạn chế khả năng tạo deepfake của các chính trị gia và người nổi tiếng.
- Sora cũng có thể phải đối mặt với những thách thức pháp lý, một vấn đề mà OpenAI đang trải qua với ChatGPT.
- OpenAI đã sử dụng các video công khai và dữ liệu được cấp phép, bao gồm nội dung từ nhà cung cấp hình ảnh Shutterstock, để đào tạo chương trình tạo ra video giống như thật.

📌 OpenAI sẽ ra mắt Sora, công cụ tạo video từ văn bản vào cuối năm 2024 với quá trình triển khai chậm rãi do lo ngại về việc làm và thông tin sai lệch. Hiện tại, Sora chỉ tạo được clip 60 giây không âm thanh, nhưng sẽ được bổ sung tính năng này. OpenAI sẽ thêm thủy vân, siêu dữ liệu và hạn chế tạo hình ảnh người nổi tiếng để tránh sử dụng sai mục đích.

https://www.pcmag.com/news/openais-sora-text-to-video-generator-to-launch-later-this-year

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-03-12 17:52:38

Cuộc cách mạng âm thanh của ElevenLabs: AI đang định hình lại thế giới nội dung audio

Meta description: ElevenLabs đã ra mắt công cụ tạo hiệu ứng âm thanh AI đột phá, mở ra nhiều khả năng mới cho việc sáng tạo nội dung đa phương tiện, nâng tầm trải nghiệm kể chuyện và thúc đẩy sự phát triển của công nghệ âm thanh.

Meta keywords: ElevenLabs, AI tạo hiệu ứng âm thanh, nội dung đa phương tiện, trải nghiệm kể chuyện, công nghệ âm thanh, tạo âm thanh tổng hợp, giao diện thân thiện, ứng dụng đa dạng, tích hợp linh hoạt

SEO title: Cuộc cách mạng âm thanh của ElevenLabs: AI đang định hình lại thế giới nội dung audio

Tóm tắt chi tiết:
- ElevenLabs ra mắt công cụ tạo hiệu ứng âm thanh AI, cho phép người dùng dễ dàng tạo ra nhiều hiệu ứng âm thanh phức tạp cho các ứng dụng như thuyết trình, phim ảnh, podcast.
- Sử dụng thuật toán AI tiên tiến, nền tảng cung cấp nhiều âm thanh tổng hợp ấn tượng, dựa trên bộ dữ liệu các đối tượng và kịch bản thực tế.
- Công cụ có giao diện trực quan, thân thiện. Chỉ với một lời nhắc đơn giản, người dùng có thể tạo ra 5 biến thể khác nhau của hiệu ứng âm thanh yêu cầu.
- Ứng dụng đa dạng từ nâng cao thuyết trình đa phương tiện đến làm phong phú trải nghiệm kể chuyện trong podcast. Mở ra nhiều khả năng mới cho người sáng tạo nội dung.
- Tích hợp linh hoạt vào các dự án đa phương tiện, cho phép kết hợp nhiều âm thanh để tạo ra các tác phẩm âm thanh mong muốn.
- Công nghệ tạo âm thanh do AI điều khiển mở ra những con đường mới cho sự tự thể hiện và khám phá nghệ thuật.
- Đại diện cho bước chuyển mình trong lĩnh vực sáng tạo nội dung, hứa hẹn cách mạng hóa cách tạo và sử dụng hiệu ứng âm thanh trên nhiều nền tảng đa phương tiện.

📌 Công cụ tạo hiệu ứng âm thanh AI của ElevenLabs đánh dấu bước tiến quan trọng trong công nghệ âm thanh, mang đến khả năng tùy chỉnh vô hạn và tiềm năng đột phá cho việc sản xuất âm thanh sáng tạo. Khi ranh giới của AI tiếp tục được mở rộng, tương lai của việc tạo âm thanh tổng hợp sẽ ngày càng phát triển mạnh mẽ.

https://www.cryptopolitan.com/elevenlabs-reshaping-the-of-audio-content/

Không có file đính kèm.

Nguồn tham khảo

152

AI ảnh-video-music-âm thanh 2024-03-12 17:32:57

Startup AI video Tavus gọi vốn 18 triệu USD, được Meta và Salesforce tin dùng

- Tavus, startup AI tạo sinh 4 tuổi, xác nhận gọi vốn thành công 18 triệu USD và mở nền tảng cho bên thứ ba tích hợp công nghệ của họ.
- Vòng gọi vốn Series A do Scale Venture Partners dẫn đầu, Sequoia, Y Combinator và HubSpot cũng tham gia.
- Tavus giúp các công ty tạo "bản sao kỹ thuật số" của cá nhân để tự động hóa các chiến dịch video cá nhân hóa.
- Khách hàng lớn của Tavus gồm Meta, Salesforce, sử dụng nền tảng này để bán thêm cho khách hàng B2B thông qua video demo cá nhân hóa.
- Tavus giới thiệu phiên bản công nghệ mới cùng bộ API cho phép bên thứ ba tích hợp vào ứng dụng riêng.
- API đầu tiên là "replica API", tạo bản sao kỹ thuật số chân thực dựa trên mô hình độc quyền "Phoenix" của Tavus.
- Các API khác đang phát triển gồm lip-syncing, lồng tiếng và chiến dịch video cá nhân hóa quy mô lớn.
- Tavus có các biện pháp xác minh để ngăn chặn lạm dụng công nghệ tạo deepfake.

📌 Tavus, startup AI tạo sinh 4 tuổi, gọi vốn thành công 18 triệu USD từ các quỹ lớn như Sequoia, Scale, Y Combinator để phát triển công nghệ nhân bản khuôn mặt, giọng nói. Với khách hàng như Meta, Salesforce, Tavus giới thiệu bộ API mới cho phép tích hợp vào ứng dụng của bên thứ ba, hứa hẹn mở rộng khả năng ứng dụng AI trong video.

Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/efd524df-a434-4dc5-9091-49ab531e11ab/paste.txt

https://techcrunch.com/2024/03/12/generative-ai-video-startup-tavus-raises-18m-to-bring-face-and-voice-cloning-to-any-app/

Không có file đính kèm.

Nguồn tham khảo

129

AI ảnh-video-music-âm thanh 2024-03-12 17:18:57

pika thêm tính năng tạo hiệu ứng âm thanh ai vào trình tạo video

- Pika vừa bổ sung tính năng tự động tạo hiệu ứng âm thanh cho video AI được tạo trên nền tảng web pika.art
- Tính năng mới hứa hẹn mang lại chiều sâu mới cho video AI, vốn trước đây chủ yếu không có âm thanh
- Kết hợp với khả năng đồng bộ môi và lồng tiếng AI, Pika trở thành một trong những nền tảng tạo video AI "all-in-one" đầu tiên
- Pika cung cấp 2 cách tạo âm thanh: tự động dựa trên ngữ cảnh video và thêm âm thanh cụ thể theo yêu cầu người dùng
- Tính năng mới hiện chỉ có sẵn cho người dùng trong chương trình super-collaborators hoặc đăng ký Pro với giá $58/tháng
- Pika không phải là công ty duy nhất nghiên cứu công nghệ tạo âm thanh từ văn bản. ElevenLabs và Meta cũng có sản phẩm tương tự là AudioGen.
- Kể từ khi ra mắt vào tháng 12/2023, Pika liên tục cải tiến sản phẩm để cạnh tranh với các đối thủ như OpenAI, Adobe, Runwa, Stability AI.

📌 Pika vừa ra mắt tính năng tự động tạo hiệu ứng âm thanh AI cho video, giúp người dùng tạo nội dung hoàn chỉnh chỉ với vài thao tác đơn giản. Bổ sung vào khả năng lồng tiếng và đồng bộ môi AI, Pika đang dần trở thành nền tảng tạo video AI toàn diện, cạnh tranh trực tiếp với các ông lớn như OpenAI, Adobe hay Stability AI.

https://venturebeat.com/ai/pika-adds-generative-ai-sound-effects-to-its-video-maker/

Không có file đính kèm.

Nguồn tham khảo

190

AI ảnh-video-music-âm thanh 2024-03-12 17:08:32

midjourney ra mắt tính năng mới giúp tạo nhân vật nhất quán qua nhiều ảnh

- Midjourney giới thiệu tính năng "Character Reference" cho phép tạo ra các nhân vật nhất quán qua nhiều ảnh tham chiếu.
- Người dùng thêm "–cref URL" vào sau prompt với URL ảnh nhân vật.
- Có thể điều chỉnh "độ mạnh" tham chiếu bằng "–cw" từ 100 đến 0. Mặc định 100 xét khuôn mặt, tóc và quần áo. 0 chỉ tập trung vào khuôn mặt.
- Trộn thông tin từ nhiều ảnh bằng "–cref URL1 URL2".
- Lấy hoặc tạo URL ảnh nhân vật qua Midjourney, dùng "–cref" kèm URL để tạo nhân vật trong các bối cảnh khác nhau.
- Điều chỉnh mức độ biến thể ảnh bằng "–cw" từ 1 đến 100. Số thấp cho nhiều biến thể hơn, số cao bám sát ảnh gốc hơn.
- Có thể dùng nhiều thẻ "–cref" với các URL tương ứng để trộn thông tin từ nhiều ảnh.
- Trong phiên bản web alpha, người dùng có thể kéo hoặc dán ảnh, chọn làm prompt, tham chiếu phong cách hoặc tham chiếu nhân vật.
- Nhiều người dùng trên mạng xã hội đánh giá cao tính năng mới này.

📌 Tính năng "Character Reference" mới của Midjourney giúp tạo nhân vật nhất quán qua nhiều ảnh tham chiếu, với khả năng điều chỉnh mức độ tương đồng từ 0-100. Người dùng có thể trộn thông tin từ nhiều ảnh và tạo nhân vật trong các bối cảnh khác nhau. Tính năng này nhận được nhiều phản hồi tích cực.

https://analyticsindiamag.com/midjourney-unveils-new-feature-to-create-consistent-characters/

Không có file đính kèm.

Nguồn tham khảo

178

AI startup-M&A AI ảnh-video-music-âm thanh 2024-03-12 16:46:16

startup AI tạo sinh Trung Quốc AIsphere huy động 14 triệu USD, tuyên bố đuổi kịp Sora của OpenAI trong 3-6 tháng

- Startup AIsphere có trụ sở tại Bắc Kinh vừa huy động hơn 100 triệu nhân dân tệ (14 triệu USD) trong vòng gọi vốn do quỹ đầu tư mạo hiểm Fortune Capital dẫn đầu.
- AIsphere do Wang Changhu, cựu trưởng bộ phận công nghệ thị giác tại ByteDance, sáng lập vào tháng 4/2023.
- Công ty ra mắt công cụ tạo video PixVerse cho thị trường nước ngoài vào tháng 1 và phiên bản beta cho người dùng Trung Quốc vào thứ Hai.
- AIsphere tự quảng cáo có "gene ByteDance", giải quyết nhiều vấn đề cấp thế giới trong lĩnh vực thị giác máy tính và hỗ trợ xây dựng các sản phẩm video nổi tiếng như Douyin, TikTok.
- Công ty thu hút nhân tài từ Tencent, Kuaishou, Microsoft Research để hình thành đội ngũ công nghệ.
- Wang Changhu tuyên bố AIsphere sẽ vượt qua khả năng hiện tại của Sora trong 3-6 tháng tới.
- Một số chuyên gia công nghệ và kinh doanh Trung Quốc đã giảm lạc quan với AI tạo sinh nội địa trước sự tiến bộ của đối thủ nước ngoài.

📌 AIsphere, startup AI tạo sinh Trung Quốc do cựu giám đốc ByteDance sáng lập, vừa huy động 14 triệu USD và tuyên bố sẽ đuổi kịp Sora của OpenAI trong 3-6 tháng. Tuy nhiên, một số chuyên gia đã giảm lạc quan với AI tạo sinh nội địa trước sự cạnh tranh từ nước ngoài.

https://www.scmp.com/tech/tech-trends/article/3255033/chinese-generative-ai-start-touting-itself-rival-openais-sora-raises-us14-million

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh 2024-03-10 18:32:36

AI sẽ cách mạng hóa ngành công nghiệp game, mở ra cơ hội hàng tỷ đô

- CEO EA Andrew Wilson nhấn mạnh tác động của AI trong phát triển game, cho rằng 60% quy trình có thể được hưởng lợi từ tích hợp AI.
- AI giúp tạo nội dung nhanh chóng, phù hợp với nhu cầu người dùng, rút ngắn thời gian từ ý tưởng đến thị trường.
- AI thúc đẩy sáng tạo, cho phép nhà phát triển tập trung cải tiến trải nghiệm gameplay và cung cấp nội dung chất lượng cao.
- Wilson ám chỉ tiềm năng doanh thu khổng lồ liên quan đến tích hợp AI, mở ra cơ hội sinh lời hàng tỷ đô la cho EA.
- Mặc dù hứa hẹn, Wilson thừa nhận tầm quan trọng của việc khuyến khích nhân viên chấp nhận và thích nghi với công nghệ AI.
- EA đang định hướng tương lai, với AI đóng vai trò trung tâm trong định hình sự phát triển của ngành game.

📌 CEO EA Andrew Wilson tin rằng AI có thể cách mạng hóa 60% quy trình phát triển game, tăng tốc độ sáng tạo nội dung, mở ra cơ hội doanh thu hàng tỷ đô la. Mặc dù có thách thức, EA cam kết tận dụng AI để đổi mới và duy trì vị thế cạnh tranh trong ngành công nghiệp game đang phát triển không ngừng.

https://www.cryptopolitan.com/wilson-discusses-role-of-ai-in-video-game/

Không có file đính kèm.

Nguồn tham khảo

144

AI ảnh-video-music-âm thanh 2024-03-09 21:37:39

Midjourney 6 Turbo ra mắt với tốc độ nhanh hơn 3,5 lần và nhiều tính năng mới đang được phát triển

- Midjourney 6 Turbo đã ra mắt với tốc độ nhanh hơn 3,5 lần so với phiên bản trước, tuy nhiên chi phí sử dụng cũng tăng gấp đôi.
- Nhiều tính năng mới đang được phát triển cho Midjourney 6 như:
+ Tính năng xã hội sẽ có bản cập nhật lớn trong khoảng 2 tuần tới.
+ Chế độ "turbo" hứa hẹn tốc độ nhanh gấp 3 lần nhưng chi phí cao hơn.
+ Tính năng "mô tả" đang được phát triển nhưng gặp một số vấn đề triển khai.
+ Cải tiến tốc độ cho phiên bản mặc định 6 trong tương lai.
+ Tính năng tham chiếu nhân vật cho phép tập trung vào các khía cạnh khác nhau như tóc, quần áo hoặc chỉ khuôn mặt, ban đầu giới hạn 1 nhân vật.
+ Cập nhật tham chiếu phong cách, bao gồm công cụ ngẫu nhiên hóa và khám phá phong cách.
- Nỗ lực tối ưu hóa máy chủ đang diễn ra để giải quyết các vấn đề gần đây và thời gian chờ đợi cao.
- Sự cố bảo mật liên quan đến việc tấn công website bởi đối thủ Stability AI dẫn đến quyết định cấm tất cả nhân viên của họ.
- Tiếp tục đào tạo các mô hình video phiên bản 7 và phát triển giao diện vẽ.

📌 Midjourney 6 Turbo mang đến tốc độ nhanh hơn 3,5 lần với chi phí gấp đôi. Nhiều tính năng mới đang được phát triển như chế độ turbo, mô tả, tham chiếu nhân vật và phong cách, tối ưu máy chủ. Bản cập nhật lớn về tính năng xã hội sẽ ra mắt trong 2 tuần tới. Midjourney cũng đang đào tạo các mô hình video cho phiên bản 7.

https://www.geeky-gadgets.com/midjourney-6-turbo/

Không có file đính kèm.

Nguồn tham khảo

179

AI ảnh-video-music-âm thanh 2024-03-09 21:02:09

Google thừa nhận "đã mắc sai lầm lớn" với công cụ AI tạo ra hình ảnh lịch sử gây tranh cãi

- Đồng sáng lập Google Sergey Brin thừa nhận công ty "đã mắc sai lầm" với việc triển khai mô hình AI Gemini.
- Gemini tạo ra nhiều hình ảnh gây tranh cãi, mô tả các nhân vật lịch sử như giáo hoàng, lãnh đạo Mỹ, binh lính Đức thời chiến tranh thế giới thứ 2 thành người da màu.
- CEO Sundar Pichai gọi một số kết quả của Gemini là "hoàn toàn không thể chấp nhận được".
- Gemini được hướng dẫn đa dạng hóa hình ảnh người theo giới tính và sắc tộc, nhưng đã thực hiện quá mức dẫn đến kết quả sai lệch.
- Google đang chịu áp lực cạnh tranh từ thành công của OpenAI với ChatGPT và Dall-E, nên đã vội vàng tung ra Gemini mà chưa thử nghiệm kỹ.
- Sự cố cho thấy công nghệ AI tạo sinh còn non trẻ, đòi hỏi nhiều hơn khả năng hiện tại như sáng tạo nhưng vẫn chính xác, phản ánh chuẩn mực xã hội.
- Một số ý kiến cho rằng vị trí CEO của Pichai có thể bị đe dọa, nhưng nhà đầu tư kỳ vọng Google thành công với khoản đầu tư hàng tỷ USD vào AI.

📌 Sự cố triển khai vội vàng mô hình AI Gemini cho thấy Google đang chịu áp lực cạnh tranh gay gắt từ OpenAI. Việc tạo ra các hình ảnh lịch sử gây tranh cãi phơi bày những hạn chế của công nghệ AI tạo sinh khi đòi hỏi vượt quá khả năng hiện tại. Dù chưa đe dọa trực tiếp vị trí của CEO Sundar Pichai, sự cố là "vết đen" đối với Google trong cuộc đua phát triển AI.

https://www.theguardian.com/technology/2024/mar/08/we-definitely-messed-up-why-did-google-ai-tool-make-offensive-historical-images

Không có file đính kèm.

Nguồn tham khảo

149

AI ảnh-video-music-âm thanh 2024-03-07 10:38:09

Lore Machine - Biến văn bản thành truyện tranh chỉ trong vài phút với AI tạo sinh

- Lore Machine, một nền tảng AI tạo sinh, có khả năng biến văn bản thành hình ảnh truyện tranh.
- Quá trình phân tích và tạo hình ảnh mất khoảng 2 phút để xác định cảnh, địa điểm, nhân vật và không khí câu chuyện.
- Dịch vụ công khai với giá 10 đô la mỗi tháng cho phép tải lên tới 100.000 từ và tạo ra 80 hình ảnh.
- Có các gói dịch vụ cho người dùng cấp cao, bao gồm gói doanh nghiệp với giá 160 đô la mỗi tháng cho 2,24 triệu từ và 1.792 hình ảnh.
- Hình ảnh được tạo ra với nhiều phong cách khác nhau, từ manga đến nước màu đến phong cách chương trình TV những năm 80.
- Zac Ryder, người sáng lập Modern Arts, đã sử dụng phiên bản truy cập sớm và chuyển một kịch bản phim ngắn thành truyện tranh 16 trang qua một đêm.
- Lore Machine sử dụng mô hình ngôn ngữ lớn để quét văn bản và mô hình Stable Diffusion để tạo hình ảnh.
- Thobey Campion, người sáng lập Lore Machine, đã chuyển hướng từ dự án blockchain sang mô hình AI tạo sinh sau khi thấy sự quan tâm của mọi người.
- Công nghệ đằng sau Lore Machine có thể tạo ra nội dung độc hại nếu được yêu cầu, nhưng đã được hạn chế tạo hình ảnh bạo lực hoặc kỳ thị.

📌 Lore Machine là một công cụ AI tạo sinh hình ảnh từ văn bản, cho phép người dùng biến câu chuyện thành truyện tranh một cách nhanh chóng và dễ dàng. Với giá 10 đô la mỗi tháng, người dùng có thể tải lên tới 100.000 từ và tạo ra 80 hình ảnh. Công cụ này đặc biệt hữu ích cho các công ty sáng tạo và đã được Modern Arts sử dụng để phát triển một vũ trụ hư cấu cho loạt manga dựa trên văn bản của người sáng tạo Netflix's Love, Death & Robots. Lore Machine cung cấp một trải nghiệm người dùng thân thiện và đơn giản, mặc dù vẫn còn một số hạn chế về việc duy trì nhất quán hình ảnh và phong cách.

https://www.technologyreview.com/2024/03/05/1089458/generative-ai-turn-my-story-into-comic-images-lore-machine/

Không có file đính kèm.

Nguồn tham khảo

152

AI ảnh-video-music-âm thanh 2024-03-07 10:04:17

lý do tại sao các trình tạo hình ảnh AI vẫn gặp khó khăn trong việc tạo ra văn bản một cách chính xác

- Các trình tạo hình ảnh AI thường gặp khó khăn trong việc tạo ra văn bản một cách chính xác do chúng vẽ chữ cái thay vì gõ chúng như con người.
- Giáo sư Peter Bentley từ University College London giải thích rằng AI không hiểu về thế giới của chúng ta, không nhận thức được vật thể 3D hoặc văn bản trong hình ảnh.
- Các chương trình như DALL-E và Midjourney được xây dựng trên mạng lưới thần kinh nhân tạo, học hỏi mối liên kết giữa từ ngữ và hình ảnh.
- Trong bài báo về DALLE-2, các tác giả nói rằng mô hình không "mã hóa chính xác thông tin chính tả của văn bản được hiển thị", tức là mô hình đang đoán cách một từ nên được đọc.
- Một bài báo nghiên cứu từ Google gợi ý rằng việc thêm nhiều tham số có thể cải thiện đáng kể việc hiển thị văn bản.
- AI gặp khó khăn trong việc khái niệm hóa hình học 3D của một từ và cuối cùng tất cả đều phụ thuộc vào dữ liệu đào tạo.
- Các trình tạo hình ảnh AI được đào tạo trên nhiều hình ảnh khuôn mặt người hơn là văn bản trong hình ảnh, do đó chúng tạo hình ảnh khuôn mặt người tốt hơn là văn bản trong hình ảnh.

📌 Các trình tạo hình ảnh AI hiện nay vẫn gặp khó khăn trong việc tạo ra văn bản chính xác do chúng xem văn bản như một phần của hình ảnh chứ không phải là đối tượng cần được hiểu và xử lý riêng biệt. Vấn đề này phản ánh sự hạn chế trong cách AI hiểu và tái tạo văn bản, dẫn đến những lỗi chính tả và hiển thị văn bản không chính xác. Cải thiện việc hiển thị văn bản trong hình ảnh AI đòi hỏi sự đổi mới trong cách thức đào tạo và phát triển các mô hình AI.

https://petapixel.com/2024/03/06/why-ai-image-generators-struggle-to-get-text-right/

Không có file đính kèm.

Nguồn tham khảo

180

AI ảnh-video-music-âm thanh 2024-03-06 02:42:38

Bùng nổ cuộc đua AI tạo video: Haiper thách thức Sora OpenAI

- Yishu Miao và Ziyu Wang, cựu thành viên của DeepMind, đã công bố công cụ tạo video AI của họ, Haiper, với mô hình AI độc quyền.
- Miao từng làm việc tại TikTok trong nhóm Global Trust & Safety, và Wang có kinh nghiệm làm nhà khoa học nghiên cứu tại DeepMind và Google.
- Cả hai bắt đầu nghiên cứu về công ty từ năm 2021 và chính thức thành lập vào năm 2022, tập trung vào vấn đề tái tạo 3D bằng mạng nơ-ron.
- Haiper đã chuyển hướng sang tạo video khoảng sáu tháng trước sau khi nhận ra đây là vấn đề hấp dẫn hơn tái tạo 3D.
- Haiper đã huy động được 13,8 triệu USD trong vòng gọi vốn hạt giống do Octopus Ventures dẫn đầu, với sự tham gia từ 5Y Capital và các nhà đầu tư thiên thần.
- Haiper hiện tập trung vào trang web hướng đến người tiêu dùng nhưng cũng muốn xây dựng mô hình tạo video cốt lõi có thể cung cấp cho các bên khác.
- Sora của OpenAI là đối thủ nổi tiếng nhất của Haiper hiện nay, nhưng cũng có các đối thủ khác như Runway được Google và Nvidia hỗ trợ, cũng như các mô hình tạo video của Google và Meta.
- Stability AI cũng đã công bố mô hình Stable Diffusion Video trong bản xem trước nghiên cứu vào năm trước.

📌 Haiper, công cụ tạo video AI mới của hai cựu thành viên DeepMind, Yishu Miao và Ziyu Wang, đã thu hút 13,8 triệu USD đầu tư và đang cạnh tranh trong thị trường tạo video AI nóng bỏng, với mục tiêu phát triển mô hình tạo video cốt lõi và mở rộng ứng dụng.

Citations:
[1] https://techcrunch.com/2024/03/05/competition-in-ai-video-generation-heats-up-as-deepmind-alums-unveil-haiper/

Không có file đính kèm.

Nguồn tham khảo

159

AI ảnh-video-music-âm thanh 2024-03-05 15:52:58

TripoSR: Sinh ảnh 3D chỉ từ 1 ảnh 2D trong chưa đến 1 giây

• TripoSR, phát triển bởi Stability AI và Tripo AI, cho phép tạo mô hình 3D chi tiết từ một hình ảnh đơn trong chưa đầy một giây.
• Mô hình này hoạt động tốt ngay cả trên hệ thống không có GPU, mở ra khả năng tiếp cận cho nhiều người dùng và ứng dụng khác nhau.
• Các trọng số mô hình và mã nguồn được cung cấp dưới giấy phép MIT, cho phép sử dụng thương mại, cá nhân và nghiên cứu.
• TripoSR được thiết kế để đáp ứng nhu cầu ngày càng tăng của các chuyên gia trong lĩnh vực giải trí, trò chơi, thiết kế công nghiệp và kiến trúc, với khả năng hiển thị chi tiết các đối tượng 3D.
• Khi thử nghiệm trên Nvidia A100, TripoSR tạo ra đầu ra 3D chất lượng nháp (mesh có kết cấu) trong khoảng 0.5 giây, nhanh hơn các mô hình chuyển đổi hình ảnh sang 3D mở khác như OpenLRM.
• Mô hình này không chỉ nhanh chóng mà còn dễ tiếp cận với người dùng có hoặc không có GPU.

📌 TripoSR tạo mô hình 3D chi tiết từ hình ảnh đơn, trong chưa đầy 1 giây. Với khả năng tạo ra đầu ra 3D chất lượng nháp chỉ trong khoảng 0,5 giây trên Nvidia A100, TripoSR không chỉ nhanh chóng mà còn hiệu quả, đặt ra một tiêu chuẩn mới cho công nghệ tạo mô hình 3D.

Citations:
[1] https://stability.ai/news/triposr-3d-generation

Không có file đính kèm.

Nguồn tham khảo

118

AI ảnh-video-music-âm thanh 2024-03-02 22:00:57

Ideogram là một công cụ tạo hình ảnh AI mới giúp loại bỏ đối thủ cạnh tranh, vượt trội so với MidJourney và Dall-E 3

- Ideogram AI, startup được thành lập bởi cựu kỹ sư Google và các thành viên từ UC Berkeley, Carnegie Mellon, và Đại học Toronto, công bố phiên bản đầu tiên của trình tạo hình ảnh AI của mình.
- Phiên bản Ideogram 1.0 được huấn luyện từ đầu, cung cấp khả năng hiển thị văn bản tiên tiến, chưa từng có độ chân thực về hình ảnh, và tuân thủ lệnh nhanh chóng cùng tính năng mới Magic Prompt.
- Ideogram đã huy động được 80 triệu USD trong vòng gọi vốn Series A do Andreessen Horowitz dẫn đầu.
- So sánh trực tiếp cho thấy Ideogram vượt trội so với các phiên bản trước của mình và các đối thủ như Dall-E 3 và MidJourney về chất lượng hình ảnh, khả năng tạo văn bản, và tuân thủ lệnh.
- Ideogram không phải là nguồn mở và không có bài nghiên cứu để đánh giá, nhưng kết quả thu được đã nói lên chất lượng của nó.
- Trình tạo hình ảnh mới này có khả năng tạo ra chuỗi văn bản dài với ít lỗi hơn so với Dall-E 3 hoặc MidJourney và cung cấp một gói miễn phí có lợi thế so với các đối thủ.
- Ideogram cũng cung cấp hai gói trả phí là 7 và 15 USD mỗi tháng, cho phép truy cập vào hơn 400 lần tạo hình ảnh mỗi ngày cùng các lợi ích khác như trình chỉnh sửa hình ảnh, tải xuống chất lượng cao hơn, img2img, và tạo hình ảnh riêng tư.
- Ideogram có khả năng hiểu các lệnh dài, cạnh tranh với Stable Diffusion 3 và vượt trội so với tất cả các trình tạo hình ảnh khác trong lĩnh vực này.
- Một trong những tính năng nổi bật của Ideogram là "Prompt Magic", giúp tạo ra hình ảnh chất lượng cao hơn bằng cách phân tích và cải thiện lệnh.
- Ideogram ít bị kiểm duyệt mạnh tay hơn MidJourney và Dall-E 3, có khả năng tạo hình ảnh của người nổi tiếng, logo công ty, và phong cách nghệ thuật mà không bị hạn chế nhiều.

📌Ideogram AI đã thiết lập một tiêu chuẩn mới trong lĩnh vực trình tạo hình ảnh AI với việc ra mắt phiên bản 1.0, chứng minh khả năng vượt trội so với các đối thủ như Dall-E 3 và MidJourney. Với khả năng hiểu lệnh tự nhiên, khả năng không gian xuất sắc, và tuân thủ lệnh nhanh chóng, cùng với việc ít bị kiểm duyệt, Ideogram không chỉ là công cụ tạo hình ảnh AI mạnh mẽ nhất hiện nay mà còn là lựa chọn hàng đầu cho những người tìm kiếm sự sáng tạo và chất lượng trong hình ảnh. Với các gói dịch vụ linh hoạt, từ miễn phí đến trả phí, Ideogram mở ra cơ hội cho mọi người trải nghiệm và tận dụng công nghệ AI tiên tiến trong việc tạo ra hình ảnh độc đáo và sáng tạo, đặt ra một chuẩn mực mới cho ngành công nghiệp trình tạo hình ảnh AI.

Citations:
[1] https://decrypt.co/219776/ideogram-is-a-new-ai-image-generator-that-obliterates-the-competition-outperforming-midjourney-and-dall-e-3

Không có file đính kèm.

Nguồn tham khảo

171

AI tools AI ảnh-video-music-âm thanh 2024-03-01 02:03:02

Deepdub ra mắt công nghệ lồng tiếng AI có thể thay đổi giọng điệu của diễn viên

- Deepdub, công ty có trụ sở tại Tel Aviv, Israel, đã giới thiệu công nghệ Accent Control, sử dụng AI tạo sinh độc quyền để cho phép người tạo nội dung kiểm soát chính xác giọng điệu của nhân vật khi lồng tiếng nội dung sang ngôn ngữ khác.
- Công nghệ này mở ra kỷ nguyên mới về tính xác thực cho nội dung lồng tiếng bằng AI, giúp giữ nguyên giọng điệu đặc trưng của nhân vật hoặc thích ứng chúng để phù hợp với văn hóa của khán giả mục tiêu.
- Trong quá trình lồng tiếng truyền thống, đạo diễn phải đối mặt với quyết định giữ nguyên giọng điệu gốc cho tính xác thực hoặc điều chỉnh chúng để phù hợp với nét văn hóa của khán giả mục tiêu.
- Công nghệ Accent Control của Deepdub cho phép kiểm soát chính xác giọng điệu qua 130+ ngôn ngữ và đang được mở rộng để hỗ trợ giọng địa phương, cho phép việc micro-localization.
- Công nghệ này được truy cập thông qua nền tảng Deepdub Go, một nền tảng lồng tiếng AI ảo.

📌 Deepdub đã giới thiệu công nghệ Accent Control, đánh dấu một bước tiến quan trọng trong lĩnh vực lồng tiếng bằng AI, với khả năng kiểm soát chính xác giọng điệu của nhân vật, từ đó nâng cao tính xác thực của nội dung lồng tiếng. Công nghệ này không chỉ giữ nguyên được giọng điệu đặc trưng của nhân vật mà còn có thể thích ứng chúng để phù hợp với văn hóa của khán giả mục tiêu, qua đó giải quyết thách thức lâu đời trong quá trình lồng tiếng truyền thống. Với khả năng kiểm soát giọng điệu qua 130+ ngôn ngữ và hỗ trợ giọng địa phương, công nghệ này mở ra cơ hội cho việc micro-localization, làm phong phú thêm trải nghiệm của khán giả và tạo điều kiện cho người tạo nội dung đa dạng hóa cách thể hiện nội dung của mình.

Citations:
[1] https://venturebeat.com/games/deepdub-adds-ai-dubbing-tech-that-can-change-a-speakers-accent/

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh 2024-02-29 23:55:11

Trình tạo video AI của Alibaba vừa tấn công Sora bằng cách bắt cô Sora hát

- Alibaba muốn người dùng so sánh trình tạo video AI mới của họ với Sora của OpenAI bằng cách sử dụng nó để khiến nhân vật nổi tiếng của Sora hát ca khúc của Dua Lipa.

- Viện Tính toán Thông minh thuộc Alibaba đã phát hành một bài báo về trình tạo video AI mới có tên là EMO, viết tắt từ "Emotive Portrait Alive".

- EMO có khả năng biến hình ảnh tĩnh của khuôn mặt thành diễn viên và ca sĩ có khả năng diễn xuất và hát mô phỏng.

- Alibaba đã đăng tải video demo trên GitHub để trình diễn khung làm việc tạo video mới này, bao gồm video của nhân vật Sora lady nổi tiếng.

- Cần lưu ý rằng, giống như Sora, đánh giá về khung làm việc AI này dựa trên demo do người tạo ra cung cấp, và chưa có phiên bản sử dụng thực tế để kiểm tra.

📌 Alibaba đã tạo ra một bước tiến mới trong lĩnh vực AI với trình tạo video AI EMO, có khả năng biến hình ảnh tĩnh thành diễn viên và ca sĩ ảo. EMO mở ra một tương lai nơi các nhân vật trong video AI có thể nói và hát, thay vì chỉ là những hình ảnh đẹp mắt không có tiếng nói. Dù chưa có phiên bản thử nghiệm thực tế, nhưng video demo đã cho thấy khả năng tạo ra các biểu cảm khuôn mặt con người một cách thuyết phục dựa trên âm thanh. Điều này không chỉ là một thách thức đối với Sora của OpenAI mà còn là một minh chứng cho sự tiến bộ không ngừng của công nghệ AI trong việc tạo ra các trải nghiệm sống động và chân thực hơn.

Citations:

[1] Alibaba's AI video generator just dunked on Sora by making the Sora lady sing https://sea.mashable.com/tech/31479/alibabas-ai-video-generator-just-dunked-on-sora-by-making-the-sora-lady-sing

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-02-29 22:00:49

Adobe tiết lộ công cụ GenAI dành cho âm nhạc

### SEO Contents

- Adobe đã công bố Project Music GenAI Control tại Hội nghị Hot Pod Summit ở Brooklyn, một nền tảng có khả năng tạo ra âm thanh từ mô tả văn bản hoặc giai điệu tham khảo.
- Người dùng có thể điều chỉnh các yếu tố như tempo, cường độ, mẫu lặp lại và cấu trúc, hoặc mở rộng độ dài của một bản nhạc, remix hoặc tạo vòng lặp vô tận.
- Dự án được phát triển cùng với các nhà nghiên cứu từ Đại học California và Carnegie Mellon, và hiện tại vẫn đang ở giai đoạn nghiên cứu, chưa có giao diện người dùng.
- Gautham Mysore, người đứng đầu nghiên cứu AI âm thanh và video tại Adobe, nhấn mạnh rằng công cụ này cho phép người dùng không cần là nhạc sĩ cũng có thể thể hiện ý tưởng âm nhạc của mình.
- Adobe đang phát triển công nghệ thủy vân để giúp xác định âm thanh do Project Music GenAI Control tạo ra, nhưng công nghệ này vẫn đang được hoàn thiện.
- Adobe tuân thủ nguyên tắc phát triển công cụ AI tạo sinh dựa trên dữ liệu có bản quyền hoặc thuộc phạm vi công cộng để tránh vi phạm vấn đề sở hữu trí tuệ.

📌 Adobe đang tiên phong trong việc phát triển công cụ AI tạo sinh cho âm nhạc với Project Music GenAI Control, một nền tảng đầy tiềm năng cho phép người dùng không chỉ tạo ra âm nhạc từ mô tả văn bản mà còn tùy chỉnh nó một cách linh hoạt. Dự án này không chỉ mở ra cánh cửa mới cho việc sáng tạo âm nhạc mà còn đặt ra những câu hỏi về đạo đức và pháp lý trong thời đại AI. Với việc hợp tác cùng các nhà nghiên cứu hàng đầu và cam kết phát triển công nghệ thủy vân, Adobe đang thể hiện trách nhiệm của mình trong việc định hình tương lai của ngành công nghiệp âm nhạc và công nghệ AI.

Citations:
[1] https://techcrunch.com/2024/02/28/adobe-reveals-a-genai-tool-for-music/

Không có file đính kèm.

Nguồn tham khảo

152

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-02-29 21:37:29

Công cụ tạo hình ảnh AI mới nhanh hơn 8 lần so với công cụ tốt nhất của OpenAI - và có thể chạy trên máy tính giá rẻ

- Công cụ AI mới có tên "KOALA" được phát triển bởi các nhà khoa học Hàn Quốc, có khả năng tạo hình ảnh trong vòng dưới 2 giây mà không cần phần cứng đắt tiền.
- Sử dụng kỹ thuật "knowledge distillation" để nén kích thước của mô hình tạo hình ảnh nguồn mở Stable Diffusion XL từ 2.56 tỷ tham số xuống còn 700 triệu tham số.
- KOALA có thể chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM để xử lý yêu cầu, so với các mô hình lớn hơn cần GPU công nghiệp cao cấp.
- Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đã phát triển 5 phiên bản của mô hình, bao gồm 3 phiên bản của KOALA và 2 phiên bản của "Ko-LLaVA" - có khả năng trả lời câu hỏi bằng hình ảnh hoặc video dựa trên văn bản đầu vào.
- Trong thử nghiệm, KOALA tạo ra hình ảnh từ mô tả "một bức ảnh của một phi hành gia đang đọc sách dưới ánh trăng trên sao Hỏa" chỉ trong 1.6 giây, nhanh hơn đáng kể so với DALL·E 2 và DALL·E 3 của OpenAI, lần lượt là 12.3 và 13.7 giây.
- Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.

📌Công cụ AI mới "KOALA" của Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đánh dấu một bước tiến quan trọng trong lĩnh vực tạo hình ảnh bằng AI, với khả năng tạo hình ảnh nhanh gấp 8 lần so với công cụ hàng đầu của OpenAI, chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM, làm cho công nghệ này trở nên tiếp cận được với nhiều người hơn. Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.

Citations:
[1] https://www.livescience.com/technology/artificial-intelligence/new-ai-image-generator-koala-is-8-times-faster-than-openais-best-tool-and-can-run-on-cheap-computers

Không có file đính kèm.

Nguồn tham khảo

172

AI ảnh-video-music-âm thanh 2024-02-28 16:33:01

Công cụ tìm kiếm được hỗ trợ bởi AI Perplexity ra mắt podcast tin tức hàng ngày do AI tạo ra

- Perplexity, đối thủ mới của Google Search dựa trên AI, đã gây dựng được sự chú ý mạnh mẽ.
- Công ty đã huy động được hơn 70 triệu USD từ các nhà đầu tư hàng đầu, bao gồm cả Jeff Bezos vào tháng 1.
- Kể từ khi ra mắt năm ngoái, Perplexity đã thu hút hơn 10 triệu người dùng hoạt động hàng tháng nhờ trải nghiệm tìm kiếm nhanh chóng, sạch sẽ và không quảng cáo.
- Perplexity vừa mới ra mắt Discover Daily - một podcast tin tức hàng ngày 100% được tạo sinh bởi AI, đã lọt vào top 200 podcast tin tức của Apple trong tuần đầu tiên.
- Podcast có các tập không quá bốn phút, sử dụng giọng nói tổng hợp nhưng dễ chịu, nhắc nhở về một người dẫn chương trình của BBC, nhờ công nghệ nhân bản giọng nói AI có thể tùy chỉnh của ElevenLabs.
- Tóm tắt tin tức được rút ra từ nguồn cấp dữ liệu "Discover" được Perplexity biên soạn, trình bày danh sách các tiêu đề quan trọng trong ngày.
- Perplexity không cần phải tấn công trực diện Google hay thách thức thị phần của họ để thành công, theo CEO Aravind Srinivas.
- Sự chú ý dành cho công ty tiếp tục tăng lên, với các nhà đầu tư có liên kết với Google như Susan Wojcicki, cựu CEO của YouTube, và Jeff Dean, Chủ tịch Khoa học của Google, tập trung vào tiến bộ AI cho Google DeepMind và Google Research.

📌 Perplexity đã chứng tỏ sức hút mạnh mẽ trong ngành công nghệ thông tin với việc ra mắt podcast tin tức hàng ngày Discover Daily, được tạo sinh hoàn toàn bởi AI và nhanh chóng chiếm lĩnh vị trí trong top 200 podcast tin tức của Apple chỉ sau một tuần. Sự thành công này không chỉ phản ánh khả năng tài chính mạnh mẽ với việc huy động được hơn 70 triệu USD từ các nhà đầu tư nổi tiếng như Jeff Bezos mà còn cho thấy sự chấp nhận rộng rãi từ hơn 10 triệu người dùng hoạt động hàng tháng. Điều này khiến Perplexity như một đối thủ tiềm năng trong lĩnh vực tìm kiếm và AI, mở ra một phân khúc mới cho các trợ lý AI mà tại đó Google không có quyền độc quyền.

Citations:
[1] https://bgr.com/business/ai-powered-search-engine-perplexity-launches-an-ai-generated-daily-news-podcast/

Không có file đính kèm.

Nguồn tham khảo

134

AI market AI ảnh-video-music-âm thanh 2024-02-24 22:39:08

Sora của OpenAI dội 'gáo nước lạnh' vào giấc mơ AI của Trung Quốc

- OpenAI giới thiệu Sora vào ngày 16 tháng 2, đánh dấu một bước tiến mới trong lĩnh vực tạo sinh video, gây áp lực lên ngành công nghiệp AI của Trung Quốc.

- Trung Quốc từng kỳ vọng sẽ dẫn đầu cuộc đua AI toàn cầu nhờ vào lượng dữ liệu khổng lồ, nhưng hiện tại, dữ liệu đào tạo chất lượng lại trở nên quan trọng hơn.

- Sự xuất hiện của Sora khiến Trung Quốc phải đối mặt với thách thức lớn trong việc bắt kịp công nghệ mới nhất, đặc biệt là trong bối cảnh căng thẳng với các biện pháp trừng phạt của Mỹ.

- Zhou Hongyi, người sáng lập công ty an ninh mạng Trung Quốc 360 Security Technology, nhận xét rằng Sora giống như "một thùng nước lạnh" đổ lên đầu Trung Quốc, buộc họ phải nhìn nhận lại khoảng cách với các quốc gia dẫn đầu.

- Đội VBench, bao gồm các nhà nghiên cứu từ Đại học Công nghệ Nanyang ở Singapore và Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải tại Trung Quốc, đã phát hiện ra rằng Sora vượt trội về chất lượng video tổng thể so với các mô hình khác.

- Xu, một doanh nhân tại Hàng Châu, cho biết sẽ có cơ hội cho thị trường Trung Quốc sau khi báo cáo kỹ thuật về Sora được công bố và các mô hình video nguồn mở sắp tới.

📌 Sự ra đời của Sora từ OpenAI không chỉ là một bước tiến trong lĩnh vực AI tạo sinh video mà còn là một thách thức đối với ngành công nghiệp AI của Trung Quốc, buộc họ phải đối mặt với sự thật rằng họ đang tụt hậu so với các công nghệ mới nhất. Trong bối cảnh căng thẳng với Mỹ và nhu cầu về dữ liệu đào tạo chất lượng, Trung Quốc cần phải nhanh chóng thích nghi và tìm kiếm cơ hội từ các mô hình video nguồn mở sắp tới để không bị bỏ lại phía sau trong cuộc đua AI toàn cầu.

Citations:

[1] OpenAI’s Sora pours ‘cold water’ on China’s AI dreams https://www.scmp.com/tech/big-tech/article/3253034/openais-sora-pours-cold-water-chinas-ai-dreams-text-video-advancements-prompt-more-soul-searching

Không có file đính kèm.

Nguồn tham khảo

205

AI ảnh-video-music-âm thanh 2024-02-23 17:31:30

STABLE DIFFUSION 3 MAKES MIDJOURNEY AND DALL-3 LOOK LIKE CHILD’S PLAY

- Stability AI đang chuẩn bị ra mắt Stable Diffusion 3, phiên bản mới nhất và tiên tiến nhất của mô hình tạo ảnh AI.
- Công ty đã mở danh sách chờ cho bản xem trước của Stable Diffusion 3 để thu thập thông tin và cải thiện mô hình trước khi phát hành rộng rãi.
- Trước Stable Diffusion 3, Stability đã phát triển khoảng bảy phiên bản của mô hình tạo ảnh, bao gồm 1.4, 1.5, 2.0, 2.1, XL và XL Turbo.
- Stable Diffusion 3 được đánh giá ngang ngửa hoặc tốt hơn so với các mô hình tạo ảnh nổi tiếng như DALL-E 3 và Midjourney, dựa trên một số mẫu ảnh được cung cấp trên trang web.
- Mô hình mới nhất của Stability có nhiều cải tiến đáng kể trong việc xử lý các yêu cầu về nhiều chủ đề, chất lượng ảnh và khả năng đánh vần từ ngữ.
- Stable Diffusion 3 sẽ được phát hành với nhiều kích thước tham số khác nhau, từ 800 triệu đến 8 tỷ, điều này ảnh hưởng trực tiếp đến độ phức tạp của mô hình.

📌 Stability AI đang tiến gần đến việc phát hành Stable Diffusion 3, một bước tiến đáng kể trong lĩnh vực tạo ảnh AI. Với việc mở danh sách chờ cho bản xem trước, công ty đang tìm cách thu thập phản hồi để cải thiện mô hình. Stable Diffusion 3 không chỉ cải thiện về chất lượng ảnh và khả năng xử lý đa chủ đề mà còn về khả năng đánh vần từ ngữ, một lĩnh vực mà các đối thủ như Midjourney vẫn còn gặp khó khăn. Với các kích thước tham số từ 800M đến 8B, Stable Diffusion 3 hứa hẹn sẽ mang lại khả năng nắm bắt các mẫu phức tạp và thực hiện các nhiệm vụ cụ thể một cách tốt hơn,

Citations:
[1] https://www.cryptopolitan.com/stable-diffusion-3-midjourney-dall-3/

Không có file đính kèm.

Nguồn tham khảo

198

AI ảnh-video-music-âm thanh 2024-02-23 16:45:31

Âm nhạc và AI: AI sẽ định hình tương lai của âm nhạc như thế nào

- AI có khả năng thay đổi đáng kể đời sống âm nhạc, đặc biệt là trong việc thực hiện các nhiệm vụ sáng tác cấp thấp như nhạc nền cho video game hay nhạc club đơn giản.
- Có khả năng AI sẽ khiến các nhạc sĩ trung bình phải nỗ lực sáng tạo hơn hoặc có thể mất việc làm.
- Những yếu tố quan trọng bán được âm nhạc như trí tưởng tượng phi thường, quy mô, sức hút, sâu sắc, linh hồn và tâm linh, cũng như các buổi biểu diễn trực tiếp, vẫn là lĩnh vực mà AI không thể thách thức con người.
- Mặc dù có những lo ngại về AI như một mối đe dọa tồn tại, nhưng các nghệ sĩ luôn tìm cách thích nghi và tồn tại qua mỗi thời kỳ công nghệ mới, từ gramophone đến streaming.
- Tác giả bài viết khuyên rằng chúng ta nên tận hưởng lợi ích từ AI và không nên hoảng sợ trước những cảnh báo về ngày tận thế.

📌 Tác động của AI đối với âm nhạc có thể là đáng kể, nhưng không phải là một mối đe dọa tồn tại. AI có thể thực hiện các công việc sáng tác đơn giản, nhưng những yếu tố quan trọng nhất trong âm nhạc vẫn cần đến con người. Các nghệ sĩ luôn thích nghi với công nghệ mới và sẽ tiếp tục làm vậy. Tác giả khuyến khích chúng ta hãy tận hưởng những lợi ích mà AI mang lại và không cần phải lo lắng quá mức về những thay đổi mà nó có thể gây ra.

Citations:
[1] https://www.classical-music.com/features/science-of-music/how-will-ai-affect-music-for-the-better-or-worse

Không có file đính kèm.

Nguồn tham khảo

141

AI ảnh-video-music-âm thanh OpenAI ChatGPT 2024-02-21 22:05:36

'Điểm yếu' của OpenAI Sora lộ ra ngay sau khi ra mắt thành công: Chân mèo mọc thêm, cánh tay con người bị lệch

- OpenAI Sora đã tạo ấn tượng mạnh mẽ với khả năng của mình, nhưng các video do AI tạo ra cho thấy mô hình này vẫn cần cải thiện nhiều.
- Một số video mẫu cho thấy Sora gặp vấn đề khi mô phỏng chuyển động, ví dụ như mèo mọc thêm chân hoặc tay người bị biến dạng.
- Trong một video khác, một chiếc ghế tự đào mình lên và kéo mình ra khỏi hiện trường khảo cổ trong khi các nhà khảo cổ chỉ đứng nhìn.
- OpenAI thừa nhận rằng Sora có "hạn chế" trong việc mô phỏng chính xác vật lý của một cảnh phức tạp hoặc hiểu mối quan hệ giữa nguyên nhân và kết quả.
- Một ví dụ về hạn chế này là khi một người cắn một chiếc bánh quy nhưng sau đó chiếc bánh không hề có dấu vết của việc bị cắn.
- Có lo ngại về việc Sora có thể bị lạm dụng, đặc biệt là trong bối cảnh năm 2024 sẽ diễn ra nhiều cuộc bầu cử trên toàn thế giới.
- Tuy nhiên, sự không hoàn hảo của Sora cũng có thể giúp phân biệt video do AI tạo ra với video thực tế.

📌 Mặc dù OpenAI Sora đã tạo ra sự chú ý lớn với khả năng tạo video của mình, những hạn chế rõ ràng trong các mẫu video được tạo ra đã chỉ ra rằng công nghệ này vẫn còn nhiều điểm cần được cải thiện. Các vấn đề về mô phỏng vật lý và hiểu biết về mối quan hệ nguyên nhân và kết quả là những thách thức mà OpenAI cần giải quyết. Trong khi đó, những lo ngại về khả năng lạm dụng Sora trong các sự kiện quan trọng như bầu cử toàn cầu cũng đang được đặt ra. Tuy nhiên, những thiếu sót này cũng có thể là yếu tố giúp người xem phân biệt giữa nội dung do AI tạo và nội dung thực tế, qua đó giảm bớt nguy cơ nhầm lẫn và lạm dụng.

Citations:
[1] https://www.benzinga.com/news/24/02/37209690/openai-soras-weaknesses-exposed-shortly-after-high-profile-debut-cat-sprouts-extra-leg-humans-arm-go

Không có file đính kèm.

Nguồn tham khảo

179

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT OpenAI ChatGPT 2024-02-21 04:14:06

Sora của OpenAI sẽ tác động đến thế giới như thế nào ?

- Sora, mô hình tạo video đầu tiên của OpenAI, có khả năng tạo ra video chất lượng cao dựa trên hướng dẫn văn bản, mở ra khả năng tạo ra cảnh quan phức tạp với nhiều nhân vật và chi tiết đối tượng cũng như nền cảnh chính xác.
- Sora có thể tạo ra nhiều cảnh quay trong một video duy nhất, dựa trên sự hiểu biết sâu sắc về ngôn ngữ để giải thích chính xác các từ khóa, giữ nguyên nhân vật và phong cách hình ảnh.
- Các nhân vật do Sora tạo ra có thể biểu đạt cảm xúc phong phú, đến mức gần như hoàn hảo, vượt qua giới hạn của việc mô phỏng thế giới thực trong không gian 2D.
- Sora hiện tại vẫn gặp khó khăn trong việc mô phỏng chính xác các nguyên lý vật lý của cảnh quan phức tạp và có thể không hiểu được nguyên nhân và kết quả, cũng như gặp khó khăn trong việc mô tả chính xác các sự kiện xảy ra theo thời gian.
- Sự ra đời của Sora có thể làm cho việc phân biệt thông tin thật và giả trở nên khó khăn hơn, tạo ra nhiều vấn đề đạo đức và pháp lý mới trong xã hội thông tin.
- Sora không chỉ là một bước tiến trong việc tạo ra nội dung video phức tạp dựa trên hiểu biết ngôn ngữ tự nhiên mà còn mở ra khả năng tạo ra các tác phẩm tinh tế và thực tế hơn trong tương lai với ứng dụng đa dạng trong nhiều lĩnh vực.

📌 Sora, sản phẩm mới nhất từ OpenAI, đánh dấu một bước tiến quan trọng trong lĩnh vực AI với khả năng tạo video chất lượng cao từ hướng dẫn văn bản. Sự phát triển này không chỉ mở ra cánh cửa cho việc tạo ra cảnh quan phức tạp và nhân vật chân thực mà còn đặt ra những thách thức mới về việc mô phỏng chính xác nguyên lý vật lý và hiểu biết về nguyên nhân và kết quả. Bên cạnh đó, sự xuất hiện của Sora cũng làm dấy lên lo ngại về khả năng phân biệt thông tin thật giả và các vấn đề đạo đức, pháp lý mới trong xã hội thông tin. Tuy nhiên, tiềm năng ứng dụng rộng lớn của Sora trong tương lai, từ việc tạo ra các tác phẩm tinh tế và thực tế hơn cho đến việc kết hợp với các công nghệ khác, hứa hẹn sẽ mang lại tác động sâu rộng đến nhiều ngành công nghiệp và lĩnh vực khác nhau, từ điện ảnh đến giáo dục và ngoài ra.

Citations:
[1] How OpenAI’s Sora Will Impact The World – Analysis – Eurasia Review

Không có file đính kèm.

Nguồn tham khảo

172

AI so sánh AI ảnh-video-music-âm thanh 2024-02-20 16:10:54

Tại sao Trung Quốc ấn tượng và lo lắng về công cụ tạo video ..

- Công cụ tạo video từ văn bản Sora của OpenAI đã tạo ra những làn sóng lớn trong cộng đồng công nghệ Trung Quốc, với cảm xúc trộn lẫn giữa sự ngưỡng mộ và lo ngại.
- Một doanh nhân Trung Quốc đã mô tả Sora như là một "khoảnh khắc Newton" trong lĩnh vực AI, theo báo cáo của South China Morning Post.
- Sora cho phép người dùng tạo ra các video chân thực và động từ những lời nhắn văn bản đơn giản, có khả năng làm thay đổi nhiều ngành nghề từ quảng cáo, giải trí đến giáo dục và y tế.
- Chuyên gia Trung Quốc đánh giá cao khả năng tạo ra hình ảnh tự nhiên và sự kết hợp mượt mà giữa tạo văn bản và tạo video của Sora.
- Zhou Hongyi, Chủ tịch và CEO của 360 Security Technology, bày tỏ lo ngại trên Weibo về khả năng khoảng cách phát triển AI giữa Trung Quốc và Mỹ có thể ngày càng mở rộng.
- Zhou chỉ ra rằng các mô hình ngôn ngữ lớn (LLMs) hàng đầu của Trung Quốc, như những công cụ AI sử dụng ChatGPT, gần đạt tới khả năng của GPT-3.5, nhưng vẫn còn khoảng cách khoảng 1.5 năm so với việc OpenAI phát hành GPT-4 vào tháng 3 năm 2023.
- Một số doanh nhân Trung Quốc tỏ ra thận trọng khi đánh giá quá cao khả năng của AI Trung Quốc, trong khi những người khác bày tỏ quan ngại về tiến bộ của Sora.
- Fang Han, CEO của nhà phát triển và xuất bản game Kunlun Tech, bày tỏ sự hoài nghi trong một cuộc phỏng vấn với Shang Securities News, cho rằng dựa trên các video demo của Sora, hệ thống này vẫn chưa có bước tiến đáng kể trong việc hiểu biết thế giới.

📌 Sự ra mắt của công cụ tạo video AI Sora của OpenAI đã gây ra nhiều phản ứng từ cộng đồng công nghệ Trung Quốc. Sự ngưỡng mộ đối với khả năng tạo hình ảnh tự nhiên và tích hợp văn bản-video của Sora đi đôi với lo ngại về sự chênh lệch trong phát triển AI giữa Trung Quốc và Mỹ. Mặc dù các mô hình ngôn ngữ lớn của Trung Quốc tiến gần tới khả năng của GPT-3.5, nhưng vẫn tồn tại khoảng cách thời gian so với GPT-4 của OpenAI.

Citations:
[1] https://timesofindia.indiatimes.com/gadgets-news/chinas-reaction-to-openais-ai-video-generating-tool-impressed-and-worried/articleshow/107848016.cms

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-02-18 22:39:04

LIÊN HOAN PHIM BERLIN TIẾT LỘ AI ĐE DỌA VIỆC LÀM HOLLYWOOD NHƯ THẾ NÀO

- Báo cáo Berlin Film Festival đưa ra sự ảnh hưởng của AI trên ngành phim Hollywood[1].
- AI có thể đe dọa các công việc trong ngành, nhưng cũng mang lại tiềm năng sáng tạo và khởi nghiệp (innovation and creativity) [1].
- Sự kết hợp giữa AI và tạo hình thủ công sẽ định hình tương lai của việc kể câu chuyện trong Hollywood[1].

- Báo cáo Berlin Film Festival đề cập đến ảnh hưởng của AI trên ngành phim[1].
- AI được coi là mang lại sự biến đổi và tiềm năng sáng tạo[1].
- Sự kết hợp giữa AI và tạo hình thủ công được đánh giá là định hình tương lai của kể câu chuyện trong Hollywood[1].

📌AI đã và sẽ tiếp tục ảnh hưởng mạnh mẽ đến ngành phim Hollywood, đặc biệt là trong việc sản xuất và kể câu chuyện. Trong khi đó, AI cũng mang lại tiềm năng sáng tạo và khởi nghiệp mới, tạo ra cơ hội cho việc kết hợp giữa AI và tạo hình thủ công. Tuy nhiên, việc điều chỉnh và đào tạo lao động sẽ cần thiết để đảm bảo sự phát triển bền vững của ngành phim trong thời đại AI.

Citations:
[1] https://www.cryptopolitan.com/berlin-film-festival-ai-threatens-jobs/

Không có file đính kèm.

Nguồn tham khảo

141

AI ảnh-video-music-âm thanh 2024-02-16 18:02:28

Tổ chức phi lợi nhuận của Đức này đang xây dựng một trợ lý giọng nói mở mà bất cứ ai cũng có thể sử dụng

- Có nhiều nỗ lực trong việc phát triển trợ lý giọng nói AI nguồn mở như Rhasspy, Mycroft và Jasper, với mục tiêu tạo ra trải nghiệm bảo mật, hoạt động ngoại tuyến mà không giảm chức năng.
- Phát triển trợ lý giọng nói nguồn mở gặp nhiều khó khăn do thách thức từ dự án nguồn mở và khó khăn trong việc lập trình trợ lý.
- Công nghệ trợ lý giọng nói như Google Assistant, Siri và Alexa có nhiều năm R&D và cơ sở hạ tầng lớn.
- LAION, tổ chức phi lợi nhuận Đức, chịu trách nhiệm duy trì một số bộ dữ liệu huấn luyện AI phổ biến nhất thế giới, đã công bố sáng kiến mới, BUD-E, nhằm xây dựng trợ lý giọng nói "hoàn toàn mở" có thể chạy trên phần cứng của người tiêu dùng.
- BUD-E được thiết kế để tận dụng công nghệ GenAI mới nổi, đặc biệt là các mô hình ngôn ngữ lớn (LLMs) như ChatGPT của OpenAI.
- BUD-E đã có thể tải xuống và cài đặt từ GitHub trên Ubuntu hoặc Windows PC (macOS sẽ sớm có), nhưng vẫn đang trong giai đoạn đầu.

📌 Tổ chức phi lợi nhuận LAION của Đức đang tiên phong trong việc phát triển một trợ lý giọng nói mở, BUD-E, nhằm mục tiêu tạo ra một giải pháp bảo mật và hoạt động ngoại tuyến mà không giảm chức năng. Dự án này đặc biệt quan trọng trong bối cảnh các công nghệ trợ lý giọng nói hiện tại như Google Assistant, Siri và Alexa đều yêu cầu cơ sở hạ tầng lớn và nhiều năm R&D. BUD-E không chỉ nhấn mạnh vào việc tạo ra một trợ lý giọng nói mở mà còn tận dụng các công nghệ AI tạo sinh mới nổi, mở ra khả năng tùy chỉnh và mở rộng không giới hạn cho người dùng và nhà phát triển.

Citations:
[1] https://techcrunch.com/2024/02/15/this-german-nonprofit-is-building-an-open-voice-assistant-that-anyone-can-use/

Không có file đính kèm.

Nguồn tham khảo

174

AI ảnh-video-music-âm thanh 2024-02-16 17:52:35

CÁC YOUTUBER CÓ THỂ SỐNG SÓT TRƯỚC SORA CỦA OPENAI?

- Cảm giác không chắc chắn mà các nghệ sĩ và nhà thiết kế đồ họa cảm nhận khi DALL-E và các ứng dụng tương tự như Midjourney được phát hành đã trở lại, lần này ảnh hưởng đến YouTubers và người làm video.
- Sora, công cụ AI mới nhất từ nhà sản xuất ChatGPT, cho phép bất kỳ ai tạo video chỉ từ mô tả văn bản, đánh dấu một bước tiến đột phá trong việc tạo nội dung video.
- Chất lượng hình ảnh, đồ họa và nhân vật trong video tạo ra bằng công cụ này rất thuyết phục, đến mức nếu không được thông báo trước, người xem có thể tin rằng chúng thực sự tồn tại.
- Trên các nền tảng xã hội như X, đã bắt đầu xuất hiện nhiều câu hỏi về tương lai của YouTubers trong bối cảnh công nghệ mới này.
- Marques Brownlee (MKBHD), YouTuber công nghệ hàng đầu, đã đưa ra một ví dụ về những gì có thể xảy ra trong tương lai với Sora của OpenAI, cho thấy việc trở thành một YouTuber có thể bao gồm "Cấp độ 1: Ý tưởng/khái niệm," "Cấp độ 2: Hình ảnh lưu trữ," và cuối cùng là "Cấp độ 10: Người tạo nội dung YouTube," ám chỉ rằng mọi vai trò khác có thể sẽ bị AI thay thế.

📌 Sora của OpenAI đánh dấu một bước tiến lớn trong lĩnh vực tạo nội dung video, mang lại cơ hội và thách thức mới cho các YouTuber và người tạo video. Với khả năng tạo ra video chỉ từ mô tả văn bản, Sora không chỉ mở ra khả năng tạo nội dung video một cách dễ dàng và nhanh chóng mà còn đặt ra câu hỏi về tương lai của người tạo nội dung truyền thống. Các nền tảng xã hội và những người có ảnh hưởng trong cộng đồng công nghệ đã bắt đầu thảo luận về ảnh hưởng của công cụ này

Citations:
[1] https://www.cryptopolitan.com/can-youtubers-survive-openais-sora/

Không có file đính kèm.

Nguồn tham khảo

208

AI ảnh-video-music-âm thanh 2024-02-15 20:31:49

Mô hình AI chuyển văn bản thành giọng nói lớn nhất chưa cho thấy 'khả năng nổi bật'

- Các nhà nghiên cứu tại Amazon đã huấn luyện thành công mô hình chuyển đổi văn bản thành giọng nói (text-to-speech) lớn nhất từ trước đến nay với 980 triệu tham số, có tên là Big Adaptive Streamable TTS with Emergent abilities (BASE TTS).
- Mô hình BASE TTS sử dụng 100.000 giờ giọng nói thuộc phạm vi công cộng, trong đó 90% là tiếng Anh và phần còn lại là tiếng Đức, Hà Lan và Tây Ban Nha.
- Mô hình này cho thấy những cải tiến đáng kể, giúp nó có khả năng nói một cách tự nhiên ngay cả với những câu phức tạp, có thể là bước đột phá giúp công nghệ vượt qua "thung lũng kỳ quái".
- Các mô hình ngôn ngữ lớn (LLMs) khi đạt đến một kích thước nhất định bắt đầu thể hiện sự mạnh mẽ và linh hoạt, có khả năng thực hiện các nhiệm vụ mà chúng không được huấn luyện trực tiếp.
- Nhóm nghiên cứu tại Amazon AGI (Artificial General Intelligence) tin rằng điều tương tự cũng xảy ra với mô hình text-to-speech khi chúng phát triển về kích thước.
- Mặc dù công nghệ này có tiềm năng lớn, đặc biệt là trong lĩnh vực tiếp cận, nhưng nhóm nghiên cứu đã quyết định không công bố mã nguồn và dữ liệu khác của mô hình do lo ngại rủi ro từ những kẻ xấu lợi dụng.

📌 Mô hình BASE TTS của Amazon đánh dấu một bước tiến quan trọng trong lĩnh vực AI chuyển đổi văn bản thành giọng nói, với 100.000 giờ giọng nói và khả năng "nổi bật" nâng cao. Sự phát triển này không chỉ giúp mô hình nói một cách tự nhiên hơn mà còn mở ra khả năng thực hiện các nhiệm vụ không được huấn luyện trước. Điều này cho thấy tiềm năng lớn trong việc cải thiện khả năng tiếp cận thông tin cho mọi người, đồng thời cũng nâng cao chất lượng tương tác giữa con người và máy móc. Tuy nhiên, việc không công bố mã nguồn để tránh rủi ro từ những kẻ xấu cũng là một quyết định cần thiết để đảm bảo an toàn cho công nghệ này.

Citations:
[1] https://techcrunch.com/2024/02/14/largest-text-to-speech-ai-model-yet-shows-emergent-abilities/

Không có file đính kèm.

Nguồn tham khảo

162

AI ảnh-video-music-âm thanh 2024-02-15 20:07:40

OpenAI giới thiệu Sora, mô hình AI chuyển văn bản thành video

- OpenAI công bố mô hình mới tạo video từ văn bản có tên là Sora, có khả năng tạo ra các cảnh quay thực tế và sáng tạo từ chỉ dẫn văn bản.
- Sora cho phép người dùng tạo ra các video ảnh thực dài đến một phút, dựa trên các lời nhắc mà họ viết ra.
- Mô hình có thể tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể, và chi tiết chính xác về đối tượng và phông nền.
- Sora cũng có khả năng hiểu cách các đối tượng tồn tại trong thế giới vật lý, diễn giải chính xác các đạo cụ và tạo ra các nhân vật biểu cảm sống động.
- Mô hình cũng có thể tạo video dựa trên một hình ảnh tĩnh, điền vào các khung hình còn thiếu hoặc mở rộng video hiện có.
- Sora hiện chỉ mở cửa cho "red teamers" để đánh giá mô hình về các nguy cơ và rủi ro tiềm ẩn, cũng như một số họa sĩ, nhà thiết kế và nhà làm phim để nhận phản hồi.
- OpenAI cũng lưu ý rằng mô hình hiện tại có thể không mô phỏng chính xác vật lý của một cảnh phức tạp và có thể không diễn giải đúng một số trường hợp nguyên nhân và kết quả.

📌 OpenAI đã tiến một bước dài trong lĩnh vực AI với việc giới thiệu Sora, mô hình AI mới có khả năng chuyển đổi văn bản thành video một cách chi tiết và phức tạp. Sora không chỉ mở ra khả năng tạo ra các cảnh quay với nhiều nhân vật và chuyển động cụ thể mà còn có thể hiểu và mô phỏng thế giới vật lý, tạo ra các nhân vật với cảm xúc sống động. Mặc dù hiện tại chỉ có một số người dùng cụ thể có quyền truy cập để đánh giá và phản hồi, nhưng tiềm năng của Sora trong việc cải thiện và mở rộng khả năng sáng tạo trong lĩnh vực sản xuất video là rất lớn. Công nghệ này hứa hẹn sẽ mang lại những đổi mới đáng kể cho ngành công nghiệp nội dung số và cách chúng ta tương tác với các hình thức truyền thông mới.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Sora (openai.com)

Citations:
[1] https://www.theverge.com/2024/2/15/24074151/openai-sora-text-to-video-ai

Không có file đính kèm.

Nguồn tham khảo

183

AI tools AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-02-09 10:13:42

Apple phát hành trình chỉnh sửa hình ảnh AI mã nguồn mở MGIE

- Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California, nhằm cung cấp một công cụ chỉnh sửa ảnh tiên tiến nhưng thân thiện với người dùng.
- MGIE sử dụng các mô hình ngôn ngữ lớn đa phương tiện (MLLMs) để chính xác giải thích các yêu cầu từ người dùng, cho phép thực hiện nhiều loại chỉnh sửa từ cải thiện ảnh tổng thể như điều chỉnh độ sáng, tương phản, đến các chỉnh sửa cục bộ và thay đổi kiểu Photoshop như cắt, thay đổi kích thước và thêm bộ lọc.
- MGIE không chỉ hỗ trợ chỉnh sửa ảnh cơ bản mà còn có khả năng hiểu và thực hiện các lệnh phức tạp như làm cho pizza trông khỏe mạnh hơn hoặc thay đổi điểm nhấn trong ảnh, nhờ vào khả năng suy luận thông thường và kỹ năng thao tác pixel cấp độ cao.
- Công cụ này đặc biệt nổi bật với khả năng suy luận thông thường, cho phép nó thực hiện các nhiệm vụ như thêm topping rau củ vào pizza để làm cho nó trông khỏe mạnh hơn hoặc tăng cường độ tương phản của ảnh để mô phỏng thêm ánh sáng.

📌 Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California. MGIE đánh dấu một bước tiến quan trọng trong việc kết hợp giữa công nghệ AI và công cụ sáng tạo, mở ra những khả năng mới trong chỉnh sửa ảnh. Với việc sử dụng MLLMs để giải thích chính xác các yêu cầu từ người dùng, MGIE cho phép thực hiện từ các chỉnh sửa ảnh tổng thể như điều chỉnh độ sáng, tương phản đến các chỉnh sửa cụ thể và phức tạp như thêm bộ lọc, cắt, thay đổi kích thước. Khả năng suy luận thông thường và thao tác pixel cấp độ cao của MGIE mở ra cánh cửa cho việc chỉnh sửa ảnh sáng tạo và cá nhân hóa hơn, đẩy mạnh giới hạn của những gì có thể đạt được với công nghệ AI trong lĩnh vực này.

Citations:
[1] https://www.geeky-gadgets.com/apple-mgie-ai-image-editor/

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh AI mở-nguồn mở 2024-02-08 10:03:38

Cuộc đua video tạo sinh của Trung Quốc nóng lên

- Video tạo sinh được kỳ vọng trở thành điểm nhấn tiếp theo trong cuộc đua AI sau sự bùng nổ của văn bản và hình ảnh tạo sinh.
- Các công ty khởi nghiệp và công ty công nghệ lớn ở Trung Quốc đang đầu tư mạnh mẽ vào lĩnh vực này, bao gồm Tencent, ByteDance (công ty mẹ của TikTok), Baidu và Alibaba.
- Cả ByteDance với MagicVideo và Baidu với UniVG đã đăng demo trên GitHub, tuy nhiên, hiện tại chưa có sản phẩm nào được công bố rộng rãi cho công chúng.
- Alibaba đã làm cho mô hình tạo video của mình, VGen, trở thành nguồn mở, một chiến lược ngày càng phổ biến giữa các công ty công nghệ Trung Quốc nhằm mục đích tiếp cận cộng đồng nhà phát triển toàn cầu.

📌 Cuộc đua phát triển video tạo sinh ở Trung Quốc đang trở nên sôi động với sự tham gia của các tên tuổi lớn trong ngành công nghệ như Tencent, ByteDance, Baidu và Alibaba. Mỗi công ty đều đã phát triển và giới thiệu mô hình phân tán video của riêng mình, với ByteDance và Baidu chia sẻ demo trên GitHub và Alibaba quyết định mở nguồn cho mô hình VGen của mình. Điều này không chỉ cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI tạo sinh tại Trung Quốc mà còn phản ánh xu hướng mở cửa và chia sẻ công nghệ với cộng đồng toàn cầu. Sự đầu tư mạnh mẽ vào video tạo sinh hứa hẹn sẽ mở ra những cơ hội mới và thúc đẩy sự phát triển của công nghệ AI tạo sinh trên toàn thế giới.

Citations:
[1] https://techcrunch.com/2024/02/05/chinas-generative-video-race-heats-up/

Không có file đính kèm.

Nguồn tham khảo

146

AI ảnh-video-music-âm thanh 2024-02-07 03:52:08

Có quan niệm sai lầm rằng việc sử dụng AI kém sáng tạo, những người này không muốn khám phá ý nghĩa sâu sắc hơn của nghệ thuật

- Có một hiểu lầm rằng việc sử dụng AI là con đường dễ dàng và ít sáng tạo hơn. Nhóm này từ chối nó ngay lập tức và không muốn khám phá ý nghĩa sâu sắc hơn của nghệ thuật và sự tạo tác của nó.
- Có một nhóm khác thì trung lập và cởi mở hơn, tuy nhiên, họ cho rằng nhiếp ảnh là phương tiện duy nhất để ghi lại linh hồn của một người.
- Cũng có một nhóm thấy việc sử dụng AI trong nghệ thuật thú vị và hấp dẫn. Đó là một hành trình thú vị.
- Điều đáng chú ý là hiện nay hầu như mọi thứ đều có thể được tạo ra thông qua AI, tôi đang trừu tượng hóa và cô lập các đối tượng của mình để trở lại bản chất của một hình ảnh.
- Tôi nghĩ rằng việc giới thiệu AI có thể so sánh với việc giới thiệu nhiếp ảnh so với hội họa, và lần lượt, nhiếp ảnh số so với nhiếp ảnh phim.

📌 Trang web này khám phá hiểu lầm về việc sử dụng AI trong nghệ thuật, cho rằng nó ít sáng tạo hơn. Tuy nhiên, thông qua việc trừu tượng hóa và cô lập các đối tượng, AI có thể tạo ra hầu như mọi thứ và trở lại bản chất của một hình ảnh. Việc giới thiệu AI cũng được so sánh với sự chuyển giao từ hội họa sang nhiếp ảnh, và từ nhiếp ảnh phim sang nhiếp ảnh số. Điều này cho thấy AI không chỉ mang lại sự sáng tạo mà còn mở ra một hành trình thú vị trong việc khám phá nghệ thuật.

Citations:
[1] https://www.digitalcameraworld.com/features/theres-a-misconception-that-the-use-of-ai-is-less-creative-these-people-dont-want-to-explore-the-deeper-meaning-of-the-art

Không có file đính kèm.

Nguồn tham khảo

152

AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh 2024-02-06 16:32:40

META CÔNG BỐ CHÍNH SÁCH MỞ RỘNG ĐỂ GẮN NHÃN HÌNH ẢNH DO AI TẠO RA

- Meta công bố chính sách mở rộng cho việc gắn nhãn hình ảnh được tạo sinh bởi AI.
- Phát ngôn viên của Meta, Kevin McAlister, nhận thức được nhu cầu về một cách tiếp cận rộng lớn hơn, cho biết: “Trong khi các công ty bắt đầu bao gồm các tín hiệu trong các công cụ tạo hình ảnh của họ, họ chưa bắt đầu bao gồm chúng trong các công cụ AI tạo ra âm thanh và video ở cùng quy mô.”
- Do đó, Meta đang làm việc để thêm một tính năng cho phép người dùng tiết lộ khi chia sẻ video hoặc âm thanh được tạo sinh bởi AI để có thể áp dụng nhãn phù hợp.

📌 Trong bối cảnh công nghệ AI ngày càng phát triển và ảnh hưởng sâu rộng đến mọi khía cạnh của đời sống, việc Meta mở rộng chính sách gắn nhãn cho hình ảnh, video và âm thanh được tạo sinh bởi AI là một bước tiến quan trọng. Điều này không chỉ giúp tăng cường minh bạch và trách nhiệm giải trình trong việc sử dụng công nghệ AI mà còn góp phần bảo vệ người dùng khỏi những thông tin sai lệch và giả mạo. Phát ngôn viên Kevin McAlister đã nhấn mạnh tầm quan trọng của việc tiếp cận rộng lớn hơn trong việc gắn nhãn, đặc biệt là trong lĩnh vực âm thanh và video, nơi mà việc áp dụng công nghệ AI chưa được thực hiện ở quy mô lớn như trong tạo hình ảnh.

Không có file đính kèm.

Nguồn tham khảo

235

AI việc làm AI ảnh-video-music-âm thanh 2024-02-05 02:22:56

AI TẠO SINH ĐƯỢC THIẾT LẬP ĐỂ TÁC ĐỘNG ĐẾN CÔNG VIỆC TRONG NGÀNH GIẢI TRÍ, BÁO CÁO CVL ECONOMICS

Công nghệ AI tạo sinh đang đặt ra mối đe dọa đối với việc làm trong ngành giải trí, đặc biệt là đối với các nhà thiết kế âm thanh, biên tập viên âm nhạc và kỹ sư âm thanh.
Các công ty hàng đầu thông báo về việc cắt giảm nhân sự: Riot Games, Amazon MGM và Pixar thực hiện cắt giảm trong bối cảnh có sự thay đổi do AI.
Ngành công nghiệp giải trí đối mặt với cuộc cách mạng lớn: AI ảnh hưởng rộng rãi, tác động đến nhiều vai trò khác nhau, đòi hỏi sự thích ứng để tồn tại.

Báo cáo của CVL Economics cảnh báo ngành phim và hoạt hình rằng AI tạo sinh sẽ gây ra nhiều mất mát việc làm hơn các ngành khác dựa trên cuộc khảo sát 300 nhà lãnh đạo ngành, bao gồm giám đốc điều hành cấp cao, giám đốc cấp trung và quản lý cấp trung vào cuối năm 2023. Nhà thiết kế âm thanh dưới áp lực với 55% nhà lãnh đạo doanh nghiệp dự đoán sẽ bị ảnh hưởng nhiều nhất bởi AI trong ba năm tới. Các vai trò khác cũng dễ bị tổn thương gồm biên tập viên âm nhạc, kỹ thuật viên âm thanh và kỹ sư âm thanh, với khoảng 40% người được hỏi bày tỏ lo ngại, trong khi khoảng 33% dự đoán thách thức đối với các nhạc sĩ, nhà soạn nhạc và kỹ sư phòng thu.

AI tạo sinh mở rộng tầm nhìn với gần một nửa (47%) các nhà lãnh đạo doanh nghiệp tin rằng trong ba năm tới, AI có thể tạo ra tài sản 3D và thiết kế âm thanh chân thực cho phim, truyền hình và video game. Ngoài ra, 44% kỳ vọng AI có thể sản xuất phụ đề ngoại ngữ thuyết phục cho đối thoại phim hoặc truyền hình, trong khi 39% dự đoán sự tham gia của AI trong việc tạo ra các bản nhạc mix và master vào năm 2026.

📌 Với 55% nhà lãnh đạo dự đoán nhà thiết kế âm thanh sẽ bị ảnh hưởng nhiều nhất bởi AI, ngành công nghiệp giải trí đang trên bờ vực của một cuộc cách mạng công nghệ. Biên tập viên âm nhạc và kỹ sư âm thanh cũng không nằm ngoài rủi ro, với khoảng 40% người được hỏi bày tỏ lo ngại. Khoảng 33% nhìn nhận sự thách thức đối với nhạc sĩ và kỹ sư phòng thu. Trong khi đó, gần một nửa (47%) tin rằng AI sẽ tạo ra tài sản 3D và thiết kế âm thanh trong ba năm tới, và 44% kỳ vọng AI sẽ sản xuất phụ đề ngoại ngữ thuyết phục. Điều này không chỉ mở ra các cơ hội mới mà còn đòi hỏi sự thích nghi và phát triển kỹ năng để đối mặt với sự thay đổi không thể tránh khỏi.

Không có file đính kèm.

Nguồn tham khảo

183

AI ảnh-video-music-âm thanh 2024-02-03 13:22:49

Adobe ra mắt Firefly AI cho Vision Pro với tính năng tạo văn bản và hình ảnh miễn phí trong thời gian giới hạn

Adobe ra mắt Firefly AI cho Vision Pro, ứng dụng AI tạo sinh văn bản thành hình ảnh, miễn phí trong thời gian giới hạn.
Firefly được thiết kế riêng cho visionOS, giúp người dùng sáng tạo và hiện thực hóa tầm nhìn sáng tạo của họ.
Người dùng có thể tạo và kết xuất tác phẩm nghệ thuật trên màn hình lớn, sắp xếp hình ảnh trong nhiều bối cảnh và tạo toàn cảnh 360 độ.
Adobe Lightroom cũng có sẵn trên Vision Pro, mang đến trải nghiệm chỉnh sửa ảnh nhập vai.
Fresco và Behance sẽ sớm ra mắt trên Vision Pro, mở ra những trải nghiệm sáng tạo mới.

📌 Adobe Firefly AI cho Vision Pro là ứng dụng AI tạo sinh văn bản thành hình ảnh, tích hợp với visionOS, cho phép người dùng sáng tạo và hiện thực hóa tầm nhìn sáng tạo của họ. Người dùng có thể tạo và kết xuất tác phẩm nghệ thuật trên màn hình lớn, sắp xếp hình ảnh trong nhiều bối cảnh và tạo toàn cảnh 360 độ. Adobe Lightroom cũng có sẵn trên Vision Pro, mang đến trải nghiệm chỉnh sửa ảnh nhập vai. Fresco và Behance sẽ sớm ra mắt trên Vision Pro, mở ra những trải nghiệm sáng tạo mới.

Không có file đính kèm.

Nguồn tham khảo

129

AI ảnh-video-music-âm thanh 2024-02-02 04:14:18

Google ra mắt ImageFX, trình tạo hình ảnh AI độc lập

Google ra mắt ImageFX, công cụ tạo hình ảnh AI mới, sử dụng công nghệ Imagen 2 của Google DeepMind.
ImageFX cho phép người dùng tạo và chỉnh sửa hình ảnh bằng mô tả văn bản, với tính năng "expressive chips" giúp khám phá các biến thể khác nhau của hình ảnh gốc.
Google đã áp dụng các biện pháp an toàn để hạn chế nội dung có vấn đề, bao gồm bộ lọc nhắc nhở cho "named people" và đánh dấu hình ảnh bằng SynthID, một loại hình mờ kỹ thuật số.
Imagen 2 cũng được tích hợp vào các sản phẩm và dịch vụ khác của Google, bao gồm Google Search, Google Ads, Duet AI, Vertex AI và Bard.
Google vẫn chưa tiết lộ dữ liệu được sử dụng để đào tạo Imagen 2, do những lo ngại về vấn đề bản quyền và sử dụng dữ liệu công khai.

📌 Google ra mắt ImageFX, công cụ tạo hình ảnh AI mới, với các tính năng an toàn và tích hợp vào nhiều sản phẩm khác của Google. ImageFX cho phép người dùng tạo và chỉnh sửa hình ảnh bằng mô tả văn bản, với tính năng "expressive chips" giúp khám phá các biến thể khác nhau của hình ảnh gốc. Google đã áp dụng các biện pháp an toàn để hạn chế nội dung có vấn đề, bao gồm bộ lọc nhắc nhở cho "named people" và đánh dấu hình ảnh bằng SynthID, một loại hình mờ kỹ thuật số.

Không có file đính kèm.

Nguồn tham khảo

205

AI so sánh AI ảnh-video-music-âm thanh 2024-02-01 17:27:52

Midjourney vs. DALL-E: Best AI Image Generator 2024

Midjourney và DALL-E là hai công cụ hàng đầu trong việc tạo ảnh AI tạo sinh, mỗi công cụ có điểm mạnh riêng biệt.
Midjourney được đánh giá cao về khả năng tùy chỉnh cao và chất lượng ảnh, phù hợp với người dùng cấp độ phát triển, doanh nghiệp và chất lượng thiết kế.
DALL-E nổi bật với khả năng tạo ảnh dễ dàng cho mọi loại người dùng, tích hợp qua các giao diện thân thiện như ChatGPT Plus, Team và Enterprise.
Midjourney cung cấp nhiều tính năng và công cụ phát triển ảnh cao cấp như chế độ ẩn (stealth mode) và công cụ chỉnh sửa vùng ảnh (vary region tool).
DALL-E hỗ trợ tạo nội dung dựa trên AI, với khả năng tạo ảnh từ văn bản và được tích hợp vào nhiều ứng dụng và API khác nhau.
Cả hai công cụ đều không cung cấp kế hoạch miễn phí hoặc thử nghiệm miễn phí cho người dùng.
Midjourney thắng lợi về tính năng cốt lõi nhờ dải lệnh và công cụ chỉnh sửa ảnh đa dạng, trong khi DALL-E dễ dàng triển khai và sử dụng hơn.
Chất lượng ảnh phụ thuộc vào mục đích sử dụng và cách thức tạo ảnh của mỗi công cụ, với Midjourney mạnh mẽ trong các ảnh biểu cảm và DALL-E tốt hơn với ảnh chân thực.
Dịch vụ khách hàng của cả hai công cụ đều tương đương, với nhiều nguồn hỗ trợ tự phục vụ và cộng đồng nhưng thiếu hỗ trợ trực tiếp từ con người.
Cả Midjourney và DALL-E đều có hạn chế cho một số loại người dùng và dự án, đặc biệt là những ai cần chất lượng ảnh chuyên nghiệp hoặc không muốn sử dụng Discord và các hệ thống hàng đợi.

📌 Cả Midjourney và DALL-E đều mang lại những lựa chọn mạnh mẽ cho việc tạo ảnh AI, tùy thuộc vào nhu cầu và mục đích sử dụng của người dùng. Midjourney thích hợp hơn cho những người dùng cần sự tùy chỉnh cao và chất lượng thiết kế, trong khi DALL-E cung cấp một lựa chọn dễ dàng hơn cho việc tạo ảnh đại chúng. Lựa chọn giữa hai công cụ này sẽ phụ thuộc vào yêu cầu cụ thể về chất lượng ảnh, tính năng chỉnh sửa và khả năng triển khai.

Không có file đính kèm.

Nguồn tham khảo

177

AI models AI ảnh-video-music-âm thanh 2024-01-31 21:41:48

Tương lai của các mô hình ngôn ngữ lớn đa phương thức (MM-LLM)

Phát triển gần đây trong đào tạo trước Multi-Modal (MM) đã nâng cao khả năng của các mô hình Học Máy (ML) trong xử lý và hiểu biết nhiều loại dữ liệu bao gồm văn bản, hình ảnh, âm thanh và video. Sự kết hợp của Mô hình Ngôn Ngữ Lớn (LLMs) với xử lý dữ liệu đa phương tiện đã dẫn đến việc tạo ra MM-LLMs (MultiModal Large Language Models) phức tạp.
MM-LLMs kết hợp các mô hình đơn phương tiện đã đào tạo trước, đặc biệt là LLMs, với các phương tiện khác nhau để tận dụng ưu điểm của chúng. Phương pháp này giảm chi phí tính toán so với việc đào tạo các mô hình đa phương tiện từ đầu.
GPT-4(Vision) và Gemini là ví dụ về những bước tiến gần đây trong lĩnh vực này, có khả năng hiểu và tạo ra nội dung đa phương tiện. Các mô hình như Flamingo, BLIP-2 và Kosmos-1 cũng được nghiên cứu về khả năng xử lý hình ảnh, âm thanh và thậm chí là video ngoài văn bản.
Một trong những thách thức chính của MM-LLMs là tích hợp LLM với các mô hình đa phương tiện khác sao cho chúng hợp tác tốt. Các phương tiện cần được điều chỉnh và phối hợp để phù hợp với ý định và hiểu biết của con người.
Nghiên cứu gần đây của nhóm từ Tencent AI Lab, Đại học Kyoto và Viện Tự động hóa Shenyang đã thực hiện một nghiên cứu sâu rộng về lĩnh vực MM-LLMs. Nghiên cứu bao gồm định nghĩa chung về kiến trúc mô hình và quy trình đào tạo.
Nghiên cứu cung cấp cái nhìn tổng quan về tình trạng hiện tại của MM-LLMs, với 26 mô hình MM-LLMs được giới thiệu ngắn gọn, nhấn mạnh sự độc đáo trong cấu trúc và tính năng.
MM-LLMs được đánh giá dựa trên tiêu chuẩn công nghiệp, giải thích hiệu suất của chúng so với tiêu chuẩn công nghiệp và trong hoàn cảnh thực tế.
Năm thành phần chính của kiến trúc mô hình MM-LLMs bao gồm Bộ mã hóa Phương tiện (Modality Encoder), Xương sống LLM (LLM Backbone), Bộ sinh Phương tiện (Modality Generator), Bộ chiếu Đầu vào (Input Projector) và Bộ chiếu Đầu ra (Output Projector).
Nghiên cứu này cung cấp một bản tóm tắt kỹ lưỡng về MM-LLMs và cái nhìn sâu sắc về hiệu quả của các mô hình hiện tại.

📌 Nghiên cứu cung cấp một cái nhìn toàn diện về lĩnh vực mô hình ngôn ngữ lớn đa phương thức (MM-LLM) từ cấu trúc mô hình đến hiệu suất thực tế. GPT-4 (Vision) và Gemini là ví dụ về những bước tiến gần đây trong lĩnh vực này, có khả năng hiểu và tạo ra nội dung đa phương tiện. Các mô hình như Flamingo, BLIP-2 và Kosmos-1 cũng được nghiên cứu về khả năng xử lý hình ảnh, âm thanh và thậm chí là video ngoài văn bản. Sự phát triển của MM-LLM mở ra khả năng mới trong việc xử lý và phân tích dữ liệu đa dạng, đồng thời nâng cao khả năng hiểu biết và tương tác của AI với thế giới thực.

Không có file đính kèm.

Nguồn tham khảo

179

AI báo chí AI ảnh-video-music-âm thanh 2024-01-28 16:08:28

Cách sử dụng hình đại diện ChatGPT và AI để tạo video, phương tiện truyền thông vô danh, v.v.

Bài viết hướng dẫn cách tạo kênh tin tức AI sử dụng VEED AI Avatars kết hợp với ChatGPT của OpenAI. VEED AI Avatars cho phép người dùng tạo avatar hoạt hình có thể biểu hiện cảm xúc và nói chuyện.
Để tạo kênh tin tức AI, người dùng cần thu thập nội dung từ các nguồn uy tín và tạo kịch bản hấp dẫn với sự trợ giúp của ChatGPT. Việc giữ chú ý khán giả là chìa khóa cho một bản tin thành công.
VEED cung cấp công cụ chỉnh sửa video cho phép điều chỉnh thời gian nói, loại bỏ khoảng dừng không mong muốn và thêm yếu tố động. Video được chỉnh sửa tốt có thể tăng độ giữ chân người xem.
Ngoài ra, VEED còn cung cấp các tính năng tiên tiến như chương tự tạo AI và đề xuất tiêu đề, giúp tối ưu hóa video cho mạng xã hội. Tính năng này cải thiện trải nghiệm người dùng và tăng cơ hội tương tác với nội dung.
Xây dựng cộng đồng xung quanh kênh và tương tác với khán giả qua bản tin, bình luận và thảo luận tạo nên một cơ sở khán giả trung thành.

📌 Bài viết hướng dẫn cách tạo kênh tin tức AI sử dụng VEED AI Avatars kết hợp với ChatGPT của OpenAI. VEED AI Avatars cho phép người dùng tạo avatar hoạt hình có thể biểu hiện cảm xúc và nói chuyện.

Không có file đính kèm.

Nguồn tham khảo

205

AI ảnh-video-music-âm thanh 2024-01-24 15:40:34

Google giới thiệu mô hình tạo video Lumiere, bỏ xa OpenAI

Google đã giới thiệu Lumiere, một mô hình phát triển video từ văn bản, tạo ra các video chân thực, đa dạng và có mô típ liên tục.
Lumiere có khả năng tạo ra video hoàn chỉnh trong một lần duy nhất nhờ kiến trúc Space-Time U-Net tiên tiến.
Mô hình cho phép người dùng sáng tạo nội dung hình ảnh, tạo ra các đoạn video thực tế hoặc siêu thực kéo dài tới năm giây.
Lumiere có thể hoạt hình hóa hình ảnh tĩnh, phản hồi trước những yêu cầu bằng ngôn ngữ tự nhiên và thực hiện video inpainting tiên tiến.
Nó được xây dựng trên kiến trúc Space-Time U-Net và mô hình chuyển đổi từ văn bản sang hình ảnh (T2I) hoạt động trong không gian pixel, đòi hỏi một mô-đun độ phân giải siêu cao cho việc sản xuất hình ảnh chất lượng cao.
Lumiere cung cấp khả năng tạo ra video có phong cách, sử dụng một hình ảnh tham chiếu duy nhất.
Mặc dù có hạn chế như không được thiết kế để tạo ra video có nhiều cảnh quay hoặc cảnh có chuyển động đa dạng, Lumiere vẫn đại diện cho một bước tiến lớn trong lĩnh vực AI tạo video từ văn bản.
Dự án hiện là một dự án nghiên cứu và việc phát hành rộng rãi có thể phụ thuộc vào việc giải quyết các vấn đề liên quan đến chính sách.
Tính đến nay, OpenAI chưa có một mô hình tạo video công khai trên API của họ, nhưng họ đang tích cực nghiên cứu và phát triển công nghệ trong lĩnh vực này.

📌 Google đã phát triển thành công Lumiere, một mô hình tạo ra video từ văn bản dựa trên kiến trúc Space-Time U-Net, cho phép tạo ra các video chất lượng cao và phong cách hóa chỉ từ một hình ảnh tham chiếu. Mặc dù có những hạn chế nhất định, Lumiere hiện nổi bật hơn so với các mô hình của OpenAI, đặc biệt khi OpenAI vẫn chưa công bố mô hình tạo video nào. Lumiere mở ra những khả năng mới trong việc sáng tạo nội dung video thông qua AI, tuy nhiên, việc phát hành mô hình có thể còn phụ thuộc vào các quyết định chính sách.

Không có file đính kèm.

Nguồn tham khảo

169

AI ảnh-video-music-âm thanh 2024-01-20 21:02:45

Trình tạo nhạc AI miễn phí này hơi quá tốt

Suno là một ứng dụng AI có khả năng tạo ra âm nhạc ngắn miễn phí và đã gây ấn tượng mạnh mẽ với người dùng.
Được phát triển bởi nhóm các nhạc sĩ và chuyên gia AI ở Cambridge, Massachusetts, Suno cho phép người dùng tạo ra các bài hát với yêu cầu cụ thể về thể loại và lời bài hát.
Các bài hát tạo ra thường dài từ 30 đến 60 giây, mặc dù có thể kéo dài thêm nếu muốn; người dùng không thể yêu cầu các nghệ sĩ cụ thể do vấn đề bản quyền.
Để tạo nhạc AI, người dùng cần tạo tài khoản trên trang web của Suno, nhập mô tả bài hát và nhấn "Create". Mỗi ngày, Suno cung cấp 50 "credits" miễn phí, tương đương với năm yêu cầu.
Người dùng cũng có thể sử dụng "Custom Mode" để nhập lời bài hát tùy chỉnh, chọn kiểu âm nhạc và tiêu đề bài hát.
Nếu muốn sử dụng Suno mà không cần tạo tài khoản, người dùng có thể tạo nhạc trực tiếp thông qua Copilot của Microsoft, với cùng số lượng yêu cầu miễn phí mỗi ngày.
Bài hát có thể được chia sẻ dễ dàng hoặc tải xuống, tuy nhiên, Suno giữ quyền sở hữu đối với mọi thứ được tạo ra trên dịch vụ của mình.

📌 Suno mang lại trải nghiệm tạo nhạc AI độc đáo với khả năng sinh ra các bản nhạc ngắn từ 30 đến 60 giây chỉ trong vài giây. Với 50 "credits" mỗi ngày, người dùng có thể thực hiện tối đa năm yêu cầu tạo nhạc miễn phí. Tùy chọn "Custom Mode" cho phép tùy chỉnh lời bài hát, kiểu âm nhạc và tiêu đề, mở rộng cơ hội sáng tạo. Mặc dù người dùng có thể tải xuống và chia sẻ bản nhạc, nhưng Suno giữ quyền sở hữu toàn bộ nội dung sản xuất.

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh 2024-01-18 17:11:33

Claude Chatbot của Anthropic được nâng cấp với khả năng phân tích hình ảnh, thách thức Google và OpenAI

Chatbot Claude của Anthropic được cập nhật thêm khả năng phân tích hình ảnh, cạnh tranh với Google Bard và ChatGPT của OpenAI.
Bloomberg phát hiện kế hoạch thêm tính năng nhận dạng hình ảnh vào Claude từ mã nguồn trang web của Anthropic, nhằm mở rộng khả năng của AI chatbot.
Các khả năng mới cho phép chatbot thực hiện các tác vụ như nhận diện giống chó trong ảnh, so sánh hình ảnh hoặc mô tả tác phẩm nghệ thuật.
Claude hiện xử lý các lệnh dựa trên văn bản, giúp tóm tắt tài liệu hoặc hỗ trợ luyện ngôn ngữ.
Anthropic, được sáng lập bởi cựu nhân viên OpenAI vào năm 2021, chú trọng vào AI có trách nhiệm và an toàn.
Startup có trụ sở tại San Francisco này đã ra mắt Claude vào năm 2023, thu hút khách hàng đa dạng bao gồm Pfizer và Zoom Video Communications.
Gần đây, có thông tin Anthropic đang thảo luận về việc huy động 750 triệu USD, định giá công ty ở mức 18,4 tỷ USD.
Năm 2023, Google đã cam kết đầu tư 2 tỷ USD và Amazon.Com Inc đã cam kết đầu tư lên đến 4 tỷ USD vào startup AI này.

📌 Anthropic đang chứng tỏ sự cạnh tranh mạnh mẽ trong lĩnh vực trí tuệ nhân tạo với việc nâng cấp khả năng phân tích hình ảnh cho chatbot Claude của mình. Sự ra mắt tính năng mới này không chỉ làm tăng khả năng cạnh tranh với các sản phẩm AI của Google và OpenAI mà còn mở rộng khả năng ứng dụng của chatbot trong nhiều lĩnh vực khác nhau. Với mức đầu tư lớn từ các công ty công nghệ hàng đầu như Google và Amazon, Anthropic có thể sẽ tăng tốc độ phát triển và mở rộng thị phần, đặc biệt là khi công ty có kế hoạch huy động thêm 750 triệu USD và đạt định giá 18,4 tỷ USD.

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh AI deepfake-ảo giác-ANTT 2024-01-17 16:34:05

ChatGPT sẽ bổ sung thêm công cụ video, giúp deepfake dễ dàng hơn bao giờ hết

ChatGPT, dự án của OpenAI, dự kiến sẽ bổ sung công cụ tạo video trong vòng hai năm tới.
Sam Altman từ OpenAI xác nhận thông tin này trong podcast Unconfuse Me cùng Bill Gates, với quan điểm multimodal sẽ quan trọng hơn.
Công cụ mới này sẽ cho phép người dùng nhập mô tả và nhận lại video do AI tạo ra, làm tăng khả năng sáng tạo cho mọi người dùng.
Tuy nhiên, công cụ này cũng mở ra nguy cơ lạm dụng để tạo deepfakes, vấn đề đã phổ biến trên nhiều nền tảng từ TikTok đến Facebook.
Sự phổ biến của deepfakes từ video nhảy múa giả mạo người nổi tiếng đến quảng cáo chính trị giả mạo làm tăng rủi ro thông tin sai lệch.
Tăng khả năng tạo video dễ dàng sẽ làm giảm bariê phát tán deepfakes và thách thức việc phát hiện và chống lại thông tin sai lệch trực tuyến.

📌 ChatGPT của OpenAI sẽ ra mắt công cụ tạo video trong vòng hai năm tới, mở ra cánh cửa mới cho người dùng trong việc tạo nội dung đa phương tiện. Tuy nhiên, điều này cũng đồng nghĩa với việc làm tăng nguy cơ lạm dụng công nghệ để tạo deepfakes, một vấn đề đã trở nên quen thuộc trên các nền tảng mạng xã hội. Với sự tiến bộ không ngừng của AI, deepfakes sẽ ngày càng khó nhận biết hơn, đặt ra yêu cầu cao hơn về kiến thức và sự cảnh giác của người dùng khi tiếp xúc với nội dung trực tuyến. Người dùng cần được trang bị kỹ năng để phân biệt thông tin chính xác, nhất là trong bối cảnh thông tin sai lệch có thể lan truyền nhanh chóng và rộng rãi trên internet.

Không có file đính kèm.

Nguồn tham khảo

214

AI ảnh-video-music-âm thanh AI bản quyền 2024-01-14 20:37:44

Getty ra mắt một công cụ AI tạo sinh không làm mất đi quảng cáo - và đi kèm với mức bảo vệ pháp lý trị giá 10.000 USD

Getty Images công bố ra mắt công cụ AI tạo sinh Generative AI by iStock tại CES 2024, nhằm biến ý tưởng sáng tạo thành nội dung ảnh hưởng lớn mà vẫn đảm bảo tính pháp lý và chi phí phải chăng.
Công cụ này sử dụng Nvidia Picasso, một foundry tiên tiến cho mô hình AI tạo sinh trong thiết kế hình ảnh, được huấn luyện độc quyền trên nội dung chất lượng cao của Getty Images và thư viện sáng tạo.
Generative AI by iStock không chỉ cung cấp nội dung hợp pháp, có thể sử dụng 100% mà còn đi kèm với bảo hiểm pháp lý lên đến $10,000 cho mỗi hình ảnh nếu có vấn đề phát sinh.
Công cụ này được thiết kế để tránh tạo ra nội dung có bản quyền như sản phẩm, người, địa điểm nổi tiếng - một vấn đề mà nhiều công cụ AI khác như Midjourney hay DALL•E 3 gặp phải.
Generative AI by iStock hợp nhất với thư viện ảnh iStock, được đào tạo từ hàng triệu hình ảnh, minh họa và video có bản quyền, giảm nguy cơ vi phạm bản quyền.
Công cụ này mở rộng khả năng cho khách hàng tìm kiếm hình ảnh lý tưởng cho mọi nhu cầu từ mạng xã hội, blog, quảng cáo trực tuyến, tiếp thị in ấn đến bản tin.
Generative AI by iStock cung cấp API để tích hợp vào các ứng dụng sáng tạo và plugin, cho phép người dùng chỉnh sửa hình ảnh theo nhu cầu.
Sản phẩm này hiện có sẵn bằng 75 ngôn ngữ cho tất cả khách hàng của iStock.

📌 Getty Images đem đến thị trường công cụ Generative AI by iStock, với sự hỗ trợ từ Nvidia Picasso, nhằm giải quyết vấn đề vi phạm bản quyền trong lĩnh vực hình ảnh sáng tạo. Công cụ này không chỉ cung cấp nội dung hợp pháp 100% mà còn bảo hiểm pháp lý lên đến 10,000 USD cho mỗi hình ảnh, đặt ra một tiêu chuẩn mới cho ngành công nghiệp. Với khả năng tích hợp API, Generative AI by iStock mở ra cánh cửa cho các doanh nghiệp và người sáng tạo để tạo ra hình ảnh một cách an toàn và linh hoạt, đồng thời giúp họ tránh được rủi ro pháp lý. Sản phẩm này hiện đã sẵn sàng và hỗ trợ 75 ngôn ngữ, thể hiện sự tiếp cận rộng rãi và toàn cầu.

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2024-01-12 22:32:18

Luma Genie — công cụ AI cho phép bạn tạo mô hình 3D từ một lời nhắc văn bản đơn giản

Luma Labs phát triển mô hình AI mới tên Genie, biến cụm từ thành đối tượng 3D.
Genie tạo tệp có thể mở trong ứng dụng mô hình 3D, chỉnh sửa và kết hợp mô hình.
Công cụ có sẵn trên website Luma, ứng dụng iPhone, và máy chủ Discord cộng đồng Luma.
Genie tạo đối tượng 3D trong dưới 10 giây, có thể xuất khẩu sang Blender, Unity và Unreal.

📌 Genie từ Luma Labs đánh dấu một bước tiến lớn trong lĩnh vực AI tạo sinh, mang lại khả năng chuyển đổi văn bản thành các mô hình 3D tương tác. Công cụ này, có khả năng tạo ra đối tượng trong vòng dưới 10 giây, không chỉ mở ra cánh cửa cho các ứng dụng sáng tạo trong không gian 3D mà còn đưa khả năng tạo mô hình của AI lên một tầm cao mới. Sự linh hoạt trong việc xuất khẩu mô hình sang các công cụ như Blender, Unity và Unreal làm tăng thêm giá trị ứng dụng của Genie trong nhiều lĩnh vực khác nhau, từ in 3D đến phát triển game.

Không có file đính kèm.

Nguồn tham khảo

168

AI ảnh-video-music-âm thanh 2024-01-10 16:41:19

Các nhà nghiên cứu từ Microsoft và NU Singapore giới thiệu Cosmo: Khung AI đào tạo trước nguồn mở hoàn toàn được chế tạo tỉ mỉ để xử lý hình ảnh và video

COSMO là một framework mới, giúp cải thiện khả năng xử lý dữ liệu đa phương tiện trong AI.
Framework này chia mô hình ngôn ngữ thành các phân đoạn chuyên biệt cho văn bản đơn phương tiện và xử lý dữ liệu đa phương tiện.
Sự kết hợp của contrastive loss và language model loss giúp cải thiện khả năng căn chỉnh dữ liệu, đặc biệt là giữa văn bản và hình ảnh.
Howto-Interlink7M dataset, với những chú thích chi tiết về video-văn bản, đã được sử dụng để tăng cường hiệu suất mô hình trong nhiệm vụ liên quan đến ảnh-văn bản.
Kết quả kiểm nghiệm cho thấy COSMO vượt trội so với các mô hình trước đây, với một bước tiến lớn từ 57.2% lên 65.1% trong nhiệm vụ chú thích ảnh Flickr với chỉ 4 mẫu dữ liệu.

📌 COSMO là một framework mới, giúp cải thiện khả năng xử lý dữ liệu đa phương tiện trong AI. COSMO không chỉ đánh dấu bước tiến trong việc xử lý dữ liệu đa phương tiện, mà còn phản ánh xu hướng mạnh mẽ hướng tới việc tạo ra các hệ thống AI phức tạp, có khả năng hiểu và xử lý thông tin theo cách công bằng và toàn diện. Kết quả cải thiện đáng kể trong việc căn chỉnh dữ liệu văn bản và hình ảnh từ 57,2% lên 65,1% trong nhiệm vụ chú thích ảnh Flickr chỉ ra khả năng tiềm tàng mà COSMO mang lại, mở ra khả năng áp dụng AI đa phương tiện trong nhiều lĩnh vực từ y tế đến giáo dục, và tiếp tục thách thức giới hạn hiện tại của AI.

Không có file đính kèm.

Nguồn tham khảo

177

AI bản quyền AI ảnh-video-music-âm thanh 2024-01-10 16:30:58

Adobe đang quản lý vấn đề nan giải về bản quyền AI như thế nào?

Adobe, một công ty nổi tiếng với các phần mềm sáng tạo như Photoshop và Illustrator, đang đối mặt với những thách thức lớn trong lĩnh vực pháp lý và AI tạo sinh.
Dana Rao, giám đốc pháp lý và đại diện tin cậy của Adobe, chia sẻ về vấn đề bản quyền liên quan đến AI tạo sinh và thách thức từ việc mua lại Figma, một công ty thiết kế nổi lên, bị ngăn chặn do lo ngại về độc quyền tại Liên minh Châu Âu.
Adobe đang tích cực đầu tư vào công cụ AI tạo sinh, như Firefly, và đồng thời xem xét kỹ lưỡng về mối quan hệ giữa AI và bản quyền.
Rao nhấn mạnh sự cần thiết của việc xác định rõ ràng dữ liệu đào tạo cho AI và hành vi được phép với sản phẩm AI.
Adobe đang xem xét về việc bảo vệ phong cách nghệ sĩ và đề xuất một dự luật chống giả mạo tại Quốc hội.
Sự kiện Adobe và Figma hủy bỏ thương vụ mua lại là một điểm quan trọng, phản ánh sự quan tâm lớn hơn về vấn đề độc quyền trong ngành công nghiệp công nghệ.
Adobe cũng quan tâm đến việc sử dụng AI để lừa đảo, đặc biệt trong môi trường chính trị hiện tại, và tham gia vào cuộc tranh luận với Sáng kiến Tính xác thực của Nội dung.
Dana Rao chia sẻ về cách quản lý sự cân bằng giữa việc đổi mới và tuân thủ pháp luật, cũng như cách tiếp cận của Adobe trong việc phát triển công nghệ AI một cách có trách nhiệm.

📌 Adobe, trong cuộc phỏng vấn với Dana Rao, giám đốc pháp lý và đại diện tin cậy, đã đề cập đến những thách thức và cơ hội liên quan đến AI tạo sinh và bản quyền trong ngành công nghệ. Vấn đề bản quyền với AI tạo sinh đang phát triển nhanh chóng và gây ra nhiều câu hỏi pháp lý chưa có lời giải. Điểm nổi bật là việc Adobe đầu tư vào công cụ AI tạo sinh Firefly, đồng thời xem xét cẩn trọng mối quan hệ giữa AI và bản quyền. Sự kiện Adobe và Figma hủy bỏ thương vụ mua lại cũng phản ánh lo ngại về độc quyền và sự quản lý của cơ quan chức năng. Adobe đang xem xét các biện pháp bảo vệ phong cách nghệ sĩ và đã đề xuất dự luật chống giả mạo tại Quốc hội. Sự tham gia của Adobe trong cuộc tranh luận về AI sử dụng để lừa đảo, đặc biệt qua Sáng kiến Tính xác thực của Nội dung, cũng là một điểm quan trọng. Rao chia sẻ về việc quản lý sự cân bằng giữa đổi mới và tuân thủ pháp luật, cũng như cách tiếp cận của Adobe trong việc phát triển công nghệ AI một cách có trách nhiệm.

Không có file đính kèm.

Nguồn tham khảo

182

AI nghệ thuật AI ảnh-video-music-âm thanh 2024-01-09 09:07:19

Thời kỳ Phục hưng Sáng tạo: AI đang nâng cao trí tưởng tượng và tiềm năng của con người như thế nào

DALL-E, chương trình chuyển đổi văn bản thành hình ảnh, đã tạo ra khoảng 2 triệu bức ảnh mỗi ngày và thu hút 1,5 triệu người dùng sau chưa đầy một năm kể từ khi phát hành vào tháng 1 năm 2021. Phiên bản DALL-E 3 tiên tiến hơn đang được sử dụng bởi các doanh nghiệp, tổ chức giáo dục và cá nhân.
AI tạo sinh đang thay đổi quan niệm về sự sáng tạo, từ đặc quyền của con người biến thành lĩnh vực mà công nghệ có thể mô phỏng và tăng cường. Điều này thách thức việc sử dụng AI trong quá trình sáng tạo và cần cân nhắc cách tận dụng những phát triển của AI mà vẫn bảo vệ quyền lợi của những người sáng tạo.
Ngành kinh tế sáng tạo hoặc "người ảnh hưởng toàn cầu" có giá trị 21,1 tỷ đô la vào năm 2023. Các nhà sáng tạo đang tận dụng AI để tự động hóa các nhiệm vụ lặp đi lặp lại, hỗ trợ suy nghĩ ý tưởng và tạo ra nhiều phiên bản thiết kế nhanh chóng.
AI không chỉ tăng cường đổi mới mà còn bắt đầu mô phỏng sự sáng tạo của con người. Ví dụ, AI đã được sử dụng để tạo ra hình ảnh nghệ thuật kỹ thuật số, sản xuất âm nhạc và phát triển sản phẩm.
Mặc dù có quan ngại về việc AI có thể thay thế con người, nhưng thực tế, con người vẫn đang hướng dẫn và tinh chỉnh kết quả từ AI, tiếp thêm sắc thái, phán đoán và kinh nghiệm vào sản phẩm cuối cùng.
Các tiến bộ gần đây trong AI mở ra cuộc tranh luận về khả năng sáng tạo trong tương lai và cách thức hợp tác giữa con người và AI.

📌 Sự xuất hiện của AI tạo sinh như DALL-E, với khả năng tạo ra 2 triệu hình ảnh mỗi ngày, đã minh chứng rằng AI không chỉ là công cụ hỗ trợ mà còn là đối tác sáng tạo mạnh mẽ. Tính đến năm 2023, ngành kinh tế sáng tạo đã đạt giá trị đáng kể lên tới 21,1 tỷ đô la, một phần nhờ vào sự góp sức của AI trong việc tự động hóa công việc và phát triển ý tưởng. Dù vậy, con người vẫn giữ vai trò quan trọng trong việc định hình và tinh chỉnh sản phẩm cuối cùng của AI, bảo đảm rằng sự sáng tạo vẫn mang đậm dấu ấn cá nhân. Các tiến bộ trong AI không chỉ mở ra cơ hội mới mà còn thúc đẩy cuộc tranh luận về tương lai của sự sáng tạo.

Không có file đính kèm.

Nguồn tham khảo

226

AI ảnh-video-music-âm thanh 2024-01-07 16:53:35

Salesforce đề xuất MoonShot: Mô hình AI thế hệ video mới điều kiện đồng thời trên các đầu vào hình ảnh và văn bản đa phương thức

MoonShot, đề xuất bởi Salesforce Researchers, là một phương pháp tiên tiến để tạo video bằng AI, vượt qua hạn chế của các kỹ thuật hiện có.
Có khả năng điều kiện hóa đồng thời cả hình ảnh và văn bản nhờ vào Multimodal Video Block (MVB), MoonShot cải thiện đáng kể khả năng kiểm soát chính xác trong tạo video.
Mô hình sử dụng các lớp U-Net không gian-thời gian và các lớp cross-attention đa phương tiện tách biệt, giúp duy trì tính nhất quán về thời gian mà không làm mất đi các đặc tính không gian quan trọng.
MoonShot đạt kết quả xuất sắc trong nhiều nhiệm vụ sản xuất video như tạo video theo chủ đề cụ thể, hoạt hình hình ảnh và chỉnh sửa video.
Mô hình này nổi bật với khả năng tùy biến zero-shot trên các dấu nhắc cụ thể về chủ đề, vượt trội so với các mô hình chuyển đổi văn bản thành video không tùy biến.

📌 MoonShot của Salesforce không chỉ là một bước đột phá trong việc tạo video bằng AI mà còn là một mô hình đa năng và mạnh mẽ nhờ vào khả năng điều kiện hóa đồng thời cả hình ảnh và văn bản. Với MVB, lớp cross-attention đa phương tiện tách biệt và lớp U-Net không gian-thời gian, MoonShot không chỉ cải thiện độ chính xác mà còn cho thấy kết quả xuất sắc trong đa dạng nhiệm vụ tạo video. MoonShot đặt ra tiêu chuẩn mới trong ngành công nghiệp với khả năng tạo video tùy biến theo chủ đề, hoạt hình hình ảnh và chỉnh sửa video.

Không có file đính kèm.

Nguồn tham khảo

115

AI ảnh-video-music-âm thanh 2024-01-05 10:19:41

Gặp gỡ Emily Pellegrini, 'Người mẫu nóng bỏng nhất thế giới'

Các KOL trên mạng xã hội được tạo ra bởi AI đang trở nên phổ biến. Emily Pellegrini là một ví dụ nổi bật, chỉ sau bốn tháng gia nhập Instagram, cô đã thu hút gần 150.000 người hâm mộ.
Emily không phải là người thật mà là một hình mẫu số được tạo ra dựa trên những định hướng từ ChatGPT. Cô được mô tả với mái tóc nâu dài và đôi chân dài, phản ánh "người phụ nữ trong mơ" của đàn ông trung bình theo ChatGPT.
Tạo hình của Emily nhận được nhiều lời khen ngợi và lời mời hẹn hò trên Instagram. Người tạo ra cô duy trì sự tương tác với người hâm mộ nhưng giữ kín danh tính thực sự của mình.
Tuy Emily chỉ xuất hiện trên mạng xã hội trong bốn tháng, nhưng cô đã giúp người tạo ra mình kiếm được khoảng 10.000 đô la từ Instagram và Fanvue. Số lượng người theo dõi của cô cũng tăng lên mỗi ngày.
Emily còn có một "chị gái" là Fiona Pellegrini, cũng là một hình mẫu số với mái tóc vàng, hiện có khoảng 30.000 người theo dõi trên Instagram.
Người tạo ra Emily và Fiona đang lên kế hoạch cho việc ra mắt thêm hai mô hình nữa, trong đó một sẽ là một cô gái tóc đỏ.
Việc quản lý các tài khoản Instagram phổ biến này không hề đơn giản. Ban đầu, người này phải làm việc 14-16 giờ mỗi ngày để chỉnh sửa hình ảnh, nhưng giờ đây vẫn phải làm việc 8 giờ mỗi ngày, bảy ngày một tuần.

📌 Sự nổi tiếng của Emily Pellegrini trên Instagram, với gần 150.000 người theo dõi chỉ sau bốn tháng, cùng với "chị gái" Fiona có 30.000 người theo dõi, cho thấy sức hút mạnh mẽ của các nhân vật số được tạo ra bởi AI trong thế giới truyền thông và mạng xã hội hiện đại. Sự tương tác và thu nhập ấn tượng - khoảng 10.000 đô la từ các nền tảng như Instagram và Fanvue - không chỉ phản ánh khả năng sáng tạo và kỹ thuật của người tạo ra, mà còn mở ra một hướng đi mới trong cách chúng ta tiếp nhận và tương tác với nhân vật số. Đồng thời, kế hoạch mở rộng với việc ra mắt thêm các nhân vật mới cho thấy tiềm năng tăng trưởng cũng như những thách thức về quản lý và bảo mật trong tương lai của ngành công nghiệp nội dung số.

Không có file đính kèm.

Nguồn tham khảo

185

AI ảnh-video-music-âm thanh 2024-01-02 15:08:08

Google VideoPoet AI là gì? Làm cách nào để sử dụng nó tạo video AI chất lượng cao?

Google VideoPoet là công cụ AI mới của Google, biến văn bản thành video chất lượng cao với các tính năng như video động cơ độ dài biến thiên, chỉnh sửa tương tác và phong cách đa dạng.
Công nghệ cốt lõi là bộ mã hóa MAGVIT-2 và mô hình ngôn ngữ tự động hồi quy, cho phép tạo video không cần được huấn luyện cụ thể trước.
VideoPoet hỗ trợ tạo video với nhiều chuyển động lớn, cho phép người dùng kiểm soát chuyển động và tạo video theo yêu cầu từ các đề xuất văn bản.
Công cụ này tạo điều kiện cho việc tạo ra video từ văn bản, hình ảnh, và âm thanh, cũng như việc tôi màu video và tạo video từ video khác.
VideoPoet chưa công khai rộng rãi nhưng có trang demo để thử nghiệm, hứa hẹn sẽ mở ra cơ hội mới cho người sáng tạo nội dung và những người đam mê AI.

📌 VideoPoet của Google là minh chứng cho bước tiến vượt bậc của AI trong lĩnh vực sản xuất video đa phương tiện. Được trang bị công nghệ MAGVIT-2 và mô hình ngôn ngữ tự động hồi quy, nó mở ra cánh cửa cho những phong cách video mới và tính năng chỉnh sửa động tương tác. Mặc dù chưa được công bố rộng rãi, nhưng với trang web demo đã ra mắt, VideoPoet hứa hẹn sẽ là công cụ mạnh mẽ cho nhà sản xuất nội dung và những người yêu thích AI, khi nó chính thức được phát hành.

Không có file đính kèm.

Nguồn tham khảo

145

AI ảnh-video-music-âm thanh 2024-01-01 22:36:01

'Mach' (Tạo nhân vật): Cách mạng hóa việc tạo nhân vật 3D bằng học máy cho kỷ nguyên AI và Metaverse

Các nhà nghiên cứu từ Viện Nghiên cứu Máy tính Thông minh và Tập đoàn Alibaba giới thiệu Make-A-Character (Mach), một hệ thống sáng tạo giúp đơn giản hóa việc tạo mô hình con người số 3D.
Mach sử dụng các mô hình ngôn ngữ và thị giác tiên tiến, biến đổi mô tả văn bản cơ bản thành avatar 3D chi tiết và chân thực.
Cách tiếp cận này cho phép người dùng dễ dàng tạo ra avatar cá nhân hóa phù hợp với nhân vật mà họ tưởng tượng.
Nhóm nghiên cứu giới thiệu cơ chế chuyển đổi tên là Triplane, cải thiện việc tạo hình học và tối ưu hóa tham số camera và bản đồ Triplane dựa trên các điểm đánh dấu khuôn mặt chi tiết và hình ảnh tham chiếu.
Họ thu thập dữ liệu thực tế bằng cách chụp khuôn mặt của 193 người dưới ánh sáng đồng nhất và tạo ra kết cấu nhân tạo dưới các điều kiện chiếu sáng khác nhau.
Mach sử dụng một loạt các mô-đun phân tích khuôn mặt 2D và tạo ra 3D để tạo ra lưới và kết cấu của khuôn mặt mục tiêu, cùng với phụ kiện phù hợp, cho phép dễ dàng hoạt hóa avatar 3D được tạo ra.
Quá trình này sử dụng phương pháp rendering khác biệt và phương pháp tăng cường để trích xuất và hoàn thiện kết cấu phân tán sử dụng hình ảnh tham chiếu.
Nghiên cứu trình bày kết quả trực quan của các avatar 3D được tạo ra, thể hiện các hoạt ảnh biểu cảm đạt được thông qua điều khiển cơ mặt.
Các nhà nghiên cứu chứng minh hiệu quả của phương pháp của họ bằng cách phát triển các đặc điểm khuôn mặt chi tiết được hướng dẫn bởi các gợi ý văn bản sử dụng Mô hình Lan truyền Ổn định, LLM và ControlNet.

📌 Các nhà nghiên cứu từ Viện Nghiên cứu Máy tính Thông minh và Tập đoàn Alibaba giới thiệu Make-A-Character (Mach), một hệ thống sáng tạo giúp đơn giản hóa việc tạo mô hình con người số 3D. Các nhà nghiên cứu chứng minh hiệu quả của phương pháp của họ thông qua kết quả trực quan, thể hiện các hoạt ảnh biểu cảm đạt được thông qua điều khiển cơ mặt. Mô hình Lan truyền Ổn định, LLM và ControlNet cho phép tạo ra các đặc điểm khuôn mặt chi tiết.

Không có file đính kèm.

Nguồn tham khảo

151

AI ảnh-video-music-âm thanh AI nghiên cứu 2024-01-01 22:18:43

Nghiên cứu Meta GenAI giới thiệu ControlRoom3D: Một phương pháp trí tuệ nhân tạo mới để tạo ra các lưới phòng 3D chất lượng cao dựa trên mô tả bằng văn bản về phong cách phòng

Trong lĩnh vực thực tế ảo tăng cường và thực tế ảo đang phát triển nhanh chóng, việc tạo ra môi trường 3D là một thách thức lớn, đặc biệt do sự phức tạp của phần mềm mô hình hóa 3D.
Điều này thường cản trở người dùng cuối trong việc tạo ra không gian ảo cá nhân hóa, một khía cạnh ngày càng quan trọng trong nhiều ứng dụng từ trò chơi đến mô phỏng giáo dục.
Trung tâm của thách thức này là việc tạo ra các lưới phòng 3D chi tiết, chất lượng cao, và thực tế về cấu hình không gian. Các kỹ thuật tự động hiện nay thường thất bại trong việc này, dẫn đến việc tạo ra những phòng không tuân theo logic không gian thông thường.
Giải pháp cho những hạn chế này là phương pháp ControlRoom3D của các nhà nghiên cứu từ Meta GenAI, Đại học RWTH Aachen, và Đại học Kỹ thuật Munich, một phương pháp AI cách mạng trong việc tạo lưới phòng 3D.
ControlRoom3D kết hợp nhiều thành phần kỹ thuật để tạo ra các bố cục phòng hợp lý và có khả năng. Một trong những yếu tố chính là tạo ra bức tranh toàn cảnh dẫn dắt, giúp thiết lập một phong cách nhất quán trong phòng.
Thành phần quan trọng khác là mô-đun căn chỉnh hình học, sử dụng kích thước không gian của các hộp giới hạn 3D trong phòng mẫu để căn chỉnh các kết cấu 3D với bố cục phòng dự định.
Bước cuối cùng trong phương pháp của ControlRoom3D là hoàn thiện lưới, kết hợp kỹ thuật in-painting và căn chỉnh độ sâu để tích hợp một cách liền mạch các kết cấu mới vào cấu trúc lưới hiện tại.
Hiệu quả của ControlRoom3D được nhấn mạnh qua khả năng tạo ra các lưới phòng 3D thuyết phục, với khả năng đặc biệt về tính hợp lý của bố cục, độ hoàn thiện cấu trúc, và chất lượng cảm quan tổng thể so với các phương pháp hiện tại.

📌 ControlRoom3D đánh dấu một bước tiến quan trọng trong việc tạo ra môi trường 3D. Bằng cách cho phép người dùng kiểm soát quá trình tạo lưới, phương pháp này dân chủ hóa việc tạo ra các phòng 3D, làm cho nó trở nên dễ tiếp cận đối với những người không có kiến thức chuyên môn trong mô hình hóa 3D. Khả năng tạo ra các lưới phòng 3D chất lượng cao, thực tế có ý nghĩa đối với ứng dụng AR và VR và một loạt lĩnh vực rộng lớn nơi mô hình hóa 3D đóng vai trò then chốt.

Không có file đính kèm.

Nguồn tham khảo

143

AI ảnh-video-music-âm thanh 2023-12-31 07:48:07

Làm thế nào AI trở thành một phần chủ đạo của nhiếp ảnh vào năm 2023

- Trong năm 2023, AI tạo sinh đã trở thành một phần không thể thiếu trong lĩnh vực nhiếp ảnh. Adobe và các nhà cung cấp ảnh stock như Getty và Shutterstock đều tung ra công cụ chuyển đổi văn bản thành hình ảnh.

- Các mô hình như DALL-E 3, Midjourney V6 và Imagen 2 của Google đã tiến bộ đáng kể, tạo ra hình ảnh chân thực hơn với chi tiết như số lượng ngón tay chính xác, ánh sáng, cử chỉ và tóc.

- Ứng dụng Photo AI cho phép người dùng tải ảnh lên và tạo các mô hình AI để "thực hiện buổi chụp ảnh ở các tư thế, địa điểm và phong cách khác nhau".

- Adobe ra mắt Firefly và công cụ Generative Fill trong Photoshop, được huấn luyện hoàn toàn từ ảnh miễn phí và từ Adobe Stock, giúp các nhiếp ảnh gia tiết kiệm hàng giờ công sức.

- Getty Images phát triển công cụ tạo ảnh AI phối hợp với Nvidia, cho phép khách hàng chỉnh sửa ảnh stock bằng công nghệ AI.

- Các thương hiệu như Levi's và Amazon đã sử dụng AI để tạo hình ảnh cho sản phẩm, với Levi's tạo mô hình AI cho quần áo và Amazon tạo hình ảnh quảng cáo cho sản phẩm.

📌 Năm 2023 đã chứng kiến sự bùng nổ và tích hợp của AI tạo sinh trong nhiếp ảnh, với việc các công ty lớn như Adobe, Getty và Shutterstock tích hợp công nghệ này vào sản phẩm của họ. Công cụ như DALL-E 3 và Midjourney V6 đã tạo ra những bức ảnh chân thực đến mức khó phân biệt với thực tế. Công nghệ này không chỉ mang lại cơ hội mới mà còn đặt ra thách thức về bản quyền và thay đổi cách thức làm việc của các nhiếp ảnh gia, mở ra hướng đi mới cho ngành công nghiệp hình ảnh.

Adobe, Getty, và Shutterstock tích hợp AI tạo sinh: Bước tiến mới trong nhiếp ảnh.

Ảnh AI tạo sinh định hình ngành nhiếp ảnh trong năm 2023.

Sóng AI, AI tạo sinh, Nhiếp ảnh, Adobe Firefly, Photoshop, Getty Images, Stock ảnh, Photorealism, Generative Fill, Luminar Neo.

Ảnh AI Tạo Sinh: Xu Hướng Mới Của Nhiếp ảnh 2023.

Không có file đính kèm.

Nguồn tham khảo

167

AI nghệ thuật AI ảnh-video-music-âm thanh 2023-12-30 07:35:23

Nhà soạn nhạc từng đoạt giải thưởng cho biết AI ‘không thể nào thay thế hoàn toàn các nhạc sĩ con người’—đây là lý do

Một tác giả có tên Ghostwriter đã phát hành bài hát "Heart On My Sleeve" sử dụng giọng hát AI của các ca sĩ The Weeknd và Drake vào tháng 4 năm nay, và sau đó bài hát này đã được đề cử cho giải Grammy.
Dựa trên sự phổ biến nhanh chóng của bài hát trên mạng và khả năng mô phỏng chính xác của AI đối với hai nghệ sĩ giải trí nổi tiếng, nhiều người tự hỏi liệu tương lai của âm nhạc có thể chứa nhiều nghệ sĩ AI hơn so với nhạc sĩ người.
Tuy nhiên, theo Joel Beckerman, nhà soạn nhạc truyền hình và phim đoạt giải thưởng và đồng sáng lập của Made Music Studio, chúng ta không nên lo lắng quá về việc đó trở thành hiện thực.
Beckerman cho biết "không có cách nào trong tương lai gần mà AI sẽ hoàn toàn thay thế nhạc sĩ."
Có vài lý do cho điều này:
1. Mọi người kết nối với câu chuyện và bài hát của nghệ sĩ.
2. Khó khăn trong việc lập trình sự sáng tạo.
Công cụ AI vẫn có thể làm xáo trộn ngành công nghiệp âm nhạc, nhưng khả năng cao hơn là chúng sẽ tạo ra nhạc "đủ tốt" chứ không phải nhạc pop đứng đầu bảng xếp hạng hay tác phẩm cấp Mozart.
Ví dụ, đây có thể là nhạc nền cho một cảnh nhỏ trong quán bar trong phim hoặc âm nhạc không rõ ràng được chơi trong nhà hàng để tạo không khí.
Beckerman cũng lo ngại rằng công cụ tạo nhạc AI có thể khiến các nhạc sĩ mới khó khăn hơn khi bắt đầu sự nghiệp trong ngành.
Đó là lý do tại sao việc xây dựng mối quan hệ mạnh mẽ với cộng đồng người hâm mộ, những người đánh giá cao trải nghiệm độc đáo của con người mà cảm hứng cho bài hát của họ, sẽ tiếp tục quan trọng.

📌 Sự xuất hiện của các công cụ AI trong âm nhạc, như bài hát "Heart On My Sleeve" sử dụng giọng hát AI của The Weeknd và Drake, đang mở ra một hướng mới cho ngành công nghiệp âm nhạc. Tuy nhiên, theo chuyên gia Joel Beckerman, khả năng AI hoàn toàn thay thế nhạc sĩ là không cao. Thay vào đó, AI có thể tạo ra nhạc "đủ tốt" cho các mục đích cụ thể như âm nhạc nền, mặc dù điều này cũng có thể tạo ra thách thức cho những nhạc sĩ mới bắt đầu sự nghiệp. Việc xây dựng mối liên kết mạnh mẽ giữa nghệ sĩ và khán giả, cũng như giá trị của những câu chuyện và trải nghiệm con người trong âm nhạc, là yếu tố không thể bị AI thay thế.

Không có file đính kèm.

Nguồn tham khảo

183

AI nghệ thuật AI ảnh-video-music-âm thanh 2023-12-30 07:30:45

Công cụ AI mới của Grimes cho phép các nghệ sĩ thể hiện giọng hát của cô ấy trên bản nhạc của họ

Grimes đã ra mắt một công cụ AI cho phép các nghệ sĩ sử dụng giọng hát của cô trong các bản nhạc mới. Cô hợp tác với nền tảng âm nhạc GenAI TRINITI để giới thiệu Elf.tech đến thế giới âm nhạc.
Nền tảng này sẽ cho phép các nghệ sĩ hợp tác với Grimes mà không cần trả tiền để cô vào phòng thu.
Các nghệ sĩ phải trả cho Grimes 50% tiền bản quyền từ bất kỳ bài hát nào sử dụng công nghệ này, theo báo cáo từ Route Note.
Công nghệ mới này hoạt động bằng cách biến đổi các đường âm thanh hiện có thành mẫu giọng độc đáo của Grimes bằng cách sử dụng "GrimesAI-1 voiceprint."
Grimes đã thông báo về sự hợp tác với TRINITI vào tháng 4 năm nay, tuyên bố rằng cô đang làm việc trên một chương trình cho phép các nghệ sĩ sử dụng giọng hát của mình.
Grimes đặt ra các điều khoản trên Twitter, thông báo cho các nghệ sĩ biết họ sẽ "chia sẻ 50% tiền bản quyền trên bất kỳ bài hát AI thành công nào sử dụng giọng hát của tôi."
Nghệ sĩ cũng cần đăng ký bài hát của họ trên trang web của Grimes ngoài việc chia sẻ tiền bản quyền.
Trong năm 2020, Grimes đã nói với The New York Times về AI trong nghệ thuật, thể hiện sự ủng hộ của cô đối với AI.
Grimes đã công bố một bài hát mới trong năm nay với tựa đề "I Wanna Be Software," là một phần của dự án dài hơi và được mong đợi, "Book 1."

📌 Sự ra mắt công cụ AI của Grimes, cho phép các nghệ sĩ sử dụng giọng hát của cô trong các bản nhạc mới, là một bước tiến đáng chú ý trong lĩnh vực âm nhạc và công nghệ. Các nghệ sĩ phải trả cho Grimes 50% tiền bản quyền từ bất kỳ bài hát nào sử dụng công nghệ này, Sự hợp tác giữa Grimes và TRINITI qua Elf.tech mở ra cơ hội cho các nghệ sĩ tạo ra tác phẩm âm nhạc mà không cần phòng thu, dù họ phải chia sẻ tiền bản quyền với Grimes. Điều này không chỉ phản ánh sự chấp nhận của Grimes đối với vai trò của AI trong nghệ thuật mà còn cho thấy sự linh hoạt và tiềm năng của công nghệ trong việc tạo ra các tác phẩm sáng tạo mới.

Không có file đính kèm.

Nguồn tham khảo

190

AI ảnh-video-music-âm thanh 2023-12-29 16:12:05

Researchers from Tsinghua University Introduce LLM4VG: A Novel AI Benchmark for Evaluating LLMs on Video Grounding Tasks

Nghiên cứu mới về LLMs trong phân tích video cho thấy tiềm năng lớn trong việc xác định đoạn video dựa trên mô tả văn bản.
Thách thức chính của Video Grounding (VG) là xác định chính xác ranh giới thời gian của các đoạn video.
LLMs đã thành công trong nhiều lĩnh vực nhưng hiệu quả trong VG vẫn cần được khám phá thêm.
Nghiên cứu từ Đại học Thanh Hoa giới thiệu 'LLM4VG', một chuẩn mực đánh giá hiệu suất LLMs trong VG.
Hai chiến lược được xem xét: VidLLMs được huấn luyện trực tiếp trên dữ liệu text-video và kết hợp LLMs thông thường với mô hình hình ảnh đã huấn luyện trước.
Các mô hình đồ họa chuyển đổi nội dung video thành mô tả văn bản, giúp kết nối thông tin hình ảnh và văn bản.
VidLLMs chưa đạt hiệu suất VG mong muốn, trong khi kết hợp LLMs với mô hình hình ảnh cho thấy khả năng ban đầu.

📌 Nghiên cứu này mở đường cho việc đánh giá sâu rộng về khả năng của LLMs trong nhiệm vụ Video Grounding, đề cập đến việc cần có những phương pháp tiên tiến hơn trong huấn luyện mô hình và thiết kế câu hỏi. VidLLMs cần hiểu sâu hơn về yếu tố thời gian, trong khi việc tích hợp LLMs với mô hình hình ảnh mở ra hướng đi mới, là bước tiến quan trọng trong lĩnh vực này. Kết quả nghiên cứu không chỉ làm sáng tỏ tình trạng hiện tại của LLMs trong nhiệm vụ Video Grounding mà còn tạo đà cho những tiến bộ tương lai, có tiềm năng làm thay đổi cách phân tích và hiểu nội dung video.

Không có file đính kèm.

Nguồn tham khảo

156

AI ảnh-video-music-âm thanh 2023-12-27 15:55:33

Alibaba làm cho các AI agents trở nên sống động hơn với tính năng tạo hình nhân vật

Bài viết trên trang Analytics India Magazine giới thiệu về dự án "Make-A-Character" của Alibaba, nhằm tạo ra các nhân vật AI sống động.
"Make-A-Character" sử dụng công nghệ AI để tạo ra các nhân vật ảo có khả năng tương tác và phản ứng như con người thực.
Dự án này tập trung vào việc tạo ra các nhân vật có tính cách, cảm xúc và khả năng giao tiếp tự nhiên, mang lại trải nghiệm chân thực cho người dùng.
Alibaba sử dụng các kỹ thuật AI tiên tiến như học máy và xử lý ngôn ngữ tự nhiên (NLP) để tạo ra các nhân vật này.
Mục tiêu của "Make-A-Character" là tạo ra các nhân vật ảo có thể được sử dụng trong các ứng dụng như trò chơi, giáo dục, và giải trí.
Dự án cũng mở ra cơ hội cho việc tạo ra các trợ lý ảo cá nhân và nhân vật trong quảng cáo, mang đến sự đa dạng và mới mẻ trong tương tác số.
Bài viết nhấn mạnh tầm quan trọng của việc phát triển các công nghệ AI tạo sinh trong việc mô phỏng con người và tạo ra các trải nghiệm kỹ thuật số chất lượng cao.

📌 Dự án "Make-A-Character" của Alibaba mở ra một kỷ nguyên mới trong việc tạo ra các nhân vật AI sống động, có khả năng tương tác và phản ứng như con người, đánh dấu bước tiến mới trong công nghệ AI tạo sinh và ứng dụng của nó trong lĩnh vực giải trí và giáo dục.

Không có file đính kèm.

Nguồn tham khảo

138

AI ảnh-video-music-âm thanh 2023-12-27 07:35:43

Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI giới thiệu CogAgent: Mô hình ngôn ngữ hình ảnh mang tính cách mạng để tăng cường tương tác GUI

Bài viết trên Marktechpost giới thiệu về CogAgent, một mô hình ngôn ngữ hình ảnh tiên tiến, được phát triển bởi các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI.
CogAgent được thiết kế để cải thiện tương tác giao diện người dùng đồ họa (GUI) bằng cách sử dụng AI.
Mô hình này kết hợp khả năng nhận dạng hình ảnh với xử lý ngôn ngữ tự nhiên, tạo ra một hệ thống có khả năng hiểu và phản hồi một cách thông minh trong môi trường GUI.
CogAgent có thể áp dụng trong nhiều ứng dụng khác nhau, bao gồm hỗ trợ tự động trong phần mềm, trợ lý ảo, và tương tác thông minh với thiết bị kỹ thuật số.
Một trong những ưu điểm nổi bật của CogAgent là khả năng phân tích và phản hồi dựa trên cả hình ảnh và văn bản, mang lại trải nghiệm người dùng mượt mà và tự nhiên hơn.
Nhóm nghiên cứu cũng chú trọng đến việc tối ưu hóa mô hình để đảm bảo hiệu suất cao và tính ứng dụng thực tế.
Bài viết nhấn mạnh tầm quan trọng của việc tích hợp AI vào giao diện người dùng, đặc biệt trong thời đại kỹ thuật số hiện nay.

📌 CogAgent, mô hình ngôn ngữ hình ảnh mới từ Đại học Tsinghua và Zhipu AI, mở ra hướng tiếp cận mới trong tương tác GUI, kết hợp hiệu quả giữa nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên. Mô hình này hứa hẹn sẽ nâng cao trải nghiệm người dùng trong các ứng dụng số và hỗ trợ tự động.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2023-12-26 16:09:37

AI là tương lai của nhiếp ảnh. Điều đó có nghĩa là nhiếp ảnh đã chết?

Bài viết đặt câu hỏi liệu AI có đe dọa tới tương lai của nhiếp ảnh hay không, khi AI có thể tạo ra hình ảnh giống thật mà không cần quay thực tế.
Tác giả phỏng vấn các nghệ sĩ sử dụng AI để tạo hình ảnh như Laurie Simmons, Alejandro Cartagena. Họ cho rằng AI không thay thế nhiếp ảnh mà là công cụ hữu ích, giúp mở rộng sáng tạo.
Hình ảnh từ AI khác với nhiếp ảnh ở chỗ không gắn với thực tế, nhưng cũng không hoàn toàn là giả mạo. Chúng nằm trong khoảng trống mà chưa có ngôn ngữ để định nghĩa.
Đối với một số người, AI đe dọa công việc của nhiếp ảnh gia, nhưng cũng mở ra cơ hội sáng tạo mới. Các cuộc tranh luận xung quanh AI tương tự với sự ra đời của nhiếp ảnh kỹ thuật số.

✂️ AI không đe dọa tới tồn tại của nhiếp ảnh mà có thể là công cụ hữu ích để mở rộng sáng tạo. Tranh luận xung quanh AI tương tự những bước nhảy vọt công nghệ trước đây.

Không có file đính kèm.

Nguồn tham khảo

149

AI ảnh-video-music-âm thanh 2023-12-26 15:50:07

Midjourney V6 Alpha Testing Started: 3 Reasons Why It is a Key Milestone

- Midjourney V6, một bước tiến mới trong lĩnh vực AI, đã mở ra giai đoạn thử nghiệm alpha, đánh dấu một sự chuyển đổi lớn trong ngành công nghệ AI tạo sinh
- Bài viết này phân tích ba lý do quan trọng tại sao giai đoạn thử nghiệm alpha của Midjourney V6 lại trở thành một điểm nổi bật cho các nhà phát triển, người sáng tạo và người yêu thích công nghệ.
1. Kỹ Thuật Hướng Dẫn Nâng Cao:
  - Midjourney V6 được thiết kế để chính xác hơn theo các hướng dẫn đầu vào, cho phép người dùng nhập các chỉ dẫn dài và chi tiết hơn, mang lại kết quả hình ảnh phù hợp hơn với tầm nhìn của họ.
  - Cấu trúc hướng dẫn được cải tiến, yêu cầu người dùng tránh sử dụng ngôn ngữ mơ hồ và thuật ngữ không cần thiết.
2. Cải Tiến Vẽ Chữ:
  - Midjourney V6 có khả năng vẽ chữ nhỏ, cho phép người dùng tích hợp trực tiếp các yếu tố văn bản vào hình ảnh của họ, tăng cường khả năng kể chuyện và sức hút thẩm mỹ của hình ảnh.
3. Tạo Hình Ảnh Siêu Thực:
  - Midjourney V6 hứa hẹn bước tiến lớn trong việc tạo hình ảnh siêu thực, với khả năng kiểm soát màu sắc và bóng tốt hơn, tạo ra hình ảnh với cảm giác thực tế cao.
- Midjourney V6 cũng bổ sung tính năng tinh chỉnh tương tác, cho phép người dùng tương tác và điều chỉnh tác phẩm của họ một cách linh hoạt.
Ứng Dụng và Sử Dụng Sáng Tạo của Midjourney V6:
- Midjourney V6 có thể được ứng dụng trong nhiều lĩnh vực khác nhau, từ trực quan hóa kiến trúc, thiết kế thời trang, phát triển trò chơi và tạo nội dung, đến nguồn lực giáo dục, khám phá nghệ thuật, tái hiện lịch sử, thiết kế sản phẩm và tiếp thị.
📌 3 lý do quan trọng tại sao giai đoạn thử nghiệm alpha của Midjourney V6 lại trở thành một điểm nổi bật cho các nhà phát triển, người sáng tạo và người yêu thích công nghệ gồm: kỹ thuật hướng dẫn nâng cao, cải tiến đưa chữ vào ảnh, tạo ảnh siêu thực.

Không có file đính kèm.

Nguồn tham khảo

145

AI ảnh-video-music-âm thanh AI models 2023-12-25 16:02:07

Các nhà nghiên cứu của Alibaba đề xuất I2VGen-xl: Mô hình AI tổng hợp video xếp tầng có khả năng tạo video chất lượng cao từ một hình ảnh tĩnh duy nhất

Bài viết trên MarkTechPost giới thiệu về I2VGen-XL, một mô hình AI tổng hợp video phân cấp mới được đề xuất bởi các nhà nghiên cứu tại Alibaba.
I2VGen-XL có khả năng tạo ra video chất lượng cao từ một hình ảnh tĩnh đơn lẻ, mở ra khả năng chuyển đổi ảnh thành video sinh động.
Mô hình này sử dụng kỹ thuật học sâu để phân tích và tái tạo chuyển động, môi trường và ngữ cảnh dựa trên hình ảnh đầu vào.
Công nghệ AI này có tiềm năng ứng dụng rộng rãi, từ quảng cáo đến giải trí, và thậm chí trong lĩnh vực giáo dục và đào tạo.
I2VGen-XL được kỳ vọng sẽ cải thiện đáng kể quy trình sản xuất video, giảm thiểu thời gian và chi phí liên quan đến quay phim và chỉnh sửa.
Bài viết cũng nhấn mạnh sự độc đáo của mô hình này trong việc xử lý và tái tạo chuyển động phức tạp, mang lại video có độ phân giải cao và chất lượng ấn tượng.
Alibaba nhấn mạnh rằng I2VGen-XL là một bước tiến trong lĩnh vực tổng hợp video, hứa hẹn mở ra cơ hội mới trong cách chúng ta tạo và tương tác với nội dung video.

📌 Sự ra đời của I2VGen-XL, mô hình AI phân cấp tổng hợp video của Alibaba, không chỉ là bước đột phá trong việc tạo video từ ảnh tĩnh mà còn mở ra khả năng mới cho ngành công nghiệp sản xuất video, giảm thiểu chi phí và thời gian sản xuất.

Không có file đính kèm.

Nguồn tham khảo

138

AI ảnh-video-music-âm thanh 2023-12-25 15:07:15

5 Ways of Using Stable Diffusion for Game Development (Beginner’s Guide)

Bài viết trên AMBCrypto giới thiệu 5 cách sử dụng Stable Diffusion cho phát triển game, hướng dẫn dành cho người mới.
Cách thứ nhất là tạo hình ảnh nguyên mẫu nhanh chóng. Stable Diffusion cho phép phát triển các hình ảnh nguyên mẫu một cách nhanh chóng, giúp lập trình viên và nhà thiết kế hình dung ý tưởng một cách hiệu quả.
Cách thứ hai là tạo môi trường game động. Sử dụng AI này, các nhà phát triển có thể tạo ra môi trường game đa dạng và phong phú, tăng cường trải nghiệm người chơi.
Cách thứ ba là tạo nhân vật game độc đáo. Stable Diffusion giúp tạo ra các nhân vật game với diện mạo và tính cách đặc biệt, làm cho trò chơi trở nên hấp dẫn và độc đáo hơn.
Cách thứ tư là tối ưu hóa quá trình sản xuất nội dung game. Công cụ này giúp giảm thời gian và chi phí sản xuất, đồng thời nâng cao chất lượng nội dung trong game.
Cách thứ năm là cải thiện storytelling trong game. AI giúp tạo ra các tình tiết và kịch bản game phức tạp, mang đến câu chuyện game sâu sắc và cuốn hút.
Bài viết nhấn mạnh sự linh hoạt và hiệu quả của Stable Diffusion trong quá trình phát triển game, giúp các nhà phát triển game tận dụng tối đa tiềm năng của công nghệ AI.

📌 Sử dụng Stable Diffusion trong phát triển game mở ra những cơ hội mới để tạo ra trò chơi độc đáo và hấp dẫn, với quy trình sản xuất nhanh chóng, tiết kiệm chi phí và nâng cao trải nghiệm người chơi.

Không có file đính kèm.

Nguồn tham khảo

119

AI ảnh-video-music-âm thanh 2023-12-24 17:19:02

ĐÁM MÂY CỦA ALIBABA RA MẮT TRÌNH TẠO VĂN BẢN THÀNH VIDEO AI TIÊN TIẾN

Alibaba Cloud giới thiệu công cụ AI mới biến văn bản thành video, một bước tiến đáng chú ý trong ngành công nghệ.
Công cụ này sử dụng AI để phân tích văn bản và tạo ra các đoạn video tương ứng mà không cần đến sự can thiệp của con người.
Sản phẩm này hứa hẹn sẽ mở ra nhiều cơ hội mới cho các lĩnh vực như giáo dục, marketing và giải trí.
Alibaba Cloud là một trong những công ty hàng đầu thế giới về cung cấp dịch vụ điện toán đám mây, và việc tung ra công cụ AI mới này củng cố thêm vị thế của họ trên thị trường.
Công cụ AI text-to-video của Alibaba Cloud có thể tạo ra các đoạn video từ văn bản với nhiều phong cách khác nhau, từ hoạt hình đến video thực tế, phù hợp với nhu cầu đa dạng của người dùng.
Điểm đặc biệt của công cụ này là khả năng tự động hóa cao, giảm thiểu thời gian và công sức cần thiết để sản xuất video, một lợi ích lớn cho các nhà sản xuất nội dung.

📌 Công nghệ AI của Alibaba Cloud mang lại khả năng chuyển đổi văn bản thành video một cách nhanh chóng và linh hoạt, mở ra cánh cửa mới cho các ứng dụng từ giáo dục đến giải trí, đồng thời nhấn mạnh sự cần thiết của sự tự động hóa trong sản xuất nội dung kỹ thuật số.

Không có file đính kèm.

Nguồn tham khảo

117

AI nghệ thuật AI ảnh-video-music-âm thanh 2023-12-24 16:34:00

MICROSOFT HỢP TÁC VỚI INWORLD AI ĐỂ CÁCH MẠNG HÓA TRÒ CHƠI VỚI CÁC NHÂN VẬT VÀ CÁCH KỂ CHUYỆN ĐƯỢC ĐIỀU KHIỂN BỞI AI

Microsoft đã hợp tác với Inworld AI để cách mạng hóa ngành game với những nhân vật và cốt truyện dựa trên AI.
Mục đích là trao quyền cho các nhà phát triển game tạo ra các nhân vật AI, cốt truyện nhập vai và nhiệm vụ phức tạp, mang lại trải nghiệm chơi game chưa từng có.
Công cụ AI design copilot dành cho các nhà phát triển Xbox sẽ tái định nghĩa quá trình sáng tạo, giúp họ thiết kế kịch bản chi tiết và tạo ra các câu chuyện hấp dẫn.
Câu chuyện trong game giúp người chơi hiểu rõ mục tiêu và gia tăng sự liên kết với thế giới game.
AI trong game mở ra những khả năng kể chuyện linh hoạt, tùy chỉnh theo từng lựa chọn của người chơi, tạo ra những tình tiết và cốt truyện độc đáo.
Sự hợp tác giữa Microsoft và Inworld AI hứa hẹn mở ra một kỷ nguyên mới cho ngành game, nơi các nhân vật và cốt truyện AI đóng vai trò trung tâm, đem lại những cuộc phiêu lưu độc đáo và cá nhân hóa cho mỗi lần chơi.

📌 Hợp tác giữa Microsoft và Inworld AI đánh dấu một bước tiến quan trọng trong ngành công nghiệp game, với việc tận dụng sức mạnh của AI để tạo ra những trải nghiệm chơi game nhập vai và cá nhân hóa. Những công cụ và công nghệ tiên tiến này không chỉ mở ra cánh cửa cho những khả năng kể chuyện không giới hạn mà còn nâng cao sự gắn bó của người chơi với trò chơi.

Không có file đính kèm.

Nguồn tham khảo

162

AI ảnh-video-music-âm thanh 2023-12-23 15:31:22

Xin lỗi, nhưng video do AI tạo ra khá tệ (hiện tại)

Dịch vụ AI tạo video như Pika và Runway hiện tại vẫn chưa đạt chất lượng cao.
Pika, giới thiệu phiên bản "Pika 1.0" vào tháng 11/2023, huy động được 55 triệu USD từ các nhà đầu tư.
Mục tiêu của Pika là giúp mọi người làm đạo diễn câu chuyện của riêng mình và khơi gợi khả năng sáng tạo.
Giao diện đơn giản của Pika cho phép người dùng nhập mô tả và chỉnh sửa video dựa trên các lệnh văn bản.
Tuy nhiên, video do Pika tạo ra cần nhiều chỉnh sửa và thường không đáp ứng được như mong đợi.
Pika có thể làm tốt với cảnh quan đơn giản nhưng lại không đủ để sử dụng trong sản xuất chuyên nghiệp.
Pika 1.0 là bước đầu tiên và dự kiến sẽ được cải thiện qua thời gian và đầu tư.

📌 Pika và Runway hiện đang trong giai đoạn đầu của việc phát triển công cụ tạo video bằng AI, với Pika 1.0 mới ra mắt cung cấp công cụ chỉnh sửa cơ bản và khả năng tạo video dựa trên lệnh văn bản. Tuy nhiên, chất lượng video sản xuất còn hạn chế và thường đòi hỏi nhiều công sức chỉnh sửa để có thể sử dụng, cho thấy rằng việc tạo video bằng AI vẫn còn là một thách thức lớn so với việc tạo văn bản hoặc hình ảnh.

Không có file đính kèm.

Nguồn tham khảo

124

AI ảnh-video-music-âm thanh 2023-12-23 15:06:37

MIDJOUR V6 ĐÃ XUẤT HIỆN - TRÌNH TẠO HÌNH ẢNH AI MẠNH NHẤT CHO ĐẾN NAY

Phiên bản Alpha của Midjourney V6 đã được phát hành, mở cửa cho cộng đồng thử nghiệm trong kỳ nghỉ đông. V6 được cung cấp qua Discord, giống như các phiên bản trước, và có thể chọn 'V6' từ menu thả xuống dưới /settings hoặc nhập –v 6 trong giao diện của Midjourney.
Cải tiến mới bao gồm:
- Độ chính xác và độ dài của lệnh tăng cao: V6 có khả năng theo dõi lệnh chính xác hơn và hỗ trợ nhập lệnh dài hơn.
- Cải thiện sự liên kết và kiến thức: Phiên bản này nâng cấp đáng kể về sự liên kết và cơ sở kiến thức nội tại của mô hình.
- Nâng cao khả năng đề xuất ảnh và remix: V6 đã cải thiện về khả năng đề xuất ảnh và remix.
- Khả năng vẽ văn bản: Người dùng giờ đây có thể thêm các yếu tố văn bản nhỏ vào hình ảnh của họ, bằng cách viết văn bản mong muốn trong dấu ngoặc kép và điều chỉnh cài đặt phong cách.
- Cải thiện Upscalers: Upscalers mới trong V6 có hai chế độ 'tinh tế' và 'sáng tạo', giúp cải thiện độ phân giải hình ảnh lên gấp đôi.
- 📌 Midjourney V6 đánh dấu một bước tiến lớn trong lĩnh vực AI tạo sinh với khả năng tạo ảnh chính xác theo yêu cầu, cải thiện khả năng liên kết và kiến thức, cùng với khả năng vẽ văn bản và nâng cao chất lượng hình ảnh. Sự nâng cấp này hứa hẹn sẽ mở ra những khả năng mới và tăng cường trải nghiệm người dùng trong việc sáng tạo nội dung hình ảnh.

Không có file đính kèm.

Nguồn tham khảo

152

AI ảnh-video-music-âm thanh 2023-12-22 13:18:22

AI cuối cùng đã giải quyết được bí ẩn đằng sau bức tranh thời Phục hưng

Một thuật toán AI phát triển tại Đại học Bradford đã giải quyết được bí ẩn về bức tranh Madonna della Rosa tại bảo tàng Prado ở Madrid.
Bức tranh Madonna della Rosa mô tả Maria, Joseph, Jesus và John the Baptist khi còn nhỏ. Raphael được cho là họa sĩ của bức tranh này, nhưng từ thế kỷ 19 đã có nghi ngờ về điều đó.
Phần hình ảnh Joseph được cho là không phải của Raphael, và một số nhà sử học nghệ thuật cũng nghi ngờ phần đáy với bông hồng cũng do người khác vẽ.
Thuật toán AI do giáo sư Hassan Ugail phát triển đã được huấn luyện trên 49 tác phẩm không tranh cãi của Raphael và có khả năng nhận diện với độ chính xác 98%.
Quá trình kiểm tra ban đầu cho kết quả không rõ ràng, chỉ 60% khả năng là của Raphael. Nhưng phân tích từng phần chi tiết cho thấy chỉ có khuôn mặt Joseph không phải của Raphael.
Kết quả đã được công bố trên tạp chí Heritage Science. Giáo sư emeritus Howell Edwards của Bradford, đồng tác giả bài báo, cho biết AI đã chứng minh rõ ràng ba hình ảnh của Madonna, Christ Child và St John the Baptist chắc chắn là của Raphael, trong khi hình ảnh của St Joseph thì không.
Mã nguồn của thuật toán AI đã được Ugail công bố để mọi người có thể tái hiện nghiên cứu. Nghiên cứu tương lai sẽ áp dụng cùng một kỹ thuật cho tác phẩm của các họa sĩ khác.

📌 Bằng việc áp dụng công nghệ AI vào nghiên cứu nghệ thuật, thuật toán AI đã giúp làm sáng tỏ phần nào bức tranh Madonna della Rosa, khẳng định đa phần tác phẩm là của Raphael, mở ra hướng nghiên cứu mới cho việc xác định tác giả các tác phẩm nghệ thuật.

Không có file đính kèm.

Nguồn tham khảo

166

AI ảnh-video-music-âm thanh 2023-12-22 13:12:09

Các nhà nghiên cứu từ Apple tiết lộ DataComp: Bộ dữ liệu cặp văn bản-hình ảnh đột phá 12,8 tỷ để đo điểm chuẩn và phát triển mô hình học máy nâng cao

Các nhà nghiên cứu từ Apple và Đại học Washington giới thiệu DATACOMP, một bộ dữ liệu testbed đa phương tiện bao gồm 12.8 tỷ cặp dữ liệu ảnh và văn bản từ Common Crawl.
Công trình trước đây tập trung vào việc cải thiện hiệu suất mô hình thông qua việc làm sạch dữ liệu, loại bỏ ngoại lệ và chọn core set. DATACOMP giúp giải quyết thách thức từ tính chất độc quyền của các bộ dữ liệu đa phương tiện quy mô lớn, thúc đẩy nghiên cứu data-centric.
DATACOMP là một testbed cho thử nghiệm bộ dữ liệu đa phương tiện, cho phép thiết kế và đánh giá các kỹ thuật lọc mới, cải thiện thiết kế dữ liệu và hiệu suất mô hình đa phương tiện.
Bộ dữ liệu DATACOMP sử dụng mã huấn luyện CLIP chuẩn và thử nghiệm trên 38 tập dữ liệu phụ, cùng kiến trúc ViT được chọn vì xu hướng mở rộng CLIP thuận lợi hơn so với ResNets.
DATACOMP-1B đã cải thiện được 3.7 điểm phần trăm về độ chính xác zero-shot trên ImageNet so với CLIP ViT-L/14 của OpenAI (đạt 79.2%). Bộ dữ liệu và mã nguồn của DATACOMP được công bố để nghiên cứu và thử nghiệm rộng rãi.

📌 DATACOMP mở ra cơ hội mới cho nghiên cứu về bộ dữ liệu đa phương tiện, với 12.8 tỷ cặp ảnh-văn bản từ Common Crawl, cải thiện kỹ thuật lọc và đánh giá dữ liệu, và cung cấp hiểu biết sâu sắc hơn về thiết kế và hiệu suất mô hình đa phương tiện.

Không có file đính kèm.

Nguồn tham khảo

132

AI ảnh-video-music-âm thanh 2023-12-22 13:09:10

Tôi đã thử nghiệm 5 trình tạo hình ảnh AI để xem cái nào tạo ra thiệp Giáng sinh đẹp nhất - đây là người chiến thắng

Bài viết trên Tom's Guide do Christoph Schwaiger viết ngày 21 tháng 12 năm 2023, thử nghiệm 5 trình tạo hình ảnh AI để tìm ra công cụ nào tạo được thiệp Giáng Sinh đẹp nhất.
Các dịch vụ được thử nghiệm bao gồm Stable Diffusion XL, Meta Imagine, DALL-E 3, MidJourney và Adobe Firefly.
Mỗi dịch vụ nhận cùng một yêu cầu: tạo ra hình ảnh một chú gấu trúc mặc trang phục ông già Noel và những chú gấu trúc con mặc trang phục người lùn đang làm việc tại Bắc Cực.
Stable Diffusion XL tạo ra hình ảnh đủ “Giáng Sinh”, nhưng có vấn đề với hình ảnh một chú gấu trúc con.
Meta Imagine có vấn đề tương tự ở góc trên bên trái, hình ảnh không đủ tốt để làm bìa thiệp.
DALL-E 3 được khen ngợi vì tạo ra hình ảnh chính xác và môi trường phù hợp, mặc dù có vấn đề với hình ảnh những con tuần lộc.
MidJourney tạo nên cảm giác Giáng Sinh cổ điển nhưng không đạt tiêu chuẩn “đáng yêu” mà tác giả mong muốn.
Adobe Firefly tạo được hình ảnh gấu trúc đáng yêu và không khí Giáng Sinh, mặc dù có một cây thông Giáng Sinh nhỏ lơ lửng.
Kết quả, tác giả chọn Adobe Firefly làm yêu thích nhất do phong cách vẽ vui nhộn và hòa nhập với tinh thần Giáng Sinh.

📌 Adobe Firefly dẫn đầu trong cuộc thử nghiệm tạo thiệp Giáng Sinh bằng công nghệ AI, với hình ảnh gấu trúc đáng yêu và không khí lễ hội, dù có một số nhỏ lỗi hình ảnh.

Không có file đính kèm.

Nguồn tham khảo

126

AI ảnh-video-music-âm thanh 2023-12-22 13:05:55

Stable Video Diffusion is now available through Stability AI API

Stability AI giới thiệu mô hình mới chuyển đổi từ hình ảnh sang video, Stable Video Diffusion (SVD), qua API riêng.
SVD cho phép phát triển ứng dụng tích hợp khả năng tạo video AI, mục tiêu đa ngành nghề.
SVD gây tranh cãi do dùng dữ liệu LAION-5B, chứa hình ảnh lạm dụng trẻ em, dẫn đến việc dữ liệu này bị gỡ bỏ.
Mô hình SVD cung cấp video 2 giây, 25 khung hình, thời gian tạo trung bình 41 giây.
SVD cạnh tranh với các mô hình của Runway và Pika Labs, nhưng hiện tại chưa qua API.
SVD sẽ có giao diện web cho người dùng và hiện mời tham gia danh sách chờ.
Mô hình mới cho phép tạo video nhiều định dạng và độ phân giải, kiểm soát chuyển động, và tạo ngẫu nhiên hoặc lặp lại.
Stability AI tiếp tục phát triển bất chấp tranh cãi về nguồn dữ liệu và vấn đề bản quyền.

📌 Mô hình Stable Video Diffusion của Stability AI hiện có qua API, cho phép tích hợp tạo video AI vào sản phẩm. Dù có hiệu quả, SVD vẫn đối mặt tranh cãi về nguồn dữ liệu không an toàn và vấn đề bản quyền, nhưng Stability AI không ngừng nỗ lực phát triển công cụ này.

Không có file đính kèm.

Nguồn tham khảo

103

AI so sánh AI ảnh-video-music-âm thanh 2023-12-21 09:23:18

Giữa Midjourney và DALL-E 3, Trình tạo hình ảnh AI nào là tốt nhất

Midjourney và DALL-E 3 đều sử dụng hệ thống nhận dạng văn bản để tạo hình ảnh. Kết quả phụ thuộc vào loại gợi ý bạn đưa ra.
Cả hai sử dụng quy trình gọi là diffusion, bắt đầu từ một trường nhiễu và dần tạo ra hình ảnh.
Kết quả của Midjourney và DALL-E 3 có thể khác nhau tùy thuộc vào cách mỗi mô hình giải mã chỉ dẫn.

Giá cả:

DALL-E 3 là phần của gói đăng ký $20/tháng cho ChatGPT Plus.
Midjourney có nhiều gói giá khác nhau, bắt đầu từ $10/tháng.
DALL-E 3 có thể sử dụng miễn phí thông qua các tính năng Copilot của Microsoft.

Sử dụng:

DALL-E 3 dễ sử dụng hơn, có sẵn qua API và hoạt động trực tiếp với ChatGPT.
Midjourney hoạt động thông qua Discord, yêu cầu tài khoản Discord để tạo hình ảnh.

Sức mạnh:

Midjourney cho phép điều chỉnh hình ảnh nhiều hơn, là lựa chọn mạnh mẽ hơn.
DALL-E 3 không giỏi tạo biến thể như Midjourney.

Sử dụng thương mại:

Cả Midjourney và DALL-E 3 đều cho phép sử dụng thương mại hình ảnh.
Midjourney cung cấp tự do hơn, trong khi DALL-E 3 hạn chế hơn về nội dung theo chính sách sử dụng của nó.

Nhược điểm:

Midjourney: Nếu không mua gói $60/tháng, hình ảnh của bạn sẽ được thêm vào bộ sưu tập công cộng của Midjourney.
DALL-E 3: Thiếu các tùy chọn điều khiển mà Midjourney cung cấp và không có gói đăng ký riêng biệt.

📌Midjourney mạnh mẽ và linh hoạt hơn nhưng đi kèm với giá cao. DALL-E 3 dễ sử dụng hơn và có sẵn miễn phí ở một số nơi. Nếu mới làm quen với tạo hình ảnh AI, hãy thử DALL-E 3; nếu muốn tạo hình ảnh chất lượng cao với nhiều tự do, Midjourney là lựa chọn tốt nhất.

Không có file đính kèm.

Nguồn tham khảo

157

AI ảnh-video-music-âm thanh 2023-12-20 15:47:26

NGƯỜI MẪU DO AI TẠO RA GÂY LO NGẠI TRONG NGÀNH NHIẾP ẢNH

Bài viết từ Cryptopolitan nêu lên mối quan tâm về việc sử dụng mô hình AI trong ngành công nghiệp nhiếp ảnh.
Đề cập đến sự lo lắng rằng AI có thể thay thế nhiếp ảnh gia trong việc chụp và chỉnh sửa ảnh.
Bài viết cũng thảo luận về cách AI có thể tạo ra hình ảnh tự động, gây ra vấn đề về đạo đức và sáng tạo.
Nêu bật sự cần thiết của việc cân nhắc giữa việc sử dụng AI và bảo vệ nghệ thuật và kỹ năng của nhiếp ảnh gia.
Đề cập đến sự thách thức trong việc đảm bảo rằng AI không làm mất đi tính độc đáo và cá nhân của nhiếp ảnh.
Bài viết kết luận rằng mặc dù AI mang lại tiện ích, cần phải có sự cân nhắc kỹ lưỡng về ảnh hưởng của nó đối với ngành nhiếp ảnh.

📌 Mối quan tâm về việc sử dụng AI trong ngành nhiếp ảnh được thể hiện qua lo lắng về việc thay thế nhiếp ảnh gia và ảnh hưởng đến tính sáng tạo, đòi hỏi cần cân nhắc kỹ lưỡng về việc sử dụng công nghệ này.

Không có file đính kèm.

Nguồn tham khảo

106

AI đạo đức AI ảnh-video-music-âm thanh 2023-12-20 15:31:12

BỘ DỮ LIỆU ĐÀO TẠO AI CHỨA ĐỰNG MỨC ĐỘ ĐÁNG LO NGẠI CỦA TÀI LIỆU LẠM DỤNG TÌNH DỤC TRẺ EM

Nghiên cứu mới từ Stanford Internet Observatory (SIO) phát hiện hàng trăm hình ảnh lạm dụng tình dục trẻ em trong bộ dữ liệu mở LAION-5B.
Bộ dữ liệu này được sử dụng để huấn luyện các mô hình AI sinh hình ảnh từ văn bản, bao gồm Stable Diffusion, có nguy cơ tạo ra vấn đề đạo đức.
Các nhà nghiên cứu đã nhanh chóng báo cáo các URL chứa hình ảnh lạm dụng cho Trung tâm Dành cho Trẻ Em Mất Tích và Bị Lạm dụng Quốc gia (NCMEC) ở Mỹ và Trung tâm Bảo vệ Trẻ em Canada (C3P).
Công cụ như PhotoDNA giúp xác định hình ảnh lạm dụng, nhưng việc làm sạch dữ liệu mở gặp khó khăn do thiếu cơ quan quản lý trung tâm.
Báo cáo đưa ra khuyến nghị về an toàn khi thu thập và xử lý bộ dữ liệu, đề xuất sự hợp tác với các tổ chức bảo vệ trẻ em.
Sự việc khiến cộng đồng AI cần xem xét lại tiêu chuẩn đạo đức và áp dụng biện pháp an toàn đã đề xuất để phát triển công nghệ AI một cách trách nhiệm và đạo đức.

📌 Cuộc điều tra của SIO là hồi chuông cảnh tỉnh cho cộng đồng AI về tầm quan trọng của việc kiểm soát chặt chẽ nguồn dữ liệu huấn luyện. Việc hợp tác với các tổ chức bảo vệ trẻ em và áp dụng công nghệ phát hiện nâng cao là cần thiết để đảm bảo sự phát triển công nghệ AI không làm tổn hại đến xã hội.

Không có file đính kèm.

Nguồn tham khảo

167

AI ảnh-video-music-âm thanh 2023-12-20 15:26:39

Apple tạo ra công cụ HUGS AI mới có thể chuyển đổi video thành hình đại diện nhảy múa trong vài phút

Apple giới thiệu dự án nghiên cứu HUGS, công cụ AI tạo sinh có thể biến clip video người dùng thành avatar nhảy múa chỉ trong vài phút.
HUGS sẽ hỗ trợ hệ sinh thái thực tế hỗn hợp Apple Vision trong tương lai; không dành ngay lập tức cho ứng dụng cụ thể.
Apple đã công bố phương pháp học máy HUGS có thể quét hình ảnh người thật, tạo avatar từ footage, đặt vào môi trường ảo.
Đột phá của Apple là tạo nhân vật từ ít nhất 50 khung hình video và thực hiện trong khoảng 30 phút, nhanh hơn các phương pháp khác.
Avatar có thể được sử dụng trong các cảnh hoặc môi trường khác, được điều khiển theo ý muốn của người dùng, thậm chí tạo video nhảy mới.
HUGS hứa hẹn cho phép người dùng tải video của mình và biến thành nhân vật có thể sử dụng trong trò chơi.
HUGS chưa sẵn sàng cho người tiêu dùng và hiện chỉ là một bản nghiên cứu của Apple.
Công nghệ có thể được giới thiệu tại WWDC 2024 cho các nhà phát triển Apple, hỗ trợ xây dựng ứng dụng cho Vision Pro.

📌 Apple HUGS là minh chứng cho sự đổi mới không ngừng nghỉ trong công nghệ AI tạo sinh, đánh dấu bước tiến lớn trong việc tạo avatar số và tương tác thực tế ảo, mặc dù vẫn trong giai đoạn nghiên cứu sơ khai.

Không có file đính kèm.

Nguồn tham khảo

124

AI đạo đức AI ảnh-video-music-âm thanh AI data AI deepfake-ảo giác-ANTT 2023-12-20 10:13:59

THÀNH KIẾN CHỦNG TỘC VÔ THỨC: TẠI SAO AI LẠI THẤT BẠI VỀ MÀU SẮC

AI hiện nay có khả năng tạo ra hình ảnh siêu thực đến mức khó phân biệt với người thật.
Trong nghiên cứu, người tham gia đều là người da trắng đã phải phân biệt giữa 100 hình ảnh thực và do AI tạo ra.
Một số hình ảnh do AI tạo ra được nhận định là "real" hơn cả hình ảnh thực của con người.
Nghiên cứu tiết lộ rằng AI có xu hướng tạo ra hình ảnh người da trắng chân thực hơn so với người da màu.
Sự thiên vị không ý thức này bắt nguồn từ việc thiếu dữ liệu đào tạo đa dạng và thuật toán chủ yếu dựa trên hình ảnh người da trắng.
Amy Dawel lo ngại rằng điều này có thể làm trầm trọng thêm các vấn đề xã hội, củng cố định kiến tiêu cực và tăng cường độ phơi nhiễm của quan điểm sai lệch về người da màu.
Một mối quan ngại khác là sự gia tăng của deepfakes, như thể hiện qua việc nhiều người tin rằng hình ảnh do AI tạo ra là "thật".
Dawel bày tỏ lo lắng về nguy cơ bị lừa dối bởi hình ảnh giả mạo nếu chúng rơi vào tay sai.
Cô cũng nhấn mạnh rằng nhiều AI hiện nay không minh bạch và ngành công nghiệp AI đang nhận được đầu tư lớn trong khi nguồn lực để giám sát chúng lại rất hạn chế.

📌 AI thất bại trong việc tạo hình ảnh người da màu một cách chân thực do thiếu dữ liệu huấn luyện đa dạng và hiện tượng này có nguy cơ làm tăng cường các định kiến xã hội và việc phát triển deepfakes, theo nghiên cứu của Amy Dawel.

Không có file đính kèm.

Nguồn tham khảo

140

AI ảnh-video-music-âm thanh 2023-12-20 10:10:54

AARDMAN'S CHICKEN RUN 2 CHỨNG TỎ SỨC BỀN CỦA NGHỆ THUẬT TRƯỚC SỰ TRỖI DẬY CỦA AI

Chicken Run: Dawn of the Nugget" của Aardman làm sáng tỏ giá trị bền bỉ của nghệ thuật trong bối cảnh AI phát triển.
Aardman nổi tiếng với phim hoạt hình stop-motion và những nhân vật đáng yêu, bộ phim tiếp nối sau 23 năm đạt doanh thu kỷ lục.
Việc tạo ra các cảnh quay stop-motion mất nhiều thời gian và công sức, ví dụ như cảnh mở đầu 30 giây mất 18 tuần để quay.
Aardman đã vượt qua nhiều thách thức như hỏa hoạn, lũ lụt và đại dịch COVID-19, nhưng vẫn kiên trì với phong cách nghệ thuật truyền thống.
Dù công nghệ AI mang lại sự thuận tiện, Aardman vẫn chứng minh giá trị của sự cảm nhận được và nỗ lực thực sự trong từng sản phẩm nghệ thuật.
Họ không chối bỏ công nghệ mới nhưng luôn giữ gìn bản chất của những mô hình đất sét, thậm chí cả dấu vân tay còn in hằn trên chúng.
Sự không hoàn hảo và giới hạn của phương tiện làm nên giá trị của nghệ thuật, mà AI không thể sao chép.
"Chicken Run: Dawn of the Nugget" khẳng định nghệ thuật vẫn giữ một vị trí quan trọng trong thời đại AI, với sự cam kết của Aardman đối với nghề thủ công và lao động có thể cảm nhận được trong từng bộ phim của họ.

📌 Dù AI mang đến nhiều tiện ích, "Chicken Run: Dawn of the Nugget" của Aardman khẳng định rằng nghệ thuật thủ công với những giới hạn và không hoàn hảo vẫn có giá trị riêng và không thể thay thế, đồng thời chứng minh rằng nghệ thuật sẽ tiếp tục tồn tại và phát triển cùng công nghệ.

Không có file đính kèm.

Nguồn tham khảo

142

AI ảnh-video-music-âm thanh 2023-12-20 10:04:16

Phóng viên công nghệ nhận thấy AI vẫn không thể thay thế con người khi thiết kế thiệp Giáng sinh: 'Heppy Christmas'

Bài báo đề cập đến Tom Acres, phóng viên kỹ thuật của Sky News, đã thử nghiệm với các công cụ AI như ChatGPT, Google's Bard và Stable Diffusion để tạo thiệp Giáng Sinh.
Anh yêu cầu Stable Diffusion tạo ảnh Taylor Swift với một chiếc boombox trong đêm tuyết rơi, nhưng ảnh có nhiều khuyết điểm kỳ quái như ngón tay dính liền và miệng giống hình nutcracker.
DALL-E 3 của OpenAI khi tạo thiệp có chữ "Heppy Christmas" cùng hình ảnh cầu thủ Arsenal bị biến dạng khuôn mặt đã cho thấy kết quả còn nhiều hạn chế.
ChatGPT, có khả năng truy cập thông tin cập nhật từ internet, cũng được thử nghiệm để viết bài hát về ảnh hưởng của AI trong dịp lễ, nhưng sản phẩm không làm Acres hài lòng.
Bài viết còn đề cập đến các vấn đề khác về AI trong thời gian gần đây, từ việc liệu AI có thể thông minh như con người hay không, đến việc sử dụng công nghệ OpenAI trong thời trang.

📌 Phóng viên kỹ thuật Tom Acres từ Sky News đã phát hiện ra rằng AI hiện vẫn chưa thể thay thế hoàn toàn con người trong việc thiết kế thiệp Giáng sinh, viết bài hát mừng lễ hay tạo danh sách mua sắm tùy chỉnh. Công cụ AI như Stable Diffusion và DALL-E 3 cho thấy những hạn chế rõ ràng khi tạo ra các hình ảnh có nhiều sai sót. Mặc dù có khả năng truy cập thông tin từ internet, nhưng ChatGPT cũng không thể tạo ra một bài hát Giáng sinh thuyết phục, cho thấy AI vẫn còn xa mới có thể cạnh tranh với sự sáng tạo của con người.

Không có file đính kèm.

Nguồn tham khảo

154

AI ảnh-video-music-âm thanh 2023-12-20 09:15:54

Giờ đây, bạn có thể tạo các bài hát AI của riêng mình bằng chatbot AI Copilot của Microsoft

Microsoft đã hợp tác cùng startup âm nhạc AI Suno đến từ Cambridge để cho phép người dùng tạo ra các bài hát AI ngay lập tức thông qua chatbot Copilot của Microsoft.
Người dùng chỉ cần đăng nhập vào tài khoản và kích hoạt plug-in Suno hoặc chọn tùy chọn "Make music with Suno" trên Discord để bắt đầu quá trình sáng tạo âm nhạc.
Để tạo một bản nhạc, người dùng sẽ cung cấp một đoạn văn bản ngắn gọn, thường là một hoặc hai dòng, mô tả ý tưởng cho bài hát mà họ muốn tạo.
Suno sẽ nhanh chóng tạo ra một bản nhạc gốc, thường kéo dài một hoặc hai phút, cùng với bản transcript của lời bài hát.
Các công cụ AI tạo sinh âm nhạc đang trở thành xu hướng khi các công ty công nghệ lớn như Meta và Google cũng đang phát triển công cụ tương tự dựa trên các lời nhắc văn bản hoặc giai điệu được ngân nga.
Đối với người dùng tier miễn phí của Suno, việc thương mại hóa các bài hát AI trên các nền tảng như YouTube hoặc Spotify không được phép. Người dùng trả phí sẽ nhận được quyền thương mại hóa các sáng tác của họ.
Suno giữ quyền sở hữu đối với các bài hát được tạo ra bởi người dùng miễn phí, nhưng việc chia sẻ trên các nền tảng xã hội hoặc sử dụng không thương mại vẫn được cho phép.
Sự hợp tác giữa Copilot của Microsoft và Suno mở đầu một kỷ nguyên mới với khả năng tiếp cận và sáng tạo âm nhạc được hỗ trợ bởi thuật toán, là bước nhảy vọt tiếp theo trong khả năng sáng tạo do AI thúc đẩy.

🎶 Sự hợp tác giữa Microsoft Copilot và Suno AI mở ra cánh cửa mới cho việc sáng tạo âm nhạc dựa trên AI, nơi người dùng có thể tạo nên các bản nhạc độc đáo với sự hỗ trợ của công nghệ thú vị này, và khám phá thêm tiềm năng của AI trong lĩnh vực nghệ thuật.

Không có file đính kèm.

Nguồn tham khảo

157

AI ảnh-video-music-âm thanh 2023-12-20 09:11:26

NGHIÊN CỨU CHO THẤY CHATGPT LÀ CÔNG CỤ AI ĐƯỢC CÁC NHẠC SĨ SỬ DỤNG NHIỀU NHẤT

Bài viết bàn về một nghiên cứu cho thấy ChatGPT là công cụ AI được sử dụng nhiều nhất bởi các nhạc sĩ.
Nghiên cứu chỉ ra rằng ChatGPT giúp nhạc sĩ trong việc sáng tác lời bài hát, phát triển ý tưởng âm nhạc và thậm chí hỗ trợ trong quá trình sản xuất.
Đề cập đến việc ChatGPT không chỉ là công cụ hỗ trợ sáng tạo mà còn giúp giải quyết các vấn đề kỹ thuật và học tập trong lĩnh vực âm nhạc.
Bài viết nêu bật cách mà ChatGPT có thể tương tác với người dùng một cách tự nhiên, tạo ra một trải nghiệm sáng tạo mượt mà hơn.
Ngoài ra, nghiên cứu cũng chỉ ra rằng ChatGPT được sử dụng để tạo ra các loại nội dung khác như quảng cáo và bài viết.
Cuối cùng, bài viết kết luận rằng sự linh hoạt và khả năng tương tác cao của ChatGPT làm nó trở thành một công cụ không thể thiếu cho các nhạc sĩ trong thời đại kỹ thuật số.

📌 ChatGPT trở thành công cụ AI hàng đầu cho các nhạc sĩ, với khả năng hỗ trợ sáng tạo, giải quyết vấn đề kỹ thuật và tạo ra trải nghiệm sáng tạo tự nhiên, làm nó trở thành một công cụ quan trọng trong ngành công nghiệp âm nhạc.

Không có file đính kèm.

Nguồn tham khảo

170

AI ảnh-video-music-âm thanh 2023-12-20 08:12:50

Google công bố VideoPoet, LLM mới dành cho tạo video

Google giới thiệu VideoPoet, một mô hình ngôn ngữ lớn (LLM) mới cho việc tạo video.
VideoPoet được thiết kế để tạo ra video từ mô tả văn bản, mở ra khả năng tương tác mới trong lĩnh vực multimodal.
Mô hình này sử dụng công nghệ AI tiên tiến để chuyển đổi văn bản thành hình ảnh và video, tạo ra nội dung đa dạng và phong phú.
Điểm đặc biệt của VideoPoet là khả năng hiểu và diễn dịch các mô tả phức tạp, từ đó tạo ra video chất lượng cao phù hợp với yêu cầu.
Google hy vọng VideoPoet sẽ mở ra các cơ hội mới trong việc tạo nội dung số, quảng cáo, giáo dục và giải trí.

🎥 VideoPoet của Google đánh dấu một bước tiến trong công nghệ AI tạo sinh, giúp biến văn bản thành video phong phú và chất lượng cao. Sự kết hợp giữa AI và multimodal sẽ mở ra không gian sáng tạo mới cho các nhà sản xuất nội dung, đặc biệt trong lĩnh vực quảng cáo và giáo dục.

Không có file đính kèm.

Nguồn tham khảo

178

AI models AI ảnh-video-music-âm thanh 2023-12-19 09:23:44

Nghiên cứu AI của ByteDance giới thiệu StemGen: Mô hình học sâu về thế hệ âm nhạc từ đầu đến cuối được đào tạo để nghe bối cảnh âm nhạc và phản hồi phù hợp

Bài viết trên MarkTechPost giới thiệu StemGen, mô hình học sâu mới của ByteDance AI Research, chuyên về tạo ra âm nhạc.
StemGen được đào tạo để lắng nghe bối cảnh âm nhạc và phản hồi phù hợp, mang lại khả năng sáng tác âm nhạc độc đáo.
Mô hình này sử dụng kỹ thuật học sâu để phân tích và tạo ra các đoạn nhạc theo yêu cầu cụ thể.
StemGen có thể hỗ trợ nghệ sĩ trong quá trình sáng tác, cung cấp ý tưởng và phong cách âm nhạc mới.
Mô hình còn giúp tự động hóa quá trình sản xuất âm nhạc, giảm thiểu thời gian và công sức.
Bài viết cũng đề cập đến khả năng của StemGen trong việc tạo ra âm nhạc phù hợp với các sự kiện và môi trường cụ thể.
Có những thách thức về bản quyền và sáng tạo khi sử dụng AI trong tạo ra âm nhạc.

Bài viết từ MarkTechPost mô tả StemGen của ByteDance AI Research, một mô hình học sâu tạo ra âm nhạc, có khả năng lắng nghe và phản hồi bối cảnh âm nhạc, hỗ trợ nghệ sĩ trong sáng tác và tự động hóa sản xuất âm nhạc, mặc dù vẫn tồn tại thách thức về bản quyền và sáng tạo.

Không có file đính kèm.

Nguồn tham khảo

226

AI models AI ảnh-video-music-âm thanh 2023-12-19 09:09:36

Google AI đề xuất PixelLLM: Mô hình ngôn ngữ tầm nhìn có khả năng bản địa hóa chi tiết và căn chỉnh ngôn ngữ tầm nhìn

Bài viết trên MarkTechPost giới thiệu PixelL-LM, mô hình ngôn ngữ hình ảnh mới của Google AI.
PixelL-LM có khả năng xác định vị trí tinh tế và căn chỉnh ngôn ngữ-hình ảnh.
Mô hình kết hợp hiệu quả giữa xử lý ngôn ngữ tự nhiên và nhận dạng hình ảnh.
Sử dụng kỹ thuật học sâu để phân tích và hiểu hình ảnh dựa trên mô tả ngôn ngữ.
PixelL-LM cải thiện đáng kể khả năng tương tác giữa máy tính và người dùng thông qua hình ảnh và ngôn ngữ.
Mô hình này có tiềm năng trong nhiều lĩnh vực như y tế, an ninh và giáo dục.
Bài viết cũng đề cập đến những thách thức liên quan đến độ chính xác và độ tin cậy của mô hình.

Bài viết từ MarkTechPost giới thiệu PixelL-LM của Google AI, một mô hình ngôn ngữ hình ảnh tiên tiến với khả năng xác định vị trí và căn chỉnh ngôn ngữ-hình ảnh một cách tinh tế, mở ra nhiều ứng dụng tiềm năng trong các ngành như y tế và giáo dục.

Không có file đính kèm.

Nguồn tham khảo

158

AI nghệ thuật AI ảnh-video-music-âm thanh 2023-12-18 15:50:20

Diễn viên AI đầu tiên của Trung Quốc ra mắt

Lili Ziren, diễn viên AI đầu tiên của Trung Quốc, đã xuất hiện trong series truyền hình "I Am Nobody" được sản xuất bởi Tencent Animation and Comics và phân phối bởi Youku.
Lili có vẻ ngoài tự nhiên, chuyển động sống động và đã thu hút hàng trăm nghìn người hâm mộ trên các nền tảng truyền thông xã hội của Trung Quốc.
Tạo ra Lili chỉ mất một tuần làm việc, không phải là bản sao của diễn viên thực tế mà là kết quả của công việc hậu kỳ và người đóng thế.
Một số người dùng internet đã so sánh cô với ngôi sao Trung Quốc Angelababy và vận động viên trượt tuyết Eileen Gu.
AI diễn viên như Lili được coi là hấp dẫn do khả năng tránh được các bê bối, như đã thấy trong trường hợp thay thế khuôn mặt diễn viên trong phim "Love of Thousand Years" năm 2020.
Công nghiệp AI Trung Quốc phát triển mạnh, với sự đầu tư từ các công ty lớn như Alibaba, Baidu và Tencent trong việc phát triển mô hình AI quy mô lớn.
Các video về ngành công nghiệp AI và sự nổi lên của avatars AI số ở Trung Quốc nhận được hàng nghìn lượt thích trực tuyến.
AI streamers có khả năng nói nhiều ngôn ngữ và tương tác với bình luận của người dùng trong thời gian thực, với khả năng nói tới 129 ngôn ngữ.
Quy định của Trung Quốc về AI bao gồm yêu cầu công khai việc sử dụng AI và hệ thống gắn nhãn riêng của các ứng dụng như Douyin và Bilibili.

Lili Ziren không chỉ là minh chứng cho sự tiến bộ kỹ thuật trong ngành công nghiệp giải trí Trung Quốc mà còn là biểu tượng của một thị trường AI đang nở rộ. Khả năng tạo ra các nhân vật hư cấu nhưng lại có sức hút mạnh mẽ trên mạng xã hội, cùng với việc tránh được rắc rối từ các bê bối cá nhân, cho thấy tiềm năng lớn trong việc ứng dụng AI vào lĩnh vực giải trí. Đồng thời, quy định và chính sách của Trung Quốc đối với việc quản lý AI cũng phản ánh nhu cầu cấp thiết về việc quản lý công nghệ này trên toàn cầu.

Không có file đính kèm.

Nguồn tham khảo

213

AI ảnh-video-music-âm thanh AI so sánh 2023-12-17 06:24:00

Gã khổng lồ công nghệ Trung Quốc Alibaba tiết lộ công cụ video AI mới

- Alibaba Cloud, một chi nhánh của tập đoàn Alibaba, đã công bố công cụ AI mới I2VGen-XL, có khả năng chuyển đổi văn bản thành video.

- Mô hình I2VGen-XL sử dụng kỹ thuật cascaded diffusion để tạo video có độ chính xác ngữ nghĩa cao và mạch lạc về mặt nội dung.

- Video được tạo ra ở độ phân giải lên đến 1280x720 pixels.

- Để đào tạo mô hình, Alibaba Cloud đã sử dụng 35 triệu cặp văn bản-video và 6 tỷ cặp văn bản-hình ảnh.

- Việc phát triển mô hình này diễn ra trong bối cảnh cạnh tranh công nghệ AI toàn cầu, đặc biệt giữa Mỹ và Trung Quốc, với các hạn chế thương mại và nỗ lực tự cường công nghệ.

Kết luận: Công cụ I2VGen-XL của Alibaba Cloud đánh dấu bước tiến quan trọng trong cuộc đua AI toàn cầu, với việc sử dụng dữ liệu lớn gồm 35 triệu cặp văn bản-video và 6 tỷ cặp văn bản-hình ảnh để tạo ra video có độ chính xác cao, góp phần cạnh tranh trong lĩnh vực AI giữa Mỹ và Trung Quốc.

Không có file đính kèm.

Nguồn tham khảo

389

AI nghệ thuật AI ảnh-video-music-âm thanh AI prompts AI tips AI kiến thức-khóa học 2023-12-17 03:38:30

5 cách đơn giản để sử dụng Midjourney trong thiết kế giao diện người dùng cho người mới bắt đầu

- Midjourney là công cụ AI tạo sinh hỗ trợ thiết kế UI dành cho người mới.

- Tạo prototype UI nhanh chóng bằng cách mô tả chức năng và phong cách mong muốn để Midjourney tạo ra các biến thể.

- Tạo biến thể cho chế độ tối (Dark mode), điều chỉnh màu sắc và độ tương phản để đảm bảo độ đọc và hài hòa về mặt thị giác.

- Thử nghiệm tỉ lệ khung hình (Aspect ratio experimentation) để tối ưu hoá giao diện cho nhiều kích thước màn hình khác nhau.

- Sử dụng AI để tạo ra các hành trình người dùng cá nhân hoá, cải thiện sự tương tác và trải nghiệm người dùng.

- Công cụ này cũng hỗ trợ tạo ra các mô hình thực tế để xem trước giao diện trên các thiết bị cụ thể.

Kết luận: Bài viết trên AMBCrypto cung cấp một hướng dẫn chi tiết về cách thức sử dụng Midjourney để thiết kế giao diện người dùng. Các phương pháp bao gồm việc nhanh chóng tạo ra các prototype, điều chỉnh cho chế độ tối, thử nghiệm tỉ lệ khung hình để tối ưu hóa giao diện cho mọi thiết bị, và tạo ra các hành trình người dùng cá nhân hoá. Midjourney mang lại khả năng thực hiện nhiều quy trình thiết kế mà không cần mã nguồn mở hay kiến thức sâu về multimodal, giúp cho người mới có thể dễ dàng tiếp cận và sáng tạo giao diện hiệu quả.

Không có file đính kèm.

Nguồn tham khảo

213

AI ảnh-video-music-âm thanh 2023-12-17 02:42:13

Trình chỉnh sửa hình ảnh AI mới của Instagram khiến cuộc sống của bạn trông thú vị hơn thực tế

- Meta đang tăng cường tích hợp công cụ AI vào nền tảng mạng xã hội, với tính năng mới trên Instagram cho phép tạo hình nền AI trong Stories.

- Tính năng mới hiện được triển khai ở Mỹ, chưa rõ ngày có mặt ở các quốc gia khác.

- Người dùng có thể tạo hình nền AI bằng cách nhập lệnh như "Surrounded by puppies" hoặc "On the edge of an erupting volcano".

- Khi chia sẻ sáng tạo AI, một thủy vân "Try it" sẽ xuất hiện trên Story, giúp người theo dõi dễ dàng thử nghiệm công cụ chỉnh sửa.

- Ngoài ra, Meta cũng đã giới thiệu Gen AI Personas, một loạt chatbots AI, trong đó có các nhân vật nổi tiếng như Kendall Jenner, Paris Hilton và cả nhân vật Bender từ Futurama.

Kết luận: Meta đang nỗ lực đưa công nghệ AI vào nền tảng của mình, với tính năng chỉnh sửa hình ảnh AI mới trên Instagram là một bước tiến đáng chú ý. Tính năng này hiện đã có mặt ở Mỹ và cho phép người dùng tạo hình nền độc đáo cho Stories của họ. Sự đổi mới này không chỉ mang lại trải nghiệm mới mẻ cho người dùng mà còn chứng minh sức mạnh của AI trong việc tạo sinh nội dung đa dạng và cá nhân hóa.

Không có file đính kèm.

Nguồn tham khảo

215

AI ảnh-video-music-âm thanh 2023-12-16 06:21:14

10 công cụ chỉnh sửa ảnh AI mà bất cứ ai cũng có thể sử dụng - Làm mờ, khử nhiễu và tô màu cho hình ảnh B&W của bạn

- Tóm tắt nội dung bài viết về các công cụ chỉnh sửa ảnh AI:

- Chỉnh sửa ảnh là công cụ hữu ích, AI giúp tăng khả năng chỉnh sửa ảnh.

- REMINI giúp làm mờ, làm sắc nét ảnh bị mờ. CUTOUT tô màu cho ảnh đen trắng.

- MEDIA.IO cải thiện chất lượng ảnh với AI. FOTOR khôi phục và tô màu ảnh cũ.

- PICWISH giúp làm mờ ảnh. VANCEAI khôi phục ảnh cũ bị hư hại.

- PICSART làm mờ và tăng độ phân giải ảnh. YOUCAM cho ảnh đen trắng hiệu ứng màu.

- BEFUNKY chỉnh sửa ảnh với AI. DEEPAI tô màu và hiện đại hóa ảnh cũ.

- Các công cụ này giúp chỉnh sửa ảnh dễ dàng cho mọi người.

Không có file đính kèm.

Nguồn tham khảo

AI ảnh-video-music-âm thanh 2023-12-16 06:01:55

Trình tạo hình ảnh AI được cập nhật của Google trông cực kỳ mạnh mẽ

- Tóm tắt nội dung bài viết về công cụ tạo ảnh AI Imagen 2 của Google:

- Imagen 2 là thế hệ thứ 2 của công cụ tạo ảnh AI của Google, cho chất lượng hình ảnh cao hơn.

- Có thể hiểu các câu lệnh dài và mô tả chi tiết hơn nhờ kỹ thuật huấn luyện và mô hình mới.

- Có khả năng tạo văn bản và logo trừu tượng, ghép chữ lên ảnh.

- Hỗ trợ nhiều ngôn ngữ: tiếng Trung, Hindi, Nhật, Hàn, Bồ Đào Nha, Tây Ban Nha.

- Có thể tạo ảnh chân thực với ánh sáng và bóng râm tốt hơn so với các công cụ khác.

- Sử dụng công nghệ SynthID để đánh dấu nước ảnh do Imagen 2 tạo ra.

Không có file đính kèm.

Nguồn tham khảo

101

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

AI ảnh-video-music-âm thanh

India to focus on voice-first vernacular LLMs: AI Mission CEO

Abhishek Singh, chief executive of India AI Mission, said that India’s AI Mission is betting on voice-first large language models in Indian languages as its differentiating edge over global tech giants.

Leaning on language data

Public service apps

Netflix Using Startup Runway AI’s Video Tools for Production

UBS triển khai nhân bản nhà phân tích AI khi khách hàng lựa chọn nghiên cứu dưới dạng video

Lỗi AI về cờ Jalur Gemilang của Malaysia khơi dậy lòng tự hào dân tộc và tranh cãi

AI errors over Malaysia’s Jalur Gemilang flag spark national pride and controversy

AI đang tiến vào lĩnh vực âm nhạc

Các mô hình AI khuếch tán mới tạo ra bài hát từ đầu đang làm phức tạp định nghĩa của chúng ta về quyền tác giả và sáng tạo con người.

Tạo kết nối

Hình ảnh âm nhạc

Tính mới lạ và bắt chước

Hình nhân AI tràn ngập mạng xã hội (bao gồm cả phụ kiện)

Giới hạn của AI trong việc bắt chước Miyazaki

Hình ảnh AI phong cách Ghibli lan truyền mạnh mẽ khi OpenAI nới lỏng quy định

SEO contents

Meta descriptions

Meta keywords

Interesting and shocked SEO title

Tóm tắt chi tiết

Alibaba Ra Mắt Mô Hình Video AI Mã Nguồn Mở Tiên Tiến, Ngay Lập Tức Bị Biến Thành Cỗ Máy Tạo Nội Dung Khiêu Dâm

AI Video Mã Nguồn Mở Bị Lợi Dụng Chỉ Sau 24 Giờ

Cách Civitai Đối Phó Với Nội Dung Khiêu Dâm AI

Sự thật về "Arrival of a Train"

Sora và những lỗi của AI

Một tương lai cần thích nghi với sự thật AI

Hands on with Project Astra

Mixing it up

Bài viết của Jose Antonio Lanz

Công nghệ tiên tiến

Miễn phí cho mọi người

Hiệu năng ban đầu

Free for the masses

Follow Us

Tin phổ biến

TAG