Gemini Diffusion gây sốc tại Google I/O 2025: nhanh gấp 5 lần, có thể định hình lại cuộc chiến AI

 

  • Gemini Diffusion được Google DeepMind giới thiệu tại Google I/O 2025, là một mô hình ngôn ngữ lớn (LLM) nghiên cứu sử dụng kỹ thuật khuếch tán, có tốc độ tạo nội dung từ 1.000 đến 2.000 tokens/giây – nhanh gấp 4 đến 5 lần so với mô hình Gemini mạnh nhất hiện có của Google.

  • Khả năng tạo mã và suy luận toán học phức tạp của Gemini Diffusion rất ấn tượng, được Google tuyên bố là “tốc độ vượt trội so với mô hình nhanh nhất trước đó trong khi vẫn giữ hiệu suất mã hóa tương đương”.

  • Mô hình này có thể là lợi thế cạnh tranh lớn của Google trong cuộc chiến với OpenAI, Anthropic, Meta, Alibaba và DeepSeek, đặc biệt trong lĩnh vực tác nhân mã hóa tự động – nơi mà tốc độ quan trọng hơn câu trúc ngôn ngữ.

  • Phương pháp diffusion khác biệt hoàn toàn với Transformer truyền thống: thay vì tạo từng từ một từ trái sang phải, nó tạo toàn bộ đoạn văn cùng lúc rồi tinh chỉnh dần để tạo ra kết quả mạch lạc, giúp xử lý nhanh hơn.

  • Dù nhanh và linh hoạt, Gemini Diffusion bị giới hạn trong việc tạo văn bản dài hoặc nhiều đoạn, do nó chỉ xử lý được đoạn văn bản có độ dài cố định.

  • Các chuyên gia như Dave Nicholson cho biết hiệu quả thực sự của diffusion sẽ phụ thuộc vào chi phí vận hành so với Transformer. Nếu tiết kiệm tài nguyên hơn, nó có thể thay đổi quyết định của người dùng khi chọn mô hình AI.

  • Tốc độ và tiềm năng đã khiến cộng đồng công nghệ sục sôi trên mạng xã hội, ví mô hình này như “ChatGPT trên steroid”. Tuy nhiên, mô hình vẫn còn giới hạn ở giai đoạn nghiên cứu, chưa có quyền truy cập công khai.

  • Stefano Ermon (Stanford) và Jack Rae (DeepMind) cho rằng đây là “khoảnh khắc bước ngoặt”, củng cố niềm tin rằng diffusion là tương lai của các mô hình AI tạo sinh. Ermon dự đoán “toàn bộ các mô hình tiên phong sẽ chuyển sang diffusion trong vài năm tới”.

  • Mô hình Mercury – một LLM khuếch tán do công ty Ermon phát triển – đã đạt hiệu suất tương đương các mô hình hàng đầu nhưng chạy nhanh hơn gấp 5–10 lần, cho thấy tiềm năng khổng lồ của kỹ thuật này.

📌 Gemini Diffusion tạo dấu ấn tại Google I/O 2025 với tốc độ tạo nội dung từ 1.000–2.000 tokens/giây, nhanh gấp 5 lần LLM truyền thống. Nhờ dùng kỹ thuật diffusion, nó có thể định hình lại cuộc chiến AI, đặc biệt trong lập trình. Dù chưa công khai, các chuyên gia tin rằng tương lai của AI tạo sinh sẽ thuộc về mô hình diffusion.

https://fortune.com/2025/05/21/gemini-diffusion-google-io-sleeper-hit-blazing-speed-ai-model-wars/

 

Gemini Diffusion trở thành hiện tượng bất ngờ của Google I/O và một số người cho rằng tốc độ chóng mặt của mô hình này có thể thay đổi cuộc chiến AI

Tác giả: Sharon Goldman
Ngày: 21 tháng 5, 2025, 5:54 PM EDT

Giữa dòng thông báo liên quan đến AI tại hội nghị nhà phát triển Google I/O hôm thứ Ba, một cuộc demo ngắn mặc dù không nhận được nhiều thời gian trên sân khấu nhưng đã khiến giới chuyên gia AI xôn xao.

Gemini Diffusion, một LLM nghiên cứu thử nghiệm từ Google DeepMind, có tốc độ đầu ra cực nhanh (từ 1.000 đến 2.000 "token" hoặc đoạn văn bản mỗi giây, nhanh gấp 4 đến 5 lần so với LLM công khai mạnh nhất của Gemini). Mô hình cũng có hiệu suất tuyệt vời, đặc biệt trong các lĩnh vực như lập trình và suy luận toán học phức tạp.

Theo một bài blog ngắn, Google cho biết cuộc demo thử nghiệm Gemini Diffusion "tạo ra nội dung nhanh hơn đáng kể so với mô hình nhanh nhất của chúng tôi cho đến nay, đồng thời duy trì hiệu suất lập trình tương đương". Hiện có danh sách chờ để truy cập phiên bản nghiên cứu.

Một số người cho rằng nếu Google có thể mở rộng Gemini Diffusion ra ngoài phạm vi demo nghiên cứu, mô hình này có thể thay đổi cuộc chiến AI đang diễn ra giữa Google, OpenAI, Anthropic, Meta và các đối thủ Trung Quốc như Alibaba và DeepSeek. Ví dụ, các agent lập trình tự động hiện là một trong những chiến trường chính; Gemini Diffusion công khai có thể đảo lộn sân chơi theo hướng có lợi cho Google, giúp công ty này giành được khách hàng cho agent lập trình mới Jules.

Cũng còn những câu hỏi mở về chi phí mô hình, phụ thuộc vào lượng sức mạnh tính toán mà kỹ thuật diffusion yêu cầu. Đối với một số tác vụ như tạo mã máy tính, diffusion sẽ đơn giản là hiệu quả hơn, Dave Nicholson, chuyên gia phân tích chính tại Futurum Group cho biết. "Tất cả sẽ được đo lường so với chi phí vận hành của từng mô hình", ông giải thích. Khi chi phí thực tế được phản ánh trong giá cả (điều này chưa nhất thiết đúng hiện tại khi các công ty AI và nhà đầu tư đang cạnh tranh thị phần), khách hàng sẽ trở nên chọn lọc hơn trong việc lựa chọn mô hình phù hợp nhất cho từng tác vụ cụ thể, Nicholson nói.

Ngoài sự háo hức đơn thuần về việc tiếp cận mô hình mới, sự phấn khích còn xuất phát từ kỹ thuật "diffusion" mà mô hình này dựa trên. Diffusion là một loại LLM khác so với những mô hình được sử dụng trong các sản phẩm như ChatGPT; đây là phương pháp AI đã tạo ra những công cụ tạo ảnh AI phổ biến đầu tiên như DALL-E 2 và Stable Diffusion.

Các mô hình diffusion chuyển đổi nhiễu ngẫu nhiên - những hình ảnh trông giống như tín hiệu nhiễu trên màn hình TV - thành hình ảnh chất lượng cao dựa trên lời nhắc văn bản. Cho đến gần đây, kỹ thuật diffusion, được mô tả giống như điêu khắc hơn là viết, chưa thành công nhiều trong việc tạo văn bản. Thay vì dự đoán văn bản trực tiếp như các LLM truyền thống mà chúng ta đã quen thuộc kể từ khi ChatGPT ra mắt năm 2022, các mô hình diffusion học cách tạo từ và câu bằng cách tinh chỉnh những thông tin vô nghĩa ngẫu nhiên thành văn bản mạch lạc. Một trong những lý do mô hình có thể làm điều này rất nhanh là có thể thực hiện quá trình "khử nhiễu" này trên nhiều phần khác nhau của văn bản cùng lúc.

Mặt khác, các LLM truyền thống như ChatGPT dựa trên kỹ thuật AI khác được gọi là Transformer, mà các nhà nghiên cứu Google đã tiên phong năm 2017. Transformer chỉ có thể tạo một "token" hoặc đoạn văn bản tại một thời điểm, từ trái sang phải. Mỗi từ mới phụ thuộc vào tất cả các từ trước đó và mô hình không thể bỏ qua phần tiếp theo, cũng không thể quay lại và sửa đổi văn bản đã tạo trước đó. (Các mô hình "suy luận" mới dựa trên Transformer có thể sửa đổi đầu ra, nhưng chỉ bằng cách tạo một chuỗi hoàn toàn mới. Chúng không sửa đổi các phần của chuỗi hiện có một cách linh hoạt.) Các mô hình diffusion tổng thể hơn: chúng đoán toàn bộ đầu ra cùng lúc (mặc dù ban đầu là vô nghĩa), và tinh chỉnh tất cả cùng lúc. Điều này có nghĩa chúng có thể tạo đầu ra nhanh hơn vì mô hình không làm việc từng từ một.

Như ChatGPT "tăng cường"

Tuy nhiên, có những sự đánh đổi. Một số nhà nghiên cứu lưu ý rằng mặc dù các mô hình diffusion nhanh và linh hoạt, chúng chỉ có thể tạo các đoạn văn bản có độ dài cố định, và do đó có thể gặp khó khăn khi viết bài luận hoặc câu chuyện nhiều đoạn văn. Vì không xây dựng câu từng từ một, các mô hình diffusion có thể mất đi dòng chảy tự nhiên và sự tiến triển logic mà các mô hình dựa trên transformer được tối ưu hóa.

Tuy nhiên, khi nói đến mã máy tính, dòng chảy tường thuật ít quan trọng hơn logic và cú pháp. Và đối với các nhà phát triển tập trung vào xây dựng và triển khai, tốc độ của mô hình diffusion là một lợi thế lớn.

Sự xôn xao trong giới công nghệ rõ ràng ngay sau khi Google trình diễn mô hình vào thứ Ba. Gemini Diffusion, theo người hâm mộ trên mạng xã hội, là một mô hình "điên rồ" và giống như "ChatGPT tăng cường". "Hơi giống như có một bản thảo và sau đó làm lại/chỉnh sửa", Alexander Doria, đồng sáng lập của Pleias có trụ sở tại Paris, nói với Fortune trong tin nhắn. "Nhanh hơn rất nhiều, có thể tốt hơn cho một số tác vụ."

Jack Rae, nhà khoa học chính tại Google DeepMind, nói trên X rằng việc phát hành Gemini Diffusion "có cảm giác như một khoảnh khắc mốc lịch sử". Đối với việc tạo văn bản, ông cho biết, các LLM truyền thống luôn vượt trội hơn các mô hình diffusion về chất lượng. "Không rõ liệu khoảng cách này có bao giờ được thu hẹp... kết quả là một mô hình hấp dẫn và mạnh mẽ đồng thời cực kỳ nhanh."

Gemini Diffusion là một phần của quỹ đạo mà nhiều người trong lĩnh vực AI đã dự đoán, theo Stefano Ermon, phó giáo sư tại khoa khoa học máy tính của Đại học Stanford, người đã làm việc với các mô hình diffusion trong 5 năm qua. Ông cũng là đồng sáng lập của Inception Labs, công ty đã công bố mô hình ngôn ngữ lớn diffusion đầu tiên vài tháng trước, có tên Mercury. Mô hình này có hiệu suất tương đương với các mô hình tiên tiến được tối ưu hóa cho tốc độ, đồng thời chạy nhanh gấp 5 đến 10 lần.

"Việc Google gia nhập lĩnh vực này xác nhận hướng đi mà chúng tôi đã theo đuổi", ông nói với Fortune qua email. "Thật thú vị khi thấy ngành công nghiệp rộng lớn hơn chấp nhận các kỹ thuật này, mặc dù chúng tôi đã đang làm việc để đào tạo thế hệ tiếp theo của các mô hình diffusion văn bản."

Trong vài năm tới, ông thêm rằng ông kỳ vọng "tất cả các mô hình tiên tiến sẽ là mô hình diffusion".

Nhưng các chuyên gia khác chỉ ra rằng công chúng vẫn chưa có quyền truy cập và mặc dù có triển vọng, Gemini Diffusion vẫn là một thử nghiệm nghiên cứu với ít chi tiết.

Theo Nathan Lambert của AI2, Gemini Diffusion là "sự ủng hộ lớn nhất cho đến nay của mô hình [diffusion văn bản], nhưng chúng ta không có chi tiết nên không thể so sánh tốt".

Gemini Diffusion was the sleeper hit of Google I/O and some say its blazing speed could reshape the AI model wars

May 21, 2025, 5:54 PM EDT
 
 
 
Amid the flood of AI-related announcements at Google’s I/O developer conference Tuesday was a brief demo that, although it didn’t get much stage time, has AI insiders buzzing. 
Gemini Diffusion, an experimental research LLM from Google DeepMind, has blisteringly fast output (between 1,000 and 2,000 “tokens,” or chunks of text, per second, which is four to five times faster than Gemini’s most powerful public LLM.) It also has surprisingly good performance, particularly in areas like coding and complex mathematical reasoning. 
According to a short blog post, Google said the experimental Gemini Diffusion demo “generates content significantly faster than our fastest model so far, while matching its coding performance.” There is a waitlist to get access to the research version. 
Some say if Google is able to expand Gemini Diffusion beyond a research demo, it could potentially reshape the AI model wars being waged between between Google, OpenAI, Anthropic, Meta and Chinese contenders, like Alibaba and DeepSeek. For example, autonomous coding agents are one of the key battlegrounds right now; a publicly-available Gemini Diffusion could upend the playing field to Google’s advantage, helping it win business for its new coding agent Jules. 
There are also open questions about model costs, depending on how much computing power diffusion requires. For some tasks, such as generating computer code, diffusion will simply be more efficient, said Dave Nicholson, chief analyst at Futurum Group. “All this will eventually be measured against each model’s running costs,” he explained. Once true costs are reflected in pricing (which is not necessarily the case today, as AI companies and their backers fight for market share), customers will become much more selective about choosing the model best suited to the task at hand, Nicholson said.
Besides simple FOMO regarding access to the new model, the excitement stems from the “diffusion” technique the model is based on. Diffusion is a different type of LLM than the kind used in products like ChatGPT; it’s the AI method that gave birth to the first popular AI image-generation tools like DALL-E 2 and Stable Diffusion.
Diffusion models convert random noise—images that look like static on a TV screen— into high-quality images based on text prompts. Until recently, the diffusion technique, which has been described as more like sculpting than writing, had not seen much success in generating text. Instead of predicting text directly like the traditional LLMs we have come to rely on since ChatGPT launched in 2022, diffusion models learn to generate words and sentences by refining random gibberish into coherent text. One of the reasons it can do so very quickly is that it can perform this “de-noising” process across many different parts of the text at the same time.
Traditional LLMs like ChatGPT, on the other hand, are based on a different AI technique known as a Transformer, that researchers at Google pioneered in 2017. Transformers can only generate one “token,” or chunk of text, at a time, from left to right. Each new word depends on all the previous ones and the model can’t skip ahead, nor can it go back and revise the text it generated earlier. (The new “reasoning” models based on Transformers can revise their outputs, but only by generating a completely new sequence. They don’t revise parts of an existing sequence on the fly.) Diffusion models are more holistic: they guess the entire output all at once (though it is gibberish), and refine it all at once. That means they can generate output faster because the model is not working on one word at a time. 

Like ChatGPT ‘on steroids’

There are tradeoffs, however. Some researchers have noted that while diffusion models are fast and flexible, they can only generate text segments of a fixed length, and so may struggle with writing essays or multi-paragraph narratives. Because they don’t build sentences one word at a time, diffusion models can lose the kind of natural flow and logical progression that transformer-based models are optimized for.
When it comes to computer code though, narrative flow is less important than logic and syntax. And forf developers focused on building and shipping, the speed of diffusion model is a big advantage.
The buzz among techies was evident soon after Google showed off the model Tuesday. Gemini Diffusion, said fans on social media, is a model that is “insane” and like “ChatGPT on steroids.” “It’s a bit like getting a draft and then rework/edit it,” said Alexander Doria, cofounder of the Paris-based Pleias, told Fortune in a message. “So much faster, potentially better for some tasks.” 
Jack Rae, principal scientist at Google DeepMind, said on X that the Gemini Diffusion release “feels like a landmark moment.” For text generation, he said, traditional LLMs had always outperformed diffusion models in terms of quality. “It wasn’t clear that the gap would ever be closed….the result is a fascinating and powerful model that is also lightning fast.” 
Gemini Diffusion is part of a trajectory that many in the AI field had anticipated, according to Stefano Ermon, an associate professor in the department of computer science at Stanford University who has been working on diffusion models for the past five years. He is also the co-founder of Inception Labs, which announced the first diffusion large language model a few months ago, called Mercury. The model matched the performance of frontier models optimized for speed, while running five to ten times faster. 
 
“Google’s entry into this space validates the direction we’ve been pursuing,” he told Fortune by email. “It’s exciting to see the broader industry embracing these techniques, though we’re already working on training the next generation of text diffusion models.” 
Within a few years, he added that he expected “all frontier models will be diffusion models.” 
But other experts pointed out that the public still does not have access and that while it is promising, Gemini Diffusion remains a research experiment with few details. 
According to Nathan Lambert, of AI2, Gemini Diffusion is the “biggest endorsement yet of the [text diffusion] model, but we have no details so can’t compare well.” 

Không có file đính kèm.

22

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo