Không chỉ DeepSeek: Các công ty AI Nhật Bản theo đuổi hiệu quả hơn quy mô

-  Các công ty AI Nhật Bản đang biến hạn chế thành lợi thế bằng cách phát triển mô hình AI nhỏ gọn và hiệu quả, lấy cảm hứng từ thành công của startup DeepSeek của Trung Quốc.

-  NTT đã tạo ra mô hình nền tảng "tsuzumi" với chỉ 600 triệu tham số trong phiên bản nhỏ nhất, đủ nhỏ để chạy trên máy tính xách tay thông thường, trong khi một số mô hình tiên tiến có hơn 1 nghìn tỷ tham số.

-  Takanobu Oba, giám đốc Human Insight Laboratory tại NTT, ước tính chi phí phát triển mô hình của họ chỉ bằng "vài phần trăm đến vài phần nghìn" so với chi phí của một số mô hình ChatGPT.

-  Mô hình 7 tỷ tham số của tsuzumi vượt trội hơn ChatGPT-3.5 trong một số nhiệm vụ, với tỷ lệ chiến thắng 81,3% trong xử lý ngôn ngữ tiếng Nhật, theo NTT.

-  DeepSeek-R1, mô hình được công ty khởi nghiệp Trung Quốc phát hành vào tháng 1, gây sốc khi đạt hiệu suất tương tự như mô hình o1 của OpenAI nhưng với chi phí thấp hơn nhiều.

-  Naoaki Okazaki, giáo sư tại Viện Công nghệ Tokyo, cho biết mô hình khoảng 8 đến 10 tỷ tham số dễ xử lý hơn nhiều và có thể hoạt động tốt tùy theo nhiệm vụ.

-  Sam Altman, CEO của OpenAI, vẫn tin rằng mô hình AI đắt đỏ có thể mang lại lợi nhuận đủ lớn, tuyên bố "lợi nhuận còn tăng theo cấp số nhân hơn cả chi phí".

-  Theo Bloomberg, OpenAI dự kiến doanh thu 12,7 tỷ USD năm nay nhưng không kỳ vọng dòng tiền dương cho đến năm 2029.

-  Startup Sakana AI của Tokyo đã phát triển công nghệ nâng cao khả năng của các mô hình AI hiện có thông qua cách tiếp cận tiến hóa, tự động chọn mô hình tốt nhất và kết hợp chúng.

-  David Ha, CEO của Sakana AI, nhấn mạnh rằng việc đào tạo mô hình lớn rất tốn kém và các mô hình này là "tài sản mất giá nhanh nhất trong lịch sử loài người", thúc đẩy chiến lược tạo mô hình ngôn ngữ lớn với giá "một phần tỷ".

-  Kirk Boodry, nhà phân tích tại Astris Advisory Japan, chỉ ra rằng các công ty Nhật Bản tập trung vào mô hình nhỏ hơn, hiệu quả hơn một phần vì giới hạn của hệ thống điện (Nhật Bản nhập khẩu hơn 80% năng lượng) và GPU dùng cho AI tiêu thụ rất nhiều điện.

📌 Các công ty AI Nhật Bản như NTT và Sakana AI đang đi ngược xu hướng đầu tư khổng lồ vào mô hình AI lớn bằng cách phát triển mô hình nhỏ gọn, tiết kiệm chi phí gấp hàng nghìn lần. Mô hình tsuzumi 7 tỷ tham số của NTT đã đánh bại ChatGPT-3.5 trong xử lý tiếng Nhật với tỷ lệ thắng 81,3%, chứng minh rằng "sự cần thiết là mẹ đẻ của đổi mới."

 

https://asia.nikkei.com/Business/Technology/Not-just-DeepSeek-Japan-s-AI-players-chase-efficiency-over-size

 

Không chỉ DeepSeek: Các công ty AI Nhật Bản theo đuổi hiệu quả hơn quy mô

Các công ty hướng đến việc biến giới hạn thành thế mạnh khi cạnh tranh với các đối thủ lớn toàn cầu

Japan AI montage] Một số nhà phát triển cho rằng sự thiếu hụt vốn của Nhật Bản so với các công ty công nghệ lớn ở Mỹ sẽ thúc đẩy đổi mới AI. (Nikkei montage)

RYOHTAROH SATOH Ngày 10 tháng 4 năm 2025 10:42 JST

TOKYO -- Các công ty AI Nhật Bản đang tìm cách biến những hạn chế thành thế mạnh khi thành công nhanh chóng của startup Trung Quốc DeepSeek nổi bật lên những lợi ích của việc phát triển các mô hình trí tuệ nhân tạo nhỏ gọn và hiệu quả hơn.

Một số nhà phát triển cho rằng sự thiếu hụt vốn của quốc đảo này so với các công ty công nghệ lớn ở Mỹ sẽ thúc đẩy đổi mới.

"Chính vì những hạn chế, vì mọi thứ nhỏ bé, mà chúng tôi buộc phải đổi mới," Takanobu Oba, giám đốc Phòng thí nghiệm Human Insight tại hãng viễn thông NTT, nói với Nikkei Asia.

NTT đã tạo ra mô hình nền tảng riêng vào năm ngoái -- công nghệ cơ bản cho các chatbot AI -- có tên "tsuzumi". Oba cho biết, những mô hình như vậy "sẽ không thể tránh khỏi việc trở nên nhỏ hơn".

Tsuzumi đã rất nhỏ gọn và hiệu quả về chi phí so với các mô hình của các ông lớn toàn cầu như ChatGPT của OpenAI. Trong khi một số mô hình tiên tiến được ước tính có hơn 1 nghìn tỷ tham số -- một đơn vị đo lường dữ liệu được sử dụng trong quá trình đào tạo AI -- phiên bản nhỏ nhất của tsuzumi chỉ chứa 600 triệu tham số. Con số này đủ nhỏ để một máy tính xách tay có thể xử lý.

Các mô hình AI lớn hơn thường chạy trên các trung tâm dữ liệu sử dụng số lượng lớn đơn vị xử lý đồ họa (GPU) được thiết kế bởi Nvidia, không hề rẻ. Ví dụ, chip H100 đặc trưng của Nvidia có thể có giá từ 30.000 đến 35.000 đô la mỗi chiếc. Oba ước tính rằng chi phí cho NTT để phát triển các mô hình của họ chỉ bằng "vài phần trăm đến vài phần nghìn" chi phí của một số mô hình ChatGPT.

Niềm tin thông thường cho rằng nhiều dữ liệu đồng nghĩa với hiệu suất tốt hơn, dẫn đến quan niệm rằng mô hình lớn hơn thì thông minh hơn. Khả năng của tsuzumi dường như thách thức điều này, với mô hình 7 tỷ tham số vượt trội hơn ChatGPT-3.5 trong một số nhiệm vụ, với tỷ lệ thắng 81,3% trong xử lý ngôn ngữ tiếng Nhật, theo NTT. Bài kiểm tra được thực hiện bởi một nhóm nghiên cứu độc lập, sử dụng mô hình ChatGPT mới hơn làm trọng tài.

DeepSeek-R1, một mô hình mà startup Trung Quốc phát hành vào tháng 1, đã gây sốc cho Thung lũng Silicon và Phố Wall sau khi tuyên bố đạt được mức hiệu suất tương tự như mô hình o1 của OpenAI với chi phí chỉ bằng một phần nhỏ. Điều này đã gây nghi ngờ về cuộc đua đầu tư cho tham số hiện tại, bao gồm cả OpenAI, dự định đầu tư hàng trăm tỷ đô la vào các trung tâm dữ liệu thông qua chương trình Stargate của SoftBank.

"Nếu một mô hình quá lớn, sẽ khó sử dụng. Chi phí cao hơn, và bạn cần phần cứng mạnh. Khoảng 8 đến 10 tỷ tham số dễ xử lý hơn nhiều, và tùy thuộc vào nhiệm vụ, nó có thể hoạt động đầy đủ," Naoaki Okazaki, giáo sư tại Viện Công nghệ Tokyo nói. "Điều thường thu hút sự chú ý -- 'tác phẩm trưng bày', nói một cách khác -- là việc phát triển các mô hình quy mô lớn," Okazaki nói. Nhưng từ góc độ thực tiễn, ông nói thêm, các mô hình nhỏ hơn, đặc biệt là những mô hình được tăng cường trong ngôn ngữ địa phương, là giải pháp hiệu quả hơn.

Vẫn còn một số tranh luận về việc liệu cuộc đua đầu tư cho những tiến bộ AI sẽ kết thúc hay không. Sam Altman, CEO của OpenAI, đã nói trong một cuộc thảo luận tại Tokyo vào tháng 2 rằng một mô hình AI đắt tiền vẫn có thể mang lại lợi nhuận đủ. "Tôi nghĩ mọi người vẫn chưa hiểu lợi nhuận [từ AI tiên tiến] tăng theo cấp số mũ như thế nào. Chi phí cũng tăng theo cấp số mũ, nhưng tôi nghĩ lợi nhuận còn tăng theo cấp số mũ hơn nữa," ông nói.

Tuy nhiên, nhiều công ty châu Á cảm thấy họ không thể theo kịp "trò chơi tiền bạc" mà OpenAI và các công ty công nghệ lớn khác của Mỹ đang chơi. Ngay cả OpenAI vẫn chưa chứng minh được rằng họ có thể biến chi tiêu lớn thành lợi nhuận. Theo Bloomberg, công ty Mỹ này dự kiến doanh thu 12,7 tỷ đô la trong năm nay nhưng không kỳ vọng dòng tiền dương cho đến năm 2029, trích dẫn một nguồn tin ẩn danh.

Oba nói rằng vì hiệu suất AI sẽ chỉ tăng theo logarit so với khoản đầu tư, "rõ ràng là làm việc với các mô hình nhỏ hơn mang lại lợi nhuận tốt hơn nhiều. Ai cũng thấy điều đó."

Kirk Boodry, một nhà phân tích tại Astris Advisory Japan, cho biết các công ty Nhật Bản có xu hướng theo đuổi các mô hình nhỏ hơn, hiệu quả hơn.

"Nhiều mô hình [phương Tây] này không sử dụng được hoặc không tập trung vào các trường hợp sử dụng [cụ thể]. ... Bạn đang lập trình? Bạn đang đặt câu hỏi? Bạn đang tra cứu dữ liệu lịch sử? Đây đều là những trường hợp sử dụng rất rộng," ông nói. Ngược lại, các công ty Nhật Bản đang tập trung nguồn lực nhiều hơn vào các trường hợp sử dụng cụ thể, ông nói.

"Một trong những lý do đằng sau điều đó là bạn không kỳ vọng rằng sẽ có nhiều nguồn điện được tạo ra. ... Chỉ có một lượng mở rộng hạn chế trong lưới điện ... bởi vì Nhật Bản nhập khẩu hơn 80% năng lượng của mình."

GPU được sử dụng cho AI nổi tiếng là tiêu thụ một lượng lớn năng lượng, gây áp lực cho lưới điện và làm tăng thêm lo ngại về biến đổi khí hậu.

NTT không phải là công ty Nhật Bản duy nhất tập trung vào hiệu quả AI. Sakana AI, một công ty khởi nghiệp có trụ sở tại Tokyo, đã phát triển công nghệ nâng cao khả năng của các mô hình AI hiện có thông qua cái gọi là phương pháp tiến hóa, tự động lựa chọn các mô hình tốt nhất và kết hợp chúng để đáp ứng mục tiêu của nhà phát triển.

CEO Sakana AI David Ha nói với Nikkei Asia rằng ngành công nghiệp đang bắt đầu tìm thấy sự cân bằng giữa chi tiêu và đổi mới.

"Tôi nghĩ rằng vào năm 2023 và 2024, mọi người quá tập trung vào tiền bạc," ông nói. "Xây dựng các trung tâm dữ liệu và [các công ty AI] bỏ qua đổi mới. ... Điều DeepSeek cho thấy, và công ty chúng tôi cho thấy, là bạn cần cả hai. ... Bạn phải tìm ra một cách đổi mới mới để làm mọi thứ nhanh hơn."

DeepSeek được cho là đã sử dụng một kỹ thuật gọi là chưng cất, trong đó AI được đào tạo bằng cách sử dụng một mô hình AI lớn hơn làm giáo viên, cho phép phát triển các mô hình nhỏ hơn nhanh chóng và hiệu quả về chi phí hơn.

"Đào tạo các mô hình lớn rất tốn kém, và những mô hình này là tài sản mất giá nhanh nhất trong lịch sử loài người," Ha nói. "Vì vậy, từ góc độ chiến lược kinh doanh, tôi muốn tiêu rất ít nguồn lực để đào tạo các mô hình ngôn ngữ lớn, và tập trung vào nghiên cứu có tác động lớn hơn, như tạo ra LLM bằng AI với giá bằng một phần tỷ."

Giống như Oba, Ha nói rằng ông tin rằng những hạn chế về nguồn lực ở Trung Quốc và Nhật Bản có thể thúc đẩy các giải pháp đổi mới hơn. "Tại một công ty lớn với hàng tỷ đô la tài trợ, họ quen với một lượng lớn tài nguyên. ... Nếu chúng tôi có nguồn lực hạn chế, chúng tôi có thể làm những điều tốt hơn," ông nói, nhắc lại câu châm ngôn cũ, "Cần thiết là mẹ đẻ của đổi mới."

Not just DeepSeek: Japan's AI players chase efficiency over size

Companies aim to turn limitations into strengths as they compete with global heavyweights
 
Some developers say Japan's lack of capital compared with big tech companies in the U.S. will spur AI innovation. (Nikkei montage)
RYOHTAROH SATOH
April 10, 2025 10:42 JST
 
 
TOKYO -- Japanese AI companies are looking to turn limitations into strengths as the rapid success of Chinese startup DeepSeek highlights the benefits of developing more compact and efficient artificial intelligence models.
Some developers claim that the island nation's lack of capital compared with big tech companies in the U.S. will spur innovation.
"It's precisely because of limitations, because things are small, that we're driven to innovate," Takanobu Oba, director of the Human Insight Laboratory at telecom carrier NTT, told Nikkei Asia.
NTT last year created its own foundation model -- the base technology for AI chatbots -- dubbed "tsuzumi." Such models, Oba said, "will inevitably become smaller."
Tsuzumi is already surprisingly small and cost-effective compared with the models of global heavyweights such as OpenAI's ChatGPT. While some cutting-edge models are estimated to have more than 1 trillion parameters -- a measure of data used in training the AI -- the smallest version of tsuzumi contains just 600 million parameters. That is small enough for a notebook PC to handle.
Larger AI models typically run on data centers using a large number of graphic processing units (GPUs) designed by Nvidia, which aren't cheap. Nvidia's signature H100 chips, for example, can cost between $30,000 and $35,000 each. Oba estimates that the cost for NTT to develop its models were a "few hundredths to a few thousandths" the cost of some ChatGPT models.
Conventional belief has held that more data equates to better performance, leading to the notion that larger models are more intelligent. Tsuzumi's capabilities appear to defy this, with its 7 billion-parameter model outperforming ChatGPT-3.5, on certain tasks, with an 81.3% win rate in Japanese language processing, according to NTT. The test was conducted by an independent group of researchers, using a later ChatGPT model as a judge.
DeepSeek-R1, a model that the Chinese startup released in January, stunned Silicon Valley and Wall Street after it claimed to achieve a similar level of performance as OpenAI's o1 model at a fraction of the cost. This cast doubts on the current investment race for parameters, including OpenAI, which plans to invest hundreds of billions of dollars in data centers through SoftBank's Stargate program.
"If a model is too large, it's hard to use. It costs more, and you need serious hardware. Something around 8 to 10 billion parameters is much easier to handle, and depending on the task, it can perform adequately," said Naoaki Okazaki, a professor at the Tokyo Institute of Technology. "What tends to attract attention -- the 'showpiece,' so to speak -- is the development of large-scale models," Okazaki said. But from a practical standpoint, he added, smaller models, especially those enhanced in local languages, are the more efficient solution.
There is still some debate whether the investment race for AI advancements will come to an end. Sam Altman, CEO of OpenAI, said in a panel discussion in Tokyo in February that an expensive AI model can still expect a sufficient return. "I think people still don't understand how exponential the return [from advanced AI] is. The cost is exponential, too, but I think the return is even more exponential," he said.
However, many Asian companies feel they cannot keep up with the "money game" that OpenAI and other U.S. big tech companies are playing. Even OpenAI has yet to prove that it can turn big spending into profit. According to Bloomberg, the American company anticipates $12.7 billion in revenue this year but does not expect positive cash flow until 2029, citing an anonymous source. 
Oba said because AI performance will increase only logarithmically relative to the investment, "it's clear that working with smaller models offers a far better return. Everyone can see that."
Kirk Boodry, an analyst at Astris Advisory Japan, said Japanese companies tend to pursue smaller, more efficient models.
"A lot of these [Western] models are not usable or focused on [specific] use cases. ... Are you coding? Are you asking a question? Are you looking up historical data? These are all very wide use cases," he said. Japanese players, by contrast, are concentrating their resources more on specific use cases, he said.
"One of the reasons behind that is that you don't have this expectation that there's going to be a lot of power generation available. ... There is only a limited amount of expansion in the power grid ... because Japan imports 80%-plus of its energy."
GPUs used for AI are notorious for consuming huge amounts of energy, straining power grids and raising further concerns over climate change.
NTT is not the only Japanese company focusing on AI efficiency. Tokyo-based startup Sakana AI has developed technology that enhances the capabilities of existing AI models through what it calls an evolutionary approach, automatically selecting the best models and merging them to meet the developer's target.
Sakana AI CEO David Ha told Nikkei Asia that the industry is starting to find a balance between spending and innovation.
"I think that in 2023 and in 2024, people were too cash-focused," he said. "Building data centers and [AI companies] ignored innovation. ... What DeepSeek shows, and our company shows, is that you need both. ... You have to figure out a new, innovative way to make things faster."
DeepSeek is believed to have utilized a technique called distillation, where AI is trained using a larger AI model as its teacher, allowing for quicker and more cost-effective development of smaller models.
"Training large models is so expensive, and these models are the fastest depreciating asset in the history of men," Ha said. "So from a business strategy point of view, I want to spend very little resources to train large language models, and focus on the more impactful research, like creating LLMs using AI at one-billionth of the price."
Like Oba, Ha said he believes that resource limitations in China and Japan could drive more innovative solutions. "At a big company with billions in funding, they are used to large amounts of resources. ... If we have limited resources, we can do better things," he said, bringing up the old adage, "Necessity is the mother of innovation."

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo