- Các công ty AI Nhật Bản đang biến hạn chế thành lợi thế bằng cách phát triển mô hình AI nhỏ gọn và hiệu quả, lấy cảm hứng từ thành công của startup DeepSeek của Trung Quốc.
- NTT đã tạo ra mô hình nền tảng "tsuzumi" với chỉ 600 triệu tham số trong phiên bản nhỏ nhất, đủ nhỏ để chạy trên máy tính xách tay thông thường, trong khi một số mô hình tiên tiến có hơn 1 nghìn tỷ tham số.
- Takanobu Oba, giám đốc Human Insight Laboratory tại NTT, ước tính chi phí phát triển mô hình của họ chỉ bằng "vài phần trăm đến vài phần nghìn" so với chi phí của một số mô hình ChatGPT.
- Mô hình 7 tỷ tham số của tsuzumi vượt trội hơn ChatGPT-3.5 trong một số nhiệm vụ, với tỷ lệ chiến thắng 81,3% trong xử lý ngôn ngữ tiếng Nhật, theo NTT.
- DeepSeek-R1, mô hình được công ty khởi nghiệp Trung Quốc phát hành vào tháng 1, gây sốc khi đạt hiệu suất tương tự như mô hình o1 của OpenAI nhưng với chi phí thấp hơn nhiều.
- Naoaki Okazaki, giáo sư tại Viện Công nghệ Tokyo, cho biết mô hình khoảng 8 đến 10 tỷ tham số dễ xử lý hơn nhiều và có thể hoạt động tốt tùy theo nhiệm vụ.
- Sam Altman, CEO của OpenAI, vẫn tin rằng mô hình AI đắt đỏ có thể mang lại lợi nhuận đủ lớn, tuyên bố "lợi nhuận còn tăng theo cấp số nhân hơn cả chi phí".
- Theo Bloomberg, OpenAI dự kiến doanh thu 12,7 tỷ USD năm nay nhưng không kỳ vọng dòng tiền dương cho đến năm 2029.
- Startup Sakana AI của Tokyo đã phát triển công nghệ nâng cao khả năng của các mô hình AI hiện có thông qua cách tiếp cận tiến hóa, tự động chọn mô hình tốt nhất và kết hợp chúng.
- David Ha, CEO của Sakana AI, nhấn mạnh rằng việc đào tạo mô hình lớn rất tốn kém và các mô hình này là "tài sản mất giá nhanh nhất trong lịch sử loài người", thúc đẩy chiến lược tạo mô hình ngôn ngữ lớn với giá "một phần tỷ".
- Kirk Boodry, nhà phân tích tại Astris Advisory Japan, chỉ ra rằng các công ty Nhật Bản tập trung vào mô hình nhỏ hơn, hiệu quả hơn một phần vì giới hạn của hệ thống điện (Nhật Bản nhập khẩu hơn 80% năng lượng) và GPU dùng cho AI tiêu thụ rất nhiều điện.
📌 Các công ty AI Nhật Bản như NTT và Sakana AI đang đi ngược xu hướng đầu tư khổng lồ vào mô hình AI lớn bằng cách phát triển mô hình nhỏ gọn, tiết kiệm chi phí gấp hàng nghìn lần. Mô hình tsuzumi 7 tỷ tham số của NTT đã đánh bại ChatGPT-3.5 trong xử lý tiếng Nhật với tỷ lệ thắng 81,3%, chứng minh rằng "sự cần thiết là mẹ đẻ của đổi mới."
https://asia.nikkei.com/Business/Technology/Not-just-DeepSeek-Japan-s-AI-players-chase-efficiency-over-size
Các công ty hướng đến việc biến giới hạn thành thế mạnh khi cạnh tranh với các đối thủ lớn toàn cầu
Japan AI montage] Một số nhà phát triển cho rằng sự thiếu hụt vốn của Nhật Bản so với các công ty công nghệ lớn ở Mỹ sẽ thúc đẩy đổi mới AI. (Nikkei montage)
RYOHTAROH SATOH Ngày 10 tháng 4 năm 2025 10:42 JST
TOKYO -- Các công ty AI Nhật Bản đang tìm cách biến những hạn chế thành thế mạnh khi thành công nhanh chóng của startup Trung Quốc DeepSeek nổi bật lên những lợi ích của việc phát triển các mô hình trí tuệ nhân tạo nhỏ gọn và hiệu quả hơn.
Một số nhà phát triển cho rằng sự thiếu hụt vốn của quốc đảo này so với các công ty công nghệ lớn ở Mỹ sẽ thúc đẩy đổi mới.
"Chính vì những hạn chế, vì mọi thứ nhỏ bé, mà chúng tôi buộc phải đổi mới," Takanobu Oba, giám đốc Phòng thí nghiệm Human Insight tại hãng viễn thông NTT, nói với Nikkei Asia.
NTT đã tạo ra mô hình nền tảng riêng vào năm ngoái -- công nghệ cơ bản cho các chatbot AI -- có tên "tsuzumi". Oba cho biết, những mô hình như vậy "sẽ không thể tránh khỏi việc trở nên nhỏ hơn".
Tsuzumi đã rất nhỏ gọn và hiệu quả về chi phí so với các mô hình của các ông lớn toàn cầu như ChatGPT của OpenAI. Trong khi một số mô hình tiên tiến được ước tính có hơn 1 nghìn tỷ tham số -- một đơn vị đo lường dữ liệu được sử dụng trong quá trình đào tạo AI -- phiên bản nhỏ nhất của tsuzumi chỉ chứa 600 triệu tham số. Con số này đủ nhỏ để một máy tính xách tay có thể xử lý.
Các mô hình AI lớn hơn thường chạy trên các trung tâm dữ liệu sử dụng số lượng lớn đơn vị xử lý đồ họa (GPU) được thiết kế bởi Nvidia, không hề rẻ. Ví dụ, chip H100 đặc trưng của Nvidia có thể có giá từ 30.000 đến 35.000 đô la mỗi chiếc. Oba ước tính rằng chi phí cho NTT để phát triển các mô hình của họ chỉ bằng "vài phần trăm đến vài phần nghìn" chi phí của một số mô hình ChatGPT.
Niềm tin thông thường cho rằng nhiều dữ liệu đồng nghĩa với hiệu suất tốt hơn, dẫn đến quan niệm rằng mô hình lớn hơn thì thông minh hơn. Khả năng của tsuzumi dường như thách thức điều này, với mô hình 7 tỷ tham số vượt trội hơn ChatGPT-3.5 trong một số nhiệm vụ, với tỷ lệ thắng 81,3% trong xử lý ngôn ngữ tiếng Nhật, theo NTT. Bài kiểm tra được thực hiện bởi một nhóm nghiên cứu độc lập, sử dụng mô hình ChatGPT mới hơn làm trọng tài.
DeepSeek-R1, một mô hình mà startup Trung Quốc phát hành vào tháng 1, đã gây sốc cho Thung lũng Silicon và Phố Wall sau khi tuyên bố đạt được mức hiệu suất tương tự như mô hình o1 của OpenAI với chi phí chỉ bằng một phần nhỏ. Điều này đã gây nghi ngờ về cuộc đua đầu tư cho tham số hiện tại, bao gồm cả OpenAI, dự định đầu tư hàng trăm tỷ đô la vào các trung tâm dữ liệu thông qua chương trình Stargate của SoftBank.
"Nếu một mô hình quá lớn, sẽ khó sử dụng. Chi phí cao hơn, và bạn cần phần cứng mạnh. Khoảng 8 đến 10 tỷ tham số dễ xử lý hơn nhiều, và tùy thuộc vào nhiệm vụ, nó có thể hoạt động đầy đủ," Naoaki Okazaki, giáo sư tại Viện Công nghệ Tokyo nói. "Điều thường thu hút sự chú ý -- 'tác phẩm trưng bày', nói một cách khác -- là việc phát triển các mô hình quy mô lớn," Okazaki nói. Nhưng từ góc độ thực tiễn, ông nói thêm, các mô hình nhỏ hơn, đặc biệt là những mô hình được tăng cường trong ngôn ngữ địa phương, là giải pháp hiệu quả hơn.
Vẫn còn một số tranh luận về việc liệu cuộc đua đầu tư cho những tiến bộ AI sẽ kết thúc hay không. Sam Altman, CEO của OpenAI, đã nói trong một cuộc thảo luận tại Tokyo vào tháng 2 rằng một mô hình AI đắt tiền vẫn có thể mang lại lợi nhuận đủ. "Tôi nghĩ mọi người vẫn chưa hiểu lợi nhuận [từ AI tiên tiến] tăng theo cấp số mũ như thế nào. Chi phí cũng tăng theo cấp số mũ, nhưng tôi nghĩ lợi nhuận còn tăng theo cấp số mũ hơn nữa," ông nói.
Tuy nhiên, nhiều công ty châu Á cảm thấy họ không thể theo kịp "trò chơi tiền bạc" mà OpenAI và các công ty công nghệ lớn khác của Mỹ đang chơi. Ngay cả OpenAI vẫn chưa chứng minh được rằng họ có thể biến chi tiêu lớn thành lợi nhuận. Theo Bloomberg, công ty Mỹ này dự kiến doanh thu 12,7 tỷ đô la trong năm nay nhưng không kỳ vọng dòng tiền dương cho đến năm 2029, trích dẫn một nguồn tin ẩn danh.
Oba nói rằng vì hiệu suất AI sẽ chỉ tăng theo logarit so với khoản đầu tư, "rõ ràng là làm việc với các mô hình nhỏ hơn mang lại lợi nhuận tốt hơn nhiều. Ai cũng thấy điều đó."
Kirk Boodry, một nhà phân tích tại Astris Advisory Japan, cho biết các công ty Nhật Bản có xu hướng theo đuổi các mô hình nhỏ hơn, hiệu quả hơn.
"Nhiều mô hình [phương Tây] này không sử dụng được hoặc không tập trung vào các trường hợp sử dụng [cụ thể]. ... Bạn đang lập trình? Bạn đang đặt câu hỏi? Bạn đang tra cứu dữ liệu lịch sử? Đây đều là những trường hợp sử dụng rất rộng," ông nói. Ngược lại, các công ty Nhật Bản đang tập trung nguồn lực nhiều hơn vào các trường hợp sử dụng cụ thể, ông nói.
"Một trong những lý do đằng sau điều đó là bạn không kỳ vọng rằng sẽ có nhiều nguồn điện được tạo ra. ... Chỉ có một lượng mở rộng hạn chế trong lưới điện ... bởi vì Nhật Bản nhập khẩu hơn 80% năng lượng của mình."
GPU được sử dụng cho AI nổi tiếng là tiêu thụ một lượng lớn năng lượng, gây áp lực cho lưới điện và làm tăng thêm lo ngại về biến đổi khí hậu.
NTT không phải là công ty Nhật Bản duy nhất tập trung vào hiệu quả AI. Sakana AI, một công ty khởi nghiệp có trụ sở tại Tokyo, đã phát triển công nghệ nâng cao khả năng của các mô hình AI hiện có thông qua cái gọi là phương pháp tiến hóa, tự động lựa chọn các mô hình tốt nhất và kết hợp chúng để đáp ứng mục tiêu của nhà phát triển.
CEO Sakana AI David Ha nói với Nikkei Asia rằng ngành công nghiệp đang bắt đầu tìm thấy sự cân bằng giữa chi tiêu và đổi mới.
"Tôi nghĩ rằng vào năm 2023 và 2024, mọi người quá tập trung vào tiền bạc," ông nói. "Xây dựng các trung tâm dữ liệu và [các công ty AI] bỏ qua đổi mới. ... Điều DeepSeek cho thấy, và công ty chúng tôi cho thấy, là bạn cần cả hai. ... Bạn phải tìm ra một cách đổi mới mới để làm mọi thứ nhanh hơn."
DeepSeek được cho là đã sử dụng một kỹ thuật gọi là chưng cất, trong đó AI được đào tạo bằng cách sử dụng một mô hình AI lớn hơn làm giáo viên, cho phép phát triển các mô hình nhỏ hơn nhanh chóng và hiệu quả về chi phí hơn.
"Đào tạo các mô hình lớn rất tốn kém, và những mô hình này là tài sản mất giá nhanh nhất trong lịch sử loài người," Ha nói. "Vì vậy, từ góc độ chiến lược kinh doanh, tôi muốn tiêu rất ít nguồn lực để đào tạo các mô hình ngôn ngữ lớn, và tập trung vào nghiên cứu có tác động lớn hơn, như tạo ra LLM bằng AI với giá bằng một phần tỷ."
Giống như Oba, Ha nói rằng ông tin rằng những hạn chế về nguồn lực ở Trung Quốc và Nhật Bản có thể thúc đẩy các giải pháp đổi mới hơn. "Tại một công ty lớn với hàng tỷ đô la tài trợ, họ quen với một lượng lớn tài nguyên. ... Nếu chúng tôi có nguồn lực hạn chế, chúng tôi có thể làm những điều tốt hơn," ông nói, nhắc lại câu châm ngôn cũ, "Cần thiết là mẹ đẻ của đổi mới."