DeepSeek R1 tạo ra sự chú ý lớn trong công chúng, tương tự như ChatGPT vào năm 2022. Sự kiện này khiến nhiều người đặt câu hỏi về vị thế của Trung Quốc trong cuộc đua AI.
Một số quan điểm chính về DeepSeek R1 bao gồm:
Điểm nhấn quan trọng: DeepSeek R1 không phải là Sputnik moment, mà là Model T moment của AI
📌
DeepSeek R1 không chỉ đánh dấu sự cạnh tranh gay gắt giữa Mỹ và Trung Quốc trong lĩnh vực AI, mà còn báo hiệu sự bùng nổ của các mô hình AI suy luận với chi phí rẻ và khả năng phổ biến rộng rãi. Mô hình này có thể khiến AI trở thành một sản phẩm đại trà, giống như cách Model T đã làm với ô tô. Điều này mang lại cơ hội lớn cho các nước đang phát triển và các startup AI nhỏ, nhưng cũng đặt ra câu hỏi về tương lai của con người khi AI có thể thay thế lợi thế trí tuệ của chúng ta.
https://3quarksdaily.com/3quarksdaily/2025/02/deepseek-is-not-a-sputnik-moment-it-is-a-model-t-moment.html
DeepSeek không phải là khoảnh khắc Sputnik, mà là khoảnh khắc Model T
Đăng vào Thứ Hai, 3 tháng 2, 2025 6:00AM bởi Malcolm Murray
bởi Malcolm Murray
Là một người suy nghĩ về AI mỗi ngày, tôi luôn thấy thú vị khi những sự kiện trong lĩnh vực AI vượt ra khỏi phạm vi của những người quan tâm đến AI và thu hút sự chú ý của công chúng. ChatGPT vào tháng 11 năm 2022 chắc chắn là một trong số đó. Khả năng tạo podcast của NotebookLM từ Google gần như đạt đến mức độ lan truyền đại chúng, nhưng vẫn chưa đủ để nhận được tin nhắn từ bà ngoại. Tuy nhiên, tuần này, với sự ra mắt mô hình R1 của DeepSeek, lại có thêm một sự kiện đạt đến tầm cỡ của ChatGPT, một lần nữa khiến vợ/chồng và đồng nghiệp nhắn tin đặt câu hỏi.
Đã có hàng nghìn bài phân tích về chủ đề này, và tôi xin lỗi trước nếu bạn đã cảm thấy chán. Tuy nhiên, tôi hy vọng bài viết này có thể mang lại điều mà Brad DeLong gọi là "Giá trị trên mức thay thế", bằng cách giúp bạn hiểu được những quan điểm khác nhau phù hợp như thế nào với bức tranh tổng thể hiện tại. Tôi cũng muốn nhấn mạnh khía cạnh “Model T”, điều mà tôi cho rằng chưa được chú ý đúng mức.
Trước tiên, chúng ta có cách tiếp cận địa chính trị, hay cụ thể hơn là khoảng cách giữa Mỹ và Trung Quốc. Đây là lý do tại sao Marc Andreessen và nhiều người khác gọi DeepSeek là một “khoảnh khắc Sputnik”. Trước đây, giả định phổ biến là Trung Quốc đi sau Mỹ khoảng 1-2 năm trong việc phát triển các mô hình AI. Tuy nhiên, giả định này đã sụp đổ trong tuần này; thực tế, Trung Quốc chỉ chậm hơn Mỹ vài tháng. Điều này cũng liên quan đến quan điểm lâu nay ở Mỹ rằng Trung Quốc chỉ là kẻ đi theo nhanh, chỉ có thể sao chép Mỹ. Quan điểm này đã bị các kỹ sư DeepSeek bác bỏ bằng cách tiên phong một số kỹ thuật học máy rất thông minh, như tăng hiệu suất nhờ tận dụng tốt hơn Mixture of Experts (MOE) và Multi-Head Latent Attention (MLA). Vì vậy, không có gì ngạc nhiên khi điều này gây sốc với nhiều người Mỹ. Tuy nhiên, phép so sánh với Sputnik có phần không hợp lý. Xét đến việc Mỹ đã tập trung rất nhiều vào AI và đang đầu tư hàng trăm tỷ USD vào lĩnh vực này, không rõ “khoảnh khắc Sputnik” này sẽ thay đổi điều gì. Trump, Altman và các cộng sự vừa công bố khoản tài trợ 500 tỷ USD cho Stargate, vậy họ sẽ phản ứng với DeepSeek bằng cách công bố thêm 500 tỷ USD nữa sao? Điều đó có vẻ khó xảy ra, vì phần lớn số tiền trong gói Stargate thực ra đã được cam kết từ nhiều năm trước, và phần còn lại có thể chỉ là những con số trên giấy, không thực sự tồn tại.
Thứ hai, có góc nhìn về chính sách thương mại, hay nói cụ thể hơn là đặt câu hỏi về hiệu quả của các biện pháp kiểm soát xuất khẩu. Nhiều người coi thành công của DeepSeek là dấu hiệu cho thấy các biện pháp kiểm soát xuất khẩu chip không hiệu quả. Đây là một trong số ít lĩnh vực mà chính quyền Biden và Trump có sự đồng thuận, và Trump được cho là sẽ giữ nguyên các hạn chế mà Biden đã áp đặt. Tuy nhiên, giả định này cũng đã sụp đổ đối với nhiều người, với lập luận rằng “xem kìa, nó phản tác dụng, chúng ta quên mất rằng nhu cầu là mẹ của sáng tạo – điều này chỉ khiến Trung Quốc càng có động lực đổi mới hơn”. Đây là một cách nhìn nhận tự nhiên, nhưng không chính xác. Trước tiên, nó phản ánh sự hiểu sai về dòng thời gian, vì hầu hết số chip mà DeepSeek sử dụng đã được mua trước khi các lệnh hạn chế có hiệu lực. Ngoài ra, lập luận này còn sai lầm ở chỗ cho rằng DeepSeek sẽ không đạt được hiệu năng cao hơn nếu có nhiều chip hơn, trong khi thực tế họ sẵn sàng đánh đổi rất nhiều để có thêm chip tốt hơn. Rõ ràng, chip vẫn sẽ tiếp tục đóng vai trò quan trọng. Nếu có điều gì đó rút ra từ DeepSeek, thì đó là bộ ba LLM gồm dữ liệu, năng lực tính toán và thuật toán vẫn còn nguyên giá trị, và chưa có dấu hiệu nào cho thấy chúng sẽ trở thành yếu tố giới hạn trong tương lai gần (DeepSeek cũng sử dụng rất nhiều dữ liệu tổng hợp).
Thứ ba, có góc nhìn kinh tế, hay cụ thể hơn là khoảng cách giữa các mô hình mã nguồn đóng và mã nguồn mở. Giá trị định giá của tất cả các công ty trong chuỗi giá trị AI, từ những công ty niêm yết như Nvidia đến các công ty tư nhân như OpenAI, đã tăng vọt trong những năm qua. Một phần trong mức định giá cao ngất ngưởng này xuất phát từ giả định rằng họ sẽ dần thiết lập được thế độc quyền và tạo ra lợi thế cạnh tranh bền vững. Theo góc nhìn này, với Nvidia, chi phí huấn luyện được cho là thấp hơn nhiều của R1 cho thấy nhu cầu về chip có thể giảm trong tương lai. Còn với OpenAI, việc các mô hình có thể được tái tạo nhanh chóng cho thấy họ sẽ khó có thể duy trì mức lợi nhuận cao từ sản phẩm của mình. Tuy nhiên, lập luận này có thể cũng chưa chính xác. Đối với các công ty đại chúng, sau một thời gian dài giá cổ phiếu tăng liên tục, nhiều nhà quản lý quỹ có lẽ đã nhân cơ hội để chốt lời. Ngoài ra, còn có tin đồn rằng điều thực sự làm thị trường chao đảo là rò rỉ thông tin về việc Trump sắp đe dọa áp thuế đối với Đài Loan. Định giá của OpenAI dường như cũng không bị ảnh hưởng nhiều, nếu những tin đồn gần đây về vòng gọi vốn 40 tỷ USD là đúng. Ngay cả khi lợi thế về mô hình đang dần thu hẹp, nỗ lực chuyển đổi thành một công ty sản phẩm của OpenAI có vẻ đang mang lại kết quả. Dù các mô hình AI có trở nên phổ biến đến mức nào, một vị trí thống lĩnh trong thị trường AI doanh nghiệp vẫn đảm bảo biên lợi nhuận tốt cho OpenAI.
Thứ tư, có góc nhìn về sản phẩm. Một số người cho rằng điều quan trọng trong câu chuyện DeepSeek là các lựa chọn thiết kế sản phẩm. Cụ thể, vì đây là khoảnh khắc "tin nhắn từ bà ngoại" đầu tiên trong lĩnh vực AI sau một thời gian dài, phần lớn sự phát triển AI gần đây đã diễn ra trong âm thầm. Do đó, đây là lần đầu tiên người dùng AI phổ thông được chứng kiến các mô hình thể hiện quá trình Chain-of-Thought (chuỗi suy luận) của mình theo thời gian thực. Đây được xem là một trong những yếu tố giải thích cho mức độ phổ biến ngoài mong đợi của ứng dụng DeepSeek đối với công chúng. Điều này cũng có thể liên quan đến xu hướng thú vị về các ứng dụng Trung Quốc cực kỳ phổ biến tại Mỹ. Thật kỳ lạ khi chứng kiến sự chuyển dịch từ TikTok sang RedNote, khi người dùng ở trung tâm nước Mỹ lại đổ xô vào một ứng dụng được đặt theo tên Mao và chứa đầy những thuật ngữ văn hóa khó hiểu.
Cuối cùng, có góc nhìn mang tính hả hê đơn thuần. Những người vốn không ưa các "tech bro" ở Silicon Valley và tầm ảnh hưởng ngày càng lớn của họ trong chính quyền Mỹ đã vui mừng khi thấy Sam Altman và cộng sự gặp khó khăn. Tương tự, cũng có sự hả hê trước cú sốc đối với chính quyền Trump. Đang hưng phấn với quyền lực mới, chính quyền Trump liên tục ban hành các Sắc lệnh hành pháp một cách tràn lan (thực tế là hầu hết theo hướng cực hữu), và nhiều người tỏ ra vui mừng khi có bất cứ điều gì làm lung lay sự tự tin đó. Quan điểm này có lẽ cũng có phần đúng, xét đến những cảm xúc mạnh mẽ đang chi phối tình hình.
Tuy nhiên, điều tôi muốn nhấn mạnh là một khía cạnh mà tôi cho rằng chưa được đánh giá đúng mức – đó là sự phổ biến sắp tới của AI. Việc ra mắt R1 có thể được xem là một “khoảnh khắc Model T” hơn là khoảnh khắc Sputnik. Khi Ford ra mắt Model T, đó là bước khởi đầu cho việc ô tô trở thành một sản phẩm đại trà. Sự kiện lần này có thể đánh dấu một bước ngoặt tương tự, mở đường cho AI có khả năng suy luận vượt trội con người trở nên phổ biến khắp nơi.
R1 là một mô hình thuộc thế hệ mới – “mô hình suy luận”, với khả năng vượt trội con người trong các tác vụ như toán học và lập trình. Trước đây, chưa từng có mô hình nào với năng lực như vậy được phát hành dưới dạng mã nguồn mở. Hơn thế nữa, chi phí huấn luyện R1 cực kỳ thấp, và chi phí vận hành cũng rất rẻ. Đã có nhiều tranh luận về con số cụ thể, và dĩ nhiên, tổng chi phí huấn luyện mô hình không chỉ đơn thuần là 6 triệu USD. Tuy nhiên, tranh cãi này bỏ lỡ một vấn đề quan trọng hơn: dù con số chính xác là bao nhiêu, thì chi phí này vẫn thấp hơn ít nhất một bậc so với các mô hình tương đương khác. Dù lợi thế chi phí này đến từ các phương pháp có thể gây tranh cãi về mặt pháp lý như distillation, hay hoàn toàn do sự xuất sắc trong kỹ thuật, thì điều đó cũng không quan trọng – bởi vì DeepSeek đã cho thấy rằng cả hai yếu tố này sẽ xuất hiện với tần suất dày đặc trong tương lai.
Các mô hình suy luận đánh dấu sự khởi đầu của một kỷ nguyên mới: tính toán tại thời điểm suy luận (inference-time compute), nơi mô hình sử dụng sức mạnh tính toán không chỉ trong quá trình huấn luyện mà còn ngay tại thời điểm tạo ra câu trả lời. Kỷ nguyên này mới chỉ bắt đầu. Việc một công ty khởi nghiệp nhỏ, sử dụng thế hệ chip cũ, có thể tái tạo hiệu năng hàng đầu chỉ trong vài tháng cho thấy rằng vài năm tới sẽ đầy biến động với sự bùng nổ của các mô hình AI cực kỳ mạnh mẽ. Ngoài ra, việc chi phí suy luận trên R1 rẻ hơn nhiều so với OpenAI’s o1 cho thấy chúng ta sẽ sớm chứng kiến một nền trí tuệ “rẻ đến mức không cần đo đếm” xuất hiện trên mọi thiết bị.
Sự phổ biến của trí tuệ nhân tạo có thể là tin vui đối với các quốc gia thuộc Global South – chẳng hạn, Ấn Độ dường như đã đặc biệt chú ý đến xu hướng này. Đây cũng là tin tốt cho các công ty AI nhỏ hơn và tất nhiên là cho sự tiến bộ khoa học nói chung. Tuy nhiên, vẫn còn phải chờ xem liệu điều này có phải là tin tốt cho loài người hay không – một loài thống trị chuỗi thức ăn nhờ vào lợi thế lớn nhất của mình: trí tuệ vượt trội, được phân bố rộng khắp.