Các công ty AI đang chạy đua sử dụng kỹ thuật "chưng cất" để tạo ra các mô hình rẻ hơn

  • DeepSeek, công ty AI Trung Quốc, gây chấn động khi sử dụng kỹ thuật "chưng cất" để tạo ra mô hình AI mạnh mẽ và hiệu quả dựa trên hệ thống nguồn mở của Meta và Alibaba.

  • Kỹ thuật chưng cất cho phép tạo ra mô hình "học sinh" nhỏ hơn từ mô hình "giáo viên" lớn, giúp chuyển giao kiến thức và dự đoán nhanh chóng.

  • Các công ty hàng đầu như OpenAI, Microsoft và Meta đang chạy đua sử dụng chưng cất để tạo ra mô hình AI rẻ hơn cho người dùng và doanh nghiệp.

  • Chưng cất giúp các startup tiếp cận khả năng của mô hình lớn với chi phí thấp hơn nhiều, cho phép chạy AI nhanh chóng trên các thiết bị như laptop và điện thoại.

  • OpenAI cung cấp nền tảng cho phép distil từ các mô hình lớn như GPT-4. Microsoft đã sử dụng GPT-4 để chưng cất dòng mô hình nhỏ Phi.

  • Mô hình chưng cất có khả năng hạn chế hơn nhưng đủ mạnh cho nhiều ứng dụng như chatbot dịch vụ khách hàng.

  • Việc sử dụng mô hình chưng cất rẻ hơn có thể ảnh hưởng đến doanh thu của các công ty AI lớn.

  • OpenAI cố gắng ngăn chặn việc chưng cất mô hình lớn của họ để tạo ra đối thủ cạnh tranh, nhưng rất khó tránh hoàn toàn.

  • Chưng cất là chiến thắng cho những người ủng hộ mô hình mở, cho phép các nhà phát triển xây dựng dựa trên công nghệ có sẵn miễn phí.

  • Kỹ thuật này cũng đặt ra câu hỏi về lợi thế của người đi đầu trong việc xây dựng mô hình ngôn ngữ lớn, khi các đối thủ có thể bắt kịp nhanh chóng.

📌 Kỹ thuật chưng cất đang tạo ra cuộc cách mạng trong ngành AI, cho phép tạo ra các mô hình nhỏ gọn, hiệu quả với chi phí thấp. Điều này mở ra cơ hội cho các startup nhưng cũng đặt ra thách thức về mô hình kinh doanh và bảo vệ công nghệ cho các công ty lớn như OpenAI.

https://www.ft.com/content/c117e853-d2a6-4e7c-aea9-e88c7226c31f

#FT

Các công ty AI chạy đua sử dụng ‘distillation’ để tạo ra mô hình rẻ hơn

DeepSeek áp dụng kỹ thuật này để tạo ra các mô hình nhỏ nhưng mạnh mẽ dựa trên công nghệ của đối thủ như Meta

Cristina Criddle tại San Francisco và Melissa Heikkilä tại London

Các công ty trí tuệ nhân tạo (AI) hàng đầu, bao gồm OpenAI, Microsoft và Meta, đang áp dụng một quy trình gọi là “distillation” (chưng cất) trong cuộc đua toàn cầu nhằm phát triển các mô hình AI có chi phí thấp hơn cho người tiêu dùng và doanh nghiệp.

Kỹ thuật này thu hút sự chú ý rộng rãi sau khi DeepSeek của Trung Quốc sử dụng nó để xây dựng các mô hình AI mạnh mẽ và hiệu quả, dựa trên hệ thống mã nguồn mở do Meta và Alibaba phát triển. Đột phá này đã làm lung lay niềm tin vào vị thế dẫn đầu của Thung lũng Silicon trong lĩnh vực AI, khiến các nhà đầu tư Phố Wall rút hàng tỷ USD khỏi cổ phiếu của các tập đoàn công nghệ lớn của Mỹ.

Thông qua distillation, các công ty sử dụng một mô hình ngôn ngữ lớn — được gọi là mô hình “giáo viên” — để tạo ra từ tiếp theo có khả năng xuất hiện trong một câu. Mô hình giáo viên tạo dữ liệu giúp huấn luyện một mô hình “học trò” nhỏ hơn, từ đó nhanh chóng chuyển giao tri thức và khả năng dự đoán của mô hình lớn sang mô hình nhỏ.

Mặc dù distillation đã được sử dụng rộng rãi trong nhiều năm, những tiến bộ gần đây khiến các chuyên gia tin rằng quy trình này sẽ ngày càng trở thành lợi thế cho các công ty khởi nghiệp đang tìm kiếm phương pháp tiết kiệm chi phí để phát triển ứng dụng dựa trên AI.

“Distillation thực sự rất kỳ diệu,” Olivier Godement, giám đốc sản phẩm nền tảng OpenAI, cho biết. “Nó giúp biến một mô hình tiên tiến cực lớn thành một mô hình nhỏ hơn nhưng vẫn rất mạnh mẽ trong các tác vụ cụ thể — vừa siêu rẻ vừa siêu nhanh.”

Distillation giúp giảm chi phí cho doanh nghiệp

Các mô hình ngôn ngữ lớn như GPT-4 của OpenAI, Gemini của Google và Llama của Meta đòi hỏi lượng dữ liệu và tài nguyên tính toán khổng lồ để phát triển và duy trì. Dù các công ty không tiết lộ con số chính xác, chi phí đào tạo một mô hình lớn có thể lên đến hàng trăm triệu USD.

Nhờ distillation, các nhà phát triển và doanh nghiệp có thể tiếp cận năng lực của những mô hình này với chi phí thấp hơn nhiều, cho phép chạy AI trên các thiết bị như laptop và điện thoại thông minh. Các nhà phát triển có thể sử dụng nền tảng của OpenAI để thực hiện distillation, học hỏi từ các mô hình ngôn ngữ lớn vốn là nền tảng của ChatGPT.

Microsoft, nhà đầu tư lớn nhất của OpenAI với khoản rót vốn gần 14 tỷ USD, đã sử dụng GPT-4 để tinh luyện dòng mô hình ngôn ngữ nhỏ Phi trong một thỏa thuận thương mại.

Tuy nhiên, OpenAI cho rằng DeepSeek đã sử dụng distillation để huấn luyện mô hình cạnh tranh của họ, vi phạm điều khoản dịch vụ của OpenAI. DeepSeek chưa đưa ra bình luận về cáo buộc này.

Mặc dù distillation có thể tạo ra các mô hình hiệu quả cao, các chuyên gia cho rằng chúng vẫn có những hạn chế nhất định.

“Distillation là một sự đánh đổi thú vị: nếu mô hình nhỏ đi, khả năng của nó cũng sẽ giảm,” Ahmed Awadallah từ Microsoft Research giải thích. Ông lấy ví dụ: “Một mô hình chưng cất có thể rất giỏi trong việc tóm tắt email, nhưng sẽ không thực hiện tốt các nhiệm vụ khác.”

David Cox, phó chủ tịch phụ trách mô hình AI tại IBM Research, cho biết hầu hết doanh nghiệp không cần đến một mô hình khổng lồ để vận hành sản phẩm của họ. Các mô hình chưng cất đủ mạnh để sử dụng trong chatbot chăm sóc khách hàng hoặc chạy trên thiết bị nhỏ như điện thoại.

“Bất cứ khi nào bạn có thể giảm chi phí mà vẫn đạt hiệu suất mong muốn, gần như không có lý do gì để không làm điều đó,” ông nói.

Thách thức đối với các công ty AI lớn

Điều này đặt ra thách thức cho mô hình kinh doanh của các công ty AI hàng đầu. Ngay cả khi các nhà phát triển sử dụng mô hình chưng cất từ OpenAI, chi phí vận hành vẫn thấp hơn nhiều, đồng nghĩa với doanh thu giảm sút. Các công ty như OpenAI thường tính phí thấp hơn cho mô hình chưng cất do chúng tiêu tốn ít tài nguyên tính toán hơn.

Dù vậy, Godement của OpenAI lập luận rằng các mô hình lớn vẫn cần thiết cho “những nhiệm vụ đòi hỏi trí tuệ cao và có tính chất quan trọng,” nơi “các doanh nghiệp sẵn sàng trả giá cao hơn để có độ chính xác và tin cậy tối đa.” Ông cũng nhấn mạnh rằng các mô hình lớn đóng vai trò khám phá những khả năng mới, sau đó có thể được chưng cất thành các mô hình nhỏ hơn.

Dù vậy, OpenAI vẫn muốn ngăn chặn việc mô hình lớn của họ bị chưng cất để huấn luyện đối thủ. Công ty có đội ngũ giám sát việc sử dụng AI và có thể chặn quyền truy cập của người dùng bị nghi ngờ trích xuất lượng lớn dữ liệu để đào tạo đối thủ cạnh tranh. OpenAI dường như đã thực hiện điều này đối với một số tài khoản mà họ cho là có liên hệ với DeepSeek. Tuy nhiên, phần lớn các biện pháp này chỉ có thể được thực hiện sau khi sự việc đã xảy ra.

“OpenAI đã cố gắng bảo vệ mô hình khỏi bị chưng cất trong một thời gian dài, nhưng rất khó để ngăn chặn hoàn toàn,” Douwe Kiela, CEO của Contextual AI – một công ty khởi nghiệp phát triển công cụ tìm kiếm thông tin cho doanh nghiệp – cho biết.

Lợi thế cho mô hình mã nguồn mở

Distillation cũng được xem là một chiến thắng đối với những người ủng hộ mô hình AI mã nguồn mở, nơi công nghệ được công khai để các nhà phát triển sử dụng và cải tiến. DeepSeek đã phát hành các mô hình gần đây của họ ở dạng mở cho cộng đồng.

“Chúng tôi sẽ sử dụng [distillation] ngay lập tức trong các sản phẩm của mình,” Yann LeCun, nhà khoa học trưởng về AI tại Meta, cho biết. “Đó chính là tinh thần của mã nguồn mở. Bạn hưởng lợi từ tiến bộ của mọi người, và ngược lại, mọi người cũng hưởng lợi từ bạn, miễn là quá trình đó được công khai.”

Tuy nhiên, distillation cũng đồng nghĩa với việc các công ty chi hàng tỷ USD để phát triển AI tiên tiến vẫn có thể nhanh chóng bị các đối thủ bắt kịp, như trường hợp của DeepSeek. Điều này đặt ra câu hỏi về lợi thế của người tiên phong trong việc xây dựng mô hình ngôn ngữ lớn (LLM), khi mà khả năng của chúng có thể được sao chép trong vòng vài tháng.

“Trong một thế giới thay đổi nhanh chóng như hiện nay, bạn có thể đổ rất nhiều tiền vào phát triển theo cách khó khăn nhất, nhưng sau đó cả ngành sẽ ngay lập tức đuổi kịp,” Cox từ IBM nói. “Đây thực sự là một bối cảnh kinh doanh thú vị và đầy thách thức.”

 

AI companies race to use ‘distillation’ to produce cheaper models
DeepSeek used technique to create smaller powerful models based on the technology of competitors such as Meta

Cristina Criddle in San Francisco and Melissa Heikkilä in London
Published
21 minutes ago

Leading artificial intelligence firms including OpenAI, Microsoft and Meta are turning to a process called “distillation” in the global race to create AI models that are cheaper for consumers and businesses to adopt.
The technique caught widespread attention after China’s DeepSeek used it to build powerful and efficient AI models based on open-source systems released by competitors Meta and Alibaba. The breakthrough rocked confidence in Silicon Valley’s AI leadership, leading Wall Street investors to wipe billions of dollars of value from US Big Tech stocks.

Through distillation, companies take a large language model — dubbed a “teacher” model — which generates the next likely word in a sentence. The teacher model generates data which then trains a smaller “student” model, helping to quickly transfer knowledge and predictions of the bigger model to the smaller one.
While distillation has been widely used for years, recent advances have led industry experts to believe the process will increasingly be a boon for start-ups seeking cost-effective ways to build applications based on the technology.
“Distillation is quite magical,” said Olivier Godement, head of product for OpenAI’s platform. “It’s the process of essentially taking a very large smart frontier model and using that model to teach a smaller model . . . very capable in specific tasks that is super cheap and super fast to execute.”

Large language models such as OpenAI’s GPT-4, Google’s Gemini and Meta’s Llama require massive amounts of data and computing power to develop and maintain. While the companies have not revealed precise figures for how much it costs to train large models, it is likely to be hundreds of millions of dollars.

Thanks to distillation, developers and businesses can access these models’ capabilities at a fraction of the price, allowing app developers to run AI models quickly on devices such as laptops and smartphones. 
Developers can use OpenAI’s platform for distillation, learning from the large language models that underpin products like ChatGPT. OpenAI’s largest backer, Microsoft, used GPT-4 to distil its small language family of models Phi as part of a commercial partnership after investing nearly $14bn into the company.

However, the San Francisco-based start-up has said it believes DeepSeek distilled OpenAI’s models to train its competitor, a move that would be against its terms of service. DeepSeek has not commented on the claims.
While distillation can be used to create high-performing models, experts add they are more limited.

“Distillation presents an interesting trade-off; if you make the models smaller, you inevitably reduce their capability,” said Ahmed Awadallah of Microsoft Research, who said a distilled model can be designed to be very good at summarising emails, for example, “but it really would not be good at anything else.”
David Cox, vice-president for AI models at IBM Research, said most businesses do not need a massive model to run their products, and distilled ones are powerful enough for purposes such as customer service chatbots or running on smaller devices like phones.
“Anytime you can [make it less expensive] and it gives you the right performance you want, there is very little reason not to do it,” he added.
That presents a challenge to many of the business models of leading AI firms. Even if developers use distilled models from companies like OpenAI, they cost far less to run, are less expensive to create, and, therefore, generate less revenue. Model-makers like OpenAI often charge less for the use of distilled models as they require less computational load.
Yet, OpenAI’s Godement argued that large language models will still be required for “high intelligence and high stakes tasks” where “businesses are willing to pay more for a high level of accuracy and reliability”. He added that large models will also be needed to discover new capabilities that can then be distilled into smaller ones.
Still, the company aims to prevent its large models from being distilled to train a competitor. OpenAI has teams monitoring usage and can remove access to users it suspects are generating vast amounts of data to export and train a rival, as it has apparently done with accounts it believes were linked to DeepSeek. Yet much of this action happens retroactively.
“OpenAI has been trying to protect against distillation for a long time, but it is very hard to avoid it altogether,” said Douwe Kiela, chief executive of Contextual AI, a start-up building information retrieval tools for enterprises.
Distillation is also a victory for advocates of open models, where the technology is made freely available for developers to build upon. DeepSeek has made its recent models also open for developers.
“We’re going to use [distillation] and put it in our products right away,” said Yann LeCun, Meta’s chief AI scientist. “That’s the whole idea of open source. You profit from everyone and everyone else’s progress as long as those processes are open.”
Distillation also means that model-makers can spend billions of dollars to advance the capabilities of AI systems but still face competitors that often catch up quickly, as DeepSeek’s recent releases demonstrate. This raises questions about the first-mover advantage in building LLMs when their capabilities can be replicated in a matter of months.
“In a world where things are moving so fast . . . you could actually spend a lot of money, doing it the hard way, and then the rest of the field is right on your heels,” IBM’s Cox said. “So it is an interesting and tricky business landscape.”
Additional reporting Michael Acton in San Francisco

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo