Cohere ra mắt mô hình AI chi phí thấp tập trung vào khách hàng doanh nghiệp

  • Công ty AI Cohere Inc. đã phát hành mô hình ngôn ngữ lớn (LLM) chi phí thấp mới tên Command A, được xây dựng với chi phí dưới 30 triệu USD - thấp hơn nhiều so với các đối thủ cạnh tranh.

  • Theo đánh giá từ Cohere, Command A hoạt động ngang bằng hoặc tốt hơn các mô hình hàng đầu từ OpenAI và DeepSeek (Trung Quốc) trong một số tác vụ như lập trình, trả lời câu hỏi kỹ thuật và hỗ trợ dịch vụ khách hàng.

  • Nick Frosst, đồng sáng lập Cohere, cho biết công ty đạt được kết quả này nhờ tập trung xây dựng mô hình hữu ích cho khách hàng doanh nghiệp, thay vì công nghệ có thể làm mọi thứ.

  • Khác với OpenAI và Anthropic đang cố gắng phát triển trí tuệ nhân tạo tổng quát (AGI), Cohere tập trung vào hiệu quả đầu tư (ROI) thay vì AGI.

  • Theo CEO Anthropic Dario Amodei, các mô hình LLM tiên tiến có thể tốn 100 triệu USD để đào tạo, với chi phí tăng nhanh chóng.

  • Cohere chỉ có quyền truy cập vào khoảng 8.500 GPU, trong khi xAI của Elon Musk xây dựng cơ sở với 100.000 GPU và có kế hoạch tăng gấp đôi con số này.

  • Giai đoạn đầu xây dựng Command A chỉ sử dụng 2.000 GPU, và khách hàng có thể triển khai mô hình trên cơ sở hạ tầng máy tính của riêng họ với chỉ 2 GPU, trong khi các mô hình khác có thể yêu cầu tới 32 GPU.

  • Cohere khẳng định chi phí 30 triệu USD bao gồm toàn bộ quá trình đào tạo, không chỉ nỗ lực cuối cùng.

  • Công ty cũng tập trung vào việc đảm bảo mô hình thông thạo nhiều ngôn ngữ, tìm thấy sự quan tâm bên ngoài Bắc Mỹ, đã phát triển LLM tiếng Nhật với Fujitsu và gần đây hợp tác với LG CNS.

  • Cohere không có ứng dụng hướng đến người tiêu dùng như ChatGPT, vốn đòi hỏi sức mạnh xử lý lớn, giúp tiết kiệm chi phí đáng kể.

📌 Cohere đã tạo ra mô hình AI Command A với chi phí chỉ 30 triệu USD, bằng cách sử dụng 2.000 GPU, tập trung vào nhu cầu doanh nghiệp thay vì theo đuổi AGI. Mô hình này cạnh tranh được với các đối thủ lớn trong các tác vụ doanh nghiệp, chỉ cần 2 GPU để triển khai.

https://www.theglobeandmail.com/business/article-cohere-low-cost-ai-model/

 

Cohere ra mắt mô hình AI chi phí thấp tập trung vào khách hàng doanh nghiệp
Joe Castaldo
Đăng 45 phút trước

Đồng sáng lập Cohere, Nick Frosst, cho biết công ty đã đạt được kết quả nhờ tập trung vào việc xây dựng các mô hình hữu ích cho khách hàng doanh nghiệp, thay vì tạo ra công nghệ có thể làm mọi thứ.
Christopher Katsarov/The Globe and Mail

Công ty trí tuệ nhân tạo Cohere Inc. vừa ra mắt một mô hình AI chi phí thấp mà công ty cho biết được xây dựng với tài nguyên tính toán ít hơn so với các sản phẩm tương tự từ đối thủ, trong khi một số công ty khác đang chi hàng tỷ USD cho trung tâm dữ liệu và chip để hỗ trợ phát triển.

Mô hình ngôn ngữ lớn (LLM) mới nhất của công ty có trụ sở tại Toronto được xây dựng với chi phí dưới 30 triệu USD. Các công ty khác đang chi nhiều hơn gấp hàng chục lần con số này. Giám đốc điều hành Anthropic, Dario Amodei, đã cho biết rằng việc đào tạo các LLM tiên tiến có thể tiêu tốn tới 100 triệu USD, và chi phí đang tăng lên nhanh chóng.

Các đánh giá do Cohere cung cấp cho thấy mô hình, có tên là Command A, có khả năng ngang bằng hoặc vượt trội so với các mô hình hàng đầu từ OpenAI và công ty DeepSeek của Trung Quốc trong một số nhiệm vụ, như lập trình, trả lời câu hỏi kỹ thuật và hỗ trợ dịch vụ khách hàng.

Đồng sáng lập Cohere, Nick Frosst, cho biết công ty đã đạt được kết quả này bằng cách tập trung vào việc xây dựng các mô hình hữu ích cho khách hàng doanh nghiệp, thay vì tạo ra công nghệ có thể làm mọi thứ. "Chúng tôi đang đào tạo để nó làm tốt những gì khách hàng cần. Bằng cách tập trung vào điều đó, chúng tôi đã có thể hoạt động hiệu quả hơn nhiều so với các đối thủ khác," ông nói.

Các công ty như OpenAI và Anthropic đang cố gắng phát triển trí tuệ nhân tạo tổng quát (AGI), một thuật ngữ không được định nghĩa rõ ràng, dùng để chỉ các hệ thống thông minh hơn con người. Để đạt được điều đó, các công ty này cho rằng cần có nhiều sức mạnh tính toán hơn. "Những người nói rằng AI ngày càng lớn mạnh hơn là những người liên tục nói rằng AGI đã ở rất gần," ông Frosst nói. "Đó không phải là trọng tâm của chúng tôi, cũng không phải là niềm tin khoa học của tôi."

Cohere được thành lập vào năm 2019 và xây dựng các LLM có khả năng tạo và phân tích văn bản, đồng thời có thể được sử dụng để tự động hóa các công việc doanh nghiệp đơn giản. AI tạo sinh bắt đầu bùng nổ vào cuối năm 2022 khi OpenAI ra mắt ChatGPT. Kể từ đó, giới doanh nghiệp đã tập trung mạnh vào việc áp dụng công nghệ này để nâng cao năng suất.

Một số công ty AI có nhu cầu lớn về GPU (bộ xử lý đồ họa), loại chip máy tính đắt tiền cung cấp sức mạnh cho các mô hình và ứng dụng AI. Chẳng hạn, xAI của Elon Musk đã xây dựng một cơ sở bao gồm 100.000 GPU và có kế hoạch tăng gấp đôi con số đó. OpenAI, Oracle và các công ty khác đang đầu tư khoảng 500 tỷ USD để xây dựng một siêu máy tính AI khổng lồ có tên Stargate.

Ngược lại, Cohere có quyền truy cập vào khoảng 8.500 GPU, theo ông Frosst, người tự hào nhấn mạnh vào hiệu quả hoạt động của công ty. "Châm ngôn của tôi gần đây là ROI, không phải AGI," ông nói. Công ty cũng không cung cấp các ứng dụng dành cho người tiêu dùng như ChatGPT, vốn đòi hỏi rất nhiều sức mạnh xử lý.

Cohere chỉ sử dụng 2.000 GPU trong giai đoạn đầu tiên khi xây dựng Command A. Đối với khách hàng muốn triển khai mô hình trên cơ sở hạ tầng máy tính của riêng họ, họ có thể làm điều đó chỉ với 2 GPU. Các mô hình khác có thể cần tới 32 GPU.

Vào tháng 1, DeepSeek đã khiến cổ phiếu công nghệ bị bán tháo ồ ạt sau khi công ty công bố chi tiết về các mô hình AI tạo sinh của mình. Công ty cho biết đã sử dụng hơn 2.000 GPU để xây dựng một trong các mô hình của mình với chi phí chỉ 5,6 triệu USD, làm dấy lên câu hỏi về số tiền khổng lồ mà các đối thủ đang chi ra. Thông tin này khiến nhiều người trong ngành kinh ngạc, với một số người suy đoán rằng DeepSeek có thể đang nắm giữ tới 50.000 chip mà chưa công bố.

Tuy nhiên, chi phí đào tạo mà DeepSeek công bố có thể không phản ánh toàn bộ bức tranh. Việc xây dựng một mô hình AI có thể mất nhiều lần thử nghiệm để đạt được kết quả mong muốn, và mức giá mà DeepSeek đưa ra có thể chỉ tính cho lần thử cuối cùng. "Không phải bạn chỉ cần bắt đầu quy trình và là xong. Có rất nhiều vấn đề tiềm ẩn trong quá trình đó," Gennady Pekhimenko, giám đốc điều hành của công ty hiệu quả máy học CentML, từng nói với Globe and Mail.

Chi phí 30 triệu USD cho Command A bao gồm toàn bộ giai đoạn đào tạo. "Đó là toàn bộ công việc đã thực hiện để tạo ra nó," ông Frosst nói.

Tuy nhiên, bài kiểm tra thực sự cho sự thành công sẽ là liệu các doanh nghiệp có sẵn sàng trả tiền để sử dụng nó hay không. Cohere, công ty cũng đang tập trung vào việc đảm bảo các mô hình của mình có khả năng xử lý nhiều ngôn ngữ, đã thu hút được sự quan tâm bên ngoài khu vực Bắc Mỹ. Công ty đã phát triển một mô hình LLM tiếng Nhật với Fujitsu và gần đây đã hợp tác với LG CNS, đơn vị dịch vụ công nghệ của tập đoàn Hàn Quốc LG.

 

Cohere releases low-cost AI model focused on business customers
Joe Castaldo
Published 45 minutes ago

Cohere co-founder Nick Frosst said the company was able to achieve its results by focusing on building models that will be useful for business customers, as opposed to technology that can do everything and anything.
Christopher Katsarov/The Globe and Mail

 

Artificial intelligence company Cohere Inc. has released a low-cost AI model that it says was built with fewer computational resources than similar offerings from its competitors, some of whom are spending billions of dollars on data centres and chips to support development.
The latest large language model (LLM) from the Toronto-based company was built for less than US$30-million. Other companies are spending orders of magnitude more than that. Anthropic chief executive Dario Amodei has said that advanced LLMs can cost US$100-million to train, with the costs rapidly rising.
Evaluations provided by Cohere show the model, called Command A, is on par or better than leading models from OpenAI and Chinese company DeepSeek on some tasks, such as coding, answering technical questions, and customer service assistance.
Cohere co-founder Nick Frosst said the company was able to achieve its results by focusing on building models that will be useful for business customers, as opposed to technology that can do everything and anything. “We’re training it to be good at the things that our customers want. By being focused on that, we’ve been able to be significantly more efficient than the other players,” he said.
Companies such as OpenAI and Anthropic are trying to develop artificial general intelligence, or AGI, a loosely defined term that refers to systems that are smarter than humans. To get there, these companies believe more computational power is needed. “The people who are saying AI is getting bigger and bigger are the people constantly saying they’re around the corner from AGI,” Mr. Frosst said. “That’s not our focus, nor is that my scientific belief.”
Cohere was founded in 2019 and builds LLMs that can produce and interpret text, and can also be used to automate mundane corporate tasks. Generative AI took off in late 2022, when OpenAI released ChatGPT. Since then, the corporate world has become fixated on adopting the technology to capture productivity gains.
Some AI companies have an endless appetite for GPUs, or graphics processing units, the pricey computer chips that power AI models and applications. Elon Musk’s xAI, for example, built a facility consisting of 100,000 GPUs with plans to double that number. OpenAI, Oracle and others are investing some US$500-billion to build a massive AI supercomputer called Stargate.
In contrast, Cohere has access to around 8,500 GPUs, according to Mr. Frosst, who is proud to tout the company’s efficiency. “My mantra these days has been ROI not AGI,” he said. The company also does not have consumer-facing applications such as ChatGPT, which requires a lot of processing power.
Cohere used just 2,000 GPUs in the first phase of building Command A. For customers that want to deploy the model on their own computing infrastructure, they can do so with only two GPUs. Other models can require up to 32.
In January, DeepSeek caused a panicked sell off in tech stocks after it released details on its generative AI models. The company said it had used just over 2,000 GPUs to build one of its models at a cost of only US$5.6-million, raising questions about the huge sums of money spent by competitors. The details left many industry players in disbelief, with some speculating that DeepSeek could have as many as 50,000 chips that it was not disclosing.
The training costs revealed by DeepSeek might not be the full picture. Building an AI model can take multiple attempts to get right, and DeepSeek’s price tag could refer to only the last try. “It’s not like you just start the process and you’re done. There’s a lot of potential issues on the way,” Gennady Pekhimenko, CEO of machine learning efficiency company CentML, previously told the Globe and Mail.
The US$30-million cost for Command A captures the entire training period. “That’s all the work that went into making it,” Mr. Frosst said.
The real test for success, however, will be whether businesses pay to use it. Cohere, which is also focused on making sure its models are fluent in multiple languages, has found interest outside of North America. It has already developed a Japanese-language LLM with Fujitsu, and recently partnered with LG CNS, the technology services unit of the South Korean conglomerate.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo