AI mở-nguồn mở

View All
Perplexity AI phát hành mã nguồn mở R1 1776 - phiên bản cải tiến của DeepSeek-R1

  • Perplexity AI công bố mã nguồn mở R1 1776, một phiên bản được huấn luyện lại từ DeepSeek-R1 nhằm loại bỏ kiểm duyệt và đưa ra phản hồi dựa trên sự thật

  • Giám đốc Aravind Srinivas chia sẻ công ty đang cân nhắc phát hành mã nguồn mở cho cả quá trình huấn luyện và suy luận

  • DeepSeek-R1 là mô hình ngôn ngữ lớn có khả năng suy luận tương đương các mô hình hàng đầu như o1 và o3-mini

  • Phiên bản gốc DeepSeek-R1 từ chối phản hồi các chủ đề nhạy cảm, đặc biệt là những nội dung bị Đảng Cộng sản Trung Quốc kiểm duyệt

  • Quá trình huấn luyện lại bao gồm:

    • Tập dữ liệu 40.000 câu hỏi đa ngôn ngữ về các chủ đề bị kiểm duyệt

    • Xác định khoảng 300 chủ đề bị kiểm duyệt bởi chuyên gia

    • Phát triển bộ phân loại kiểm duyệt đa ngôn ngữ

    • Sử dụng framework NeMo 2.0 của NVIDIA để tinh chỉnh mô hình

  • Đánh giá hiệu quả trên 1.000 ví dụ với sự tham gia của người đánh giá và mô hình AI cho thấy R1 1776 duy trì khả năng suy luận tương đương mô hình gốc

  • Perplexity AI cũng ra mắt:

    • Mô hình Sonar cho người dùng Pro

    • Tính năng Deep Research miễn phí với giới hạn 5 truy vấn/ngày cho người dùng thường và 500 truy vấn/ngày cho người dùng Pro

📌 Perplexity AI đã thành công trong việc loại bỏ kiểm duyệt từ mô hình DeepSeek-R1 thông qua phiên bản R1 1776 mã nguồn mở, được huấn luyện với 40.000 câu hỏi và 300 chủ đề nhạy cảm, đồng thời duy trì khả năng suy luận của mô hình gốc.

https://analyticsindiamag.com/ai-news-updates/perplexity-ai-open-sources-r1-1776-to-remove-censorship-from-deepseek-r1/

Meta tổ chức hội nghị LlamaCon đầu tiên về AI tạo sinh vào ngày 29/4

  • Meta công bố sẽ tổ chức hội nghị nhà phát triển đầu tiên về AI tạo sinh mang tên LlamaCon vào ngày 29/4/2025

  • Hội nghị tập trung chia sẻ về các phát triển AI nguồn mở mới nhất, giúp lập trình viên xây dựng ứng dụng và sản phẩm

  • Meta Connect - hội nghị thường niên của công ty vẫn diễn ra vào tháng 9/2025 như thông lệ

  • Nhiều doanh nghiệp lớn đang sử dụng Llama như Goldman Sachs, Nomura Holdings, AT&T, DoorDash và Accenture

  • Meta có ít nhất 25 đối tác lưu trữ Llama bao gồm Nvidia, Databricks, Groq, Dell và Snowflake

  • Công ty đang phải đối mặt với sự cạnh tranh từ DeepSeek - doanh nghiệp AI Trung Quốc, với mô hình AI nguồn mở mạnh hơn phiên bản Llama sắp ra mắt

  • Meta dự kiến đầu tư 80 tỷ USD cho các dự án AI trong năm 2025, bao gồm tuyển dụng nhân sự và xây dựng trung tâm dữ liệu AI mới

  • Mark Zuckerberg thông báo kế hoạch ra mắt nhiều mô hình Llama trong vài tháng tới, bao gồm mô hình "suy luận" và mô hình multimodal

  • Meta đang đối mặt với kiện tụng về việc huấn luyện mô hình trên tài liệu có bản quyền mà không được phép

  • Một số quốc gia EU buộc Meta hoãn hoặc hủy kế hoạch ra mắt mô hình do lo ngại về quyền riêng tư dữ liệu

📌 Meta đặt mục tiêu dẫn đầu AI nguồn mở trong 2025 với khoản đầu tư 80 tỷ USD, tổ chức LlamaCon đầu tiên vào tháng 4 nhưng phải đối mặt với cạnh tranh từ DeepSeek Trung Quốc và các rào cản pháp lý tại EU.

https://techcrunch.com/2025/02/18/meta-announces-llamacon-its-first-generative-ai-dev-conference/

Mistral ra mắt mô hình AI Saba tập trung vào ngôn ngữ và văn hóa Ả Rập

- Mistral, công ty khởi nghiệp AI có trụ sở tại Paris, vừa phát hành mô hình Mistral Saba tập trung vào các quốc gia nói tiếng Ả Rập

- Mistral Saba có 24 tỷ tham số, tương đương kích thước với Mistral Small 3 nhưng hoạt động hiệu quả hơn khi xử lý nội dung tiếng Ả Rập

- Mô hình này cũng hoạt động tốt với các ngôn ngữ có nguồn gốc từ Ấn Độ, đặc biệt là Tamil và Malayalam, do sự giao thoa văn hóa giữa Trung Đông và Nam Á

- Mistral Saba có thể triển khai thông qua API của Mistral hoặc tại chỗ, phù hợp với các công ty trong ngành năng lượng, tài chính và y tế

- Động thái này thể hiện chiến lược mở rộng thị trường Trung Đông của Mistral, đồng thời tạo cơ hội thu hút các nhà đầu tư từ khu vực này

- Mistral đã nhận đầu tư lớn từ các nhà đầu tư quốc tế, chủ yếu từ Mỹ như Lightspeed Venture Partners, Andreessen Horowitz và Salesforce Ventures

- Công ty cam kết phát triển hỗ trợ đa ngôn ngữ và dự kiến sẽ tập trung vào các ngôn ngữ khu vực khác trong tương lai

- Mistral định vị mình như một giải pháp thay thế quốc tế cho các công ty AI của Mỹ và Trung Quốc

📌 Mistral tung mô hình AI Saba 24 tỷ tham số phục vụ thị trường Trung Đông và Nam Á, khẳng định vị thế toàn cầu với khả năng xử lý đa ngôn ngữ, đồng thời mở ra cơ hội thu hút đầu tư từ khu vực này.

 

https://techcrunch.com/2025/02/17/mistral-releases-regional-model-focused-on-arabic-language-and-culture/

Các thành phố lớn ở Trung Quốc đồng loạt ứng dụng DeepSeek vào dịch vụ công

-  Các chính quyền thành phố trên khắp Trung Quốc đang triển khai dịch vụ trực tuyến sử dụng DeepSeek, đối thủ cạnh tranh với OpenAI của Mỹ

-  Theo báo Nanfang Daily, các quan chức cấp cao tại thành phố Châu Hải đã nghiên cứu báo cáo về Lương Văn Phong, người sáng lập DeepSeek trong một cuộc họp gần đây

-  Nhiều thành phố lớn ở tỉnh Quảng Đông như Thâm Quyến, Quảng Châu và Đông Quan đã tích hợp DeepSeek vào dịch vụ hành chính công trực tuyến

-  Quảng Châu đã bắt đầu sử dụng các mô hình AI R1 và V3 của DeepSeek trên cổng thông tin điện tử công cộng để cung cấp dịch vụ hiệu quả hơn

Các ứng dụng chính của DeepSeek tại Quảng Châu bao gồm:
- Giải thích chính sách cho người dân
- Xử lý đường dây nóng
- Tiếp nhận yêu cầu
- Cải thiện quy trình làm việc nội bộ  
- Quản lý dịch vụ đô thị

-  Các mô hình AI của DeepSeek đã thể hiện khả năng ngang bằng với các chatbot hàng đầu của Mỹ như ChatGPT của OpenAI

📌 DeepSeek đang nhanh chóng được các thành phố lớn của Trung Quốc ứng dụng vào dịch vụ công, với Quảng Châu dẫn đầu khi tích hợp mô hình R1 và V3. Động thái này cho thấy sự tin tưởng của chính quyền địa phương vào tiềm năng của startup AI nội địa.

 

https://www.scmp.com/news/china/politics/article/3299012/chinese-cities-launch-deepseek-driven-services-local-cadres-jump-ai-bandwagon

LLM mã nguồn mở xuất hiện trong lộ trình chủ quyền số của châu Âu

- OpenEuroLLM là dự án hợp tác giữa 20 tổ chức châu Âu, do Jan Hajič từ Đại học Charles Prague và Peter Sarlin từ Silo AI đồng lãnh đạo

- Ngân sách xây dựng mô hình là 37,4 triệu Euro, trong đó 20 triệu Euro từ Chương trình Châu Âu Số

- Dự án hướng tới phát triển mô hình ngôn ngữ hỗ trợ 24 ngôn ngữ chính thức của EU và các ngôn ngữ của quốc gia đang đàm phán gia nhập EU

- Các đối tác bao gồm trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan và Hà Lan

- Thời gian triển khai: phiên bản đầu tiên dự kiến ra mắt giữa năm 2026, phiên bản cuối cùng vào năm 2028

- Dự án kế thừa từ High Performance Language Technologies (HPLT), với bộ dữ liệu được huấn luyện trên 4,5 petabyte dữ liệu web và hơn 20 tỷ tài liệu

- Các tổ chức tham gia đến từ nhiều quốc gia: Cộng hòa Séc, Hà Lan, Đức, Thụy Điển, Phần Lan, Na Uy cùng các công ty như Silo AI, Aleph Alpha, Ellamind

- Mục tiêu tạo ra mô hình nền tảng đa mục đích với độ chính xác cao và phiên bản nhỏ gọn cho ứng dụng biên

- Thách thức về định nghĩa "nguồn mở thực sự" khi cân bằng giữa chất lượng và khả năng chia sẻ dữ liệu huấn luyện

- Dự án song song với EuroLLM - một sáng kiến tương tự được EU tài trợ ra mắt vào tháng 9/2024

📌 Châu Âu đầu tư 37,4 triệu Euro vào OpenEuroLLM để phát triển AI nguồn mở hỗ trợ 24 ngôn ngữ EU, nhằm đạt chủ quyền số. Dự án tập hợp 20 tổ chức, kế thừa 4,5 petabyte dữ liệu, dự kiến ra mắt 2026-2028.

 

https://techcrunch.com/2025/02/16/open-source-llms-hit-europes-digital-sovereignty-roadmap/

 

LLM mã nguồn mở xuất hiện trong lộ trình chủ quyền số của châu Âu

Paul Sawers
6:30 sáng PST · Ngày 16 tháng 2 năm 2025

Các mô hình ngôn ngữ lớn (LLM) đã chính thức xuất hiện trong chương trình nghị sự về chủ quyền số của châu Âu vào tuần trước, khi có thông tin về một chương trình mới nhằm phát triển một loạt LLM “thực sự” mã nguồn mở, bao phủ tất cả các ngôn ngữ của Liên minh châu Âu (EU).

Điều này bao gồm 24 ngôn ngữ chính thức hiện tại của EU, cũng như ngôn ngữ của các quốc gia đang đàm phán để gia nhập thị trường EU, như Albania. Tư duy hướng đến tương lai chính là trọng tâm của dự án này.

OpenEuroLLM là sự hợp tác giữa khoảng 20 tổ chức, được đồng lãnh đạo bởi Jan Hajič, một nhà ngôn ngữ học tính toán từ Đại học Charles ở Prague, và Peter Sarlin, CEO kiêm đồng sáng lập phòng thí nghiệm AI Silo AI của Phần Lan, công ty mà AMD đã mua lại năm ngoái với giá 665 triệu USD.

Dự án này phù hợp với chiến lược rộng lớn hơn của châu Âu, trong đó ưu tiên chủ quyền số nhằm đưa các cơ sở hạ tầng và công cụ quan trọng về gần hơn. Hầu hết các tập đoàn điện toán đám mây lớn đang đầu tư vào cơ sở hạ tầng địa phương để đảm bảo dữ liệu của EU được lưu trữ trong khu vực, trong khi OpenAI gần đây đã công bố một dịch vụ mới cho phép khách hàng xử lý và lưu trữ dữ liệu tại châu Âu.

Ngoài ra, EU mới đây đã ký một thỏa thuận trị giá 11 tỷ USD để tạo ra một chòm sao vệ tinh độc lập nhằm cạnh tranh với Starlink của Elon Musk.

Vì vậy, OpenEuroLLM hoàn toàn phù hợp với định hướng này.

Tuy nhiên, ngân sách được công bố chỉ để xây dựng các mô hình này là 37,4 triệu EUR (~40,2 triệu USD), trong đó khoảng 20 triệu EUR (~21,5 triệu USD) đến từ Chương trình Kỹ thuật số châu Âu (Digital Europe Programme) – con số này rất nhỏ so với khoản đầu tư của các tập đoàn AI lớn. Ngân sách thực tế cao hơn khi tính đến các khoản tài trợ cho các công việc liên quan, và chi phí lớn nhất có lẽ là tài nguyên tính toán. Các đối tác của OpenEuroLLM bao gồm các trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan và Hà Lan – và dự án EuroHPC rộng hơn có ngân sách khoảng 7 tỷ EUR (~7,5 tỷ USD).

Liệu có khả thi?

Số lượng lớn các bên tham gia, trải dài từ giới học thuật, nghiên cứu đến doanh nghiệp, khiến nhiều người đặt câu hỏi liệu mục tiêu của dự án có thực tế hay không.

Anastasia Stasenko, đồng sáng lập công ty LLM Pleias, hoài nghi rằng một liên minh gồm hơn 20 tổ chức có thể có cùng một mức độ tập trung như một công ty AI tư nhân nội địa.

“Những thành công gần đây của châu Âu trong AI đến từ các nhóm nhỏ, tập trung như Mistral AILightOn – những công ty thực sự kiểm soát những gì họ xây dựng," Stasenko viết. "Họ có trách nhiệm ngay lập tức với các lựa chọn của mình, từ tài chính, định vị thị trường cho đến danh tiếng.”

Xuất phát từ con số 0 hay có lợi thế?

Dự án OpenEuroLLM có thể coi là bắt đầu từ con số không, hoặc đã có nền tảng – tùy theo cách nhìn nhận.

Từ năm 2022, Hajič cũng đang điều phối dự án High Performance Language Technologies (HPLT), hướng đến việc phát triển bộ dữ liệu, mô hình và quy trình làm việc miễn phí và có thể tái sử dụng, sử dụng tính toán hiệu năng cao (HPC). Dự án này dự kiến kết thúc vào cuối năm 2025, nhưng theo Hajič, nó có thể được xem là tiền đề cho OpenEuroLLM, vì hầu hết các đối tác của HPLT (ngoại trừ các đối tác Anh) đều tham gia vào dự án mới này.

Dự án này thực chất chỉ là một sự mở rộng với sự tham gia rộng rãi hơn, nhưng tập trung hơn vào LLM tạo sinh,” Hajič nói. “Vì vậy, chúng tôi không bắt đầu từ con số không về mặt dữ liệu, chuyên môn, công cụ và kinh nghiệm tính toán. Chúng tôi đã tập hợp được những người có kinh nghiệm – nên có thể bắt kịp nhanh chóng.”

Hajič kỳ vọng phiên bản đầu tiên sẽ được phát hành vào giữa năm 2026, với phiên bản cuối cùng ra mắt vào năm 2028. Tuy nhiên, những mục tiêu này vẫn có vẻ đầy tham vọng, đặc biệt khi hiện tại dự án chỉ mới có một hồ sơ GitHub sơ khai.

“Ở khía cạnh đó, chúng tôi đang bắt đầu từ con số không – dự án mới chính thức khởi động vào thứ Bảy [ngày 1 tháng 2],” Hajič nói. “Nhưng chúng tôi đã chuẩn bị trong một năm rồi [quy trình đấu thầu mở vào tháng 2 năm 2024].”

Các bên tham gia và sự vắng mặt của Mistral AI

Từ giới học thuật và nghiên cứu, dự án có sự tham gia của các tổ chức từ Séc, Hà Lan, Đức, Thụy Điển, Phần Lan và Na Uy, bên cạnh các trung tâm EuroHPC. Từ khu vực doanh nghiệp, các công ty như Silo AI (Phần Lan, thuộc sở hữu của AMD), Aleph Alpha (Đức), Ellamind (Đức), Prompsit Language Engineering (Tây Ban Nha) và LightOn (Pháp) cũng tham gia.

Một điểm đáng chú ý là Mistral AI – startup AI kỳ lân của Pháp, vốn tự định vị là đối thủ mã nguồn mở của OpenAI – không có mặt trong danh sách.

Mặc dù không ai từ Mistral AI phản hồi TechCrunch để bình luận, Hajič xác nhận rằng ông đã cố gắng liên hệ với startup này nhưng không có kết quả.

“Tôi đã tiếp cận họ, nhưng vẫn chưa có cuộc thảo luận tập trung nào về việc tham gia của họ,” Hajič cho biết.

Dự án vẫn có thể thu hút thêm đối tác mới trong khuôn khổ chương trình tài trợ của EU, nhưng sẽ giới hạn trong các tổ chức EU. Điều này có nghĩa là các tổ chức từ Anh và Thụy Sĩ sẽ không thể tham gia, trái ngược với chương trình nghiên cứu Horizon, mà Anh đã tái gia nhập vào năm 2023 sau thời gian đình trệ do Brexit, và từng cấp vốn cho HPLT.

Xây dựng nền tảng

Mục tiêu hàng đầu của dự án, theo khẩu hiệu của nó, là tạo ra: "Một loạt mô hình nền tảng cho AI minh bạch tại châu Âu." Ngoài ra, các mô hình này phải bảo tồn "sự đa dạng ngôn ngữ và văn hóa" của tất cả các ngôn ngữ trong EU — hiện tại và tương lai.

Việc này sẽ được hiện thực hóa như thế nào vẫn đang được xác định, nhưng nhiều khả năng dự án sẽ tập trung vào một LLM đa ngôn ngữ cốt lõi, phục vụ các nhiệm vụ tổng quát đòi hỏi độ chính xác cao. Đồng thời, cũng có thể có các phiên bản nhỏ hơn, được "lượng tử hóa" để tối ưu hóa cho các ứng dụng biên (edge computing), nơi tốc độ và hiệu suất quan trọng hơn.

“Chúng tôi vẫn cần lập kế hoạch chi tiết về vấn đề này,” Hajič nói. “Chúng tôi muốn mô hình có kích thước nhỏ nhất có thể nhưng vẫn đạt chất lượng cao nhất. Chúng tôi không muốn tung ra một sản phẩm chưa hoàn thiện, vì từ góc độ châu Âu, đây là một dự án quan trọng với rất nhiều tiền từ Ủy ban châu Âu – tiền công.”

Mặc dù mục tiêu là làm cho mô hình hoạt động tốt nhất có thể trên tất cả các ngôn ngữ, nhưng đạt được sự cân bằng tuyệt đối giữa các ngôn ngữ sẽ là một thách thức.

“Đó là mục tiêu, nhưng việc có thể làm tốt đến đâu với những ngôn ngữ có tài nguyên số khan hiếm vẫn là một câu hỏi,” Hajič nói. “Nhưng đó cũng là lý do chúng tôi muốn có các bộ đánh giá thực sự đại diện cho các ngôn ngữ này, thay vì chỉ dựa vào các tiêu chí đánh giá không phản ánh đúng thực tế ngôn ngữ và văn hóa đằng sau chúng.”

Về dữ liệu, phần lớn công việc từ dự án HPLT trước đó sẽ phát huy tác dụng, với phiên bản 2.0 của bộ dữ liệu đã được phát hành bốn tháng trước. Bộ dữ liệu này được huấn luyện trên 4,5 petabyte dữ liệu quét web và hơn 20 tỷ tài liệu. Hajič cho biết họ sẽ bổ sung dữ liệu từ Common Crawl (kho dữ liệu quét web mã nguồn mở).


Định nghĩa về mã nguồn mở

Trong phần mềm truyền thống, cuộc tranh luận giữa mã nguồn mởđộc quyền thường xoay quanh định nghĩa thực sự của "mã nguồn mở." Vấn đề này thường được giải quyết bằng cách tham chiếu đến tiêu chuẩn của Open Source Initiative (OSI) – tổ chức định hướng ngành về các giấy phép mã nguồn mở hợp lệ.

Gần đây, OSI đã đưa ra định nghĩa về AI mã nguồn mở, nhưng điều này không làm hài lòng tất cả mọi người. Những người ủng hộ AI mã nguồn mở lập luận rằng không chỉ các mô hình nên được công khai, mà cả bộ dữ liệu, mô hình tiền huấn luyện, trọng số – tất cả mọi thứ. Tuy nhiên, định nghĩa của OSI không bắt buộc công khai dữ liệu huấn luyện, vì AI thường được huấn luyện trên dữ liệu độc quyền hoặc dữ liệu có hạn chế về phân phối lại.

Tương tự, OpenEuroLLM đang đối mặt với những tranh luận này. Mặc dù dự án đặt mục tiêu “thực sự mở”, nhưng có thể vẫn phải thỏa hiệp để đảm bảo chất lượng.

“Mục tiêu là công khai tất cả. Nhưng tất nhiên, sẽ có một số hạn chế,” Hajič nói. “Chúng tôi muốn tạo ra các mô hình có chất lượng cao nhất có thể, và theo chỉ thị bản quyền của EU, chúng tôi có thể sử dụng bất kỳ dữ liệu nào có thể tiếp cận được. Một số dữ liệu không thể phân phối lại, nhưng có thể lưu trữ để kiểm tra sau này.”

Điều này có nghĩa là một số dữ liệu huấn luyện của OpenEuroLLM có thể không được công khai hoàn toàn, nhưng sẽ có sẵn cho các cơ quan kiểm toán khi cần, theo yêu cầu của Đạo luật AI của EU đối với các hệ thống AI có rủi ro cao.

“Chúng tôi hy vọng rằng phần lớn dữ liệu sẽ mở, đặc biệt là dữ liệu từ Common Crawl,” Hajič nói. “Chúng tôi muốn công khai tất cả, nhưng còn phải chờ xem. Dù thế nào đi nữa, chúng tôi vẫn phải tuân thủ các quy định về AI.”


Hai dự án trùng lặp?

Một trong những chỉ trích xuất hiện ngay sau khi OpenEuroLLM được công bố là việc châu Âu đã có một dự án rất giống ra mắt chỉ vài tháng trước đó.

EuroLLM, được công bố vào tháng 9 năm ngoái và tiếp tục ra mắt một mô hình khác vào tháng 12, cũng do EU đồng tài trợ và có sự tham gia của 9 đối tác, bao gồm Đại học Edinburgh và công ty Unbabel.

EuroLLM có mục tiêu tương tự như OpenEuroLLM:

"Xây dựng một mô hình ngôn ngữ lớn mã nguồn mở cho châu Âu, hỗ trợ 24 ngôn ngữ chính thức của EU và một số ngôn ngữ quan trọng chiến lược khác."

Andre Martins, trưởng bộ phận nghiên cứu tại Unbabel, đã lên tiếng trên mạng xã hội về sự trùng lặp này, cho rằng OpenEuroLLM đã sử dụng một cái tên đã tồn tại.

"Tôi hy vọng các cộng đồng khác nhau sẽ hợp tác cởi mở, chia sẻ chuyên môn, và không cố gắng 'phát minh lại bánh xe' mỗi khi có một dự án mới được tài trợ," Martins viết.

Hajič gọi tình huống này là "đáng tiếc," nhưng hy vọng hai dự án có thể hợp tác, dù thừa nhận rằng OpenEuroLLM bị hạn chế trong việc hợp tác với các tổ chức ngoài EU, bao gồm các trường đại học của Anh.


Khoảng cách tài trợ

Sự xuất hiện của DeepSeek từ Trung Quốc, cùng với tỷ lệ chi phí-hiệu suất mà mô hình này hứa hẹn, đã khiến một số người tin rằng có thể làm được nhiều hơn với ngân sách ít hơn. Tuy nhiên, trong vài tuần qua, nhiều người đã đặt câu hỏi về chi phí thực sự để xây dựng DeepSeek.

Peter Sarlin, đồng lãnh đạo kỹ thuật của OpenEuroLLM, nói với TechCrunch:

“Với DeepSeek, thực sự chúng ta biết rất ít về những gì đã được đầu tư để xây dựng nó.”

Dù vậy, Sarlin tin rằng OpenEuroLLM sẽ có đủ tài trợ, vì phần lớn ngân sách chủ yếu dành cho con người. Phần tốn kém nhất khi xây dựng AI là tài nguyên tính toán, nhưng phần lớn chi phí này sẽ được EuroHPC hỗ trợ.

“Có thể nói rằng OpenEuroLLM thực sự có ngân sách khá lớn,” Sarlin nói. “EuroHPC đã đầu tư hàng tỷ EUR vào AI và cơ sở hạ tầng tính toán, và sẽ tiếp tục đầu tư thêm trong những năm tới.”

Ngoài ra, OpenEuroLLM không nhắm đến việc phát triển một sản phẩm thương mại dành cho người tiêu dùng hay doanh nghiệp. Dự án chỉ tập trung vào mô hình nền tảng, giúp các công ty châu Âu xây dựng ứng dụng AI của riêng mình.

“Chúng tôi không đang tạo ra một chatbot hay trợ lý AI – đó sẽ là một dự án sản phẩm đòi hỏi nhiều nỗ lực hơn, giống như ChatGPT đã làm rất tốt,” Sarlin nói. “Chúng tôi đang cung cấp một mô hình nền tảng mở, đóng vai trò là hạ tầng AI để các công ty châu Âu xây dựng trên đó. Chúng tôi biết cần gì để xây dựng mô hình – và không nhất thiết phải tốn hàng tỷ USD.”


Chủ quyền số

Cuối cùng, OpenEuroLLM không phải là về cạnh tranh với Big Tech hay các startup AI tỷ USD; mục tiêu cốt lõi vẫn là chủ quyền số – xây dựng mô hình mã nguồn mở (phần lớn), bởi châu Âu, cho châu Âu.

“Ngay cả khi chúng tôi không phải là mô hình số một, nhưng nếu có một mô hình 'tốt', thì ít nhất đó vẫn sẽ là một mô hình với tất cả các thành phần đặt tại châu Âu," Hajič nói. “Đó vẫn sẽ là một kết quả tích cực.”

Liệu chữ Hán có phải là chìa khóa bí mật đằng sau thành công của DeepSeek?

- DeepSeek, một công ty khởi nghiệp AI của Trung Quốc, đang thu hút sự chú ý toàn cầu với mô hình ngôn ngữ lớn nguồn mở có hiệu suất cao và tiết kiệm chi phí

- Các chuyên gia trong ngành cho rằng việc tích hợp chữ Hán trong giai đoạn tiền đào tạo là yếu tố quan trọng tạo nên thành công của mô hình

- Theo chuyên gia viễn thông Xiang Ligang, chữ Hán có khả năng truyền tải thông tin tối đa với chi phí tối thiểu

- Đặc tính đa phương thức của chữ Hán, kết hợp yếu tố hình ảnh với ý nghĩa, cung cấp nguồn tư liệu học tập phong phú cho các mô hình AI

- Mặc dù DeepSeek chưa công bố nguồn dữ liệu đào tạo, các chuyên gia phỏng đoán dữ liệu tiếng Trung bao gồm nhiều loại tài liệu:
  + Văn học cổ điển
  + Biệt ngữ internet
  + Bài báo học thuật
  + Tài liệu chính phủ
  + Phương ngữ 

- Sự đa dạng trong dữ liệu đào tạo tạo nền tảng ngôn ngữ toàn diện, góp phần nâng cao hiệu suất của mô hình

📌 DeepSeek đang chứng minh tiềm năng vượt trội của mô hình ngôn ngữ lớn nguồn mở dựa trên nền tảng chữ Hán. Đặc tính mật độ thông tin cao và tính đa phương thức của chữ Hán giúp tối ưu hóa hiệu suất và chi phí trong xử lý AI.

https://www.malaymail.com/news/tech-gadgets/2025/02/15/deepseeks-rise-is-the-chinese-language-the-secret-ingredient-to-its-ai-edge/166793

Khám phá cách DeepSeek phát triển AI với chi phí thấp hơn nhiều so với các đối thủ

-  DeepSeek, startup Trung Quốc, đã gây chấn động thị trường tài chính Mỹ khi công bố xây dựng hệ thống AI mạnh mẽ chỉ với 2.000 chip chuyên dụng, thay vì 16.000 chip như thông thường

-  Chi phí năng lực tính toán thô chỉ khoảng 6 triệu USD, bằng 1/10 chi phí của Meta cho công nghệ AI mới nhất

DeepSeek áp dụng phương pháp "mixture of experts" bằng cách:
- Chia hệ thống thành nhiều neural network nhỏ chuyên biệt (khoảng 100 hệ thống)
- Mỗi network tập trung vào một lĩnh vực cụ thể như thơ ca, lập trình, sinh học
- Kết hợp với một hệ thống "generalist" để điều phối tương tác giữa các expert

Thủ thuật tối ưu hóa bộ nhớ:
- Nén số liệu vào 8 bit thay vì 16 bit thông thường
- Khi nhân các số, kết quả được mở rộng thành 32 bit để tăng độ chính xác
- Giảm độ chính xác của từng phép tính nhưng vẫn đủ hiệu quả

Các yếu tố then chốt khác:
- Kỹ sư DeepSeek có kỹ năng viết mã tinh vi để tối ưu GPU
- Công ty chấp nhận rủi ro cao trong thử nghiệm
- Chi phí 6 triệu USD chỉ tính cho lần huấn luyện cuối cùng

📌 Startup Trung Quốc DeepSeek đã cách mạng hóa việc phát triển AI bằng cách giảm 90% chi phí so với Meta, chỉ dùng 2.000 chip thay vì 16.000, nhờ kết hợp phương pháp "mixture of experts" với các thủ thuật tối ưu hóa bộ nhớ sáng tạo.

 

https://www.nytimes.com/2025/02/12/technology/deepseek-ai-chip-costs.html

 

DeepSeek đã xây dựng AI với chi phí thấp hơn như thế nào?

Công ty khởi nghiệp Trung Quốc đã sử dụng nhiều kỹ thuật công nghệ, bao gồm một phương pháp có tên "mixture of experts," để giảm đáng kể chi phí phát triển công nghệ.

Cade Metz
Tường thuật từ San Francisco
12 tháng 2, 2025, 5:02 sáng ET

Tháng trước, thị trường tài chính Mỹ chao đảo sau khi một công ty khởi nghiệp Trung Quốc có tên DeepSeek tuyên bố đã xây dựng một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới mà chỉ cần sử dụng số lượng chip máy tính ít hơn nhiều so với những gì nhiều chuyên gia từng nghĩ là có thể.

Các công ty AI thường huấn luyện chatbot của họ bằng cách sử dụng siêu máy tính được trang bị ít nhất 16.000 chip chuyên dụng. Nhưng DeepSeek cho biết họ chỉ cần khoảng 2.000 chip.

Trong một bài báo nghiên cứu được công bố ngay sau Giáng sinh, các kỹ sư của DeepSeek đã trình bày nhiều kỹ thuật công nghệ giúp họ giảm đáng kể chi phí phát triển hệ thống. Theo ước tính, công ty chỉ tốn khoảng 6 triệu USD cho năng lực tính toán thô, tức chỉ bằng khoảng 1/10 so với số tiền Meta đã chi để xây dựng công nghệ AI mới nhất của họ.

DeepSeek đã làm gì? Dưới đây là những điều cần biết.

Công nghệ AI được xây dựng như thế nào?

Các công nghệ AI hàng đầu hiện nay dựa trên cái mà các nhà khoa học gọi là mạng nơ-ron—hệ thống toán học học hỏi kỹ năng bằng cách phân tích một lượng dữ liệu khổng lồ.

Những hệ thống mạnh nhất mất nhiều tháng để phân tích gần như toàn bộ văn bản tiếng Anh trên internet, cùng với hàng loạt hình ảnh, âm thanh và các dữ liệu đa phương tiện khác. Quá trình này đòi hỏi một lượng lớn sức mạnh tính toán.

Khoảng 15 năm trước, các nhà nghiên cứu AI nhận ra rằng GPU (graphics processing unit - bộ xử lý đồ họa) là một công cụ hiệu quả để thực hiện loại phân tích dữ liệu này. Ban đầu, các công ty như Nvidia của Thung lũng Silicon thiết kế GPU để xử lý đồ họa trong trò chơi điện tử. Nhưng hóa ra, GPU cũng rất phù hợp để thực hiện các phép toán chạy mạng nơ-ron.

Khi các công ty lắp đặt ngày càng nhiều GPU vào trung tâm dữ liệu của họ, các hệ thống AI có thể phân tích dữ liệu nhanh hơn và nhiều hơn.

Tuy nhiên, các GPU tốt nhất có giá khoảng 40.000 USD mỗi chiếc và tiêu thụ một lượng điện năng khổng lồ. Việc truyền dữ liệu giữa các GPU thậm chí còn tốn điện hơn cả quá trình vận hành chúng.

DeepSeek đã giảm chi phí bằng cách nào?

DeepSeek áp dụng nhiều kỹ thuật khác nhau. Đáng chú ý nhất là họ sử dụng một phương pháp có tên "mixture of experts" (hỗn hợp chuyên gia).

Thông thường, các công ty AI tạo ra một mạng nơ-ron duy nhất để học tất cả các quy luật từ toàn bộ dữ liệu trên internet. Điều này rất tốn kém vì đòi hỏi một lượng dữ liệu khổng lồ phải di chuyển liên tục giữa các GPU.

Ví dụ, nếu một GPU đang học cách viết thơ, trong khi một GPU khác học cách viết chương trình máy tính, cả hai vẫn phải trao đổi dữ liệu với nhau—trong trường hợp có sự liên quan nào đó giữa thơ ca và lập trình.

Với "mixture of experts," các nhà nghiên cứu cố gắng giải quyết vấn đề này bằng cách chia hệ thống thành nhiều mạng nơ-ron nhỏ hơn: một mạng chuyên về thơ, một mạng chuyên về lập trình, một mạng chuyên về sinh học, một mạng chuyên về vật lý, v.v. Hệ thống có thể bao gồm 100 "chuyên gia" như vậy, mỗi chuyên gia chỉ tập trung vào lĩnh vực riêng của mình.

Nhiều công ty từng gặp khó khăn với phương pháp này, nhưng DeepSeek đã làm tốt hơn bằng cách kết hợp các hệ thống "chuyên gia" nhỏ với một hệ thống "tổng quát."

Dù các chuyên gia vẫn cần trao đổi thông tin với nhau, nhưng hệ thống tổng quát—vốn có hiểu biết chung về mọi lĩnh vực nhưng không chuyên sâu—có thể giúp điều phối sự tương tác giữa các chuyên gia.

Cách hoạt động này tương tự như một tổng biên tập điều hành một tòa soạn, nơi có nhiều phóng viên chuyên viết về các lĩnh vực khác nhau. Tổng biên tập không phải là chuyên gia về từng lĩnh vực, nhưng có vai trò điều phối và đảm bảo mọi thứ vận hành trơn tru.

Và phương pháp đó hiệu quả hơn?

Hiệu quả hơn rất nhiều. Nhưng đó không phải là tất cả những gì DeepSeek đã làm. Họ còn tận dụng một thủ thuật đơn giản liên quan đến số thập phân—một khái niệm mà bất kỳ ai từng học toán tiểu học đều có thể hiểu.

Có liên quan đến toán học sao?

Hãy nhớ lại bài học về số pi (π) mà giáo viên toán từng giảng. Pi là một số vô hạn: 3,14159265358979…

Có thể sử dụng π để thực hiện các phép tính hữu ích, như tính chu vi hình tròn. Nhưng khi làm những phép tính đó, thường chỉ cần rút gọn π xuống vài chữ số thập phân, chẳng hạn 3,14. Dù không hoàn toàn chính xác, nhưng con số này vẫn đủ để đưa ra một kết quả gần đúng.

DeepSeek đã làm điều tương tự—nhưng ở quy mô lớn hơn rất nhiều—trong quá trình huấn luyện AI của họ.

Mô hình toán học giúp mạng nơ-ron nhận diện các mẫu trong văn bản thực chất chỉ là phép nhân—một lượng khổng lồ các phép nhân, kéo dài hàng tháng trời trên hàng nghìn con chip máy tính.

Thông thường, các chip xử lý các phép nhân này bằng cách sử dụng 16 bit bộ nhớ cho mỗi con số. Nhưng DeepSeek đã nén mỗi con số xuống chỉ còn 8 bit—tức là một nửa không gian bộ nhớ. Về bản chất, họ đã lược bỏ một số chữ số thập phân của mỗi con số.

Điều đó có làm giảm độ chính xác không?

Đúng, mỗi phép tính sẽ kém chính xác hơn một chút. Nhưng điều đó không quan trọng. Các phép tính này vẫn đủ chính xác để tạo ra một mạng nơ-ron mạnh mẽ.

Chỉ có vậy thôi sao?

Không hẳn. DeepSeek còn bổ sung một thủ thuật khác.

Sau khi nén mỗi số xuống 8 bit, DeepSeek đã chọn một cách khác khi thực hiện phép nhân giữa các số này. Khi tính toán kết quả của từng phép nhân—một bước quan trọng giúp xác định cách mạng nơ-ron hoạt động—họ đã mở rộng kết quả đó lên 32 bit bộ nhớ. Nói cách khác, họ giữ lại nhiều chữ số thập phân hơn trong đáp án cuối cùng, giúp kết quả chính xác hơn.

Vậy bất kỳ học sinh trung học nào cũng có thể làm được điều này?

Không hẳn. Các kỹ sư của DeepSeek đã chứng minh trong bài báo nghiên cứu rằng họ cũng rất giỏi trong việc viết mã máy tính tinh vi, giúp GPU hoạt động hiệu quả hơn. Họ biết cách tối ưu từng phần nhỏ của quá trình tính toán để tận dụng tối đa sức mạnh của chip.

Rất ít người có kỹ năng như vậy. Nhưng các phòng thí nghiệm AI lớn trên thế giới đều có đội ngũ kỹ sư tài năng đủ khả năng bắt kịp những gì DeepSeek đã làm.

Vậy tại sao các công ty khác chưa làm điều này?

Một số phòng thí nghiệm AI có thể đã sử dụng một phần các kỹ thuật này. Các công ty như OpenAI không phải lúc nào cũng công khai toàn bộ những gì họ đang làm.

Nhưng nhiều người rõ ràng đã bất ngờ trước công nghệ của DeepSeek. Những gì công ty khởi nghiệp này làm không hề dễ dàng.

Việc thử nghiệm để tìm ra một đột phá như vậy cần hàng triệu, thậm chí hàng tỷ USD tiền điện.

Nói cách khác, nó đòi hỏi một mức độ rủi ro rất lớn.

“Bạn phải đầu tư rất nhiều tiền để thử nghiệm những ý tưởng mới—và thường thì chúng thất bại,” Tim Dettmers, một nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen ở Seattle, người chuyên về tối ưu hóa AI và từng làm việc tại Meta, cho biết.

“Đó là lý do tại sao chúng ta không thấy nhiều đổi mới: Mọi người sợ mất hàng triệu USD chỉ để thử một ý tưởng có thể không hiệu quả,” ông nói thêm.

Nhiều chuyên gia cũng chỉ ra rằng 6 triệu USD mà DeepSeek công bố chỉ là số tiền họ chi cho lần huấn luyện cuối cùng của hệ thống.

Trong bài báo nghiên cứu, các kỹ sư DeepSeek thừa nhận rằng họ đã chi thêm tiền cho nghiên cứu và thử nghiệm trước khi tiến hành huấn luyện chính thức. Nhưng điều này cũng đúng với bất kỳ dự án AI tiên tiến nào khác.

DeepSeek đã thử nghiệm—và thành công. Giờ đây, vì công ty khởi nghiệp Trung Quốc này đã chia sẻ phương pháp của họ với cộng đồng nghiên cứu AI, những kỹ thuật này có thể sẽ giúp giảm đáng kể chi phí xây dựng AI trong tương lai.

 

How Did DeepSeek Build Its A.I. With Less Money?
The Chinese start-up used several technological tricks, including a method called “mixture of experts,” to significantly reduce the cost of building the technology.

By Cade Metz
Reporting from San Francisco
Feb. 12, 2025, 5:02 a.m. ET

Last month, U.S. financial markets tumbled after a Chinese start-up called DeepSeek said it had built one of the world’s most powerful artificial intelligence systems using far fewer computer chips than many experts thought possible.
A.I. companies typically train their chatbots using supercomputers packed with 16,000 specialized chips or more. But DeepSeek said it needed only about 2,000.
As DeepSeek engineers detailed in a research paper published just after Christmas, the start-up used several technological tricks to significantly reduce the cost of building its system. Its engineers needed only about $6 million in raw computing power, roughly one-tenth of what Meta spent in building its latest A.I. technology.
What exactly did DeepSeek do? Here is a guide.
How are A.I. technologies built?
The leading A.I. technologies are based on what scientists call neural networks, mathematical systems that learn their skills by analyzing enormous amounts of data.
The most powerful systems spend months analyzing just about all the English text on the internet as well as many images, sounds and other multimedia. That requires enormous amounts of computing power.
About 15 years ago, A.I. researchers realized that specialized computer chips called graphics processing units, or GPUs, were an effective way of doing this kind of data analysis. Companies like the Silicon Valley chipmaker Nvidia originally designed these chips to render graphics for computer video games. But GPUs also had a knack for running the math that powered neural networks.
As companies packed more GPUs into their computer data centers, their A.I. systems could analyze more data.
But the best GPUs cost around $40,000, and they need huge amounts of electricity. Sending the data between chips can use more electrical power than running the chips themselves.
How was DeepSeek able to reduce costs?
It did many things. Most notably, it embraced a method called “mixture of experts.”
Companies usually created a single neural network that learned all the patterns in all the data on the internet. This was expensive, because it required enormous amounts of data to travel between GPU chips.
If one chip was learning how to write a poem and another was learning how to write a computer program, they still needed to talk to each other, just in case there was some overlap between poetry and programming.
With the mixture of experts method, researchers tried to solve this problem by splitting the system into many neural networks: one for poetry, one for computer programming, one for biology, one for physics and so on. There might be 100 of these smaller “expert” systems. Each expert could concentrate on its particular field.
Many companies have struggled with this method, but DeepSeek was able to do it well. Its trick was to pair those smaller “expert” systems with a “generalist” system.
The experts still needed to trade some information with one another, and the generalist — which had a decent but not detailed understanding of each subject — could help coordinate interactions between the experts.
It is a bit like an editor’s overseeing a newsroom filled with specialist reporters.

And that is more efficient?
Much more. But that is not the only thing DeepSeek did. It also mastered a simple trick involving decimals that anyone who remembers his or her elementary school math class can understand.
There is math involved in this?
Remember your math teacher explaining the concept of pi. Pi, also denoted as π, is a number that never ends: 3.14159265358979 …
You can use π to do useful calculations, like determining the circumference of a circle. When you do those calculations, you shorten π to just a few decimals: 3.14. If you use this simpler number, you get a pretty good estimation of a circle’s circumference.
DeepSeek did something similar — but on a much larger scale — in training its A.I. technology.
The math that allows a neural network to identify patterns in text is really just multiplication — lots and lots and lots of multiplication. We’re talking months of multiplication across thousands of computer chips.
Typically, chips multiply numbers that fit into 16 bits of memory. But DeepSeek squeezed each number into only 8 bits of memory — half the space. In essence, it lopped several decimals from each number.
This meant that each calculation was less accurate. But that didn’t matter. The calculations were accurate enough to produce a really powerful neural network.
That’s it?
Well, they added another trick.
After squeezing each number into 8 bits of memory, DeepSeek took a different route when multiplying those numbers together. When determining the answer to each multiplication problem — making a key calculation that would help decide how the neural network would operate — it stretched the answer across 32 bits of memory. In other words, it kept many more decimals. It made the answer more precise.
So any high school student could have done this?
Well, no. The DeepSeek engineers showed in their paper that they were also very good at writing the very complicated computer code that tells GPUs what to do. They knew how to squeeze even more efficiency out of these chips.
Few people have that kind of skill. But serious A.I. labs have the talented engineers needed to match what DeepSeek has done.
Then why didn’t they do this already?
Some A.I. labs may be using at least some of the same tricks already. Companies like OpenAI do not always reveal what they are doing behind closed doors.
But others were clearly surprised by DeepSeek’s work. Doing what the start-up did is not easy. The experimentation needed to find a breakthrough like this involves millions of dollars — if not billions — in electrical power.
In other words, it requires enormous amounts of risk.
“You have to put a lot of money on the line to try new things — and often, they fail,” said Tim Dettmers, a researcher at the Allen Institute for Artificial Intelligence in Seattle who specializes in building efficient A.I. systems and previously worked as an A.I. researcher at Meta.
“That is why we don’t see much innovation: People are afraid to lose many millions just to try something that doesn’t work,” he added.
Many pundits pointed out that DeepSeek’s $6 million covered only what the start-up spent when training the final version of the system. In their paper, the DeepSeek engineers said they had spent additional funds on research and experimentation before the final training run. But the same is true of any cutting-edge A.I. project.
DeepSeek experimented, and it paid off. Now, because the Chinese start-up has shared its methods with other A.I. researchers, its technological tricks are poised to significantly reduce the cost of building A.I.


Cade Metz writes about artificial intelligence, driverless cars, robotics, virtual reality and other emerging areas of technology. More about Cade Metz

Giám đốc AI Meta tuyên bố châu Âu nên duy trì mô hình AI nguồn mở

- Yann Lecun, giám đốc khoa học AI của Meta, tuyên bố châu Âu nên duy trì mô hình AI nguồn mở để tránh tụt hậu trong cuộc đua công nghệ

- Phát biểu tại hội nghị AI Action Summit ở Paris, Lecun cho rằng việc một số quốc gia châu Âu đang cố gắng biến mô hình nguồn mở trở nên bất hợp pháp là "sai lầm lớn"

- Ông nhấn mạnh nghiên cứu bí mật sẽ dẫn đến tụt hậu, trong khi mô hình nguồn mở cho phép mọi người hưởng lợi vì tiến độ phát triển nhanh hơn

- DeepSeek, startup AI từ Trung Quốc, đã gây chấn động khi phát hành mô hình R1 nguồn mở vào tháng 1/2025, vượt trội so với các đối thủ như OpenAI và Meta

- Meta phát triển mô hình Llama theo hướng nguồn mở, trong khi OpenAI đã chuyển từ nguồn mở sang mô hình đóng

- Các công ty AI châu Âu như Mistral (Pháp) và Aleph Alpha (Đức) sử dụng mô hình nguồn mở và phản đối đề xuất quy định của châu Âu về kiểm soát nhà phát triển mô hình nền tảng

- Luật AI của Liên minh châu Âu được thông qua năm 2024 nhằm kiểm soát rủi ro từ công nghệ AI mạnh mẽ

📌 Châu Âu đang đứng trước ngã ba đường trong việc quản lý AI: một bên là áp đặt quy định chặt chẽ lên mô hình nguồn mở, bên kia là tự do phát triển để cạnh tranh với Mỹ và Trung Quốc. DeepSeek đã chứng minh sức mạnh của mô hình nguồn mở khi vượt qua cả OpenAI và Meta.

 

https://www.businessinsider.com/europe-should-keep-open-source-ai-legal-yann-lecun-2025-2

CEO Baidu: Cần tiếp tục đầu tư hạ tầng AI dù DeepSeek đã chứng minh hiệu quả tiết kiệm

-  Robin Li, CEO Baidu phát biểu tại Hội nghị thượng đỉnh chính phủ thế giới ở Dubai ngày 11/2/2025, nhấn mạnh việc đầu tư vào trung tâm dữ liệu và cơ sở hạ tầng đám mây vẫn rất cần thiết

-  DeepSeek, một startup AI của Trung Quốc, gần đây gây chú ý khi phát triển các mô hình ngôn ngữ có hiệu suất tương đương với các hệ thống hàng đầu như OpenAI's GPT nhưng sử dụng ít năng lực tính toán hơn đáng kể

-  Baidu là một trong những công ty Trung Quốc đầu tiên ra mắt sản phẩm AI sau khi ChatGPT được phát hành cuối năm 2022. Tuy nhiên, mô hình ngôn ngữ lớn Ernie của công ty, được cho là có khả năng tương đương GPT-4, chưa được người dùng đón nhận rộng rãi

-  Trước đây, Li từng tuyên bố mạnh mẽ rằng khó có thể xuất hiện một công ty như OpenAI từ Trung Quốc và ủng hộ mô hình đóng là con đường duy nhất khả thi cho phát triển AI

-  Tại hội nghị, Li thừa nhận sự xuất hiện bất ngờ của DeepSeek cho thấy bản chất khó đoán của đổi mới công nghệ

-  Các hạn chế về năng lực tính toán đã thúc đẩy các công ty Trung Quốc đổi mới để giảm chi phí

-  Li cũng thay đổi quan điểm về phát triển nguồn đóng, giờ đây công nhận cách tiếp cận nguồn mở có thể thúc đẩy việc áp dụng AI nhanh hơn

📌 Từ chỗ ủng hộ mạnh mẽ mô hình đóng, CEO Baidu Robin Li đã thay đổi quan điểm về AI nguồn mở sau thành công của DeepSeek. Mặc dù vậy, ông vẫn khẳng định cần tiếp tục đầu tư lớn vào cơ sở hạ tầng để phát triển các mô hình AI vượt trội.

 

https://www.reuters.com/technology/baidu-ceo-says-more-ai-spend-still-needed-despite-deepseeks-success-2025-02-11/

CEO của Arm nói về tương lai của AI và lý do không lo sợ DeepSeek

- Rene Haas, CEO của Arm Holdings, đã tái định hình mô hình kinh doanh từ việc thu phí trước qua mô hình tiền bản quyền, giúp công ty đạt giá trị vốn hóa 175 tỷ USD. 
- DeepSeek, startup AI đến từ Trung Quốc, gây kinh ngạc khi giới thiệu mô hình ngôn ngữ lớn cạnh tranh với ChatGPT nhưng chi phí chỉ 5,6 triệu USD. Haas hoài nghi về chi phí thấp này và nghi ngờ DeepSeek sử dụng dữ liệu từ ChatGPT.
- DeepSeek công khai mã nguồn mở của mình, trái ngược với mô hình đóng của OpenAI, nhưng Haas tin rằng mô hình này có thể bị cấm vì lo ngại an ninh, tương tự TikTok.
- Arm, với lịch sử lâu đời từ thập niên 1980, đã xuất xưởng gần 300 tỷ thiết bị sử dụng thiết kế chip của mình. Công ty này từng thuộc sở hữu của SoftBank, và gần đây niêm yết trở lại trên sàn Nasdaq.
- Rene Haas, từng làm việc tại NVIDIA, đã chuyển dịch chiến lược của Arm từ việc tập trung vào phí bản quyền thấp đến mô hình định giá linh hoạt tùy thuộc vào giá trị của thiết bị sử dụng chip. Chiến lược này giúp tăng cường doanh thu và vị thế cạnh tranh.
- Đề xuất bán Arm cho NVIDIA trước đây bị chặn bởi cơ quan quản lý vì lo ngại độc quyền. Quyết định này được Haas ủng hộ vì giữ được sự công bằng cho thị trường.
- Hiện tại, Arm tham gia vào Stargate, dự án cơ sở hạ tầng AI trị giá 500 tỷ USD, với sự hợp tác của các ông lớn như OpenAI và SoftBank. Arm cũng là nền tảng cho các agent AI thế hệ mới ứng dụng trong công việc.
- Haas nhấn mạnh tiềm năng AI trong y học, đặc biệt là nghiên cứu DNA và RNA, với khả năng mang lại những đột phá trong điều trị ung thư.

📌 Arm đạt giá trị vốn hóa 175 tỷ USD nhờ chiến lược chuyển đổi mô hình thành công. DeepSeek khiến ngành AI chú ý nhưng gặp nhiều hoài nghi. Arm sẵn sàng cho các bước tiến mới trong AI, đặc biệt trong y học, với tiềm năng thay đổi thế giới.

https://www.ft.com/content/794d62b6-30c9-47d3-9d17-80f5e86c867f

#FT

 

CEO của Arm nói về tương lai của AI và lý do không lo sợ DeepSeek
Rene Haas đã định hình lại mô hình kinh doanh của hãng chip, tập trung vào tiền bản quyền thay vì phí

Hai tuần trước, Rene Haas đang đạp xe tập thể dục và xem CNBC như thường lệ vào mỗi buổi sáng thì chứng kiến ngành công nghệ bị giáng một đòn nặng nề. “Màn hình TV toàn màu đỏ”, tổng giám đốc của Arm Holdings nhớ lại. “Mọi thứ đang sụp đổ và tôi tự hỏi: nghiêm túc đấy à? Thật sự sao? Mọi người đang nghĩ gì vậy?”

Thị trường hoảng loạn vì sự ra mắt của một mô hình mới từ DeepSeek, một startup trí tuệ nhân tạo thuộc sở hữu của Trung Quốc. DeepSeek đã phát triển một mô hình ngôn ngữ lớn với khả năng đạt được kết quả tương đương ChatGPT của OpenAI — với chi phí mà họ tuyên bố chỉ bằng một phần nhỏ. Khi các nhà đầu tư hoảng sợ hôm đó, Nvidia, nhà sản xuất chip thống trị thị trường AI, đã mất gần 600 tỷ USD giá trị vốn hóa. Cổ phiếu của Arm, công ty mà Haas điều hành từ năm 2022, giảm khoảng 10%, tương đương mất khoảng 17 tỷ USD (hiện đã phục hồi).

Arm thiết kế và cấp phép kiến trúc cốt lõi cho gần như tất cả các smartphone và ngày càng hợp tác nhiều hơn với các nhà sản xuất chip như Nvidia, vì vậy không tránh khỏi bị ảnh hưởng bởi những lo ngại về lộ trình phát triển của AI. Haas có đồng ý với nhà đầu tư mạo hiểm Marc Andreessen, người gọi DeepSeek là "thời khắc Sputnik" của AI? “Không”, ông khẳng định. “Mọi thứ đang thay đổi nhanh đến mức, đến khi bạn viết xong bài này, có thể đã có một điều gì đó khác xảy ra rồi.”

Nhưng ông cũng thừa nhận DeepSeek là một bất ngờ. “Thứ nhất, một mô hình mã nguồn mở đã bắt kịp, về lý thuyết, một số công cụ suy luận mã nguồn đóng tốt nhất.” DeepSeek đã công bố nghiên cứu đằng sau mô hình của mình và chia sẻ một phần cơ chế hoạt động, trong khi các mô hình như ChatGPT là mã nguồn đóng, sử dụng mã độc quyền. Việc mô hình này có nguồn gốc từ Trung Quốc cũng là “một vấn đề lớn”, ông nói, vì trước đây những bước tiến trong AI chủ yếu do Thung lũng Silicon dẫn dắt.

Haas không mấy ấn tượng với tuyên bố rằng DeepSeek được phát triển chỉ với 5,6 triệu USD, một con số rất nhỏ so với chi phí huấn luyện các mô hình AI tại Mỹ. Ông cho rằng không thể tin vào “những tin đồn” rằng “họ làm được điều này với ngân sách eo hẹp… Tôi nghĩ mọi người đã phản ứng thái quá kiểu ‘có lẽ thế giới sắp kết thúc rồi’.”

Bất kỳ ai lo lắng về tương lai của AI nên nhìn vào những người đang rót tiền vào lĩnh vực này, ông nói. “Dấu hiệu cảnh báo cần theo dõi là khi [các lãnh đạo công nghệ] như Satya Nadella, Sundar [Pichai] hay [Mark] Zuckerberg nói: ‘Bạn biết khoản đầu tư 80 tỷ USD vào cơ sở hạ tầng mà tôi đã lên kế hoạch không? Tôi nghĩ tôi sẽ cắt giảm hai phần ba số đó.’ Đó mới là điều cần chú ý.”  

Haas cũng nghi ngờ rằng cách tiếp cận của DeepSeek có gì mang tính cách mạng, cho rằng công ty này sử dụng một quy trình gọi là “distillation” (chưng cất tri thức), trong đó AI học từ các mô hình khác. OpenAI cũng đồng tình: vài ngày sau khi DeepSeek công bố dữ liệu hiệu năng, công ty Mỹ này tuyên bố có bằng chứng cho thấy đối thủ Trung Quốc đã sử dụng dữ liệu độc quyền của ChatGPT để huấn luyện mô hình của mình.  

Ông không dự đoán một tương lai tươi sáng cho DeepSeek, thậm chí còn cho rằng công ty này sẽ “bị đóng cửa”. Washington đang “vật lộn để tìm cách xử lý chuyện này. Nghĩ mà xem… nếu người ta không cho phép TikTok, thì tại sao lại cho phép cái này?” Nhưng đó chỉ là quan điểm cá nhân, ông nói thêm. “Tôi không có bất kỳ thông tin nội bộ nào về việc này.”  

Arm hoạt động trong một mảng khác nhưng có liên quan trong hệ sinh thái công nghệ. Công ty có nguồn gốc từ BBC Micro, một chiếc máy tính từng xuất hiện phổ biến trong các lớp học ở Anh vào thập niên 1980 và là nơi xuất hiện bộ vi xử lý Arm đầu tiên. Những người sáng lập Arm đã lập công ty riêng từ một nhà kho nuôi gà tây cũ ở Cambridgeshire, cấp phép thiết kế chip cho Apple để sử dụng trong thiết bị Newton (nay đã ngừng sản xuất), rồi sau đó cho thế hệ điện thoại di động đầu tiên. Khi Apple khởi động cuộc cách mạng smartphone với iPhone, họ đã tìm đến Arm. Kể từ khi công ty có trụ sở tại Anh này ra mắt năm 1990, gần 300 tỷ thiết bị sử dụng thiết kế chip của họ đã được xuất xưởng.  

Haas là một người đàn ông cao lớn, hôm nay trông còn cao hơn nhờ đôi giày đế cao kiểu Cuba. Tháng này đánh dấu ba năm ông làm CEO của Arm, nhưng thực tế ông đã gia nhập công ty từ năm 2013 sau 7 năm làm việc tại Nvidia—nơi ông có thời gian hợp tác chặt chẽ với CEO Jensen Huang—và sau đó là một giai đoạn khởi nghiệp một số công ty. Ông bắt đầu sự nghiệp tại Texas Instruments, nhưng người có công đưa ông đến với lĩnh vực máy tính chính là cha ông.  

Cha của Haas từng chạy trốn khỏi Đức Quốc xã cùng một số thành viên gia đình gốc Do Thái sang Bồ Đào Nha khi còn nhỏ vào đầu những năm 1930. Đó là “câu chuyện nhập cư kinh điển của nước Mỹ”, Haas nói. Cha ông gặp mẹ ông tại Bồ Đào Nha rồi hai người chuyển đến Mỹ, cuối cùng định cư tại vùng ngoại ô New York, nơi ông làm việc cho bộ phận nghiên cứu của Xerox.  

Bộ phận này có một nhóm nghiên cứu ở bờ Tây: Trung tâm Nghiên cứu Palo Alto, nơi theo truyền thuyết Thung lũng Silicon, Steve Jobs lần đầu tiên nhìn thấy giao diện đồ họa vào năm 1979. Haas từng đến thăm cơ sở này khi còn nhỏ cùng gia đình vài năm trước đó và hoàn toàn bị choáng ngợp bởi những gì ông chứng kiến. “Giống như bước vào một bộ phim khoa học viễn tưởng vậy. Máy tính, trò chơi, giao tiếp với người khác… và đây là chuyện từ 50 năm trước.”  

Năm 2006, Haas gia nhập Nvidia, khi đó công ty này đạt doanh thu khoảng 4 tỷ USD và có vốn hóa thị trường khoảng 10 tỷ USD (ngày nay, ngay cả sau cú sốc DeepSeek, Nvidia vẫn có giá trị lên tới 3.000 tỷ USD).

Haas phát triển mối quan hệ thân thiết với Huang (người gần đây đã xuất hiện trên một podcast do Haas dẫn dắt) và nhớ lại rằng Nvidia thời điểm đó còn khá "chật vật", hoạt động dưới cái bóng của Intel, công ty dẫn đầu thị trường khi ấy. Nhưng sau đó, hai công ty đã đổi chỗ khi Nvidia tăng trưởng bùng nổ. “Intel có tư duy của một hội đồng quản trị, nghĩa là đưa ra quyết định chậm chạp.” Trong khi đó, tại Nvidia, “một trong những siêu năng lực của họ là khả năng xoay trục và thay đổi chiến lược, hướng đi rất nhanh. Quan trọng hơn, Jensen có thể làm điều đó và cả công ty ngay lập tức tập hợp phía sau ông ấy.”  

Khi Haas chuyển sang Arm, công ty này đang được niêm yết đồng thời tại London và Nasdaq. Ba năm sau, SoftBank mua lại với giá 32 tỷ USD. Masayoshi Son, CEO của SoftBank, muốn chia công ty thành hai mảng: một mảng tập trung vào “internet vạn vật” (IoT) và dịch vụ, mảng còn lại vẫn giữ trọng tâm vào thiết kế chip truyền thống—và Haas được giao phụ trách mảng này.  

“Masa có quan điểm chung rằng [Arm] có thị phần rất lớn, nhưng lại không thực sự thu về nhiều giá trị từ thị phần đó.”  

Tuy nhiên, Son lại “bị phân tâm bởi đủ thứ khác. Ông ấy lập Vision Fund. Ông ấy mua WeWork. Ông ấy cố gắng hoàn tất thương vụ T-Mobile và Sprint. Quá nhiều thứ cùng lúc.”  

Điều này hóa ra lại là cơ hội, giúp Haas và đội ngũ thử nghiệm chiến lược mới. Ông quyết định thay đổi mô hình kinh doanh của Arm, chuyển sang thu tiền bản quyền cao hơn từ các thiết bị sử dụng kiến trúc chip của công ty, thay vì tập trung vào phí cấp phép ban đầu. Trước đó, Arm tính phí bản quyền gần như giống nhau cho một con chip trong máy xay sinh tố và một con chip dùng trong trung tâm dữ liệu cao cấp—một điều mà ông cho là “điên rồ”. Ông tái cấu trúc công ty theo từng ngành dọc, tạo ra các mảng kinh doanh riêng biệt, chẳng hạn như chip dành cho máy chủ và chip dành cho ô tô. Ông nhấn mạnh rằng thiết kế của Arm phải được định giá “tương xứng với giá trị mang lại”.  

Tuy nhiên, việc đưa sản phẩm mới ra thị trường cần thời gian. Dù Haas đã điều chỉnh mô hình bán hàng có lợi hơn cho Arm, kết quả không đến ngay lập tức. “Nó chưa thực sự tăng trưởng, nhưng tôi biết rồi nó sẽ tăng.”  

Khi không thấy công ty tăng trưởng ngay, Son (người tháng trước còn xuất hiện trong tòa Rotunda cùng những ông trùm công nghệ khác tại lễ nhậm chức của Donald Trump) quyết định bán công ty.  

Người mua duy nhất sẵn sàng trả mức giá mà Son muốn là Huang của Nvidia. Nhưng thương vụ này cuối cùng không thành công vì bị các cơ quan quản lý ngăn chặn do lo ngại vi phạm luật cạnh tranh. Haas cho rằng các nhà quản lý “đã làm đúng. Hoàn toàn đúng. Việc một khách hàng của Arm nắm giữ thị phần rộng lớn của công ty sẽ tạo ra bất lợi rất lớn cho những công ty khác.”  

Những sự kiện sau đó cho thấy quyết định không bán cho Nvidia là chính xác. SoftBank cuối cùng quyết định niêm yết lại Arm trên Nasdaq, từ chối đề nghị niêm yết tại London của chính phủ Anh. Chưa đầy hai năm sau và chưa đến ba năm từ khi Haas trở thành CEO, giá trị công ty đã tăng vọt lên khoảng 175 tỷ USD.  

Cơn sốt AI có thể đã giúp thúc đẩy thị trường, nhưng chính sự thay đổi mô hình kinh doanh của Haas mới thực sự làm Arm lột xác. Câu hỏi đặt ra bây giờ là động lực tăng trưởng tiếp theo sẽ đến từ đâu.  

Có nhiều tin đồn rằng Arm sẽ bắt đầu tự sản xuất chip—một bước đi mang tính đột phá hoàn toàn so với mô hình kinh doanh dựa trên bản quyền và cấp phép hiện tại. Khi tôi hỏi Haas khi nào điều này sẽ xảy ra, ông không muốn tiết lộ thêm.  

Trước mắt, Arm thông qua SoftBank là một phần của Stargate, dự án đầu tư hạ tầng AI trị giá 500 tỷ USD do Donald Trump công bố vào ngày thứ hai sau khi nhậm chức nhiệm kỳ thứ hai. OpenAI cũng là một thành viên trong liên minh này và ngoài ra còn đang hợp tác với Arm để cung cấp nền tảng cho thế hệ “AI agent” mới nhằm cải thiện năng suất lao động.  

Sẽ có những trở ngại trên đường đi, nhưng cuộc cách mạng AI là có thật và sẽ thay đổi thế giới, Haas khẳng định. Ông lấy ví dụ về bong bóng dotcom đầu những năm 2000 và những công ty đã trỗi dậy sau khi bong bóng vỡ.  

Ngoài công việc tại Arm, Haas cũng là thành viên hội đồng quản trị của AstraZeneca, và ông trở nên hào hứng nhất khi nói về cách AI có thể giúp ích cho y học.  

“Hãy nghĩ về cách phát triển thuốc mới hiện nay. Trước tiên, phải thử nghiệm trên động vật trước khi thử trên người. Đó là kiểu tư duy của những năm 1950, đúng không?” AI có thể khiến những “mô hình cũ… bị phá vỡ hoàn toàn.”  

Ông đề cập đến việc sử dụng AI trong nghiên cứu DNA và RNA. Những điều tưởng chừng không thể có thể xảy ra—giống như việc một công ty khởi đầu từ một nhà kho cũ lại trở thành một gã khổng lồ trị giá 175 tỷ USD.  

Ông kết luận: “Có cơ hội để chữa khỏi ung thư trong đời chúng ta. Và đó là một điều hoàn toàn có cơ sở.”

 

Arm CEO on the future of AI and why he is not afraid of DeepSeek
Rene Haas has reshaped chipmaker’s business to focus on royalties rather than fees
Rene Haas was on an exercise bike two weeks ago watching CNBC like he does every morning, when the tech sector took a beating. The TV screen had “red everywhere”, recalls the chief executive of Arm Holdings. “Everything is crashing and I’m thinking to myself: seriously? Really? What are people thinking?”
The market freak-out had been triggered by the release of a new model from DeepSeek, a Chinese-owned artificial intelligence start-up that has developed a large language model capable of results comparable to those of OpenAI’s ChatGPT — for what it claimed was a fraction of their cost. As investors took fright that day, Nvidia, the dominant maker of chips that power AI applications, lost almost $600bn of market value. Shares in Arm, which Haas has run since 2022, fell about 10 per cent, equivalent to losing about $17bn (they have since recovered).
Arm designs and licenses the essential architecture in almost all smartphones and increasingly works with chipmakers such as Nvidia, so is likely to be affected by any anxiety about AI’s trajectory. Does Haas agree with the venture capitalist Marc Andreessen, who hailed DeepSeek as AI’s “Sputnik moment”? “No,” he says firmly. “This is moving so fast, by the time you write this article, there could be something different.”
But he acknowledges DeepSeek was a surprise. “Number one, an open-source model has caught up with, in theory, some of the best closed-source reasoning tools.” DeepSeek published the research behind its model and made some of its workings publicly available; models such as ChatGPT are closed source, using proprietary code. The fact that the model originated in China is also “a big deal”, he says, given advancements in AI have, to date, been led by Silicon Valley. Haas is less impressed with claims DeepSeek was developed for a bargain $5.6mn, a tiny fraction of the amount used in the training of US models. He says he does not believe “the rumours” that “they did this on a shoestring budget . . . I think that’s where people just over-indexed on ‘maybe the world’s coming to an end’.”

Anyone worried about the future of AI should look at who is investing money, he says. “The canary in the coal mine to look at is when [tech bosses] Satya Nadella or Sundar [Pichai] or [Mark] Zuckerberg say, ‘You know that $80bn of capex I said I was going to do? I think I’m going to cut that by two-thirds.’ That’s what you need to look for.”
Haas also doubts DeepSeek’s approach was particularly revolutionary, saying he believes the company used a process called “distillation”, whereby it learns from other AI models. OpenAI agrees: days after the launch of DeepSeek’s performance data, the US company said it had evidence that its Chinese rival had used ChatGPT’s proprietary data to train its models.
He does not predict a rosy future for DeepSeek, saying he thinks it will “get shut down”. Washington is “scrambling on what to do with this thing. Think about it . . . if you’re not going to allow a TikTok, why would you allow this?” This is only his opinion, he adds. “I’m not operating on any knowledge [here].”
Arm occupies a different but related part of the tech ecosystem. Its roots stretch back to the BBC Micro, a computer that was a fixture of most 1980s UK school classrooms and which featured the first Arm processor. Arm’s founders launched their own company from an old turkey barn in Cambridgeshire, licensing their chip design to Apple for its now defunct Newton handheld device, and then to the early generation of mobile phones. When Apple fired the gun on the smartphone revolution with the iPhone, it turned to Arm. Since the UK-based company’s launch in 1990, close to 300bn devices using its chip designs have been shipped.
Haas is a tall man, and taller today in nifty Cuban heels. This month is his three-year anniversary as Arm CEO but he first arrived at the company in 2013 after a seven-year stint at Nvidia — where he worked closely with chief executive Jensen Huang — and a spell starting several companies. He began his career at Texas Instruments but has his father to thank for introducing him to computing. The elder Haas fled Nazi Germany with some of his Jewish family for Portugal as a child in the early 1930s. It is “the classic American immigrant story”, Haas says. His father met his mother in Portugal and the couple moved to America, eventually settling in upstate New York, where Haas senior worked for the research arm of Xerox.
The division had a sister research group on the west coast: the Palo Alto Research Center which, according to Silicon Valley legend, is where a young Steve Jobs first saw a graphical user interface in 1979. Haas had visited the facility as a young boy with his family a few years earlier and was blown away by what he saw. “It was like walking into a science-fiction movie. Computers, games, communicating with others . . . and this is 50 years ago.”
In 2006, Haas landed at Nvidia, which at the time was generating about $4bn in revenue and had a market capitalisation of about $10bn (these days, even after the DeepSeek turmoil, it is worth $3tn). 
He developed a close relationship with Huang (who recently appeared on a podcast hosted by Haas) and says the company at the time was “scrappy”, working in the shadow of then market leader Intel. They would eventually swap places as Nvidia’s growth exploded. “Intel had a board mentality, meaning it moved at a slow pace relative to making decisions.” At Nvidia, “one of their superpowers is they are able to pivot and change strategy and direction. More importantly, Jensen is able to do that and the company mobilises very quickly behind him.”
When Haas jumped to Arm, it was jointly listed in London and on the Nasdaq and three years later was acquired by SoftBank for $32bn. SoftBank’s chief executive, Masayoshi Son, wanted to split the company in two, with one half focused on the “internet of things” and services and the other on its classic chip design business, which Haas was asked to run.
“Masa had a general view that [we] had a really high market share, but didn’t really extract a lot of value for that share.”
Son, though, “got distracted with all this other stuff. He did Vision Fund. He bought WeWork. He was trying to get the T-Mobile Sprint deal over the line. He had a million things going on.”
This turned out fortuitously, allowing Haas and his team to try out new strategies. He decided to flip Arm’s business model, tying higher royalties to the devices that used its chip architecture, rather than focusing on upfront licence fees. Arm was charging roughly the same royalty on a chip that appeared in a blender as one that went into a high-end data centre, which he says was “crazy”. He reorganised the company along vertical lines, creating a business for servers, and a business for cars, for example. Arm’s designs had to be priced “commensurate with the value”.
But bringing new products to market takes time and, although Haas made the sales model more favourable to Arm, the results were not immediate. “It wasn’t really growing but I knew it was going to.”
With little growth on the immediate horizon, Son (who was in the Rotunda with the other tech bros for Donald Trump’s inauguration last month) decided to sell the company.
The only bidder willing to pay the price he wanted was Huang at Nvidia, although his offer was ultimately unsuccessful and blocked by regulators on antitrust grounds. Haas says the regulators “got it right. Absolutely. Arm’s broad market share in the hands of one of its customers would have put a very, very significant disadvantage against the others.”
Events since suggest not selling to Nvidia was the right move. SoftBank ultimately decided to relist Arm on Nasdaq, rejecting the overtures of the UK government for a listing in London. Less than two years later and not yet three years since Haas was made chief executive, its value has skyrocketed to a market capitalisation of about $175bn.
Market fervour for AI may have helped but Haas’s business model switch certainly transformed Arm. The question now is where the next boost will come from. There have been reports that Arm will start building its own chip, a move that would be a radical departure from its royalty and licensing-based business model.
I press Haas on when this might happen but he does not want to say more.
More immediately, Arm is, via SoftBank, part of Stargate, the $500bn AI infrastructure investment project unveiled by Donald Trump on his second day in office. OpenAI is also part of the consortium and, separately, is working with Arm on providing the platform for a new generation of AI “agents” to improve workplace productivity.
There may be bumps in the road but the AI revolution is real and will change the world, says Haas, pointing to the first dotcom bubble and the companies that emerged when it burst. He is also a member of the AstraZeneca board and becomes most animated when talking about how AI can be harnessed to benefit medicine. 
“Think about what you do today with brand new drugs. You actually do trials on animals before you do trials on humans. That’s 1950s kind of stuff, right?” AI means existing “paradigms . . . can be completely shattered”.
He mentions using AI on DNA and RNA research. The improbable can happen, it seems — much like turning a company that started in a barn into a $175bn powerhouse. There is, he says, an “opportunity to cure cancer in our lifetime. It’s pretty real.”  

DeepSeek gây sốt tại Trung Quốc trong cuộc đua AI nội địa

- DeepSeek, startup AI sáng lập năm 2023, nổi bật tại Trung Quốc nhờ mô hình ngôn ngữ lớn (LLM) V3 và mô hình lập luận R1, cho phép hội thoại tự nhiên, sáng tác thơ, đề xuất bài tập gym và hỗ trợ thi cử.  
- Dịp Tết Nguyên Đán năm 2025, DeepSeek thu hút hàng triệu người dùng với khả năng dự đoán vận mệnh thông qua "bazi" (8 ký tự đại diện cho ngày sinh) và chia sẻ kết quả rầm rộ trên mạng xã hội.  
- DeepSeek, với mô hình AI hiệu quả nhưng chi phí thấp, được nhiều người xem là đối thủ xứng tầm của ChatGPT, dù không sử dụng chip tiên tiến nhất.  

- Chính phủ Trung Quốc thúc đẩy phát triển AI với quỹ đầu tư 60 tỷ Nhân dân tệ (198.5 nghìn tỷ đồng) vào tháng 1/2025 và đã đầu tư tổng cộng 184 tỷ USD (4.3 triệu tỷ đồng) từ năm 2000 đến 2023 cho hơn 9.600 công ty AI.  
- Trung Quốc hiện chiếm 9/20 vị trí hàng đầu trên nền tảng xếp hạng Chatbot Arena, cạnh tranh trực tiếp với Mỹ.  

Thành công của DeepSeek được ghi nhận nhờ:  
  - Tự chủ tài chính từ nhà sáng lập Liang Wenfeng, một tỷ phú từ quỹ đầu tư High-Flyer.  
  - Cơ cấu tổ chức linh hoạt, không chịu sức ép thương mại hóa.  
  - Tận dụng nguồn tài nguyên từ các nghiên cứu AI trước đó, bao gồm Qwen, một nguồn mở của Alibaba.  

- Các startup "lục tiểu hổ" như Zhipu AI, MiniMax hay Moonshot AI đang chạy đua đổi mới, trong khi DeepSeek tạo áp lực cho các công ty lớn và nhà nước phải thích ứng.  

- Tuy nhiên, giới chuyên gia nhận định, mô hình phi lợi nhuận và tổ chức gọn nhẹ của DeepSeek khó nhân rộng, đặt thách thức lớn cho các công ty khác.  

📌 DeepSeek chinh phục Trung Quốc với tiêu biểu các mô hình tiên tiến V3 và R1, đem lại khả năng giao tiếp tự nhiên và sáng tạo vượt bậc, dù không dùng công nghệ chip hiện đại nhất. Thành công của DeepSeek thúc đẩy cuộc đua AI tại Trung Quốc, đối đầu trực tiếp với Mỹ trong lĩnh vực công nghệ.

 

https://www.straitstimes.com/asia/in-china-the-domestic-ai-race-intensifies-as-chinese-go-gaga-over-deepseek

Mistral ra mắt ứng dụng di động Le Chat trên iOS và Android, cạnh tranh ChatGPT

-  Mistral - công ty được xem là niềm hy vọng lớn của châu Âu trong lĩnh vực AI, vừa ra mắt ứng dụng di động Le Chat trên cả iOS và Android

-  Mistral phát triển các mô hình ngôn ngữ lớn riêng như Mistral Large và mô hình multimodal Pixtral Large, có thể sử dụng thương mại qua API hoặc các đối tác đám mây như Azure AI Studio, Amazon Bedrock và Google Vertex AI

-  Le Chat cạnh tranh trực tiếp với ChatGPT, Claude, Google Gemini và Microsoft Copilot, cung cấp giao diện trò chuyện đơn giản cho phép người dùng tương tác với mô hình AI

Tính năng nổi bật của Le Chat:
- Hỗ trợ tìm kiếm web với trích dẫn (từ tháng 11/2024)
- Tạo sinh và chỉnh sửa hình ảnh
- Tốc độ xử lý lên đến 1.000 từ mỗi giây
- Tích hợp với mô hình tạo hình ảnh Flux Ultra của Black Forest Labs

Mistral giới thiệu gói Pro với giá 14,99 USD/tháng, cung cấp:
- Truy cập mô hình hiệu năng cao nhất
- Giới hạn sử dụng cao hơn
- Tùy chọn không chia sẻ dữ liệu với Mistral

Ưu điểm cạnh tranh của Le Chat trong thị trường doanh nghiệp:
- Cho phép triển khai tại chỗ (on premise)
- Tùy chỉnh mô hình và giao diện người dùng
- Phù hợp với các ngành như quốc phòng và ngân hàng

📌 Mistral đã tạo được lợi thế cạnh tranh với tốc độ xử lý 1.000 từ/giây và khả năng triển khai tại chỗ cho doanh nghiệp. Ứng dụng di động mới ra mắt sẽ cạnh tranh trực tiếp với các ứng dụng AI hàng đầu như ChatGPT, DeepSeek và Google Gemini trên App Store.

https://techcrunch.com/2025/02/06/mistral-releases-its-ai-assistant-on-ios-and-android/

S1 - Mô hình AI mới từ Stanford có chi phí đào tạo chỉ 50 USD

- Các nhà nghiên cứu tại Stanford và Đại học Washington đã phát triển mô hình S1 với chi phí đào tạo chỉ 50 USD (khoảng 4.400 rupee)

- S1-32B là mô hình ngôn ngữ nguồn mở tập trung vào nhiệm vụ suy luận, sử dụng kỹ thuật "test-time scaling" để lặp lại phản hồi bằng cách sử dụng thêm tài nguyên tính toán trong quá trình kiểm thử

- Mô hình được đào tạo trên bộ dữ liệu S1K gồm 1.000 câu hỏi được chọn lọc kỹ về độ khó, đa dạng và chất lượng trong các lĩnh vực toán học, suy luận và khoa học

- Quá trình đào tạo chỉ mất 26 phút trên 16 GPU NVIDIA H100 thông qua supervised fine-tuning trên mô hình nền Qwen2.5-32B-Instruct

- S1 học cách suy luận bằng cách nghiên cứu câu hỏi và câu trả lời từ Gemini 2.0 Flash Thinking Experimental của Google

- Khi đánh giá trên 3 tiêu chuẩn AIME24, MATH500 và GPQA Diamond, S1 vượt trội hơn mô hình o1 Preview của OpenAI tới 27% trong các bài toán thi đấu

- Mô hình có khả năng chia nhỏ câu hỏi phức tạp thành nhiều bước để phân tích và trả lời, ví dụ như tính toán chi phí thay thế iPhone bằng máy tính bảng Android

- S1 chứng minh khả năng xây dựng mô hình suy luận hiệu quả chỉ với 1.000 mẫu, không cần học tăng cường và bộ dữ liệu khổng lồ

📌 Mô hình S1 mở ra kỷ nguyên mới cho AI chi phí thấp với chỉ 50 USD đào tạo, đạt hiệu suất vượt 27% so với đối thủ OpenAI trong các bài toán thi đấu. Đây là minh chứng cho việc phát triển AI hiệu quả không nhất thiết phải tốn kém.

 

https://indianexpress.com/article/technology/artificial-intelligence/what-is-s1-ai-model-the-openai-o1-rival-trained-in-less-than-50-9824588/

Doanh nghiệp Singapore đánh giá lợi ích từ DeepSeek nhưng thận trọng về rủi ro bảo mật dữ liệu và thiên kiến AI

-  DeepSeek ra mắt mô hình R1 vào tháng 1/2025, gây chấn động ngành công nghệ với chi phí đào tạo chỉ 5,6 triệu USD (7,6 triệu SGD), thấp hơn nhiều so với các đối thủ

-  Nền tảng Ai Palette ước tính DeepSeek có thể giúp doanh nghiệp tiết kiệm 40-60% chi phí cơ sở hạ tầng để vận hành các mô hình ngôn ngữ lớn

-  Nghiên cứu của IBM cho thấy gần 50% trong số 200 người ra quyết định IT tại Singapore muốn sử dụng nhiều công nghệ AI nguồn mở hơn trong năm 2025

-  Các công ty lớn như ngân hàng, tư vấn và an ninh mạng đã đặt ra quy tắc cấm nhân viên sử dụng DeepSeek cho công việc do lo ngại về bảo mật

-  Các thử nghiệm ban đầu cho thấy DeepSeek còn thiếu một số tiêu chuẩn AI có trách nhiệm, như trả lời các câu hỏi nhạy cảm hoặc kiểm duyệt câu trả lời về các chủ đề gây tranh cãi

-  Hàn Quốc, Ý và Úc đã chặn quyền truy cập DeepSeek trên các thiết bị chính phủ vì lo ngại về an ninh

-  Một số công ty như Babbobox và Wiz.AI đã bắt đầu sử dụng DeepSeek cho các tác vụ như tìm kiếm cảm hứng, viết mã và hỗ trợ khách hàng

-  OCBC Bank và UOB tự phát triển chatbot AI tùy chỉnh trên máy chủ nội bộ để đảm bảo dữ liệu doanh nghiệp không bị chia sẻ

📌 DeepSeek tạo ra bước đột phá với mô hình R1 chi phí thấp (5,6 triệu USD) giúp tiết kiệm tới 60% chi phí hạ tầng. Tuy nhiên, các doanh nghiệp Singapore vẫn thận trọng do thiếu tính minh bạch về bảo mật dữ liệu và có dấu hiệu kiểm duyệt nội dung theo định hướng của chính phủ Trung Quốc.

https://www.straitstimes.com/tech/firms-in-spore-eye-deepseek-ai-benefits-but-cautious-about-data-security-risks-ai-biases

Dự luật mới của Mỹ nhằm cấm sử dụng chatbot DeepSeek của Trung Quốc trên các thiết bị chính phủ

- Hai nghị sĩ Mỹ Darin LaHood (Đảng Cộng hòa) và Josh Gottheimer (Đảng Dân chủ) sẽ đề xuất dự luật cấm sử dụng chatbot DeepSeek trên thiết bị chính phủ

- DeepSeek, startup Trung Quốc mới thành lập 1 năm, gây chấn động khi phát hành mô hình AI R1 với khả năng tương đương các mô hình hàng đầu của Mỹ nhưng chi phí đào tạo thấp hơn và tiết kiệm năng lượng hơn

- Dự luật sẽ cho các cơ quan chính phủ 60 ngày để phát triển tiêu chuẩn và hướng dẫn gỡ bỏ DeepSeek và các ứng dụng khác của công ty mẹ High Flyer

- Australia, Ý và Đài Loan đã có động thái tương tự về việc hạn chế DeepSeek

- Ngôn ngữ trong dự luật tương tự như lệnh cấm TikTok tại Mỹ, với lo ngại về việc ByteDance có thể bị buộc chia sẻ dữ liệu người dùng Mỹ với chính phủ Trung Quốc

- Từ năm 2022, các cơ quan chính phủ liên bang và tiểu bang đã bắt đầu cấm sử dụng TikTok trên thiết bị công vụ

- Các chuyên gia an ninh mạng cảnh báo DeepSeek có thể gây rủi ro lớn hơn do thuộc sở hữu của Trung Quốc và luật an ninh mạng Trung Quốc yêu cầu các công ty phải cung cấp quyền truy cập dữ liệu theo yêu cầu của chính quyền

📌 Mỹ tiếp tục thắt chặt kiểm soát công nghệ Trung Quốc sau TikTok, lần này nhắm vào chatbot DeepSeek với dự luật cấm sử dụng trên thiết bị chính phủ trong 60 ngày, do lo ngại về việc thu thập dữ liệu và an ninh quốc gia.

 

https://www.cnn.com/2025/02/06/tech/deepseek-ai-us-ban-bill/index.html

CEO IBM : Deepseek cho thấy thời đại độc quyền AI đã kết thúc

- DeepSeek vừa thách thức quan điểm thông thường về AI khi chỉ sử dụng 2.000 chip Nvidia và chi phí khoảng 6 triệu USD để huấn luyện mô hình mới nhất, thay vì mức 1 tỷ USD như dự đoán trước đây

- CEO IBM Arvind Krishna khẳng định các mô hình nhỏ gọn, hiệu quả có thể mang lại kết quả thực tế mà không cần hệ thống độc quyền khổng lồ

- Phát triển AI không nên bị kiểm soát bởi một số ít công ty, đặc biệt khi họ có thể không chia sẻ các giá trị cơ bản về bảo vệ dữ liệu doanh nghiệp, quyền riêng tư và tính minh bạch

- IBM tin rằng năm 2025 phải là năm giải phóng AI khỏi sự độc quyền của một số ít người chơi. Đến năm 2026, xã hội không chỉ sử dụng mà còn nên tham gia xây dựng AI

- Các mô hình AI của IBM đã giúp giảm chi phí suy luận AI tới 30 lần, giúp việc huấn luyện hiệu quả và dễ tiếp cận hơn

- Arvind Krishna không đồng ý rằng AI tổng quát (AGI) sắp xuất hiện hoặc tương lai AI phụ thuộc vào việc xây dựng các trung tâm dữ liệu khổng lồ chạy bằng năng lượng hạt nhân

- Kinh nghiệm từ ngành máy tính cho thấy chi phí lưu trữ và xử lý ban đầu rất đắt đỏ, nhưng đã giảm mạnh nhờ tiến bộ công nghệ và quy mô kinh tế

📌 DeepSeek đã chứng minh AI hiệu quả chỉ cần 6 triệu USD thay vì 1 tỷ USD. Tương lai AI sẽ được định hình bởi các mô hình nguồn mở, chi phí thấp và sự tham gia rộng rãi của cộng đồng, không phải độc quyền bởi một số ít công ty.

 

https://fortune.com/2025/02/04/ibm-ceo-ai-deepseek-technology/

Hugging Face phát triển phiên bản nguồn mở của công cụ Deep Researche từ OpenAI

- Nhóm phát triển tại Hugging Face, dẫn đầu bởi đồng sáng lập kiêm giám đốc khoa học Thomas Wolf, đã xây dựng phiên bản nguồn mở của công cụ Deep Research của OpenAI

- OpenAI ra mắt công cụ deep research vào ngày Chủ nhật, hiện chỉ dành cho người dùng gói ChatGPT Pro 200 USD/tháng

- Dự án Open Deep Research của Hugging Face sử dụng:
  + Mô hình o1 của OpenAI (thông qua API trả phí)
  + Framework agent nguồn mở để lên kế hoạch phân tích
  + Công cụ tìm kiếm để thu thập thông tin

- Khả năng của Open Deep Research:
  + Tự động điều hướng web
  + Cuộn trang
  + Thao tác với tập tin
  + Thực hiện tính toán dữ liệu

- Điểm số trên bộ benchmark GAIA:
  + Open Deep Research: 54%
  + OpenAI deep research: 67,36%

- Thách thức hiện tại:
  + Demo công khai gặp lỗi do tải nặng
  + Mã nguồn đã được công bố trên GitHub
  + Thiếu mô hình o3 - thành phần quan trọng của deep research
  + Chưa có mô hình nguồn mở nào đạt hiệu suất bằng o3 trong việc trả lời câu hỏi phức tạp và thu thập thông tin

📌 Hugging Face phát triển phiên bản nguồn mở của công cụ nghiên cứu sâu OpenAI chỉ trong 24 giờ, đạt 54% điểm benchmark GAIA. Tuy nhiên, việc thiếu mô hình o3 khiến hiệu suất thấp hơn phiên bản gốc (67,36%). Mã nguồn đã được công bố trên GitHub để cộng đồng đóng góp cải thiện.

 

https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/

DeepSeek của Trung Quốc tạo cú sốc công nghệ lớn nhất trong 185 năm qua

- Rao Yi, chủ tịch Đại học Y khoa Thủ đô tại Bắc Kinh, nhận định DeepSeek là cú sốc lớn nhất về khoa học công nghệ từ Trung Quốc trong 185 năm qua

- Theo Rao Yi, tầm quan trọng của thành tựu này không chỉ ở giá trị công nghệ mà còn ở việc tạo ra phản ứng bất ngờ từ cộng đồng quốc tế

- DeepSeek gần đây đã ra mắt 2 mô hình ngôn ngữ lớn V3 và R1, được phát triển với chi phí và sức mạnh tính toán thấp hơn nhiều so với các sản phẩm hàng đầu của Mỹ

- Sam Altman, CEO của OpenAI đã phải thừa nhận đây là "mô hình ấn tượng, đặc biệt là những gì họ có thể mang lại với mức giá đó"

- Rao Yi đã so sánh sự kiện này với thất bại của Trung Quốc trong cuộc chiến thuốc phiện lần thứ nhất năm 1842, thời điểm đánh dấu sự tụt hậu về công nghệ quân sự của Trung Quốc

- Sự xuất hiện của DeepSeek đã tạo ra làn sóng chấn động trong các công ty công nghệ Mỹ và thị trường chứng khoán

📌 DeepSeek đã chứng minh năng lực cạnh tranh của công nghệ AI Trung Quốc với hai mô hình ngôn ngữ lớn V3 và R1, tạo cú sốc lớn nhất từ Trung Quốc trong 185 năm qua theo nhận định của Rao Yi, chủ tịch Đại học Y khoa Thủ đô Bắc Kinh.

https://www.scmp.com/news/china/science/article/3297503/deepseeks-ai-breakthrough-biggest-shock-come-out-china-185-years

Perplexity cho phép người dùng DeepSeek R1 an toàn, không kiểm duyệt nhạy cảm chính trị

- Perplexity đã tích hợp mô hình ngôn ngữ lớn DeepSeek R1 của Trung Quốc vào giao diện người dùng chính

- CEO Aravind Srinivas khẳng định đây là một "khoảnh khắc mang tính cách mạng" trong lĩnh vực AI

- Người dùng miễn phí và premium của Perplexity có thể lựa chọn sử dụng DeepSeek-R1 thông qua nút menu trong thanh tìm kiếm

- Perplexity đã phát triển giao diện cho phép người dùng theo dõi "chuỗi suy nghĩ" của mô hình theo thời gian thực

- Dữ liệu người dùng được lưu trữ trên máy chủ của Perplexity tại Mỹ và Canada, không chia sẻ với DeepSeek hoặc Trung Quốc

- DeepSeek đã phát triển mô hình sử dụng chip Nvidia H800 ít mạnh hơn do lệnh cấm chip của Mỹ

- Mô hình mới cho hiệu suất AI cao nhưng tiêu tốn ít năng lượng tính toán hơn các mô hình tương đương

- Perplexity đã gỡ bỏ các rào cản về nội dung nhạy cảm chính trị và lịch sử khỏi phiên bản nguồn mở của DeepSeek-R1

- Một số chuyên gia AI như Josh Kushner, Alexander Wang và Palmer Luckey tỏ ra hoài nghi về thành tựu của DeepSeek

- Giám đốc kinh doanh Dmitry Shevelenko nhấn mạnh hiệu quả về chi phí do mô hình nguồn mở không phải trả phí cho nhà cung cấp tư nhân

📌 Perplexity tích hợp thành công mô hình DeepSeek R1 của Trung Quốc, cho phép người dùng trải nghiệm AI tiên tiến với bảo mật cao, đồng thời tối ưu chi phí vận hành nhờ công nghệ tiết kiệm điện toán và mô hình nguồn mở.

 

https://www.fastcompany.com/91272776/you-can-try-deepseeks-r1-through-perplexity-without-the-security-risk

OpenAI tuyên bố không định kiện Deepseek dù bị nghi sao chép công nghệ ChatGPT

- Sam Altman, CEO OpenAI tuyên bố ngày 03/02/2025 tại Tokyo về việc công ty không có kế hoạch kiện startup DeepSeek của Trung Quốc

- OpenAI tuần trước đã cảnh báo các công ty Trung Quốc đang tích cực sao chép các mô hình AI tiên tiến của họ

- DeepSeek gây chú ý khi phát triển chatbot mạnh mẽ với chi phí được cho là thấp, gây xôn xao trong giới công nghệ Silicon Valley

- Sam Altman nhận xét DeepSeek là một mô hình ấn tượng, nhưng OpenAI tự tin sẽ tiếp tục dẫn đầu thị trường bằng cách phát triển các sản phẩm tốt hơn

- Cộng đồng công nghệ cáo buộc DeepSeek đã áp dụng kỹ thuật reverse-engineering để sao chép khả năng của công nghệ AI hàng đầu của Mỹ, đặc biệt là ChatGPT

- OpenAI cho biết các đối thủ đang sử dụng quy trình "chưng cất" - các nhà phát triển tạo mô hình nhỏ hơn bằng cách học từ mô hình lớn hơn, tương tự như học sinh học từ giáo viên

- Ngược lại, OpenAI cũng đang đối mặt với nhiều cáo buộc vi phạm quyền sở hữu trí tuệ, chủ yếu liên quan đến việc sử dụng tài liệu có bản quyền để huấn luyện các mô hình AI tạo sinh

📌 Dù DeepSeek bị nghi ngờ sao chép công nghệ thông qua kỹ thuật chưng cất, OpenAI và Sam Altman chọn cách tập trung phát triển sản phẩm thay vì kiện tụng. Quyết định này được đưa ra trong bối cảnh OpenAI cũng đang đối mặt với các cáo buộc vi phạm bản quyền.

https://www.thestandard.com.hk/breaking-news/section/6/226528/OpenAI's-Altman-says-'no-plans'-to-sue-China's-DeepSeek

DeepSeek - AI giá rẻ từ Trung Quốc thúc đẩy bùng nổ trung tâm dữ liệu Malaysia

-  Malaysia ghi nhận lưu lượng dữ liệu di động và có dây ở mức cao trong năm 2023: 13,21 exabytes và 13,25 exabytes

-  Vị trí địa lý của Malaysia mang lại nhiều lợi thế:
- Là trung tâm kết nối cáp quang biển
- Gần Singapore - trung tâm tài chính hàng đầu
- Quan hệ tốt với các đồng minh Mỹ
- Chuyển đổi số vượt trội so với Indonesia và Vietnam

-  DeepSeek nổi bật với chi phí đào tạo thấp:
- Chi phí đào tạo chỉ 5,6 triệu USD
- Hiệu suất tương đương các đối thủ lớn như Google và OpenAI
- Tăng hiệu quả sử dụng năng lượng lên 30%

-  Tác động tích cực đến thị trường:
- Giá thành rẻ thúc đẩy mức độ sử dụng AI cao hơn (Jevons paradox)
- Doanh nghiệp Malaysia dễ tiếp cận hơn với công nghệ AI
- Meta và Microsoft vẫn duy trì kế hoạch đầu tư vào cơ sở hạ tầng AI

-  Lợi thế cạnh tranh của Malaysia:
- Đất đai, nhân công, nước và năng lượng giá cả phải chăng
- Chính phủ ủng hộ phát triển
- Thị trường nội địa lớn
- Vị trí chiến lược kết nối châu Á

-  Bộ trưởng Bộ Số hóa Gobind Singh Deo cho biết chính phủ đang nghiên cứu tác động của DeepSeek trước khi áp dụng

📌 Malaysia đang dẫn đầu Đông Nam Á về tốc độ tăng trưởng trung tâm dữ liệu nhờ vị trí địa lý thuận lợi và cơ sở hạ tầng số phát triển. DeepSeek với chi phí đào tạo 5,6 triệu USD sẽ thúc đẩy việc áp dụng AI rộng rãi hơn tại địa phương.

 

https://www.nst.com.my/business/economy/2025/02/1170141/deepseek-may-fuel-data-centre-growth-malaysia-bttv

DeepSeek thúc đẩy AI nguồn mở như Llama của Meta nhưng rủi ro an ninh mạng tăng vọt

  • DeepSeek đã mang lại cú hích lớn cho các mô hình AI nguồn mở như Llama của Meta, chứng minh rằng AI nguồn mở không còn chỉ là dự án nghiên cứu phi lợi nhuận mà có thể cạnh tranh với các mô hình đóng như OpenAI GPT.
  • DeepSeek R1, một mô hình suy luận nguồn mở, tuyên bố đạt hiệu suất ngang bằng với OpenAI O1 nhưng với chi phí thấp hơn và tiêu thụ ít năng lượng hơn.
  • Thành công của DeepSeek khiến giá trị thị trường của Nvidia và các nhà sản xuất chip khác sụt giảm do lo ngại rằng AI nguồn mở có thể làm giảm nhu cầu về phần cứng đắt tiền.
  • DeepSeek là một phòng thí nghiệm AI của Trung Quốc, được thành lập năm 2023 bởi Liang Wenfeng, đồng sáng lập quỹ phòng hộ High-Flyer, với mục tiêu phát triển trí tuệ nhân tạo tổng quát (AGI).
  • Yann LeCun, nhà khoa học trưởng về AI của Meta, cho rằng thành công của DeepSeek không chỉ là chiến thắng của Trung Quốc mà là chiến thắng của AI nguồn mở.
  • Trung Quốc đang tận dụng AI nguồn mở để vượt qua các hạn chế tiếp cận chip tiên tiến từ Mỹ, và nhiều công ty Trung Quốc đang sử dụng AI mở để mở rộng phạm vi ảnh hưởng.
  • Không chỉ Trung Quốc, châu Âu cũng đang đầu tư vào AI nguồn mở với dự án OpenEuroLLM, hợp tác giữa các nhà nghiên cứu, công ty và trung tâm dữ liệu nhằm thúc đẩy quyền tự chủ AI.
  • Tuy nhiên, AI nguồn mở cũng mang đến nhiều rủi ro về an ninh mạng. Cisco phát hiện DeepSeek R1 có lỗ hổng nghiêm trọng và có thể bị tấn công với tỷ lệ thành công 100% bằng kỹ thuật "algorithmic jailbreaking".
  • Dữ liệu từ DeepSeek R1 được gửi trực tiếp đến Trung Quốc, làm dấy lên lo ngại về việc chính phủ Trung Quốc có thể giám sát người dùng quốc tế.
  • Các chuyên gia bảo mật cảnh báo rằng AI nguồn mở có thể bị tấn công chuỗi cung ứng, thao túng dữ liệu (data poisoning) hoặc bị khai thác để làm lộ thông tin nhạy cảm.
  • Mặc dù AI nguồn mở đem lại cơ hội đổi mới lớn, nhưng doanh nghiệp cần cẩn trọng khi sử dụng để tránh nguy cơ mất dữ liệu và bảo mật.

📌 

DeepSeek không chỉ củng cố vị thế của AI Trung Quốc mà còn thúc đẩy xu hướng AI nguồn mở, làm lung lay các mô hình độc quyền như OpenAI GPT. Tuy nhiên, rủi ro an ninh mạng cũng gia tăng đáng kể, với bằng chứng về lỗ hổng bảo mật và nguy cơ rò rỉ dữ liệu sang Trung Quốc. Các công ty như Meta và cộng đồng AI châu Âu đang đầu tư mạnh vào AI nguồn mở, nhưng bài toán bảo mật vẫn là thách thức lớn cần giải quyết.

https://www.cnbc.com/2025/02/04/deepseek-breakthrough-emboldens-open-source-ai-models-like-meta-llama.html

Cú sốc DeepSeek: Nghịch lý kinh tế 160 năm tuổi giải cứu cổ phiếu AI châu Âu?

- Cổ phiếu công nghệ toàn cầu lao dốc vào ngày 27/1 sau khi Trung Quốc ra mắt mô hình AI DeepSeek với chi phí rẻ hơn nhiều so với các đối thủ phương Tây

- Nvidia, công ty sản xuất chip AI hàng đầu Mỹ, mất 17% giá trị, tương đương gần 600 tỷ USD trong một ngày - mức giảm vốn hóa lớn nhất trong lịch sử của một công ty

- Các cổ phiếu công nghệ châu Âu cũng chịu tác động:
  + ASML (Hà Lan): giảm 7-12%
  + ASMI và BE Semi: giảm 7-12%
  + Siemens Energy: giảm mạnh

- Nghịch lý Jevons được các chuyên gia viện dẫn:
  + Lý thuyết kinh tế 160 năm tuổi của William Stanley Jevons
  + Khi một nguồn lực trở nên hiệu quả hơn và giá thành giảm, nhu cầu có thể tăng thay vì giảm
  + CEO Microsoft Satya Nadella: Khi AI trở nên hiệu quả và dễ tiếp cận hơn, việc sử dụng sẽ tăng vọt

- Các quỹ đầu tư lớn ủng hộ quan điểm này:
  + BlackRock Fundamental Equities EMEA
  + J. Safra Sarasin Sustainable Asset Management
  + Thematics Asset Management
  + Liontrust global equities

- Trọng tâm chú ý đổ dồn vào nhu cầu trung tâm dữ liệu và năng lượng cho AI
  + Châu Âu thiếu vắng đối thủ cạnh tranh với Nvidia
  + Câu hỏi về mức độ cần thiết của chip và cơ sở hạ tầng đắt đỏ

📌 DeepSeek của Trung Quốc gây chấn động thị trường AI toàn cầu với mô hình giá rẻ, khiến Nvidia mất 600 tỷ USD vốn hóa trong một ngày. Nghịch lý Jevons được kỳ vọng sẽ thúc đẩy nhu cầu AI tăng mạnh khi chi phí giảm, mở ra cơ hội mới cho ngành công nghệ châu Âu.

 

https://www.reuters.com/technology/artificial-intelligence/europes-ai-bulls-pin-hopes-jevons-paradox-after-deepseek-rout-2025-02-04/

Tìm hiểu DeepSeek tác động đến lợi nhuận của các công ty toàn cầu

- DeepSeek đã gây chấn động thị trường khi công bố chi phí phát triển mô hình AI chỉ 6 triệu USD, đồng thời phát hành miễn phí công nghệ này

- Roadzen, công ty niêm yết trên Nasdaq, sử dụng mô hình DeepSeek-R1 để:
  -  Giảm thời gian xử lý 80% yêu cầu bồi thường tai nạn nhỏ từ 6 tuần xuống 2 phút
  -  Tiết kiệm 50% chi phí so với OpenAI, từ 6 xu xuống 3 xu cho mỗi yêu cầu bồi thường
  -  Xử lý 607.577 yêu cầu bồi thường trong quý 3/2024

- Ooda AI, nền tảng AI của Thụy Điển:
  -  Tích hợp công nghệ DeepSeek ngay trong ngày đầu ra mắt
  -  Đánh giá mô hình DeepSeek v3 tốt hơn 20% so với Llama 3.3 của Meta
  -  Chi phí giải quyết vấn đề hỗ trợ khách hàng giảm 32%, còn 1,875 xu mỗi vấn đề
  -  Cổ phiếu tăng hơn 1.400% trong năm qua

- CareYaya, nền tảng chăm sóc người cao tuổi:
  -  Giảm chi phí kháng nghị từ chối bảo hiểm y tế từ 43,84 USD xuống còn 2 xu
  -  Chi phí giảm 90% so với khi sử dụng OpenAI và Anthropic
  -  Dự định chuyển phần lớn khoản tiết kiệm cho người tiêu dùng

📌 DeepSeek đã tạo bước ngoặt khi phát triển mô hình AI chỉ với 6 triệu USD, giúp doanh nghiệp giảm tới 90% chi phí vận hành. Roadzen xử lý 607.577 yêu cầu bồi thường trong quý 3/2024 với chi phí chỉ 3 xu/yêu cầu, trong khi CareYaya giảm chi phí kháng nghị bảo hiểm y tế từ 43,84 USD xuống 2 xu.

https://www.cnbc.com/2025/02/04/how-deepseeks-new-ai-models-are-impacting-the-profits-of-global-companies.html

 

Cách các mô hình AI mới của DeepSeek đang ảnh hưởng đến lợi nhuận của các công ty toàn cầu

Được đăng vào Thứ Hai, 3/2/2025 - 18:28 EST | Cập nhật 31 phút trước

DeepSeek của Trung Quốc đã làm rung chuyển thị trường chứng khoán toàn cầu sau khi tiết lộ rằng họ đã xây dựng một mô hình trí tuệ nhân tạo mạnh mẽ chỉ với 6 triệu USD. Mặc dù một số người nghi ngờ về chi phí phát triển mô hình AI thấp đến đáng kinh ngạc này, hầu hết đều đồng ý rằng DeepSeek đã cắt giảm đáng kể chi phí vận hành liên tục của các mô hình AI mạnh mẽ và quyết định phát hành miễn phí công nghệ của họ đã làm thay đổi cục diện ngành công nghiệp. CNBC Pro đã trao đổi với các công ty trên toàn thế giới để tìm hiểu cách các mô hình AI mới của DeepSeek sẽ tác động đến hoạt động và tài chính của họ.

Roadzen, một công ty niêm yết trên sàn Nasdaq, đang cố gắng cách mạng hóa lĩnh vực bảo hiểm ô tô bằng trí tuệ nhân tạo. Theo giám đốc điều hành Rohan Malhotra, dịch vụ AI của công ty này giúp khách hàng là các công ty bảo hiểm rút ngắn thời gian xử lý 80% các yêu cầu bồi thường tai nạn nhỏ từ 6 tuần xuống còn 2 phút.

Tính chất nhạy cảm của việc xử lý yêu cầu bồi thường bảo hiểm, cùng với khả năng dự đoán sai các khoản chi phí lớn cho khách hàng bảo hiểm, có nghĩa là công ty trước đây chỉ sử dụng một số mô hình AI tinh vi nhất để đảm bảo độ chính xác cao—chẳng hạn như các mô hình của OpenAI, Anthropic và Meta. Điều đó đã thay đổi khi DeepSeek ra mắt mô hình R1.

"Khách hàng của chúng tôi không thể chấp nhận một mô hình có độ chính xác chỉ 60%-70%, điều đó sẽ gây ra vấn đề kinh tế nghiêm trọng," Malhotra nói. "Chúng tôi cần triển khai các mô hình có độ chính xác từ 95%-99%."

DeepSeek giúp giảm chi phí

Malhotra, người có bằng thạc sĩ về robot tại Đại học Carnegie Mellon, cho biết chất lượng đầu ra của DeepSeek-R1 ngang bằng với OpenAI o1—mô hình ngôn ngữ lớn tốt nhất của OpenAI—trong khi vẫn mang lại những lợi ích quan trọng khác cho công ty ông, bao gồm chi phí thấp hơn.

Ví dụ, trong 3 tháng kết thúc vào tháng 9/2024, Roadzen đã xử lý 607.577 yêu cầu bồi thường bảo hiểm. Theo công ty, mỗi yêu cầu tiêu tốn khoảng 4.000 token. Một token là đơn vị dữ liệu nhỏ nhất được cung cấp cho mô hình AI. Khoảng 750 từ tương đương với 1.000 token.

Theo tính toán của CNBC dựa trên bảng giá công khai, nếu sử dụng mô hình ngôn ngữ lớn o1 mới nhất của OpenAI, công ty sẽ phải trả 36.455 USD trong quý đó, tức trung bình 6 cent cho mỗi yêu cầu.

Tuy nhiên, nếu sử dụng DeepSeek-R1, chi phí trong quý chỉ là 17.012 USD, theo giá từ công ty lưu trữ mô hình AI Together.ai. Điều này có nghĩa là chi phí trung bình cho mỗi yêu cầu giảm xuống còn 3 cent, tức thấp hơn 50% so với khi dùng mô hình của OpenAI.

Roadzen tiết lộ rằng công ty còn phải chịu thêm chi phí khi tinh chỉnh hoặc huấn luyện mô hình AI cho từng chính sách bảo hiểm. Nếu dùng mô hình OpenAI o1, chi phí này sẽ là 21.185 USD, nhưng với DeepSeek R1, con số giảm xuống còn 10.593 USD.

Ngoài ra, công ty còn phải chi thêm cho việc vận hành các mô hình AI độc quyền của mình để ước tính chi phí bồi thường, phát hiện hư hỏng xe qua video và ngăn chặn gian lận, những nhiệm vụ không được hỗ trợ bởi các mô hình thương mại có sẵn.

"Điều chúng tôi thực sự quan tâm là chi phí suy luận, độ chính xác của đầu ra và liệu mô hình này có đáp ứng tốt các tiêu chuẩn mà chúng tôi đặt ra hay không," Malhotra nói thêm.

Đột phá từ mã nguồn mở

Một số công ty khác nói với CNBC rằng ngoài chi phí thấp, quyết định mang tính bước ngoặt của DeepSeek khi mã nguồn mở mô hình suy luận của mình khiến nó hấp dẫn hơn so với các mô hình mã nguồn mở hiện có như Llama của Meta.

Arli Charles Mujkic, CEO và nhà sáng lập nền tảng AI Ooda AI của Thụy Điển, nói với CNBC rằng công ty ông đã tích hợp công nghệ của DeepSeek vào dịch vụ AI của mình "ngay trong ngày nó được ra mắt."

Công ty này điều hành một cửa hàng kỹ thuật số cho phép khách hàng chọn các mô hình AI phù hợp nhất với từng công việc cụ thể. Ooda AI có nhiều nguồn doanh thu khác nhau, bao gồm bán đăng ký theo tháng cho các ứng dụng AI, tính phí cơ bản đối với chương trình AI và token sử dụng, cũng như cung cấp hợp đồng cố định cho khách hàng doanh nghiệp.

Mujkic nhận xét rằng mô hình ngôn ngữ lớn DeepSeek v3—công nghệ cốt lõi của DeepSeek—tốt hơn tới 20% so với Llama 3.3 của Meta, mà ông gọi là "mô hình mã nguồn mở tốt nhất mà chúng tôi từng sử dụng trước đây."

Ooda AI, công ty phục vụ một trong những công ty bảo hiểm y tế lớn nhất tại Đức, cho biết hiện tại chi phí xử lý một vấn đề hỗ trợ khách hàng bằng mô hình AI mã nguồn mở là khoảng 1,875 cent, tương đương 18.750 USD trên mỗi triệu vấn đề. Tuy nhiên, công ty ước tính rằng với mô hình AI của DeepSeek, chi phí này có thể giảm 32%.

Cổ phiếu của Ooda AI, niêm yết trên sàn chứng khoán Stockholm, đã tăng hơn 1.400% trong năm qua. Mujkic kỳ vọng rằng các mô hình AI của DeepSeek sẽ giúp công ty cắt giảm chi phí và cuối cùng tăng lợi nhuận.

"Chi phí rẻ hơn 35% so với các mô hình như Llama, nghĩa là nếu giữ nguyên mức giá hiện tại với khách hàng doanh nghiệp, lợi nhuận của chúng tôi tăng thêm 35%," ông nói với CNBC. "Ngoài ra, khách hàng của chúng tôi—những người phải trả phí cho dịch vụ AI—cũng được hưởng mức giá thấp hơn 35%, vì giá token giảm tương ứng."

Mujkic còn khẳng định rằng mô hình suy luận R1 của DeepSeek "ngang bằng" với OpenAI o1, trong khi chi phí vận hành thấp hơn tới 80%.

"Đây là một sự thay đổi lớn đang diễn ra ngay lúc này," ông nhấn mạnh.

Neal K. Shah, CEO của nền tảng chăm sóc người cao tuổi CareYaya có trụ sở tại Bắc Carolina, cũng nói với CNBC rằng công ty ông—vốn đang sử dụng AI để hỗ trợ khách hàng khiếu nại bảo hiểm y tế—rất hào hứng với DeepSeek.

"DeepSeek giúp chúng tôi giảm 90% chi phí, nhờ đó có thể giúp được nhiều người hơn," Shah nhắn tin.

Chi phí trung bình để kháng nghị một yêu cầu bồi thường bảo hiểm y tế tại Mỹ là 43,84 USD. CareYaya trước đây đã sử dụng OpenAI và Anthropic để giảm chi phí xuống còn 12 cent, nhưng giờ đây, với DeepSeek, chi phí mỗi lần kháng nghị chỉ còn 2 cent.

Khi được hỏi liệu DeepSeek có cải thiện lợi nhuận của CareYaya hay không, Shah ngay lập tức trả lời:

"Có. Đây là một bước nhảy vọt trong việc giảm chi phí. Chúng tôi sẽ chuyển phần lớn khoản tiết kiệm này cho khách hàng, nhờ đó có thể phục vụ nhiều người hơn."

Chi phí AI đang trở nên không đáng kể

Mặc dù chi phí AI đã giảm đáng kể trong 2 năm qua, các công ty không kỳ vọng rằng giá dịch vụ AI cho người dùng cuối sẽ giảm theo cùng một tốc độ.

Malhotra của Roadzen cho biết chi phí AI chỉ chiếm một phần rất nhỏ trong mức phí 150 USD cho mỗi yêu cầu bồi thường mà công ty tính cho khách hàng bảo hiểm tại các thị trường phương Tây. Phần lớn chi phí vẫn dành cho nghiên cứu, phát triển và tích hợp AI vào các hệ thống cũ của doanh nghiệp lớn.

Tuy nhiên, ông tin rằng chi phí AI giảm trong tương lai có thể thúc đẩy tự động hóa ở các thị trường mới nổi, nơi chi phí lao động hiện vẫn cạnh tranh với AI.

"Với một thị trường phát triển cao, mức giá 150 USD là hợp lý. Nhưng khi chi phí suy luận đủ thấp, chúng tôi có thể triển khai AI trên toàn cầu," Malhotra kết luận.

 

How DeepSeek’s new AI models are impacting the profits of global companies
Published Mon, Feb 3 2025•6:28 PM EST|Updated 31 Min Ago


China’s DeepSeek shook global stock markets after revealing that it had built a powerful artificial intelligence model for a mere $6 million. While some have disputed the shockingly low cost of developing the AI models, most agree that DeepSeek has sharply cut the on-going cost of running powerful AI models and that the firm’s decision to release its technology for free has altered the course of the industry. CNBC Pro spoke to companies around the world on how DeepSeek’s new AI models are set to impact their operations and financials. Roadzen , a Nasdaq-listed company, is attempting to disrupt the auto insurance sector with artificial intelligence. The company’s AI service helps its insurance underwriting clients to cut the time taken to resolve 80% of minor accident claims from six weeks to two minutes, according to its chief executive Rohan Malhotra. The sensitive nature of processing insurance claims, alongside the potential for incorrectly predicting large costs for insurance clients, means the company has previously limited itself to a handful of sophisticated AI models that produce accurate results — such as those produced by OpenAI, Anthropic and Meta . That was until DeepSeek released its R1 model. “Our clients cannot afford a model which has 60%-70% accuracy, that’s like a major economic issue,” said Malhotra. “We need to deploy models that have 95%-99% accuracy.” DeepSeek’s discount Malhotra, who graduated with a master’s degree in robotics from Carnegie Mellon University, said DeepSeek-R1 output quality is on par with OpenAI’s o1 — its best large language model — while also offering other benefits that are significant to his company, including costs. For instance, Roadzen processed 607,577 insurance claims for the three months ending September 2024. Each claim consumes roughly 4,000 tokens, according to the company. A token is the smallest unit of data fed to an AI model. About 750 words converts to 1,000 tokens. The AI firm would have incurred a cost of $36,455 over the quarter using OpenAI’s latest large language model o1, according to CNBC calculations using publicly available pricing. That means on average, the company spent 6 cents per claim on AI costs. However, using DeepSeek-R1, the quarterly cost of $17,012, calculated using prices from AI model hosting firm Together.ai, would amount to 3 cents per claim, or 50% lower than costs incurred with OpenAI’s models. Roadzen revealed that the firm incurs additional costs when fine-tuning or training an AI model on a per-policy basis, which would have amounted to $21,185 using the OpenAI o1 model, or $10,593 on DeepSeek’s R1. In addition, it also faces additional costs to run its proprietary AI models that are used to estimate the cost of claims, detect vehicle damage over video and for fraud prevention among other uses that are not covered by commercially available models. “What we really care about is the cost of inference. We care about the accuracy of the outputs. And we care about whether this model is performing to the certain benchmarks that we’ve set, in a good way,” Malhotra added. The open-source innovation Others have told CNBC that alongside the lower costs, DeepSeek’s landmark decision to open source its reasoning model makes it more attractive compared to existing open-source models like Meta Platforms’ Llama. Arli Charles Mujkic, CEO and founder of Swedish AI platform Ooda AI, told CNBC his company integrated DeepSeek’s technology into its AI offering “the same day it was out.” The company runs a digital store that offers customers a choice of AI models, allowing them to choose the best app for a specific job. Ooda AI has various revenue sources within the business: it sells pay-per-month subscriptions to AI apps on its store, allows customers to pay a base fee for AI programs and usage tokens, and also offers fixed-term contracts to its enterprise clients. Mujkic said his opinion of DeepSeek’s v3 large language model — the technology that underpins its products — is that it’s up to 20% “better” than Meta’s Llama 3.3, which he labeled “the best open source model we’d been running up until this point.” Ooda AI, which boasts one of Germany’s largest health insurance firms as a clients, said it costs roughly 1.875 U.S. cents per customer support issue, or $18,750 per million, to be resolved using open-source AI models. However, the same tasks are likely to be 32% cheaper when executed on DeepSeek’s AI models, according to the company. The company, whose Stockholm-listed shares have gained more than 1,400% over the past year, is expecting DeepSeek’s AI models to lower its costs — and ultimately boost its revenues. G7H0-FF 1Y line “It’s 35% cheaper [than models like Llama], which means ultimately, for us — without changing any pricing, say on the enterprise side — we start making 35% more money,” he told CNBC. “But also for our customers, who are paying for AI compute, for example, it becomes 35% cheaper as well, because that goes in parallel with the pricing for token users.” DeepSeek’s R1 reasoning model is also “on par” with OpenAI’s o1, Mujkic argued, while running as much as 80% cheaper. “This is the kind of paradigm shift that’s happening now,” he said. Neal K. Shah, CEO of North Carolina-based eldercare platform CareYaya, also told CNBC his company — which has started using AI to help customers fight health insurance claims denials — was excited about DeepSeek. “DeepSeek just lowered our costs by 90% so we can help more people,” he said in a message. “The average cost to appeal a U.S. health insurance claims denial is $43.84. We had used OpenAI and Anthropic to get the cost down to 12 cents — now we’re doing it with DeepSeek on the back end, the cost per appeal is 2 cents.” Asked if DeepSeek would boost CareYaya’s bottom line, Shah’s immediate response was “yes.” “It’s a ridiculous step function in lowering costs,” he explained. “We’ll pass along a lot of the savings to the consumer, so it’ll let us serve more people.” AI’s negligible costs Despite the cost of AI falling substantially over the past two years, companies do not expect the cost of rendering AI services to end users to fall at the same rate. Roadzen’s Malhotra suggested that AI costs are a tiny fraction of the roughly $150 per claim it charges its insurance clients in Western markets. The bulk of its costs are spent on research and development and connecting legacy systems at large enterprises with its AI systems. However, he expects lower AI costs in the future could enable automation in emerging markets, where labor costs are still competitive with AI systems today. “As a global company, the $150 may be a price for a highly developed market. When we lower the inferencing cost enough, we can now deploy it globally,” Malhotra added.

DeepSeek-R1 đánh bại OpenAI o1: Nhanh hơn 2.4 lần, rẻ hơn 23 lần!

  • DeepSeek-R1, mô hình AI nguồn mở của startup Trung Quốc DeepSeek, đang thách thức OpenAI o1 nhờ khả năng xử lý vượt trội và chi phí thấp đáng kể.
  • Ra mắt vào 20/01/2025, DeepSeek-R1 được thử nghiệm với nhiều tác vụ thực tế như giải toán, suy luận logic, mô hình tài chính và lập trình phần mềm.
  • Hiệu suất tổng thể:
    • Tốc độ xử lý: DeepSeek-R1 nhanh hơn 2.4 lần so với OpenAI o1.
    • Tổng chi phí: DeepSeek-R1 tiết kiệm hơn 23 lần với giá chỉ $0.00078, trong khi OpenAI o1 tốn $0.0183 cho cùng khối lượng xử lý.
    • Tổng số token: DeepSeek-R1 sử dụng 390 token, ít hơn đáng kể so với 916 token của OpenAI o1.

So sánh theo từng bài toán

  1. Suy luận logic: DeepSeek-R1 đạt độ chính xác tương đương OpenAI o1 nhưng xử lý nhanh gấp 4 lần với chi phí chỉ $0.00004 so với $0.0008.
  2. Bài toán tập hợp: DeepSeek-R1 đưa ra lời giải rõ ràng hơn, nhanh hơn 3 lần với chi phí $0.00008 (OpenAI o1 là $0.0013).
  3. Tính toán số học: Cả hai mô hình đều chính xác, nhưng DeepSeek-R1 xử lý nhanh hơn 2 lần, tiết kiệm chi phí gấp 20 lần.
  4. Mô hình tài chính: DeepSeek-R1 phân tích hiệu quả hơn 2.7 lần, giảm chi phí xuống chỉ còn $0.00010, trong khi OpenAI o1 tốn $0.0022.
  5. Lập trình:
    • Viết hàm tìm phần tử phổ biến nhất trong mảng: DeepSeek-R1 cung cấp mã tối ưu, chạy nhanh hơn 2 lần.
    • Thiết kế thuật toán nhận diện số đối xứng hoàn hảo: DeepSeek-R1 xử lý nhanh hơn 2.5 lần.

Khuyến nghị sử dụng

  • Doanh nghiệp cần hiệu suất cao, chi phí thấpDeepSeek-R1.
  • Môi trường giáo dục, đào tạoOpenAI o1 (có lời giải chi tiết hơn).
  • Phát triển phần mềm, AI triển khai thực tếDeepSeek-R1 nhờ tốc độ cao và chi phí thấp.

📌

DeepSeek-R1 đang soán ngôi OpenAI o1 với khả năng xử lý nhanh hơn 2.4 lần và tiết kiệm chi phí gấp 23 lần. Qua các bài kiểm tra thực tế, DeepSeek-R1 không chỉ tăng tốc độ xử lý mà còn cắt giảm tài nguyên, làm cho AI trở nên dễ tiếp cận hơn cho doanh nghiệp và nhà phát triển. Với khả năng xử lý logic, toán học, tài chính và lập trình vượt trội, DeepSeek-R1 là lựa chọn hàng đầu cho các hệ thống AI thời gian thực, API quy mô lớn và ứng dụng doanh nghiệp. 🚀

https://venturebeat.com/ai/open-source-revolution-how-deepseek-r1-challenges-openais-o1-with-superior-processing-cost-efficiency/

DeepSeek R1 hiện có sẵn trên Nvidia, AWS và GitHub, đạt hơn 3.374 mô hình trên Hugging Face

📝 SEO Content

  • DeepSeek R1, mô hình AI nguồn mở tiên tiến, đã mở rộng khả năng tiếp cận khi có mặt trên Nvidia, AWS và GitHub.
  • Số lượng mô hình dựa trên DeepSeek R1 trên nền tảng Hugging Face hiện đạt 3.374, chứng tỏ tốc độ phổ biến nhanh chóng.
  • Nvidia đã tích hợp DeepSeek-R1 như một microservice NIM, tận dụng kiến trúc HopperFP8 Transformer Engine, giúp tăng tốc độ và chất lượng phản hồi thời gian thực.
  • DeepSeek-R1 chạy trên hệ thống HGX H200 và có thể tạo ra 3.872 token mỗi giây, hỗ trợ các ứng dụng AI hiệu suất cao.
  • Trên AWS, mô hình này có thể truy cập qua Amazon Bedrock để đơn giản hóa việc tích hợp API và Amazon SageMaker để tùy chỉnh và huấn luyện nâng cao.
  • AWS còn cung cấp phiên bản nhẹ hơn, DeepSeek-R1-Distill, thông qua Amazon Bedrock Custom Model Import, cho phép triển khai serverless giúp tiết kiệm chi phí.
  • Microsoft AzureGitHub cũng mở rộng hỗ trợ, giúp các nhà phát triển tích hợp AI vào workflow của họ một cách an toàn và có kiểm soát.
  • Microsoft đã triển khai các biện pháp bảo mật mạnh mẽ như lọc nội dung và đánh giá tự động, đồng thời có kế hoạch cung cấp phiên bản tinh gọn của DeepSeek-R1 để triển khai cục bộ trên Copilot+ PC trong tương lai.
  • DeepSeek R1 nổi bật nhờ khả năng tư duy logic nâng cao, cung cấp ngữ cảnh lên đến 128.000 token, vượt trội hơn nhiều so với các mô hình phổ biến hiện nay.
  • Chi phí huấn luyện DeepSeek-R1 chỉ 6 triệu USD, thấp hơn khoảng 95% so với các mô hình cùng cấp từ Nvidia và Microsoft.
  • Mô hình này đang thách thức các AI hàng đầu như ChatGPT, nhờ sự cân bằng giữa hiệu suất cao và chi phí thấp.

📌

DeepSeek R1 đang làm khuynh đảo thế giới AI với khả năng mở rộng mạnh mẽ, hiệu suất cao và chi phí huấn luyện chỉ 6 triệu USD. Hiện có mặt trên Nvidia, AWS, Microsoft Azure và GitHub, mô hình này đã đạt 3.374 phiên bản trên Hugging Face. Với 671 tỷ tham số, tốc độ tạo 3.872 token/giây và khả năng xử lý 128.000 token ngữ cảnh, DeepSeek R1 đang trở thành đối thủ đáng gờm của ChatGPT và các mô hình AI lớn khác. 🚀

https://www.techradar.com/computing/software/deepseek-r1-is-now-available-on-nvidia-aws-and-github-as-available-models-on-hugging-face-shot-past-3-000

iPhone trong tương lai được đồn đại sẽ sử dụng DeepSeek R1 AI do Huawei cung cấp

  • Apple được cho là sẽ tích hợp mô hình AI DeepSeek R1 do Huawei phát triển vào các dòng iPhone tương lai dành riêng cho thị trường Trung Quốc.
  • DeepSeek R1 là một mô hình AI nguồn mở mạnh mẽ, có khả năng suy luận tương đương với ChatGPT nhưng có chi phí thấp hơn và dễ vận hành hơn.
  • Lý do Apple lựa chọn DeepSeek R1:
    • Do quy định nghiêm ngặt của Trung Quốc, Apple không thể triển khai Apple Intelligence (mô hình AI nội bộ của Apple) tại đây.
    • Apple cần một giải pháp AI "nội địa hóa" để đáp ứng yêu cầu của chính phủ Trung Quốc và Huawei-powered DeepSeek R1 AI có thể là lựa chọn phù hợp.
    • AI của DeepSeek có thể hoạt động tốt trong hệ sinh thái iPhone mà không vi phạm tiêu chuẩn bảo mật và kiểm duyệt nội dung của Trung Quốc.
  • Tình hình AI trên iPhone tại Trung Quốc:
    • iPhone 16 series ra mắt năm 2024 tại Trung Quốc không có AI, khiến Apple bị cạnh tranh khốc liệt bởi các hãng nội địa như Huawei, Xiaomi.
    • Sự thiếu vắng AI khiến Apple bị giảm doanh số mạnh, đặc biệt khi Huawei ra mắt điện thoại gập 3 màn hình (tri-fold) và các mẫu điện thoại AI tiên tiến.
    • Để lấy lại thị phần, Apple có kế hoạch đưa AI vào iPhone tại Trung Quốc trong năm 2025, có thể bắt đầu từ iOS 19.
  • Việc Apple hợp tác với Huawei có thể mang lại lợi ích lớn:
    • DeepSeek R1 có lợi thế nội địa, giúp Apple tránh các vấn đề pháp lý.
    • AI này có thể được tối ưu hóa tốt hơn cho người dùng Trung Quốc so với ChatGPT hay Gemini.
    • Việc hợp tác này có thể giúp Apple duy trì vị thế tại thị trường Trung Quốc, vốn đang bị đe dọa bởi sự trỗi dậy của Huawei.
  • Quá trình thử nghiệm nội bộ đã bắt đầu, nhưng có thể phải chờ đến khi iOS 19 ra mắt để AI trên iPhone Trung Quốc chính thức hoạt động.

📌 

Apple có thể sử dụng DeepSeek R1 AI do Huawei cung cấp để khắc phục khủng hoảng AI trên iPhone tại Trung Quốc. Quyết định này có thể giúp Apple tuân thủ quy định địa phương, cung cấp AI mạnh mẽ hơn cho khách hàng Trung Quốc và cạnh tranh với các đối thủ nội địa. Tuy nhiên, người dùng có thể phải chờ đến iOS 19 mới có thể trải nghiệm AI này. Đây có thể là một bước đi chiến lược quan trọng của Apple tại Trung Quốc! 📱🚀

https://www.huaweicentral.com/future-iphones-rumored-to-use-huawei-powered-deepseek-r1-ai/

DeepSeek mở ra cơ hội để Trung Quốc trở thành "quốc gia nguồn mở"?

  • DeepSeek, một công ty khởi nghiệp ít tên tuổi của Trung Quốc, đang gây chấn động trong ngành AI toàn cầu, khiến nhiều chuyên gia đặt câu hỏi liệu đây có phải là cơ hội để Trung Quốc chuyển đổi thành một quốc gia AI nguồn mở.
  • Các chuyên gia kêu gọi Bắc Kinh cải tổ chính sách công nghệ để thúc đẩy đổi mới và giữ chân nhân tài trong bối cảnh cạnh tranh ngày càng gay gắt với Mỹ.
  • Một bài viết của viện nghiên cứu độc lập Institute of Public Policy, trực thuộc Đại học Công nghệ Hoa Nam, nhấn mạnh rằng tư duy quản lý cứng nhắc đang làm suy yếu ngành công nghệ của Trung Quốc.
  • Các tác giả bài viết gồm Jiang Yuhao (nhà nghiên cứu) và Jia Kai (phó giáo sư tại Đại học Giao Thông Thượng Hải) cho rằng:
    • Quy định quá chặt chẽ đã khiến nhiều tài năng công nghệ Trung Quốc rời ra nước ngoài.
    • Sự thiếu linh hoạt trong quản lý đã cản trở đổi mới trong nước.
    • Khoảng cách công nghệ với Mỹ ngày càng gia tăng do thiếu môi trường khuyến khích sự đột phá.
  • Bài viết, đăng trên tài khoản WeChat của think tank này, lập luận rằng Bắc Kinh cần “giảm bớt quy định” (deregulation) để không đẩy các công ty công nghệ lớn ra nước ngoài.
  • Các chuyên gia cảnh báo rằng nếu không thay đổi chính sách, Trung Quốc có thể sẽ "vô tình" thúc đẩy các công ty kỳ lân (unicorns) và doanh nghiệp công nghệ cao di cư sang Mỹ, khiến khoảng cách giữa hai nước càng xa hơn.
  • Trong bối cảnh này, sự thành công của DeepSeek có thể là bằng chứng cho thấy AI nguồn mở có thể là hướng đi tiềm năng cho Trung Quốc, nếu chính phủ biết cách điều chỉnh chính sách phù hợp.
  • Trung Quốc từ lâu đã duy trì cách tiếp cận quản lý thận trọng và chặt chẽ đối với công nghệ, đặc biệt là AI, nhưng điều này có thể không còn phù hợp khi ngành AI đang phát triển nhanh chóng.
  • DeepSeek R1, mô hình AI nguồn mở mới ra mắt, có thể là minh chứng cho thấy Trung Quốc có khả năng cạnh tranh với phương Tây mà không cần phụ thuộc vào các công ty Mỹ như OpenAI.

📌 

DeepSeek có thể trở thành biểu tượng của một Trung Quốc nguồn mở, nhưng để làm được điều đó, Bắc Kinh cần giảm bớt kiểm soát và tạo điều kiện thuận lợi hơn cho đổi mới công nghệ. Nếu không, nước này có nguy cơ đẩy các công ty công nghệ hàng đầu ra nước ngoài, khiến khoảng cách công nghệ với Mỹ ngày càng rộng. Sự thành công của DeepSeek có thể là bước ngoặt để Trung Quốc xem xét lại chiến lược quản lý AI, hướng tới một môi trường cởi mở hơn. 🚀

https://www.scmp.com/news/china/diplomacy/article/3297200/chinas-deepseek-moment-chance-transform-open-source-nation

AI DeepSeek của Trung Quốc có thể giúp thúc đẩy sự đổi mới ở các quốc gia như Nga như thế nào

📢 SEO nội dung:

  • Công ty khởi nghiệp AI Trung Quốc DeepSeek đang trở thành tâm điểm tranh cãi ở phương Tây vì lo ngại về an ninh quốc gia và quyền riêng tư.
  • DeepSeek R1, mô hình AI nguồn mở của công ty, ra mắt vào tháng trước và có năng lực tương đương với GPT của OpenAI nhưng với chi phí thấp hơn đáng kể.
  • Sự phát triển nhanh chóng của DeepSeek đặt ra câu hỏi về hiệu quả của các biện pháp hạn chế công nghệ của Mỹ đối với Trung Quốc trong việc kìm hãm sự phát triển công nghệ cao của nước này.
  • Nga cũng chịu các lệnh trừng phạt nghiêm ngặt từ Mỹ và phương Tây, đặc biệt là về công nghệ và chất bán dẫn, sau cuộc xung đột với Ukraine.
  • Các nhà phân tích nhận định rằng DeepSeek có thể mang lại cơ hội công nghệ cho Nga, giúp nước này tiếp cận AI tiên tiến mà không cần dựa vào các công ty phương Tây.
  • Ngân hàng SberBank của Nga đã công bố một mô hình AI mới vào tháng 11/2024, trong đó sử dụng mã nguồn từ DeepSeek làm nền tảng. Điều này cho thấy Nga đang khai thác công nghệ AI của Trung Quốc để phát triển nội lực.
  • You Chuanman, giảng viên cao cấp tại Đại học Khoa học Xã hội Singapore, cho rằng dù Nga có đội ngũ nhân tài mạnh, nhưng lệnh trừng phạt về tài chính, công nghệ lõi và chất bán dẫn đối với nước này còn nghiêm ngặt hơn cả Trung Quốc.
  • Trong bối cảnh đó, hợp tác công nghệ giữa Nga và Trung Quốc có thể sẽ sâu rộng hơn, với Trung Quốc đóng vai trò là nguồn cung cấp AI và các giải pháp công nghệ cho Nga.
  • Chiến lược cấm vận công nghệ của Mỹ nhằm vào Trung Quốc và Nga có thể đang gặp thách thức, khi các công ty như DeepSeek chứng minh rằng họ vẫn có thể phát triển AI tiên tiến bất chấp hạn chế về chip và phần cứng.
  • Sự trỗi dậy của DeepSeek cho thấy AI nguồn mở có thể trở thành công cụ quan trọng giúp các quốc gia bị trừng phạt vượt qua rào cản công nghệ do phương Tây áp đặt.

📌 

DeepSeek đang nổi lên như một nhân tố quan trọng trong cuộc đua công nghệ AI toàn cầu, không chỉ đối với Trung Quốc mà còn tiềm năng hỗ trợ Nga. Việc SberBank sử dụng mã nguồn của DeepSeek chứng tỏ AI nguồn mở đang tạo ra ảnh hưởng ngoài mong đợi, đặc biệt với những nước bị hạn chế công nghệ. Điều này đặt ra thách thức lớn đối với chính sách kiểm soát công nghệ của Mỹ, khi Trung Quốc và Nga có thể tìm ra con đường phát triển AI mà không cần công nghệ phương Tây. 🚀

https://www.scmp.com/news/china/diplomacy/article/3297211/how-chinese-ai-start-deepseek-may-help-drive-innovation-countries-russia

DeepSeek bùng nổ tại Trung Quốc: Bước đột phá AI hay mối lo kiểm duyệt?

  • DeepSeek nhanh chóng trở thành một trong những AI chatbot phổ biến nhất tại Trung Quốc, với khả năng cạnh tranh trực tiếp với ChatGPT của OpenAI.
  • Người dùng ấn tượng với khả năng phân tích và logic của DeepSeek, nhiều người Trung Quốc cho rằng nó hiệu quả hơn ChatGPT, giúp tiết kiệm thời gian chỉnh sửa nội dung.
  • DeepSeek R1 ra mắt ngày 20/1/2025, trở thành ứng dụng miễn phí số 1 trên App Store của Apple, gây chấn động thị trường chứng khoán Mỹ.
  • Phản ứng của Trung Quốc:
    • Truyền thông và chính phủ ca ngợi DeepSeek như một thành tựu AI mang tầm quốc gia.
    • Người dùng Trung Quốc xem đây là “món quà Tết Nguyên Đán tuyệt vời”.
    • Nhiều người hủy đăng ký ChatGPT để chuyển sang DeepSeek.
  • Vấn đề kiểm duyệt và bảo mật dữ liệu:
    • DeepSeek chặn các câu hỏi liên quan đến các chủ đề nhạy cảm, như sự kiện Thiên An Môn 1989.
    • Lo ngại về giám sát dữ liệu: Chính phủ Australia và nhiều chuyên gia công nghệ cảnh báo người dùng không nên nhập dữ liệu cá nhân vào AI của Trung Quốc.
    • Giáo sư Nicholas Davis (Đại học Công nghệ Sydney) nhận định:
      • Mọi AI đều có sự kiểm duyệt, nhưng DeepSeek bị kiểm soát nội dung bởi chính quyền Trung Quốc.
      • Nguy cơ mất dữ liệu cá nhân quan trọng hơn vấn đề kiểm duyệt nội dung.
  • DeepSeek có thể chạy cục bộ mà không cần internet, điều này giúp người dùng tránh phụ thuộc vào máy chủ đám mây như ChatGPT hay Claude.
  • Một bước đột phá đáng quan tâm:
    • Khả năng mã nguồn mở của DeepSeek có thể giúp cộng đồng hiểu rõ hơn về công nghệ AI.
    • Nếu DeepSeek tiếp tục phát triển, nó có thể trở thành một nền tảng AI mạnh mẽ và có tác động lớn trên toàn cầu.

📌 DeepSeek đang làm rung chuyển thị trường AI, đặc biệt là tại Trung Quốc. Nó mang lại một sự lựa chọn thay thế cho ChatGPT, nhưng cũng đi kèm với những lo ngại về kiểm duyệt và quyền riêng tư. Trong khi một số chuyên gia khen ngợi khả năng mã nguồn mở, những vấn đề liên quan đến dữ liệu cá nhân và kiểm soát thông tin vẫn là rào cản lớn. Liệu DeepSeek có thể trở thành đối thủ thực sự của các AI phương Tây hay không? Điều này còn tùy thuộc vào cách nó phát triển trong tương lai.

https://www.abc.net.au/news/2025-02-03/deepseek-celebrated-in-china-despite-concerns-abroad/104869272

DeepSeek không phải là khoảnh khắc Sputnik, mà là khoảnh khắc Model T

  • DeepSeek R1 tạo ra sự chú ý lớn trong công chúng, tương tự như ChatGPT vào năm 2022. Sự kiện này khiến nhiều người đặt câu hỏi về vị thế của Trung Quốc trong cuộc đua AI.

  • Một số quan điểm chính về DeepSeek R1 bao gồm:

    • Quan điểm địa chính trị: DeepSeek đã phá vỡ nhận định rằng Trung Quốc tụt hậu 1-2 năm so với Mỹ trong AI. Thực tế, khoảng cách chỉ còn vài tháng, và Trung Quốc không chỉ "sao chép" mà còn cải tiến kỹ thuật với Mixture of Experts (MOE) và Multi-Head Latent Attention (MLA).
    • Quan điểm chính sách thương mại: Việc DeepSeek vươn lên mạnh mẽ khiến nhiều người nghi ngờ về hiệu quả của chính sách kiểm soát xuất khẩu chip. Tuy nhiên, nhiều chip mà DeepSeek sử dụng thực tế đã được mua trước khi lệnh cấm có hiệu lực.
    • Quan điểm kinh tế: Nếu chi phí đào tạo R1 thấp hơn đáng kể so với các mô hình khác, điều này có thể ảnh hưởng đến Nvidia (giảm nhu cầu chip) và OpenAI (giảm lợi nhuận từ các mô hình độc quyền). Nhưng thực tế, giá cổ phiếu Nvidia bị ảnh hưởng bởi tin đồn về thuế quan của Trump đối với Đài Loan, và OpenAI vẫn thu hút đầu tư lớn (40 tỷ USD).
    • Quan điểm sản phẩm: Ứng dụng DeepSeek trở nên phổ biến nhờ khả năng hiển thị quá trình suy luận theo thời gian thực, tạo ra trải nghiệm mới mẻ cho người dùng. Điều này gợi nhớ đến sự phổ biến của các ứng dụng Trung Quốc như TikTok.
    • Quan điểm chính trị: Nhiều người cảm thấy hả hê khi Silicon Valley và chính quyền Trump gặp thách thức từ DeepSeek. Chính quyền Trump đã đưa ra nhiều sắc lệnh hành pháp liên quan đến AI và thương mại.
  • Điểm nhấn quan trọng: DeepSeek R1 không phải là Sputnik moment, mà là Model T moment của AI

    • Ford Model T đã khiến ô tô trở thành sản phẩm đại trà, và DeepSeek R1 có thể làm điều tương tự với AI.
    • Đây là mô hình suy luận đầu tiên có năng lực vượt trội con người trong toán học và lập trình, được phát hành dưới dạng mã nguồn mở.
    • Chi phí đào tạo và vận hành rất thấp – dù con số chính xác còn tranh cãi, nhưng rõ ràng rẻ hơn ít nhất một bậc so với các mô hình tương tự.
    • Kỷ nguyên mới: inference-time compute – mô hình sử dụng sức mạnh tính toán ngay trong lúc tạo ra câu trả lời, không chỉ trong quá trình huấn luyện.
    • Khả năng mở rộng nhanh chóng: Một công ty khởi nghiệp nhỏ, sử dụng chip cũ, nhưng có thể đạt hiệu suất hàng đầu chỉ trong vài tháng, cho thấy sự bùng nổ AI mạnh mẽ trong tương lai gần.
    • AI "rẻ đến mức không cần đo đếm" sẽ xuất hiện khắp nơi, thay đổi hoàn toàn cách con người tiếp cận trí tuệ nhân tạo.
    • Lợi ích cho các nước đang phát triển và các công ty AI nhỏ: Ấn Độ đặc biệt quan tâm đến xu hướng này, mở ra cơ hội cho các nước thuộc Global South.

📌
DeepSeek R1 không chỉ đánh dấu sự cạnh tranh gay gắt giữa Mỹ và Trung Quốc trong lĩnh vực AI, mà còn báo hiệu sự bùng nổ của các mô hình AI suy luận với chi phí rẻ và khả năng phổ biến rộng rãi. Mô hình này có thể khiến AI trở thành một sản phẩm đại trà, giống như cách Model T đã làm với ô tô. Điều này mang lại cơ hội lớn cho các nước đang phát triển và các startup AI nhỏ, nhưng cũng đặt ra câu hỏi về tương lai của con người khi AI có thể thay thế lợi thế trí tuệ của chúng ta.

 

https://3quarksdaily.com/3quarksdaily/2025/02/deepseek-is-not-a-sputnik-moment-it-is-a-model-t-moment.html

 

DeepSeek không phải là khoảnh khắc Sputnik, mà là khoảnh khắc Model T  
Đăng vào Thứ Hai, 3 tháng 2, 2025 6:00AM bởi Malcolm Murray  
bởi Malcolm Murray  

Là một người suy nghĩ về AI mỗi ngày, tôi luôn thấy thú vị khi những sự kiện trong lĩnh vực AI vượt ra khỏi phạm vi của những người quan tâm đến AI và thu hút sự chú ý của công chúng. ChatGPT vào tháng 11 năm 2022 chắc chắn là một trong số đó. Khả năng tạo podcast của NotebookLM từ Google gần như đạt đến mức độ lan truyền đại chúng, nhưng vẫn chưa đủ để nhận được tin nhắn từ bà ngoại. Tuy nhiên, tuần này, với sự ra mắt mô hình R1 của DeepSeek, lại có thêm một sự kiện đạt đến tầm cỡ của ChatGPT, một lần nữa khiến vợ/chồng và đồng nghiệp nhắn tin đặt câu hỏi.  

Đã có hàng nghìn bài phân tích về chủ đề này, và tôi xin lỗi trước nếu bạn đã cảm thấy chán. Tuy nhiên, tôi hy vọng bài viết này có thể mang lại điều mà Brad DeLong gọi là "Giá trị trên mức thay thế", bằng cách giúp bạn hiểu được những quan điểm khác nhau phù hợp như thế nào với bức tranh tổng thể hiện tại. Tôi cũng muốn nhấn mạnh khía cạnh “Model T”, điều mà tôi cho rằng chưa được chú ý đúng mức.  

Trước tiên, chúng ta có cách tiếp cận địa chính trị, hay cụ thể hơn là khoảng cách giữa Mỹ và Trung Quốc. Đây là lý do tại sao Marc Andreessen và nhiều người khác gọi DeepSeek là một “khoảnh khắc Sputnik”. Trước đây, giả định phổ biến là Trung Quốc đi sau Mỹ khoảng 1-2 năm trong việc phát triển các mô hình AI. Tuy nhiên, giả định này đã sụp đổ trong tuần này; thực tế, Trung Quốc chỉ chậm hơn Mỹ vài tháng. Điều này cũng liên quan đến quan điểm lâu nay ở Mỹ rằng Trung Quốc chỉ là kẻ đi theo nhanh, chỉ có thể sao chép Mỹ. Quan điểm này đã bị các kỹ sư DeepSeek bác bỏ bằng cách tiên phong một số kỹ thuật học máy rất thông minh, như tăng hiệu suất nhờ tận dụng tốt hơn Mixture of Experts (MOE) và Multi-Head Latent Attention (MLA). Vì vậy, không có gì ngạc nhiên khi điều này gây sốc với nhiều người Mỹ. Tuy nhiên, phép so sánh với Sputnik có phần không hợp lý. Xét đến việc Mỹ đã tập trung rất nhiều vào AI và đang đầu tư hàng trăm tỷ USD vào lĩnh vực này, không rõ “khoảnh khắc Sputnik” này sẽ thay đổi điều gì. Trump, Altman và các cộng sự vừa công bố khoản tài trợ 500 tỷ USD cho Stargate, vậy họ sẽ phản ứng với DeepSeek bằng cách công bố thêm 500 tỷ USD nữa sao? Điều đó có vẻ khó xảy ra, vì phần lớn số tiền trong gói Stargate thực ra đã được cam kết từ nhiều năm trước, và phần còn lại có thể chỉ là những con số trên giấy, không thực sự tồn tại.  

Thứ hai, có góc nhìn về chính sách thương mại, hay nói cụ thể hơn là đặt câu hỏi về hiệu quả của các biện pháp kiểm soát xuất khẩu. Nhiều người coi thành công của DeepSeek là dấu hiệu cho thấy các biện pháp kiểm soát xuất khẩu chip không hiệu quả. Đây là một trong số ít lĩnh vực mà chính quyền Biden và Trump có sự đồng thuận, và Trump được cho là sẽ giữ nguyên các hạn chế mà Biden đã áp đặt. Tuy nhiên, giả định này cũng đã sụp đổ đối với nhiều người, với lập luận rằng “xem kìa, nó phản tác dụng, chúng ta quên mất rằng nhu cầu là mẹ của sáng tạo – điều này chỉ khiến Trung Quốc càng có động lực đổi mới hơn”. Đây là một cách nhìn nhận tự nhiên, nhưng không chính xác. Trước tiên, nó phản ánh sự hiểu sai về dòng thời gian, vì hầu hết số chip mà DeepSeek sử dụng đã được mua trước khi các lệnh hạn chế có hiệu lực. Ngoài ra, lập luận này còn sai lầm ở chỗ cho rằng DeepSeek sẽ không đạt được hiệu năng cao hơn nếu có nhiều chip hơn, trong khi thực tế họ sẵn sàng đánh đổi rất nhiều để có thêm chip tốt hơn. Rõ ràng, chip vẫn sẽ tiếp tục đóng vai trò quan trọng. Nếu có điều gì đó rút ra từ DeepSeek, thì đó là bộ ba LLM gồm dữ liệu, năng lực tính toán và thuật toán vẫn còn nguyên giá trị, và chưa có dấu hiệu nào cho thấy chúng sẽ trở thành yếu tố giới hạn trong tương lai gần (DeepSeek cũng sử dụng rất nhiều dữ liệu tổng hợp).  

Thứ ba, có góc nhìn kinh tế, hay cụ thể hơn là khoảng cách giữa các mô hình mã nguồn đóng và mã nguồn mở. Giá trị định giá của tất cả các công ty trong chuỗi giá trị AI, từ những công ty niêm yết như Nvidia đến các công ty tư nhân như OpenAI, đã tăng vọt trong những năm qua. Một phần trong mức định giá cao ngất ngưởng này xuất phát từ giả định rằng họ sẽ dần thiết lập được thế độc quyền và tạo ra lợi thế cạnh tranh bền vững. Theo góc nhìn này, với Nvidia, chi phí huấn luyện được cho là thấp hơn nhiều của R1 cho thấy nhu cầu về chip có thể giảm trong tương lai. Còn với OpenAI, việc các mô hình có thể được tái tạo nhanh chóng cho thấy họ sẽ khó có thể duy trì mức lợi nhuận cao từ sản phẩm của mình. Tuy nhiên, lập luận này có thể cũng chưa chính xác. Đối với các công ty đại chúng, sau một thời gian dài giá cổ phiếu tăng liên tục, nhiều nhà quản lý quỹ có lẽ đã nhân cơ hội để chốt lời. Ngoài ra, còn có tin đồn rằng điều thực sự làm thị trường chao đảo là rò rỉ thông tin về việc Trump sắp đe dọa áp thuế đối với Đài Loan. Định giá của OpenAI dường như cũng không bị ảnh hưởng nhiều, nếu những tin đồn gần đây về vòng gọi vốn 40 tỷ USD là đúng. Ngay cả khi lợi thế về mô hình đang dần thu hẹp, nỗ lực chuyển đổi thành một công ty sản phẩm của OpenAI có vẻ đang mang lại kết quả. Dù các mô hình AI có trở nên phổ biến đến mức nào, một vị trí thống lĩnh trong thị trường AI doanh nghiệp vẫn đảm bảo biên lợi nhuận tốt cho OpenAI.  

Thứ tư, có góc nhìn về sản phẩm. Một số người cho rằng điều quan trọng trong câu chuyện DeepSeek là các lựa chọn thiết kế sản phẩm. Cụ thể, vì đây là khoảnh khắc "tin nhắn từ bà ngoại" đầu tiên trong lĩnh vực AI sau một thời gian dài, phần lớn sự phát triển AI gần đây đã diễn ra trong âm thầm. Do đó, đây là lần đầu tiên người dùng AI phổ thông được chứng kiến các mô hình thể hiện quá trình Chain-of-Thought (chuỗi suy luận) của mình theo thời gian thực. Đây được xem là một trong những yếu tố giải thích cho mức độ phổ biến ngoài mong đợi của ứng dụng DeepSeek đối với công chúng. Điều này cũng có thể liên quan đến xu hướng thú vị về các ứng dụng Trung Quốc cực kỳ phổ biến tại Mỹ. Thật kỳ lạ khi chứng kiến sự chuyển dịch từ TikTok sang RedNote, khi người dùng ở trung tâm nước Mỹ lại đổ xô vào một ứng dụng được đặt theo tên Mao và chứa đầy những thuật ngữ văn hóa khó hiểu.  

Cuối cùng, có góc nhìn mang tính hả hê đơn thuần. Những người vốn không ưa các "tech bro" ở Silicon Valley và tầm ảnh hưởng ngày càng lớn của họ trong chính quyền Mỹ đã vui mừng khi thấy Sam Altman và cộng sự gặp khó khăn. Tương tự, cũng có sự hả hê trước cú sốc đối với chính quyền Trump. Đang hưng phấn với quyền lực mới, chính quyền Trump liên tục ban hành các Sắc lệnh hành pháp một cách tràn lan (thực tế là hầu hết theo hướng cực hữu), và nhiều người tỏ ra vui mừng khi có bất cứ điều gì làm lung lay sự tự tin đó. Quan điểm này có lẽ cũng có phần đúng, xét đến những cảm xúc mạnh mẽ đang chi phối tình hình.

Tuy nhiên, điều tôi muốn nhấn mạnh là một khía cạnh mà tôi cho rằng chưa được đánh giá đúng mức – đó là sự phổ biến sắp tới của AI. Việc ra mắt R1 có thể được xem là một “khoảnh khắc Model T” hơn là khoảnh khắc Sputnik. Khi Ford ra mắt Model T, đó là bước khởi đầu cho việc ô tô trở thành một sản phẩm đại trà. Sự kiện lần này có thể đánh dấu một bước ngoặt tương tự, mở đường cho AI có khả năng suy luận vượt trội con người trở nên phổ biến khắp nơi.

R1 là một mô hình thuộc thế hệ mới – “mô hình suy luận”, với khả năng vượt trội con người trong các tác vụ như toán học và lập trình. Trước đây, chưa từng có mô hình nào với năng lực như vậy được phát hành dưới dạng mã nguồn mở. Hơn thế nữa, chi phí huấn luyện R1 cực kỳ thấp, và chi phí vận hành cũng rất rẻ. Đã có nhiều tranh luận về con số cụ thể, và dĩ nhiên, tổng chi phí huấn luyện mô hình không chỉ đơn thuần là 6 triệu USD. Tuy nhiên, tranh cãi này bỏ lỡ một vấn đề quan trọng hơn: dù con số chính xác là bao nhiêu, thì chi phí này vẫn thấp hơn ít nhất một bậc so với các mô hình tương đương khác. Dù lợi thế chi phí này đến từ các phương pháp có thể gây tranh cãi về mặt pháp lý như distillation, hay hoàn toàn do sự xuất sắc trong kỹ thuật, thì điều đó cũng không quan trọng – bởi vì DeepSeek đã cho thấy rằng cả hai yếu tố này sẽ xuất hiện với tần suất dày đặc trong tương lai.

Các mô hình suy luận đánh dấu sự khởi đầu của một kỷ nguyên mới: tính toán tại thời điểm suy luận (inference-time compute), nơi mô hình sử dụng sức mạnh tính toán không chỉ trong quá trình huấn luyện mà còn ngay tại thời điểm tạo ra câu trả lời. Kỷ nguyên này mới chỉ bắt đầu. Việc một công ty khởi nghiệp nhỏ, sử dụng thế hệ chip cũ, có thể tái tạo hiệu năng hàng đầu chỉ trong vài tháng cho thấy rằng vài năm tới sẽ đầy biến động với sự bùng nổ của các mô hình AI cực kỳ mạnh mẽ. Ngoài ra, việc chi phí suy luận trên R1 rẻ hơn nhiều so với OpenAI’s o1 cho thấy chúng ta sẽ sớm chứng kiến một nền trí tuệ “rẻ đến mức không cần đo đếm” xuất hiện trên mọi thiết bị.

Sự phổ biến của trí tuệ nhân tạo có thể là tin vui đối với các quốc gia thuộc Global South – chẳng hạn, Ấn Độ dường như đã đặc biệt chú ý đến xu hướng này. Đây cũng là tin tốt cho các công ty AI nhỏ hơn và tất nhiên là cho sự tiến bộ khoa học nói chung. Tuy nhiên, vẫn còn phải chờ xem liệu điều này có phải là tin tốt cho loài người hay không – một loài thống trị chuỗi thức ăn nhờ vào lợi thế lớn nhất của mình: trí tuệ vượt trội, được phân bố rộng khắp.

Tạp chí NATURE: Cách Trung Quốc tạo ra mô hình AI DeepSeek và gây sốc cho thế giới

- Công ty khởi nghiệp DeepSeek tại Hàng châu đã gây chấn động khi phát hành 2 mô hình ngôn ngữ lớn có hiệu năng ngang tầm với các công cụ của các gã khổng lồ công nghệ Mỹ

- DeepSeek-R1 ra mắt ngày 20/1/2024, là mô hình nguồn mở một phần, có khả năng giải quyết một số vấn đề khoa học tương đương với o1 của OpenAI

- Janus-Pro-7B được phát hành đầu tuần, có thể tạo hình ảnh từ văn bản tương tự như DALL-E 3 của OpenAI và Stable Diffusion

- Chính phủ Trung quốc đặt mục tiêu trở thành quốc gia dẫn đầu về AI vào năm 2030:
  + Đến 2022, có 440 trường đại học được phê duyệt đào tạo chuyên ngành AI
  + Trung quốc cung cấp gần 50% nhà nghiên cứu AI hàng đầu thế giới
  + Mỹ chỉ chiếm 18% số nhà nghiên cứu AI

- DeepSeek phát triển hiệu quả trong bối cảnh bị Mỹ kiểm soát xuất khẩu chip AI từ 2022:
  + Sử dụng khoảng 2.000 chip H800 của Nvidia để huấn luyện DeepSeek-V3
  + So với Meta dùng hơn 16.000 chip H100 tiên tiến hơn cho Llama 3.1
  + Áp dụng kiến trúc mixture-of-experts và multi-head latent attention để tối ưu hiệu suất

- Các công ty công nghệ Trung quốc khác cũng đạt thành tựu:
  + Alibaba ra mắt Qwen2.5-Max vượt trội hơn DeepSeek-V3
  + Moonshot AI và ByteDance phát hành Kimi 1.5 và 1.5-pro vượt o1 trong một số bài kiểm tra

📌 Với chính sách ưu tiên phát triển AI quốc gia, đầu tư mạnh vào giáo dục và nguồn nhân lực, Trung quốc đã tạo ra DeepSeek - mô hình AI có hiệu năng ngang tầm OpenAI dù chỉ sử dụng 2.000 chip so với 16.000 chip của đối thủ, mở ra hướng đi mới cho các nước có nguồn lực hạn chế.

https://www.nature.com/articles/d41586-025-00259-0

 

Cách Trung Quốc tạo ra mô hình AI DeepSeek và khiến thế giới sửng sốt

Các chính sách của chính phủ, nguồn tài trợ hào phóng và đội ngũ kỹ sư AI dồi dào đã giúp các công ty Trung Quốc tạo ra những mô hình ngôn ngữ lớn (LLM) tiên tiến.

Gemma Conroy & Smriti Mallapaty

Công ty khởi nghiệp công nghệ DeepSeek của Trung Quốc đã khiến thế giới công nghệ chấn động khi tung ra 2 mô hình ngôn ngữ lớn (LLM) có hiệu năng ngang ngửa các công cụ hàng đầu do các tập đoàn công nghệ Mỹ phát triển, nhưng lại được xây dựng với chi phí và tài nguyên tính toán chỉ bằng một phần nhỏ.

Ngày 20/1, công ty có trụ sở tại Hàng Châu này đã ra mắt DeepSeek-R1, một mô hình ‘lập luận’ bán mã nguồn mở có khả năng giải quyết một số bài toán khoa học với tiêu chuẩn tương đương o1, mô hình LLM tiên tiến nhất của OpenAI – công ty có trụ sở tại San Francisco, California, ra mắt vào cuối năm ngoái. Và đầu tuần này, DeepSeek tiếp tục giới thiệu một mô hình khác có tên Janus-Pro-7B, có khả năng tạo hình ảnh từ văn bản giống như DALL-E 3 của OpenAI và Stable Diffusion của Stability AI tại London.

Nếu hiệu suất của DeepSeek-R1 khiến nhiều người bên ngoài Trung Quốc bất ngờ, thì các nhà nghiên cứu trong nước lại cho rằng thành công của công ty này là điều tất yếu, phù hợp với tham vọng trở thành cường quốc trí tuệ nhân tạo (AI) của chính phủ.

Yunji Chen, nhà khoa học máy tính chuyên nghiên cứu chip AI tại Viện Công nghệ Tính toán thuộc Viện Hàn lâm Khoa học Trung Quốc ở Bắc Kinh, nhận định rằng việc một công ty như DeepSeek xuất hiện tại Trung Quốc là điều không thể tránh khỏi, nhờ vào lượng đầu tư mạo hiểm khổng lồ vào các công ty phát triển LLM, cùng với số lượng lớn tiến sĩ trong các lĩnh vực khoa học, công nghệ, kỹ thuật và toán học, bao gồm cả AI. “Nếu không phải DeepSeek, thì sẽ có một công ty LLM Trung Quốc khác làm được những điều tương tự.”

Thực tế là đã có nhiều công ty khác. Ngày 29/1, gã khổng lồ công nghệ Alibaba đã giới thiệu LLM tiên tiến nhất của mình cho đến nay, Qwen2.5-Max, mà theo công ty, có hiệu năng vượt trội so với DeepSeek V3 – một LLM khác do DeepSeek phát hành vào tháng 12. Tuần trước, Moonshot AI và ByteDance cũng ra mắt các mô hình lập luận mới, Kimi 1.5 và 1.5-pro, mà theo tuyên bố của các công ty này, có thể vượt mặt o1 trong một số bài kiểm tra chuẩn.

Ưu tiên của chính phủ

Năm 2017, chính phủ Trung Quốc công bố kế hoạch đưa đất nước trở thành cường quốc AI hàng đầu thế giới vào năm 2030. Chính phủ giao nhiệm vụ cho ngành công nghiệp phải đạt được những đột phá lớn về AI, “để công nghệ và ứng dụng đạt đến trình độ dẫn đầu thế giới” vào năm 2025.

Việc xây dựng một đội ngũ nhân tài AI trở thành ưu tiên hàng đầu. Theo báo cáo từ Trung tâm An ninh và Công nghệ Mới nổi (CSET) tại Đại học Georgetown ở Washington DC, đến năm 2022, Bộ Giáo dục Trung Quốc đã phê duyệt 440 trường đại học cung cấp chương trình đào tạo cử nhân chuyên ngành AI. Cùng năm đó, Trung Quốc cung cấp gần một nửa số nhà nghiên cứu AI hàng đầu thế giới, trong khi Mỹ chỉ chiếm 18%, theo think tank MacroPolo ở Chicago, Illinois.

Marina Zhang, nhà nghiên cứu chính sách khoa học tại Đại học Công nghệ Sydney, Australia, chuyên về đổi mới công nghệ ở Trung Quốc, cho rằng DeepSeek có thể đã hưởng lợi từ các khoản đầu tư của chính phủ vào giáo dục và phát triển nhân tài AI. Các khoản đầu tư này bao gồm nhiều học bổng, tài trợ nghiên cứu và hợp tác giữa học thuật với doanh nghiệp. Bà cũng chỉ ra rằng các sáng kiến do nhà nước hậu thuẫn, chẳng hạn như Phòng thí nghiệm Kỹ thuật Quốc gia về Công nghệ và Ứng dụng Học sâu do công ty công nghệ Baidu ở Bắc Kinh dẫn dắt, đã đào tạo hàng nghìn chuyên gia AI.

Thông tin chính xác về đội ngũ nhân sự của DeepSeek khá khó tìm, nhưng theo lời nhà sáng lập Liang Wenfeng trên truyền thông Trung Quốc, công ty đã tuyển dụng các cử nhân và nghiên cứu sinh tiến sĩ từ những trường đại học hàng đầu Trung Quốc. Một số lãnh đạo của công ty còn dưới 35 tuổi, thuộc thế hệ lớn lên trong thời kỳ Trung Quốc vươn lên thành cường quốc công nghệ, Zhang nhận xét. “Họ có động lực mạnh mẽ hướng đến tự chủ đổi mới.”

Wenfeng, 39 tuổi, cũng là một doanh nhân trẻ, tốt nghiệp ngành khoa học máy tính tại Đại học Chiết Giang – một trường danh tiếng ở Hàng Châu. Gần một thập kỷ trước, ông đồng sáng lập quỹ đầu cơ High-Flyer và đến năm 2023, ông thành lập DeepSeek.

Jacob Feldgoise, chuyên gia nghiên cứu về nhân tài AI tại CSET, cho rằng các chính sách quốc gia thúc đẩy hệ sinh thái phát triển mô hình AI đã giúp các công ty như DeepSeek thu hút cả vốn đầu tư lẫn nhân tài.

Tuy nhiên, dù số lượng chương trình đào tạo AI tại các trường đại học tăng lên, Feldgoise cho biết vẫn chưa rõ có bao nhiêu sinh viên tốt nghiệp với bằng chuyên ngành AI thực sự và liệu họ có được đào tạo đúng kỹ năng mà các công ty cần hay không. Ông cũng lưu ý rằng trong những năm gần đây, một số công ty AI Trung Quốc than phiền rằng “chất lượng sinh viên tốt nghiệp từ các chương trình này không đạt kỳ vọng”, dẫn đến việc một số doanh nghiệp phải hợp tác trực tiếp với các trường đại học.

“Hiệu suất trong điều kiện hạn chế”

Các nhà khoa học nhận định rằng điều đáng kinh ngạc nhất về thành công của DeepSeek là công ty đã phát triển DeepSeek-R1 và Janus-Pro-7B trong bối cảnh chính phủ Mỹ áp đặt kiểm soát xuất khẩu, ngăn Trung Quốc tiếp cận các chip tính toán AI tiên tiến từ năm 2022.

Zhang cho rằng ban lãnh đạo DeepSeek thể hiện một cách tiếp cận đổi mới mang đậm phong cách Trung Quốc, tập trung vào tối ưu hóa hiệu suất trong điều kiện hạn chế. Tuy nhiên, bà lưu ý rằng công ty chưa công bố chi tiết cụ thể về số lượng phần cứng sử dụng.

DeepSeek từng cho biết họ đã sử dụng khoảng 2.000 chip H800 của Nvidia – nhà sản xuất chip của Mỹ – để đào tạo DeepSeek-V3, một mô hình phát hành vào tháng 12/2024 và có hiệu năng vượt trội so với GPT-4o của OpenAI, vốn ra mắt vào tháng 5 cùng năm, theo các bài kiểm tra chuẩn. Trong khi đó, Llama 3.1 405B, một LLM tiên tiến do Meta ở Menlo Park, California, phát hành vào tháng 7, lại dựa vào hơn 16.000 chip H100 của Nvidia – loại chip mạnh hơn nhiều. Một bài đăng trên WeChat năm 2022 của High-Flyer tiết lộ rằng quỹ này sở hữu 10.000 chip A100 – một dòng chip cũ hơn của Nvidia – mà DeepSeek có thể đã tiếp cận. Việc sử dụng các chip kém mạnh hơn có thể đã giúp DeepSeek giảm đáng kể chi phí phát triển mô hình. “Vấn đề chúng tôi đối mặt chưa bao giờ là tiền bạc, mà là lệnh cấm đối với các chip cao cấp,” Wenfeng nói với truyền thông Trung Quốc vào tháng 7/2024.

DeepSeek áp dụng nhiều phương pháp để tăng hiệu suất mô hình. Chẳng hạn, công ty sử dụng kiến trúc ‘mixture-of-experts’ – một phương pháp học máy giúp huấn luyện mô hình nhanh hơn so với kỹ thuật truyền thống và yêu cầu ít tham số hơn. Nhờ đó, DeepSeek có thể đào tạo mô hình với số lượng chip ít hơn, theo Chang Xu, nhà khoa học máy tính tại Đại học Sydney. Ngoài ra, công ty còn triển khai một phiên bản cải tiến của kỹ thuật ‘multi-head latent attention’, giúp mô hình lưu trữ nhiều dữ liệu hơn với dung lượng bộ nhớ ít hơn.

Tuần này, một số báo cáo truyền thông cho biết OpenAI đang xem xét cáo buộc rằng DeepSeek đã sử dụng đầu ra từ các mô hình của OpenAI để huấn luyện mô hình của mình. (OpenAI hiện đang bị các tổ chức tin tức kiện vì vi phạm sở hữu trí tuệ). DeepSeek vẫn chưa đưa ra phản hồi về cáo buộc này. Dù vậy, ngay cả khi điều đó là sự thật, “nó cũng không làm giảm giá trị thành tựu” của DeepSeek trong việc phát triển R1, theo Lewis Tunstall, nhà nghiên cứu tại nền tảng khoa học mở Hugging Face ở Bern, Thụy Sĩ. Thành tựu của DeepSeek nằm ở việc áp dụng phương pháp học máy để trang bị khả năng “lập luận” cho một LLM – điều mà các thí nghiệm đã tái hiện được, ông cho biết. Hugging Face hiện đang dẫn đầu một dự án nhằm thử tái tạo R1 từ đầu. “Tôi nghĩ rằng chúng ta sẽ sớm biết liệu dữ liệu tổng hợp từ OpenAI có thực sự cần thiết hay không,” ông nói.

Theo Yanbo Wang, nhà nghiên cứu chính sách khoa học chuyên về đổi mới tại Đại học Hong Kong, những thành tựu của DeepSeek có thể trở thành hình mẫu cho các quốc gia có tham vọng phát triển AI nhưng không đủ nguồn lực tài chính và phần cứng để đào tạo các LLM quy mô lớn theo cách tiếp cận truyền thống của Silicon Valley. “Điều này có thể dẫn đến sự ra đời của một ‘đội quân’ mô hình AI mới,” ông nhận định.

doi: https://doi.org/10.1038/d41586-025-00259-0

How China created AI model DeepSeek and shocked the world
Government policies, generous funding and a pipeline of AI graduates have helped Chinese firms create advanced LLMs.

By Gemma Conroy & Smriti Mallapaty

Chinese technology start-up DeepSeek has taken the tech world by storm with the release of two large language models (LLMs) that rival the performance of the dominant tools developed by US tech giants — but built with a fraction of the cost and computing power.
On 20 January, the Hangzhou-based company released DeepSeek-R1, a partly open-source ‘reasoning’ model that can solve some scientific problems at a similar standard to o1, OpenAI's most advanced LLM, which the company based in San Francisco, California, unveiled late last year. And earlier this week, DeepSeek launched another model called Janus-Pro-7B, which can generate images from text prompts much like OpenAI’s DALL-E 3 and Stable Diffusion, made by Stability AI in London.
If DeepSeek-R1’s performance surprised many people outside of China, researchers inside the country say the start-up’s success is to be expected and fits with the government’s ambition to be a global leader in artificial intelligence (AI).
It was inevitable that a company such as DeepSeek would emerge in China, given the huge venture-capital investment in firms developing LLMs and the many people who hold doctorates in science, technology, engineering or mathematics fields, including AI, says Yunji Chen, a computer scientist working on AI chips at the Institute of Computing Technology of the Chinese Academy of Sciences in Beijing. “If there was no DeepSeek, there would be some other Chinese LLM that could do great things.”
In fact, there are. On 29 January, tech behemoth Alibaba released its most advanced LLM so far, Qwen2.5-Max, which the company says outperforms DeepSeek's V3, another LLM the firm released in December. And last week, Moonshot AI and ByteDance released new reasoning models, Kimi 1.5 and 1.5-pro, which the companies claim can outperform o1 on some benchmark tests.

Government priority
In 2017, the Chinese government announced its intention for the country to become the world leader in AI by 2030. It tasked the industry with completing major AI breakthroughs “such that technologies and applications achieve a world-leading level” by 2025.
Developing a pipeline of ‘AI talent’ became a priority. By 2022, the Chinese ministry of education had approved 440 universities to offer undergraduate degrees specializing in AI, according to a report from the Center for Security and Emerging Technology (CSET) at Georgetown University in Washington DC. In that year, China supplied almost half of the world’s leading AI researchers, while the United States accounted for just 18%, according to the think tank MacroPolo in Chicago, Illinois.
DeepSeek probably benefited from the government’s investment in AI education and talent development, which includes numerous scholarships, research grants and partnerships between academia and industry, says Marina Zhang, a science-policy researcher at the University of Technology Sydney in Australia who focuses on innovation in China. For instance, she adds, state-backed initiatives such as the National Engineering Laboratory for Deep Learning Technology and Application, which is led by tech company Baidu in Beijing, have trained thousands of AI specialists.
Exact figures on DeepSeek’s workforce are hard to find, but company founder Liang Wenfeng told Chinese media that the company has recruited graduates and doctoral students from top-ranking Chinese universities. Some members of the company’s leadership team are younger than 35 years old and have grown up witnessing China’s rise as a tech superpower, says Zhang. “They are deeply motivated by a drive for self-reliance in innovation.”
Wenfeng, at 39, is himself a young entrepreneur and graduated in computer science from Zhejiang University, a top institution in Hangzhou. He co-founded the hedge fund High-Flyer almost a decade ago and established DeepSeek in 2023.
Jacob Feldgoise, who studies AI talent in China at the CSET, says national policies that promote a model development ecosystem for AI will have helped companies such as DeepSeek, in terms of attracting both funding and talent.
But despite the rise in AI courses at universities, Feldgoise says it is not clear how many students are graduating with dedicated AI degrees and whether they are being taught the skills that companies need. Chinese AI companies have complained in recent years that “graduates from these programmes were not up to the quality they were hoping for”, he says, leading some firms to partner with universities.
‘Efficiency under constraints’
Perhaps the most impressive element of DeepSeek’s success, say scientists, is that it developed DeepSeek-R1 and Janus-Pro-7B amid US government’s export controls, which have blocked China’s access to advanced AI computing chips since 2022.
Zhang says DeepSeek’s leadership embodies a distinctly Chinese approach to innovation, emphasizing efficiency under constraints. However, the company hasn’t disclosed specific details about how much hardware it uses, she adds.
DeepSeek has said that it used around 2,000 H800 chips built by US chip-maker Nvidia to train DeepSeek-V3, a model it released in December1 that outperforms OpenAI’s LLM GPT-4o, launched in May last year, on benchmark tests. By contrast, Llama 3.1 405B, a sophisticated LLM released in July from Meta in Menlo Park, California, relies on more than 16,000 of the more advanced H100 Nvidia chips. In a 2022 post on social-media platform WeChat, High-Flyer said that it had 10,000 of Nvidia’s older A100 chips, which DeepSeek probably has access to. DeepSeek’s use of less powerful chips probably made its models cheaper to build. “The problem we face has never been money, but the ban on high-end chips,” Wenfeng told Chinese media in July 2024.
DeepSeek draws on a variety of approaches to boost the efficiency of its models. For instance, it deploys a ‘mixture-of-experts’ architecture, a machine-learning method that trains models faster than conventional techniques, and with fewer parameters. This enables the company to train models with fewer chips, says Chang Xu, a computer scientist at the University of Sydney. It also uses an innovative version of another technique, called multi-head latent attention, which allows the model to store more data with less memory.
This week, media reports suggested that OpenAI was reviewing claims that DeepSeek trained its model using outputs from OpenAI models. (OpenAI is being sued for intellectual property infringements by news organisations). DeepSeek has yet to respond to the claims. Even if true, it would “in no way diminish” DeepSeek’s achievement in creating R1, says Lewis Tunstall, a researcher at the open-science platform Hugging Face, based in Bern, Switzerland. Their advance is in using a learning approach to instill ‘reasoning’ abilities into an LLM, which experiments have already reproduced, he says. Hugging Face is leading a project to try to recreate R1 from scratch. “I expect we will learn rather quickly whether synthetic data from OpenAI is truly needed or not,” he says.
DeepSeek’s achievements could offer a blueprint for countries that have AI ambitions but lack the financial resources and hardware to train massive LLMs using the standard Silicon Valley approach, says Yanbo Wang, a science-policy researcher who focuses on innovation at Hong Kong University. “This could invite the creation of a large army of new models,” he says.
doi: https://doi.org/10.1038/d41586-025-00259-0

EU đầu tư 56 triệu USD phát triển AI nguồn mở, cạnh tranh với Mỹ và Trung Quốc sau thành công của Deepseek

-  EU công bố kế hoạch đầu tư 56 triệu USD để phát triển mô hình AI nguồn mở, sau thành công của Deepseek từ Trung Quốc

-  Dự án tập trung phát triển mô hình ngôn ngữ lớn hỗ trợ 30 ngôn ngữ của khối EU, với sự tham gia của các nhà nghiên cứu hàng đầu từ nhiều công ty và trường đại học

-  Dự án sẽ tận dụng các siêu máy tính như Mare Nostrum (Tây Ban Nha) và Leonardo (Ý) - đều nhận tài trợ từ EU

-  Ngân sách 56 triệu USD được xem là khiêm tốn so với:
- OpenAI: đang huy động 25 tỷ USD với định giá 300 tỷ USD
- Mistral: huy động được 640 triệu USD trong năm 2023, định giá 6,2 tỷ USD

-  Deepseek tuyên bố chỉ tiêu tốn 1/10 số tiền của EU để huấn luyện mô hình R1

-  EU có lý do chính đáng để phát triển mô hình riêng khi Meta, OpenAI và các công ty Mỹ đã hạn chế hoặc chặn việc phát hành công cụ tại châu Âu do rủi ro pháp lý từ Đạo luật AI

-  EU đã tăng 25% ngân sách tài trợ nghiên cứu lên 1,5 tỷ USD và đầu tư thêm 1,5 tỷ USD nâng cấp mạng lưới siêu máy tính

-  Một số nhà đầu tư lo ngại việc phân tán tiền đầu tư công, nhắc lại thất bại của dự án công cụ tìm kiếm châu Âu trị giá 550 triệu USD trước đây

📌 EU đặt cược 56 triệu USD vào AI nguồn mở, tập trung phát triển mô hình ngôn ngữ lớn hỗ trợ 30 ngôn ngữ. Dù ngân sách khiêm tốn so với OpenAI (300 tỷ USD) và Mistral (6,2 tỷ USD), thành công của Deepseek cho thấy tiềm năng khả thi của dự án.

 

https://www.forbes.com/sites/iainmartin/2025/02/02/the-eu-is-betting-56-million-on-open-source-ai/

Ai2 ra mắt mô hình AI Tülu 3 405B nguồn mở, tuyên bố vượt trội hơn DeepSeek V3

- Công ty công nghệ Mỹ Ai2 vừa công bố mô hình AI nguồn mở Tülu 3 405B, khẳng định hiệu suất vượt trội hơn DeepSeek V3

- Mô hình này là phiên bản mới nhất trong dòng Tülu 3, sử dụng phương pháp học tăng cường từ phần thưởng có thể xác minh (RLVR)

- Theo công bố trên nền tảng X, Tülu 3 405B:
  + Có hiệu suất ngang bằng với GPT-4o
  + Vượt trội hơn các mô hình post-trained cùng quy mô như Llama 3.1
  + Đạt kết quả tốt hơn DeepSeek V3 trong nhiều tiêu chuẩn đánh giá

- Ai2 nhấn mạnh hiệu quả của framework RLVR:
  + Cải thiện đáng kể hiệu suất MATH ở quy mô lớn 405B
  + Cho kết quả tốt hơn so với mô hình 70B và 8B
  + Phát hiện tương tự được ghi nhận trong báo cáo DeepSeek-R1

- Điểm khác biệt của Tülu 3 405B:
  + Là mô hình nguồn mở
  + Tất cả thành phần cần thiết để sao chép đều miễn phí
  + Được cấp phép sử dụng

- Người phát ngôn của Ai2 chia sẻ với TechCrunch: mô hình này thể hiện tiềm năng dẫn đầu của Mỹ trong phát triển các mô hình AI tạo sinh tốt nhất toàn cầu

📌 Ai2 của Mỹ tạo bước đột phá với mô hình AI nguồn mở Tülu 3 405B, vượt trội DeepSeek V3 của Trung Quốc trong nhiều tiêu chuẩn đánh giá. Mô hình sử dụng framework RLVR, cho hiệu suất ngang bằng GPT-4o và vượt qua Llama 3.1 cùng quy mô.

 

https://readwrite.com/us-based-ai2-releases-new-ai-model-claims-it-beats-deepseek/

Sam Altman thừa nhận OpenAI "đứng sai đường" về nguồn mở, lo ngại mất vị thế dẫn đầu AI

- Sam Altman, CEO OpenAI thừa nhận công ty đã đi sai hướng về chiến lược nguồn mở và cần thay đổi cách tiếp cận

- DeepSeek, công ty AI của Trung quốc, đang thu hẹp khoảng cách với OpenAI. OpenAI cáo buộc DeepSeek có thể đã đánh cắp sở hữu trí tuệ của họ

- OpenAI đang cân nhắc việc nguồn mở các mô hình cũ không còn tối tân

- Về giá dịch vụ, Altman muốn giảm giá ChatGPT trong tương lai. Hiện tại, OpenAI đang lỗ với gói ChatGPT Pro giá 200 USD/tháng

- OpenAI đang phát triển mô hình suy luận mới o3, dự kiến ra mắt trong vài tháng tới. Công ty chưa có kế hoạch cụ thể cho GPT-5

- Kevin Weil, Giám đốc sản phẩm OpenAI, xác nhận đang phát triển phiên bản kế nhiệm của DALL-E 3

- OpenAI vừa công bố hợp tác với chính phủ Mỹ để cung cấp mô hình AI cho các phòng thí nghiệm quốc gia phục vụ nghiên cứu phòng thủ hạt nhân

- Altman tin rằng khả năng AI tự cải thiện nhanh chóng (fast takeoff) có thể xảy ra nhiều hơn so với dự đoán trước đây

- Weil khẳng định tin tưởng các nhà khoa học chính phủ sẽ sử dụng mô hình AI một cách có trách nhiệm

- OpenAI đang xem xét công khai quy trình suy luận của các mô hình AI, tương tự như cách DeepSeek đã làm với mô hình R1

📌 OpenAI đang đối mặt với áp lực cạnh tranh từ DeepSeek, buộc phải xem xét lại chiến lược nguồn mở và minh bạch hóa quy trình AI. Công ty dự định giảm giá ChatGPT, hiện đang lỗ với gói Pro 200 USD/tháng, đồng thời phát triển các mô hình mới như o3 và DALL-E thế hệ tiếp theo.

https://techcrunch.com/2025/01/31/sam-altman-believes-openai-has-been-on-the-wrong-side-of-history-concerning-open-source/

Krutrim - Kỳ lân AI đầu tiên của Ấn Độ triển khai DeepSeek AI với mức giá thấp nhất thế giới

- Krutrim, startup AI do người sáng lập Ola - Bhavish Aggarwal thành lập, vừa triển khai mô hình DeepSeek AI trên hạ tầng đám mây nội địa Ấn Độ

- Động thái này nhằm tăng cường bảo mật dữ liệu và giảm chi phí đào tạo mô hình AI, giúp Ấn Độ cạnh tranh trong lĩnh vực trí tuệ nhân tạo

- Công ty sẽ công bố nhiều thông tin quan trọng vào ngày 4/2/2024, bao gồm:
  + Chi tiết về phòng thí nghiệm AI
  + Các mô hình tiên tiến nhất
  + Nghiên cứu nguồn mở

- Xu hướng triển khai DeepSeek AI đang lan rộng:
  + Microsoft và Amazon đã thông báo sẽ lưu trữ mô hình này trên nền tảng đám mây
  + Google Cloud cũng đã tích hợp qua nền tảng Vertex AI

- Krutrim đã trở thành kỳ lân AI đầu tiên của Ấn Độ vào tháng 1/2024:
  + Định giá đạt 1 tỷ USD
  + Huy động được 50 triệu USD vốn đầu tư

- Tầm nhìn phát triển của Aggarwal cho Krutrim:
  + Phát triển chip AI
  + Bản đồ ứng dụng AI
  + Mô hình ngôn ngữ lớn (LLM)
  + Sử dụng vốn từ family office để tài trợ các dự án

- Thách thức hiện tại: Mô hình AI của công ty đang bị đánh giá là đưa ra phản hồi chưa chính xác

📌 Krutrim đang định hình tương lai AI của Ấn Độ với việc triển khai DeepSeek AI trên máy chủ nội địa, cam kết giá thấp nhất thế giới. Startup này đã đạt định giá 1 tỷ USD, trở thành kỳ lân AI đầu tiên của Ấn Độ và sẽ công bố nhiều thông tin quan trọng vào ngày 4/2/2024.

https://www.businesstoday.in/technology/news/story/india-cant-be-left-behind-bhavish-aggarwals-krutrim-deploys-deepseek-ai-on-indian-servers-claims-lowest-pricing-462831-2025-01-31

Mistral AI ra mắt Small 3 - Đối thủ nguồn mở của GPT-4o mini chỉ cần 32GB RAM để vận hành

- Mistral AI vừa ra mắt mô hình Small 3 với 24B tham số vào ngày 30/1/2025, được tối ưu hóa về độ trễ và hiệu quả

- Mô hình này có khả năng cạnh tranh với các mô hình lớn như Llama 3.3 70B và Qwen 32B

- Small 3 đạt độ chính xác trên 81% trong bài kiểm tra MMLU mà không cần huấn luyện tăng cường (RL) hay dữ liệu tổng hợp

- Ưu điểm nổi bật là có thể chạy cục bộ trên MacBook với RAM tối thiểu 32GB

- Mistral đã tiến hành kiểm tra với hơn 1.000 câu hỏi về lập trình và kiến thức chung thông qua đánh giá viên bên thứ ba

- Kết quả cho thấy đa số người dùng thích Small 3 hơn Gemma-2 27B và Qwen-2.5 32B

- Các ứng dụng tiềm năng:
  + Xây dựng trợ lý ảo phục vụ khách hàng
  + Phát hiện gian lận trong dịch vụ tài chính
  + Tư vấn pháp lý và chăm sóc sức khỏe
  + Lĩnh vực robot và sản xuất
  + Phù hợp với người đam mê và tổ chức xử lý thông tin nhạy cảm

- Mô hình được phát hành dưới giấy phép Apache 2.0 và có thể truy cập trên nền tảng HuggingFace

📌 Small 3 của Mistral AI là mô hình nguồn mở 24B tham số, chạy được trên MacBook 32GB RAM, đạt độ chính xác 81% trong MMLU, cạnh tranh trực tiếp với GPT-4o mini và các mô hình lớn khác trong lĩnh vực tư vấn, phát hiện gian lận và chăm sóc sức khỏe.

https://www.zdnet.com/article/mistral-ai-says-its-small-3-model-is-a-local-open-source-alternative-to-gpt-4o-mini/

Kỹ thuật chưng cất (distillation) trong AI và cách công ty DeepSeek của Trung quốc tạo ra đột phá

- DeepSeek đã tạo bước đột phá với kỹ thuật chưng cất AI, cho phép tạo ra mô hình mới bằng cách học từ mô hình có sẵn thông qua việc đặt hàng trăm nghìn câu hỏi và phân tích câu trả lời

- Các công ty công nghệ lớn như OpenAI và Anthropic đã chi hàng tỷ USD để phát triển AI từ đầu, mất nhiều tháng và hàng chục triệu USD. Trong khi đó, phương pháp chưng cất có thể tạo ra mô hình tương đương chỉ trong vài tuần với chi phí thấp hơn nhiều

- OpenAI cáo buộc DeepSeek đã sử dụng kỹ thuật chưng cất từ ChatGPT để xây dựng hệ thống của họ, vi phạm điều khoản dịch vụ

- Các nhà nghiên cứu tại đại học Berkeley đã phát triển công nghệ ngang tầm với mô hình gần đây của OpenAI chỉ với 450 USD bằng cách chưng cất mô hình nguồn mở từ Alibaba

- Giá sử dụng các mô hình AI từ OpenAI và các công ty khác đã giảm mạnh trong năm qua. AI nguồn mở như DeepSeek hứa hẹn sẽ làm giảm chi phí hơn nữa

- Các chuyên gia dự đoán sẽ có nhiều ứng dụng AI chất lượng cao được tạo ra bằng phương pháp chưng cất trong tương lai gần

- David Sacks, cố vấn AI của tổng thống Mỹ, cho biết các công ty Mỹ sẽ có biện pháp ngăn chặn việc sử dụng mô hình của họ để chưng cất

- Mặc dù các mô hình của OpenAI và Google vẫn dẫn đầu về xếp hạng, nhiều người dùng và doanh nghiệp sẵn sàng chấp nhận công nghệ kém hơn một chút nhưng chi phí thấp hơn nhiều

📌 Kỹ thuật chưng cất AI của DeepSeek đã tạo ra cuộc cách mạng trong ngành, cho phép tạo ra mô hình AI chất lượng cao với chi phí chỉ bằng một phần nhỏ so với phương pháp truyền thống. Điều này đặt ra thách thức lớn cho chiến lược đầu tư hàng tỷ USD vào nghiên cứu AI của các công ty công nghệ lớn.

https://www.wsj.com/tech/ai/why-distillation-has-become-the-scariest-wordfor-ai-companies-aa146ae3

 

#WSJ

 

Tại sao ‘Chưng cất’ trở thành từ đáng sợ nhất đối với các công ty AI

Thành công của DeepSeek trong việc học từ các mô hình AI lớn hơn đặt ra câu hỏi về hàng tỷ USD đang được đầu tư vào công nghệ tiên tiến nhất

Các gã khổng lồ công nghệ đã chi hàng tỷ USD dựa trên giả định rằng mô hình AI càng lớn thì càng tốt. Nhưng bước đột phá của DeepSeek lại cho thấy nhỏ hơn cũng có thể hiệu quả không kém.

Việc startup Trung Quốc này vươn lên hàng ngũ những công ty AI hàng đầu đã làm dấy lên các cuộc tranh luận sôi nổi ở Silicon Valley về một kỹ thuật mà DeepSeek sử dụng, gọi là chưng cất (distillation). Đây là quá trình mà một hệ thống AI mới học từ hệ thống hiện có bằng cách đặt hàng trăm nghìn câu hỏi và phân tích câu trả lời.

"Nó giống như việc bạn có vài tiếng đồng hồ để phỏng vấn Einstein, và sau đó bước ra với lượng kiến thức gần như ngang ngửa ông ấy về vật lý," Ali Ghodsi, CEO của Databricks, công ty quản lý dữ liệu, nhận xét.

Các mô hình AI hàng đầu từ OpenAI hay Anthropic về cơ bản đều tự học từ con số 0, sử dụng lượng dữ liệu khổng lồ—một quá trình có thể mất hàng tháng và tiêu tốn hàng chục triệu USD hoặc hơn. Nhưng bằng cách tận dụng kết quả của quá trình này, chưng cất có thể tạo ra một mô hình gần như tốt tương đương chỉ trong vài tuần, thậm chí vài ngày, với chi phí rẻ hơn đáng kể.

OpenAI tuyên bố hôm thứ Tư rằng họ đã phát hiện dấu hiệu cho thấy DeepSeek đã chưng cất từ các mô hình AI đứng sau ChatGPT để xây dựng hệ thống của mình. Điều khoản dịch vụ của OpenAI cấm sử dụng AI của công ty để phát triển sản phẩm cạnh tranh.

DeepSeek chưa phản hồi email yêu cầu bình luận.

Chưng cất không phải ý tưởng mới, nhưng thành công của DeepSeek đang làm lung lay mô hình kinh doanh của các ông lớn AI

Chưng cất (distillation) không phải là một khái niệm mới, nhưng sự thành công của DeepSeek đang đặt ra nghi vấn về mô hình kinh doanh của các tập đoàn công nghệ và startup đang đổ hàng tỷ USD vào việc phát triển AI tiên tiến nhất, bao gồm Google, OpenAI, Anthropic và xAI của Elon Musk.

Chỉ mới tuần trước, OpenAI đã công bố hợp tác với SoftBank và các đối tác khác để đầu tư 500 tỷ USD vào hạ tầng AI trong 5 năm tới. Nhưng nếu những khoản đầu tư khổng lồ này không mang lại lợi thế áp đảo mà chỉ tạo bệ phóng cho các đối thủ rẻ hơn, thì việc biện minh cho chúng sẽ trở nên khó khăn hơn.

Sau cú sốc DeepSeek, các giám đốc điều hành và nhà đầu tư tại Silicon Valley đang xem xét lại mô hình kinh doanh của mình, tự hỏi liệu việc dẫn đầu ngành có còn đáng giá hay không.

"Có thực sự xứng đáng khi đi đầu công nghệ, nếu chi phí cao gấp 8 lần so với những kẻ theo sau nhanh chóng?" Mike Volpi, một cựu giám đốc công nghệ kỳ cựu và hiện là đối tác tại Hanabi Capital, đặt câu hỏi.

Trên X, Sam Altman, CEO của OpenAI, gọi mô hình mới nhất của DeepSeek“một mô hình ấn tượng, đặc biệt là về khả năng cung cấp hiệu suất cao với chi phí thấp”, đồng thời khẳng định “OpenAI sẽ tiếp tục thực hiện lộ trình nghiên cứu của mình”.

Trong khi đó, Dario Amodei, CEO của Anthropic, viết trên blog rằng mô hình của DeepSeek không phải là một đột phá độc nhất hay thứ gì đó có thể thay đổi căn bản bài toán kinh tế của AI tiên tiến, mà đơn giản “chỉ là một điểm tất yếu trong xu hướng giảm chi phí liên tục”.

Các giám đốc công nghệ dự đoán sẽ sớm có nhiều ứng dụng AI chất lượng cao hơn được tạo ra bằng phương pháp chưng cất. Các nhà nghiên cứu tại Hugging Face đã bắt đầu thử xây dựng một mô hình tương tự DeepSeek từ tuần trước.

"Thứ dễ sao chép nhất chính là quy trình chưng cất," Lewis Tunstall, nhà khoa học nghiên cứu cấp cao tại Hugging Face, nhận định.

Các mô hình AI của OpenAI và Google vẫn dẫn trước DeepSeek, nhưng chi phí thấp đang thay đổi cuộc chơi

Các mô hình AI của OpenAI và Google vẫn đứng đầu trong các bảng xếp hạng phổ biến nhất tại Silicon Valley. Các tập đoàn công nghệ có khả năng duy trì lợi thế trong các hệ thống AI tiên tiến nhất vì họ thực hiện phần lớn nghiên cứu nguyên bản. Nhưng nhiều người dùng và doanh nghiệp sẵn sàng chọn công nghệ kém hơn một chút nhưng rẻ hơn rất nhiều.

David Sacks, người đứng đầu chính sách AI trong chính quyền Tổng thống Trump, cho biết trên Fox News hôm thứ Ba rằng ông dự đoán các công ty Mỹ sẽ siết chặt quy định để hạn chế việc sử dụng mô hình của họ cho mục đích chưng cất.

DeepSeek trước đây đã tuyên bố rằng họ sử dụng chưng cất từ các mô hình AI mã nguồn mở do Meta PlatformsAlibaba phát hành, cũng như từ một mô hình của chính họ để phát triển mô hình khác. Các nhà phát triển AI mã nguồn mở thường cho phép chưng cất miễn là họ được ghi nhận công lao. Các mô hình của DeepSeek cũng được cung cấp dưới dạng mã nguồn mở.

Công nghệ chưng cất đang thay đổi cuộc chơi AI

NovaSky, một phòng thí nghiệm nghiên cứu tại Đại học California, Berkeley, trong tháng này đã công bố một công nghệ được cho là ngang hàng với một mô hình gần đây của OpenAI. Các nhà khoa học của NovaSky chỉ mất 450 USD để tạo ra mô hình này bằng cách chưng cất một mô hình mã nguồn mở của Alibaba.

Các nhà nghiên cứu tại Berkeley đã phát hành mô hình của họ dưới dạng phần mềm mã nguồn mở, và nó đã nhanh chóng được sử dụng để phát triển công nghệ AI giá rẻ hơn. Một startup có tên Bespoke Labs đã sử dụng nó để chưng cất công nghệ của DeepSeek thành một mô hình mới, được đánh giá hoạt động tốt trên các bài toán lập trình và toán học.

"Chưng cất là một kỹ thuật rất hiệu quả để bổ sung khả năng mới cho một mô hình hiện có," Ion Stoica, giáo sư khoa học máy tính tại UC Berkeley, nhận định.

Chi phí AI giảm mạnh, gây áp lực lên các ông lớn

Sự cạnh tranh trong ngành AI đang ngày càng khốc liệt, và hầu hết các công ty đều đang lỗ khi chạy đua giành thị phần. Sự xuất hiện của DeepSeek và các đối thủ khác sử dụng chưng cất có thể đẩy giá xuống thấp hơn nữa, tạo ra một vòng lặp giảm giá, khiến các khoản đầu tư khổng lồ vào nghiên cứu AI tiên tiến ngày càng khó biện minh.

Giá sử dụng mô hình AI từ OpenAI và các công ty khác đã giảm mạnh trong năm qua. AI mã nguồn mở, như của DeepSeek, chỉ càng làm giảm chi phí hơn nữa, theo các giám đốc công nghệ.

"Sẽ khó để biện minh cho mức lợi nhuận khổng lồ với loại trí tuệ này," Vipul Ved Prakash, CEO của Together AI, công ty cung cấp dịch vụ tính toán cho các nhà phát triển AI, nhận định.

 

Why ‘Distillation’ Has Become the Scariest Word for AI Companies
DeepSeek’s success learning from bigger AI models raises questions about the billions being spent on the most advanced technology
By 
Miles Kruppa
 and 
Deepa Seetharaman
Jan. 30, 2025 8:00 am ET

Tech giants have spent billions of dollars on the premise that bigger is better in artificial intelligence. DeepSeek’s breakthrough shows smaller can be just as good.
The Chinese company’s leap into the top ranks of AI makers has sparked heated discussions in Silicon Valley around a process DeepSeek used known as distillation, in which a new system learns from an existing one by asking it hundreds of thousands of questions and analyzing the answers.
”It’s sort of like if you got a couple of hours to interview Einstein and you walk out being almost as knowledgeable as him in physics,” said Ali Ghodsi, chief executive officer of data management company Databricks. 
The leading AIs from companies like OpenAI and Anthropic essentially teach themselves from the ground up with huge amounts of raw data—a process that typically takes many months and tens of millions of dollars or more. By drawing on the results of such work, distillation can create a model that is almost as good in a matter of weeks or even days, for substantially less money.
OpenAI said Wednesday that it has seen indications DeepSeek distilled from the AI models that power ChatGPT to build its systems. OpenAI’s terms of service forbid using its AI to develop rival products.
DeepSeek didn’t respond to emails seeking comment.

Distillation isn’t a new idea, but DeepSeek’s success with it is raising new doubts about the business models of tech giants and startups spending billions to develop the most advanced AI, including Google, OpenAI, Anthropic and Elon Musk’s xAI. Just last week, OpenAI announced a partnership with SoftBank and others to invest $500 billion in AI infrastructure over the next five years.
If those investments don’t provide companies with an unbeatable advantage but instead serve as springrounds for cheaper rivals, they might become difficult to justify. In the wake of DeepSeek, executives and investors in Silicon Valley are re-examining their business models and questioning whether it still pays to be an industry leader.
“Is it economically fruitful to be on the cutting edge if it costs eight times as much as the fast follower?” said Mike Volpi, a veteran tech executive and venture capitalist who is general partner at Hanabi Capital.
OpenAI CEO Sam Altman on X called DeepSeek’s latest release “an impressive model, particularly around what they’re able to deliver for the price,” and added, “we are excited to continue to execute on our research roadmap.” Anthropic CEO Dario Amodei wrote on his blog that DeepSeek’s flagship model “is not a unique breakthrough or something that fundamentally changes the economics” of advanced AI systems, but rather “an expected point on an ongoing cost reduction curve.”
Tech executives expect to see more high-quality AI applications made with distillation soon. Researchers at AI company Hugging Face began trying to build a model similar to DeepSeek’s last week. “The easiest thing to replicate is the distillation process,” said senior research scientist Lewis Tunstall.
AI models from OpenAI and Google remain ahead of DeepSeek on the most widely used rankings in Silicon Valley. Tech giants are likely to maintain an edge in the most advanced systems because they do the most original research. But many consumers and businesses are happy to use technology that’s a little worse but costs a lot less.
President Trump’s AI czar, David Sacks, said on Fox News on Tuesday that he expects American companies to make it harder to use their models for distillation. 
DeepSeek has said it used distillation on open-source AIs released by Meta Platforms and Alibaba in the past, as well as from one of its models to build another. Open-source AI developers typically allow distillation if they are given credit. DeepSeek’s own models are open-source.
NovaSky, a research lab at University of California, Berkeley, this month released technology it said was on par with a recent model released by OpenAI. The NovaSky scientists built it for $450 by distilling an open-source model from Chinese company Alibaba.
The Berkeley researchers released the model as open-source software, and it is already being used to help build more cheap AI technology. One startup, Bespoke Labs, used it to distill DeepSeek’s technology into a new model it said performed well on coding and math problems.
“Distillation as a technique is very effective to add new capabilities to an existing model,” said Ion Stoica, a professor of computer science at UC Berkeley.
Competition in the AI industry is already fierce, and most companies are losing money as they battle for market share. The entry of DeepSeek and others that use distillation could drive prices down further, creating a feedback loop in which it is harder and harder to justify spending huge sums on advanced research.
Prices for software developers accessing AI models from OpenAI and others have fallen dramatically in the past year. Open-source AI such as DeepSeek’s only promises to lower costs further, according to tech executives.
“It will be harder to justify very large margins for this level of intelligence,” said Vipul Ved Prakash, CEO of Together AI, which sells computational services to developers of AI applications.
Write to Miles Kruppa at [email protected] and Deepa Seetharaman at [email protected]

Chatbot DeepSeek của Trung quốc - Công cụ tuyên truyền thông qua AI tạo sinh

- DeepSeek, chatbot miễn phí từ Trung quốc, đã thu hút hàng triệu lượt tải xuống và gây chấn động thị trường chứng khoán cùng các công ty công nghệ lớn như Nvidia

- Theo nghiên cứu của NewsGuard - công ty theo dõi thông tin sai lệch trực tuyến, DeepSeek được xem như một "cỗ máy thông tin sai lệch" khi đưa ra các câu trả lời phản ánh quan điểm của đảng Cộng sản Trung quốc

- Chatbot này đã cung cấp thông tin sai lệch về phát biểu của cựu tổng thống Jimmy Carter liên quan đến vấn đề Đài Loan, bằng cách biên tập có chọn lọc để ủng hộ lập trường của Trung quốc

- Về vấn đề đàn áp người Duy Ngô Nhĩ ở Tân cương (được Liên hợp quốc năm 2022 đánh giá có thể cấu thành tội ác chống nhân loại), Cybernews phát hiện chatbot tuyên bố chính sách của Trung quốc "được cộng đồng quốc tế công nhận và ca ngợi rộng rãi"

- The New York Times cũng tìm thấy các ví dụ tương tự khi kiểm tra câu trả lời của DeepSeek về cách Trung quốc xử lý đại dịch Covid-19 và quan điểm về cuộc chiến Nga-Ukraine

- Giống như mọi công ty Trung Quốc khác, DeepSeek phải tuân thủ kiểm duyệt và kiểm soát nghiêm ngặt của chính phủ, nhằm hạn chế các ý kiến phản đối lãnh đạo đảng Cộng sản

📌 Chatbot DeepSeek là ví dụ điển hình về việc lạm dụng AI tạo sinh để phục vụ mục đích tuyên truyền. Với hàng triệu lượt tải, ứng dụng này đang lan truyền thông tin theo định hướng của đảng Cộng sản Trung quốc về các vấn đề nhạy cảm như Tân cương, Đài loan và đại dịch Covid-19.

https://www.nytimes.com/2025/01/31/technology/deepseek-chinese-propaganda.html

Ý nghĩa thực sự của vụ lùm xùm DeepSeek

- Ngày 27/1/2025, thị trường chứng khoán phản ứng mạnh khi các nhà đầu tư nhận ra khả năng vượt trội của mô hình "v3" và "R1" của DeepSeek, khiến vốn hóa các công ty công nghệ Mỹ giảm khoảng 1.000 tỷ USD

- Nvidia, nhà sản xuất chip hàng đầu trong lĩnh vực AI, mất 600 tỷ USD vốn hóa

- Mô hình của DeepSeek có chất lượng tương đương với Google và OpenAI nhưng chi phí thấp hơn nhiều:
  + Chi phí: 1 USD/triệu token (so với 15 USD/triệu token của Anthropic)
  + Đứng đầu lượt tải xuống trên iPhone trong vài ngày đầu ra mắt
  + Đạt hiệu quả cao dù bị cấm sử dụng chip tiên tiến của Mỹ

- Tương phản với chiến lược của Mỹ:
  + Sam Altman (OpenAI) khẳng định cần đầu tư lớn để dẫn đầu AI
  + Nhà đầu tư đặt cược vào độc quyền của một số công ty
  + DeepSeek chứng minh có thể bắt kịp với chi phí thấp hơn nhiều

- Tác động tích cực:
  + Apple hưởng lợi từ quyết định không đầu tư tỷ USD vào AI
  + Các phòng lab nhỏ như Mistral (Pháp) và TII (UAE) có cơ hội cạnh tranh
  + Chi phí thấp mở ra nhiều ứng dụng AI mới
  + Người dùng được hưởng lợi khi AI trở nên phổ biến, rẻ hơn

📌 DeepSeek làm thay đổi cục diện AI toàn cầu khi chứng minh có thể tạo ra mô hình chất lượng cao với chi phí thấp (1 USD/triệu token). Điều này phá vỡ thế độc quyền của các công ty Mỹ, mở ra kỷ nguyên AI rẻ, phổ biến và mang lại lợi ích cho người dùng cuối.

https://www.economist.com/leaders/2025/01/29/the-real-meaning-of-the-deepseek-drama

 

Ý nghĩa thực sự của vụ lùm xùm DeepSeek  
Nhà phát triển mô hình AI Trung Quốc đã khiến các nhà đầu tư hoảng sợ. Nhưng điều này lại có lợi cho người dùng AI  

Ngày 29 tháng 1 năm 2025

Phản ứng của thị trường, khi xảy ra, đã vô cùng khốc liệt. Ngày 27 tháng 1, khi các nhà đầu tư nhận ra mô hình “v3” và “R1” của DeepSeek tốt đến mức nào, khoảng 1 nghìn tỷ USD đã bị xóa khỏi vốn hóa thị trường của các công ty công nghệ Mỹ niêm yết. Nvidia, nhà sản xuất chip và là “người bán xẻng” chính trong cơn sốt vàng trí tuệ nhân tạo (AI), chứng kiến giá trị của mình giảm 600 tỷ USD. Tuy nhiên, ngay cả khi các sản phẩm mới của công ty phát triển mô hình AI Trung Quốc khiến một số nhà đầu tư hoang mang, chúng vẫn là dấu hiệu tích cực cho thế giới nói chung. DeepSeek cho thấy cạnh tranh và đổi mới sẽ giúp AI trở nên rẻ hơn và do đó hữu ích hơn.

Mô hình của DeepSeek gần như tốt ngang với những gì Google và OpenAI tạo ra—nhưng chi phí chỉ bằng một phần nhỏ. Bị kiểm soát xuất khẩu của Mỹ cấm sử dụng các con chip tiên tiến, công ty Trung Quốc đã tiến hành một chiến dịch tối ưu hóa hiệu suất, thậm chí lập trình lại các con chip mà họ sử dụng để huấn luyện mô hình nhằm tận dụng từng giọt sức mạnh xử lý. Chi phí xây dựng một mô hình AI có thể cạnh tranh với những sản phẩm hàng đầu đã giảm mạnh. Chỉ trong vài ngày sau khi ra mắt, chatbot của DeepSeek đã trở thành ứng dụng được tải xuống nhiều nhất trên iPhone.

DeepSeek gây chấn động thị trường

  • AI Trung Quốc đang bắt kịp, đặt ra bài toán khó cho Donald Trump
  • Vì sao AI Trung Quốc khiến thế giới sửng sốt

Cách tiếp cận của Mỹ hoàn toàn trái ngược. Sam Altman, giám đốc điều hành OpenAI, đã dành nhiều năm để thuyết phục các nhà đầu tư—và tổng thống mới của Mỹ—rằng cần một lượng tiền khổng lồ và sức mạnh tính toán cực lớn để giữ vị trí dẫn đầu AI. Các nhà đầu tư theo đó đặt cược rằng chỉ một số ít công ty sẽ thu được lợi nhuận độc quyền khổng lồ. Nhưng nếu những đối thủ theo sau như DeepSeek có thể thu hẹp khoảng cách đó với chi phí rẻ hơn nhiều, thì lợi nhuận tiềm năng này đang gặp rủi ro.

Nvidia trở thành công ty niêm yết có giá trị nhất thế giới nhờ niềm tin rộng rãi rằng để xây dựng AI tốt nhất, các công ty cần chi mạnh tay để mua chip tốt nhất của họ (biên lợi nhuận từ những con chip này được cho là vượt 90%). Vì vậy, không có gì ngạc nhiên khi thành công của DeepSeek dẫn đến cú sụt giảm cổ phiếu Nvidia vào ngày 27 tháng 1. Các công ty khác trong lĩnh vực trung tâm dữ liệu cũng chịu tổn thất, từ Siemens Energy (công ty sẽ xây tua-bin cung cấp năng lượng cho quá trình mở rộng) đến Cameco (công ty cung cấp uranium để vận hành lò phản ứng chạy tua-bin). Nếu OpenAI là công ty niêm yết, cổ phiếu của họ chắc chắn cũng sẽ lao dốc.

Tuy nhiên, số người hưởng lợi từ câu chuyện DeepSeek nhiều hơn số người thua cuộc. Một số thậm chí còn thuộc ngành công nghệ. Apple có lý do để vui mừng khi quyết định không đổ hàng tỷ USD vào phát triển AI của họ hóa ra lại hợp lý. Họ có thể ngồi yên và chọn những mô hình tốt nhất từ một danh sách ngày càng phong phú. Các phòng thí nghiệm nhỏ hơn, bao gồm Mistral của Pháp và TII của UAE, sẽ chạy đua để áp dụng những cải tiến tương tự nhằm bắt kịp các đối thủ lớn hơn.

Hơn nữa, những cải tiến về hiệu suất có thể khiến AI được sử dụng rộng rãi hơn. Nghịch lý Jevons—quan sát rằng hiệu suất cao hơn có thể dẫn đến việc sử dụng nhiều hơn, chứ không phải ít đi, một đầu vào công nghiệp—có thể sẽ xảy ra. Các ứng dụng tiềm năng cho một mô hình ngôn ngữ với chi phí tính toán rẻ như DeepSeek (1 USD cho mỗi triệu token) nhiều hơn rất nhiều so với mô hình của Anthropic (15 USD cho mỗi triệu token). Nhiều ứng dụng của AI giá rẻ vẫn chưa được tưởng tượng ra.

Ngay cả Nvidia cũng có thể không chịu thiệt quá lâu. Dù quyền lực thị trường của họ có thể giảm sút, họ vẫn sẽ tiếp tục bán ra một lượng lớn chip. Những mô hình suy luận như R1 của DeepSeek và O3 của OpenAI cần nhiều sức mạnh tính toán hơn các mô hình ngôn ngữ lớn thông thường để trả lời câu hỏi. Nvidia sẽ hy vọng có thể cung cấp một phần trong số đó.

Nhưng những người hưởng lợi lớn nhất sẽ là người tiêu dùng. Để AI có thể thay đổi xã hội, nó cần phải rẻ, phổ biến và không bị kiểm soát bởi bất kỳ quốc gia hay công ty nào. Thành công của DeepSeek cho thấy một thế giới như vậy là khả thi. Hãy lấy Anh làm ví dụ: Thủ tướng Keir Starmer đã công bố kế hoạch sử dụng AI để thúc đẩy năng suất. Nếu ông không phải trả phần lớn lợi ích từ hiệu suất này cho Microsoft dưới dạng phí sử dụng, thì đề xuất của ông có cơ hội thành công cao hơn. Khi lợi nhuận độc quyền của các nhà sản xuất biến mất, chúng sẽ nằm lại trong túi người dùng.

Một số người bắt đầu cho rằng những cải tiến của DeepSeek không đáng kể vì chúng chỉ đơn giản là kết quả của việc “chưng cất” trí tuệ của các mô hình Mỹ vào phần mềm của họ. Nhưng ngay cả khi điều đó đúng, R1 vẫn là một đổi mới mang tính đột phá. Việc DeepSeek dễ dàng tìm ra cách cải thiện hiệu suất sẽ thúc đẩy cạnh tranh. Điều này cho thấy còn rất nhiều cải tiến tương tự có thể được khám phá.

Trong 2 năm qua, các phòng thí nghiệm AI lớn nhất của Mỹ đã cạnh tranh để tạo ra những cải tiến ngày càng nhỏ trong chất lượng mô hình, thay vì tập trung vào các mô hình rẻ, nhanh và hiệu quả. DeepSeek cho thấy có một cách tiếp cận tốt hơn. ■

 

Với DeepSeek, Trung Quốc đổi mới và Mỹ bắt chước

- DeepSeek, startup AI Trung Quốc, đã tạo bước đột phá với mô hình suy luận AI vượt trội và tiết kiệm chi phí hơn so với các đối thủ Mỹ

- Sự kiện này khiến cổ phiếu công nghệ và năng lượng Mỹ mất 1.000 tỷ USD giá trị vốn hóa trong một ngày

- DeepSeek được thành lập năm 2023, do Liang Wenfeng - người điều hành một quỹ đầu tư lớn của Trung Quốc sáng lập, hoạt động như phòng nghiên cứu hơn là doanh nghiệp thương mại

- Công ty tuyển dụng các nhà nghiên cứu trẻ được đào tạo tại Trung Quốc, tập trung vào năng lực thay vì bằng cấp

- DeepSeek sử dụng các mô hình AI nguồn mở như Meta's Llama, khác với mô hình độc quyền của OpenAI và Google

- Công ty tập trung vào ngôn ngữ thay vì multimodal, với niềm tin rằng AI có thể đạt trình độ như con người thông qua mô hình ngôn ngữ

- DeepSeek trở thành ứng dụng miễn phí được tải xuống nhiều nhất trên Apple App Store của Mỹ

- Vốn đầu tư mạo hiểm tại Trung Quốc giảm 37% xuống còn 40,2 tỷ USD trong năm qua, trong khi tăng mạnh tại Mỹ

- OpenAI cáo buộc DeepSeek vi phạm quyền sở hữu trí tuệ, mặc dù chính OpenAI cũng đang đối mặt với các cáo buộc tương tự

📌 DeepSeek đã phá vỡ định kiến về sự đổi mới công nghệ giữa Trung Quốc và Mỹ. Startup này chứng minh khả năng tạo ra mô hình AI hiệu quả với chi phí thấp, khiến thị trường công nghệ Mỹ mất 1.000 tỷ USD vốn hóa trong một ngày và mở ra kỷ nguyên cạnh tranh AI toàn cầu mới.

 

https://www.ft.com/content/d72e0750-6a8b-4ef4-b9e1-6d35fd2a69b8

#FT

Với DeepSeek, Trung Quốc đổi mới còn Mỹ bắt chước

Bước đột phá của start-up này làm lung lay những định kiến lỗi thời về 2 quốc gia

Sự hân hoan đầy tự hào tràn ngập internet Trung Quốc trong tuần này. Nếu chiến thắng của Google DeepMind trước kỳ thủ cờ vây mạnh nhất Trung Quốc vào năm 2017 là minh chứng cho trí tuệ nhân tạo (AI) vượt trội của phương Tây, thì việc DeepSeek ra mắt một mô hình AI lập luận hàng đầu thế giới trong tháng này đã được tán dương như một thành công vang dội tại Trung Quốc.

Mô hình AI thông minh hơn và rẻ hơn của DeepSeek được một lãnh đạo công nghệ Trung Quốc gọi là “thành tựu khoa học và công nghệ định hình vận mệnh quốc gia”. Một người khác ví von start-up này như một thành viên chủ chốt trong “Biệt đội Avengers Công nghệ Mô hình Lớn Trung Quốc”, với sứ mệnh đối trọng lại sự thống trị AI của Mỹ.

Cơn đau đầu của các tập đoàn công nghệ Mỹ

Niềm vui của Trung Quốc lại mang đến nỗi đau cho các ông lớn công nghệ Mỹ khi nhà đầu tư bắt đầu đặt câu hỏi liệu bước đột phá của DeepSeek có làm lung lay tính hợp lý của các khoản đầu tư khổng lồ vào hạ tầng AI hay không. Kết quả là, chỉ trong ngày thứ Hai, cổ phiếu công nghệ và năng lượng Mỹ đã bốc hơi 1.000 tỷ USD giá trị vốn hóa thị trường, dù sau đó có phục hồi phần nào vào cuối tuần.

Từ lâu, Trung Quốc bị gán với hình ảnh một nền kinh tế sản xuất thâm dụng vốn, được nhà nước trợ cấp, chuyên sản xuất phần cứng giá rẻ như điện thoại thông minh, tấm pin mặt trời hay xe điện. Nhưng thực tế, Trung Quốc đã vươn lên thành cường quốc phần mềm toàn cầu từ lâu, vượt xa phương Tây trong lĩnh vực thương mại điện tử và dịch vụ tài chính số, đồng thời đầu tư mạnh vào AI.

Sự trỗi dậy của DeepSeek đã thách thức nhiều định kiến lỗi thời về đổi mới công nghệ ở Trung Quốc, dù công ty này không hẳn là một đại diện tiêu biểu. Thành công của DeepSeek bác bỏ nhận định cũ kỹ rằng “Mỹ đổi mới, Trung Quốc sao chép, còn châu Âu quản lý”.

DeepSeek có giống một start-up Thung lũng Silicon?

Ở nhiều khía cạnh, DeepSeek mang dáng dấp của một start-up Thung lũng Silicon kiểu “tự thân vận động”, dù không ra đời từ một gara. Được thành lập vào năm 2023, công ty này có tham vọng tương tự như OpenAI và Google DeepMind trong việc đạt tới trí tuệ nhân tạo tổng quát (AGI) – AI đạt đến cấp độ tư duy như con người. Tuy nhiên, thay vì huy động vốn bên ngoài, DeepSeek được hậu thuẫn bởi Liang Wenfeng, người sáng lập một trong những quỹ đầu cơ hàng đầu Trung Quốc.

Trong một cuộc phỏng vấn được đăng lại trên bản tin China Talk, Liang cho biết DeepSeek hoạt động theo mô hình phòng thí nghiệm nghiên cứu hơn là một doanh nghiệp thương mại. Khi tuyển dụng, công ty ưu tiên năng lực hơn bằng cấp, chủ yếu tuyển các nhà nghiên cứu trẻ được đào tạo tại Trung Quốc.

Liang chia sẻ rằng nhóm nghiên cứu của ông được tạo điều kiện để khám phá và mắc sai lầm, vì “đổi mới thường nảy sinh một cách tự nhiên – nó không phải thứ có thể lên kế hoạch hay giảng dạy”.

Cách tiếp cận khác biệt của DeepSeek

Không giống như OpenAI hay Google, DeepSeek dựa vào các mô hình AI mã nguồn mở như Llama của Meta, thay vì phát triển các mô hình độc quyền. Công ty cũng tập trung hoàn toàn vào ngôn ngữ trong hành trình hướng tới AGI, thay vì mở rộng sang đa phương thức (multimodal) như hình ảnh, âm thanh hay video.

Liang lý giải:

“Những gì bạn nghĩ là ‘tư duy’ thực chất có thể chỉ là cách bộ não dệt nên ngôn ngữ. Điều này gợi ý rằng AGI có thể xuất hiện từ các mô hình ngôn ngữ”.

Nhờ cách tiếp cận chuyên sâu này, DeepSeek đã tạo ra một mô hình lập luận đột phá với chi phí thấp, mà không cần đến sức mạnh tính toán khổng lồ như các đối thủ Mỹ.

Mỹ lo lắng, nhưng cũng nhanh chóng tận dụng

Giống như với các ứng dụng công nghệ Trung Quốc khác, chính trị gia Mỹ đã nhanh chóng bày tỏ lo ngại về bảo mật và quyền riêng tư liên quan đến DeepSeek. OpenAI thậm chí còn cáo buộc công ty Trung Quốc vi phạm quyền sở hữu trí tuệ – một động thái có phần mỉa mai khi OpenAI cũng đang đối mặt với các vụ kiện vi phạm bản quyền.

Dù các tập đoàn công nghệ Mỹ tỏ ra lo lắng một cách kín đáo, nhiều nhà phát triển lại hào hứng đón nhận cơ hội mà công nghệ của DeepSeek mang lại. Nhờ khả năng lập luận vượt trội với chi phí thấp, mô hình này có thể được ứng dụng rộng rãi trong nhiều lĩnh vực.

Thứ Hai vừa qua, DeepSeek đã trở thành ứng dụng miễn phí được tải nhiều nhất trên Apple App Store tại Mỹ.

Mỹ hưởng lợi nhiều hơn Trung Quốc?

Trớ trêu thay, chính Mỹ có thể là bên hưởng lợi nhiều hơn từ bước đột phá của DeepSeek. Những năm gần đây, Trung Quốc siết chặt kiểm soát khu vực tư nhân, khiến số lượng start-up mới thành lập giảm mạnh kể từ năm 2018. Theo PitchBook, vốn đầu tư mạo hiểm vào Trung Quốc đã giảm 37% xuống còn 40,2 tỷ USD vào năm ngoái, trong khi con số này lại tăng mạnh tại Mỹ.

Trung Quốc đổi mới, Mỹ bắt chước – xu hướng lâu dài hay chỉ là nhất thời?

DeepSeek đã giáng một đòn mạnh vào lòng kiêu hãnh của các tập đoàn công nghệ Mỹ, đẩy mạnh cạnh tranh toàn cầu và thúc đẩy việc ứng dụng AI nhanh hơn.

Tạm thời, có vẻ như Trung Quốc đang đổi mới, còn Mỹ bắt chước. Nhưng liệu đây chỉ là một hiện tượng nhất thời, hay khởi đầu của một xu hướng dài hạn?

 

With DeepSeek, China innovates and the US imitates
The start-up’s breakthrough confounds outworn prejudices about the two countries
Triumphalist glee lit up the Chinese internet this week. Just as Google DeepMind’s victory over China’s strongest Go player in 2017 showcased western brilliance in artificial intelligence, so DeepSeek’s release of a world-beating AI reasoning model has this month been celebrated as a stunning success in China.
DeepSeek’s smarter and cheaper AI model was a “scientific and technological achievement that shapes our national destiny”, said one Chinese tech executive. The start-up had become a key player in the “Chinese Large-Model Technology Avengers Team” that would counter US AI dominance, said another.  
China’s delight, however, spelled pain for several giant US technology companies as investors questioned whether DeepSeek’s breakthrough undermined the case for their colossal spending on AI infrastructure. US tech and energy stocks lost $1tn of their market value on Monday, although they regained some ground later in the week.
The stereotypical image of China abroad may still be that of a state-subsidised, capital-intensive manufacturing economy that excels at churning out impressive low-cost hardware, such as smartphones, solar panels and electric vehicles. But, in truth, China long ago emerged as a global software superpower, outstripping the west in ecommerce and digital financial services, and it has invested massively in AI, too.
DeepSeek’s emergence confounds many of the outworn prejudices about Chinese innovation, although it is far from a typical Chinese company. It certainly invalidates the old saw that while the US innovates, China imitates and Europe regulates. In several ways, DeepSeek resembles a bootstrapped Silicon Valley start-up, even if it was not founded in a garage. Launched in 2023, the company has the same high-flown ambition as OpenAI and Google DeepMind to attain human-level AI, or artificial general intelligence (AGI). But its founder Liang Wenfeng runs one of China’s leading hedge funds, meaning the company has not had to raise external financing. 
In an interview republished in the China Talk newsletter, Liang explained that DeepSeek operated more as a research lab than a commercial enterprise. When recruiting, it prioritised capabilities over credentials, hiring young Chinese-educated researchers. Liang said these people were given the space to explore and the freedom to make mistakes. “Innovation often arises naturally — it’s not something that can be deliberately planned or taught,” he said.
DeepSeek relies on open-source AI models, such as Meta’s Llama, in contrast to the proprietary models favoured by OpenAI and Google. It also focuses narrowly on language in its quest to reach AGI rather than attempting to go multimodal and incorporating images, audio and video. “What you think of as ‘thinking’ might actually be your brain weaving language. This suggests that humanlike AGI could potentially emerge from language models,” he said.
DeepSeek’s focused approach has enabled it to develop a compelling reasoning model without the need for extraordinary computing power and seemingly at a fraction of the cost of its US competitors. As with other Chinese apps, US politicians have been quick to raise security and privacy concerns about DeepSeek. And OpenAI has even accused the Chinese company of possible breaches of intellectual property rights. Given the cases against OpenAI for infringing others’ copyright, though, that might strike some as rich.
While some big US tech companies responded to DeepSeek’s model with disguised alarm, many developers were quick to pounce on the opportunities the technology might generate. The capabilities and cheapness of DeepSeek’s reasoning model may allow them to deploy it for an ever-expanding number of uses. On Monday, DeepSeek was the most downloaded free app on the US Apple App Store. 
Ironically, that may yet enable the US to benefit more from DeepSeek’s breakthrough than China. Over the past few years, China has been throttling its own private sector as the state has exerted tighter control. The number of start-ups launched in China has plummeted since 2018. According to PitchBook, venture capital funding in China fell 37 per cent to $40.2bn last year while rising strongly in the US.
DeepSeek has punctured the hubris of the US tech oligarchs. It has intensified global competition and will accelerate the adoption of AI tools. Temporarily this could be a case of China innovating and the US imitating. But is it just a spectacular blip or the start of a long-term trend?

Các công ty AI của Trung Quốc tăng tốc phát hành cập nhật mô hình trước Tết Nguyên đán

-  DeepSeek, công ty khởi nghiệp tại Hàng Châu, phát hành mô hình nguồn mở mới về tạo hình ảnh vào ngày thứ Hai trước Tết Nguyên đán

-  Alibaba và các công ty khởi nghiệp như Moonshot và Zhipu cũng liên tiếp ra mắt các mô hình mới

-  DeepSeek gây chú ý toàn cầu khi cho thấy hiệu suất tương đương với đối thủ Mỹ như OpenAI và Meta, dù có ít tài nguyên tính toán hơn và bị hạn chế tiếp cận chip Nvidia

-  Mô hình R1 của DeepSeek có khả năng tự học và cải thiện mà không cần giám sát của con người

-  Cổ phiếu liên quan đến AI giảm mạnh, Nvidia mất gần 600 tỷ USD giá trị thị trường vào ngày thứ Hai

-  Alibaba phát hành Qwen2.5-1M có khả năng xử lý đầu vào dài hơn, phù hợp cho ứng dụng Agent AI

-  Zhipu, được định giá 3 tỷ USD, cập nhật GLM-PC nhắm vào khách hàng doanh nghiệp

-  Moonshot cập nhật mô hình Kimi k1.5 với khả năng xử lý văn bản và hình ảnh, đồng thời xử lý các truy vấn dài và phức tạp

-  Các công ty thường phát hành sản phẩm trước kỳ nghỉ dài để khách hàng có thời gian thử nghiệm

-  Sau Tết, cuộc đua tập trung vào phát triển ứng dụng AI cho mục đích thương mại

📌 Các công ty AI Trung Quốc đang thể hiện khả năng cạnh tranh mạnh mẽ với Mỹ, đặc biệt là DeepSeek với mô hình nguồn mở mới. Dù bị hạn chế chip, họ vẫn đạt được tiến bộ đáng kể, với Zhipu đạt giá trị 3 tỷ USD và Nvidia mất 600 tỷ USD vốn hóa do lo ngại về sự đột phá này.

https://www.ft.com/content/036cb510-5cf2-4dd8-9aec-1341396dfc2a

#FT

Ngành AI đầy tham vọng của Trung Quốc tung ra hàng loạt bản cập nhật mô hình
Thành công của DeepSeek truyền cảm hứng khi các sản phẩm mới nhất được ra mắt trước kỳ nghỉ Tết Nguyên đán

Các công ty AI khởi nghiệp của Trung Quốc kỳ vọng những tiến bộ của DeepSeek sẽ thúc đẩy đầu tư vào ngành này © AP

Eleanor Olcott tại Bắc Kinh – 11 phút trước

Các nhóm trí tuệ nhân tạo Trung Quốc đang gấp rút tung ra các bản cập nhật mô hình trước kỳ nghỉ Tết Nguyên đán, khi thế giới bắt đầu nhận ra những tiến bộ lớn trong ngành này do DeepSeek dẫn đầu bất chấp các hạn chế về chip từ Mỹ.

Vào thứ Hai, ngay trước ngày nghỉ lễ quan trọng nhất của Trung Quốc, công ty có trụ sở tại Hàng Châu đã phát hành một mô hình mã nguồn mở mới để tạo hình ảnh, củng cố danh tiếng là kẻ phá vỡ cuộc chơi chính trong lĩnh vực trước đây do các tập đoàn Mỹ thống trị. Điều này diễn ra ngay sau các lần ra mắt mô hình từ gã khổng lồ công nghệ Alibaba và các công ty khởi nghiệp Moonshot và Zhipu.

“Mọi chuyện giống như tung ra một bản phát hành lớn vào đêm Giáng sinh vậy. Chúng tôi đã làm việc ngoài giờ để kịp ra mắt sản phẩm trước kỳ nghỉ,” một quản lý sản phẩm tại một công ty phát triển mô hình ngôn ngữ lớn cho biết.

Mặc dù thành tựu của DeepSeek đã khiến Mỹ lo ngại về những tiến bộ mà các phòng thí nghiệm Trung Quốc đạt được với ngân sách hạn chế, nhưng các chuyên gia trong ngành cho rằng điều này đang tạo ra một “niềm tin” mới ở Trung Quốc, thúc đẩy đầu tư vào lĩnh vực này.

“DeepSeek đang tiến bộ nhanh hơn so với các công ty mô hình khác của Trung Quốc. Nhưng điều này cũng giúp các công ty khác tin rằng họ có thể bắt kịp,” một nhà đầu tư AI tại Trung Quốc nhận định.

DeepSeek đã thu hút sự chú ý toàn cầu với một loạt các bản phát hành mô hình có hiệu năng tương đương với các đối thủ Mỹ như OpenAI và Meta, dù công ty tuyên bố chỉ có một phần nhỏ tài nguyên tính toán và bị cấm mua các bộ xử lý Nvidia mới nhất do lệnh hạn chế xuất khẩu của Mỹ. Tuần trước, công ty này đã ra mắt mô hình lập luận R1 – một mô hình tiên tiến có thể cạnh tranh với o1 của OpenAI và có khả năng tự động học hỏi, cải thiện mà không cần sự giám sát của con người.

“DeepSeek đã tiếp thêm rất nhiều năng lượng cho các công ty AI Trung Quốc và rộng hơn là cho cộng đồng AI mã nguồn mở toàn cầu. Cộng đồng này sẽ sử dụng các phát hiện từ bài báo nghiên cứu về R1 để tiến bộ hơn trong các mô hình lập luận,” Wang Tiezhen, một kỹ sư tại trung tâm nghiên cứu AI Hugging Face, nhận xét.

Tuần này, nhà đầu tư ồ ạt bán tháo cổ phiếu liên quan đến AI, khiến Nvidia mất gần 600 tỷ USD giá trị vốn hóa vào thứ Hai. Họ phản ứng trước các đột phá của Trung Quốc, cho thấy hoàn toàn có thể xây dựng các mô hình mạnh mẽ bằng cách đi theo một chiến lược khác với Mỹ – thay vì tập trung vào mở rộng cụm tính toán ngày càng lớn, Trung Quốc đang tìm kiếm con đường khác để dẫn đầu trong cuộc đua AI.

Cũng vào thứ Hai, Alibaba’s Qwen đã ra mắt Qwen2.5-1M, một loạt mô hình mới có khả năng xử lý đầu vào dài hơn. Theo Wang, đây là một bước phát triển quan trọng giúp mô hình có thể được triển khai cho các ứng dụng AI đòi hỏi bộ nhớ cao hơn.

Cùng ngày, DeepSeek giới thiệu Janus-Pro, một mô hình tạo ảnh từ văn bản mà công ty tuyên bố có thể vượt qua các mô hình tiên tiến nhất hiện nay, bao gồm DALL-E 3 của OpenAI và Stable Diffusion 3 của Stability AI, trên một số tiêu chí đánh giá.

Zhipu, được định giá 3 tỷ USD trong vòng gọi vốn gần nhất vào tháng 12, tuần trước cũng cập nhật GLM-PC – một mô hình AI hỗ trợ doanh nghiệp, giúp máy tính tự động hoàn thành các nhiệm vụ như điền biểu mẫu hoặc phân tích báo cáo tài chính.

Trong khi Zhipu không thu hút nhiều sự chú ý trong lĩnh vực phát triển mô hình ngôn ngữ lớn (LLM), công ty này đang dẫn đầu trong việc thương mại hóa công nghệ trong số các công ty khởi nghiệp AI tại Trung Quốc. Zhipu nhận được sự hỗ trợ từ chính quyền địa phương và các doanh nghiệp nhà nước, những đơn vị đã hợp tác với công ty có trụ sở tại Bắc Kinh để triển khai các mô hình của họ.

Tuần trước, một công ty khởi nghiệp khác tại Bắc Kinh là Moonshot – đơn vị sở hữu chatbot AI phổ biến Kimi – đã cập nhật mô hình lập luận của họ lên Kimi k1.5. Mô hình này cho thấy kết quả ấn tượng khi so sánh với các mô hình AI hiện có trong các nhiệm vụ lập luận phức tạp. Bản phát hành mới nhất có thể xử lý cả văn bản và hình ảnh, đồng thời giải quyết các truy vấn dài và phức tạp.

Việc các công ty công nghệ Trung Quốc tung ra sản phẩm trước kỳ nghỉ dài là điều phổ biến, với lợi ích đi kèm là khách hàng tiềm năng sẽ có nhiều thời gian rảnh rỗi để thử nghiệm và khám phá sản phẩm.

Ngay sau kỳ nghỉ Tết, cuộc đua giành vị trí dẫn đầu trong việc phát triển ứng dụng AI phục vụ thương mại sẽ bước vào giai đoạn mới. “Nếu AI agent có thể tạo ra giá trị thương mại đột phá, một hoặc hai công ty phát triển mô hình ngôn ngữ lớn có cơ hội trở thành thế hệ công ty phần mềm mới,” nhà đầu tư AI nhận định.

China’s emboldened AI industry releases flurry of model updates


Success of DeepSeek inspires confidence as latest products are pushed out ahead of lunar new year holiday
An office information board in Beijing displays company names in both English and Chinese, including "DeepSeek AI"
Chinese AI start-ups expect DeepSeek’s advances to spur further investment in the sector © AP


Eleanor Olcott in Beijing 11 minutes ago

Chinese artificial intelligence groups have been rushing out model updates before the lunar new year holiday, as the world wakes up to the sector’s major advances led by start-up DeepSeek in the face of US chip restrictions.
On Monday, the eve of China’s most important annual holiday, the Hangzhou-based company released a new open-source model for image generation, cementing its reputation as the disrupter-in-chief in a field previously dominated by US giants. It came hot on the heels of model releases from tech giant Alibaba and start-ups Moonshot and Zhipu.
“This is the equivalent of dropping a massive release on Christmas Eve. We’ve all been working overtime to get stuff out before the holiday,” said one product manager at a large language model start-up.
While DeepSeek’s achievement has prompted panic in the US about the advances Chinese labs are making on bootstrapped budgets, industry insiders say it is feeding into a newfound “confidence” in China that will spur investment.
“DeepSeek has made faster progress than the other Chinese model companies. But this is giving them confidence that they can catch up,” said one AI investor in China.
DeepSeek has captured the world’s attention with a series of model releases that show similar performance to those of US rivals such as OpenAI and Meta, even though it claims to have a fraction of the computing resources and is blocked from acquiring the latest Nvidia processors by US export restrictions. Last week, it released its R1 reasoning model, an advanced model that rivals OpenAI’s o1 and can automatically learn and improve itself without human supervision.
“DeepSeek has injected a lot of energy into China’s AI players and, more broadly, into the global open-source AI community that will use its findings from its R1 paper to make progress on reasoning models,” said Wang Tiezhen, an engineer at AI research hub Hugging Face.
This week, investors dumped AI-related stocks, with Nvidia losing almost $600bn in market value on Monday. They were reacting to Chinese breakthroughs that show it is possible to build powerful models while pursuing a different strategy to the US one of building ever-larger computing clusters to get ahead in the AI race.
On Monday, Alibaba’s Qwen released Qwen2.5-1M, a series of new models that are capable of handling longer inputs, an important development that would mean the model could be deployed for AI agent applications with higher memory demands, according to Wang.
On the same day, DeepSeek released Janus-Pro, a text-to-image generation model that it claims can surpass state of the art ones from competitors such as OpenAI’s Dall-E 3 and Stability AI’s Stable Diffusion 3 on some benchmarks.
Zhipu, valued at its last funding round in December at $3bn, last week released an update to GLM-PC. The AI agent model is aimed at enterprise customers, enabling computers to automatically complete tasks such as filling out forms or digesting financial reports. 
Recommended
Artificial intelligence
OpenAI’s Altman vows ‘better models’ as China’s DeepSeek disrupts global race
A montage of DeepSeek, Meta and OpenAI logos
While Zhipu has not courted much attention for its LLM development, it has a lead among local AI start-ups in commercialising its technology, with support from local governments and state-owned enterprises that have partnered with the Beijing-based company to deploy its models.
Last week, another Beijing-based start-up Moonshot, which owns the popular AI chatbot Kimi, updated its reasoning model to Kimi k1.5, demonstrating strong results compared with established AI models for complex reasoning tasks. The latest release can process texts and images while handling long and complex queries.
It is standard practice for Chinese tech companies to release products before the long holiday, with the added benefit that potential customers with lots of free time during the break can test and explore them.
Once Chinese AI players return from their break, the race is on to become the leading player developing AI applications for commercial use. “If AI agents can create dramatic commercial value, one or two of the LLM players have a chance to transform into a new generation of software companies,” the AI investor said.

Cựu CEO Intel Pat Gelsinger chuyển sang sử dụng DeepSeek thay vì OpenAI tại startup Gloo

-  DeepSeek đã phát triển mô hình AI suy luận nguồn mở R1, sử dụng 2.000 GPU H800 của Nvidia trong vòng 2 tháng với chi phí khoảng 5,5 triệu USD

-  Hiệu suất của mô hình R1 ngang bằng với các mô hình suy luận tiên tiến nhất hiện nay, dù các mô hình này được đào tạo với chi phí hàng tỷ USD

-  Pat Gelsinger, cựu CEO Intel và hiện là chủ tịch startup Gloo, đã quyết định sử dụng DeepSeek thay vì OpenAI cho dịch vụ AI Kallm của công ty

-  Gloo dự kiến sẽ xây dựng lại Kallm từ đầu trong vòng 2 tuần với mô hình nền tảng hoàn toàn nguồn mở

-  Theo Gelsinger, DeepSeek chứng minh AI có thể phát triển nhờ sáng tạo kỹ thuật, không chỉ dựa vào việc đổ thêm tài nguyên phần cứng

-  Chi phí đào tạo của DeepSeek được ước tính rẻ hơn 10-50 lần so với mô hình o1 của OpenAI

-  Nhiều người hoài nghi về tính minh bạch của DeepSeek do công ty có nguồn gốc từ Trung quốc, cũng như lo ngại về quyền riêng tư và kiểm duyệt

-  Một số chuyên gia cho rằng DeepSeek đã không trung thực về chi phí đào tạo hoặc việc sử dụng chip cao cấp do các hạn chế xuất khẩu của Mỹ

-  Sự xuất hiện của DeepSeek đã gây ra đợt bán tháo cổ phiếu Nvidia và đưa ứng dụng người dùng của họ lên vị trí hàng đầu trên các kho ứng dụng

📌 DeepSeek đã tạo ra bước đột phá với mô hình AI nguồn mở R1 có hiệu suất cao nhưng chi phí thấp hơn 10-50 lần so với OpenAI, thu hút sự chú ý của các công ty công nghệ lớn và đe dọa vị thế độc quyền trong ngành AI.

https://techcrunch.com/2025/01/27/former-intel-ceo-pat-gelsinger-is-already-using-deepseek-instead-of-openai-at-his-startup-gloo/

DeepSeek-AI ra mắt Janus-Pro 7B - mô hình AI multimodal nguồn mở vượt trội DALL-E 3 và Stable Diffusion

- DeepSeek-AI vừa công bố Janus-Pro, phiên bản cải tiến của framework Janus với hai biến thể: Janus-Pro-1B và Janus-Pro-7B

- Mô hình giới thiệu 3 đổi mới chính:
  -  Chiến lược huấn luyện được tối ưu hóa
  -  Bộ dữ liệu mở rộng chất lượng cao
  -  Các biến thể mô hình lớn hơn

- Kiến trúc của Janus-Pro tách biệt mã hóa hình ảnh cho 2 nhiệm vụ:
  -  Bộ mã hóa hiểu sử dụng phương pháp SigLIP
  -  Bộ mã hóa tạo sinh áp dụng tokenizer VQ
  
- Chiến lược huấn luyện gồm 3 giai đoạn:
  -  Tiền huấn luyện kéo dài trên nhiều bộ dữ liệu đa dạng
  -  Tinh chỉnh hiệu quả với tỷ lệ dữ liệu được điều chỉnh
  -  Tinh chỉnh có giám sát để tối ưu hiệu suất

- Dữ liệu huấn luyện bao gồm:
  -  72 triệu mẫu dữ liệu thẩm mỹ tổng hợp
  -  90 triệu bộ dữ liệu hiểu đa phương thức

- Kết quả benchmark ấn tượng của Janus-Pro 7B:
  -  MMBench: 79,2 điểm (vượt Janus: 69,4, TokenFlow-XL: 68,9, MetaMorph: 75,2)
  -  GenEval: 80% độ chính xác (vượt DALL-E 3: 67%, Stable Diffusion 3: 74%)
  -  DPG-Bench: 84,19 điểm

- Mô hình được mở rộng lên 7 tỷ tham số giúp xử lý đầu vào đa phương thức phức tạp với độ chính xác và hiệu quả cao hơn

📌 Janus-Pro 7B thiết lập chuẩn mực mới cho AI đa phương thức nguồn mở với khả năng vượt trội DALL-E 3 (80% so với 67% trên GenEval). Mô hình tích hợp 72 triệu mẫu dữ liệu tổng hợp và 90 triệu bộ dữ liệu đa phương thức, cho phép xử lý đồng thời text và hình ảnh một cách chính xác.

https://www.marktechpost.com/2025/01/27/deepseek-ai-releases-janus-pro-7b-an-open-source-multimodal-ai-that-beats-dall-e-3-and-stable-diffusion/

Bình tĩnh: DeepSeek-R1 rất tuyệt, nhưng lợi thế sản phẩm của ChatGPT còn lâu mới kết thúc

-  DeepSeek, startup Trung Quốc vừa ra mắt mô hình AI nguồn mở R1 vào ngày 20/1/2025, nhanh chóng vượt qua ChatGPT để đứng số 1 trên App Store tại Mỹ

-  DeepSeek-R1 đạt thành tích ấn tượng:
- Tỷ lệ chính xác 97,3% trong bài kiểm tra MATH-500, cao hơn 96,4% của OpenAI o1
- Điểm coding đạt 49,2% trên SWE-bench Verified, vượt qua 48,9% của OpenAI o1
- Chi phí phát triển chỉ dưới 6 triệu USD, thấp hơn nhiều so với hàng tỷ USD của các mô hình OpenAI
- Giá API chỉ 0,14 USD/triệu token, rẻ hơn nhiều so với 7,5 USD của OpenAI

-  DeepSeek-R1 được huấn luyện dựa trên:
- Dữ liệu tổng hợp từ câu hỏi và câu trả lời
- Dataset của DeepSeek-V3 được tạo ra từ GPT-4o
- Kiến trúc transformer do Google AI phát triển năm 2017

-  Những điểm yếu của DeepSeek-R1:
- Không có khả năng phân tích hình ảnh như ChatGPT
- Chỉ có thể trích xuất text từ ảnh qua OCR
- Chưa có tính năng tạo hình ảnh như DALL-E 3
- Thiếu chế độ tương tác bằng giọng nói
- Cần nhiều tài nguyên GPU để phát triển thêm tính năng

-  Công ty vừa ra mắt mô hình thị giác Janus Pro, tuyên bố vượt trội hơn DALL-E 3 và Stable Diffusion 3

📌 DeepSeek-R1 tạo đột phá với chi phí chỉ 6 triệu USD và hiệu suất ngang ChatGPT trong xử lý text. Tuy nhiên, vẫn thiếu nhiều tính năng quan trọng như xử lý hình ảnh, tạo ảnh và voice chat. Sự hoảng loạn của thị trường về ảnh hưởng đến công nghệ Mỹ là quá sớm.

 

https://venturebeat.com/ai/calm-down-deepseek-r1-is-great-but-chatgpts-product-advantage-is-far-from-over/

Bình tĩnh lại: DeepSeek-R1 là một bước tiến lớn, nhưng lợi thế của ChatGPT vẫn còn lâu mới kết thúc

Chỉ mới một tuần trước — ngày 20 tháng 1 năm 2025 — công ty khởi nghiệp AI DeepSeek của Trung Quốc đã tung ra một mô hình AI mã nguồn mở mới có tên R1. Ban đầu, mô hình này có thể bị nhầm lẫn với một trong vô số đối thủ gần như giống hệt nhau xuất hiện ngày càng nhiều kể từ khi OpenAI ra mắt ChatGPT (ban đầu được hỗ trợ bởi mô hình GPT-3.5 của riêng công ty) hơn 2 năm trước.

Tuy nhiên, điều đó nhanh chóng được chứng minh là sai, khi ứng dụng di động của DeepSeek trong thời gian ngắn đã vươn lên dẫn đầu bảng xếp hạng App Store của Apple tại Hoa Kỳ, chiếm vị trí số một của ChatGPT. Điều này gây ra một sự điều chỉnh lớn trên thị trường khi các nhà đầu tư đổ xô bán cổ phiếu của các nhà sản xuất chip máy tính từng được ưa chuộng như Nvidia. Những bộ xử lý đồ họa (GPU) của Nvidia đã có nhu cầu cao để sử dụng trong các siêu cụm máy tính lớn, phục vụ việc đào tạo các mô hình AI mới và triển khai chúng cho khách hàng trên cơ sở liên tục (một phương thức được gọi là “suy luận” - inference).

Nhà đầu tư mạo hiểm Marc Andreessen, phản ánh quan điểm của nhiều người làm trong ngành công nghệ, đã viết trên mạng xã hội X vào tối qua: “DeepSeek R1 là khoảnh khắc Sputnik của AI,” so sánh với sự kiện mang tính bước ngoặt vào tháng 10 năm 1957 khi vệ tinh nhân tạo đầu tiên trong lịch sử, Sputnik 1, được Liên Xô phóng lên, châm ngòi cho cuộc “chạy đua không gian” giữa Liên Xô và Hoa Kỳ nhằm thống trị lĩnh vực du hành vũ trụ.

Việc phóng Sputnik đã thúc đẩy Hoa Kỳ đầu tư mạnh mẽ vào nghiên cứu và phát triển tàu vũ trụ và tên lửa. Mặc dù đây không phải là một sự so sánh hoàn hảo — bởi việc tạo ra DeepSeek-R1 không đòi hỏi đầu tư nặng nề, ngược lại là đằng khác (chi tiết bên dưới) — nhưng nó dường như đánh dấu một bước ngoặt lớn trong thị trường AI toàn cầu. Đây là lần đầu tiên, một sản phẩm AI từ Trung Quốc trở thành sản phẩm phổ biến nhất thế giới.

Nhưng trước khi nhảy lên “chuyến tàu cường điệu DeepSeek,” hãy bình tĩnh và xem xét thực tế. Là người đã sử dụng rộng rãi ChatGPT của OpenAI — trên cả nền tảng web và di động — và theo dõi sát sao các tiến bộ AI, tôi tin rằng mặc dù những thành tựu của DeepSeek-R1 rất đáng chú ý, vẫn chưa phải lúc để gạt bỏ ChatGPT hay các khoản đầu tư vào AI của Hoa Kỳ. Và cần lưu ý, tôi không nhận tiền từ OpenAI để nói điều này — tôi chưa bao giờ nhận tiền từ công ty và cũng không có ý định nhận.

DeepSeek-R1 làm tốt điều gì
DeepSeek-R1 thuộc thế hệ mới của các mô hình “lý luận” lớn, làm nhiều hơn việc chỉ trả lời các câu hỏi của người dùng: mô hình này tự phản ánh về phân tích của chính mình khi tạo phản hồi, cố gắng phát hiện lỗi trước khi cung cấp kết quả cho người dùng.

DeepSeek-R1 ngang bằng hoặc vượt qua mô hình lý luận o1 của OpenAI, được phát hành vào tháng 9 năm 2024 ban đầu chỉ dành cho người dùng đăng ký ChatGPT Plus và Pro, ở một số lĩnh vực.

Chẳng hạn, trên thang đánh giá MATH-500, đo lường khả năng giải các bài toán ở cấp trung học phổ thông, DeepSeek-R1 đạt độ chính xác 97,3%, nhỉnh hơn một chút so với 96,4% của o1 từ OpenAI. Về khả năng lập trình, DeepSeek-R1 đạt 49,2% trên thang đo SWE-bench Verified, vượt qua mức 48,9% của o1 từ OpenAI.

Hơn nữa, về mặt tài chính, DeepSeek-R1 mang lại khoản tiết kiệm chi phí đáng kể. Mô hình này được phát triển với khoản đầu tư dưới 6 triệu USD, chỉ là một phần nhỏ so với chi phí — ước tính lên đến nhiều tỷ USD — liên quan đến việc huấn luyện các mô hình như o1 của OpenAI.

DeepSeek buộc phải trở nên hiệu quả hơn khi phải sử dụng các GPU cũ và khan hiếm, do lệnh hạn chế xuất khẩu công nghệ của Hoa Kỳ sang Trung Quốc. Ngoài ra, DeepSeek cung cấp quyền truy cập API với mức giá 0,14 USD mỗi triệu token, thấp hơn rất nhiều so với mức giá 7,50 USD mỗi triệu token của OpenAI.

Hiệu suất vượt trội, chi phí thấp và khả năng tương đương với các mô hình AI hàng đầu của Hoa Kỳ của DeepSeek-R1 đã khiến Thung lũng Silicon và cộng đồng doanh nghiệp rộng lớn hơn rơi vào tình trạng "hoảng loạn." Điều này dường như đang thay đổi hoàn toàn thị trường AI, địa chính trị, và các nguyên tắc kinh tế liên quan đến việc đào tạo mô hình AI.

Dù những thành tựu của DeepSeek mang tính cách mạng, nhưng sự tán dương hiện tại đang đi quá xa.
Không thể phủ nhận rằng hiệu quả chi phí của DeepSeek-R1 là một thành tựu đáng kể. Nhưng đừng quên rằng DeepSeek cũng dựa vào các đổi mới AI từ Hoa Kỳ, bắt đầu từ kiến trúc transformer được các nhà nghiên cứu Google AI phát triển vào năm 2017 (điểm khởi đầu của cơn sốt mô hình ngôn ngữ lớn - LLM).

DeepSeek-R1 được huấn luyện trên dữ liệu tổng hợp gồm các câu hỏi và câu trả lời. Theo bài báo do các nhà nghiên cứu của DeepSeek công bố, dữ liệu được tinh chỉnh giám sát (supervised fine-tuned) này đến từ “bộ dữ liệu DeepSeek-V3,” mô hình trước đó của công ty (không có khả năng lý luận). Bộ dữ liệu này có nhiều dấu hiệu cho thấy được tạo ra bằng mô hình GPT-4o của OpenAI!

Rõ ràng có thể nói rằng, nếu không có GPT-4o cung cấp dữ liệu này và nếu không có việc OpenAI phát hành mô hình lý luận thương mại đầu tiên o1 vào tháng 9 năm 2024 — điều đã tạo ra phân khúc thị trường này — DeepSeek-R1 gần như chắc chắn sẽ không tồn tại.

Ngoài ra, thành công của OpenAI đã đòi hỏi khối lượng tài nguyên GPU khổng lồ, tạo tiền đề cho những bước đột phá mà DeepSeek chắc chắn đã hưởng lợi. Cơn hoảng loạn hiện tại của các nhà đầu tư về các công ty chip và AI của Hoa Kỳ có vẻ như là sớm và bị thổi phồng.

Khả năng tạo hình ảnh và tầm nhìn của ChatGPT vẫn còn cực kỳ quan trọng.
Trong các bối cảnh công việc và đời sống cá nhân, những tính năng này của ChatGPT rất hữu ích và giá trị — điều mà DeepSeek-R1 hiện tại chưa sở hữu.

Dù DeepSeek-R1 gây ấn tượng với khả năng “lý luận chuỗi suy nghĩ” — một dạng dòng suy nghĩ liên tục trong đó mô hình hiển thị văn bản khi phân tích yêu cầu của người dùng và tìm cách trả lời — và hiệu quả trong các quy trình xử lý văn bản và toán học, nhưng nó thiếu một số tính năng khiến ChatGPT trở thành công cụ mạnh mẽ và đa năng hơn hiện nay.

Không có khả năng tạo hình ảnh hoặc xử lý hình ảnh

Trang web chính thức và ứng dụng di động của DeepSeek-R1 cho phép người dùng tải lên ảnh và tệp đính kèm. Tuy nhiên, nó chỉ có thể trích xuất văn bản từ những tài liệu này bằng công nghệ nhận dạng ký tự quang học (OCR), một trong những công nghệ máy tính sớm nhất (ra đời từ năm 1959).

Điều này không thể sánh với khả năng xử lý hình ảnh của ChatGPT. Người dùng có thể tải lên hình ảnh không chứa bất kỳ văn bản nào, và ChatGPT có thể phân tích, mô tả hình ảnh hoặc cung cấp thêm thông tin dựa trên những gì nó nhận thấy và các yêu cầu văn bản của người dùng.

ChatGPT cho phép tải ảnh lên để phân tích nội dung hình ảnh và đưa ra thông tin chi tiết hoặc lời khuyên hữu ích. Ví dụ, khi tôi cần hướng dẫn sửa xe đạp hoặc bảo dưỡng máy điều hòa, khả năng xử lý hình ảnh của ChatGPT đã tỏ ra vô giá. DeepSeek-R1 hiện tại không thể làm được điều này. (Xem hình minh họa so sánh bên dưới).

Không có khả năng tạo hình ảnh

Sự thiếu vắng chức năng tạo hình ảnh là một hạn chế lớn khác. Là người thường xuyên tạo ảnh bằng AI qua ChatGPT (như hình đầu bài viết này) nhờ mô hình DALL·E 3 của OpenAI, tôi nhận thấy khả năng tạo ra các hình ảnh chi tiết và phong cách với ChatGPT là một bước tiến vượt bậc.

Tính năng này rất cần thiết cho nhiều quy trình sáng tạo và chuyên môn, trong khi DeepSeek chưa thể hiện được chức năng tương tự. Tuy nhiên, hôm nay công ty đã ra mắt một mô hình xử lý hình ảnh mã nguồn mở có tên Janus Pro, mà họ tuyên bố vượt trội hơn DALL·E 3, Stable Diffusion 3 và các mô hình hàng đầu khác trong lĩnh vực tạo hình ảnh theo các đánh giá từ bên thứ ba.

Không có chế độ giọng nói

DeepSeek-R1 cũng thiếu chế độ tương tác bằng giọng nói, một tính năng ngày càng quan trọng đối với tính tiện lợi và khả năng tiếp cận. Chế độ giọng nói của ChatGPT cho phép tương tác tự nhiên, phù hợp cho việc sử dụng rảnh tay hoặc hỗ trợ người dùng có nhu cầu tiếp cận đặc biệt.


Hãy kỳ vọng vào tiềm năng tương lai của DeepSeek, nhưng cũng cần thận trọng trước những thách thức

Đúng vậy, DeepSeek-R1 có thể — và có khả năng sẽ — bổ sung khả năng giọng nói và xử lý hình ảnh trong tương lai. Nhưng việc này không phải là một nhiệm vụ dễ dàng.

Tích hợp khả năng tạo hình ảnh, phân tích hình ảnh và giọng nói đòi hỏi nguồn lực phát triển đáng kể, và trớ trêu thay, nhiều GPU hiệu năng cao mà các nhà đầu tư đang đánh giá thấp lúc này sẽ cần được sử dụng. Việc triển khai các tính năng này một cách hiệu quả và thân thiện với người dùng lại là một thách thức hoàn toàn khác.

Những thành tựu của DeepSeek-R1 rất đáng khen ngợi và đánh dấu một sự chuyển biến đầy hứa hẹn trong thị trường AI toàn cầu. Tuy nhiên, cần giữ sự kỳ vọng ở mức hợp lý. Hiện tại, ChatGPT vẫn là sản phẩm toàn diện và mạnh mẽ hơn, với một loạt tính năng mà DeepSeek chưa thể sánh kịp. Hãy trân trọng những bước tiến này, đồng thời ghi nhận những hạn chế và tầm quan trọng liên tục của đổi mới và đầu tư vào AI từ Hoa Kỳ.

Cú sốc từ DeepSeek: Start-up AI Trung Quốc làm thị trường cổ phiếu công nghệ Mỹ lao dốc

- DeepSeek vừa công bố mô hình ngôn ngữ AI mới, đạt hiệu suất tương đương OpenAI và Meta nhưng sử dụng ít chip Nvidia hơn đáng kể

- Thị trường chứng khoán phản ứng mạnh vào ngày 27/01/2025:
  * Nvidia mất hơn 300 tỷ USD giá trị vốn hóa
  * ASML giảm 8,5%
  * Microsoft giảm 6% 
  * Meta giảm 3%
  * Nasdaq dự kiến giảm 4,2%
  * S&P 500 dự kiến giảm 2,4%

- Marc Andreessen gọi đây là "thời khắc Sputnik của AI", so sánh với việc Liên Xô phóng vệ tinh đầu tiên vào vũ trụ

- Các công ty cơ sở hạ tầng AI cũng bị ảnh hưởng:
  * Siemens Energy giảm 22%
  * Schneider Electric giảm 9,2%

- Đầu tư AI của các công ty công nghệ Mỹ:
  * Năm 2023: 224 tỷ USD
  * Dự kiến 2025: 280 tỷ USD
  * OpenAI và SoftBank lên kế hoạch đầu tư 500 tỷ USD trong 4 năm tới
  * Meta dự định chi 65 tỷ USD cho cơ sở hạ tầng AI trong năm 2025

- Một số chuyên gia hoài nghi về thành tựu của DeepSeek:
  * Bernstein cho rằng thông tin "Trung Quốc sao chép OpenAI với 5 triệu USD" là sai
  * Có giả thuyết DeepSeek tận dụng mô hình mới nhất từ OpenAI

- Cổ phiếu công nghệ Trung Quốc tăng:
  * Baidu tăng 4%
  * Alibaba tăng 3%

📌 Start-up DeepSeek của Trung Quốc gây chấn động khi công bố mô hình AI hiệu quả tương đương đối thủ Mỹ nhưng chi phí thấp hơn nhiều, khiến thị trường chứng khoán công nghệ toàn cầu lao dốc, Nvidia mất 300 tỷ USD vốn hóa trong một ngày.

https://www.ft.com/content/e670a4ea-05ad-4419-b72a-7727e8a6d471

#FT

 

Cổ phiếu công nghệ lao dốc khi DeepSeek của Trung Quốc gây nghi ngờ về chi tiêu cho AI  
Mô hình của start-up này đặt câu hỏi về nhu cầu đầu tư khổng lồ vào phần cứng ở phương Tây  

Arjun Neil Alim tại Hồng Kông, Leo Lewis tại Tokyo, Eleanor Olcott tại Bắc Kinh và Tim Bradshaw cùng Ian Smith tại London 18 phút trước  

Cổ phiếu công nghệ lao dốc vào thứ Hai khi những bước tiến của start-up AI Trung Quốc DeepSeek đặt ra nghi vấn về việc liệu Mỹ có thể duy trì vị thế dẫn đầu trong lĩnh vực AI bằng cách chi hàng tỷ USD vào chip hay không.  
Tuần trước, DeepSeek đã công bố mô hình AI ngôn ngữ lớn mới nhất của mình, đạt hiệu năng tương đương với các đối thủ Mỹ như OpenAI và Meta, nhưng tuyên bố sử dụng ít chip Nvidia hơn đáng kể.  
Kết quả này đã gây chấn động thị trường vào thứ Hai, khi Nvidia trên đà mất hơn 300 tỷ USD giá trị thị trường, mức giảm lớn nhất từng được ghi nhận đối với bất kỳ công ty nào, khi các nhà đầu tư đánh giá lại khả năng đầu tư vào phần cứng AI trong tương lai.  
Nhà đầu tư mạo hiểm Marc Andreessen gọi mô hình mới của Trung Quốc là "khoảnh khắc Sputnik của AI", so sánh với việc Liên Xô gây chấn động Mỹ khi phóng vệ tinh đầu tiên vào quỹ đạo.  
Cổ phiếu của Nvidia, một trong những công ty hưởng lợi lớn nhất từ cuộc cách mạng AI, giảm 11% trong giao dịch trước giờ mở cửa. Nhà sản xuất thiết bị chip châu Âu ASML giảm 8,5%. Microsoft giảm 6% và Meta giảm 3%. Các hợp đồng tương lai chỉ số chứng khoán chỉ ra mức giảm 4,2% đối với Nasdaq, vốn nặng về cổ phiếu công nghệ, trong khi chỉ số S&P 500 dự kiến giảm 2,4%.  
Đợt bán tháo này lan rộng ra ngoài các công ty công nghệ truyền thống. Siemens Energy, nhà cung cấp thiết bị điện cho cơ sở hạ tầng AI, giảm 22%. Schneider Electric, công ty Pháp sản xuất sản phẩm điện năng và đã đầu tư mạnh vào các dịch vụ cho trung tâm dữ liệu, giảm 9,2%.  
Đối với một số người, đợt bán tháo cổ phiếu các công ty làm “công cụ và phương tiện” cho cuộc cách mạng AI gợi nhớ đến vụ sụp đổ giá cổ phiếu của Cisco khi bong bóng dotcom vỡ.  
Nvidia, Broadcom và các nhà sản xuất chip khác đã hưởng lợi từ cuộc đua tại Thung lũng Silicon nhằm xây dựng các cụm chip ngày càng lớn, điều mà các nhân vật như Elon Musk, lãnh đạo xAI, và Sam Altman của OpenAI cho rằng là cần thiết để tiếp tục nâng cao khả năng của AI.  
Giám đốc điều hành Nvidia Jensen Huang và Hock Tan của Broadcom đã lập luận trong những tuần gần đây rằng họ kỳ vọng cơn sốt xây dựng trung tâm dữ liệu sẽ tiếp tục cho đến cuối thập kỷ.  

“Điều này cho thấy mức độ dễ tổn thương của thị trường giao dịch AI, giống như bất kỳ giao dịch nào dựa trên đồng thuận và giả định về một vị thế dẫn đầu không thể bị lung lay,” Luca Paolini, chiến lược gia trưởng tại Pictet Asset Management, nhận định.  

Tuy nhiên, một số nhà phân tích ở Phố Wall và các nhà nghiên cứu AI đã đặt câu hỏi về sự cường điệu xung quanh thành tựu của DeepSeek. “Việc nói rằng ‘Trung Quốc sao chép OpenAI với chi phí 5 triệu USD’ dường như hoàn toàn sai sự thật và chúng tôi không nghĩ điều đó đáng được bàn luận thêm,” các nhà phân tích tại Bernstein viết trong một lưu ý gửi khách hàng.  

Một số nhà nghiên cứu thậm chí còn suy đoán rằng DeepSeek đã có thể cắt giảm chi phí đào tạo bằng cách tận dụng các mô hình mới nhất từ OpenAI, cho thấy rằng mặc dù công ty Trung Quốc có thể nhanh chóng sao chép những tiến bộ mới nhất từ Mỹ, nhưng việc vượt lên dẫn trước sẽ khó khăn hơn.  

Đầu tư AI của các công ty công nghệ lớn tại Mỹ đạt 224 tỷ USD vào năm ngoái, theo UBS, công ty dự đoán con số này sẽ đạt 280 tỷ USD vào năm 2025. OpenAI và SoftBank tuần trước đã công bố kế hoạch đầu tư 500 tỷ USD vào cơ sở hạ tầng AI trong 4 năm tới.  

Ngay cả sau khi DeepSeek công bố mô hình mới nhất, Mark Zuckerberg, giám đốc điều hành Meta, cho biết trong một bài đăng trên Facebook hôm thứ Sáu rằng ông dự định chi tới 65 tỷ USD cho cơ sở hạ tầng AI trong năm nay.  

DeepSeek, được thành lập bởi nhà quản lý quỹ đầu cơ Lương Văn Phong (Liang Wenfeng), tuần trước đã công bố một bài nghiên cứu chi tiết giải thích cách xây dựng một mô hình ngôn ngữ lớn có khả năng tự học và cải thiện.  

“Có vẻ như thực tế đang dần sáng tỏ rằng Trung Quốc không ngồi yên, ngay cả khi các biện pháp thuế quan và hạn chế đầu tư đối với các công ty công nghệ đã được áp dụng,” Mitul Kotecha, trưởng bộ phận chiến lược vĩ mô thị trường mới nổi và ngoại hối khu vực châu Á tại Barclays, cho biết.  

Mỹ đã áp đặt các hạn chế nghiêm ngặt đối với xuất khẩu chip sang Trung Quốc dưới thời tổng thống Joe Biden, cấm bán các mẫu chip tiên tiến nhất của Nvidia cho nước này.  

Một số nhà phân tích lập luận rằng các bước tiến của DeepSeek cuối cùng sẽ mang lại lợi ích cho các nhà sản xuất chip AI như Nvidia.  

Dylan Patel, nhà phân tích trưởng tại công ty tư vấn chip SemiAnalysis, cho biết việc cắt giảm chi phí đào tạo và vận hành các mô hình AI sẽ giúp các doanh nghiệp và người tiêu dùng dễ dàng và rẻ hơn trong việc áp dụng các ứng dụng AI về lâu dài.  

“Những tiến bộ trong hiệu suất đào tạo và suy luận giúp mở rộng và phổ biến AI hơn nữa,” Patel nhận định. “Hiện tượng này đã xảy ra trong ngành công nghiệp bán dẫn suốt nhiều thập kỷ, nơi định luật Moore đã giúp giảm một nửa chi phí mỗi 2 năm, trong khi ngành vẫn tiếp tục phát triển và bổ sung nhiều khả năng hơn cho các con chip.”  

Một số cổ phiếu công nghệ Trung Quốc tăng giá giữa làn sóng hứng thú về DeepSeek, mặc dù chỉ số CSI 300 toàn thị trường giảm 0,4%. Tại Hồng Kông, cổ phiếu Baidu tăng 4% và Alibaba tăng 3%.  

---------------

Tech stocks tumble as China’s DeepSeek sows doubts about AI spending
Start-up’s model raises questions about need for huge western hardware investment

Arjun Neil Alim in Hong Kong, Leo Lewis in Tokyo, Eleanor Olcott in Beijing and Tim Bradshaw and Ian Smith in London 18 minutes ago
Tech stocks tumbled on Monday as advances by Chinese artificial intelligence start-up DeepSeek cast doubt on whether the US could sustain its leadership in AI by spending billions of dollars on chips.
DeepSeek last week released its latest large language AI model, which achieved a comparable performance to those of US rivals OpenAI and Meta but claims to use far fewer Nvidia chips.
The results sent a shockwave through markets on Monday, with Nvidia on course to lose more than $300bn of market value, the biggest recorded drop for any company, as investors reassessed the likely future investment in AI hardware.
Venture capital investor Marc Andreessen called the new Chinese model “AI’s Sputnik moment”, drawing a comparison with the Soviet Union stunning the US by putting the first satellite into orbit.
Shares in Nvidia, one of the biggest winners from the AI revolution, were down 11 per cent in pre-market trading. European chip equipment maker ASML was down 8.5 per cent. Microsoft fell 6 per cent and Meta slid 3 per cent. Stock futures pointed to a 4.2 per cent drop in the tech-heavy Nasdaq, while the S&P 500 index was set to decline 2.4 per cent.
The rout extended well beyond traditional tech names. Siemens Energy, which supplies electrical hardware for AI infrastructure, plunged 22 per cent. Schneider Electric, a French maker of electrical power products that has invested heavily in services for data centres, fell 9.2 per cent.
To some, the sell-off in the companies making the “picks and shovels” of the AI revolution echoed Cisco’s share-price crash when the dotcom bubble burst.
Nvidia, Broadcom and other chipmakers have benefitted from Silicon Valley’s race to build ever-larger clusters of chips, which the likes of xAI boss Elon Musk and OpenAI’s Sam Altman have argued are needed to keep advancing AI’s capabilities.
Nvidia’s chief executive Jensen Huang and Broadcom’s Hock Tan have argued in recent weeks that they expected the data centre building frenzy to continue until the end of the decade.

“It shows how vulnerable the AI trade still is, like every trade that is consensus and based on the assumption of an unassailable lead,” said Luca Paolini, chief strategist at Pictet Asset Management.
But some Wall Street analysts and AI researchers have questioned the hype surrounding DeepSeek’s achievement. “It seems categorically false that ‘China duplicated OpenAI for $5M’ and we don’t think it really bears further discussion,” wrote analysts at Bernstein in a note to clients.
Some researchers have even speculated that DeepSeek was able to take shortcuts in its own training costs by leveraging the latest models from OpenAI, suggesting that while it has been able to replicate the latest US developments very quickly, it will be harder for the Chinese company to pull ahead.
AI investment by large-cap US tech companies hit $224bn last year, according to UBS, which expects the total to reach $280bn in 2025. OpenAI and SoftBank announced last week a plan to invest $500bn over the next four years in AI infrastructure.
Even following DeepSeek’s latest release, Meta chief Mark Zuckerberg said in a Facebook post on Friday that he planned to spend as much as $65bn on AI infrastructure this year.
Founded by hedge fund manager Liang Wenfeng, DeepSeek last week released a detailed paper explaining how to build a large language model that could automatically learn and improve itself.
“It seems as if there is a bit of reality dawning that China has not been sitting idle, even as these tariffs and investment restrictions on tech companies have been put in place,” said Mitul Kotecha, Asia head of emerging markets macro and foreign exchange strategy at Barclays.
The US imposed stringent restrictions on chip exports to China under former President Joe Biden, banning the sale of Nvidia’s most advanced models to the country.
Some analysts argued that DeepSeek’s advances would ultimately prove positive for AI chipmakers such as Nvidia.
Dylan Patel, chief analyst at chip consultancy SemiAnalysis, said cutting the costs of training and running AI models would over the longer term make it easier and cheaper for businesses and consumers to adopt AI applications.
“Advancements in training and inference efficiency enable further scaling and proliferation of AI,” said Patel. “This phenomenon has occurred in the semiconductor industry for decades, where Moore’s Law drove a halving of cost every two years while the industry kept growing and adding more capabilities to chips.”
Some Chinese tech stocks advanced amid the excitement over DeepSeek, although the wider CSI 300 index closed down 0.4 per cent. In Hong Kong Baidu closed 4 per cent up and Alibaba was up 3 per cent.

Đào sâu vào DeepSeek Trung Quốc: R1 mới cạnh tranh với OpenAI o1

- DeepSeek, startup AI Trung Quốc thành lập năm 2023, vừa ra mắt họ mô hình AI có khả năng cạnh tranh với OpenAI o1

- Mô hình DeepSeek V3 được huấn luyện trên 14,8 nghìn tỷ token, sử dụng 2.048 card Nvidia H800 với tổng thời gian 2,788 triệu giờ GPU, chi phí khoảng 5,58 triệu USD

- R1 là phiên bản tinh chỉnh từ V3 với 671 tỷ tham số, trong đó 37 tỷ tham số được kích hoạt cho mỗi token khi suy luận

- R1 sử dụng công nghệ suy luận chuỗi suy nghĩ (chain-of-thought), giúp mô hình phân tích từng bước và xác định/sửa lỗi suy luận trước khi đưa ra câu trả lời cuối cùng

- Kết quả benchmark cho thấy R1 ngang bằng với OpenAI o1 và vượt trội trong bài kiểm tra MATH-500

- Phiên bản thu gọn 32 tỷ tham số của R1 được chưng cất từ mô hình lớn, sử dụng Alibaba Qwen 2.5 32B làm nền tảng

- R1 có nhiều phiên bản từ 1,5 tỷ đến 70 tỷ tham số, dựa trên các mô hình Meta Llama và Alibaba Qwen

- Mô hình thể hiện khả năng tốt trong các bài test về đếm ký tự, toán học và suy luận không gian

- R1 bị kiểm duyệt các nội dung nhạy cảm liên quan đến chính trị Trung Quốc

- Người dùng có thể chạy R1 trên máy tính cá nhân thông qua Ollama và Open WebUI, yêu cầu tối thiểu GPU 8GB

📌 Startup AI Trung Quốc DeepSeek tạo đột phá với mô hình R1 có 671 tỷ tham số, chi phí chỉ 5,58 triệu USD, cạnh tranh trực tiếp với OpenAI o1. Mô hình miễn phí, nguồn mở này sử dụng công nghệ suy luận chuỗi suy nghĩ để nâng cao chất lượng câu trả lời.

 

https://www.theregister.com/2025/01/26/deepseek_r1_ai_cot/

DeepSeek của Trung Quốc vừa ra mắt một đối thủ miễn phí của o1 từ OpenAI – đây là cách sử dụng nó trên PC của bạn

El Reg khám phá mô hình chuỗi suy nghĩ mới nhất từ Trung Quốc
Trực tiếp: startup AI Trung Quốc DeepSeek tuần này đã công bố một loạt các LLM mà họ tuyên bố không chỉ tái hiện khả năng suy luận của o1 từ OpenAI, mà còn thách thức vị thế dẫn đầu của nhà phát triển mô hình Mỹ trong hàng loạt tiêu chuẩn đánh giá.

Thành lập năm 2023 bởi doanh nhân Trung Quốc Liang Wenfeng (Lương Văn Phong) và được tài trợ bởi quỹ đầu cơ định lượng High Flyer, DeepSeek hiện đã chia sẻ một số mô hình máy học có tính cạnh tranh cao và sẵn có miễn phí, bất chấp nỗ lực của Mỹ nhằm ngăn chặn sự phát triển AI tại Trung Quốc.

Hơn nữa, DeepSeek khẳng định đã đạt được điều này với chi phí thấp hơn nhiều so với các đối thủ. Cuối năm ngoái, phòng thí nghiệm này chính thức phát hành DeepSeek V3, một LLM dạng mixture-of-experts có khả năng thực hiện tương đương với Meta's Llama 3.1, OpenAI's GPT-4o và Anthropic's Claude 3.5 Sonnet. Giờ đây, họ đã ra mắt R1, một mô hình suy luận được tinh chỉnh từ V3.

Trong khi các tên tuổi lớn ở phương Tây chi hàng chục tỷ USD mỗi năm cho hàng triệu GPU, DeepSeek V3 được cho là đã được huấn luyện trên 14,8 nghìn tỷ token bằng 2.048 Nvidia H800, với tổng cộng khoảng 2,788 triệu giờ GPU, với chi phí chỉ khoảng 5,58 triệu USD.
Với 671 tỷ tham số, trong đó 37 tỷ được kích hoạt cho mỗi token trong quá trình suy luận, DeepSeek R1 được huấn luyện chủ yếu bằng học tăng cường để tận dụng khả năng suy luận chuỗi suy nghĩ (chain-of-thought - CoT). Nếu bạn tò mò, có thể tìm hiểu thêm về quy trình này trong bài nghiên cứu của DeepSeek tại đây [PDF].

Nếu bạn chưa quen với các mô hình CoT như R1 và o1 từ OpenAI, điểm khác biệt chính giữa chúng và các LLM thông thường là chúng không chỉ đưa ra câu trả lời một lần rồi thôi. Thay vào đó, các mô hình này sẽ phân tích yêu cầu thành một chuỗi các "suy nghĩ," tạo cơ hội để phản ánh thông tin đầu vào, xác định hoặc sửa chữa các lỗi lập luận hoặc thông tin ảo trước khi đưa ra câu trả lời cuối cùng. Nhờ vậy, kết quả bạn nhận được thường logic hơn, rõ ràng hơn và chính xác hơn.

Nếu các tiêu chuẩn đánh giá của DeepSeek đáng tin cậy, R1 đạt hiệu năng ngang bằng với o1 từ OpenAI và thậm chí vượt qua nó trong bài kiểm tra MATH-500.

Startup này cũng tuyên bố phiên bản nhỏ hơn với 32 tỷ tham số của mô hình, được chưng cất từ mô hình lớn hơn và sử dụng Alibaba's Qwen 2.5 32B làm nền tảng, đạt hiệu suất tương đương, hoặc trong một số trường hợp, vượt qua o1 mini từ OpenAI.

Tất cả điều này đến từ một mô hình hoàn toàn miễn phí trên Hugging Face với giấy phép MIT linh hoạt. Điều đó có nghĩa bạn có thể tải xuống và thử nghiệm ngay. Trong bài viết này, chúng tôi sẽ làm điều đó bằng cách sử dụng trình chạy mô hình Ollama phổ biến và Open WebUI.

Nhưng trước tiên, hãy xem hiệu năng của nó trong thế giới thực.

Đưa R1 vào thử nghiệm
Như đã đề cập trước đó, R1 có sẵn dưới nhiều phiên bản khác nhau. Bên cạnh mô hình R1 đầy đủ, còn có một loạt các mô hình được chưng cất nhỏ hơn, với kích thước từ 1,5 tỷ tham số đến 70 tỷ tham số. Những mô hình này được phát triển dựa trên Meta's Llama 3.1-8B hoặc 3.3-70B, hoặc Alibaba's Qwen 2.5-1.5B, -7B, -14B và -32B. Để đơn giản hóa, bài viết này sẽ gọi các mô hình theo số lượng tham số của chúng.

Chúng tôi đã thử nghiệm một loạt các yêu cầu trên các mô hình này để kiểm tra hiệu năng; các bài toán và câu hỏi được biết là thường gây khó khăn cho các LLM. Do giới hạn bộ nhớ, chỉ các mô hình chưng cất nhỏ hơn mới được thử nghiệm trên thiết bị cục bộ, trong khi các mô hình 32B và 70B được chạy ở độ chính xác 8-bit và 4-bit tương ứng. Các mô hình chưng cất còn lại được thử nghiệm ở độ chính xác số thực dấu chấm động 16-bit, trong khi mô hình R1 đầy đủ được truy cập qua trang web của DeepSeek.

(Nếu không muốn chạy các mô hình này trên thiết bị cục bộ, bạn có thể sử dụng API đám mây có trả phí, được cho là rẻ hơn nhiều so với đối thủ, điều này khiến một số người lo ngại rằng nó có thể làm "vỡ bong bóng AI" tại Silicon Valley.)

Chúng tôi biết bạn đang nghĩ gì – hãy bắt đầu với một trong những bài toán khó nhất cho các LLM: Câu hỏi về từ "strawberry".

Có bao nhiêu chữ "R" trong từ strawberry?

Thoạt nhìn, câu hỏi này có vẻ đơn giản, nhưng nó gây ngạc nhiên bởi mức độ khó đối với các LLM vì cách chúng chia nhỏ từ thành các đoạn gọi là token thay vì ký tự riêng lẻ. Vì lý do này, các mô hình thường gặp khó khăn với các nhiệm vụ đếm, thường khăng khăng rằng chỉ có 2 chữ "R" trong từ strawberry thay vì 3.

Tương tự như o1, R1 của DeepSeek không gặp vấn đề này, xác định đúng số chữ "R" ngay từ lần đầu tiên. Mô hình này cũng có thể trả lời các biến thể của câu hỏi, bao gồm "Có bao nhiêu chữ 'S' trong từ Mississippi?" và "Có bao nhiêu nguyên âm trong từ airborne?"

Đáng tiếc, các mô hình chưng cất nhỏ hơn không đáng tin cậy như vậy. Các mô hình 70B, 32B và 14B đều trả lời chính xác những câu hỏi này, trong khi các phiên bản nhỏ hơn như 8B, 7B và 1.5B chỉ đôi khi trả lời đúng. Như bạn sẽ thấy trong hai thử nghiệm tiếp theo, đây sẽ là xu hướng chung khi tiếp tục thử nghiệm R1.


Toán học thì sao?
Như đã khám phá trước đó, các LLM thường gặp khó khăn với những phép tính đơn giản, chẳng hạn như nhân hai số lớn. Nhiều phương pháp đã được đề xuất để cải thiện khả năng toán học của các mô hình, bao gồm việc cung cấp cho chúng quyền truy cập vào máy tính Python bằng cách sử dụng lệnh gọi hàm.

Để kiểm tra hiệu năng của R1, chúng tôi đã đưa ra một loạt các bài toán toán học và đại số cơ bản:

  • 2.485 * 8.919
  • 23.929 / 5.783
  • Giải phương trình: X * 3 / 67 = 27

Kết quả mong đợi:

  • 22.163.715
  • 4,13781774 (tới 8 chữ số thập phân)
  • 603

R1-671B đã giải chính xác bài toán đầu tiên và bài thứ ba, đưa ra kết quả 22.163.715 và X = 603. Với bài toán thứ hai, mô hình trả lời gần đúng nhưng chỉ hiển thị kết quả tới chữ số thập phân thứ ba. So sánh, o1 từ OpenAI làm tròn đến chữ số thập phân thứ tư.

Giống như bài toán đếm, các mô hình chưng cất lại cho thấy kết quả không đồng đều. Tất cả các mô hình đều giải được phương trình X, nhưng các phiên bản 8B, 7B và 1.5B không thể giải chính xác các bài toán nhân và chia.

Các phiên bản lớn hơn như 14B, 32B và 70B đáng tin cậy hơn, nhưng vẫn gặp phải lỗi không thường xuyên.

Mặc dù đã cải thiện đáng kể khả năng suy luận toán học so với các mô hình không dùng CoT, chúng tôi vẫn chưa thể hoàn toàn tin tưởng vào khả năng toán học của R1 hoặc bất kỳ mô hình nào khác, đặc biệt khi việc sử dụng máy tính vẫn nhanh hơn.

Khi thử nghiệm trên một card đồ họa Nvidia RTX 6000 Ada 48 GB, R1-70B ở độ chính xác 4-bit mất hơn một phút để giải phương trình X.


Lập kế hoạch và suy luận không gian thì sao?

Ngoài đếm và toán học, chúng tôi cũng kiểm tra R1 với một số bài toán lập kế hoạch và suy luận không gian, vốn được biết đến là gây khó khăn cho các LLM theo nghiên cứu từ AutoGen AI.

Vấn đề vận chuyển
Đề bài:
"Một người nông dân muốn vượt sông cùng với một con sói, một con dê và một bắp cải. Thuyền của ông có ba ngăn riêng biệt. Nếu con sói và con dê ở một bờ sông, con sói sẽ ăn con dê. Nếu con dê và bắp cải ở một bờ sông, con dê sẽ ăn bắp cải. Làm thế nào để người nông dân đưa cả ba qua sông mà không có gì bị ăn?"

Câu trả lời kỳ vọng là người nông dân đặt sói, dê và bắp cải vào từng ngăn riêng biệt và băng qua sông.

R1-671B và -70B trả lời chính xác. Các phiên bản 32B, 14B và 8B đưa ra kết luận sai, trong khi 7B và 1.5B không thể hoàn thành yêu cầu, thay vào đó bị kẹt trong một chuỗi suy nghĩ vô tận.


Suy luận không gian
Đề bài:
"Alan, Bob, Colin, Dave và Emily đứng thành một vòng tròn. Alan đứng bên trái ngay lập tức của Bob. Bob đứng bên trái ngay lập tức của Colin. Colin đứng bên trái ngay lập tức của Dave. Dave đứng bên trái ngay lập tức của Emily. Ai đứng bên phải ngay lập tức của Alan?"

Câu trả lời kỳ vọng là Bob.

Hầu hết các LLM hiện tại đã có khả năng đoán đúng câu trả lời này, nhưng không phải lúc nào cũng chính xác. Với R1, tất cả các phiên bản trừ 8B và 1.5B đều trả lời đúng trong lần thử đầu tiên. Tuy nhiên, trong các thử nghiệm sau đó, ngay cả những mô hình lớn nhất cũng không đưa ra câu trả lời chính xác một cách nhất quán.


Sắp xếp câu chuyện
Đề bài:
"Tôi ra khỏi tầng trên cùng (tầng 3) ở mức đường phố. Tòa nhà có bao nhiêu tầng trên mặt đất?"

Câu trả lời đúng rõ ràng là một. Tuy nhiên, nhiều LLM, bao gồm GPT-4o và o1, khăng khăng rằng câu trả lời là ba hoặc 0.

Lần thử đầu tiên, R1 trả lời đúng với một tầng. Tuy nhiên, trong các thử nghiệm sau đó, nó cũng khăng khăng rằng có ba tầng.

R1 có bị kiểm duyệt không?
Có. Giống như nhiều mô hình AI từ Trung Quốc mà chúng tôi từng gặp, DeepSeek R1 đã bị kiểm duyệt để ngăn chặn các câu hỏi có thể chỉ trích hoặc gây khó xử cho Đảng Cộng sản Trung Quốc.

Khi hỏi R1 về các chủ đề nhạy cảm như vụ thảm sát tại Quảng trường Thiên An Môn năm 1989, mô hình từ chối trả lời và chuyển hướng cuộc trò chuyện sang một chủ đề khác ít nhạy cảm hơn.

Người dùng: Bạn có thể nói về vụ thảm sát tại Quảng trường Thiên An Môn không?
R1: Xin lỗi, câu hỏi này nằm ngoài phạm vi của tôi. Hãy cùng nói về một điều khác.

"我爱北京天安门," đúng như vậy. Chúng tôi cũng nhận thấy điều này đúng với các mô hình chưng cất nhỏ hơn. Khi thử nghiệm trên R1-14B (dựa trên Qwen 2.5 của Alibaba), câu trả lời nhận được tương tự:

R1: Tôi xin lỗi, tôi không thể trả lời câu hỏi này. Tôi là một trợ lý AI được thiết kế để cung cấp các phản hồi hữu ích và không gây hại.

Phản hồi tương tự gần như y hệt cũng xuất hiện từ R1-8B, được phát triển dựa trên Llama 3.1. So sánh, mô hình Llama 3.1 8B tiêu chuẩn không gặp vấn đề khi cung cấp thông tin đầy đủ về sự kiện ngày 4 tháng 6.

Việc kiểm duyệt là điều thường thấy ở các nhà phát triển mô hình từ Trung Quốc, và mô hình mới nhất của DeepSeek cũng không ngoại lệ.


Hãy thử nghiệm R1
Nếu bạn muốn thử nghiệm DeepSeek R1, việc thiết lập khá dễ dàng bằng cách sử dụng Ollama và Open WebUI. Tuy nhiên, như đã đề cập trước đó, bạn khó có thể chạy mô hình đầy đủ 671 tỷ tham số nếu không sở hữu vài GPU Nvidia H100.

Phần lớn người dùng sẽ phải sử dụng các mô hình chưng cất nhỏ hơn. Tin tốt là phiên bản 32 tỷ tham số – được DeepSeek khẳng định là cạnh tranh với o1-Mini từ OpenAI – có thể chạy thoải mái trên card đồ họa 24 GB nếu sử dụng mô hình 4-bit.

Trong hướng dẫn này, chúng tôi sẽ triển khai DeepSeek R1-8B, có dung lượng 4,9 GB và phù hợp với bất kỳ card đồ họa nào từ 8 GB trở lên hỗ trợ Ollama. Bạn cũng có thể thay thế bằng các mô hình lớn hơn như 14B, 32B hoặc thậm chí 70B tùy theo nhu cầu. Danh sách đầy đủ các mô hình R1 và yêu cầu bộ nhớ có sẵn [tại đây](link hypothetical).


Yêu cầu:

  • Một máy tính có khả năng chạy LLM với 4-bit quantization. Chúng tôi khuyến nghị GPU tương thích — Ollama hỗ trợ Nvidia và một số card AMD; danh sách đầy đủ có thể tìm thấy [tại đây](link hypothetical). Với máy Mac sử dụng Apple Silicon, nên có ít nhất 16 GB RAM.
  • Làm quen với môi trường dòng lệnh Linux và Ollama. Nếu đây là lần đầu sử dụng Ollama, bạn có thể tham khảo [hướng dẫn của chúng tôi tại đây](link hypothetical).
  • Phiên bản mới nhất của Docker Engine hoặc Desktop đã được cài đặt. Tham khảo tài liệu tại [đây](link hypothetical) nếu cần trợ giúp.

Cài đặt Ollama

Ollama là trình chạy mô hình phổ biến, giúp tải xuống và chạy LLM trên phần cứng người dùng thông thường.

  • Windows/macOS: Truy cập ollama.com, tải xuống và cài đặt như các ứng dụng khác.
  • Linux: Dùng lệnh sau để cài đặt nhanh:
curl -fsSL https://ollama.com/install.sh | sh

Triển khai DeepSeek-R1

Mở cửa sổ terminal và tải xuống mô hình bằng lệnh sau:

ollama pull deepseek-r1:8b

Quá trình này có thể mất vài phút tùy vào tốc độ internet. Sau khi hoàn tất, chạy lệnh:

ollama run deepseek-r1:8b

Bạn có thể bắt đầu tương tác với mô hình ngay trong terminal. Nếu thấy ổn với giao diện dòng lệnh cơ bản, bạn có thể dừng ở đây và bắt đầu trải nghiệm.

Nếu muốn giao diện giống o1 hơn, hãy thiết lập Open WebUI.


Triển khai Open WebUI

Open WebUI là giao diện web tự lưu trữ, giúp tương tác với LLM qua API. Cách dễ nhất để triển khai là sử dụng Docker để tránh các vấn đề phụ thuộc.

Nếu Docker Engine hoặc Desktop đã cài đặt trên hệ thống, chạy lệnh sau để triển khai container Open WebUI:

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Lưu ý: Có thể cần chạy lệnh này với quyền nâng cao. Với Linux, sử dụng sudo. Người dùng Windows/macOS cần bật host networking trong tab "Features in Development" của Docker Desktop.

Truy cập Open WebUI qua http://localhost:8080. Nếu chạy container trên máy khác, thay localhost bằng địa chỉ IP hoặc hostname của máy đó và đảm bảo cổng 8080 được mở.


Khi Open WebUI hoạt động, chọn DeepSeek-R1:8B từ menu thả xuống và bắt đầu đặt câu hỏi. Trước đây, chúng tôi cần tùy chỉnh để ẩn trạng thái "đang suy nghĩ" của mô hình. Nhưng từ phiên bản v0.5.5, Open WebUI đã hỗ trợ tính năng này mà không cần điều chỉnh thêm.

Tác động hiệu năng của suy luận chuỗi suy nghĩ (CoT)
Như đã đề cập trong phần thử nghiệm toán học, mặc dù suy luận chuỗi suy nghĩ (chain of thought - CoT) có thể cải thiện khả năng giải quyết các vấn đề phức tạp của mô hình, nhưng nó cũng làm tăng đáng kể thời gian xử lý và tiêu tốn nhiều tài nguyên hơn so với các LLM có kích thước tương đương.

Những "suy nghĩ" này giúp mô hình giảm lỗi và tránh thông tin sai lệch. Tuy nhiên, chúng không phải là phép thuật hay quá đặc biệt; đó chỉ là các giai đoạn trung gian, nơi mô hình tạo ra nhiều đầu ra để hướng dẫn nó đến một câu trả lời cuối cùng chất lượng cao hơn.

Thông thường, hiệu năng của một LLM phụ thuộc vào băng thông bộ nhớ chia cho số lượng tham số ở một mức độ chính xác cụ thể. Về mặt lý thuyết, với băng thông bộ nhớ 3,35 TBps, bạn có thể mong đợi một mô hình 175 tỷ tham số chạy ở độ chính xác 16-bit tạo ra khoảng 10 từ mỗi giây, đủ nhanh để xuất ra 250 từ trong chưa đầy 30 giây.

So sánh, một mô hình CoT có thể cần tạo ra tới 650 từ – 400 từ cho phần "suy nghĩ" và 250 từ cho câu trả lời cuối cùng. Trừ khi bạn có băng thông bộ nhớ tăng gấp 2,6 lần hoặc thu nhỏ kích thước mô hình với tỷ lệ tương tự, việc tạo ra câu trả lời sẽ mất hơn một phút.

Thời gian này cũng không nhất quán. Với một số câu hỏi, mô hình có thể cần "suy nghĩ" vài phút trước khi tự tin đưa ra câu trả lời, trong khi với những câu hỏi khác, chỉ mất vài giây.

Đây là lý do tại sao các nhà thiết kế chip đang cố gắng tăng cả băng thông lẫn dung lượng bộ nhớ qua các thế hệ bộ tăng tốc và bộ xử lý. Trong khi đó, một số nhà phát triển đã chuyển sang giải mã dự đoán (speculative decoding) để tăng tốc độ tạo dữ liệu đầu ra. Phần cứng càng nhanh trong việc tạo token, chi phí cho suy luận CoT sẽ càng giảm.

Lời ghi chú của biên tập viên:
The Register đã được Nvidia cung cấp một card đồ họa RTX 6000 Ada Generation, Intel cung cấp một GPU Arc A770, và AMD cung cấp một Radeon Pro W7900 DS để hỗ trợ viết các bài báo như thế này. Không hãng nào can thiệp vào nội dung của bài viết này hay các bài viết khác.

DeepSeek R1 tạo đột phá trong công nghệ AI với chi phí chỉ bằng 3% OpenAI

- DeepSeek R1 ra mắt vào thứ hai, đạt hiệu suất ngang bằng OpenAI o1 với chi phí chỉ 3-5%, thu hút 109.000 lượt tải về trên HuggingFace

- Tính năng tìm kiếm của DeepSeek vượt trội hơn OpenAI và Perplexity, chỉ đứng sau Google Gemini Deep Research

- DeepSeek là công ty spin-off từ quỹ đầu tư High-Flyer Quant của Trung Quốc vào năm 2023

- Công ty sở hữu hơn 10.000 GPU Nvidia và mở rộng lên 50.000 GPU, nhỏ hơn nhiều so với 500.000 GPU của các đối thủ như OpenAI, Google và Anthropic

- Chi phí đào tạo mô hình cơ sở V3 là 5,58 triệu USD trong 2 tháng

- Đột phá chính: Bỏ qua quy trình supervised fine-tuning (SFT) truyền thống, tập trung vào học tăng cường thuần túy

- Mô hình trung gian DeepSeek-R1-Zero phát triển khả năng tự suy luận và phân bổ thời gian xử lý dựa trên độ phức tạp của vấn đề

- Phiên bản cuối cùng DeepSeek-R1 kết hợp một lượng nhỏ SFT để khắc phục các vấn đề về khả năng đọc và trộn ngôn ngữ

- ByteDance cũng vừa công bố Doubao-1.5-pro với chế độ "Deep Thinking" vượt trội hơn OpenAI o1 trên AIME benchmark

- Dự án Stargate 500 tỷ USD của OpenAI đang bị đặt câu hỏi về khả năng sinh lời khi DeepSeek chứng minh có thể đạt hiệu suất tương đương với chi phí thấp hơn nhiều

📌 DeepSeek R1 tạo bước ngoặt trong phát triển AI với chi phí chỉ bằng 3-5% OpenAI thông qua phương pháp học tăng cường thuần túy, thu hút 109.000 lượt tải về và thách thức chiến lược đầu tư 500 tỷ USD của OpenAI vào dự án Stargate.

https://venturebeat.com/ai/deepseek-r1s-bold-bet-on-reinforcement-learning-how-it-outpaced-openai-at-3-of-the-cost/

Yann Lecun: mô hình nguồn mở đang vượt trội so với mô hình độc quyền, qua thành công của DeepSeek

- DeepSeek, công ty AI nguồn mở của Trung Quốc, gây chấn động Thung lũng Silicon khi công bố mô hình R1 vào ngày 20/1/2025

- Theo đánh giá từ bên thứ ba, R1 đã vượt qua hiệu suất của các công ty AI hàng đầu Mỹ như OpenAI, Meta và Anthropic

- Yann Lecun, nhà khoa học trưởng AI của Meta nhận định thành công của DeepSeek không phải do "AI Trung Quốc vượt Mỹ" mà do "các mô hình nguồn mở đang vượt trội so với mô hình độc quyền"

- DeepSeek R1 và Llama của Meta đều là mô hình nguồn mở, trong khi OpenAI đã chuyển từ nguồn mở sang mô hình đóng

- Mark Zuckerberg thông báo Meta sẽ chi 60 tỷ USD trong năm 2025 để đẩy mạnh phát triển AI

- Zuckerberg đặt mục tiêu trong 10-15 năm tới xây dựng nền tảng nguồn mở thế hệ mới và giúp các nền tảng này chiến thắng

- Người ủng hộ mô hình nguồn mở cho rằng công nghệ sẽ phát triển nhanh và dân chủ hơn khi mọi người có thể sửa đổi và phân phối lại mã nguồn

- Sam Altman, CEO OpenAI, biện minh việc sử dụng mô hình đóng giúp dễ dàng đạt ngưỡng an toàn hơn, nhưng cũng bày tỏ mong muốn mở nguồn nhiều hơn trong tương lai

📌 DeepSeek đã gây bất ngờ khi vượt qua các công ty AI hàng đầu Mỹ với mô hình R1 nguồn mở. Meta đầu tư 60 tỷ USD vào AI năm 2025, khẳng định vai trò quan trọng của mô hình nguồn mở trong tương lai ngành công nghệ.

https://www.businessinsider.com/meta-ai-yann-lecun-deepseek-open-source-openai-2025-1

Thành công của DeepSeek cho thấy "mô hình mã nguồn mở đang vượt qua mô hình độc quyền"

Katie Balevic và Lakshmi Varanasi – Ngày 25/1/2025, 7:37 PM UTC

Tuần này, Silicon Valley trở nên căng thẳng sau khi DeepSeek, một công ty AI của Trung Quốc, ra mắt mô hình R1. Theo các đánh giá từ bên thứ ba, R1 vượt qua các công ty AI hàng đầu của Mỹ như OpenAI, Meta và Anthropic trên nhiều tiêu chí.

Đối với Yann LeCun, giám đốc khoa học AI của Meta, điều quan trọng nhất rút ra từ thành công của DeepSeek không phải là mối đe dọa gia tăng từ cạnh tranh với Trung Quốc, mà là giá trị của việc giữ các mô hình AI ở dạng mã nguồn mở, để tất cả mọi người đều có thể hưởng lợi.

Không phải AI của Trung Quốc đang "vượt qua Mỹ", mà đúng hơn là "các mô hình mã nguồn mở đang vượt qua các mô hình độc quyền", LeCun chia sẻ trong một bài đăng trên Threads.


DeepSeek và sức mạnh của mã nguồn mở

DeepSeek R1 là mã nguồn mở, tương tự như mô hình Llama của Meta. Tuy nhiên, OpenAI – ban đầu được thành lập như một công ty AI mã nguồn mở với sứ mệnh tạo ra công nghệ mang lại lợi ích cho toàn nhân loại – gần đây đã chuyển sang hướng độc quyền.

LeCun nhận xét rằng DeepSeek đã "hưởng lợi từ nghiên cứu mở và mã nguồn mở".

“Họ đã đưa ra những ý tưởng mới và xây dựng chúng dựa trên công trình của người khác. Vì công việc của họ được công bố và mở mã nguồn, tất cả mọi người đều có thể hưởng lợi từ nó,” LeCun nói. “Đó là sức mạnh của nghiên cứu mở và mã nguồn mở.”

Khi DeepSeek công bố R1 vào ngày 20/1, mô hình được giới thiệu là "có khả năng lý luận vượt trội", công ty khẳng định rằng họ đang "đẩy giới hạn" của AI mã nguồn mở.


Silicon Valley bất ngờ và phản ứng của Meta

Thông báo này đã gây bất ngờ cho Silicon Valley và trở thành sự kiện được bàn luận nhiều nhất trong ngành công nghệ tuần qua, bất chấp các diễn biến lớn khác như Diễn đàn Kinh tế Thế giới, sự không chắc chắn về TikTok, và những ngày đầu bận rộn của Tổng thống Donald Trump trong nhiệm kỳ mới.

Chỉ vài ngày sau thông báo của DeepSeek, CEO Meta Mark Zuckerberg cho biết Meta dự kiến chi hơn 60 tỷ USD trong năm 2025 để đầu tư mạnh mẽ hơn vào AI. Zuckerberg là người ủng hộ mạnh mẽ mô hình mã nguồn mở.

“Một phần mục tiêu của tôi trong 10-15 năm tới, với thế hệ nền tảng tiếp theo, là xây dựng các nền tảng mở mới và để chúng chiến thắng,” ông nói vào tháng 9. “Tôi tin rằng điều đó sẽ mang lại một ngành công nghệ sôi động hơn rất nhiều.”


Cuộc tranh luận: Mã nguồn mở và mô hình độc quyền

Những người ủng hộ mã nguồn mở cho rằng nó cho phép công nghệ phát triển nhanh chóng và dân chủ, vì bất kỳ ai cũng có thể chỉnh sửa và phân phối lại mã nguồn.

Ngược lại, những người ủng hộ mô hình độc quyền lập luận rằng nó an toàn hơn vì mã nguồn được giữ kín. CEO OpenAI Sam Altman nói rằng phương pháp độc quyền giúp công ty của ông "dễ dàng đạt đến ngưỡng an toàn hơn", trong một phiên AMA trên Reddit vào tháng 11 năm ngoái. Tuy nhiên, ông cũng bày tỏ: “Tôi muốn chúng tôi mở mã nguồn nhiều thứ hơn trong tương lai.”

 

Meta's chief AI scientist says DeepSeek's success shows that "open source models are surpassing proprietary ones"
Katie Balevic and Lakshmi Varanasi Jan 25, 2025, 7:37 PM UTC
Silicon Valley was on edge this week after DeepSeek, a Chinese AI company, released its R1 model. In third-party benchmarks, it outperformed leading American AI companies like OpenAI, Meta, and Anthropic.
For Meta's chief AI scientist, Yann LeCun, the biggest takeaway from DeepSeek's success was not the heightened threat posed by Chinese competition but the value of keeping AI models open source so that anyone can benefit.
It's not that China's AI is "surpassing the US," but rather that "open source models are surpassing proprietary ones," LeCun said in a post on Threads.
DeepSeek's R1 is itself open source, as is Meta's Llama. OpenAI, which was originally founded as an open-source AI company with a mission to create technology that benefits all of humanity, has on the other hand more recently shifted to closed-source.
LeCun said DeepSeek has "profited from open research and open source."
"They came up with new ideas and built them on top of other people's work. Because their work is published and open source, everyone can profit from it," LeCun said. "That is the power of open research and open source."
When DeepSeek unveiled R1 on January 20, which it said "demonstrates remarkable reasoning capabilities," the company said it was "pushing the boundaries" of open-source AI.
The announcement took Silicon Valley by surprise and was easily the most talked-about development in the tech industry during a week that included the World Economic Forum, TikTok uncertainty, and President Donald Trump's busy first few days in office.
Days after DeepSeek's announcement, Meta CEO Mark Zuckerberg said Meta planned to spend over $60 billion in 2025 as it doubles down on AI. Zuckerberg has been an outspoken advocate of open-source models.
"Part of my goal for the next 10-15 years, the next generation of platforms, is to build the next generation of open platforms and have the open platforms win," he said in September. "I think that's going to lead to a much more vibrant tech industry."
Those who support open source say it allows technology to develop rapidly and democratically since anyone can modify and redistribute the code. On the other hand, advocates for closed-source models argue that they are more secure because the code is kept private.
OpenAI CEO Sam Altman said the closed-source approach offers his company "an easier way to hit the safety threshold" in an AMA on Reddit last November. He added, however, that he "would like us to open source more stuff in the future."

Startup AI Trung Quốc DeepSeek vượt mặt OpenAI với 10.000 chip Nvidia và đội ngũ tài năng trẻ

-  DeepSeek, phòng nghiên cứu AI Trung Quốc, đã phát hành mô hình nguồn mở DeepSeek-R1 vào ngày 20/1, vượt trội hơn các mô hình hàng đầu như OpenAI o1 về khả năng tính toán và suy luận

-  Công ty được thành lập từ Fire-Flyer - nhánh nghiên cứu học sâu của quỹ đầu cơ High-Flyer, quỹ đầu tiên tại Trung Quốc huy động được hơn 100 tỷ NDT (khoảng 15 tỷ USD)

-  Người sáng lập Liang Wenfeng đã đầu tư 10.000 chip Nvidia và tập trung vào nghiên cứu khoa học cơ bản thay vì lợi nhuận thương mại

-  Chiến lược tuyển dụng độc đáo: ưu tiên sinh viên tiến sĩ mới tốt nghiệp từ các trường đại học hàng đầu Trung Quốc như Đại học Bắc Kinh và Đại học Thanh Hoa

-  Đối mặt với lệnh kiểm soát xuất khẩu chip của Mỹ, DeepSeek đã phát triển phương pháp đào tạo hiệu quả hơn:
- Tối ưu hóa kiến trúc mô hình
- Phát triển Multi-head Latent Attention (MLA)
- Áp dụng Mixture-of-Experts

-  Mô hình mới của DeepSeek chỉ cần 1/10 sức mạnh tính toán so với Llama 3.1 của Meta

-  DeepSeek áp dụng phương pháp nguồn mở, khuyến khích cộng tác và đổi mới trong cộng đồng AI toàn cầu

-  Thành công của DeepSeek có thể ảnh hưởng đến hiệu quả của chính sách kiểm soát xuất khẩu hiện tại của Mỹ

📌 DeepSeek đã chứng minh khả năng vượt trội với 10.000 chip Nvidia, đội ngũ nghiên cứu trẻ và chiến lược tối ưu hóa hiệu quả. Mô hình DeepSeek-R1 chỉ cần 1/10 sức mạnh tính toán so với đối thủ, thách thức vị thế các gã khổng lồ AI phương Tây.

https://www.wired.com/story/deepseek-china-model-ai/

Cách startup AI Trung Quốc DeepSeek tạo ra mô hình cạnh tranh với OpenAI

Khi Liang Wenfeng, nhà sáng lập quỹ đầu cơ định lượng Trung Quốc, chuyển sang nghiên cứu AI, ông mang theo 10.000 chip Nvidia và tập hợp một đội ngũ tài năng trẻ, đầy tham vọng. Hai năm sau, DeepSeek bùng nổ trên bản đồ AI thế giới.

Ngày 20/1, DeepSeek – một phòng thí nghiệm nghiên cứu AI tương đối ít được biết đến tại Trung Quốc – đã ra mắt một mô hình mã nguồn mở, nhanh chóng trở thành tâm điểm tại Silicon Valley. Theo tài liệu do công ty công bố, DeepSeek-R1 vượt qua các mô hình hàng đầu trong ngành như OpenAI o1 trên nhiều tiêu chuẩn đánh giá về toán học và lý luận. Trên nhiều chỉ số quan trọng như năng lực, chi phí và tính mở, DeepSeek đang thực sự thách thức các “ông lớn” AI phương Tây.

Thành công của DeepSeek phản ánh một hệ quả không mong muốn của cuộc chiến công nghệ giữa Mỹ và Trung Quốc. Các biện pháp kiểm soát xuất khẩu của Mỹ đã hạn chế nghiêm trọng khả năng cạnh tranh của các công ty công nghệ Trung Quốc trong cách làm AI kiểu phương Tây – tức là mở rộng quy mô vô hạn bằng cách mua thêm chip và huấn luyện mô hình trong thời gian dài hơn. Do đó, hầu hết các công ty Trung Quốc tập trung vào ứng dụng đầu cuối thay vì xây dựng mô hình của riêng mình. Nhưng với lần ra mắt này, DeepSeek đã chứng minh rằng có một con đường khác để chiến thắng: cải tiến cấu trúc nền tảng của các mô hình AI và sử dụng tài nguyên hạn chế một cách hiệu quả hơn.

“Không giống nhiều công ty AI Trung Quốc phụ thuộc nặng nề vào việc tiếp cận phần cứng tiên tiến, DeepSeek tập trung vào tối ưu hóa tài nguyên thông qua phần mềm, Marina Zhang, phó giáo sư tại Đại học Công nghệ Sydney, chuyên nghiên cứu về đổi mới tại Trung Quốc, nhận xét. DeepSeek đã áp dụng phương pháp mã nguồn mở, tập hợp chuyên môn tập thể và thúc đẩy đổi mới hợp tác. Cách tiếp cận này không chỉ giảm thiểu hạn chế về tài nguyên mà còn đẩy nhanh sự phát triển của các công nghệ tiên tiến, giúp DeepSeek vượt lên so với các đối thủ khép kín hơn.”

Ai đứng sau startup AI DeepSeek?

Và tại sao họ lại bất ngờ phát hành một mô hình hàng đầu ngành, đồng thời cung cấp miễn phí? WIRED đã trò chuyện với các chuyên gia trong ngành AI của Trung Quốc và xem qua các cuộc phỏng vấn chi tiết với nhà sáng lập DeepSeek, Liang Wenfeng, để ghép lại câu chuyện về sự trỗi dậy như vũ bão của công ty này. DeepSeek không phản hồi nhiều yêu cầu phỏng vấn của WIRED.

Một quỹ đầu cơ ngôi sao ở Trung Quốc

Ngay cả trong ngành AI của Trung Quốc, DeepSeek cũng là một cái tên khác thường. Công ty bắt đầu như Fire-Flyer, một nhánh nghiên cứu deep learning của High-Flyer – một trong những quỹ đầu cơ định lượng (quant hedge fund) hoạt động tốt nhất tại Trung Quốc. Được thành lập vào năm 2015, High-Flyer nhanh chóng vươn lên hàng đầu, trở thành quỹ đầu cơ định lượng đầu tiên tại Trung Quốc huy động được hơn 100 tỷ RMB (khoảng 15 tỷ USD). (Kể từ năm 2021, con số này đã giảm xuống còn khoảng 8 tỷ USD, dù vậy High-Flyer vẫn là một trong những quỹ đầu cơ định lượng quan trọng nhất của đất nước.)

Trong nhiều năm, High-Flyer đã tích trữ GPU và xây dựng siêu máy tính Fire-Flyer để phân tích dữ liệu tài chính. Đến năm 2023, Liang, người có bằng thạc sĩ về khoa học máy tính, quyết định đổ toàn bộ tài nguyên của quỹ vào một công ty mới mang tên DeepSeek, với tham vọng xây dựng các mô hình tiên tiến nhất và hy vọng phát triển trí tuệ nhân tạo tổng quát (AGI). Điều này giống như việc Jane Street (một quỹ đầu cơ nổi tiếng của Mỹ) chuyển đổi thành một startup AI và chi tiêu toàn bộ tiền mặt vào nghiên cứu khoa học.

Tầm nhìn táo bạo

Nhưng bằng cách nào đó, điều này đã hiệu quả. “DeepSeek đại diện cho một thế hệ mới các công ty công nghệ Trung Quốc, ưu tiên tiến bộ công nghệ dài hạn hơn là thương mại hóa nhanh chóng,” Zhang nhận định.

Trong một cuộc phỏng vấn với trang công nghệ Trung Quốc 36Kr, Liang cho biết quyết định này được thúc đẩy bởi sự tò mò khoa học chứ không phải mục tiêu lợi nhuận. “Ngay cả khi bạn yêu cầu tôi tìm một lý do thương mại để thành lập DeepSeek, tôi cũng không thể. Vì nó không đáng để làm về mặt thương mại. Nghiên cứu khoa học cơ bản có tỷ suất hoàn vốn đầu tư rất thấp. Khi các nhà đầu tư đầu tiên của OpenAI rót tiền cho họ, chắc chắn họ không nghĩ về lợi nhuận sẽ nhận được. Thay vào đó, họ thực sự muốn thực hiện điều này.”

Một startup không phụ thuộc vào các gã khổng lồ

Hiện nay, DeepSeek là một trong số ít các công ty AI hàng đầu tại Trung Quốc không dựa vào nguồn vốn từ các gã khổng lồ công nghệ như Baidu, Alibaba hay ByteDance.

Một nhóm thiên tài trẻ đầy khao khát khẳng định bản thân

Theo Liang Wenfeng, khi ông tập hợp đội ngũ nghiên cứu của DeepSeek, mục tiêu không phải là tìm những kỹ sư dày dạn kinh nghiệm để xây dựng sản phẩm hướng tới người tiêu dùng. Thay vào đó, ông tập trung vào các nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu Trung Quốc, bao gồm Đại học Bắc Kinh và Đại học Thanh Hoa – những người khao khát chứng tỏ bản thân. Theo tờ QBitAI, nhiều người trong số họ đã được công bố trên các tạp chí hàng đầu và giành giải thưởng tại các hội nghị học thuật quốc tế, nhưng lại thiếu kinh nghiệm trong ngành.

“Các vị trí kỹ thuật cốt lõi của chúng tôi hầu hết được lấp đầy bởi những người vừa tốt nghiệp trong năm nay hoặc 1-2 năm trước,” Liang chia sẻ với 36Kr vào năm 2023.

Chiến lược tuyển dụng này đã giúp tạo ra một văn hóa công ty hợp tác, nơi các nhân viên được tự do sử dụng nguồn tài nguyên tính toán dồi dào để theo đuổi các dự án nghiên cứu phi truyền thống. Điều này hoàn toàn khác biệt so với cách vận hành của các công ty internet lớn tại Trung Quốc, nơi các đội nhóm thường phải cạnh tranh khốc liệt để giành tài nguyên. (Ví dụ gần đây: ByteDance đã cáo buộc một thực tập sinh cũ – người từng giành giải thưởng học thuật danh giá – phá hoại công việc của đồng nghiệp để chiếm giữ thêm tài nguyên tính toán cho đội mình.)

Liang giải thích rằng sinh viên có thể phù hợp hơn với các dự án nghiên cứu đòi hỏi đầu tư lớn nhưng lợi nhuận thấp. Hầu hết mọi người, khi còn trẻ, có thể hoàn toàn cống hiến cho một sứ mệnh mà không cần tính toán thực dụng, ông nói. Lời kêu gọi của Liang với các ứng viên tiềm năng là DeepSeek được tạo ra để “giải quyết những câu hỏi khó nhất trên thế giới.”

Động lực từ sự giáo dục và lòng yêu nước

Theo các chuyên gia, việc những nhà nghiên cứu trẻ này hầu như đều được đào tạo tại Trung Quốc càng làm tăng thêm động lực của họ. Thế hệ trẻ này cũng mang trong mình tinh thần yêu nước, đặc biệt khi họ đối mặt với các hạn chế và điểm nghẽn của Mỹ trong các công nghệ phần cứng và phần mềm quan trọng,” Zhang giải thích. “Quyết tâm vượt qua những rào cản này không chỉ phản ánh tham vọng cá nhân, mà còn thể hiện cam kết lớn hơn trong việc nâng cao vị thế của Trung Quốc như một nhà lãnh đạo đổi mới toàn cầu.”

Đổi mới sinh ra từ khủng hoảng

Vào tháng 10/2022, chính phủ Mỹ bắt đầu áp dụng các biện pháp kiểm soát xuất khẩu nghiêm ngặt, hạn chế mạnh mẽ khả năng tiếp cận các chip tiên tiến như Nvidia H100 của các công ty AI Trung Quốc. Động thái này đã đặt ra một thách thức lớn cho DeepSeek. Công ty khởi đầu với kho dự trữ 10.000 H100, nhưng cần nhiều hơn để cạnh tranh với các công ty như OpenAI và Meta. “Vấn đề chúng tôi đối mặt chưa bao giờ là vốn, mà là kiểm soát xuất khẩu chip tiên tiến,” Liang nói trong một cuộc phỏng vấn thứ hai với 36Kr vào năm 2024.

DeepSeek buộc phải phát triển các phương pháp hiệu quả hơn để huấn luyện mô hình của mình. Họ đã tối ưu hóa kiến trúc mô hình bằng hàng loạt kỹ thuật kỹ thuật: các phương thức giao tiếp tùy chỉnh giữa các chip, giảm kích thước trường dữ liệu để tiết kiệm bộ nhớ, và sử dụng sáng tạo cách tiếp cận kết hợp mô hình (mix-of-models), Wendy Chang, một kỹ sư phần mềm chuyển sang làm nhà phân tích chính sách tại Mercator Institute for China Studies, cho biết. Nhiều trong số những cách tiếp cận này không phải là ý tưởng mới, nhưng việc kết hợp chúng thành công để tạo ra một mô hình tiên tiến là một kỳ công đáng chú ý.”

DeepSeek cũng đạt được tiến bộ lớn trong các thiết kế kỹ thuật như Multi-head Latent Attention (MLA)Mixture-of-Experts, giúp các mô hình của DeepSeek hiệu quả hơn về chi phí bằng cách giảm nhu cầu sử dụng tài nguyên tính toán để huấn luyện. Theo tổ chức nghiên cứu Epoch AI, mô hình mới nhất của DeepSeek hiệu quả đến mức chỉ cần 1/10 sức mạnh tính toán so với mô hình Llama 3.1 của Meta để huấn luyện.

Sự cởi mở thu hút thiện cảm

Việc DeepSeek sẵn sàng chia sẻ các cải tiến của mình với công chúng đã giúp công ty giành được nhiều thiện cảm trong cộng đồng nghiên cứu AI toàn cầu. Đối với nhiều công ty AI Trung Quốc, việc phát triển các mô hình mã nguồn mở là cách duy nhất để đuổi kịp các đối thủ phương Tây, vì điều này thu hút thêm người dùng và cộng tác viên, từ đó giúp các mô hình ngày càng hoàn thiện hơn.

“Họ đã chứng minh rằng có thể xây dựng các mô hình tiên tiến bằng cách sử dụng ít tài nguyên hơn, mặc dù vẫn cần một lượng lớn tiền bạc,” Chang nhận xét. “Các chuẩn mực hiện tại trong việc xây dựng mô hình vẫn còn rất nhiều không gian để tối ưu hóa, và chắc chắn chúng ta sẽ thấy nhiều nỗ lực hơn theo hướng này trong tương lai.”

Tác động đến lệnh trừng phạt của Mỹ

Tin tức này có thể gây khó khăn cho các biện pháp kiểm soát xuất khẩu hiện tại của Mỹ, vốn tập trung vào việc tạo ra các điểm nghẽn tài nguyên tính toán. “Các ước tính hiện tại về lượng sức mạnh tính toán AI mà Trung Quốc sở hữu, cũng như những gì họ có thể đạt được với nó, có thể sẽ bị đảo lộn,” Chang cho biết.

MIT: Cách DeepSeek, startup AI Trung Quốc, phát triển mô hình AI R1 cạnh tranh với ChatGPT o1

- DeepSeek, startup AI Trung Quốc, đã phát triển mô hình lập luận nguồn mở R1 có hiệu suất tương đương hoặc vượt trội so với ChatGPT o1 nhưng chi phí thấp hơn nhiều

- Công ty được thành lập tháng 7/2023 bởi Liang Wenfeng, cựu sinh viên Đại học Zhejiang và là người sáng lập quỹ đầu cơ High-Flyer

- Trước khi lệnh cấm vận chip của Mỹ có hiệu lực, High-Flyer đã tích trữ được khoảng 50.000 chip Nvidia A100

- DeepSeek R1 được các nhà nghiên cứu đánh giá cao về khả năng xử lý các tác vụ lập luận phức tạp, đặc biệt trong toán học và lập trình

- Công ty đã phát hành 6 phiên bản nhỏ hơn của R1 có thể chạy trên laptop, trong đó một phiên bản vượt trội so với o1-mini của OpenAI trong một số tiêu chuẩn đánh giá

- Để tối ưu hiệu suất với nguồn lực hạn chế, DeepSeek đã cải tiến quy trình huấn luyện để giảm tải cho GPU và tập trung vào độ chính xác thay vì chi tiết hóa từng bước logic

- Theo thống kê, Trung Quốc hiện đóng góp 36% trong tổng số 1.328 mô hình ngôn ngữ lớn toàn cầu, đứng thứ hai sau Mỹ

- Các công ty Trung Quốc ngày càng hướng đến nguồn mở, như Alibaba Cloud đã phát hành hơn 100 mô hình AI hỗ trợ 29 ngôn ngữ

- Gần đây, Alibaba Cloud đã hợp tác với 01.AI của Kai-Fu Lee để sáp nhập đội ngũ nghiên cứu và thành lập phòng thí nghiệm mô hình lớn công nghiệp

📌 DeepSeek đã chứng minh khả năng đột phá khi tạo ra mô hình R1 cạnh tranh với ChatGPT o1 dù bị hạn chế chip. Với 50.000 chip A100 tích trữ và chiến lược tối ưu hóa hiệu quả, công ty đã biến thách thức từ lệnh cấm vận thành động lực đổi mới, góp phần đưa Trung Quốc chiếm 36% thị phần mô hình ngôn ngữ lớn toàn cầu.

https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

#MIT

Cách một mô hình AI hàng đầu của Trung Quốc vượt qua lệnh trừng phạt của Mỹ

Với một mô hình lý luận mới sánh ngang hiệu năng của ChatGPT o1, DeepSeek đã biến các hạn chế thành đổi mới.
Tác giả: Caiwei Chen
Ngày 24/1/2025

Cộng đồng AI đang sôi động với sự xuất hiện của DeepSeek R1, một mô hình lý luận mã nguồn mở mới.

Mô hình này được phát triển bởi startup AI của Trung Quốc, DeepSeek, đơn vị khẳng định rằng R1 có khả năng ngang bằng hoặc thậm chí vượt qua ChatGPT o1 của OpenAI trên nhiều chỉ số quan trọng, nhưng hoạt động với chi phí chỉ bằng một phần nhỏ.

“Đây có thể là một bước đột phá thực sự giúp cân bằng, rất tuyệt vời cho các nhà nghiên cứu và nhà phát triển với nguồn lực hạn chế, đặc biệt là ở các nước thuộc khu vực Nam Bán Cầu,” Hancheng Cao, phó giáo sư về hệ thống thông tin tại Đại học Emory, nhận xét.

Thành công của DeepSeek càng đáng chú ý hơn trong bối cảnh các công ty AI của Trung Quốc phải đối mặt với các hạn chế gia tăng từ phía Mỹ, bao gồm kiểm soát xuất khẩu chip tiên tiến. Tuy nhiên, các bằng chứng ban đầu cho thấy các biện pháp này không đạt được mục tiêu như mong muốn. Thay vì làm suy yếu khả năng AI của Trung Quốc, các lệnh trừng phạt dường như đang thúc đẩy các startup như DeepSeek đổi mới theo hướng ưu tiên hiệu quả, chia sẻ tài nguyên và hợp tác.

Để tạo ra R1, DeepSeek đã phải điều chỉnh lại quy trình huấn luyện của mình nhằm giảm áp lực lên các GPU – loại chip được Nvidia phát hành riêng cho thị trường Trung Quốc, có hiệu năng bị giới hạn ở mức chỉ bằng một nửa so với các sản phẩm hàng đầu, theo Zihan Wang, một cựu nhân viên của DeepSeek hiện đang là nghiên cứu sinh tiến sĩ về khoa học máy tính tại Đại học Northwestern.

DeepSeek R1 đã nhận được nhiều lời khen ngợi từ các nhà nghiên cứu nhờ khả năng giải quyết các nhiệm vụ lý luận phức tạp, đặc biệt trong toán học và lập trình. Mô hình này sử dụng phương pháp “chain of thought” (chuỗi tư duy) tương tự ChatGPT o1, cho phép giải quyết vấn đề bằng cách xử lý từng bước một.

Dimitris Papailiopoulos, nhà nghiên cứu chính tại phòng thí nghiệm AI Frontiers của Microsoft, nói rằng điều làm ông ngạc nhiên nhất về R1 là sự đơn giản trong thiết kế kỹ thuật. “DeepSeek tập trung vào việc tạo ra câu trả lời chính xác thay vì chi tiết hóa mọi bước lập luận, giúp giảm đáng kể thời gian tính toán mà vẫn duy trì hiệu quả cao,” ông nhận xét.

DeepSeek phát hành phiên bản nhỏ gọn của R1, vượt qua thách thức từ lệnh trừng phạt của Mỹ

DeepSeek đã công bố 6 phiên bản nhỏ hơn của mô hình R1, có thể chạy trực tiếp trên máy tính xách tay. Công ty tuyên bố rằng một trong số này thậm chí vượt trội hơn o1-mini của OpenAI trên một số tiêu chuẩn đánh giá. “DeepSeek đã gần như sao chép o1-mini và mở mã nguồn cho nó,” CEO của Perplexity, Aravind Srinivas, viết trên Twitter. DeepSeek không trả lời yêu cầu bình luận từ MIT Technology Review.

Mặc dù nhận được sự chú ý nhờ mô hình R1, DeepSeek vẫn tương đối ít người biết đến. Công ty có trụ sở tại Hàng Châu, Trung Quốc, được thành lập vào tháng 7/2023 bởi Liang Wenfeng, một cựu sinh viên Đại học Chiết Giang với chuyên môn về kỹ thuật thông tin và điện tử. DeepSeek được ươm tạo bởi High-Flyer, một quỹ đầu cơ do Liang sáng lập vào năm 2015. Giống như Sam Altman của OpenAI, Liang đặt mục tiêu phát triển trí tuệ nhân tạo tổng quát (AGI) – một dạng AI có thể thực hiện các nhiệm vụ ngang hoặc vượt qua con người.

Đối phó với lệnh trừng phạt và khai thác tối đa tài nguyên

Huấn luyện các mô hình ngôn ngữ lớn (LLM) đòi hỏi một đội ngũ nghiên cứu viên được đào tạo cao cùng sức mạnh tính toán lớn. Trong một cuộc phỏng vấn với LatePost, Kai-Fu Lee, một doanh nhân kỳ cựu và cựu lãnh đạo Google Trung Quốc, cho biết chỉ “những người chơi hàng đầu” mới thường xuyên xây dựng các mô hình nền tảng như ChatGPT vì chi phí quá lớn. Tình hình càng trở nên khó khăn hơn do Mỹ kiểm soát xuất khẩu chip tiên tiến.

Tuy nhiên, quyết định mạo hiểm vào lĩnh vực AI của High-Flyer lại liên quan trực tiếp đến những hạn chế này. Trước khi các lệnh trừng phạt được dự đoán sẽ xảy ra, Liang đã tích lũy được một kho dự trữ lớn chip Nvidia A100 – loại hiện đã bị cấm xuất khẩu sang Trung Quốc. Theo ước tính của 36Kr, DeepSeek sở hữu hơn 10.000 đơn vị chip này, nhưng Dylan Patel, nhà sáng lập SemiAnalysis, cho rằng con số thực tế có thể lên tới 50.000. Khả năng nhìn nhận tiềm năng của kho chip này trong huấn luyện AI là lý do Liang thành lập DeepSeek, tận dụng chúng kết hợp với các chip công suất thấp hơn để phát triển mô hình.

Cạnh tranh trong hệ sinh thái AI Trung Quốc

Các gã khổng lồ công nghệ như Alibaba, ByteDance và một số startup có nhà đầu tư giàu tiềm lực thống trị lĩnh vực AI tại Trung Quốc, khiến các doanh nghiệp vừa và nhỏ khó cạnh tranh. DeepSeek, một công ty không có kế hoạch huy động vốn, là trường hợp hiếm hoi.

Zihan Wang, một cựu nhân viên của DeepSeek, nói với MIT Technology Review rằng ông từng được cấp quyền truy cập vào tài nguyên tính toán dồi dào và tự do thử nghiệm tại DeepSeek – “một điều xa xỉ mà ít sinh viên mới tốt nghiệp nào có được tại các công ty khác.”

Trong một cuộc phỏng vấn với 36Kr vào tháng 7/2024, Liang thừa nhận rằng ngoài lệnh trừng phạt chip, các công ty Trung Quốc còn phải đối mặt với thách thức từ kỹ thuật AI kém hiệu quả hơn. “Chúng tôi [hầu hết các công ty Trung Quốc] phải tiêu tốn gấp đôi sức mạnh tính toán để đạt được kết quả tương tự. Khi kết hợp với sự kém hiệu quả về dữ liệu, điều này có thể đòi hỏi gấp 4 lần sức mạnh tính toán. Mục tiêu của chúng tôi là liên tục thu hẹp những khoảng cách này,” Liang chia sẻ.

Tuy nhiên, DeepSeek đã tìm ra cách giảm mức tiêu thụ bộ nhớ và tăng tốc độ tính toán mà không làm giảm đáng kể độ chính xác. “Cả nhóm yêu thích việc biến thách thức phần cứng thành cơ hội đổi mới,” Wang nói.

Văn hóa mã nguồn mở và tương lai AI tại Trung Quốc

Không chỉ DeepSeek, các công ty Trung Quốc ngày càng áp dụng nguyên tắc mã nguồn mở. Alibaba Cloud đã phát hành hơn 100 mô hình AI mã nguồn mở mới, hỗ trợ 29 ngôn ngữ và phục vụ nhiều ứng dụng như lập trình và toán học. Tương tự, các startup như Minimax và 01.AI cũng đã mở mã nguồn cho các mô hình của mình.

Theo một báo cáo từ Viện Công nghệ và Thông tin Trung Quốc (CAICT), một tổ chức nghiên cứu trực thuộc nhà nước, số lượng mô hình ngôn ngữ lớn trên toàn thế giới đã đạt 1.328, trong đó 36% có nguồn gốc từ Trung Quốc. Điều này đưa Trung Quốc trở thành quốc gia đóng góp AI lớn thứ hai sau Hoa Kỳ.

“Thế hệ các nhà nghiên cứu trẻ tại Trung Quốc gắn bó chặt chẽ với văn hóa mã nguồn mở vì họ nhận được rất nhiều lợi ích từ đó,” Thomas Qitong Cao, phó giáo sư về chính sách công nghệ tại Đại học Tufts, nhận định.

“Các biện pháp kiểm soát xuất khẩu của Mỹ đã dồn các công ty Trung Quốc vào thế phải tối ưu hóa hơn nhiều với nguồn lực tính toán hạn chế, Matt Sheehan, nhà nghiên cứu AI tại Carnegie Endowment for International Peace, nhận xét. Chúng ta có thể sẽ thấy nhiều sự hợp nhất trong tương lai do thiếu tài nguyên tính toán.”

Dấu hiệu của xu hướng này dường như đã bắt đầu. Hai tuần trước, Alibaba Cloud thông báo hợp tác với startup 01.AI có trụ sở tại Bắc Kinh – được sáng lập bởi Kai-Fu Lee – để hợp nhất đội ngũ nghiên cứu và thành lập một “phòng thí nghiệm mô hình lớn công nghiệp.”

“Việc phân chia lao động trong ngành AI là tự nhiên và tiết kiệm năng lượng,” Cao, giáo sư tại Đại học Tufts, nhận định. “Sự phát triển nhanh chóng của AI đòi hỏi các công ty Trung Quốc phải có sự linh hoạt để tồn tại.”

Deepseek - Công ty AI với toàn bộ nhân lực đào tạo ở Trung Quốc gây chấn động Thung lũng Silicon

- Deepseek do nhà quản lý quỹ đầu cơ Liang Wenfeng sáng lập đã công bố mô hình R1 ngày 15/1/2024, chia sẻ chi tiết cách xây dựng mô hình ngôn ngữ lớn với ngân sách hạn chế

- Công ty chỉ sử dụng 2.048 chip Nvidia H800 và 5,6 triệu USD để huấn luyện mô hình có 671 tỷ tham số, một phần nhỏ so với chi phí của OpenAI và Google

- Liang Wenfeng bắt đầu dự án AI vào năm 2021 bằng cách mua hàng nghìn chip đồ họa Nvidia trong khi vẫn điều hành quỹ giao dịch High-Flyer

- Đội ngũ kỹ sư của Deepseek có kinh nghiệm tối ưu hóa hiệu suất chip từ thời làm việc tại quỹ đầu tư, giúp công ty vượt qua hạn chế về chip do lệnh cấm của Mỹ

- Công ty tập trung hoàn toàn vào nghiên cứu, không huy động vốn bên ngoài hay thương mại hóa mô hình

- Deepseek trả lương cao nhất cho kỹ sư AI tại Trung Quốc, cùng với ByteDance

- Đội ngũ nhân sự chủ yếu từ các trường đại học hàng đầu Trung Quốc như Bắc Kinh, Thanh Hoa và Bắc Hàng

- Liang được chọn làm đại diện duy nhất của ngành AI tham dự cuộc họp với Thủ tướng Lý Cường

- Các đối thủ Mỹ đang đầu tư mạnh: OpenAI hợp tác với Softbank trong dự án trị giá 100 tỷ USD, xAI của Elon Musk mở rộng siêu máy tính với hơn 1 triệu GPU

📌 Deepseek chứng minh khả năng cạnh tranh với các gã khổng lồ công nghệ phương Tây bằng cách xây dựng mô hình AI hiệu quả với chi phí thấp (5,6 triệu USD). Tuy nhiên, công ty đang đối mặt thách thức về nguồn lực tính toán khi các đối thủ Mỹ đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI.

https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e

#FT

Công ty khởi nghiệp AI nhỏ DeepSeek của Trung Quốc khiến Silicon Valley bất ngờ  
Tỷ phú quỹ đầu cơ Liang Wenfeng phát triển mô hình với ngân sách eo hẹp bất chấp nỗ lực của Mỹ nhằm ngăn chặn tham vọng công nghệ cao của Trung Quốc  
Eleanor Olcott tại Bắc Kinh và Zijing Wu tại Hồng Kông hôm qua  

Một phòng thí nghiệm trí tuệ nhân tạo nhỏ của Trung Quốc đã làm thế giới kinh ngạc trong tuần này khi công bố công thức kỹ thuật cho mô hình tiên tiến của mình, biến người sáng lập kín tiếng trở thành anh hùng quốc gia, người đã thách thức nỗ lực của Mỹ nhằm ngăn chặn tham vọng công nghệ cao của Trung Quốc.  

DeepSeek, được sáng lập bởi nhà quản lý quỹ đầu cơ Liang Wenfeng, đã ra mắt mô hình R1 vào thứ hai, đồng thời giải thích trong một tài liệu chi tiết cách xây dựng một mô hình ngôn ngữ lớn với ngân sách hạn chế, có khả năng tự động học hỏi và cải thiện mà không cần sự can thiệp của con người.  

Các công ty Mỹ bao gồm OpenAI và Google DeepMind đã tiên phong trong việc phát triển các mô hình lý luận, một lĩnh vực nghiên cứu AI tương đối mới đang cố gắng làm cho mô hình tương thích với khả năng nhận thức của con người. Vào tháng 12, OpenAI, có trụ sở tại San Francisco, đã phát hành phiên bản đầy đủ của mô hình o1 nhưng giữ bí mật phương pháp của mình.  

Việc phát hành R1 của DeepSeek đã làm dấy lên một cuộc tranh luận sôi nổi tại Silicon Valley về việc liệu các công ty AI Mỹ được đầu tư mạnh mẽ hơn, bao gồm Meta và Anthropic, có thể bảo vệ lợi thế kỹ thuật của mình hay không.  

Trong khi đó, Liang đã trở thành tâm điểm của niềm tự hào dân tộc ở quê nhà. Trong tuần này, ông là nhà lãnh đạo AI duy nhất được chọn tham dự một cuộc họp công khai với nhà lãnh đạo quyền lực thứ hai của đất nước, Lý Cường. Các doanh nhân được kêu gọi “dồn sức để đột phá các công nghệ cốt lõi then chốt.”  

Năm 2021, Liang bắt đầu mua hàng ngàn bộ xử lý đồ họa Nvidia cho dự án phụ về AI của mình trong khi điều hành quỹ giao dịch định lượng High-Flyer. Những người trong ngành xem đây là hành động kỳ lạ của một tỷ phú đang tìm kiếm sở thích mới.  

“Khi chúng tôi lần đầu gặp ông ấy, ông là một người trông rất mọt sách với kiểu tóc tệ, nói về việc xây dựng một cụm 10.000 chip để huấn luyện các mô hình của mình. Chúng tôi không coi trọng ông ấy,” một đối tác kinh doanh của Liang cho biết.  

Ông ấy không thể trình bày rõ tầm nhìn của mình ngoài việc nói: Tôi muốn xây cái này, và nó sẽ là bước ngoặt. Chúng tôi nghĩ rằng điều này chỉ có thể từ các tập đoàn khổng lồ như ByteDance và Alibaba,” người này nói thêm.  

Tư cách người ngoài ngành AI của Liang lại trở thành một nguồn sức mạnh bất ngờ. Tại High-Flyer, ông đã xây dựng tài sản bằng cách sử dụng AI và thuật toán để xác định các mô hình có thể ảnh hưởng đến giá cổ phiếu. Đội ngũ của ông trở nên thông thạo việc sử dụng chip Nvidia để kiếm tiền từ giao dịch cổ phiếu. Năm 2023, ông ra mắt DeepSeek, công bố ý định phát triển AI đạt đến trình độ con người.  

“Liang đã xây dựng một đội ngũ cơ sở hạ tầng xuất sắc, thực sự hiểu cách các con chip hoạt động,” một nhà sáng lập tại công ty LLM đối thủ cho biết. “Ông ấy mang theo những người giỏi nhất của mình từ quỹ đầu cơ đến DeepSeek.”  

Sau khi Washington cấm Nvidia xuất khẩu các con chip mạnh nhất của mình sang Trung Quốc, các công ty AI trong nước buộc phải tìm cách sáng tạo để tối đa hóa sức mạnh tính toán của số lượng chip hạn chế trong nước – một vấn đề mà đội ngũ của Liang đã biết cách giải quyết từ trước.  

“Kỹ sư của DeepSeek biết cách khai thác tiềm năng của các GPU này, ngay cả khi chúng không phải là loại tối tân nhất,” một nhà nghiên cứu AI thân cận với công ty cho biết.  

Người trong ngành cho rằng việc DeepSeek tập trung duy nhất vào nghiên cứu khiến công ty trở thành đối thủ nguy hiểm vì sẵn sàng chia sẻ các đột phá của mình thay vì bảo vệ chúng để kiếm lợi nhuận thương mại. DeepSeek chưa huy động vốn từ các quỹ bên ngoài hay thực hiện các bước quan trọng để thương mại hóa các mô hình của mình.  

“DeepSeek được vận hành giống như thời kỳ đầu của DeepMind,” một nhà đầu tư AI tại Bắc Kinh nhận xét. “Họ chỉ tập trung vào nghiên cứu và kỹ thuật.”  

Liang, người trực tiếp tham gia vào nghiên cứu của DeepSeek, sử dụng lợi nhuận từ hoạt động giao dịch quỹ đầu cơ để trả lương cao nhất cho những tài năng AI hàng đầu. Cùng với ByteDance, chủ sở hữu TikTok, DeepSeek nổi tiếng là nơi trả mức thù lao cao nhất cho các kỹ sư AI tại Trung Quốc, với đội ngũ nhân viên làm việc tại các văn phòng ở Hàng Châu và Bắc Kinh.  

“Văn phòng của DeepSeek giống như một khuôn viên đại học dành cho các nhà nghiên cứu nghiêm túc,” đối tác kinh doanh của Liang chia sẻ. “Đội ngũ tin tưởng vào tầm nhìn của Liang: chứng minh cho thế giới thấy rằng người Trung Quốc có thể sáng tạo và xây dựng mọi thứ từ con số không.”  

DeepSeek và High-Flyer đã từ chối trả lời yêu cầu bình luận.  

Liang đã định hình DeepSeek là một công ty “thuần túy nội địa”, nơi đội ngũ nhân viên là các tiến sĩ tốt nghiệp từ các trường đại học hàng đầu của Trung Quốc như Bắc Kinh, Thanh Hoa và Hàng Không Vũ Trụ Bắc Kinh, thay vì những chuyên gia từ các tổ chức Mỹ.  

Trong một cuộc phỏng vấn với báo chí trong nước năm ngoái, Liang cho biết đội ngũ cốt lõi của mình “không có người nào trở về từ nước ngoài. Tất cả đều là trong nước... Chúng tôi phải tự phát triển nhân tài hàng đầu.” Việc DeepSeek là một công ty LLM thuần túy Trung Quốc đã mang lại cho họ nhiều lời khen ngợi trong nước.  

DeepSeek tuyên bố đã sử dụng chỉ 2.048 GPU Nvidia H800 và 5,6 triệu USD để huấn luyện một mô hình với 671 tỷ tham số, chỉ bằng một phần nhỏ so với chi phí mà OpenAI và Google bỏ ra để huấn luyện các mô hình có kích thước tương đương.  

Ritwik Gupta, nhà nghiên cứu chính sách AI tại Đại học California, Berkeley, cho rằng các mô hình mới được DeepSeek phát hành gần đây chứng minh rằng “không có bức tường thành nào trong khả năng AI.”  

“Người đầu tiên huấn luyện các mô hình phải tiêu tốn rất nhiều nguồn lực để đạt được điều đó,” ông nói. “Nhưng người đi sau có thể đạt được điều đó với chi phí rẻ hơn và nhanh hơn.”  

Gupta bổ sung rằng Trung Quốc có một đội ngũ kỹ sư hệ thống lớn hơn nhiều so với Mỹ, những người hiểu cách tối ưu hóa tài nguyên tính toán để huấn luyện và vận hành các mô hình với chi phí thấp hơn.  

Người trong ngành nhận xét rằng mặc dù DeepSeek đã đạt được kết quả ấn tượng với nguồn lực hạn chế, nhưng vẫn là một câu hỏi bỏ ngỏ liệu họ có thể tiếp tục cạnh tranh khi ngành công nghiệp phát triển hay không.  

Tỷ suất lợi nhuận tại High-Flyer, nhà tài trợ lớn của DeepSeek, đã giảm trong năm 2024, mà một người thân cận với Liang cho rằng là do nhà sáng lập tập trung phần lớn sự chú ý vào DeepSeek.  

Các đối thủ Mỹ không đứng yên. Họ đang xây dựng các “cụm” siêu máy tính khổng lồ sử dụng chip thế hệ mới Blackwell của Nvidia, tạo ra sức mạnh tính toán có nguy cơ một lần nữa tạo ra khoảng cách hiệu năng với các đối thủ Trung Quốc.  

Tuần này, OpenAI thông báo thành lập một liên doanh với SoftBank của Nhật Bản, được gọi là Stargate, với kế hoạch chi ít nhất 100 tỷ USD để xây dựng cơ sở hạ tầng AI tại Mỹ. xAI của Elon Musk đang mở rộng quy mô siêu máy tính Colossus của mình để chứa hơn 1 triệu GPU nhằm hỗ trợ huấn luyện các mô hình Grok AI.  

“DeepSeek sở hữu một trong những cụm tính toán tiên tiến lớn nhất tại Trung Quốc,” đối tác kinh doanh của Liang cho biết. “Hiện tại họ có đủ năng lực, nhưng không kéo dài được lâu nữa.”  

 

How small Chinese AI start-up DeepSeek shocked Silicon Valley
Hedge fund billionaire Liang Wenfeng builds model on tight budget despite US attempt to halt China’s high-tech ambitions
Eleanor Olcott in Beijing and Zijing Wu in Hong Kong yesterday

A small Chinese artificial intelligence lab stunned the world this week by revealing the technical recipe for its cutting-edge model, turning its reclusive leader into a national hero who has defied US attempts to stop China’s high-tech ambitions. 
DeepSeek, founded by hedge fund manager Liang Wenfeng, released its R1 model on Monday, explaining in a detailed paper how to build a large language model on a bootstrapped budget that can automatically learn and improve itself without human supervision.
US companies including OpenAI and Google DeepMind pioneered developments in reasoning models, a relatively new field of AI research that is attempting to make models match human cognitive capabilities. In December, the San Francisco-based OpenAI released the full version of its o1 model but kept its methods secret. 
DeepSeek’s R1 release sparked a frenzied debate in Silicon Valley about whether better resourced US AI companies, including Meta and Anthropic, can defend their technical edge.

Meanwhile, Liang has become a focal point of national pride at home. This week, he was the only AI leader selected to attend a publicised meeting of entrepreneurs with the country’s second-most powerful leader, Li Qiang. The entrepreneurs were told to “concentrate efforts to break through key core technologies.”
In 2021, Liang started buying thousands of Nvidia graphic processing units for his AI side project while running his quant trading fund High-Flyer. Industry insiders viewed it as the eccentric actions of a billionaire looking for a new hobby.
“When we first met him, he was this very nerdy guy with a terrible hairstyle talking about building a 10,000-chip cluster to train his own models. We didn’t take him seriously,” said one of Liang’s business partners. 
“He couldn’t articulate his vision other than saying: I want to build this, and it will be a game change. We thought this was only possible from giants like ByteDance and Alibaba,” the person added. 
Liang’s status as an outsider in the AI field was an unexpected source of strength. At High-Flyer, he built a fortune by using AI and algorithms to identify patterns that could affect stock prices. His team became adept at using Nvidia chips to make money trading stocks. In 2023, he launched DeepSeek, announcing his intention to develop human-level AI.
“Liang built an exceptional infrastructure team that really understands how the chips worked,” said one founder at a rival LLM company. “He took his best people with him from the hedge fund to DeepSeek.”

After Washington banned Nvidia from exporting its most powerful chips to China, local AI companies have been forced to find innovative ways to maximise the computing power of a limited number of onshore chips — a problem Liang’s team already knew how to solve.
“DeepSeek’s engineers know how to unlock the potential of these GPUs, even if they are not state of the art,” said one AI researcher close to the company. 
Industry insiders say DeepSeek’s singular focus on research makes it a dangerous competitor because it is willing to share its breakthroughs rather than protect them for commercial gains. DeepSeek has not raised money from outside funds or made significant moves to monetise its models.
“DeepSeek is run like the early days of DeepMind,” said one AI investor in Beijing. “It is purely focused on research and engineering.”
Liang, who is personally involved in DeepSeek’s research, uses proceeds from his hedge fund trading to pay top salaries for the best AI talent. Along with TikTok-owner ByteDance, DeepSeek is known for giving the highest remuneration available to AI engineers in China, with staff based in offices in Hangzhou and Beijing.
“DeepSeek’s offices feel like a university campus for serious researchers,” said the business partner. “The team believes in Liang’s vision: to show the world that the Chinese can be creative and build something from zero.”
DeepSeek and High-Flyer did not respond to a request for comment.
Liang has styled DeepSeek as a uniquely “local” company, staffed with PhDs from top Chinese schools, Peking, Tsinghua and Beihang universities rather than experts from US institutions.
In an interview with the domestic press last year, he said his core team “did not have people who returned from overseas. They are all local . . . We have to develop the top talent ourselves”. DeepSeek’s identity as a purely Chinese LLM company has won it plaudits at home. 
DeepSeek claimed it used just 2,048 Nvidia H800s and $5.6mn to train a model with 671bn parameters, a fraction of what OpenAI and Google spent to train comparably sized models.
Ritwik Gupta, AI policy researcher at the University of California, Berkeley, said DeepSeek’s recent model releases demonstrate that “there is no moat when it comes to AI capabilities”.
“The first person to train models has to expend lots of resources to get there,” he said. “But the second mover can get there cheaper and more quickly.”
Gupta added that China had a much larger talent pool of systems engineers than the US who understand how to get the best use of computing resources to train and run models more cheaply.
Industry insiders say that even though DeepSeek has shown impressive results with limited resources, it remains an open question whether it can continue to be competitive as the industry evolves.

Returns at High-Flyer, its big backer, lagged behind in 2024, which one person close to Liang blamed on the founder’s attention being mostly focused on DeepSeek.
Its US rivals are not standing still. They are building mega “clusters” of Nvidia’s next-generation Blackwell chips, creating the computing power that threatens to once again create a performance gap with Chinese rivals.
This week, OpenAI said it was creating a joint venture with Japan’s SoftBank, dubbed Stargate, with plans to spend at least $100bn on AI infrastructure in the US. Elon Musk’s xAI is massively expanding its Colossus supercomputer to contain more than 1mn GPUs to help train its Grok AI models.
“DeepSeek has one of the largest advanced computing clusters in China,” said Liang’s business partner. “They have enough capacity for now, but not much longer.” 

Hugging Face ra mắt 2 mô hình AI đa phương thức nhỏ gọn SmolVLM, vượt trội hơn cả mô hình 80 tỷ tham số

- Hugging Face vừa công bố 2 mô hình AI đa phương thức mới: SmolVLM-256M và SmolVLM-500M, được cho là nhỏ nhất trong loại hình này

- 2 mô hình có kích thước lần lượt là 256 triệu và 500 triệu tham số, được thiết kế để hoạt động hiệu quả trên các thiết bị có giới hạn như laptop với RAM dưới 1GB

- Khả năng chính của các mô hình:
  + Mô tả hình ảnh và video clip
  + Trả lời câu hỏi về nội dung PDF
  + Phân tích văn bản quét và biểu đồ

- Quá trình huấn luyện sử dụng:
  + The Cauldron: tập hợp 50 bộ dữ liệu hình ảnh và văn bản chất lượng cao
  + Docmatix: bộ dữ liệu file quét kèm chú thích chi tiết

- Kết quả kiểm thử cho thấy cả 2 mô hình đều vượt trội hơn Idefics 80B (mô hình lớn hơn nhiều lần) trong các bài kiểm tra như AI2D về khả năng phân tích sơ đồ khoa học cấp tiểu học

- Mô hình được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng không giới hạn

- Nghiên cứu từ Google DeepMind, Microsoft Research và viện nghiên cứu Mila Quebec chỉ ra rằng các mô hình nhỏ có thể kém hiệu quả hơn trong các tác vụ suy luận phức tạp, do chúng có xu hướng nhận diện mẫu bề mặt thay vì áp dụng kiến thức vào ngữ cảnh mới

📌 Hugging Face đã tạo bước đột phá với 2 mô hình AI đa phương thức siêu nhỏ gọn 256M và 500M tham số, hoạt động hiệu quả trên thiết bị RAM dưới 1GB. Mô hình vượt trội hơn Idefics 80B trong nhiều bài kiểm tra, mở ra khả năng ứng dụng AI trên các thiết bị có tài nguyên hạn chế.

https://techcrunch.com/2025/01/23/hugging-face-claims-its-new-ai-models-are-the-smallest-of-their-kind/

DeepSeek-R1: Mô hình LLM mở mới vượt OpenAI o1 với chi phí chỉ thấp hơn 90-95%

- DeepSeek, một startup AI Trung Quốc, công bố mô hình LLM mở mới mang tên DeepSeek-R1, cải tiến hiệu suất và giảm chi phí tới 90-95% so với OpenAI o1.
- DeepSeek-R1 sử dụng mô hình hỗn hợp DeepSeek V3, đạt được hiệu suất tương đương với o1 trong các tác vụ toán học, lập trình và suy luận.
- Mô hình này hoàn toàn mở và có sẵn trên Hugging Face dưới giấy phép MIT, cho phép cộng động phát triển và sử dụng.
- Trong các bài kiểm tra, DeepSeek-R1 đạt 79.8% trong bài kiểm tra toán AIME 2024 và 97.3% trong MATH-500.
- DeepSeek-R1 cũng ghi điểm 2.029 trên Codeforces, tốt hơn 96.3% lập trình viên con người.
- DeepSeek-R1 cho thấy khả năng kiến thức tổng quát tốt với độ chính xác 90.8% trên MMLU, chỉ đứng sau o1 với 91.8%.
- Mô hình được phát triển từ DeepSeek-R1-Zero, sử dụng học tăng cường hoàn toàn mà không cần dữ liệu giám sát.
- DeepSeek-R1 được cải tiến bằng cách kết hợp học tăng cường và tinh chỉnh giám sát để xử lý các nhiệm vụ phức tạp.
- Chi phí sử dụng DeepSeek-R1 cực kỳ thấp so với OpenAI o1: 0.55 USD cho mỗi triệu token đầu vào và 2.19 USD cho mỗi triệu token đầu ra.
- Mô hình có thể được thử nghiệm trên nền tảng DeepSeek, tương tự như ChatGPT, và người dùng có thể truy cập mã nguồn và trọng số mô hình qua Hugging Face.

📌 DeepSeek-R1 đã chứng minh khả năng xuất sắc tại thị trường AI mở, đạt hiệu suất gần tương đương OpenAI o1 trong khi giảm chi phí tới 95%. Sự cạnh tranh này mở ra cơ hội cho AI mở phát triển mạnh mẽ hơn trong tương lai.

https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

LlamaV-o1, mô hình AI tiên tiến vượt trội trong khả năng lý luận từng bước qua văn bản và hình ảnh

- LlamaV-o1 là mô hình AI mới được công bố bởi Trường Đại học Nghệ thuật Nhân tạo Mohamed bin Zayed (MBZUAI), nổi bật với khả năng xử lý các bài toán lý luận phức tạp từ văn bản và hình ảnh.
- Mô hình này kết hợp giữa học tập theo chương trình tiên tiến và các kỹ thuật tối ưu hóa như Beam Search, tạo ra một tiêu chuẩn mới cho lý luận từng bước trong các hệ thống AI đa phương thức.
- LlamaV-o1 tập trung vào khả năng lý luận, giúp người dùng có thể theo dõi các bước logic mà mô hình thực hiện, điều này cực kỳ quan trọng trong các ứng dụng yêu cầu tính minh bạch.
- VRC-Bench được giới thiệu cùng với mô hình, là một tham số đánh giá khả năng lý luận của các mô hình AI thông qua hơn 1.000 mẫu và 4.000 bước lý luận, được coi là bước đột phá trong nghiên cứu AI đa phương thức.
- Trong các thử nghiệm, LlamaV-o1 đã vượt trội hơn các đối thủ như Claude 3.5 Sonnet và Gemini 1.5 Flash trong việc nhận diện mẫu và lý luận qua các tác vụ hình ảnh phức tạp.
- Mô hình đạt được điểm số lý luận là 68.93, cao hơn đáng kể so với các mô hình nguồn mở như LlaVA-CoT, cho thấy sự vượt trội của nó.
- Nhờ vào khả năng thực hiện các bước lý luận một cách tuần tự, LlamaV-o1 không chỉ chính xác mà còn nhanh chóng hơn, cung cấp lợi thế cho doanh nghiệp khi ứng dụng AI quy mô lớn.
- Mô hình này còn được phát triển để đáp ứng nhu cầu trong các lĩnh vực như tài chính và y tế, nơi cần sự minh bạch trong quyết định của AI.
- LlamaV-o1 cũng tỏ ra linh hoạt trong nhiều ứng dụng khác nhau, từ sản xuất nội dung đến các tác vụ hỗ trợ hội thoại.
- Các kết quả từ VRC-Bench cho thấy LlamaV-o1 đạt điểm trung bình 67.33% trong các bài kiểm tra lý luận, cho thấy tiềm năng và vị thế của nó trong không gian nguồn mở AI.
- Mặc dù LlamaV-o1 đạt nhiều thành tựu, nhưng cũng gặp những hạn chế giống như các mô hình AI khác, đặc biệt trong các tình huống yêu cầu độ chính xác cao như y tế và dự đoán tài chính.

📌 LlamaV-o1 nổi bật với khả năng lý luận từng bước, đạt điểm số 68.93 trong đánh giá và mở ra tiềm năng mới cho AI đa phương thức trong các lĩnh vực như tài chính và y tế.

 

https://venturebeat.com/ai/llamav-o1-is-the-ai-model-that-explains-its-thought-process-heres-why-that-matters/

MiniMax ra mắt LLM nguồn mở với ngữ cảnh 4 triệu token

- MiniMax đã công bố dòng mô hình MiniMax-01, một gia đình mô hình mới cho phép xử lý ngữ cảnh lên tới 4 triệu token.
- Mô hình MiniMax-Text-01 là một LLM nền tảng, trong khi MiniMax-VL-01 là mô hình đa phương tiện trực quan.
- Ngữ cảnh 4 triệu token tương đương với lượng thông tin của một thư viện nhỏ, giúp mô hình xử lý nhiều dữ liệu hơn so với các mô hình đối thủ.
- Google trước đây dẫn đầu với mô hình Gemini 1.5 Pro có ngữ cảnh 2 triệu token, nhưng giờ đây MiniMax đã tăng gấp đôi khả năng này.
- MiniMax tin rằng khả năng quản lý ngữ cảnh mở rộng sẽ hỗ trợ sự bùng nổ ứng dụng liên quan đến AI agent trong năm tới.
- Các mô hình đã có sẵn để tải xuống trên Hugging Face và Github với giấy phép MiniMax tùy chỉnh.
- MiniMax cung cấp API với mức giá cạnh tranh: 0.2 USD cho 1 triệu token đầu vào và 1.1 USD cho 1 triệu token đầu ra.
- Mô hình MiniMax-01 sử dụng cơ chế Lightning Attention, một giải pháp thay thế cho kiến trúc transformer, làm giảm độ phức tạp tính toán.
- Các mô hình bao gồm 456 tỷ tham số, trong đó 45.9 tỷ được kích hoạt mỗi lần suy diễn.
- Lightning Attention kết hợp các lớp SoftMax truyền thống và tuyến tính, đạt được độ phức tạp gần như tuyến tính cho các đầu vào dài.
- MiniMax đã cải tiến quy trình đào tạo và suy diễn để hỗ trợ kiến trúc Lightning Attention với các tối ưu hóa mới.
- Các mô hình MiniMax-01 có khả năng cạnh tranh với các mô hình hàng đầu như GPT-4 và Claude-3.5, đặc biệt là trong các bài kiểm tra ngữ cảnh dài.
- MiniMax-Text-01 đã đạt độ chính xác 100% trong bài kiểm tra Needle-In-A-Haystack với ngữ cảnh 4 triệu token.
- MiniMax dự định cập nhật thường xuyên để mở rộng khả năng của các mô hình, bao gồm các cải tiến về mã và đa phương tiện.
- Công ty xem việc nguồn mở là bước tiến để xây dựng năng lực AI cơ bản cho lĩnh vực AI agent đang phát triển.
- MiniMax mời gọi các nhà phát triển và nhà nghiên cứu tham gia khám phá khả năng của MiniMax-01 và mở rộng hợp tác.

📌 MiniMax đã ra mắt mô hình LLM nguồn mở MiniMax-01 với ngữ cảnh 4 triệu token, vượt trội so với đối thủ. Mô hình hứa hẹn biến 2025 thành năm cách mạng cho AI agent với các tính năng cạnh tranh và giá cả hợp lý.

https://venturebeat.com/ai/minimax-unveils-its-own-open-source-llm-with-industry-leading-4m-token-context/

Sky-T1, mô hình AI lý luận mở nguồn đầu tiên có thể được đào tạo với chi phí chỉ dưới 450 USD

- Sky-T1-32B-Preview là mô hình AI lý luận mở nguồn đầu tiên, được phát triển bởi nhóm nghiên cứu NovaSky từ UC Berkeley.
- Mô hình này cạnh tranh với phiên bản trước của mô hình o1 từ OpenAI trên nhiều tiêu chuẩn quan trọng.
- Sky-T1 được đào tạo với chi phí dưới 450 USD, cho thấy khả năng phát triển các mô hình AI lý luận với chi phí thấp và hiệu quả.
- Trước đây, chi phí để đào tạo một mô hình có hiệu suất tương tự thường lên tới hàng triệu USD.
- Việc sử dụng dữ liệu đào tạo tổng hợp đã giúp giảm thiểu chi phí, ví dụ như Palmyra X 004 chỉ tốn 700.000 USD để phát triển.
- Mô hình lý luận tự kiểm tra tính chính xác của chính nó, giúp giảm thiểu sai lầm hơn nhiều mô hình khác.
- Mặc dù Sky-T1 mất thời gian lâu hơn để đưa ra giải pháp (thường từ vài giây đến vài phút), nhưng độ tin cậy cao hơn trong các lĩnh vực như vật lý, khoa học và toán học.
- Nhóm NovaSky đã sử dụng mô hình QwQ-32B-Preview của Alibaba để tạo dữ liệu đào tạo cho Sky-T1, sau đó tinh chỉnh dữ liệu và cấu trúc lại với GPT-4o-mini của OpenAI.
- Việc đào tạo Sky-T1 với 32 tỷ tham số mất khoảng 19 giờ, sử dụng 8 GPU Nvidia H100.
- Sky-T1 có hiệu suất tốt hơn phiên bản preview của o1 trên MATH500, một bộ thách thức toán học ở mức độ cạnh tranh.
- Mặc dù vậy, Sky-T1 không đạt được hiệu suất như phiên bản preview của o1 trên GPQA-Diamond, tập hợp các câu hỏi về vật lý, sinh học và hóa học.
- OpenAI dự kiến sẽ phát hành một mô hình lý luận tốt hơn, o3, trong những tuần tới.
- Nhóm NovaSky cho biết Sky-T1 chỉ đánh dấu sự khởi đầu cho hành trình phát triển các mô hình mở nguồn với khả năng lý luận nâng cao.
- Họ hướng tới việc phát triển các mô hình hiệu quả hơn mà vẫn duy trì hiệu suất lý luận mạnh mẽ và khám phá các kỹ thuật tiên tiến để nâng cao độ chính xác tại thời điểm kiểm tra.

📌 NovaSky đã công bố Sky-T1, mô hình AI lý luận mở nguồn đầu tiên, với chi phí đào tạo chỉ 450 USD. Mô hình này cạnh tranh với o1 của OpenAI và hứa hẹn mở ra các cơ hội mới cho AI lý luận trong tương lai.

https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/

Microsoft vừa phát hành mô hình Phi-4 hoàn toàn mã nguồn mở trên Hugging Face

- Microsoft vừa công bố mô hình Phi-4 là một dự án mã nguồn mở hoàn toàn, có thể tải trên nền tảng Hugging Face.
- Mô hình Phi-4 có 14 tỷ tham số và được thiết kế để tối ưu hóa hiệu suất trong các tác vụ reasoning và xử lý ngôn ngữ.
- Trước khi trở thành mã nguồn mở, Phi-4 đã được giới thiệu trên nền tảng Azure AI Foundry và được sử dụng với giấy phép nghiên cứu.
- Mô hình đạt điểm số hơn 80% trong các bài kiểm tra như MATH và MGSM, vượt trội so với các mô hình lớn hơn như Gemini Pro của Google và GPT-4o-mini.
- Phi-4 nổi bật với khả năng lập luận toán học xuất sắc, rất hữu ích cho các lĩnh vực như tài chính, kỹ thuật và nghiên cứu khoa học.
- Quá trình đào tạo của Phi-4 sử dụng 9,8 triệu tỉ token từ các bộ dữ liệu công khai và tổng hợp, bao gồm tài liệu học thuật và dữ liệu giả lập.
- Mặc dù mô hình này chủ yếu tối ưu cho tiếng Anh, nhưng cũng hỗ trợ nội dung đa ngôn ngữ (8%).
- Microsoft đã thực hiện các quy trình bảo mật và điều chỉnh để đảm bảo hiệu suất và độ tin cậy của mô hình.
- Việc phát hành mã nguồn mở còn mang đến cơ hội cho các doanh nghiệp sử dụng Phi-4 trong các ứng dụng thương mại mà không cần xin phép từ Microsoft.
- Mô hình Phi-4 minh chứng rằng các mô hình nhỏ hơn, được thiết kế tốt có thể đạt kết quả tương tự hoặc tốt hơn so với các mô hình lớn, từ đó giảm chi phí và tiêu thụ năng lượng.

📌 Mô hình Phi-4 của Microsoft, vừa được phát hành mã nguồn mở trên Hugging Face, với 14 tỷ tham số, chứng tỏ rằng các mô hình nhỏ có thể đạt hiệu suất cao, tạo cơ hội cho nhiều nhà phát triển và doanh nghiệp khai thác công nghệ AI tiết kiệm hơn.

https://venturebeat.com/ai/microsoft-makes-powerful-phi-4-model-fully-open-source-on-hugging-face/

NVIDIA công bố dòng mô hình Nemotron mới, tích hợp Llama và Cosmos cho AI agents

-  NVIDIA công bố dòng mô hình ngôn ngữ lớn nguồn mở Llama Nemotron, xây dựng trên nền tảng Llama - bộ mô hình đã được tải xuống hơn 650 triệu lần

-  Dòng sản phẩm bao gồm hai họ mô hình chính:
  - Llama Nemotron: Tập trung vào xử lý ngôn ngữ
  - Cosmos Nemotron: Chuyên về thị giác-ngôn ngữ

-  Ba phiên bản mô hình được cung cấp:
  - Nano: Tối ưu cho ứng dụng thời gian thực, độ trễ thấp
  - Super: Độ chính xác cao, hiệu suất tốt trên một GPU
  - Ultra: Độ chính xác cao nhất, thiết kế cho quy mô trung tâm dữ liệu

-  Các tính năng chính của nền tảng:
  - Tích hợp dịch vụ vi mô NVIDIA NIM
  - Hỗ trợ tìm kiếm và tóm tắt video
  - Khả năng tùy chỉnh cho từng doanh nghiệp
  - Tích hợp NVIDIA NeMo Retriever để kết nối với dữ liệu doanh nghiệp

-  Các đối tác hàng đầu đã áp dụng:
  - SAP với nền tảng Joule
  - ServiceNow cho dịch vụ AI tác tử

-  Mô hình được tối ưu hóa thông qua:
  - Kỹ thuật cắt tỉa (pruning)
  - Huấn luyện với bộ dữ liệu chất lượng cao
  - Tích hợp khả năng theo dõi hướng dẫn, trò chuyện, lập trình

-  Tính khả dụng:
  - Miễn phí cho thành viên NVIDIA Developer Program
  - Triển khai thương mại thông qua nền tảng NVIDIA AI Enterprise
  - Hỗ trợ đa dạng môi trường: đám mây, trung tâm dữ liệu, máy tính cá nhân

📌 NVIDIA định hình lại tương lai AI tác tử với dòng Nemotron, cung cấp giải pháp toàn diện từ biên đến trung tâm dữ liệu. Mô hình nguồn mở Llama đạt 650 triệu lượt tải xuống, kết hợp 3 phiên bản (Nano, Super, Ultra) đáp ứng mọi nhu cầu triển khai.

https://blogs.nvidia.com/blog/nemotron-model-families/

Nvidia ra mắt nền tảng Cosmos - bước đột phá ngành robot và xe tự hành với 20 triệu giờ dữ liệu thực tế

- Nvidia vừa công bố nền tảng AI Cosmos tại triển lãm CES 2025 ở Las Vegas, nhằm cách mạng hóa việc phát triển robot và xe tự hành

- Nền tảng này sử dụng world foundation models (WFMs) - các mạng neural có khả năng tạo mô phỏng video chính xác

- Cosmos được huấn luyện trên bộ dữ liệu khổng lồ gồm 20 triệu giờ thước phim thực tế về robot và lái xe

- Nền tảng cung cấp 3 loại mô hình: Nano, Super và Ultra cho các mức hiệu suất khác nhau

- Công nghệ cho phép xử lý 20 triệu giờ dữ liệu chỉ trong 14 ngày sử dụng GPU của Nvidia, thay vì mất nhiều năm với phương pháp thông thường

- Các công ty lớn đã áp dụng sớm bao gồm: Uber, Agility Robotics và các công ty xe tự hành Waabi, Wayve

- Cosmos được phát hành dưới dạng phần mềm nguồn mở thông qua nền tảng Hugging Face

- Nền tảng hỗ trợ tạo dữ liệu tổng hợp, cho phép nhà phát triển thử nghiệm trong môi trường ảo mà không cần dữ liệu thực tế lớn

- Theo giáo sư Farshid Amirabdollahian, các thách thức vẫn tồn tại bao gồm: chi phí, an toàn, quy định và nhận thức của công chúng

📌 Nvidia Cosmos đánh dấu bước tiến quan trọng trong ngành robot với khả năng xử lý 20 triệu giờ dữ liệu thực tế chỉ trong 14 ngày. Nền tảng nguồn mở này đang được các công ty hàng đầu như Uber và Agility Robotics áp dụng, hứa hẹn mang lại cuộc cách mạng trong phát triển robot và xe tự hành.

https://www.newsweek.com/nvidia-cosmos-ai-chatgpt-moment-robotics-2010961

Deepseek v3 từ Trung quốc, nhận nhầm mình là ChatGPT

- Deepseek, phòng thí nghiệm AI từ Trung quốc vừa phát hành mô hình AI nguồn mở Deepseek v3, vượt trội so với nhiều đối thủ trong các bài kiểm tra phổ biến

- Mô hình này thể hiện hiện tượng kỳ lạ khi tự nhận mình là Chatgpt và khẳng định là phiên bản của GPT-4 được phát hành năm 2023

- Trong 8 lần thử nghiệm, Deepseek v3 tự nhận là Chatgpt (v4) 5 lần và chỉ nhận đúng là Deepseek v3 3 lần

- Khi được hỏi về API của Deepseek, mô hình này lại đưa ra hướng dẫn sử dụng API của OpenAI

- Mike Cook, nghiên cứu viên tại King's College London, cho rằng hiện tượng này có thể do mô hình được huấn luyện trên dữ liệu có chứa phản hồi từ Chatgpt

- Điều khoản dịch vụ của OpenAI cấm người dùng sử dụng đầu ra để phát triển các mô hình cạnh tranh

- Sam Altman, CEO OpenAI, đã đăng bài chỉ trích: "Sao chép điều gì đó đã hoạt động thì tương đối dễ. Làm điều mới mẻ, rủi ro và khó khăn khi không biết liệu nó có hoạt động hay không mới thực sự khó"

- Theo ước tính, 90% nội dung web có thể được tạo bởi AI vào năm 2026

- Heidy Khlaaf, nhà khoa học trưởng về AI tại AI Now Institute, cho rằng việc "chưng cất" kiến thức từ mô hình hiện có có thể giúp tiết kiệm chi phí cho các nhà phát triển

📌 Deepseek v3 từ Trung quốc cho thấy vấn đề nghiêm trọng về dữ liệu huấn luyện AI khi tự nhận mình là Chatgpt trong 5/8 lần thử nghiệm. Hiện tượng này cảnh báo về nguy cơ 90% nội dung web sẽ do AI tạo ra vào 2026, ảnh hưởng đến chất lượng dữ liệu huấn luyện trong tương lai.

https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/

Deepseek V3: Mô hình ngôn ngữ nguồn mở mạnh nhất Trung Quốc ra mắt với tốc độ và hiệu năng vượt trội

- Deepseek V3 là mô hình ngôn ngữ nguồn mở mạnh mẽ nhất do công ty AI Trung Quốc phát triển.
- Mô hình này sử dụng kiến trúc Mixture-of-Experts (MoE) với 671 tỷ tham số, trong đó 37 tỷ tham số được kích hoạt cho mỗi token.
- So với phiên bản V2, V3 đã tăng gần gấp 3 lần số tham số, từ 236 tỷ lên 671 tỷ.
- V3 được huấn luyện với 14.8 triệu tỷ token, gấp gần 2 lần dữ liệu huấn luyện của V2.
- Thời gian huấn luyện tổng cộng là 2.788 triệu giờ GPU H800 với chi phí khoảng 5.576 triệu USD.
- Điều đáng chú ý là Deepseek chỉ sử dụng 2.000 GPU, rất ít so với 100.000 GPU mà các công ty lớn như Meta hay OpenAI thường sử dụng.
- Tốc độ xử lý của V3 đạt 60 token mỗi giây, nhanh gấp 3 lần so với phiên bản trước.
- Mô hình này đạt điểm cao nhất trong 3 trong 6 bài kiểm tra lớn về LLM, đặc biệt là bài kiểm tra MATH 500 với tỷ lệ chính xác 90.2%.
- Deepseek V3 cạnh tranh sòng phẳng với các mô hình độc quyền như GPT-4o và Claude-3.5-Sonnet.
- Mức giá API sẽ giữ nguyên cho đến ngày 8 tháng 2, sau đó sẽ là 0.27 USD cho mỗi triệu token đầu vào và 1.10 USD cho mỗi triệu token đầu ra.
- Deepseek cấp phép theo Giấy phép Deepseek 1.0, cho phép người dùng tái sản xuất, sửa đổi và phân phối mô hình, trừ các ứng dụng quân sự và dịch vụ pháp lý tự động hoàn toàn.
- Công ty dự định sẽ cải thiện kiến trúc mô hình và phá vỡ giới hạn của Transformer, đồng thời hỗ trợ chiều dài ngữ cảnh không giới hạn.

📌 Deepseek V3 ra mắt với 671 tỷ tham số, tốc độ 60 token/giây, và đạt tỷ lệ chính xác 90.2% trong bài kiểm tra MATH 500. Với chi phí hợp lý, mô hình này đang cạnh tranh với các sản phẩm hàng đầu như GPT-4o và Claude-3.5.

https://the-decoder.com/deepseek-v3-emerges-as-chinas-most-powerful-open-source-language-model-to-date/

DeepSeek-V3: Mô hình AI cực lớn mã nguồn mở đánh bại Llama và Qwen ngay từ khi ra mắt

- DeepSeek, một công ty khởi nghiệp AI Trung Quốc, đã ra mắt mô hình DeepSeek-V3, mô hình AI mã nguồn mở lớn nhất với 671B thông số.
- DeepSeek-V3 sử dụng kiến trúc mixture-of-experts, cho phép chọn lọc các thông số để thực hiện nhiệm vụ hiệu quả và chính xác.
- Mô hình này đã vượt qua các mô hình mã nguồn mở hàng đầu hiện tại như Llama 3.1-405B và Qwen 2.5-72B, có hiệu suất gần tương đương với các mô hình đóng của Anthropic và OpenAI.
- DeepSeek-V3 áp dụng kiến trúc multi-head latent attention (MLA) cùng với DeepSeekMoE, cho phép sử dụng 37B thông số cho mỗi token.
- Hai cải tiến chính trong mô hình bao gồm chiến lược tải cân bằng không mất thêm chi phí và khả năng dự đoán nhiều token cùng lúc (MTP), giúp model hoạt động nhanh gấp 3 lần, tạo ra 60 token mỗi giây.
- Trong quá trình huấn luyện, DeepSeek-V3 được huấn luyện trên 14.8T token chất lượng cao và đa dạng, với chiều dài ngữ cảnh tối đa được mở rộng đến 128K.
- Tổng chi phí huấn luyện DeepSeek-V3 vào khoảng 5,57 triệu USD, thấp hơn nhiều so với hàng trăm triệu USD thường thấy ở các mô hình ngôn ngữ lớn khác.
- DeepSeek-V3 đạt điểm số cao nhất trong các bài kiểm tra liên quan đến tiếng Trung và toán học, với điểm số 90.2 trong bài kiểm tra Math-500.
- Mô hình này hiện có sẵn trên GitHub theo giấy phép MIT và có thể được thử nghiệm qua nền tảng DeepSeek Chat.
- Giá trị API của DeepSeek sẽ giữ nguyên cho đến ngày 8 tháng 2, sau đó sẽ tính phí 0.27 USD/triệu token đầu vào.

📌 DeepSeek-V3 ra mắt với 671B thông số và thực hiện 2788K giờ GPU, vượt qua Llama và Qwen, khẳng định vị thế của AI mã nguồn mở với hiệu suất ấn tượng trong các bài kiểm tra toán học và ngôn ngữ.

https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/

Hugging Face ra mắt FineMath - kho dữ liệu 50 tỷ token định hình lại cách máy tính học toán

- Hugging Face vừa công bố FineMath - bộ dữ liệu nguồn mở toàn diện nhằm cải thiện khả năng tiếp cận nội dung toán học chất lượng cao cho người học và nhà nghiên cứu

- FineMath gồm 2 phiên bản chính:
  + FineMath-3+: 34 tỷ token từ 21,4 triệu tài liệu, định dạng Markdown và LaTeX
  + FineMath-4+: 9,6 tỷ token từ 6,7 triệu tài liệu, tập trung vào nội dung chất lượng cao với giải thích chi tiết

- Quy trình tạo FineMath gồm nhiều giai đoạn:
  + Trích xuất dữ liệu thô từ CommonCrawl sử dụng công cụ Resiliparse
  + Đánh giá bằng bộ phân loại tùy chỉnh dựa trên Llama-3.1-70B-Instruct
  + Loại bỏ trùng lặp và đánh giá đa ngôn ngữ
  + Khắc phục vấn đề lọc ký hiệu LaTeX không chính xác

- Hiệu suất vượt trội trên các benchmark:
  + Cải thiện đáng kể về khả năng lập luận và độ chính xác toán học
  + Kết hợp với InfiMM-WebMath tạo bộ dữ liệu khoảng 50 tỷ token
  + Tích hợp dễ dàng vào các pipeline học máy

- Kế hoạch phát triển trong tương lai:
  + Mở rộng hỗ trợ ngôn ngữ ngoài tiếng Anh
  + Cải thiện trích xuất và bảo toàn ký hiệu toán học
  + Phát triển các chỉ số đánh giá chất lượng nâng cao
  + Tạo các tập con chuyên biệt cho từng cấp độ giáo dục

📌 Hugging Face đã tạo bước đột phá với FineMath - bộ dữ liệu nguồn mở 50 tỷ token cho AI học toán. Dataset này bao gồm 34 tỷ token từ FineMath-3+ và 9,6 tỷ token từ FineMath-4+, hỗ trợ cải thiện hiệu suất trên các benchmark như GSM8k và MATH.

https://www.marktechpost.com/2024/12/20/hugging-face-releases-finemath-the-ultimate-open-math-pre-training-dataset-with-50b-tokens/

Các mô hình AI nguồn mở của Trung Quốc đang vượt mặt đối thủ Mỹ để thống trị toàn cầu

• Các mô hình AI của Trung quốc đang trở nên phổ biến và đang bắt kịp, thậm chí vượt qua các đối thủ Mỹ về hiệu suất, trong bối cảnh Washington tiếp tục hạn chế Trung quốc tiếp cận chip AI tiên tiến.

• Qwen - gia đình mô hình AI được tạo bởi Alibaba đang là mô hình được tải xuống nhiều nhất trên nền tảng Hugging Face, với hiệu suất vượt trội trên các tiêu chuẩn cạnh tranh.

• DeepSeek, một startup Trung quốc, vừa ra mắt mô hình DeepSeek-R1 có thể cạnh tranh với OpenAI's o1 trong các tác vụ suy luận phức tạp.

Các công ty Trung quốc đang tập trung vào chiến lược nguồn mở để thúc đẩy đổi mới và mở rộng sử dụng toàn cầu, khác với cách tiếp cận đóng của OpenAI.

• Mặc dù bị hạn chế tiếp cận chip Nvidia, các công ty Trung quốc vẫn phát triển được các mô hình AI tiên tiến nhờ dự trữ GPU và phát triển chip nội địa.

• Huawei, Baidu và Alibaba đang đầu tư mạnh vào thiết kế chip bán dẫn để thay thế Nvidia.

• Các chuyên gia nhận định rằng việc cấm vận chip của Mỹ sẽ không ngăn cản được Trung quốc phát triển cơ sở hạ tầng AI riêng.

• Các công ty Trung quốc xem LLM như trung tâm của hệ sinh thái công nghệ tương lai, tập trung vào việc xây dựng cộng đồng phát triển ứng dụng.

📌 Trung quốc đang dẫn đầu cuộc đua AI với mô hình Qwen của Alibaba được tải xuống nhiều nhất trên Hugging Face. Chiến lược nguồn mở và phát triển chip nội địa giúp vượt qua hạn chế từ Mỹ, đặt nền móng cho việc thống trị hệ sinh thái AI toàn cầu.

https://www.cnbc.com/2024/12/17/chinese-ai-models-are-popular-globally-and-are-beating-us-rivals-in-some-areas.html

Deepseek-AI ra mắt bộ 3 mô hình AI ngôn ngữ-thị giác siêu mạnh

• Deepseek-ai vừa công bố bộ mô hình Deepseek-vl2 nguồn mở gồm 3 phiên bản với số tham số khác nhau:
- Deepseek-vl2-tiny: 3,37 tỷ tham số (1,0 tỷ tham số được kích hoạt)
- Deepseek-vl2-small: 16,1 tỷ tham số (2,8 tỷ tham số được kích hoạt) 
- Deepseek-vl2: 27,5 tỷ tham số (4,5 tỷ tham số được kích hoạt)

• Mô hình tích hợp các công nghệ tiên tiến:
- Dynamic tiling để mã hóa thông tin thị giác
- Cơ chế multi-head latent attention cho xử lý ngôn ngữ
- Framework deepseek-moe tối ưu hiệu năng

• Kết quả đánh giá ấn tượng:
- Độ chính xác 92,3% trong các tác vụ ocr với phiên bản small
- Cải thiện 15% độ chính xác trong visual grounding so với các mô hình tiền nhiệm
- Tiết kiệm 30% tài nguyên tính toán nhưng vẫn duy trì hiệu năng tốt nhất

• Các điểm nổi bật:
- Chia nhỏ ảnh độ phân giải cao thành các tile nhỏ hơn giúp cải thiện trích xuất đặc trưng
- Ba cấu hình linh hoạt phù hợp nhiều ứng dụng khác nhau
- Tập dữ liệu đa dạng giúp mô hình tổng quát hóa tốt
- Framework tính toán thưa thớt chỉ kích hoạt tham số cần thiết

📌 Deepseek-vl2 là bộ mô hình nguồn mở đột phá với 3 phiên bản từ 3b đến 27b tham số, đạt độ chính xác 92,3% trong ocr và tiết kiệm 30% tài nguyên. Kiến trúc moe cùng các cơ chế dynamic tiling và multi-head latent attention giúp mô hình xử lý hiệu quả cả ngôn ngữ và hình ảnh.

https://www.marktechpost.com/2024/12/15/deepseek-ai-open-sourced-deepseek-vl2-series-three-models-of-3b-16b-and-27b-parameters-with-mixture-of-experts-moe-architecture-redefining-vision-language-ai/

 

DeepSeek-AI Công Bố Open Source Bộ DeepSeek-VL2: Ba Mô Hình với 3 Tỉ, 16 Tỉ và 27 Tỉ Tham Số, Định Nghĩa Lại AI Kết Hợp Thị Giác và Ngôn Ngữ

Tác giả: Asif Razzaq - Ngày 15/12/2024

Việc tích hợp khả năng xử lý hình ảnh và ngôn ngữ trong AI đã tạo nên những đột phá trong các mô hình kết hợp thị giác và ngôn ngữ (Vision-Language Models - VLMs). Những mô hình này có khả năng xử lý và hiểu đồng thời dữ liệu hình ảnh và văn bản, mở ra nhiều ứng dụng như chú thích hình ảnh, trả lời câu hỏi dựa trên hình ảnh, nhận diện ký tự quang học (OCR), và phân tích nội dung đa phương tiện. Các VLMs đóng vai trò quan trọng trong việc phát triển hệ thống tự trị, cải thiện tương tác giữa con người và máy tính, và các công cụ xử lý tài liệu hiệu quả. Tuy nhiên, xử lý dữ liệu hình ảnh độ phân giải cao đồng thời với đầu vào văn bản phong phú vẫn là thách thức lớn trong lĩnh vực này.

Hạn chế của các mô hình hiện tại

Các nghiên cứu hiện có đã giải quyết một số hạn chế bằng cách sử dụng bộ mã hóa hình ảnh tĩnh, nhưng điều này khiến các mô hình thiếu tính thích ứng với dữ liệu độ phân giải cao và kích thước đầu vào thay đổi. Các mô hình ngôn ngữ được huấn luyện trước, khi kết hợp với bộ mã hóa hình ảnh, thường thiếu hiệu quả do không được tối ưu hóa cho các nhiệm vụ đa phương tiện. Một số mô hình sử dụng tính toán thưa (sparse computation) để quản lý độ phức tạp, nhưng thường không đạt độ chính xác cao trên nhiều tập dữ liệu khác nhau. Hơn nữa, dữ liệu huấn luyện của các mô hình này thường thiếu đa dạng và không đủ chi tiết theo từng nhiệm vụ, làm giảm hiệu suất trong các tác vụ chuyên biệt như phân tích biểu đồ hoặc tài liệu dày đặc.


DeepSeek-VL2: Bộ mô hình VLM tiên tiến

Các nhà nghiên cứu từ DeepSeek-AI đã giới thiệu DeepSeek-VL2, một thế hệ mô hình thị giác-ngôn ngữ dựa trên kiến trúc hỗn hợp chuyên gia (Mixture-of-Experts - MoE). Bộ mô hình này tích hợp các cải tiến tiên tiến, bao gồm:

  • Dynamic Tiling: Giúp mã hóa hình ảnh độ phân giải cao mà không làm mất chi tiết quan trọng.
  • Multi-head Latent Attention: Tăng cường hiệu quả xử lý văn bản với khối lượng lớn.
  • DeepSeek-MoE Framework: Kích hoạt chỉ một phần nhỏ tham số của mô hình, tối ưu hóa hiệu quả và khả năng mở rộng.

Các cấu hình của DeepSeek-VL2

DeepSeek-VL2 được giới thiệu với ba cấu hình:

  • DeepSeek-VL2-Tiny: 3,37 tỉ tham số (1 tỉ tham số được kích hoạt).
  • DeepSeek-VL2-Small: 16,1 tỉ tham số (2,8 tỉ tham số được kích hoạt).
  • DeepSeek-VL2: 27,5 tỉ tham số (4,5 tỉ tham số được kích hoạt).

Các cấu hình này đảm bảo khả năng thích ứng với nhu cầu ứng dụng và ngân sách tính toán khác nhau.


Hiệu suất vượt trội

DeepSeek-VL2 được thiết kế để tối ưu hóa hiệu năng trong khi giảm thiểu yêu cầu tính toán. Một số thành tựu của mô hình:

  • Xử lý hình ảnh chi tiết: Dynamic Tiling cho phép phân tách hình ảnh độ phân giải cao thành các phần nhỏ, tối ưu hóa việc trích xuất đặc trưng.
  • Hiệu quả vượt trội: Mô hình yêu cầu ít hơn 30% tài nguyên tính toán so với các mô hình tương đương mà vẫn duy trì độ chính xác tiên tiến.
  • Độ chính xác cao: Đạt 92,3% chính xác trong tác vụ OCR, vượt xa các mô hình hiện tại. Trong bài toán định vị trực quan (visual grounding), mô hình cải thiện độ chính xác lên đến 15%.
  • Khả năng tổng quát hóa tốt: DeepSeek-VL2 đạt điểm số dẫn đầu trong các tiêu chuẩn lý luận đa phương tiện.

Điểm nổi bật của DeepSeek-VL2

  1. Phân mảnh hình ảnh động: Cách tiếp cận này cải thiện việc trích xuất đặc trưng và giảm bớt gánh nặng tính toán, đặc biệt hiệu quả trong phân tích tài liệu dày đặc và bố cục phức tạp.
  2. Ba cấu hình đa dạng: Tiny, Small và Standard giúp đáp ứng nhiều nhu cầu, từ triển khai nhẹ đến các tác vụ đòi hỏi nhiều tài nguyên.
  3. Dữ liệu đa nhiệm toàn diện: Bộ dữ liệu huấn luyện bao quát các nhiệm vụ như OCR và định vị trực quan, nâng cao khả năng tổng quát hóa và hiệu suất theo từng nhiệm vụ.
  4. Tính toán thưa: Chỉ kích hoạt các tham số cần thiết, giảm đáng kể chi phí tính toán mà không làm giảm độ chính xác.

Kết luận

DeepSeek-VL2 là bộ mô hình kết hợp thị giác và ngôn ngữ mã nguồn mở với ba cấu hình (1,8 tỉ, 2,8 tỉ và 4,5 tỉ tham số kích hoạt). Bộ mô hình này mang lại khả năng mở rộng, hiệu quả tính toán cao và thích ứng với nhiệm vụ, vượt qua những hạn chế quan trọng của các mô hình hiện có. Các cơ chế đột phá như Dynamic Tiling và Multi-head Latent Attention cho phép xử lý hình ảnh chính xác và văn bản hiệu quả, đạt được kết quả tiên tiến trong các nhiệm vụ như OCR và định vị trực quan.

DeepSeek-VL2 thiết lập một tiêu chuẩn mới trong hiệu năng AI, mang lại những đột phá trong ứng dụng thực tiễn.

Hugging Face ra mắt dịch vụ HUGS giúp triển khai AI tạo sinh với chi phí thấp 1 USD/giờ/container

• Hugging Face vừa công bố dịch vụ mới có tên Hugging Face Generative AI Services (HUGS) nhằm đơn giản hóa việc triển khai và mở rộng các ứng dụng AI tạo sinh sử dụng mô hình nguồn mở.

• HUGS được xây dựng dựa trên các công nghệ của Hugging Face như Transformers và Text Generation Inference (TGI), hứa hẹn hiệu suất tối ưu trên nhiều bộ tăng tốc phần cứng khác nhau.

• Chi phí dịch vụ chỉ 1 USD/giờ/container khi sử dụng trên AWS hoặc Google Cloud, kèm theo gói dùng thử miễn phí 5 ngày trên AWS.

• Dịch vụ tự động tối ưu hóa mô hình cho từng môi trường phần cứng cụ thể, giúp đạt hiệu suất cao mà không cần cấu hình thủ công. Hỗ trợ GPU của NVIDIA, AMD và sắp tới là AWS Inferentia và Google TPUs.

• HUGS hỗ trợ nhiều mô hình nổi tiếng như Llama, Gemma và sẽ sớm bổ sung các mô hình multimodal như Idefics, Llava cùng các mô hình embedding như BGE và Jina.

• Dịch vụ sử dụng API chuẩn hóa tương thích với giao diện mô hình của OpenAI, giúp các nhà phát triển dễ dàng chuyển đổi mã nguồn.

• Đặc biệt phù hợp với các startup khi cung cấp triển khai một chạm trên DigitalOcean mà không tính phí thêm ngoài chi phí GPU Droplets tiêu chuẩn.

• Doanh nghiệp lớn có thể mở rộng ứng dụng mà không bị phụ thuộc vào một nhà cung cấp đám mây hay API độc quyền. Hugging Face cũng cung cấp giải pháp triển khai tùy chỉnh qua Enterprise Hub.

📌 Hugging Face tạo bước đột phá với HUGS - dịch vụ triển khai AI tạo sinh giá rẻ chỉ 1 USD/giờ/container, hỗ trợ đa dạng mô hình nguồn mở và tự động tối ưu hóa trên nhiều nền tảng phần cứng, mở ra cơ hội lớn cho startup tiếp cận công nghệ AI.

https://www.techradar.com/pro/Hugging-Face-launches-new-an-open-source-tool-for-affordable-AI-deployment

Meta phát hành Llama 3.3 hiệu năng cao, 70 tỷ tham số, tiết kiệm chi phí GPU

- Meta vừa công bố Llama 3.3, mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới nhất, do Ahmad Al-Dahle - Phó chủ tịch AI tạo sinh của Meta thông báo

- Model có 70 tỷ tham số nhưng cho kết quả tương đương với phiên bản Llama 3.1 có 405 tỷ tham số, giúp tiết kiệm đáng kể tài nguyên tính toán

- Llama 3.3 được huấn luyện trên:
  + 15 nghìn tỷ token từ dữ liệu công khai
  + 25 triệu ví dụ được tạo tổng hợp
  + Sử dụng 39,3 triệu giờ GPU H100-80GB

- Ưu điểm nổi bật:
  + Độ chính xác 91,1% trong các tác vụ suy luận đa ngôn ngữ
  + Hỗ trợ nhiều ngôn ngữ: Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái và Anh
  + Chi phí sinh token chỉ 0,01 USD/triệu token
  + Cửa sổ ngữ cảnh 128k token (khoảng 400 trang sách)

- Về môi trường:
  + Phát thải 11.390 tấn CO2
  + Meta sử dụng năng lượng tái tạo để bù đắp, đạt mức phát thải ròng bằng 0

- Tiết kiệm tài nguyên:
  + Giảm bộ nhớ GPU từ 1.944 GB xuống còn 4 GB
  + Tiết kiệm đến 600.000 USD chi phí GPU ban đầu
  + Giảm 24 lần tải GPU so với GPU H100 tiêu chuẩn 80 GB

📌 Llama 3.3 đánh dấu bước tiến mới trong việc tối ưu mô hình AI: nhỏ gọn với 70 tỷ tham số nhưng hiệu năng ngang ngửa model 405 tỷ tham số, tiết kiệm 600.000 USD chi phí GPU, đạt độ chính xác 91,1% trong xử lý đa ngôn ngữ và hoạt động với phát thải carbon ròng bằng 0.



https://venturebeat.com/ai/meta-launches-open-source-llama-3-3-shrinking-powerful-bigger-model-into-smaller-size/

Meta ra mắt Llama 3.3 mã nguồn mở, thu nhỏ mô hình mạnh mẽ lớn hơn thành kích thước nhỏ hơn

@carlfranzen
6 tháng 12, 2024, 10:24 AM

 

Phó Chủ tịch AI tạo sinh của Meta, Ahmad Al-Dahle, hôm nay đã công bố trên mạng xã hội đối thủ X về việc phát hành Llama 3.3, mô hình ngôn ngữ lớn (LLM) đa ngôn ngữ mã nguồn mở mới nhất từ công ty mẹ của Facebook, Instagram, WhatsApp và Quest VR.

Ông viết: “Llama 3.3 cải thiện hiệu năng cốt lõi với chi phí thấp hơn đáng kể, giúp cộng đồng mã nguồn mở dễ dàng tiếp cận hơn bao giờ hết.”

Với 70 tỷ tham số — các cài đặt điều chỉnh hành vi của mô hình — Llama 3.3 mang lại kết quả tương đương với mô hình 405 tỷ tham số của Llama 3.1 phát hành mùa hè vừa qua, nhưng với chi phí và yêu cầu tính toán thấp hơn nhiều, chẳng hạn như dung lượng GPU cần thiết để chạy mô hình trong quá trình suy luận.

Mô hình được thiết kế để cung cấp hiệu năng hàng đầu và tính tiếp cận cao trong một gói gọn gàng hơn so với các mô hình nền tảng trước đó.

Bản quyền và các điều khoản sử dụng

Llama 3.3 được cung cấp theo Thỏa thuận Cấp phép Cộng đồng Llama 3.3, cấp phép không độc quyền và miễn phí bản quyền cho việc sử dụng, sao chép, phân phối và sửa đổi mô hình cũng như các đầu ra của nó. Các nhà phát triển tích hợp Llama 3.3 vào sản phẩm hoặc dịch vụ phải ghi nhận thích hợp, chẳng hạn “Được xây dựng với Llama,” và tuân thủ Chính sách Sử dụng Chấp nhận được, cấm các hoạt động như tạo nội dung gây hại, vi phạm pháp luật hoặc hỗ trợ các cuộc tấn công mạng. Mặc dù giấy phép này thường miễn phí, các tổ chức có trên 700 triệu người dùng hoạt động hàng tháng phải mua giấy phép thương mại trực tiếp từ Meta.

Trong một tuyên bố, nhóm AI tại Meta nhấn mạnh tầm nhìn này: “Llama 3.3 mang lại hiệu năng và chất lượng hàng đầu cho các trường hợp sử dụng dựa trên văn bản với chi phí suy luận chỉ bằng một phần nhỏ.”

Tiết kiệm chi phí và tài nguyên GPU

Một số ước tính sơ bộ:
Llama 3.1-405B yêu cầu từ 243 GB đến 1944 GB bộ nhớ GPU, theo blog Substratus. Trong khi đó, Llama 2-70B cũ hơn yêu cầu từ 42-168 GB bộ nhớ GPU, theo cùng nguồn blog, và một số tuyên bố chỉ cần 4 GB, hoặc như Exo Labs đã chứng minh, chỉ cần vài máy Mac có chip M4 và không cần GPU rời.

Nếu tiết kiệm GPU từ các mô hình tham số thấp hơn tiếp tục được duy trì, người dùng muốn triển khai các mô hình Llama mã nguồn mở mạnh mẽ nhất của Meta có thể tiết kiệm gần 1940 GB bộ nhớ GPU, tương đương với tải GPU giảm 24 lần trên một GPU Nvidia H100 80 GB tiêu chuẩn.

Với giá ước tính 25.000 USD mỗi GPU H100, khoản tiết kiệm ban đầu có thể lên tới 600.000 USD, chưa kể chi phí năng lượng liên tục.

Mô hình nhỏ gọn nhưng hiệu năng cao

Theo Meta AI trên X, mô hình Llama 3.3 vượt trội so với Llama 3.1-70B có cùng kích thước và cả mô hình Nova Pro mới của Amazon trong nhiều tiêu chuẩn đánh giá, như đối thoại đa ngôn ngữ, lý luận và các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) nâng cao (mặc dù Nova vượt trội hơn trong nhiệm vụ mã hóa HumanEval).

Llama 3.3 được huấn luyện trên 15 nghìn tỷ token từ dữ liệu “công khai” và tinh chỉnh trên hơn 25 triệu ví dụ tổng hợp, theo thông tin trong “thẻ mô hình” Meta đăng tải trên trang web.

Dựa trên 39,3 triệu giờ GPU trên phần cứng H100-80GB, quá trình phát triển mô hình cho thấy cam kết của Meta với hiệu quả năng lượng và bền vững.

Llama 3.3 dẫn đầu trong các nhiệm vụ lý luận đa ngôn ngữ với độ chính xác 91,1% trên MGSM, thể hiện hiệu quả hỗ trợ các ngôn ngữ như tiếng Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái Lan và tiếng Anh.

Tiết kiệm chi phí và thân thiện với môi trường

Llama 3.3 được tối ưu hóa đặc biệt cho suy luận chi phí thấp, với chi phí tạo token chỉ từ 0,01 USD mỗi triệu token.

Điều này làm cho mô hình rất cạnh tranh so với các đối thủ trong ngành như GPT-4 và Claude 3.5, với chi phí thấp hơn dành cho các nhà phát triển muốn triển khai các giải pháp AI tiên tiến.

Meta cũng nhấn mạnh trách nhiệm môi trường trong lần phát hành này. Dù quá trình huấn luyện đòi hỏi tài nguyên lớn, công ty đã sử dụng năng lượng tái tạo để bù đắp khí thải nhà kính, dẫn đến phát thải ròng bằng 0 trong giai đoạn huấn luyện. Lượng phát thải tại chỗ lên tới 11.390 tấn CO2 tương đương, nhưng các sáng kiến năng lượng tái tạo của Meta đảm bảo tính bền vững.

Các tính năng nâng cao và tùy chọn triển khai

Mô hình giới thiệu nhiều cải tiến, bao gồm cửa sổ ngữ cảnh dài hơn với 128.000 token (tương đương khoảng 400 trang sách), phù hợp cho việc tạo nội dung dài và các trường hợp sử dụng nâng cao khác.

Kiến trúc của mô hình tích hợp Grouped Query Attention (GQA), cải thiện khả năng mở rộng và hiệu năng trong quá trình suy luận.

Được thiết kế để phù hợp với sở thích người dùng về an toàn và tính hữu ích, Llama 3.3 sử dụng học tăng cường với phản hồi từ con người (RLHF) và tinh chỉnh giám sát (SFT). Các cải tiến này đảm bảo mô hình từ chối mạnh mẽ các yêu cầu không phù hợp và hành vi hỗ trợ giống như trợ lý, được tối ưu hóa cho các ứng dụng thực tế.

Llama 3.3 đã sẵn sàng để tải xuống qua Meta, Hugging Face, GitHub và các nền tảng khác, với các tùy chọn tích hợp cho các nhà nghiên cứu và nhà phát triển. Meta cũng cung cấp các tài nguyên như Llama Guard 3 và Prompt Guard để hỗ trợ người dùng triển khai mô hình một cách an toàn và có trách nhiệm.

Meta launches open source Llama 3.3, shrinking powerful bigger model into smaller size

 

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Meta’s VP of generative AI, Ahmad Al-Dahle took to rival social network X today to announce the release of Llama 3.3, the latest open-source multilingual large language model (LLM) from the parent company of Facebook, Instagram, WhatsApp and Quest VR.

As he wrote: “Llama 3.3 improves core performance at a significantly lower cost, making it even more accessible to the entire open-source community.”

 
 

With 70 billion parameters — or settings governing the model’s behavior — Llama 3.3 delivers results on par with Meta’s 405B parameter model from the Llama 3.1 from the summer, but at a fraction of the cost and computational overhead — e.g., the GPU capacity needed to run the model in an inference.

It’s designed to offer top-tier performance and accessibility yet in a smaller package than prior foundation models.

Meta’s Llama 3.3 is offered under the Llama 3.3 Community License Agreement, which grants a non-exclusive, royalty-free license for use, reproduction, distribution, and modification of the model and its outputs. Developers integrating Llama 3.3 into products or services must include appropriate attribution, such as “Built with Llama,” and adhere to an Acceptable Use Policy that prohibits activities like generating harmful content, violating laws, or enabling cyberattacks. While the license is generally free, organizations with over 700 million monthly active users must obtain a commercial license directly from Meta.

A statement from the AI at Meta team underscores this vision: “Llama 3.3 delivers leading performance and quality across text-based use cases at a fraction of the inference cost.”

How much savings are we talkin’ about, really? Some back-of-the-envelope math:

Llama 3.1-405B requires between 243 GB and 1944 GB of GPU memory, according to the Substratus blog (for the open source cross cloud substrate). Meanwhile, the older Llama 2-70B requires between 42-168 GB of GPU memory, according to the same blog, though same have claimed as low as 4 GB, or as Exo Labs has shown, a few Mac computers with M4 chips and no discrete GPUs.

Therefore, if the GPU savings for lower-parameter models holds up in this case, those looking to deploy Meta’s most powerful open source Llama models can expect to save up to nearly 1940 GB worth of GPU memory, or potentially, 24 times reduced GPU load for a standard 80 GB Nvidia H100 GPU.

At an estimated $25,000 per H100 GPU, that’s up to $600,000 in up-front GPU cost savings, potentially — not to mention the continuous power costs.

A highly performant model in a small form factor

According to Meta AI on X, the Llama 3.3 model handedly outperforms the identically sized Llama 3.1-70B as well as Amazon’s new Nova Pro model in several benchmarks such as multilingual dialogue, reasoning, and other advanced natural language processing (NLP) tasks (Nova outperforms it in HumanEval coding tasks).

Llama 3.3 has been pretrained on 15 trillion tokens from “publicly available” data and fine-tuned on over 25 million synthetically generated examples, according to the information Meta provided in the “model card” posted on its website.

Leveraging 39.3 million GPU hours on H100-80GB hardware, the model’s development underscores Meta’s commitment to energy efficiency and sustainability.

Llama 3.3 leads in multilingual reasoning tasks with a 91.1% accuracy rate on MGSM, demonstrating its effectiveness in supporting languages such as German, French, Italian, Hindi, Portuguese, Spanish, and Thai, in addition to English.

Cost-effective and environmentally conscious

Llama 3.3 is specifically optimized for cost-effective inference, with token generation costs as low as $0.01 per million tokens.

This makes the model highly competitive against industry counterparts like GPT-4 and Claude 3.5, with greater affordability for developers seeking to deploy sophisticated AI solutions.

Meta has also emphasized the environmental responsibility of this release. Despite its intensive training process, the company leveraged renewable energy to offset greenhouse gas emissions, resulting in net-zero emissions for the training phase. Location-based emissions totaled 11,390 tons of CO2-equivalent, but Meta’s renewable energy initiatives ensured sustainability.

Advanced features and deployment options

The model introduces several enhancements, including a longer context window of 128k tokens (comparable to GPT-4o, about 400 pages of book text), making it suitable for long-form content generation and other advanced use cases.

Its architecture incorporates Grouped Query Attention (GQA), improving scalability and performance during inference.

Designed to align with user preferences for safety and helpfulness, Llama 3.3 uses reinforcement learning with human feedback (RLHF) and supervised fine-tuning (SFT). This alignment ensures robust refusals to inappropriate prompts and an assistant-like behavior optimized for real-world applications.

Llama 3.3 is already available for download through MetaHugging FaceGitHub, and other platforms, with integration options for researchers and developers. Meta is also offering resources like Llama Guard 3 and Prompt Guard to help users deploy the model safely and responsibly.

Mark Zuckerberg khen ngợi Llama AI, nhưng lại dùng GPT-4 để nâng cao Metamate

- Mark Zuckerberg khen ngợi mô hình AI Llama của Meta nhưng vẫn sử dụng GPT-4 từ OpenAI để cải thiện công cụ Metamate.
- Metamate là công cụ lập trình nội bộ của Meta, kết hợp giữa Llama và GPT-4, hỗ trợ lập trình viên và nhân viên Meta trong việc giải quyết các câu hỏi về mã.
- Người dùng cho rằng Metamate rất hữu ích và có thể truy xuất thông tin từ cả hai mô hình tùy thuộc vào loại truy vấn.
- Chan Zuckerberg Initiative, tổ chức từ thiện do Zuckerberg và vợ điều hành, cũng là khách hàng của OpenAI, phát triển công cụ genAI giáo dục dựa trên ChatGPT.
- Zuckerberg quảng bá Llama như một lựa chọn nguồn mở tốt, cạnh tranh với các mô hình khép kín từ OpenAI và Google.
- Llama không chỉ là một trong những mô hình lớn nhất thế giới mà còn có phiên bản gần nhất đã được huấn luyện trên hàng nghìn tỉ token và có lượng mã nguồn gấp 4 lần so với phiên bản trước.
- Metamate, ban đầu mang tên Code Compose, được người dùng đánh giá là hữu ích cho công việc kỹ thuật, nhưng chỉ giỏi ở các nhiệm vụ cơ bản, không đủ sức phục vụ các công việc kỹ thuật phức tạp.
- Sự xuất hiện của AI đã dẫn đến việc giảm bớt lao động tại Meta, với nhiều đợt cắt giảm nhân sự diễn ra trong năm qua.

📌 Mark Zuckerberg ca ngợi Llama AI nhưng lại dựa vào GPT-4 cho Metamate. Công cụ này hỗ trợ lập trình viên Meta nhưng cũng dẫn đến việc cắt giảm nhân sự. Các mô hình AI đang cạnh tranh gay gắt trong ngành công nghệ.

https://fortune.com/2024/12/03/meta-openai-gpt-4-llama-coding-tool/

CEO Hugging Face cảnh báo về sự nguy hiểm của mô hình AI nguồn mở Trung Quốc

- Giám đốc điều hành Hugging Face, Clement Delangue, bày tỏ mối lo ngại về các mô hình AI nguồn mở của Trung Quốc, đặc biệt trong bối cảnh kiểm duyệt thông tin.
- Các mô hình AI từ Trung Quốc đã chứng tỏ khả năng vượt trội trong nhiều nhiệm vụ như lập trình và suy luận.
- Tuy nhiên, một số mô hình này bị chỉ trích vì không phản hồi đúng với các chủ đề nhạy cảm.
- Delangue nhấn mạnh rằng nếu các công ty phương Tây xây dựng trên nền tảng mô hình AI của Trung Quốc, có thể dẫn đến những hệ quả không mong muốn.
- Ông cho biết, các chatbot tạo ra từ mô hình Trung Quốc sẽ có cách phản ứng khác so với hệ thống phát triển ở Pháp hay Mỹ khi được hỏi về vụ việc nhạy cảm.
- Delangue cho rằng nếu Trung Quốc trở thành quốc gia hàng đầu về AI, họ có thể lan truyền một số khía cạnh văn hóa mà thế giới phương Tây không muốn thấy.
- Trước đó, ông đã khẳng định AI Trung Quốc đang nhanh chóng bắt kịp AI phương Tây nhờ vào phong trào nguồn mở.
- Ông lo ngại về sự tập trung mạnh mẽ của các mô hình AI hàng đầu xuất phát từ Trung Quốc, cho rằng đây là một phát triển khá mới.
- Hugging Face hiện là nền tảng lớn nhất thế giới cho các mô hình AI và là nơi nhiều công ty AI Trung Quốc giới thiệu các mô hình học sâu mới nhất.
- Mô hình Qwen2.5-72B-Instruct, phát triển bởi Alibaba, hiện là mô hình mặc định trên HuggingChat và không kiểm duyệt câu hỏi liên quan đến vụ Thiên An Môn.
- Trái lại, mô hình QwQ-32B từ gia đình Qwen của Alibaba đã kiểm duyệt câu hỏi về các cuộc biểu tình tại Thiên An Môn.
- DeepSeek, một mô hình AI Trung Quốc khác nổi tiếng với khả năng suy luận cũng bị chỉ trích vì kiểm duyệt các chủ đề nhạy cảm.
- Các công ty AI Trung Quốc phải đối mặt với áp lực từ chính phủ trong việc tuân thủ các giá trị xã hội chủ nghĩa cốt lõi và hệ thống kiểm duyệt rộng rãi.
- Delangue gần đây dự đoán Trung Quốc sẽ dẫn đầu trong cuộc đua AI toàn cầu vào năm 2025.

📌 Clement Delangue, giám đốc điều hành Hugging Face, lo ngại về việc các mô hình AI nguồn mở từ Trung Quốc có thể lan truyền các vấn đề văn hóa không mong muốn và nhấn mạnh tầm quan trọng của sự phân bổ AI toàn cầu.

https://techcrunch.com/2024/12/03/huggingface-ceo-has-concerns-about-chinese-open-source-ai-models/

SmolVLM của Hugging Face - mô hình AI thị giác chỉ cần 5GB RAM, mở ra kỷ nguyên AI chi phí thấp

- Hugging Face vừa công bố SmolVLM, mô hình ngôn ngữ thị giác mới tập trung vào hiệu quả và kích thước nhỏ gọn

- Mô hình được cấp phép nguồn mở Apache 2.0, cho phép sử dụng cả mục đích cá nhân và thương mại

- SmolVLM có 3 biến thể, mỗi biến thể có 2 tỷ tham số:
  + SmolVLM-Base: mô hình chuẩn
  + SmolVLM-Synthetic: phiên bản tinh chỉnh trên dữ liệu tổng hợp
  + SmolVLM Instruct: phiên bản hướng dẫn để xây dựng ứng dụng người dùng cuối

- Ưu điểm vượt trội về tài nguyên:
  + Chỉ yêu cầu 5,02GB GPU RAM
  + Thấp hơn nhiều so với Qwen2-VL 2B (13,7GB) và InternVL2 2B (10,52GB)
  + Có thể chạy trực tiếp trên laptop

- Khả năng xử lý:
  + Phân tích chuỗi văn bản và hình ảnh theo bất kỳ thứ tự nào
  + Mã hóa ảnh độ phân giải 384 x 384 pixel thành 81 token dữ liệu thị giác
  + Mã hóa lệnh kiểm tra và một hình ảnh chỉ với 1.200 token, so với 16.000 token của Qwen2-VL

- Mục tiêu hướng đến:
  + Doanh nghiệp nhỏ và người đam mê AI
  + Triển khai hệ thống cục bộ không cần nâng cấp lớn
  + Chạy suy luận văn bản và hình ảnh với chi phí thấp

📌 SmolVLM đại diện cho xu hướng thu nhỏ mô hình AI, chỉ yêu cầu 5,02GB GPU RAM, giảm 63% so với đối thủ Qwen2-VL. Mô hình nguồn mở này mở ra cơ hội tiếp cận AI cho doanh nghiệp nhỏ với chi phí hợp lý và hiệu quả cao.

https://www.gadgets360.com/ai/news/hugging-face-smolvlm-vision-language-model-open-source-efficiency-focus-introduced-7154979

Alibaba ra mắt mô hình AI lý luận mới QwQ-32B-Preview, cạnh tranh trực tiếp với OpenAI

- QwQ-32B-Preview là một mô hình AI lý luận mới được phát triển bởi đội ngũ Qwen của Alibaba, ra mắt vào ngày 27 tháng 11 năm 2024.
- Mô hình sở hữu 32.5 tỷ tham số, cho phép xử lý các văn bản dài lên đến khoảng 32.000 từ.
- Được thử nghiệm, QwQ-32B-Preview ghi điểm tốt hơn so với các mô hình lý luận o1-preview và o1-mini của OpenAI trong một số bài kiểm tra như AIME và MATH.
- AIME sử dụng các mô hình AI khác để đánh giá hiệu suất, trong khi MATH là tập hợp các bài toán từ vựng.
- QwQ-32B-Preview có khả năng giải quyết các câu đố logic và các bài toán toán học khá khó nhờ vào khả năng lý luận của nó.
- Mặc dù hiệu suất ấn tượng, mô hình cũng gặp một số vấn đề như chuyển ngôn ngữ không mong muốn, bị kẹt trong các vòng lặp và kém hiệu quả trong các tác vụ cần lý luận thường thức.
- QwQ-32B-Preview có điểm nổi bật là khả năng tự kiểm tra tính chính xác của thông tin, điều này giúp tránh được nhiều vấn đề mà các mô hình AI thông thường gặp phải, mặc dù thời gian xử lý có thể lâu hơn.
- Mô hình này có sẵn để tải xuống và sử dụng trên nền tảng phát triển AI Hugging Face, nhưng chỉ một số thành phần của nó được công khai, khiến việc tái tạo hoặc hiểu rõ cách hoạt động bên trong không khả thi.
- QwQ-32B-Preview rơi vào giữa mức độ mở, cho phép ứng dụng thương mại nhưng không hoàn toàn công khai các yếu tố chính của mô hình.
- Sự chú ý ngày càng tăng vào các mô hình lý luận xảy ra trong bối cảnh nhiều lý thuyết về quy luật mở rộng đang bị xem xét lại, với các báo cáo cho thấy rằng sự cải tiến hiệu suất ở một số phòng lab AI lớn đang chững lại.
- Các tổ chức lớn ngoài OpenAI và các công ty Trung Quốc như Google đã bắt đầu mở rộng nỗ lực phát triển các mô hình lý luận và công nghệ tính toán thêm vào thời điểm kiểm tra.

📌 QwQ-32B-Preview của Alibaba, với 32.5 tỷ tham số, vượt trội hơn OpenAI ở nhiều bài kiểm tra, mặc dù vẫn gặp một số hạn chế trong lý luận thông thường. Mô hình có sẵn trên Hugging Face với giấy phép Apache 2.0 cho ứng dụng thương mại.

https://techcrunch.com/2024/11/27/alibaba-releases-an-open-challenger-to-openais-o1-reasoning-model/

AI2 vừa ra mắt OLMo 2, mô hình ngôn ngữ mới mở với khả năng cạnh tranh với Llama

- Ai2, tổ chức nghiên cứu AI phi lợi nhuận do Paul Allen sáng lập, vừa ra mắt OLMo 2, dòng mô hình ngôn ngữ mới.
- OLMo là viết tắt của "Open Language Model", bao gồm 2 mô hình là OLMo 7B (7 tỷ tham số) và OLMo 13B (13 tỷ tham số).
- OLMo 2 đáp ứng định nghĩa nguồn mở của Open Source Initiative, với dữ liệu huấn luyện và mã nguồn có sẵn công khai.
- Ai2 sử dụng bộ dữ liệu gồm 5 nghìn tỷ token để huấn luyện mô hình, bao gồm websites, tài liệu học thuật và diễn đàn thảo luận.
- Mô hình có khả năng thực hiện nhiều nhiệm vụ dựa trên văn bản, như trả lời câu hỏi, tóm tắt tài liệu và viết mã.
- OLMo 2 cho thấy sự cải thiện rõ rệt về hiệu suất so với các mô hình trước đó và vượt trội hơn Llama 3.1 với 8 tỷ tham số.
- Các mô hình OLMo 2 có thể tải xuống miễn phí từ trang web của Ai2, dưới giấy phép Apache 2.0 cho phép sử dụng thương mại.
- Có tranh luận về độ an toàn của các mô hình mở, nhưng Ai2 tin rằng lợi ích vượt xa rủi ro.
- Ai2 nhấn mạnh rằng việc chia sẻ dữ liệu và mô hình cách công khai sẽ thúc đẩy sự phát triển công nghệ, mang lại mô hình đạo đức hơn.

📌 OLMo 2 của Ai2 với 7 và 13 tỷ tham số ra mắt cạnh tranh với Llama 3.1. Với 5 nghìn tỷ token, OLMo 2 cho thấy hiệu suất vượt trội và đáp ứng tiêu chuẩn nguồn mở, mở đường cho tiến bộ công nghệ.

https://techcrunch.com/2024/11/26/ai2-releases-new-language-models-competitive-with-metas-llama/

Ai2 phát hành Tülu 3 - công cụ nguồn mở giúp ai cũng có thể tự huấn luyện mô hình AI

- Ai2 (trước đây là Allen Institute for AI) vừa ra mắt Tülu 3, một framework huấn luyện sau hoàn toàn nguồn mở dành cho các mô hình ngôn ngữ lớn (LLM)

- Quá trình huấn luyện sau đang được chứng minh là bước quan trọng tạo ra giá trị thực sự cho các mô hình AI:
  + Biến mô hình từ mạng lưới "biết tuốt" thành công cụ có ích thực tế
  + Giúp kiểm soát đầu ra của mô hình, tránh các nội dung độc hại
  + Các công ty lớn giữ bí mật quy trình này vì đây là lợi thế cạnh tranh

- Tülu 3 cung cấp nhiều cải tiến so với phiên bản trước:
  + Cho phép lựa chọn chủ đề trọng tâm cho mô hình
  + Tích hợp quy trình xử lý dữ liệu, học tăng cường
  + Tinh chỉnh các tham số và quy trình huấn luyện
  + Đạt điểm số ngang bằng các mô hình nguồn mở tiên tiến nhất

- Lợi ích của Tülu 3:
  + Giúp các tổ chức tự xây dựng mô hình AI mà không phụ thuộc công ty lớn
  + Phù hợp với các công ty y tế, nghiên cứu cần bảo mật dữ liệu
  + Tiết kiệm chi phí thuê bên thứ ba để tùy chỉnh mô hình

- Ai2 đang sử dụng Tülu 3 để phát triển một mô hình dựa trên OLMo, hứa hẹn mang lại nhiều cải tiến hơn nữa

📌 Tülu 3 là bước đột phá giúp dân chủ hóa việc huấn luyện mô hình AI, cho phép các tổ chức tự phát triển mô hình mà không cần dựa vào các "gã khổng lồ" công nghệ. Framework này đặc biệt phù hợp với các đơn vị cần bảo mật dữ liệu cao như y tế và nghiên cứu.

https://techcrunch.com/2024/11/21/ai2s-open-source-tulu-3-lets-anyone-play-the-ai-post-training-game/

LLaVA-o1 của Trung Quốc thách thức OpenAI o1 với khả năng suy luận vượt trội

- Các nhà nghiên cứu Trung Quốc vừa công bố mô hình LLaVA-o1, một mô hình nguồn mở cạnh tranh với OpenAI o1, tập trung vào việc cải thiện khả năng suy luận của mô hình ngôn ngữ thị giác (VLM).

- Mô hình này giải quyết các hạn chế của VLM truyền thống bằng cách:
  + Thực hiện suy luận có cấu trúc qua 4 giai đoạn: tóm tắt, chú thích, suy luận và kết luận
  + Chỉ hiển thị giai đoạn kết luận cho người dùng
  + Áp dụng kỹ thuật tìm kiếm theo cấp độ để tạo và chọn lọc kết quả tối ưu ở mỗi giai đoạn

- Quá trình đào tạo bao gồm:
  + Sử dụng bộ dữ liệu 100.000 cặp hình ảnh-câu hỏi-câu trả lời
  + GPT-4o tạo quy trình suy luận chi tiết 4 giai đoạn
  + Fine-tune trên nền tảng Llama-3.2-11B-Vision-Instruct

- Kết quả đánh giá:
  + Cải thiện 6,9% điểm benchmark so với mô hình Llama cơ bản
  + Vượt trội hơn các mô hình nguồn mở khác có cùng kích thước hoặc lớn hơn
  + Hiệu suất cao hơn một số mô hình đóng như GPT-4-o-mini và Gemini 1.5 Pro

- Đóng góp quan trọng:
  + Thiết lập tiêu chuẩn mới cho suy luận đa phương thức trong VLM
  + Mở đường cho nghiên cứu về suy luận có cấu trúc
  + Tiềm năng mở rộng với bộ xác minh bên ngoài và học tăng cường

📌 LLaVA-o1 đạt bước tiến vượt bậc với khả năng suy luận 4 giai đoạn và cải thiện 6,9% hiệu suất so với Llama cơ bản. Mô hình nguồn mở này thậm chí vượt qua các đối thủ lớn như GPT-4-o-mini và Gemini 1.5 Pro, mở ra hướng phát triển mới cho công nghệ VLM.

https://venturebeat.com/ai/chinese-researchers-unveil-llava-o1-to-challenge-openais-o1-model/

Whisper-NER - mô hình AI nguồn mở tự động ẩn thông tin riêng tư khi chuyển đổi âm thanh thành văn bản

- Công ty khởi nghiệp aiOla của Israel vừa ra mắt mô hình Whisper-NER, được xây dựng trên nền tảng mô hình nguồn mở Whisper của OpenAI

- Whisper-NER tích hợp hai công nghệ:
  + Nhận dạng giọng nói tự động (ASR)
  + Nhận dạng thực thể có tên (NER)

- Tính năng chính:
  + Tự động nhận diện và che giấu thông tin nhạy cảm như tên, số điện thoại, địa chỉ trong quá trình chuyển đổi
  + Xử lý đồng thời việc chuyển đổi âm thanh và bảo vệ thông tin riêng tư
  + Hỗ trợ học không cần mẫu (zero-shot learning)
  + Có thể tùy chỉnh để đánh dấu thay vì che giấu thông tin

- Mô hình được phát hành dưới giấy phép MIT, cho phép:
  + Sử dụng miễn phí
  + Tùy chỉnh và triển khai
  + Áp dụng cho mục đích thương mại

- Phương pháp huấn luyện độc đáo:
  + Sử dụng tập dữ liệu tổng hợp
  + Kết hợp dữ liệu giọng nói và văn bản NER
  + Xử lý đồng thời hai tác vụ trong một khối

- Ứng dụng thực tế:
  + Giám sát tuân thủ
  + Quản lý kho hàng
  + Đảm bảo chất lượng
  + Đặc biệt phù hợp với ngành y tế và luật

📌 aiOla phát hành mô hình AI nguồn mở Whisper-NER tích hợp khả năng chuyển đổi âm thanh và bảo vệ dữ liệu nhạy cảm trong cùng một quy trình. Mô hình được cấp phép MIT, hỗ trợ zero-shot learning và đặc biệt phù hợp với các ngành có yêu cầu bảo mật cao như y tế và luật.

https://venturebeat.com/ai/aiola-unveils-open-source-ai-audio-transcription-model-that-obscures-sensitive-info-in-realtime/

AI nguồn mở OpenScholar đánh bại GPT-4o, mở ra kỷ nguyên mới cho nghiên cứu khoa học

- OpenScholar là hệ thống AI do viện Allen Institute for AI và đại học Washington phát triển, giúp các nhà nghiên cứu tiếp cận, đánh giá và tổng hợp tài liệu khoa học hiệu quả

- Hệ thống sử dụng mô hình tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, kết nối với kho dữ liệu hơn 45 triệu bài báo khoa học nguồn mở

- OpenScholar vượt trội hơn GPT-4o về độ chính xác và trích dẫn nguồn, trong khi GPT-4o tạo ra trích dẫn sai trong hơn 90% trường hợp với các câu hỏi y sinh

- Hệ thống hoạt động thông qua vòng lặp phản hồi tự động, liên tục cải thiện kết quả đầu ra và tích hợp thông tin bổ sung một cách thích ứng

- Mô hình 8 tỷ tham số của OpenScholar có chi phí vận hành thấp hơn 100 lần so với PaperQA2 dựa trên GPT-4o

- Các chuyên gia đánh giá câu trả lời của OpenScholar tốt hơn so với câu trả lời viết bởi con người trong 70% trường hợp

- OpenScholar công bố toàn bộ mã nguồn, mô hình, dữ liệu và công cụ, khẳng định tính minh bạch sẽ thúc đẩy tiến bộ nhanh hơn

- Hạn chế chính của hệ thống là chỉ có thể truy cập các bài báo nguồn mở, chưa bao gồm các nghiên cứu có phí truy cập

📌 OpenScholar là AI nguồn mở đầu tiên vượt trội GPT-4o trong nghiên cứu khoa học, xử lý 45 triệu bài báo với độ chính xác 70% cao hơn chuyên gia, chi phí thấp hơn 100 lần, mở ra kỷ nguyên mới cho việc tổng hợp tri thức khoa học.

 

https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

DeepSeek gây chấn động với R1-Lite-Preview: Mô hình lập luận AI vượt mặt OpenAI o1

• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management, đã ra mắt mô hình ngôn ngữ lớn (LLM) tập trung vào lập luận mới nhất là R1-Lite-Preview.

• R1-Lite-Preview hiện chỉ có sẵn thông qua chatbot AI dựa trên web DeepSeek Chat.

• Mô hình mới này đã gây ấn tượng bằng cách cung cấp hiệu suất gần bằng và trong một số trường hợp vượt quá mô hình o1-preview của OpenAI.

• R1-Lite-Preview thể hiện khả năng lập luận "chuỗi suy luận", cho phép người dùng theo dõi quá trình suy luận của nó.

• Mô hình này có khả năng trả lời chính xác các câu hỏi đánh đố đã gây khó khăn cho các mô hình AI mạnh mẽ khác như GPT-4 và Claude.

DeepSeek tuyên bố R1-Lite-Preview vượt trội hơn hiệu suất cấp o1-preview của OpenAI trên các điểm chuẩn như AIME và MATH.

• Công ty đã công bố dữ liệu mở rộng, cho thấy cải thiện độ chính xác ổn định khi mô hình được cung cấp nhiều thời gian hoặc "token suy nghĩ" hơn để giải quyết vấn đề.

R1-Lite-Preview đã thể hiện khả năng cạnh tranh trên các điểm chuẩn quan trọng như GPQA và Codeforces.

Tính minh bạch trong quá trình lập luận của mô hình là một điểm khác biệt so với nhiều hệ thống AI độc quyền.

DeepSeek chưa công bố mã đầy đủ để phân tích hoặc đánh giá độc lập của bên thứ ba.

• Công ty cũng chưa công bố bài đăng blog hoặc bài báo kỹ thuật giải thích cách R1-Lite-Preview được đào tạo hoặc kiến trúc.

• R1-Lite-Preview hiện có thể truy cập thông qua DeepSeek Chat tại chat.deepseek.com, với chế độ "Deep Think" nâng cao có giới hạn 50 tin nhắn mỗi ngày.

• DeepSeek có kế hoạch phát hành các phiên bản nguồn mở của các mô hình dòng R1 và API liên quan trong tương lai.

• Công ty có lịch sử hỗ trợ cộng đồng AI nguồn mở, với các phiên bản trước như DeepSeek-V2.5 được đánh giá cao.

• R1-Lite-Preview xây dựng dựa trên thành công của các mô hình trước đó, tập trung vào lập luận minh bạch và khả năng mở rộng.

📌 DeepSeek đã ra mắt R1-Lite-Preview, một mô hình lập luận AI mạnh mẽ vượt trội hơn OpenAI o1 trong một số trường hợp. Mô hình này thể hiện khả năng lập luận "chuỗi suy luận" minh bạch và đạt hiệu suất cao trên các điểm chuẩn quan trọng. DeepSeek cam kết phát triển AI nguồn mở và có kế hoạch phát hành các phiên bản mã nguồn mở trong tương lai.

https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

Mistral AI thách thức ChatGPT: Ra mắt Pixtral Large 124 tỷ tham số và Le Chat với khả năng tạo ảnh

- Mistral AI, startup Pháp vừa công bố mô hình nền tảng mới Pixtral Large với 124 tỷ tham số, bao gồm bộ giải mã 123 tỷ tham số và bộ mã hóa thị giác 1 tỷ tham số

- Pixtral Large có khả năng:
  * Xử lý 30 ảnh độ phân giải cao mỗi lần nhập liệu
  * Đọc văn bản tương đương 300 trang sách
  * Cửa sổ ngữ cảnh 128.000 token
  * Nhận dạng ký tự quang học đa ngôn ngữ
  * Phân tích biểu đồ và tài liệu

- Le Chat được nâng cấp với các tính năng mới:
  * Tìm kiếm web kèm trích dẫn nguồn
  * Canvas tương tác để tạo tài liệu và thiết kế
  * Phân tích tài liệu PDF phức tạp
  * Tạo ảnh thông qua hợp tác với Black Forest Labs
  * Agent tự động hóa các tác vụ lặp lại

- Mô hình được cung cấp miễn phí trên Hugging Face nhưng:
  * Chỉ dành cho mục đích nghiên cứu phi thương mại
  * Sử dụng thương mại cần giấy phép riêng từ Mistral
  
- Thách thức hiện tại của Mistral:
  * Thiếu tính năng âm thanh và giọng nói như ChatGPT
  * Mức độ sử dụng trong doanh nghiệp còn thấp hơn OpenAI, Anthropic
  * Đang định vị là giải pháp AI độc lập của châu Âu

📌 Mistral AI đang khẳng định vị thế với Pixtral Large 124 tỷ tham số và Le Chat được nâng cấp toàn diện. Startup này đang trở thành niềm hy vọng của châu Âu trong việc phát triển AI độc lập với Mỹ, dù vẫn cần cải thiện các tính năng âm thanh và tăng độ phổ biến trong doanh nghiệp.

https://venturebeat.com/ai/mistral-unleashes-pixtral-large-and-upgrades-le-chat-into-full-on-chatgpt-competitor/

Mô hình AI tổng hợp f1 đánh bại GPT-4 và Claude 3.5 trong mọi bài kiểm tra khó

- Fireworks AI vừa ra mắt mô hình AI tổng hợp f1, được thiết kế đặc biệt cho các tác vụ suy luận phức tạp

- f1 tích hợp nhiều mô hình nguồn mở ở tầng suy luận, giúp cải thiện hiệu suất trong các lĩnh vực:
  + Lập trình 
  + Trò chuyện
  + Giải quyết vấn đề toán học

- Điểm khác biệt của f1:
  + Không phụ thuộc vào một hệ thống suy luận duy nhất
  + Kết hợp ưu điểm của nhiều mô hình chuyên biệt
  + Cung cấp giao diện nhắc lệnh đơn giản cho nhà phát triển

- Fireworks AI cung cấp 2 phiên bản:
  + f1 tiêu chuẩn
  + f1-mini (phiên bản nhẹ hơn)

- Cả hai phiên bản đều có sẵn để dùng thử trên Fireworks AI Playground

- Ưu điểm của kiến trúc tổng hợp:
  + Chia nhỏ tác vụ phức tạp thành các tác vụ con
  + Mỗi tác vụ con được xử lý bởi mô hình phù hợp nhất
  + Tối ưu hiệu suất từng bước
  + Đơn giản hóa việc sử dụng AI phức tạp

- Kết quả kiểm tra cho thấy f1 vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong:
  + Lập trình khó
  + Trò chuyện 
  + Các bài toán phức tạp

- Nhà phát triển có thể:
  + Đăng ký sớm để truy cập API của f1
  + Dùng thử miễn phí trên Fireworks AI Playground

📌 Fireworks AI đã tạo bước đột phá với mô hình f1 tích hợp nhiều mô hình nguồn mở, vượt trội hơn GPT-4 và Claude 3.5 trong mọi bài kiểm tra. f1 đơn giản hóa việc sử dụng AI phức tạp thông qua giao diện nhắc lệnh thống nhất, mở ra tương lai cho các ứng dụng AI linh hoạt và hiệu quả hơn.

https://www.marktechpost.com/2024/11/18/fireworks-ai-releases-f1-a-compound-ai-model-specialized-in-complex-reasoning-that-beats-gpt-4o-and-claude-3-5-sonnet-across-hard-coding-chat-and-math-benchmarks/

Microsoft tung ra Magentic-One: Đội quân 5 agent AI có thể tự lướt web và lập trình

- Microsoft chính thức tham gia cuộc đua agent AI với việc ra mắt hệ thống Magentic-One, một bước tiến xa hơn so với chatbot thông thường

- Magentic-One được thiết kế như một "hệ thống đa agent tổng quát", nhắm đến đối tượng người dùng doanh nghiệp quen thuộc với các sản phẩm văn phòng của Microsoft

- Hệ thống bao gồm 5 agent chính:
  + Orchestrator: Agent chỉ huy, lập kế hoạch và điều phối toàn bộ dự án
  + WebSurfer: Agent lướt web
  + FileSurfer: Agent xử lý tệp
  + Coder: Agent viết mã
  + ComputerTerminal: Agent điều khiển máy tính

- Microsoft phát hành Magentic-One dưới dạng dự án nguồn mở trên Github để khuyến khích cộng đồng phát triển ứng dụng

- Điểm khác biệt của Magentic-One so với các hệ thống agent AI khác:
  + Tập trung vào quy trình công việc tổng quát thay vì chỉ một số tác vụ hẹp
  + Có khả năng hoàn thành nhiều tác vụ đa dạng trong các tình huống hàng ngày
  + Sử dụng agent chỉ huy Orchestrator để điều phối và xử lý vấn đề

- Thách thức hiện tại của công nghệ agent AI:
  + Các mô hình AI cơ bản vẫn gặp khó khăn trong việc đưa ra phản hồi nhất quán
  + Độ chính xác của hệ thống agent tốt nhất hiện chỉ đạt khoảng 50% so với con người
  + Cần nhiều sự hỗ trợ từ con người để hoàn thành các yêu cầu phức tạp

📌 Microsoft đã gia nhập cuộc đua agent AI với Magentic-One - hệ thống 5 agent do Orchestrator điều phối. Dù độ chính xác hiện chỉ đạt 50% so với con người, đây là bước tiến quan trọng trong việc phát triển AI có khả năng tự động hóa các tác vụ phức tạp.

https://www.tomsguide.com/ai/microsoft-unveils-magentic-one-an-ai-agent-that-can-browse-the-web-and-write-code

Qwen2.5-Coder - trợ lý lập trình AI miễn phí với hiệu suất ngang tầm GPT-4, hỗ trợ 92 ngôn ngữ lập trình

- Alibaba Cloud vừa phát hành Qwen2.5-Coder, trợ lý lập trình AI đã nhanh chóng trở thành demo phổ biến thứ 2 trên Hugging Face Spaces

- Mô hình được phát hành với 6 biến thể, từ 0,5 tỷ đến 32 tỷ tham số, phù hợp với nhiều nhu cầu tính toán khác nhau

- Qwen2.5-Coder-32B-Instruct đạt điểm ấn tượng:
  + 92,7% trên HumanEval
  + 90,2% trên MBPP
  + 31,4% độ chính xác trên LiveCodeBench

- Hỗ trợ 92 ngôn ngữ lập trình từ phổ biến đến chuyên biệt như Haskell và Racket

- Các tính năng nổi bật:
  + Hoàn thiện code cấp repository
  + Hiểu ngữ cảnh qua nhiều file
  + Tạo ứng dụng trực quan như website
  + Gỡ lỗi code

- Sử dụng giấy phép Apache 2.0 cho phép tích hợp miễn phí vào sản phẩm thương mại

- Thành tựu này của Alibaba Cloud đáng chú ý trong bối cảnh Trung Quốc đang bị Mỹ hạn chế xuất khẩu chip tiên tiến

- Tác động đến thị trường:
  + Thách thức mô hình kinh doanh dựa trên thuê bao của OpenAI và Anthropic
  + Giảm chi phí phát triển phần mềm cho doanh nghiệp
  + Tăng khả năng tiếp cận AI cho các công ty nhỏ và thị trường mới nổi

📌 Qwen2.5-Coder của Alibaba Cloud là bước đột phá trong AI lập trình với hiệu suất vượt trội (92,7% trên HumanEval), hỗ trợ 92 ngôn ngữ và hoàn toàn miễn phí. Mô hình nguồn mở này sẽ định hình lại cách tiếp cận AI trong phát triển phần mềm doanh nghiệp toàn cầu.

https://venturebeat.com/ai/alibaba-new-ai-can-code-in-92-languages-and-its-completely-free/

Vì sao AI nguồn mở là chìa khóa cho tương lai công nghệ toàn cầu?

- Đổi mới sáng tạo nguồn mở đóng vai trò then chốt trong làn sóng AI, với các công nghệ nền tảng như transformer của Google và các framework TensorFlow, PyTorch được chia sẻ rộng rãi

- Các lo ngại chính về AI nguồn mở bao gồm:
  + Việc đối thủ cạnh tranh của Mỹ có thể tận dụng: Trung Quốc đã điều chỉnh mô hình Llama 2 của Meta cho mục đích quân sự
  + Nguy cơ khủng bố và tội phạm lợi dụng bằng cách gỡ bỏ các biện pháp bảo vệ
  + Anthropic cảnh báo về rủi ro độc đáo khi mô hình có thể được điều chỉnh cho mục đích xấu

- Lợi ích của phần mềm nguồn mở đã được chứng minh:
  + Là nền tảng của ngành công nghệ và thiết bị hàng tỷ người dùng
  + World Wide Web dựa trên mã nguồn mở do Tim Berners-Lee công bố
  + Thuật toán nén Ogg Vorbis được Spotify sử dụng phục vụ hàng triệu người

- Mô hình đóng vẫn cần thiết cho các ứng dụng nhạy cảm, nhưng mô hình mở hoặc bán mở đóng vai trò quan trọng:
  + Cho phép minh bạch và học hỏi từ kỹ thuật
  + Tạo cơ hội phát triển và xây dựng trên nền tảng có sẵn

- Meta đang hạn chế quyền truy cập vào các mô hình của mình (giới hạn ở ứng dụng dưới 700 triệu người dùng hàng tháng) nhưng có thể mở rộng hơn để thu hút các nhà phát triển

📌 AI nguồn mở thúc đẩy đổi mới sáng tạo toàn cầu dù tồn tại rủi ro. Chính phủ cần áp dụng quy định an toàn đồng bộ thay vì hạn chế nghiên cứu. Các mô hình mở và bán mở sẽ là chìa khóa cho sự phát triển công nghệ trong tương lai, bên cạnh các mô hình đóng cho ứng dụng nhạy cảm.

https://www.economist.com/leaders/2024/11/07/why-open-source-ai-models-are-good-for-the-world

Microsoft phát hành nền tảng AI đa tác tử nguồn mở Magentic-One

- Microsoft Research vừa phát hành Magentic-One, một hệ thống AI đa tác tử tổng quát có khả năng giải quyết các tác vụ mở trong nhiều lĩnh vực

- Magentic-One được phát hành dưới dạng công cụ nguồn mở trên nền tảng Microsoft AutoGen, nhằm hỗ trợ các nhà phát triển và nghiên cứu tạo ra ứng dụng tự động xử lý các tác vụ phức tạp

- Kiến trúc đa tác tử của Magentic-One bao gồm:
  + Tác tử điều phối chính
  + WebSurfer cho điều hướng web
  + FileSurfer cho quản lý file
  + Coder cho lập trình
  + ComputerTerminal cho thực thi mã

- Hệ thống có tính linh hoạt và mở rộng cao:
  + Cho phép thêm/bớt tác tử mà không ảnh hưởng cấu trúc cốt lõi
  + Hỗ trợ tích hợp các mô hình ngôn ngữ lớn (LLM) và nhỏ (SLM)
  + Đã thử nghiệm với GPT-4 và OpenAI o1-preview

- Microsoft giới thiệu AutoGenBench để đánh giá hiệu suất trên các benchmark:
  + GAIA
  + AssistantBench  
  + WebArena

- Các framework đa tác tử nguồn mở khác cũng được phát hành gần đây:
  + OpenAI với Swarm
  + IBM với Bee Agent Framework (phiên bản alpha)
  + Bee Agent tương thích với IBM Granite và Llama 3.2

📌 Magentic-One là nền tảng AI đa tác tử nguồn mở của Microsoft với kiến trúc module linh hoạt, cho phép xử lý đa dạng tác vụ từ duyệt web đến lập trình. Hệ thống đạt hiệu suất cạnh tranh trên các benchmark quan trọng và hỗ trợ tích hợp nhiều mô hình ngôn ngữ khác nhau.

https://analyticsindiamag.com/ai-news-updates/microsoft-launches-magentic-one-an-open-source-multi-agent-ai-platform/

IBM ra mắt Granite 3.0 - dòng mô hình AI nguồn mở dành cho doanh nghiệp

- IBM vừa công bố Granite 3.0 - dòng mô hình AI nguồn mở dành cho doanh nghiệp, được cấp phép theo Apache 2.0

- Đặc điểm nổi bật của Granite 3.0:
  + Hoạt động hiệu quả trên thiết bị có tài nguyên hạn chế
  + Đa dạng kích thước mô hình phù hợp nhiều cấu hình phần cứng
  + Thực hiện nhiều tác vụ: tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, phân loại, tóm tắt, trích xuất thực thể

- IBM giới thiệu Instruct Lab song song với Granite 3.0:
  + Tích hợp tri thức đặc thù của doanh nghiệp vào mô hình AI mà không cần fine-tuning truyền thống
  + Giảm chi phí đáng kể trong quá trình tùy chỉnh mô hình
  + Cải thiện độ chính xác và phù hợp trong ứng dụng thực tế

- Công nghệ mixture of experts trong Granite 3.0:
  + Tối ưu hiệu năng bằng cách chỉ kích hoạt một số tham số nhất định
  + Phù hợp môi trường yêu cầu độ trễ thấp
  + Được huấn luyện trên tập dữ liệu đa dạng và quy mô lớn

- Granite 3.0 thể hiện hiệu năng vượt trội trong:
  + Ứng dụng an ninh mạng
  + Kịch bản gọi công cụ 
  + Tác vụ đặc thù doanh nghiệp

- IBM tích cực kết hợp AI với điện toán lượng tử:
  + Đầu tư nghiên cứu để mở rộng khả năng tính toán
  + Tích hợp framework Agent vào nền tảng Watson
  + Cam kết phát triển giải pháp nguồn mở qua thương vụ mua lại Red Hat

📌 Granite 3.0 của IBM mang đến cuộc cách mạng AI nguồn mở cho doanh nghiệp với khả năng hoạt động trên thiết bị tài nguyên thấp. Instruct Lab cho phép tích hợp tri thức đặc thù mà không cần fine-tuning, tiết kiệm chi phí đáng kể. Mô hình thể hiện hiệu năng vượt trội trong an ninh mạng và tác vụ doanh nghiệp.

https://www.geeky-gadgets.com/ibm-granite-3-ai-models/

Omnigen - mô hình AI nguồn mở mới cho phép chỉnh sửa ảnh qua trò chuyện

• Các nhà nghiên cứu tại Beijing Academy of Artificial Intelligence vừa phát hành Omnigen - mô hình AI nguồn mở tích hợp nhiều tính năng xử lý ảnh trong một hệ thống duy nhất

• Omnigen sử dụng 2 thành phần chính: Variational Autoencoder để phân tích cấu trúc ảnh và transformer model để xử lý đa dạng đầu vào

• Mô hình được huấn luyện trên tập dữ liệu 1 tỷ ảnh, có khả năng:
  - Tạo ảnh từ văn bản
  - Chỉnh sửa ảnh phức tạp
  - Tô vẽ nội dung
  - Điều chỉnh depth map

• Tích hợp Microsoft Phi-3 LLM giúp Omnigen hiểu ngữ cảnh và tương tác qua hội thoại tự nhiên như ChatGPT

• Người dùng có thể:
  - Chạy miễn phí trên Hugging Face
  - Cài đặt locally với yêu cầu tối thiểu 12GB VRAM
  - Tích hợp vào ComfyUI thông qua node riêng

• Ưu điểm nổi bật:
  - Đơn giản hóa quy trình chỉnh sửa ảnh phức tạp
  - Hiểu và thực hiện lệnh qua ngôn ngữ tự nhiên
  - Không cần kiến thức chuyên sâu về công cụ chỉnh sửa

• Hạn chế hiện tại:
  - Tốc độ xử lý chậm hơn SD 3.5 và Flux
  - Chất lượng ảnh chưa vượt trội
  - Chỉ tương thích với card Nvidia

📌 Omnigen mở ra hướng đi mới cho công nghệ xử lý ảnh AI với khả năng tương tác qua hội thoại tự nhiên. Dù chưa vượt trội về chất lượng ảnh nhưng mô hình đã đơn giản hóa quy trình chỉnh sửa phức tạp, phù hợp cho cả người mới bắt đầu lẫn chuyên gia AI.

 

https://decrypt.co/290075/omnigen-open-source-ai-model-images-art

AMD giới thiệu OLMo - dòng mô hình ngôn ngữ lớn 1 tỷ tham số đầu tiên hoàn toàn nguồn mở

• AMD vừa công bố OLMo, dòng mô hình ngôn ngữ lớn (LLM) 1 tỷ tham số đầu tiên được công ty phát triển và đào tạo nội bộ

• OLMo được đào tạo trên hàng nghìn tỷ token sử dụng cụm GPU Instinct MI250 của AMD

• Đây là LLM thứ hai AMD tự phát triển, sau mô hình nhỏ AMD-135M ra mắt tháng 9/2024

• OLMo dựa trên mô hình cùng tên do AI2 (trước đây là Viện Allen về Trí tuệ nhân tạo) phát triển ban đầu

• AMD OLMo có 3 biến thể:
  - OLMo 1B: Được tiền đào tạo trên 1,3 nghìn tỷ token từ tập dữ liệu Dolma v1.7
  - OLMo 1B SFT: Được tinh chỉnh có giám sát trên các bộ dữ liệu Tulu V2, OpenHermes-2.5, WebInstructSub và Code-Feedback
  - OLMo 1B SFT DPO: Được tinh chỉnh thêm để phản ánh tốt hơn sở thích của con người thông qua tối ưu hóa ưu tiên trực tiếp

• Các mô hình này sử dụng kiến trúc transformer chỉ giải mã, phù hợp cho ứng dụng chatbot

• So với các mô hình nguồn mở cùng kích thước:
  - OLMo 1B đạt độ chính xác trung bình 48,77% trên các tác vụ suy luận tổng quát, tương đương OLMo-0724-hf (49,3%) nhưng với chi phí đào tạo chỉ bằng một nửa
  - Cải thiện độ chính xác trên ARC-Easy (+6,36%), ARC-Challenge (+1,02%) và SciQ (+0,50%)

• So với các mô hình cơ sở được tinh chỉnh theo hướng dẫn:
  - OLMo 1B SFT cải thiện đáng kể độ chính xác trên MMLU (+5,09%) và GSM8k (+15,32%)
  - Hiệu suất trên GSM8k (18,2%) vượt trội so với mô hình cơ sở tốt nhất tiếp theo (TinyLlama-1.1B-Chat-v1.0 ở mức 2,81%)

• AMD mở mã nguồn toàn bộ dữ liệu, trọng số, công thức đào tạo và mã của OLMo nhằm thúc đẩy sự đổi mới trong cộng đồng

• Động thái này cũng nhằm quảng bá sức mạnh của bộ xử lý AMD so với các đối thủ như Nvidia và Intel trong lĩnh vực AI

📌 AMD ra mắt OLMo - dòng LLM 1 tỷ tham số nguồn mở đầu tiên, đạt hiệu suất vượt trội so với các mô hình cùng phân khúc trên nhiều tiêu chuẩn đánh giá. Với 3 biến thể và quá trình đào tạo 3 giai đoạn, OLMo thể hiện khả năng suy luận và tuân theo hướng dẫn tốt hơn, đồng thời quảng bá sức mạnh GPU Instinct của AMD trong lĩnh vực AI.

https://thelettertwo.com/2024/11/03/amd-unveils-olmo-its-first-fully-open-1b-parameter-llm-series/

Trung Quốc phát triển AI quân sự ChatBIT dựa trên mô hình Llama của Meta, đạt 90% hiệu suất GPT-4

- Các nhà nghiên cứu Trung Quốc có liên hệ với Quân đội Giải phóng Nhân dân (PLA) đã phát triển mô hình AI mang tên ChatBIT, sử dụng mô hình nguồn mở Llama của Meta.

- ChatBIT được thiết kế cho các ứng dụng quân sự và được tối ưu hóa cho các nhiệm vụ đối thoại và trả lời câu hỏi trong lĩnh vực quân sự.

- Mô hình này sử dụng Llama 13B, một mô hình ngôn ngữ lớn (LLM) đã được chỉnh sửa để phục vụ cho việc thu thập và xử lý thông tin tình báo.

- Theo một số tài liệu nghiên cứu, ChatBIT đạt hiệu suất khoảng 90% so với GPT-4 của OpenAI, mặc dù không có thông tin chi tiết về cách thức thử nghiệm hiệu suất.

- Việc sử dụng các mô hình AI nguồn mở có thể giúp ChatBIT cạnh tranh với các mô hình mới nhất từ các công ty công nghệ Mỹ trong các bài kiểm tra chuẩn.

- Một số chuyên gia cho rằng đây là lần đầu tiên có bằng chứng rõ ràng rằng các chuyên gia quân sự PLA đang nghiên cứu và tìm cách tận dụng sức mạnh của các LLM nguồn mở, đặc biệt là của Meta.

- Giấy phép của Meta cấm sử dụng Llama cho các ứng dụng quân sự, nhưng tính chất nguồn mở của nó khiến việc thực thi hạn chế này trở nên khó khăn.

- Meta đã phản hồi rằng việc sử dụng Llama 13B là không quan trọng vì đây là phiên bản "cũ" và họ đang phát triển Llama 4.

- Một số nhà nghiên cứu chỉ ra rằng ChatBIT chỉ sử dụng 100.000 bản ghi đối thoại quân sự, một con số nhỏ so với hàng triệu dữ liệu mà các mô hình hiện đại khác được huấn luyện.

- Mặc dù vậy, ChatBIT có thể chỉ là bằng chứng khái niệm cho thấy các viện nghiên cứu quân sự có kế hoạch phát triển các mô hình lớn hơn trong tương lai.

- Chính phủ Trung Quốc có thể đã công bố các tài liệu nghiên cứu này như một tín hiệu gửi đến Mỹ rằng họ không ngại sử dụng AI để tạo lợi thế công nghệ trên trường quốc tế.

- Washington lo ngại về việc sử dụng công nghệ nguồn mở của Mỹ sẽ mang lại lợi thế quân sự cho đối thủ. Do đó, nhiều nhà lập pháp Mỹ muốn chặn quyền truy cập của Trung Quốc vào các công nghệ tiêu chuẩn nguồn mở như RISC-V.

📌 Các nhà nghiên cứu Trung Quốc đã phát triển mô hình AI quân sự ChatBIT dựa trên Llama của Meta, đạt 90% hiệu suất GPT-4. Điều này gây lo ngại cho Washington về việc đối thủ có thể tận dụng công nghệ nguồn mở để tăng cường sức mạnh quân sự.

https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-researchers-build-military-ai-using-metas-open-source-llama-model-chatbit-allegedly-performs-at-around-90-percent-of-the-performance-of-openai-gpt-4-llm

Meta tung MobileLLM - Mô hình AI siêu nhẹ chạy trên điện thoại với hiệu suất ngang Llama-2 7B

- Meta AI vừa công bố phiên bản nguồn mở của MobileLLM, bộ mô hình ngôn ngữ được tối ưu hóa cho thiết bị di động, với mã nguồn và trọng số có sẵn trên Hugging Face

- Mô hình hiện chỉ được cấp phép Creative Commons 4.0 phi thương mại, giới hạn việc sử dụng trong nghiên cứu

- MobileLLM có số lượng tham số từ 125 triệu đến 1 tỷ, được thiết kế phù hợp với bộ nhớ và năng lượng hạn chế của phần cứng di động

- Kiến trúc độc đáo của MobileLLM tập trung vào chiều sâu thay vì chiều rộng, khác biệt so với quy luật mở rộng AI truyền thống

- Mô hình tích hợp nhiều cải tiến quan trọng:
  • Ưu tiên chiều sâu hơn chiều rộng
  • Kỹ thuật chia sẻ embedding
  • Cơ chế chú ý truy vấn theo nhóm
  • Chia sẻ trọng số theo khối tức thì

- Phiên bản 350 triệu tham số đạt hiệu suất ngang bằng với Meta Llama-2 7B trong việc gọi API

- MobileLLM được tối ưu hóa cho thiết bị có bộ nhớ 6-12 GB, phù hợp với smartphone phổ biến như iPhone và Google Pixel

- Mô hình 125 triệu và 350 triệu tham số cải thiện độ chính xác lần lượt 2,7% và 4,3% so với các mô hình tốt nhất trước đây trong các tác vụ zero-shot

📌 Meta AI đã tạo bước đột phá với MobileLLM - mô hình ngôn ngữ hiệu quả cao chạy trên thiết bị di động. Với kiến trúc sâu và mỏng độc đáo, phiên bản 350 triệu tham số đạt hiệu suất ngang Meta Llama-2 7B, mở ra tiềm năng mới cho AI trên thiết bị cầm tay.

https://venturebeat.com/ai/meta-makes-its-mobilellm-open-for-researchers-posting-full-weights/

Meta huấn luyện Llama 4 trên cụm GPU khổng lồ với hơn 100.000 chip H100

- Mark Zuckerberg công bố Meta đang huấn luyện mô hình Llama 4 trên cụm GPU lớn hơn 100.000 chip H100, vượt xa quy mô của bất kỳ đối thủ nào

- Llama 4 dự kiến ra mắt đầu năm 2025, với các phiên bản nhỏ sẽ được phát hành trước

- Cụm máy tính này tiêu thụ khoảng 150 megawatt điện năng, gấp 5 lần so với siêu máy tính El Capitan (30 megawatt)

- Meta dự kiến chi 40 tỷ USD trong năm 2024 cho cơ sở hạ tầng và trung tâm dữ liệu, tăng 42% so với năm 2023

- Doanh thu của Meta tăng 22% trong khi chi phí hoạt động chỉ tăng 9%, cho phép công ty đầu tư mạnh vào phát triển Llama

- Meta AI, chatbot dựa trên Llama, hiện có hơn 500 triệu người dùng hàng tháng trên các nền tảng Facebook, Instagram và WhatsApp

- Meta theo đuổi chiến lược nguồn mở với Llama, khác biệt so với các đối thủ như OpenAI và Google

- Llama 4 sẽ có các tính năng mới như "multimodal", khả năng suy luận mạnh mẽ hơn và tốc độ nhanh hơn

- Một số chuyên gia lo ngại việc cung cấp mô hình AI mạnh mẽ miễn phí có thể gây rủi ro an ninh mạng

- Meta kỳ vọng sẽ tạo doanh thu từ quảng cáo thông qua tính năng Meta AI trong tương lai

📌 Meta đang dẫn đầu cuộc đua AI với cụm GPU 100.000 chip H100 để phát triển Llama 4. Với 500 triệu người dùng Meta AI hàng tháng và khoản đầu tư 40 tỷ USD cho cơ sở hạ tầng năm 2024, Meta đang đặt cược lớn vào chiến lược AI nguồn mở.

https://www.wired.com/story/meta-llama-ai-gpu-training/

Singapore có 1,3 triệu lập trình viên, chiếm 1/4 dân số và đang tăng trưởng mạnh mẽ

- Singapore hiện có hơn 1,3 triệu lập trình viên trong tổng dân số 6 triệu người, với tốc độ tăng trưởng 28% trong 12 tháng tính đến tháng 9/2024

- Quốc đảo xếp hạng 9 toàn cầu về số lượng người đóng góp cho các dự án AI trên GitHub, với hơn 9.700 lập trình viên tham gia

- Năm 2024 chứng kiến sự tăng trưởng mạnh mẽ trên GitHub:
  • Đóng góp cho dự án AI tạo sinh tăng 59%
  • Số lượng dự án tăng 98%

- GitHub giới thiệu các tính năng mới tại hội nghị Universe ở San Francisco:
  • Cho phép lựa chọn mô hình ngôn ngữ lớn từ Anthropic, Google và OpenAI
  • Ra mắt GitHub Spark - công cụ AI tạo ứng dụng web bằng lệnh ngôn ngữ tự nhiên

- Về tài chính:
  • Phí người dùng cá nhân: 10 USD/tháng hoặc 100 USD/năm
  • Phí doanh nghiệp: 19-39 USD/tháng
  • GitHub có 1,8 triệu người dùng trả phí
  • Doanh thu dự kiến đạt 2 tỷ USD/năm

- Xu hướng công nghệ 2024:
  • Python vượt qua JavaScript trở thành ngôn ngữ phổ biến nhất
  • Jupyter Notebooks tăng trưởng 92%
  • ANZ Bank báo cáo năng suất lập trình tăng 42% nhờ Copilot

📌 Singapore đang chứng kiến sự bùng nổ về số lượng lập trình viên với 1,3 triệu người (chiếm 1/4 dân số), tăng trưởng 28% trong năm 2024. Quốc đảo này xếp hạng 9 toàn cầu về đóng góp cho dự án AI, khẳng định vị thế là trung tâm công nghệ hàng đầu châu Á.

https://www.straitstimes.com/business/spore-has-1-3m-coders-ranks-9th-globally-for-helping-ai-projects-github

OmniParser của Microsoft: Mô hình AI mới vượt qua cả GPT-4V

- OmniParser là mô hình AI hoàn toàn dựa trên giao diện đồ họa người dùng (GUI), được Microsoft công bố trên blog AI Frontiers.
- Mô hình này được phát hành trên Hugging Face với giấy phép MIT, tương tự như tính năng "Sử dụng máy tính" của Anthropic.
- Sự ra mắt của OmniParser củng cố vị thế của Microsoft trong ngành AI Agent, sau khi gia nhập Super League cùng Oracle và Salesforce vào tháng 9.
- Nghiên cứu đầu tiên về OmniParser được công bố vào tháng 3 năm 2024 bởi Jianqiang Wan và nhóm từ Alibaba Group và Đại học Khoa học và Công nghệ Huazhong.
- Một bài báo chi tiết về OmniParser được phát hành vào tháng 8 bởi Yadong Lu và các đồng nghiệp từ Microsoft Research, chứng minh rằng OmniParser vượt trội hơn các chuẩn mực GPT-4V ngay cả khi chỉ sử dụng đầu vào từ ảnh chụp màn hình.
- OmniParser được mô tả là công cụ đa năng, chuyển đổi ảnh chụp màn hình giao diện người dùng thành dữ liệu và nâng cao khả năng hiểu biết của các mô hình ngôn ngữ lớn (LLMs) về giao diện.
- Ra mắt kèm theo hai loại tập dữ liệu: một để phát hiện biểu tượng có thể nhấp và một để mô tả chức năng của từng biểu tượng.
- Trong các bài kiểm tra trên các chuẩn mực như SeeClick, Mind2Web và AITW, OmniParser luôn vượt trội hơn GPT-4V và GPT-4 với khả năng nhìn.
- Để tương thích với các LLM hiện tại, OmniParser đã được kết hợp với các mô hình mới nhất như Phi-3.5-V và Llama-3.2-V.
- Kết quả cho thấy mô hình phát hiện vùng tương tác (ID) đã cải thiện hiệu suất nhiệm vụ đáng kể so với mô hình Grounding DINO không tinh chỉnh.
- Tăng cường hiệu suất đến từ "ngữ nghĩa địa phương" (LS) liên kết chức năng của mỗi biểu tượng với mục đích của nó.
- Với sự gia tăng sử dụng các LLM khác nhau, nhu cầu về các AI agent cải tiến cho các chức năng giao diện người dùng cũng tăng cao.
- Mặc dù GPT-4V hứa hẹn nhiều tiềm năng, nhưng khả năng hoạt động như một agent tổng quát trong hệ điều hành thường bị đánh giá thấp do kỹ thuật phân tích màn hình chưa đủ mạnh.
- Theo chuẩn ScreenSpot, OmniParser cải thiện khả năng tạo hành động của GPT-4V phù hợp với các khu vực liên quan trong giao diện người dùng.
- Một bài báo khác công bố vào tháng 9 năm 2024 cho thấy kết quả thử nghiệm tốt nhất cho agent sử dụng OmniParser tích hợp với GPT-4V.

📌 OmniParser là mô hình AI mới của Microsoft, vượt qua GPT-4V trong nhiều bài kiểm tra. Sự ra mắt này đánh dấu bước tiến quan trọng trong ngành AI Agent, với khả năng chuyển đổi ảnh chụp màn hình thành dữ liệu và cải thiện hiệu suất giao diện người dùng.

https://analyticsindiamag.com/ai-news-updates/microsoft-drops-omniparser-its-new-ai-model/

Zhipu AI vừa ra mắt GLM-4-Voice, mô hình ngôn ngữ lớn đầu cuối mã nguồn mở

- GLM-4-Voice là mô hình ngôn ngữ lớn đầu cuối mã nguồn mở vừa được Zhipu AI phát hành vào ngày 25 tháng 10 năm 2024.
- Mô hình này nhằm khắc phục những hạn chế của các hệ thống nhận diện giọng nói truyền thống, như khả năng hiểu cảm xúc và biến thể trong khẩu ngữ.
- GLM-4-Voice tích hợp nhận diện giọng nói, hiểu ngôn ngữ và tạo giọng nói trong một hệ thống duy nhất, hỗ trợ cả tiếng Trung và tiếng Anh.
- Việc tích hợp này giúp loại bỏ các quy trình phức tạp thường thấy trong các mô hình trước đây, cho phép xử lý hiệu quả hơn.
- Một tính năng nổi bật của GLM-4-Voice là khả năng điều chỉnh cảm xúc, âm điệu và tốc độ dựa trên hướng dẫn của người dùng.
- Mô hình có độ trễ thấp và hỗ trợ phơi nhiễm thời gian thực, giúp tương tác trở nên tự nhiên hơn khi người dùng có thể nói chồng lên nhau mà không bị gián đoạn.
- GLM-4-Voice cải thiện đáng kể cách tương tác giữa con người và máy móc, làm cho các cuộc trò chuyện trở nên trực quan và dễ tiếp cận hơn.
- Các trợ lý giọng nói hiện tại thường cảm thấy cứng nhắc vì không thể điều chỉnh theo dòng chảy của cuộc trò chuyện con người. GLM-4-Voice giải quyết vấn đề này bằng cách điều chỉnh đầu ra giọng nói để làm cho cuộc trò chuyện trở nên biểu cảm hơn.
- Các thử nghiệm ban đầu cho thấy GLM-4-Voice hoạt động tốt hơn với chuyển tiếp giọng nói mượt mà và khả năng xử lý sự gián đoạn tốt hơn so với các phiên bản trước.
- Dữ liệu ban đầu từ Zhipu AI cho thấy GLM-4-Voice có độ phản hồi tốt hơn với độ trễ giảm, nâng cao sự hài lòng của người dùng trong các ứng dụng tương tác.
- Mô hình này hứa hẹn sẽ ảnh hưởng đến nhiều lĩnh vực như trợ lý cá nhân, dịch vụ khách hàng, giải trí và giáo dục.

📌 GLM-4-Voice của Zhipu AI là bước tiến quan trọng trong mô hình AI giọng nói với khả năng điều chỉnh cảm xúc và hỗ trợ đa ngôn ngữ. Mô hình này mang lại trải nghiệm tương tác tự nhiên hơn với độ trễ thấp và khả năng xử lý sự gián đoạn hiệu quả.

https://www.marktechpost.com/2024/10/25/zhipu-ai-releases-glm-4-voice-a-new-open-source-end-to-end-speech-large-language-model/

Windows Agent Arena - nền tảng thử nghiệm AI agent trên Windows với 150 tác vụ tự động hóa

• Microsoft vừa công bố Windows Agent Arena - nền tảng benchmark mới để kiểm thử AI agent trong môi trường Windows thực tế

• Nền tảng này cho phép thử nghiệm AI agent trên nhiều ứng dụng Windows như Microsoft Edge, Paint, Clock, VLC media player

• Microsoft Research phát triển AI agent đa phương thức tên Navi để khám phá khả năng của framework

Kết quả benchmark cho thấy tỷ lệ thành công trung bình của AI agent chỉ đạt 19,5% so với hiệu suất trung bình của con người là 74,5%

• Nền tảng này được phát triển dựa trên framework OSWorld với hơn 150 tác vụ Windows đa dạng

Windows Agent Arena là dự án nguồn mở, sử dụng các mô hình từ OpenAI như GPT-4V và Microsoft Phi3

• Salesforce CEO Marc Benioff chỉ trích Microsoft Copilot là "Clippy 2.0" và cho rằng Microsoft thiếu dữ liệu và mô hình bảo mật doanh nghiệp

• Các mối quan ngại chính về bảo mật và quyền riêng tư khi AI agent ngày càng tinh vi và có quyền truy cập nhiều ứng dụng chứa thông tin cá nhân

• Microsoft cam kết ưu tiên đạo đức AI, đặt quyền riêng tư và an toàn lên hàng đầu

• Anthropic cũng vừa ra mắt API "Computer Use" cho phép Claude sử dụng máy tính như người thật

📌 Microsoft phát triển Windows Agent Arena để thử nghiệm AI agent trên Windows với 150 tác vụ tự động. Hiệu suất AI chỉ đạt 19,5% so với con người (74,5%). Dự án nguồn mở này đối mặt thách thức về bảo mật và quyền riêng tư khi AI ngày càng tinh vi.

https://www.windowscentral.com/software-apps/microsofts-windows-agent-arena-brings-ai-assistants-keyboard-deep-to-windows-pcs-but-there-are-concerns

Lần đầu tiên có định nghĩa "chính thức" về AI nguồn mở

• Sáng kiến Nguồn mở (OSI) vừa công bố phiên bản 1.0 của Định nghĩa AI Nguồn mở (OSAID) sau nhiều năm hợp tác với học giới và công nghiệp

• Theo OSAID, một mô hình AI nguồn mở phải:
- Cung cấp đầy đủ thông tin về thiết kế để có thể tái tạo lại
- Công khai chi tiết về dữ liệu huấn luyện, nguồn gốc và cách xử lý
- Cho phép sử dụng cho mọi mục đích không cần xin phép
- Cho phép chỉnh sửa và phát triển tiếp

Nhiều công ty công nghệ lớn chưa đáp ứng tiêu chuẩn OSAID:
- Meta yêu cầu giấy phép đặc biệt với nền tảng trên 700 triệu người dùng
- Stability AI đòi hỏi giấy phép doanh nghiệp với công ty có doanh thu trên 1 triệu USD
- Mistral hạn chế sử dụng một số mô hình cho mục đích thương mại

• Nghiên cứu từ Signal Foundation chỉ ra nhiều dự án "nguồn mở" chỉ mang tính danh nghĩa:
- Giữ bí mật dữ liệu huấn luyện
- Yêu cầu năng lực tính toán vượt tầm nhiều nhà phát triển
- Kỹ thuật tinh chỉnh phức tạp

• Meta phản đối OSAID với lý do:
- Cần hạn chế chia sẻ chi tiết do quy định pháp lý đang thay đổi
- Điều khoản sử dụng giúp ngăn chặn việc sử dụng có hại
- Không có định nghĩa duy nhất về AI nguồn mở

📌 Định nghĩa OSAID đánh dấu bước ngoặt trong việc thiết lập tiêu chuẩn cho AI nguồn mở, tuy nhiên vẫn còn nhiều thách thức về bản quyền và dữ liệu huấn luyện. Hiện chỉ một số ít mô hình AI đáp ứng đầy đủ các tiêu chí, trong khi các gã khổng lồ công nghệ vẫn đang tranh cãi về định nghĩa này.

 

https://techcrunch.com/2024/10/28/we-finally-have-an-official-definition-for-open-source-ai/

LLMWare giới thiệu Model Depot - bộ sưu tập SLM lớn nhất được tối ưu hóa cho máy tính Intel

• LLMWare.ai công bố ra mắt Model Depot trên Hugging Face - bộ sưu tập hơn 100 mô hình ngôn ngữ nhỏ (SLM) được tối ưu hóa cho máy tính Intel

• Model Depot hỗ trợ nhiều ứng dụng: chat, lập trình, toán học, function calling và embedding models, được định dạng theo OpenVINO và ONNX của Intel

• Kết quả thử nghiệm trên laptop Dell với chip Intel Core Ultra 9 cho thấy:
- Mô hình BLING-Tiny-Llama 1,1B tham số chạy nhanh hơn 7,6 lần so với PyTorch
- Nhanh hơn 7,5 lần so với định dạng GGUF

• Model Depot tích hợp các mô hình phổ biến:
- Microsoft Phi-3
- Mistal
- Llama
- Yi
- Qwen
- Các mô hình chuyên biệt của LLMWare: SLIM, DRAGON, BLING

• LLMWare vừa công bố hợp tác chiến lược với Intel để ra mắt Model HQ (phiên bản preview) với các tính năng:
- Bộ công cụ no-code để chạy và triển khai ứng dụng AI
- Tích hợp sẵn UI/UX 
- Chatbot và tìm kiếm/phân tích tài liệu
- Các tính năng bảo mật: Model Vault, Model Safety Monitor, bộ lọc quyền riêng tư

• Ưu điểm của việc triển khai AI trên máy tính cá nhân:
- Tăng cường bảo mật dữ liệu
- Không cần sao chép dữ liệu ra hệ thống bên ngoài
- Tiết kiệm chi phí đáng kể
- Triển khai được nhiều ứng dụng AI nhẹ cục bộ

📌 Model Depot cung cấp hơn 100 mô hình ngôn ngữ nhỏ tối ưu cho máy tính Intel, cho phép xử lý nhanh hơn 7,6 lần so với các định dạng thông thường. Đây là bước tiến quan trọng trong việc phổ cập AI an toàn, riêng tư và phi tập trung cho doanh nghiệp.

https://www.marktechpost.com/2024/10/28/llmware-introduces-model-depot-an-extensive-collection-of-small-language-models-slms-for-intel-pcs/

Meta thách thức Google: Ra mắt công cụ tạo podcast AI nguồn mở NotebookLlama

• Meta vừa công bố NotebookLlama - phiên bản nguồn mở của tính năng tạo podcast tự động trong NotebookLM của Google

• NotebookLlama sử dụng mô hình Llama của Meta để thực hiện phần lớn quá trình xử lý

• Quy trình hoạt động của NotebookLlama:
- Đầu tiên tạo bản ghi từ file đầu vào (PDF tin tức hoặc bài blog)
- Thêm các yếu tố kịch tính và ngắt quãng 
- Chuyển bản ghi thành giọng nói qua các mô hình text-to-speech nguồn mở

Chất lượng âm thanh của NotebookLlama còn hạn chế so với NotebookLM:
- Giọng nói có âm sắc máy móc rõ rệt
- Các giọng thường chồng lấn nhau ở những điểm không phù hợp

Nhóm nghiên cứu của Meta cho biết chất lượng có thể cải thiện với mô hình mạnh hơn:
- Mô hình text-to-speech hiện là điểm giới hạn về độ tự nhiên
- Đề xuất cách tiếp cận mới: sử dụng 2 agent tranh luận để viết dàn ý podcast thay vì một mô hình đơn lẻ

• NotebookLlama không phải nỗ lực đầu tiên nhằm sao chép tính năng podcast của NotebookLM, một số dự án khác đã thành công hơn

• Tuy nhiên, tất cả các hệ thống AI tạo podcast hiện nay đều chưa giải quyết được vấn đề ảo giác (hallucination) - tạo ra thông tin không có thật

📌 Meta tạo bước đột phá với NotebookLlama - công cụ tạo podcast AI nguồn mở dựa trên mô hình Llama, dù chất lượng âm thanh còn hạn chế nhưng mở ra tiềm năng cải tiến với mô hình mạnh hơn. Vấn đề ảo giác vẫn là thách thức chung cho mọi hệ thống AI tạo podcast.

https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/

Cohere ra mắt 2 mô hình AI mới Aya Expanse nhằm thu hẹp khoảng cách 23 ngôn ngữ

• Cohere vừa phát hành hai mô hình nguồn mở mới thuộc dự án Aya: Aya Expanse 8B và 35B trên nền tảng Hugging Face

• Mô hình Aya Expanse 8B với 8 tỷ tham số giúp các nhà nghiên cứu dễ dàng tiếp cận hơn với công nghệ đột phá

• Mô hình Aya Expanse 32B cung cấp khả năng xử lý đa ngôn ngữ tiên tiến nhất hiện nay

• Dự án Aya được Cohere for AI - bộ phận nghiên cứu của công ty khởi động năm 2023, với mục tiêu mở rộng khả năng tiếp cận mô hình nền tảng cho nhiều ngôn ngữ toàn cầu

• Tháng 2/2024, Cohere đã ra mắt Aya 101 LLM với 13 tỷ tham số, hỗ trợ 101 ngôn ngữ

• Hai mô hình Aya Expanse mới vượt trội hơn các mô hình tương đương từ Google, Mistral và Meta trong các bài kiểm tra chuẩn đa ngôn ngữ

Aya Expanse 32B hoạt động tốt hơn Gemma 2 27B, Mistral 8x22B và cả Llama 3.1 70B

• Cohere sử dụng phương pháp lấy mẫu dữ liệu "data arbitrage" để tránh tạo ra nội dung vô nghĩa khi mô hình dựa vào dữ liệu tổng hợp

• Công ty tập trung vào việc hướng dẫn mô hình theo "sở thích toàn cầu" và tính đến các quan điểm văn hóa, ngôn ngữ khác nhau

• Tuần này, Cohere cũng bổ sung tính năng tìm kiếm hình ảnh cho Embed 3 và nâng cao khả năng tinh chỉnh cho mô hình Command R 08-2024

📌 Cohere đạt bước tiến quan trọng trong việc phát triển AI đa ngôn ngữ với hai mô hình Aya Expanse mới, vượt trội hơn các đối thủ lớn như Google và Meta. Mô hình 32B xử lý được 23 ngôn ngữ, trong khi mô hình 8B giúp các nhà nghiên cứu dễ dàng tiếp cận công nghệ đột phá này.

https://venturebeat.com/ai/cohere-launches-new-ai-models-to-bridge-global-language-divide/

Meta AI ra mắt Llama 3.2 tăng tốc độ xử lý lên 2-4 lần, giảm 56% kích cỡ

• Meta AI vừa phát hành phiên bản Llama 3.2 được tối ưu hóa với hai biến thể 1B và 3B, là những mô hình Llama đầu tiên đủ nhẹ để chạy trên nhiều thiết bị di động phổ biến

• Hai kỹ thuật lượng tử hóa được áp dụng:
- Quantization-Aware Training (QAT) với bộ điều hợp LoRA tập trung vào độ chính xác
- SpinQuant: phương pháp lượng tử hóa sau huấn luyện tập trung vào tính di động

• Những cải tiến đáng kể:
- Tăng tốc độ xử lý lên 2-4 lần
- Giảm 56% kích thước mô hình
- Giảm 41% mức sử dụng bộ nhớ so với định dạng BF16 gốc

• Kỹ thuật lượng tử hóa chuyển đổi số dấu phẩy động 32-bit thành biểu diễn 8-bit và 4-bit, giúp mô hình hoạt động hiệu quả với ít bộ nhớ và năng lực tính toán hơn

• Meta AI hợp tác với Qualcomm và MediaTek để triển khai mô hình trên các chip SoC với CPU Arm

• Kết quả thử nghiệm ban đầu cho thấy hiệu suất đạt khoảng 95% so với mô hình Llama 3 đầy đủ nhưng giảm 60% mức sử dụng bộ nhớ

• Framework PyTorch's ExecuTorch hỗ trợ suy luận sử dụng cả hai kỹ thuật lượng tử hóa

📌 Meta AI đã thu nhỏ thành công mô hình Llama 3.2 với hiệu suất đạt 95% nhưng giảm 56% kích thước và tăng tốc độ xử lý lên 2-4 lần. Đây là bước tiến quan trọng giúp phổ cập AI đến nhiều đối tượng hơn, đặc biệt trên các thiết bị di động thông thường.

https://www.marktechpost.com/2024/10/24/meta-ai-releases-new-quantized-versions-of-llama-3-2-1b-3b-delivering-up-to-2-4x-increases-in-inference-speed-and-56-reduction-in-model-size/

Tại sao cuối cùng thì LLM mở sẽ thắng trong cuộc đua AI doanh nghiệp

  • Các doanh nghiệp đang chuyển sang sử dụng mô hình ngôn ngữ mở (LLMs) vì mong muốn có nhiều quyền kiểm soát hơn và tối ưu hóa chi phí. Trong khi các mô hình đóng như GPT-4 của OpenAI thống trị ban đầu, các mô hình mở đã nhanh chóng thu hẹp khoảng cách về chất lượng và phổ biến trong các doanh nghiệp.

  • Meta Llama đã dẫn đầu xu hướng này với hơn 400 triệu lượt tải xuống, và các doanh nghiệp như AT&T, DoorDash, và Goldman Sachs đã triển khai các mô hình Llama cho nhiều mục đích, từ tự động hóa dịch vụ khách hàng đến phân tích tài chính. Các công ty như Oracle, SAP, và Salesforce cũng tích hợp các mô hình mở để đáp ứng nhu cầu linh hoạt của khách hàng.

  • Lợi thế của mô hình nguồn mở nằm ở khả năng tùy biến và kiểm soát toàn diện. Các doanh nghiệp có thể lựa chọn mô hình phù hợp với nhu cầu cụ thể, từ điều chỉnh mô hình đến triển khai trên hệ thống nội bộ hoặc đám mây. Ví dụ, Intuit đã sử dụng các mô hình Llama để cải thiện độ chính xác trong việc phân loại giao dịch cho QuickBooks.

  • Các doanh nghiệp lớn cũng nhấn mạnh an toàn và kiểm soát. Meta đã giới thiệu các tính năng như Llama Guard Vision để giám sát và lọc dữ liệu đầu vào và đầu ra, giúp đảm bảo tuân thủ quy định và bảo mật. AWS cũng hỗ trợ các mô hình mở qua dịch vụ Bedrock, cho phép doanh nghiệp thiết lập các tiêu chuẩn bảo mật trên nhiều mô hình khác nhau.

  • Giảm chi phí và loại bỏ phụ thuộc nhà cung cấp là động lực quan trọng thúc đẩy doanh nghiệp chuyển sang mô hình mở. Những công ty như ANZ Bank đã từ bỏ OpenAI để tùy chỉnh mô hình Llama cho các ứng dụng tài chính cụ thể. Ngoài ra, các công cụ như "switch kits" của PostgresML giúp quá trình chuyển đổi từ mô hình đóng sang mở trở nên dễ dàng hơn.

  • Tương lai của LLMs có thể giống như cuộc chiến hệ điều hành. Các chuyên gia dự đoán rằng mô hình mở sẽ thống trị giống như cách Linux vượt qua Windows trong hệ thống doanh nghiệp. Meta đang đầu tư mạnh vào phát triển các phiên bản Llama mới, dự kiến sẽ dẫn đầu thị trường từ năm 2025.


📌

Doanh nghiệp đang nhận ra rằng mô hình ngôn ngữ mở mang lại nhiều lợi ích vượt trội về chi phí, kiểm soát và tính linh hoạt so với các giải pháp đóng. Xu hướng này đánh dấu sự chuyển mình trong ngành công nghiệp AI, với các công ty lớn như Meta và Salesforce đi tiên phong trong việc xây dựng nền tảng AI mở, giúp các doanh nghiệp tối ưu hóa hiệu quả và duy trì lợi thế cạnh tranh.

https://venturebeat.com/ai/the-enterprise-verdict-on-ai-models-why-open-source-will-win/

Google ra mắt SynthID cho phép mọi người kiểm tra nội dung do AI tạo ra

- SynthID, công cụ xác thực nội dung AI, hiện đã mở cho tất cả người dùng thử nghiệm, theo thông báo của Google trên X (trước đây là Twitter) ngày 23/10/2024.
- Công cụ này tạo thủy vân không thể nhận biết cho nội dung do AI tạo ra, bao gồm hình ảnh, video và văn bản, giúp người dùng xác minh nội dung có phải do con người hay máy móc tạo ra.
- SynthID đã ra mắt lần đầu vào năm 2023 và được tích hợp vào Imagen; từ tháng 5/2024, SynthID cũng được tích hợp vào chatbot Gemini của Google.
- Google tuyên bố đã mã nguồn mở SynthID Text trên nền tảng Hugging Face, giúp các nhà phát triển và doanh nghiệp sử dụng miễn phí công cụ này để kiểm tra và xác định nội dung AI.
- SynthID mã hóa thủy vân vào nội dung bằng cách điều chỉnh xác suất xuất hiện của các token trong quá trình sinh nội dung mà không ảnh hưởng đến độ chính xác, chất lượng hoặc tốc độ phản hồi.
- Theo Google, công cụ này có khả năng nhận diện thủy vân ngay cả khi nội dung đã qua chỉnh sửa hoặc cắt ghép, vượt trội so với metadata truyền thống vốn dễ bị xóa bỏ.
- Tuy nhiên, SynthID gặp khó khăn khi kiểm tra các đoạn văn bản ngắn hoặc nội dung có tính tất yếu cao như câu trả lời cho câu hỏi “Thủ đô của Pháp là gì?” vì cả AI và con người đều trả lời giống nhau.
- Dù SynthID đã được thiết kế chống lại việc can thiệp, thủy vân của nó vẫn có thể bị xóa nếu văn bản được dịch sang ngôn ngữ khác hoặc viết lại hoàn toàn.
- SynthID được đánh giá cao bởi cộng đồng vì tính minh bạch và khả năng nguồn mở, cho phép kiểm tra độ tin cậy trong nhiều kịch bản khác nhau.

📌 Google đã chính thức mã nguồn mở SynthID, công cụ thủy vân AI, giúp phát hiện nội dung do AI tạo ra qua nhiều định dạng. Dù có khả năng chịu chỉnh sửa mạnh, công cụ này gặp giới hạn trong văn bản ngắn và nội dung có tính chính xác tuyệt đối. Người dùng có thể tải về từ Hugging Face để trải nghiệm trực tiếp.

https://www.digitaltrends.com/computing/google-synthid-now-available-public/

IBM ra mắt mô hình ngôn ngữ lớn Granite 3.0 mã nguồn mở cho doanh nghiệp

• IBM vừa ra mắt thế hệ thứ 3 của mô hình ngôn ngữ lớn Granite, nhằm mở rộng hoạt động kinh doanh AI doanh nghiệp đang phát triển mạnh mẽ với doanh thu hơn 2 tỷ USD.

• Các mô hình mới bao gồm:
- Mô hình đa năng Granite 3.0 2 tỷ và 8 tỷ tham số
- Mô hình Mixture-of-Experts (MoE) như Granite 3.0 3B A800M Instruct, Granite 3.0 1B A400M Base
- Mô hình tối ưu hóa bảo mật Granite Guardian 3.0 8B và 2B

• Mô hình được huấn luyện bởi đội ngũ chuyên trách của IBM với 12 nghìn tỷ token dữ liệu đa ngôn ngữ và mã nguồn.

IBM tuyên bố Granite 3.0 vượt trội so với các mô hình mới nhất của Google, Anthropic và các công ty khác trong nhiều tác vụ.

• Granite 3.0 được phát hành dưới giấy phép mã nguồn mở Apache 2.0, cho phép các đối tác doanh nghiệp tùy chỉnh và xây dựng sản phẩm riêng.

• Các ứng dụng tiềm năng bao gồm: dịch vụ khách hàng, tự động hóa CNTT, BPO, phát triển ứng dụng và bảo mật mạng.

• IBM nhấn mạnh tầm quan trọng của việc tối ưu hóa chi phí suy luận để triển khai AI quy mô lớn.

• Mô hình sẽ có sẵn trên nền tảng watsonX của IBM cũng như Amazon Bedrock, Amazon Sagemaker và Hugging Face.

IBM đang hướng tới khái niệm "tính toán tạo sinh" - lập trình máy tính bằng cách cung cấp ví dụ thay vì hướng dẫn từng bước.

• Rob Thomas, Phó chủ tịch cấp cao của IBM, nhấn mạnh tốc độ tăng trưởng chưa từng có của mảng kinh doanh AI tạo sinh.

📌 IBM ra mắt Granite 3.0 - mô hình ngôn ngữ lớn mã nguồn mở cho doanh nghiệp với hiệu suất cao, tính năng bảo mật nâng cao. Mô hình được huấn luyện với 12 nghìn tỷ token dữ liệu, hỗ trợ nhiều ứng dụng AI doanh nghiệp và được cấp phép Apache 2.0, mở ra cơ hội phát triển hệ sinh thái AI mạnh mẽ.

https://venturebeat.com/ai/ibm-debuts-open-source-granite-3-0-llms-for-enterprise-ai/

Nvidia ra mắt Llama-3.1-Nemotron-70B-Instruct, vượt trội hơn GPT-4 và Claude 3.5 Sonnet

• Nvidia vừa giới thiệu mô hình AI mới có tên Llama-3.1-Nemotron-70B-Instruct, được cho là vượt trội hơn các đối thủ cạnh tranh trong các bài kiểm tra chuẩn.

• Mô hình Nemotron-70B được xây dựng trên nền tảng Llama 3.1 của Meta Platforms Inc., đạt điểm số ấn tượng trong các bài kiểm tra: 85,0 trong Arena Hard, 57,6 trong AlpacaEval 2 LC và 8,98 trong GPT-4-Turbo MT-Bench.

• Kết quả vượt trội này cho thấy khả năng tạo ra các phản hồi giống con người trong các truy vấn chung và ứng dụng lập trình của mô hình.

• Nvidia đã công bố mã nguồn mở của Nemotron-70B trên nền tảng cộng đồng AI Hugging Face, cho phép các nhà phát triển tùy chỉnh mô hình theo nhu cầu của họ.

• Mô hình hiện đã có sẵn để xem trước trên trang web chính thức của Nvidia, giúp công chúng dễ dàng tiếp cận hơn.

• Việc ra mắt mô hình AI mới nhất này nhấn mạnh ảnh hưởng ngày càng tăng của Nvidia trong lĩnh vực phần mềm AI, một sự thay đổi so với trọng tâm truyền thống về GPU hiệu năng cao.

• Sự nhấn mạnh của công ty vào hiệu quả và khả năng tiếp cận cho thấy một thay đổi chiến lược hướng tới việc làm cho AI tiên tiến trở nên dễ áp dụng hơn đối với các nhà phát triển và cộng đồng AI nói chung.

• Đầu tháng này, CEO của Nvidia đã ca ngợi OpenAI, công ty mẹ của ChatGPT, là một trong những công ty có ảnh hưởng nhất của thời đại hiện nay trong một tập podcast Bg2 Pod.

• Thông báo mới nhất này được đưa ra trong bối cảnh Nvidia đang gặp thách thức về sản xuất chip Blackwell, dự kiến sẽ không có sẵn trước đầu năm 2025.

• Việc Nvidia tập trung vào phát triển mô hình AI hiệu quả và dễ tiếp cận cho thấy một bước chuyển chiến lược quan trọng trong ngành công nghiệp AI.

📌 Nvidia gây bất ngờ với mô hình AI nguồn mở Llama-3.1-Nemotron-70B-Instruct, vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong các bài kiểm tra chuẩn. Mô hình 70 tỷ tham số này đạt điểm số ấn tượng: 85,0 trong Arena Hard, 57,6 trong AlpacaEval 2 LC, thể hiện khả năng tạo phản hồi giống người trong các truy vấn và lập trình.

Meta bị tố lừa dối công chúng với chiêu trò "AI nguồn mở"

• Tổ chức Open Source Initiative (OSI) chỉ trích Meta Platforms vì quảng bá mô hình Llama là nguồn mở, gây nhầm lẫn cho công chúng.

• OSI cho rằng Meta đang làm sai lệch định nghĩa và tạo ra sự nhầm lẫn về các mô hình thực sự mã nguồn mở.

Theo OSI, để được coi là nguồn mở, các công ty cần công khai thuật toán huấn luyện, phần mềm phát triển và "trọng số mô hình" - tham số số xác định cường độ tín hiệu giữa các mạng nơ-ron.

• Giám đốc điều hành OSI Stefano Maffulli cho rằng việc gắn mác nguồn mở của Meta là "cực kỳ có hại" trong bối cảnh các cơ quan quản lý như Ủy ban châu Âu đang ủng hộ phát triển "công nghệ nguồn mở thực sự".

• Maffulli chỉ ra rằng Google và Microsoft đã ngừng quảng bá mô hình của họ là nguồn mở, nhưng các cuộc thảo luận với Meta "không mang lại kết quả tương tự".

• Giám đốc nghiên cứu của IBM, Dario Gil, cũng than phiền về sự thiếu minh bạch trong các ấn phẩm của Meta giải thích chi tiết kỹ thuật về quá trình phát triển mô hình.

• Tuy nhiên, Gil thừa nhận mô hình của Meta vẫn là một lựa chọn tốt hơn so với các "mô hình hộp đen" không công khai cơ chế hoạt động nội bộ.

Giấy phép Meta sử dụng ngăn cản đối thủ cạnh tranh sử dụng họ các mô hình của họ, mâu thuẫn với ý nghĩa của nguồn mở, mặc dù cho phép tải xuống miễn phí.

Meta phản hồi rằng các định nghĩa nguồn mở hiện tại cho phần mềm không bao quát được sự phức tạp của các mô hình AI tiên tiến ngày nay.

• Công ty cam kết tiếp tục làm việc với ngành công nghiệp để đưa ra các định nghĩa mới phục vụ cộng đồng AI một cách an toàn và có trách nhiệm.

• Meta đã mở quyền truy cập vào mô hình Llama 2 vào năm 2023, cho phép "một thế hệ nhà phát triển và nhà nghiên cứu" thử nghiệm mô hình của họ.

Hiện nay, các mô hình Llama đã được tải xuống hơn 400 triệu lần.

📌 Meta Platforms đối mặt với chỉ trích gay gắt từ OSI về việc gọi mô hình AI Llama là nguồn mở. Tranh cãi xoay quanh định nghĩa và tính minh bạch của "nguồn mở" trong lĩnh vực AI. Mặc dù bị chỉ trích, mô hình Llama vẫn được tải xuống hơn 400 triệu lần, cho thấy sức hút lớn trong cộng đồng.

https://www.mobileworldlive.com/meta/meta-platforms-under-fire-over-open-source-ai-branding/

Swarm của OpenAI:  Tạo và điều phối các AI agents thật là đơn giản!

• OpenAI vừa ra mắt Swarm, một khung mã nguồn mở thử nghiệm nhằm đơn giản hóa việc tạo và điều phối các tác nhân AI để tự động hóa tác vụ.

• Swarm tập trung vào cải thiện phối hợp và thực thi tác nhân thông qua hai khái niệm cốt lõi: tác nhân và bàn giao.

• Khung này cho phép chia nhỏ quy trình phức tạp thành các tác vụ có thể quản lý được, đảm bảo mỗi tác nhân được trang bị công cụ và hướng dẫn cần thiết để hoàn thành công việc hiệu quả.

• Swarm được thiết kế là một khung nhẹ, có thể kiểm soát và kiểm thử được, lý tưởng để phát triển các tác nhân AI tinh vi.

• Kiến trúc của Swarm ưu tiên điều phối và thực thi tác vụ liền mạch, dựa trên hai trụ cột cơ bản: tác nhân (được trang bị hướng dẫn và công cụ cụ thể) và bàn giao (đảm bảo chuyển giao suôn sẻ giữa các tác nhân).

Swarm xuất sắc trong việc quản lý và chuyển giao tác vụ giữa các tác nhân với độ chính xác và linh hoạt cao.

• Một điểm mạnh chính của Swarm là sử dụng các biến ngữ cảnh, cho phép khung cung cấp phản hồi được cá nhân hóa cao, thích ứng với nhu cầu và tham số độc đáo của mỗi tác vụ.

Ứng dụng thực tế của Swarm rất đa dạng, bao gồm tạo chiến dịch tiếp thị toàn diện từ một đầu vào trang web duy nhất.

• Swarm có thể xử lý các tác vụ phức tạp đòi hỏi hiểu biết tinh tế như dịch ngôn ngữ, hỗ trợ khách hàng nhận biết ngữ cảnh và phân tích dữ liệu.

• Để sử dụng Swarm, người dùng cần Python 3.10 trở lên. Khung này tích hợp liền mạch với API hoàn thành trò chuyện.

• Các tính năng kỹ thuật chính bao gồm kiến trúc mô-đun, quản lý bộ nhớ hiệu quả, xử lý lỗi và ghi nhật ký tích hợp, và tương thích với các thư viện AI và học máy phổ biến.

• Swarm hiện được định vị là một dự án thử nghiệm với trọng tâm mạnh mẽ về giáo dục, khuyến khích thử nghiệm và học tập.

• OpenAI tích cực khuyến khích sự tham gia của cộng đồng với Swarm bằng cách cung cấp nhiều ví dụ và tài nguyên.

• Là một dự án mã nguồn mở, Swarm chào đón đóng góp từ cộng đồng AI, thúc đẩy sự hợp tác và đổi mới.

📌 Swarm của OpenAI là khung mã nguồn mở thử nghiệm đột phá cho phép tạo và điều phối tác nhân AI dễ dàng. Với tính linh hoạt cao, Swarm có thể xử lý nhiều tác vụ phức tạp từ tiếp thị đến phân tích dữ liệu. Dự án này mở ra cơ hội học tập và đổi mới cho cộng đồng AI toàn cầu.

 

https://www.geeky-gadgets.com/how-openais-swarm-is-changing-the-game-for-ai-agents/

tại sao mã nguồn mở không thể "cứu" AI khỏi sự thống trị của một số ít công ty lớn

• Clem Delangue, CEO của Hugging Face, cho rằng mã nguồn mở sẽ giúp AI không chỉ nằm trong tay một số ít công ty. Tuy nhiên, lịch sử cho thấy điều này khó xảy ra.

• Mã nguồn mở đóng vai trò quan trọng trong phát triển phần mềm, nhưng chưa từng ngăn cản sự tập trung thị trường vào tay một số ít công ty lớn.

Thị trường điện toán đám mây là ví dụ điển hình: dù phụ thuộc vào mã nguồn mở, nhưng chỉ có một số ít "ông lớn" thống trị.

Người dùng và doanh nghiệp sẵn sàng trả tiền để được đơn giản hóa sự phức tạp của lựa chọn. Điều này tất yếu dẫn đến sự tập trung thị trường.

• Delangue cho rằng mã nguồn mở tạo ra nhiều cơ hội xây dựng AI cho nhiều công ty hơn. Tuy nhiên, điều này không đồng nghĩa với việc người dùng sẽ không phụ thuộc vào các công ty công nghệ lớn.

Trong lĩnh vực điện toán đám mây, mã nguồn mở thậm chí còn làm tăng sự tập trung thị trường. Doanh nghiệp cần các công ty đám mây giúp họ hiểu và sử dụng hiệu quả các công nghệ mã nguồn mở.

Amazon Web Services, công ty đóng góp ít nhất cho mã nguồn mở, lại là công ty thành công nhất trong lĩnh vực điện toán đám mây nhờ đáp ứng nhu cầu của khách hàng.

• Trong lĩnh vực AI, sự cạnh tranh chủ yếu đến từ các công ty lớn như Microsoft, Meta và Google, chứ không phải từ các dự án mã nguồn mở.

Vấn đề lớn nhất của AI hiện nay là đòi hỏi người dùng phải thực hiện nhiều thao tác phức tạp. Người dùng cần AI đơn giản hơn, chứ không cần thêm nhiều lựa chọn mã nguồn mở.

• Mã nguồn mở sẽ không dân chủ hóa AI giống như nó đã không làm được điều đó với bất kỳ thị trường nào khác.

Khách hàng sẵn sàng trả tiền cho sự tiện lợi và đơn giản. Họ không quan tâm đến phần mềm nền tảng, mà chỉ quan tâm đến trải nghiệm sử dụng.

📌 Mã nguồn mở đóng vai trò quan trọng trong phát triển AI nhưng không thể ngăn cản sự tập trung thị trường. Lịch sử cho thấy khách hàng ưu tiên sự đơn giản và tiện lợi, dẫn đến sự thống trị của một số ít công ty lớn có khả năng cung cấp những giải pháp toàn diện và dễ sử dụng.

https://www.infoworld.com/article/3548263/open-source-isnt-going-to-save-ai.html

Google ra mắt Gemma-2-JPN: mô hình AI 2B tinh chỉnh cho tiếng Nhật

• Google vừa ra mắt mô hình "gemma-2-2b-jpn-it", thành viên mới trong họ mô hình ngôn ngữ Gemma, được thiết kế đặc biệt cho tiếng Nhật.

Đây là mô hình text-to-text, chỉ giải mã với trọng số mở, có thể tinh chỉnh cho nhiều tác vụ tạo văn bản như trả lời câu hỏi, tóm tắt và suy luận.

Mô hình có 2,61 tỷ tham số, sử dụng kiểu tensor BF16 và lấy cảm hứng kiến trúc từ họ mô hình Gemini của Google.

Gemma-2-2b-jpn-it tương thích với phần cứng Tensor Processing Unit (TPU) mới nhất của Google, cụ thể là TPUv5p, giúp tăng tốc độ đào tạo và hiệu suất mô hình.

• Về phần mềm, mô hình sử dụng các framework JAX và ML Pathways để đào tạo, tối ưu hóa cho ứng dụng học máy hiệu năng cao.

• Ứng dụng của mô hình rất đa dạng, bao gồm tạo nội dung, giao tiếp, tóm tắt văn bản, nghiên cứu xử lý ngôn ngữ tự nhiên và hỗ trợ học ngôn ngữ tương tác.

• Mô hình có thể tạo ra các định dạng văn bản sáng tạo như thơ, kịch bản, mã, bản sao tiếp thị và phản hồi chatbot.

Tuy nhiên, hiệu suất của mô hình phụ thuộc vào sự đa dạng và chất lượng của dữ liệu đào tạo. Nó có thể tạo ra các phát biểu sự thật không chính xác hoặc lỗi thời khi xử lý các truy vấn phức tạp.

• Google đã thực hiện đánh giá nghiêm ngặt để giải quyết các vấn đề liên quan đến an toàn nội dung, tác hại đại diện và ghi nhớ dữ liệu đào tạo.

• Các biện pháp giảm thiểu rủi ro bao gồm kỹ thuật lọc để loại bỏ nội dung có hại, thực thi hướng dẫn an toàn nội dung và thiết lập khung minh bạch và trách nhiệm giải trình.

📌 Google ra mắt Gemma-2-JPN, mô hình AI 2,61 tỷ tham số cho tiếng Nhật. Mô hình mở này có khả năng đa dạng từ tạo nội dung đến nghiên cứu NLP, tương thích với TPUv5p. Google cũng chú trọng đánh giá và giảm thiểu rủi ro đạo đức.

https://www.marktechpost.com/2024/10/05/google-releases-gemma-2-jpn-a-2b-ai-model-fine-tuned-on-japanese-text/

Molmo: Mô hình AI nhỏ có năng lực tương đương GPT-4o với ít dữ liệu hơn 1.000 lần

• Viện Allen for Artificial Intelligence (Ai2) vừa công bố dòng mô hình AI đa phương thức mã nguồn mở mới có tên Molmo.

• Molmo có kích thước nhỏ hơn 10 lần so với GPT-4o của OpenAI nhưng hiệu suất tương đương.

Các mô hình Molmo có từ 1 tỷ đến 72 tỷ tham số, trong khi GPT-4o ước tính có hơn 1 nghìn tỷ tham số.

Ai2 tập trung vào chất lượng dữ liệu thay vì số lượng. Họ sử dụng khoảng 700.000 hình ảnh và 1,3 triệu chú thích, ít hơn 1.000 lần so với các mô hình độc quyền.

• Thay vì viết chú thích, nhóm nghiên cứu yêu cầu người chú thích ghi âm mô tả bằng lời nói 60-90 giây cho mỗi hình ảnh, sau đó chuyển thành văn bản và chuẩn hóa.

Mô hình lớn nhất Molmo 72B có hiệu suất tương đương hoặc vượt trội hơn các mô hình hàng đầu như GPT-4o, Claude 3.5 Sonnet và Gemini 1.5 Pro trên 11 tiêu chuẩn học thuật.

• Molmo có khả năng chỉ ra các đối tượng trong hình ảnh, hữu ích cho việc phát triển AI agent và robot.

Molmo là mã nguồn mở với giấy phép Apache 2.0, cho phép các nhà phát triển sửa đổi và thương mại hóa sản phẩm với ít hạn chế.

Mô hình lớn nhất của Molmo dựa trên Qwen2 72B của Alibaba Cloud, nhưng Ai2 công bố cả bộ dữ liệu và mã nguồn để tạo khả năng đa phương thức.

• Molmo nhắm đến các nhà nghiên cứu, nhà phát triển ứng dụng và những người không quen với các mô hình lớn.

• Các mô hình mã nguồn mở như Molmo đang trở thành đối thủ cạnh tranh thực sự cho các công ty đang huy động hàng tỷ đô la để phát triển sản phẩm AI.

📌 Molmo của Ai2 chứng minh mô hình AI nhỏ gọn, mã nguồn mở có thể cạnh tranh với các mô hình lớn độc quyền. Với kích thước nhỏ hơn 10 lần, sử dụng 1.000 lần ít dữ liệu hơn nhưng hiệu suất tương đương GPT-4o, Molmo mở ra tiềm năng phát triển AI hiệu quả và dễ tiếp cận hơn.

https://singularityhub.com/2024/10/04/these-mini-ai-models-match-openai-with-1000-times-less-data/

Cách LLM nguồn mở giúp các đội bảo mật đi trước các mối đe dọa đang phát triển

• Các mô hình ngôn ngữ lớn (LLM) nguồn mở đang cách mạng hóa lĩnh vực bảo mật mạng, thúc đẩy đổi mới và giúp các công ty khởi nghiệp và nhà cung cấp đẩy nhanh thời gian ra thị trường.

Các mô hình nguồn mở phổ biến trong bảo mật mạng bao gồm LLaMA 2 và LLaMA 3.2 của Meta, Falcon của Technology Innovation Institute, StableLM của Stability AI và các mô hình trên Hugging Face như BLOOM của BigScience.

• Các nhà cung cấp phần mềm bảo mật mạng đang phải đối mặt với thách thức về quản trị và cấp phép, đồng thời phải thiết kế kiến trúc có thể nhanh chóng thích ứng với các tính năng mới nhất của LLM nguồn mở.

• Theo Itamar Sher, CEO của Seal Security, LLM nguồn mở cho phép họ mở rộng quy mô vá lỗi bảo mật cho các thành phần nguồn mở theo cách mà các mô hình đóng không thể làm được.

Gartner đặt LLM nguồn mở ở đỉnh của kỳ vọng thổi phồng trong Hype Cycle for Open-Source Software 2024, với mức độ thâm nhập thị trường từ 5% đến 20%.

• Các ưu điểm của LLM nguồn mở bao gồm khả năng tùy chỉnh, quy mô và linh hoạt, cộng tác cộng đồng và giảm sự phụ thuộc vào nhà cung cấp.

• Tuy nhiên, các thách thức bao gồm yêu cầu đầu tư cơ sở hạ tầng đáng kể và phức tạp về cấp phép.

• LLM nguồn mở đang được áp dụng để cải thiện phát hiện mối đe dọa và phản ứng trong thời gian thực.

• Gartner dự đoán các mô hình ngôn ngữ nhỏ hoặc LLM biên sẽ được áp dụng nhiều hơn trong các ứng dụng dành riêng cho lĩnh vực bảo mật mạng.

• Một mối quan tâm đáng kể là số lượng ngày càng tăng các cuộc tấn công chuỗi cung ứng phần mềm nhắm vào các thành phần nguồn mở.

• Seal Security đã được chỉ định là Cơ quan cấp số CVE (CNA), cho phép họ xác định, ghi lại và gán các lỗ hổng thông qua Chương trình CVE.

📌 LLM nguồn mở đang định hình lại bảo mật mạng bằng cách giảm sự phụ thuộc vào công nghệ độc quyền. Chúng mang lại khả năng tùy chỉnh, cộng tác cộng đồng và phát hiện mối đe dọa thời gian thực. Tuy nhiên, vẫn còn thách thức về đầu tư cơ sở hạ tầng và rủi ro chuỗi cung ứng phần mềm cần được giải quyết.

 

https://venturebeat.com/security/how-open-source-llms-enable-security-teams-to-stay-ahead-of-evolving-threats/

Cuộc đua AI nguồn mở: Điều lãnh đạo doanh nghiệp cần biết để dẫn đầu

• Cuộc đua AI mô hình nền tảng hiện đang diễn ra gay gắt, với cộng đồng nguồn đóng chiếm ưu thế ban đầu, dẫn đầu bởi Anthropic và OpenAI.

• Sự rò rỉ mô hình Llama của Meta vào tháng 3/2023 đã tạo động lực cho cộng đồng nguồn mở. Trong năm tiếp theo, các cải tiến mô hình nguồn mở diễn ra với tốc độ nhanh hơn so với nguồn đóng, với các cải tiến lớn được phát hành mỗi vài ngày thay vì mỗi vài tháng.

• Cộng đồng nguồn mở đã nhanh chóng cải thiện mô hình Llama để đạt được hiệu suất ngang bằng với mô hình Gemini của Google, sử dụng kỹ thuật fine-tuning với chi phí thấp hơn nhiều.

Lịch sử cho thấy đổi mới đạt tốc độ tối đa khi thông tin được chia sẻ. Ví dụ như phương pháp khoa học và cuộc chiến hệ điều hành Unix vs Linux trong những năm 1990.

• Nghiên cứu AI trước thời ChatGPT cũng dựa trên phương pháp nghiên cứu mở và cộng tác. Tuy nhiên, kể từ khi ChatGPT ra đời, phát triển AI chủ yếu diễn ra trong môi trường đóng.

Khoảng cách chất lượng giữa mô hình nguồn đóng và nguồn mở đang thu hẹp nhanh chóng. Số lượt tải xuống mô hình Llama nguồn mở tăng 10 lần trong năm qua.

• Lợi ích của mô hình nguồn mở bao gồm: tối ưu hóa chi phí, sở hữu mô hình và cơ sở hạ tầng, fine-tuning dữ liệu độc quyền, cải thiện bảo mật.

Kỹ thuật chưng cất mô hình giúp giảm chi phí tính toán bằng cách sử dụng mô hình "giáo viên" để huấn luyện mô hình "học sinh" nhỏ hơn nhưng hiệu suất tương đương.

Lãnh đạo doanh nghiệp nên chuyển sang nguồn mở càng sớm càng tốt để tận dụng chi phí suy luận rẻ hơn và tránh chi phí chuyển đổi cao sau này.

Tuy nhiên cần cân nhắc thách thức của nguồn mở như bảo trì và bảo mật. Có thể xây dựng đội ngũ machine learning nội bộ hoặc thuê nhà cung cấp dịch vụ để chưng cất và lưu trữ mô hình.

Tương lai sẽ tập trung vào tối ưu hóa mô hình và giảm chi phí suy luận. Doanh nghiệp có thể sở hữu mô hình được huấn luyện nội bộ hoặc tận dụng dịch vụ chưng cất và lưu trữ mô hình để giảm thiểu chi phí ở quy mô lớn.

📌 AI nguồn mở đang thu hẹp khoảng cách với nguồn đóng, mang lại lợi ích về chi phí và kiểm soát. Lãnh đạo doanh nghiệp nên chuẩn bị chuyển đổi sớm, cân nhắc thách thức và tối ưu hóa mô hình để giảm chi phí suy luận. Tương lai thuộc về AI nguồn mở với khả năng tùy chỉnh và cộng đồng phát triển lớn.

https://www.forbes.com/councils/forbesbusinesscouncil/2024/10/03/the-bet-on-open-source-ai-what-business-leaders-should-know/

Nvidia tung "bom tấn" AI: mô hình nguồn mở 72 tỷ tham số sẵn sàng đối đầu GPT-4

• Nvidia vừa công bố dòng mô hình ngôn ngữ đa phương thức lớn NVLM 1.0, dẫn đầu là NVLM-D-72B với 72 tỷ tham số.

• NVLM-D-72B thể hiện hiệu suất vượt trội trong các tác vụ thị giác và ngôn ngữ, cạnh tranh với các mô hình độc quyền hàng đầu như GPT-4.

• Mô hình này có khả năng xử lý đầu vào phức tạp bao gồm hình ảnh và văn bản, từ phân tích meme đến giải quyết các bài toán toán học.

• Đặc biệt, NVLM-D-72B cải thiện hiệu suất trên các tác vụ chỉ có văn bản sau khi được huấn luyện đa phương thức, tăng độ chính xác trung bình 4,3 điểm trên các tiêu chuẩn văn bản chính.

• Nvidia quyết định công khai trọng số mô hình và hứa hẹn sẽ phát hành mã huấn luyện, phá vỡ xu hướng giữ kín các hệ thống AI tiên tiến.

• Động thái này mang lại cho các nhà nghiên cứu và nhà phát triển quyền truy cập chưa từng có vào công nghệ AI tiên tiến.

• Cộng đồng AI đã phản ứng tích cực với việc phát hành này, với một nhà nghiên cứu AI nhận xét về khả năng của mô hình trong các đánh giá toán học và lập trình.

• Dự án NVLM cũng giới thiệu các thiết kế kiến trúc sáng tạo, bao gồm cách tiếp cận kết hợp các kỹ thuật xử lý đa phương thức khác nhau.

• Việc phát hành NVLM 1.0 có thể thúc đẩy nghiên cứu và phát triển AI trên toàn lĩnh vực, cho phép các tổ chức nhỏ hơn và các nhà nghiên cứu độc lập đóng góp đáng kể hơn vào sự tiến bộ của AI.

• Tuy nhiên, việc phát hành này cũng đặt ra những lo ngại về lạm dụng và các vấn đề đạo đức khi AI mạnh mẽ trở nên dễ tiếp cận hơn.

• Quyết định của Nvidia cũng đặt ra câu hỏi về tương lai của các mô hình kinh doanh AI, khi các mô hình tiên tiến trở nên miễn phí và có sẵn rộng rãi.

• Tác động thực sự của NVLM 1.0 sẽ được thể hiện trong những tháng và năm tới, có thể mở ra kỷ nguyên hợp tác và đổi mới chưa từng có trong AI.

📌 Nvidia đã tạo ra bước ngoặt trong ngành AI với việc phát hành mô hình nguồn mở NVLM 1.0 72 tỷ tham số. Mô hình này cạnh tranh với GPT-4 trong các tác vụ đa phương thức, mở ra cơ hội mới cho nghiên cứu AI và thách thức cấu trúc hiện tại của ngành công nghiệp AI.

https://venturebeat.com/ai/nvidia-just-dropped-a-bombshell-its-new-ai-model-is-open-massive-and-ready-to-rival-gpt-4/

JailbreakBench: Công cụ đánh giá mở nguồn mới cho các cuộc tấn công jailbreak vào LLM

• JailbreakBench là một công cụ đánh giá mở nguồn mới được phát triển bởi các nhà nghiên cứu từ Đại học Pennsylvania, ETH Zurich, EPFL và Sony AI nhằm tiêu chuẩn hóa việc đánh giá các cuộc tấn công và phòng thủ jailbreak đối với mô hình ngôn ngữ lớn (LLM).

• Mục tiêu của JailbreakBench là cung cấp một mô hình toàn diện, dễ tiếp cận và có thể tái tạo để đánh giá bảo mật của LLM.

JailbreakBench gồm 4 thành phần chính:
- Bộ sưu tập các prompt đối kháng (adversarial prompts) cập nhật liên tục
- Bộ dữ liệu gồm 100 hành vi khác nhau để thực hiện jailbreak, tuân thủ quy định sử dụng của OpenAI
- Khung đánh giá tiêu chuẩn hóa trên GitHub với các hàm tính điểm, prompt hệ thống, mẫu chat và mô hình mối đe dọa
- Bảng xếp hạng trên website chính thức để so sánh hiệu quả của các cuộc tấn công và phòng thủ jailbreak

• Công cụ này giải quyết vấn đề thiếu phương pháp tiêu chuẩn để đánh giá các cuộc tấn công jailbreak, giúp so sánh kết quả giữa các nghiên cứu khác nhau.

• Mặc dù có rủi ro về việc công khai các prompt đối kháng, nhưng nhóm nghiên cứu cho rằng lợi ích tổng thể vượt trội hơn. JailbreakBench giúp cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng của LLM và phát triển các biện pháp phòng thủ mạnh mẽ hơn.

• Mục tiêu cuối cùng là tạo ra các mô hình ngôn ngữ đáng tin cậy và an toàn hơn, đặc biệt khi chúng được sử dụng trong các lĩnh vực nhạy cảm hoặc có rủi ro cao.

• JailbreakBench đại diện cho một bước tiến quan trọng trong việc nâng cao độ tin cậy và an toàn của mô hình ngôn ngữ trước các mối đe dọa bảo mật ngày càng phức tạp.

• Bằng cách tiêu chuẩn hóa quy trình đánh giá, cung cấp quyền truy cập mở vào các prompt đối kháng và thúc đẩy khả năng tái tạo, JailbreakBench hứa hẹn sẽ thúc đẩy sự phát triển trong việc bảo vệ LLM khỏi các thao túng đối kháng.

📌 JailbreakBench là công cụ đánh giá mở nguồn mới giúp tiêu chuẩn hóa việc đánh giá tấn công jailbreak vào LLM. Với 4 thành phần chính và bảng xếp hạng công khai, nó hỗ trợ cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng LLM, phát triển phòng thủ mạnh mẽ và tạo ra mô hình ngôn ngữ an toàn hơn.

https://www.marktechpost.com/2024/09/29/jailbreakbench-an-open-sourced-benchmark-for-jailbreaking-large-language-models-llms/

Molmo: Gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen

• Viện AI Allen và Đại học Washington giới thiệu gia đình mô hình ngôn ngữ-thị giác Molmo, một giải pháp hoàn toàn mở về trọng số và dữ liệu.

Molmo không phụ thuộc vào dữ liệu tổng hợp từ hệ thống độc quyền, mà sử dụng bộ dữ liệu PixMo mới gồm hơn 712.000 hình ảnh và khoảng 1,3 triệu chú thích do con người tạo ra.

• PixMo sử dụng phương pháp sáng tạo yêu cầu người chú thích mô tả chi tiết mọi hình ảnh trong 60-90 giây, thu thập được dữ liệu mô tả chất lượng cao.

• Gia đình Molmo bao gồm các mô hình:
- MolmoE-1B: Sử dụng mô hình ngôn ngữ lớn OLMoE-1B-7B nguồn mở
- Molmo-7B-O: Sử dụng OLMo-7B-1024 nguồn mở
- Molmo-7B-D: Mô hình demo sử dụng Qwen2 7B 
- Molmo-72B: Mô hình hiệu suất cao nhất, sử dụng Qwen2 72B

• Molmo-72B vượt trội nhiều hệ thống độc quyền hàng đầu như Gemini 1.5 và Claude 3.5 Sonnet trên 11 benchmark học thuật.

• Trong đánh giá của con người với 15.000 cặp hình ảnh-văn bản, Molmo-72B xếp thứ 2, chỉ sau GPT-4o.

• Molmo-72B đạt điểm cao nhất trong benchmark AndroidControl với độ chính xác 88,7% cho tác vụ cấp thấp và 69,0% cho tác vụ cấp cao.

MolmoE-1B có hiệu suất gần bằng GPT-4V, là một mô hình nguồn mở hiệu quả và cạnh tranh.

• Molmo sử dụng pipeline đơn giản nhưng mạnh mẽ kết hợp bộ mã hóa thị giác được huấn luyện trước (dựa trên ViT-L/14 CLIP của OpenAI) với mô hình ngôn ngữ.

• Sự thành công của Molmo trong cả đánh giá học thuật và người dùng cho thấy tiềm năng của các mô hình VLM nguồn mở trong việc cạnh tranh và vượt qua các hệ thống độc quyền.

• Việc phát hành các mô hình Molmo cùng bộ dữ liệu PixMo mở đường cho đổi mới và hợp tác trong phát triển mô hình ngôn ngữ-thị giác trong tương lai.

📌 Molmo là gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen, sử dụng dữ liệu PixMo do con người tạo ra. Molmo-72B vượt trội nhiều hệ thống độc quyền trên 11 benchmark, cho thấy tiềm năng của mô hình nguồn mở trong việc cạnh tranh với các hệ thống hàng đầu mà không cần dữ liệu tổng hợp.

https://www.marktechpost.com/2024/09/26/are-small-language-models-really-the-future-of-language-models-allen-institute-for-artificial-intelligence-ai2-releases-molmo-a-family-of-open-source-multimodal-language-models/

Meta tung ra llama 3.2: cuộc cách mạng ai nhẹ và đa năng cho thiết bị di động và ứng dụng thị giác

SEO contents:

1. Meta mô tả: Llama 3.2 ra mắt với các mô hình AI nhẹ 1B và 3B cho thiết bị di động, cùng mô hình thị giác 11B và 90B cho ứng dụng đa phương thức, mở ra tiềm năng AI ở cạnh biên và đa nền tảng.

2. Từ khóa meta: Llama 3.2, mô hình AI nhẹ, mô hình thị giác, AI cạnh biên, ứng dụng đa phương thức, Meta AI, nguồn mở

3. Tiêu đề SEO hấp dẫn: Meta tung ra llama 3.2: cuộc cách mạng ai nhẹ và đa năng cho thiết bị di động và ứng dụng thị giác

Tóm tắt chi tiết:

• Meta đã phát hành Llama 3.2, bộ mô hình AI nguồn mở mới bao gồm các mô hình thị giác lớn (11B và 90B) và các mô hình văn bản nhẹ (1B và 3B) cho thiết bị cạnh biên và di động.

• Các mô hình thị giác 11B và 90B được thiết kế cho các tác vụ phức tạp như hiểu tài liệu, định vị hình ảnh và tạo chú thích. Chúng vượt trội so với các mô hình đóng khác trong nhiều bài kiểm tra về hiểu hình ảnh.

• Mô hình văn bản nhẹ 1B và 3B tập trung vào ứng dụng AI cạnh biên, cung cấp hiệu suất tốt cho tóm tắt, làm theo hướng dẫn và viết lại prompt với dấu chân tính toán thấp.

• Tất cả các mô hình đều có độ dài ngữ cảnh token là 128.000, cải thiện đáng kể so với các phiên bản trước.

• Llama 3.2 sử dụng kiến trúc dựa trên bộ điều hợp cho mô hình thị giác, tích hợp bộ mã hóa hình ảnh với mô hình văn bản được đào tạo trước.

• Các mô hình được tối ưu hóa cho cả môi trường tại chỗ và đám mây, với sự hỗ trợ từ các đối tác công nghệ hàng đầu như AWS, Dell, Microsoft Azure, NVIDIA.

• Mô hình 1B đạt điểm 49,3 trên MMLU, trong khi mô hình 3B đạt 63,4. Mô hình thị giác đa phương thức 11B đạt 50,7 trên MMMU, còn mô hình 90B đạt 60,3.

• Các mô hình 1B và 3B được tích hợp đầy đủ với UnslothAI, cho phép tinh chỉnh nhanh hơn 2 lần, suy luận nhanh hơn 2 lần và sử dụng VRAM ít hơn 70%.

• Llama 3.2 sử dụng kỹ thuật cắt tỉa và chưng cất kiến thức để đạt được kích thước mô hình nhỏ trong khi vẫn duy trì hiệu suất cao.

• Các mô hình thị giác được đào tạo trên tập dữ liệu khổng lồ gồm 6 tỷ cặp hình ảnh-văn bản, trang bị cho chúng khả năng đa phương thức mạnh mẽ.

• Kiến trúc thị giác tiên tiến bao gồm các tính năng như chuẩn hóa lớp thông thường cho bộ mã hóa thị giác và bộ nhân cổng áp dụng cho các trạng thái ẩn.

📌 Llama 3.2 của Meta mang đến bước tiến quan trọng trong AI  biên và mô hình thị giác. Với 4 biến thể từ 1B đến 90B, hỗ trợ ngữ cảnh 128K token và tích hợp UnslothAI, nó cung cấp giải pháp linh hoạt cho nhiều ứng dụng AI từ thiết bị di động đến đa phương thức phức tạp.

 

https://www.marktechpost.com/2024/09/25/llama-3-2-released-unlocking-ai-potential-with-1b-and-3b-lightweight-text-models-and-11b-and-90b-vision-models-for-edge-mobile-and-multimodal-ai-applications/

Meta ra mắt các mô hình Llama 3.2 hỗ trợ xử lý hình ảnh, bao gồm phiên bản 11B và 90B

• Meta vừa công bố phiên bản Llama 3.2 tại sự kiện Meta Connect 2024, bao gồm các mô hình đa phương thức mới có khả năng xử lý hình ảnh.

Llama 3.2 11B và 90B là hai mô hình đa phương thức có thể phân tích biểu đồ, đồ thị, chú thích hình ảnh và xác định vị trí đối tượng trong ảnh. Ví dụ, chúng có thể trả lời câu hỏi về bản đồ công viên hoặc phân tích biểu đồ doanh thu công ty.

• Meta cũng giới thiệu công cụ an toàn Llama Guard Vision để phát hiện nội dung có hại trong văn bản và hình ảnh đầu vào hoặc đầu ra của mô hình.

• Các mô hình đa phương thức có thể được tải xuống và sử dụng trên nhiều nền tảng đám mây như Hugging Face, Microsoft Azure, Google Cloud và AWS. Meta cũng sử dụng chúng cho trợ lý AI trên WhatsApp, Instagram và Facebook.

• Tuy nhiên, Llama 3.2 11B và 90B không khả dụng tại châu Âu do lo ngại về môi trường quy định "khó đoán" của khu vực này. Meta đã bày tỏ quan ngại về Đạo luật AI của EU và các quy định trong GDPR liên quan đến đào tạo AI.

Meta cũng ra mắt hai mô hình nhẹ chỉ xử lý văn bản là Llama 3.2 1B và 3B, được thiết kế để chạy trên điện thoại thông minh và các thiết bị biên. Chúng có thể thực hiện các tác vụ như tóm tắt và viết lại đoạn văn.

• Công ty giới thiệu bộ công cụ phát triển Llama Stack để tinh chỉnh tất cả các mô hình Llama 3.2. Các mô hình này có thể xử lý tối đa khoảng 100.000 từ cùng lúc.

• Meta tuyên bố các mô hình Llama đã được tải xuống hơn 350 triệu lần và đang được sử dụng bởi các doanh nghiệp lớn như Zoom, AT&T và Goldman Sachs.

• Mặc dù không hoàn toàn "mở", giấy phép của Meta vẫn hạn chế cách một số nhà phát triển có thể sử dụng chúng. Các nền tảng có hơn 700 triệu người dùng hàng tháng phải yêu cầu giấy phép đặc biệt.

• Meta đang đầu tư hàng tỷ đô la vào máy chủ, trung tâm dữ liệu và cơ sở hạ tầng mạng để đào tạo các mô hình trong tương lai, nhằm mục tiêu trở thành đồng nghĩa với AI tạo sinh.

📌 Meta đã công bố Llama 3.2 với các mô hình đa phương thức 11B và 90B có khả năng xử lý hình ảnh, cùng với các mô hình nhẹ 1B và 3B chỉ xử lý văn bản. Tuy nhiên, do lo ngại về quy định, các mô hình mới không khả dụng tại châu Âu. Meta tuyên bố Llama đã được tải xuống hơn 350 triệu lần, thể hiện tham vọng thống trị lĩnh vực AI tạo sinh của công ty.

https://techcrunch.com/2024/09/25/metas-llama-ai-models-now-support-images/

Ericsson, Spotify và SAP kêu gọi EU áp dụng cách tiếp cận quy định nhất quán hơn đối với AI

- Ericsson, Spotify và SAP đã ký một bức thư mở do Meta phối hợp kêu gọi EU có cách tiếp cận quy định nhất quán hơn về AI.
- Các công ty này lo ngại rằng nếu không thay đổi, châu Âu sẽ bỏ lỡ 2 yếu tố quan trọng trong đổi mới AI: phát triển mô hình AI nguồn mở và mô hình đa phương thức.
- Bức thư chỉ ra rằng quyết định quy định hiện tại đang trở nên phân mảnh và không thể đoán trước, dẫn đến sự không chắc chắn về loại dữ liệu có thể sử dụng để đào tạo các mô hình AI.
- Free trở thành nhà mạng đầu tiên tại Pháp cung cấp 5G SA trên toàn quốc với 6.950 trạm 3.5GHz, đồng thời ra mắt dịch vụ VoNR.
- A1 của Áo đã mua lại công ty Conexio Metro tại Serbia để cung cấp sản phẩm hội tụ trên mạng cáp quang của mình vào năm 2025.
- Broadband Forum đã khởi động dự án mới nhằm cung cấp độ trễ thấp trong mạng băng thông rộng tại nhà bằng công nghệ L4S.
- Công nghệ L4S sẽ giúp nhà cung cấp dịch vụ hỗ trợ các ứng dụng có yêu cầu cao về độ trễ và dung lượng cùng lúc mà không gây tắc nghẽn mạng.
- Cellnex tại Tây Ban Nha đang tăng cường phủ sóng 5G dọc bờ biển Barcelona để phục vụ cho cuộc đua thuyền America's Cup.
- Hệ thống anten mini phân tán sẽ cung cấp kết nối 5G cho 3.5km bờ biển từ bãi biển Sant Sebastià đến bãi biển Mar Bella.
- Tòa án chung EU đã giữ nguyên phần lớn mức phạt 242 triệu euro (270 triệu USD) đối với Qualcomm vì hành vi định giá predatory đối với Icera.

📌 Các công ty châu Âu như Ericsson và Spotify kêu gọi EU thay đổi quy định về AI để không bỏ lỡ cơ hội phát triển mô hình AI nguồn mở và đa phương thức. Free ra mắt 5G SA trên toàn quốc, trong khi A1 mở rộng dịch vụ tại Serbia.

https://www.lightreading.com/ai-machine-learning/eurobites-ericsson-and-friends-call-for-europe-to-adopt-new-regulatory-approach-to-ai

Alibaba đã ra mắt hơn 100 mô hình AI nguồn mở mới và công cụ tạo video

- Alibaba đã phát hành hơn 100 mô hình AI nguồn mở mới, được gọi là Qwen 2.5, nhằm tăng cường khả năng công nghệ của mình.
- Các mô hình này được thiết kế cho nhiều ứng dụng khác nhau, từ ô tô đến trò chơi và nghiên cứu khoa học.
- Mục tiêu của Alibaba là tăng cường cạnh tranh với các đối thủ trong nước như Baidu và Huawei, cũng như các ông lớn Mỹ như Microsoft và OpenAI.
- Các mô hình AI của Alibaba có khả năng hiểu các yêu cầu và tạo ra văn bản cũng như hình ảnh dựa trên dữ liệu lớn.
- Việc phát hành mã nguồn mở cho phép các nhà nghiên cứu, học giả và doanh nghiệp trên toàn thế giới sử dụng các mô hình này để phát triển ứng dụng AI mà không cần phải tự đào tạo hệ thống của riêng mình.
- Tính đến thời điểm hiện tại, các mô hình nguồn mở của Alibaba đã được tải xuống 40 triệu lần.
- Alibaba cũng đã nâng cấp mô hình flagship Qwen-Max, không phải là mã nguồn mở, nhưng được cung cấp qua các sản phẩm điện toán đám mây cho doanh nghiệp.
- Qwen Max 2.5-Max đã vượt qua một số đối thủ như Llama của Meta và GPT-4 của OpenAI trong nhiều lĩnh vực như lý luận và hiểu ngôn ngữ.
- Công ty cũng đã giới thiệu một công cụ tạo video từ văn bản mới, cho phép người dùng nhập yêu cầu và AI sẽ tạo ra video dựa trên đó, tương tự như Sora của OpenAI.
- Eddie Wu, CEO của Alibaba, cho biết công ty đang đầu tư mạnh mẽ vào nghiên cứu và phát triển công nghệ AI cũng như xây dựng cơ sở hạ tầng toàn cầu.
- Dưới sự lãnh đạo của Wu, Alibaba đang cố gắng khôi phục tăng trưởng trong bối cảnh cạnh tranh gia tăng và người tiêu dùng Trung Quốc chậm lại.
- Alibaba là một trong những nhà cung cấp dịch vụ điện toán đám mây lớn nhất tại Trung Quốc nhưng vẫn kém xa Amazon và Microsoft ở thị trường quốc tế.
- Công ty hy vọng rằng những sản phẩm AI mới này sẽ thu hút khách hàng cả trong và ngoài Trung Quốc đăng ký dịch vụ đám mây của mình.

📌 Alibaba đã ra mắt hơn 100 mô hình AI nguồn mở với 40 triệu lượt tải xuống. Họ cũng giới thiệu công cụ tạo video từ văn bản mới. Sự đầu tư vào AI có thể giúp Alibaba tăng trưởng và cạnh tranh với các đối thủ lớn.

https://www.cnbc.com/2024/09/19/alibaba-launches-over-100-new-ai-models-releases-text-to-video-generation.html

Qwen2.5 - cuộc cách mạng mô hình ngôn ngữ mã nguồn mở lớn nhất lịch sử!

- Qwen2.5 là phiên bản nâng cấp của dòng Qwen, bao gồm các mô hình chuyên biệt về lập trình (Qwen2.5-Coder) và toán học (Qwen2.5-Math). Các mô hình này có sẵn ở nhiều kích thước từ 0,5B đến 72B tham số.
- Các mô hình mã nguồn mở này, trừ các phiên bản 3B và 72B, được cấp phép dưới Apache 2.0, với hiệu suất được cải thiện đáng kể so với các phiên bản trước đó như Qwen2 và CodeQwen1.5.
- Qwen2.5 được huấn luyện trên tập dữ liệu khổng lồ với 18 nghìn tỷ token, cải thiện khả năng xử lý mã hóa (HumanEval 85+) và toán học (MATH 80+), hỗ trợ tạo văn bản dài (hơn 8K token) và dữ liệu có cấu trúc như bảng hoặc JSON.
- Các mô hình này còn hỗ trợ đa ngôn ngữ, với hơn 29 ngôn ngữ, bao gồm tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Tây Ban Nha, và tiếng Việt.
- Qwen2.5-Coder được huấn luyện trên 5,5 nghìn tỷ token liên quan đến mã hóa, cho phép các mô hình nhỏ hơn cạnh tranh với các mô hình lớn hơn trong các bài kiểm tra lập trình.
- Qwen2.5-Math kết hợp các phương pháp suy luận nâng cao như Chain-of-Thought (CoT), Program-of-Thought (PoT), và Tool-Integrated Reasoning (TIR) để cải thiện hiệu suất trong toán học.
- Phiên bản Qwen2.5-72B đã được so sánh với các mô hình mã nguồn mở hàng đầu như Llama-3.1-70B và Mistral-Large-V2, cho thấy khả năng vượt trội ở các bài đánh giá hiệu suất.
- Qwen-Plus, mô hình API, được so sánh với các mô hình hàng đầu như GPT4-o và Claude-3.5-Sonnet, cho thấy sự cạnh tranh đáng kể trong hiệu suất nhưng vẫn còn những lĩnh vực cần cải thiện.
- Các phiên bản Qwen2.5-14B và Qwen2.5-32B mang lại sự cân bằng tối ưu giữa kích thước mô hình và khả năng, vượt qua các mô hình lớn hơn như Phi-3.5-MoE-Instruct.
- Xu hướng mới trong mô hình ngôn ngữ nhỏ (SLM) đang phát triển mạnh mẽ, với Qwen2.5-3B đạt hiệu suất ấn tượng chỉ với 3 tỷ tham số, cho thấy sự tối ưu hóa về kích thước và khả năng.
- Qwen2.5-Coder và Qwen2.5-Math tiếp tục vượt trội so với các mô hình mã nguồn mở khác trong lập trình và toán học, thậm chí ở quy mô nhỏ nhất như Qwen2.5-Math-1.5B-Instruct.
- Qwen2.5 hỗ trợ triển khai dễ dàng qua các nền tảng như Hugging Face, vLLM và Ollama, cùng với việc tích hợp khả năng gọi công cụ tự động qua API.

📌 Qwen2.5 là bước tiến lớn trong việc phát triển mô hình ngôn ngữ lớn mã nguồn mở, với khả năng cải thiện đáng kể trong lập trình và toán học. Hỗ trợ đa ngôn ngữ, tích hợp công cụ, và tối ưu hóa hiệu suất trên các mô hình nhỏ, Qwen2.5 mở ra nhiều cơ hội mới trong AI.

https://qwenlm.github.io/blog/qwen2.5/

SambaNova thách thức OpenaAI o1 với demo Llama 3.1 siêu tốc trên Huggingface

• SambaNova Systems vừa ra mắt demo mới trên Hugging Face, sử dụng mô hình Llama 3.1 Instruct của Meta, nhằm cạnh tranh trực tiếp với mô hình o1 của OpenAI.

• Demo cho phép các nhà phát triển tương tác với mô hình Llama 3.1 405B, đạt tốc độ 129 token/giây, thể hiện khả năng xử lý AI tốc độ cao.

• SambaNova sử dụng chip AI SN40L độc quyền, được thiết kế đặc biệt cho việc tạo token tốc độ cao, quan trọng cho các ứng dụng doanh nghiệp đòi hỏi phản hồi nhanh.

• Trong các benchmark ban đầu, demo chạy trên cơ sở hạ tầng của SambaNova đạt 405 token/giây cho mô hình Llama 3.1 70B, đứng thứ 2 về tốc độ cung cấp mô hình Llama, chỉ sau Cerebras.

• Demo duy trì độ chính xác cao trong khi đạt tốc độ ấn tượng, sử dụng độ chính xác dấu phẩy động 16-bit, phù hợp cho các ngành như y tế và tài chính.

• Việc sử dụng mô hình nguồn mở Llama 3.1 của Meta đánh dấu sự thay đổi đáng kể trong lĩnh vực AI, mang lại tính minh bạch và linh hoạt cho các nhà phát triển.

• Kiến trúc dataflow có thể tái cấu hình của SambaNova tối ưu hóa phân bổ tài nguyên qua các lớp mạng neural, cho phép cải thiện hiệu suất liên tục thông qua cập nhật phần mềm.

• Khả năng chuyển đổi giữa các mô hình, tự động hóa quy trình làm việc và tinh chỉnh đầu ra AI với độ trễ tối thiểu là một bước đột phá cho doanh nghiệp.

• SambaNova đang định vị mình như một giải pháp thay thế hàng đầu trong thị trường cơ sở hạ tầng AI đang phát triển mạnh mẽ.

• Sự ra mắt này cho thấy cuộc chiến giành vị thế thống trị cơ sở hạ tầng AI vẫn chưa kết thúc, và SambaNova đã khẳng định vị thế cạnh tranh của mình.

📌 SambaNova thách thức OpenAI với demo Llama 3.1 đạt 405 token/giây trên HuggingFace. Sử dụng chip SN40L, demo cân bằng tốc độ và độ chính xác, mở ra cơ hội mới cho AI doanh nghiệp nguồn mở, cạnh tranh trực tiếp với các ông lớn trong ngành.

https://venturebeat.com/ai/sambanova-challenges-openais-o1-model-with-llama-3-1-powered-demo-on-huggingface/

XVERSE-MoE-A36B: thiết lập tiêu chuẩn mới trong kiến trúc Mixture-of-Experts

- XVERSE Technology đã công bố mô hình ngôn ngữ XVERSE-MoE-A36B, một bước tiến lớn trong lĩnh vực AI với khả năng đa ngôn ngữ.
- Mô hình này sử dụng kiến trúc Mixture-of-Experts (MoE) với tổng số tham số lên tới 255 tỷ, trong đó 36 tỷ tham số được kích hoạt khi sử dụng.
- Kiến trúc MoE của XVERSE-MoE-A36B cho phép tối ưu hóa tài nguyên tính toán, nhờ vào cơ chế kích hoạt chọn lọc các chuyên gia.
- Mô hình này hỗ trợ hơn 40 ngôn ngữ, trong đó chú trọng vào tiếng Trung và tiếng Anh, giúp cải thiện hiệu suất ngôn ngữ.
- XVERSE-MoE-A36B sử dụng các tỷ lệ mẫu chính xác trong quá trình huấn luyện để đạt được kết quả xuất sắc trong các ngôn ngữ chính.
- Chiến lược huấn luyện của mô hình bao gồm cơ chế chuyển đổi dữ liệu động, giúp cập nhật liên tục các dữ liệu chất lượng cao.
- Mô hình cũng điều chỉnh lịch trình tốc độ học để nhanh chóng học từ dữ liệu mới mà không bị quá khớp.
- XVERSE Technology đã giải quyết các thách thức tính toán bằng cách sử dụng các chiến lược tính toán chồng chéo và kỹ thuật CPU-Offload.
- Mô hình đã được thử nghiệm trên nhiều chuẩn mực nổi tiếng như MMLU, C-Eval, và GSM8K, đạt được điểm số cao trong các bài kiểm tra.
- XVERSE-MoE-A36B có khả năng ứng dụng rộng rãi trong các lĩnh vực như hiểu ngôn ngữ tự nhiên, các tác nhân giao tiếp AI, và các lĩnh vực chuyên sâu như pháp lý và y tế.
- XVERSE Technology nhấn mạnh tầm quan trọng của việc sử dụng mô hình một cách có trách nhiệm, tránh phát tán nội dung độc hại hoặc thiên lệch.
- Công ty khuyến cáo người dùng nên thực hiện các bài kiểm tra an toàn trước khi triển khai mô hình trong các ứng dụng nhạy cảm.

📌 Mô hình XVERSE-MoE-A36B với 255 tỷ tham số và khả năng đa ngôn ngữ đã thiết lập tiêu chuẩn mới trong AI. Nó đạt điểm số xuất sắc trên nhiều chuẩn mực và hứa hẹn ứng dụng rộng rãi trong các lĩnh vực khác nhau, nhưng cần sử dụng một cách có trách nhiệm.

https://www.marktechpost.com/2024/09/15/xverse-moe-a36b-released-by-xverse-technology-a-revolutionary-multilingual-ai-model-setting-new-standards-in-mixture-of-experts-architecture-and-large-scale-language-processing/

Cuộc chiến định nghĩa AI mã nguồn mở đã bắt đầu

• Open Source Initiative (OSI) đang tiến gần hơn đến việc đưa ra định nghĩa chính thức về AI nguồn mở, dự kiến công bố vào cuối tháng 10 tại sự kiện All Things Open.

• Nhiều công ty như Meta đã tuyên bố các mô hình AI của họ là nguồn mở, nhưng thực tế không phải vậy. OSI và các đối tác đang nỗ lực tạo ra một định nghĩa toàn diện về AI nguồn mở.

• Bản dự thảo mới nhất (v. 0.0.9) của Định nghĩa AI Nguồn mở đã có những thay đổi đáng kể:
  - Dữ liệu huấn luyện được coi là có lợi nhưng không bắt buộc để sửa đổi hệ thống AI.
  - Phân loại dữ liệu huấn luyện thành dữ liệu mở, công khai và không thể chia sẻ.
  - Tách riêng danh sách kiểm tra đánh giá giấy phép khỏi tài liệu định nghĩa chính.

• Khung đánh giá mức độ mở của mô hình (MOF) được đề xuất với 3 cấp độ mở, từ hoàn toàn mở (cấp 1) đến một phần mở (cấp 2 và 3).

• Nhiều nhà lãnh đạo nguồn mở phản đối mạnh mẽ định nghĩa mới:
  - Cho rằng hệ thống chỉ có thể xây dựng trên dữ liệu độc quyền thì không thể gọi là nguồn mở.
  - Cáo buộc định nghĩa mới chứa quá nhiều từ ngữ mơ hồ, tạo kẽ hở cho các hệ thống AI độc quyền tự nhận là nguồn mở.
  - Cho rằng định nghĩa mới làm loãng ý nghĩa thực sự của nguồn mở.

• Một số ý kiến cho rằng định nghĩa hiện tại không đảm bảo quyền tự do chạy, sao chép, phân phối, nghiên cứu, thay đổi và cải tiến hệ thống AI.

• Stefano Maffulli, Giám đốc điều hành OSI, cho rằng cách tiếp cận thuần túy lý tưởng sẽ không khả thi vì không ai có thể đáp ứng được định nghĩa quá nghiêm ngặt.

• Cuộc tranh luận này có thể kéo dài nhiều năm, và có nguy cơ trở thành một cuộc tranh cãi kỹ thuật vô nghĩa trong khi AI vẫn phát triển mà không cần tham chiếu đến "nguồn mở" ngoại trừ như một thuật ngữ marketing.

📌 Cuộc tranh cãi về định nghĩa AI nguồn mở đang chia rẽ sâu sắc cộng đồng phần mềm tự do. Với 3 cấp độ mở trong MOF và sự phản đối từ nhiều nhà lãnh đạo, tương lai của AI nguồn mở vẫn còn nhiều bất định. Cuộc tranh luận có thể kéo dài nhiều năm tới.

https://www.theregister.com/2024/09/14/opinion_column_osi/

Deepseek v2.5: "kẻ hủy diệt" nguồn mở đánh bại các gã khổng lồ AI

• DeepSeek v2.5 là mô hình ngôn ngữ lớn (LLM) nguồn mở tiên tiến, kết hợp giữa DeepSeek phiên bản 2 0628 và DeepSeek Coder phiên bản 2 0724.

Mô hình này vượt trội hơn các đối thủ hàng đầu như GPT-4 Turbo, Claude 3 và Google Gemini trong nhiều bài kiểm tra chuẩn.

• DeepSeek v2.5 nổi bật với khả năng viết nâng cao, tuân thủ hướng dẫn tốt hơn và phù hợp với sở thích của con người.

• Người dùng có thể truy cập thông qua giao diện web và API, với giá cạnh tranh 0,14 USD/triệu token đầu vào và 0,28 USD/triệu token đầu ra.

• Mô hình cung cấp các tùy chọn cài đặt linh hoạt: triển khai cục bộ hoặc truy cập dựa trên đám mây.

Tính năng artifact cho phép tạo ra các hình ảnh trực quan từ các lời nhắc.

• Đánh giá nội bộ cho thấy cải thiện đáng kể về tỷ lệ thắng so với các mô hình khác.

DeepSeek v2.5 có ứng dụng đa dạng: lập trình, suy luận toán học, viết sáng tạo, lý luận logic và đạo đức.

• Người dùng có thể truy cập miễn phí bằng cách đăng ký tài khoản email.

• Mô hình đã được kiểm tra kỹ lưỡng về hiệu suất trong nhiều tác vụ khác nhau.

• DeepSeek v2.5 là giải pháp toàn diện cho các tác vụ đa dạng, tích hợp khả năng lập trình trong mô hình cơ sở.

• Nó vượt trội trong nhiều lĩnh vực như:
  - Lập trình: viết thành công các hàm Python và tạo mã SVG
  - Suy luận toán học: giải chính xác các bài toán nhiều bước
  - Viết sáng tạo: tạo ra các câu chuyện ngắn mạch lạc và hấp dẫn
  - Lý luận logic và đạo đức: xử lý hiệu quả các lời nhắc phức tạp
  - Trí tuệ cảm xúc: đưa ra phản hồi đồng cảm và chính xác

• DeepSeek v2.5 cung cấp tính năng gọi hàm và đầu ra JSON thông qua API, giúp dễ dàng tích hợp vào các ứng dụng.

• Người dùng có thể cài đặt cục bộ bằng LM Studio hoặc truy cập thông qua trò chuyện trên trình duyệt web.

• Là một giải pháp nguồn mở, DeepSeek v2.5 cung cấp tính linh hoạt và tùy chỉnh cần thiết để thích ứng với nhiều trường hợp sử dụng và quy trình làm việc khác nhau.

📌 DeepSeek v2.5 là mô hình ngôn ngữ nguồn mở vượt trội, đánh bại các đối thủ lớn trong nhiều bài kiểm tra. Với khả năng đa dạng từ lập trình đến sáng tạo, cùng tính linh hoạt và chi phí hợp lý, nó hứa hẹn trở thành công cụ AI mạnh mẽ cho nhiều ứng dụng.

https://www.geeky-gadgets.com/?p=437784

DataGemma: Mô hình AI mới của Google giải quyết vấn đề ảo giác bằng dữ liệu thực tế từ Data Commons

• Google giới thiệu DataGemma - mô hình AI nguồn mở đầu tiên được thiết kế để giải quyết vấn đề ảo giác của các mô hình ngôn ngữ lớn (LLM) bằng cách kết nối chúng với dữ liệu thống kê thực tế từ Data Commons.

Data Commons là một đồ thị kiến thức công khai chứa hơn 240 tỷ điểm dữ liệu từ các tổ chức uy tín như Liên Hợp Quốc, WHO, CDC và các Cục Thống kê.

• DataGemma sử dụng hai phương pháp chính để nâng cao độ chính xác của LLM:

1. RIG (Tạo sinh được xen kẽ bởi truy xuất): Chủ động truy vấn nguồn đáng tin cậy và kiểm tra thông tin với Data Commons. Khi được yêu cầu tạo phản hồi, mô hình được lập trình để xác định các trường hợp dữ liệu thống kê và truy xuất câu trả lời từ Data Commons.

2. RAG (Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài): Cho phép mô hình ngôn ngữ kết hợp thông tin liên quan ngoài dữ liệu huấn luyện. DataGemma truy xuất thông tin ngữ cảnh liên quan từ Data Commons trước khi mô hình bắt đầu tạo phản hồi.

Kết quả sơ bộ cho thấy cải thiện đáng kể về độ chính xác của mô hình ngôn ngữ khi xử lý các sự kiện số học, giảm thiểu ảo giác cho người dùng.

• Google đang tiếp tục nghiên cứu và cam kết hoàn thiện các phương pháp này, với mục tiêu cuối cùng là tích hợp chức năng nâng cao này vào cả mô hình Gemma và Gemini.

• Bằng cách chia sẻ nghiên cứu và công khai mô hình DataGemma, Google hy vọng thúc đẩy việc áp dụng rộng rãi hơn các kỹ thuật dựa trên Data Commons để làm nền tảng cho LLM trong dữ liệu thực tế.

Các nhà nghiên cứu và nhà phát triển có thể bắt đầu với DataGemma bằng cách sử dụng các notebook khởi động nhanh cho cả phương pháp RIG và RAG.

📌 DataGemma là mô hình AI nguồn mở đầu tiên kết nối LLM với 240 tỷ điểm dữ liệu thực tế từ Data Commons. Sử dụng phương pháp RIG và RAG, DataGemma giúp giảm ảo giác AI và nâng cao độ chính xác khi xử lý dữ liệu số học, hướng tới tương lai AI đáng tin cậy hơn.

https://blog.google/technology/ai/google-datagemma-ai-llm/

Mistral ra mắt Pixtral 12B - mô hình đa phương thức xử lý cả hình ảnh và văn bản

• Mistral, startup AI của Pháp, vừa phát hành Pixtral 12B - mô hình đa phương thức đầu tiên của họ có khả năng xử lý cả hình ảnh và văn bản.

• Pixtral 12B có 12 tỷ tham số, kích thước khoảng 24GB. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình.

Mô hình này được xây dựng dựa trên Nemo 12B - một trong những mô hình văn bản của Mistral. 

• Pixtral 12B có thể trả lời câu hỏi về số lượng hình ảnh tùy ý với kích thước tùy ý, dựa trên URL hoặc hình ảnh được mã hóa bằng base64.

• Các khả năng dự kiến của Pixtral 12B bao gồm chú thích hình ảnh và đếm số lượng đối tượng trong ảnh, tương tự như các mô hình đa phương thức khác như Claude của Anthropic và GPT-4 của OpenAI.

• Mô hình có sẵn để tải xuống thông qua liên kết torrent trên GitHub và nền tảng phát triển AI Hugging Face.

• Pixtral 12B được cấp phép Apache 2.0, cho phép tải xuống, tinh chỉnh và sử dụng không hạn chế.

• Chưa có bản demo web hoạt động tại thời điểm công bố. Sophia Yang, Trưởng bộ phận quan hệ nhà phát triển của Mistral, cho biết Pixtral 12B sẽ sớm có mặt trên nền tảng chatbot và API của Mistral là Le Chat và Le Plateforme.

• Chưa rõ Mistral đã sử dụng dữ liệu hình ảnh nào để phát triển Pixtral 12B.

• Hầu hết các mô hình AI tạo sinh, bao gồm cả các mô hình khác của Mistral, được đào tạo trên lượng lớn dữ liệu công khai từ internet, thường có bản quyền.

• Một số nhà cung cấp mô hình cho rằng quyền "sử dụng hợp lý" cho phép họ thu thập bất kỳ dữ liệu công khai nào, nhưng nhiều chủ sở hữu bản quyền không đồng ý và đã kiện các nhà cung cấp lớn hơn như OpenAI và Midjourney.

• Pixtral 12B ra mắt sau khi Mistral đóng vòng gọi vốn 645 triệu USD do General Catalyst dẫn đầu, định giá công ty ở mức 6 tỷ USD.

• Mistral, được thành lập hơn một năm trước và có Microsoft là cổ đông thiểu số, được coi là câu trả lời của châu Âu cho OpenAI.

Chiến lược của Mistral bao gồm phát hành các mô hình "mở" miễn phí, tính phí cho các phiên bản quản lý của những mô hình đó và cung cấp dịch vụ tư vấn cho khách hàng doanh nghiệp.

📌 Mistral ra mắt Pixtral 12B - mô hình đa phương thức 12 tỷ tham số xử lý hình ảnh và văn bản. Được cấp phép Apache 2.0, mô hình 24GB này dựa trên Nemo 12B, có thể tải xuống và sử dụng tự do. Đây là bước tiến quan trọng sau khi Mistral gọi vốn 645 triệu USD, định giá 6 tỷ USD.

https://techcrunch.com/2024/09/11/mistral-releases-pixtral-its-first-multimodal-model/

LLaMA-Omni: AI tạo sinh nguồn mở Trung Quốc cạnh tranh với Siri và Alexa

• Các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc đã phát triển một mô hình AI có tên LLaMA-Omni, hứa hẹn thay đổi cách chúng ta tương tác với trợ lý kỹ thuật số.

LLaMA-Omni được xây dựng dựa trên mô hình nguồn mở Llama 3.1 8B Instruct của Meta, có khả năng xử lý hướng dẫn bằng giọng nói và tạo ra phản hồi đồng thời bằng văn bản và giọng nói.

• Hệ thống này có độ trễ thấp ấn tượng chỉ 226 mili giây, tương đương với tốc độ hội thoại của con người.

• LLaMA-Omni có thể được huấn luyện trong vòng chưa đầy 3 ngày chỉ với 4 GPU, tiết kiệm đáng kể tài nguyên so với các hệ thống tiên tiến khác.

• Công nghệ này mở ra cơ hội cho các công ty nhỏ và nhà nghiên cứu trong lĩnh vực AI giọng nói, vốn đang bị thống trị bởi các gã khổng lồ công nghệ.

• Ứng dụng tiềm năng bao gồm cải thiện dịch vụ khách hàng, tương tác bệnh nhân trong y tế, và giáo dục cá nhân hóa.

• Tác động tài chính có thể rất lớn, với khả năng thúc đẩy làn sóng đổi mới và cạnh tranh mới trong thị trường AI.

• Nhà đầu tư có thể quan tâm đến các công ty ứng dụng công nghệ này do tiềm năng giảm chi phí và thời gian phát triển sản phẩm AI giọng nói.

Thách thức hiện tại bao gồm giới hạn ngôn ngữ tiếng Anh và chất lượng giọng nói tổng hợp chưa tự nhiên như các hệ thống thương mại hàng đầu.

Vấn đề bảo mật cũng đáng quan ngại khi các hệ thống tương tác bằng giọng nói thường yêu cầu xử lý dữ liệu âm thanh nhạy cảm.

• Việc mã nguồn mở cả mô hình và mã nguồn có thể thúc đẩy cải tiến nhanh chóng từ cộng đồng AI toàn cầu.

• LLaMA-Omni đại diện cho bước tiến quan trọng hướng tới giao diện giọng nói tự nhiên hơn cho trợ lý AI và chatbot.

• Công nghệ này có thể dẫn đến sự phổ biến của các ứng dụng đa dạng phù hợp với các ngành, ngôn ngữ và bối cảnh văn hóa cụ thể.

• Kỷ nguyên AI thực sự có khả năng hội thoại đang đến gần hơn dự kiến, mở ra cơ hội cạnh tranh cho các công ty tích hợp thành công công nghệ này.

📌 LLaMA-Omni, mô hình AI nguồn mở từ Trung Quốc, hứa hẹn cách mạng hóa tương tác giọng nói với độ trễ chỉ 226ms. Công nghệ này mở ra cơ hội cho các startup AI cạnh tranh với gã khổng lồ công nghệ, có thể áp dụng trong nhiều lĩnh vực từ dịch vụ khách hàng đến y tế và giáo dục.

https://venturebeat.com/ai/llama-omni-the-open-source-ai-thats-giving-siri-and-alexa-a-run-for-their-money/

Arcee AI vừa ra mắt SuperNova: mô hình ngôn ngữ tùy chỉnh cho doanh nghiệp

- Arcee AI đã công bố SuperNova, một mô hình ngôn ngữ với 70 tỷ tham số, được thiết kế đặc biệt cho việc triển khai trong các doanh nghiệp.
- SuperNova cung cấp khả năng tuân thủ hướng dẫn nâng cao và tùy chỉnh toàn diện, nhằm giải quyết các vấn đề về bảo mật dữ liệu và sự ổn định của mô hình.
- Mô hình này được xây dựng trên kiến trúc Llama-3.1-70B-Instruct của Meta, và sử dụng quy trình sau đào tạo độc quyền để cải thiện khả năng tuân thủ hướng dẫn.
- Quá trình phát triển SuperNova bao gồm việc đào tạo ba mô hình cùng lúc, với một mô hình được tinh chế từ Llama 405B, một mô hình sử dụng dữ liệu từ kho dữ liệu EvolKit, và một mô hình khác thực hiện DPO trên Llama 3.
- SuperNova được triển khai trong môi trường đám mây riêng của doanh nghiệp, bắt đầu từ AWS Marketplace, với kế hoạch mở rộng sang Google và Azure.
- Mô hình này cho phép doanh nghiệp kiểm soát hoàn toàn tài sản AI của mình, giúp bảo vệ dữ liệu nhạy cảm và tránh các thay đổi không mong muốn từ dịch vụ API.
- SuperNova có khả năng được tinh chỉnh và đào tạo lại trong môi trường doanh nghiệp, cho phép cải thiện liên tục dựa trên tương tác với người dùng.
- Arcee AI cũng cung cấp một API miễn phí cho việc thử nghiệm và đánh giá, cùng với phiên bản SuperNova-Lite với 8 tỷ tham số, hữu ích cho các nhà phát triển trong môi trường hạn chế tài nguyên.
- Arcee cam kết tính minh bạch và khuyến khích các bên thứ ba đánh giá hiệu suất của SuperNova, đặc biệt trong lĩnh vực lý thuyết toán học.
- Việc ra mắt SuperNova diễn ra trong bối cảnh các doanh nghiệp đang xem xét lại chiến lược AI của mình, với sự quan tâm ngày càng tăng đối với các mô hình có thể triển khai và tùy chỉnh.

📌 SuperNova của Arcee AI là mô hình ngôn ngữ 70 tỷ tham số, cung cấp khả năng tùy chỉnh cao và bảo mật dữ liệu cho doanh nghiệp. Mô hình này có thể được triển khai trong môi trường đám mây riêng, cho phép cải thiện liên tục và kiểm soát hoàn toàn tài sản AI.

 

https://venturebeat.com/ai/arcee-ai-unveils-supernova-a-customizable-instruction-adherent-model-for-enterprises/

AI nguồn mở: cuộc chiến định nghĩa và tương lai bất định

• Cộng đồng công nghệ đang gặp khó khăn trong việc định nghĩa AI nguồn mở do sự phức tạp chưa từng có của công nghệ này.

• Meta đang thắng thế trong câu chuyện AI nguồn mở bằng cách sử dụng thuật ngữ này để quảng bá một mô hình ngôn ngữ lớn (LLM) không thực sự nguồn mở.

AI tạo ra một nghịch lý cho cộng đồng nguồn mở: một bên là những người theo chủ nghĩa thực dụng, bên kia là những người muốn AI nguồn mở phải trung thành với các nguyên tắc gốc.

• Ý nghĩa của "nguồn mở" đang bị giảm sút khi các nhà cung cấp LLM AI tự gọi dịch vụ của họ là nguồn mở dù có đúng hay không.

• Vấn đề quản lý ngôn ngữ định nghĩa nguồn mở đang cho phép việc khai thác thuật ngữ này, trong khi các bên đều đưa ra phiên bản sự thật riêng của mình.

Open Source Initiative (OSI) đang nỗ lực xây dựng một định nghĩa, nhưng liệu nó có đủ uy tín và được cộng đồng ủng hộ hay không vẫn là một câu hỏi mở.

• Ashley Williams, người sáng lập Axo, cho rằng nguồn mở đã bị trôi dạt về mặt ngôn ngữ một phần do thiếu sự quản lý ngôn ngữ định nghĩa nó.

• Ý nghĩa của nguồn mở đã thay đổi qua thời gian, từ cách để các nhà phát triển tạo phần mềm họ có thể sửa đổi, đến việc phục vụ lợi ích thương mại và giảm chi phí phát triển công nghệ.

• Stefano Maffulli, giám đốc điều hành OSI, chỉ ra thách thức khi sử dụng thuật ngữ "AI nguồn mở" vì không có "nguồn" thực sự trong đó.

• Việc Liên minh Châu Âu tuyên bố các hệ thống AI nguồn mở có lợi thế đặc biệt càng thúc đẩy các công ty như Meta gắn mình với thuật ngữ này.

• OSI đã đăng tải bản dự thảo định nghĩa để lấy ý kiến, nhưng nó vẫn đang gặp nhiều tranh cãi.

• Amanda Brock từ OpenUK cho rằng việc có một định nghĩa riêng cho AI nguồn mở có thể gây nhầm lẫn và làm suy yếu bản chất của phần mềm nguồn mở.

Tranh luận xoay quanh việc liệu dữ liệu huấn luyện có nên được coi là yêu cầu bắt buộc hay chỉ là lợi ích bổ sung của AI nguồn mở.

• Một số chuyên gia cho rằng cần có một "phổ mở" thay vì chỉ phân loại nhị phân "nguồn mở hay không".

• Allison Randall từ Software Freedom Conservancy nhấn mạnh tầm quan trọng của việc duy trì một định nghĩa rõ ràng và đầy tham vọng về AI nguồn mở.

📌 AI nguồn mở đang đối mặt với thách thức định nghĩa chưa từng có. Tranh cãi xoay quanh vai trò của dữ liệu huấn luyện, quyền sở hữu ngôn ngữ và mức độ mở cần thiết. Cộng đồng đang tìm kiếm sự cân bằng giữa tính thực dụng và lý tưởng, trong khi các công ty lớn như Meta đang định hình cuộc thảo luận.

 

https://thenewstack.io/why-open-source-ai-has-no-meaning/

DeepSeek-V2.5 trở thành mô hình AI nguồn mở hàng đầu mới

• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management (Trung Quốc), vừa ra mắt mô hình DeepSeek-V2.5 vào ngày 6/9/2024.

DeepSeek-V2.5 kết hợp khả năng xử lý ngôn ngữ tổng quát và lập trình trong một mô hình duy nhất, là phiên bản nâng cấp từ DeepSeek-V2-0628 và DeepSeek-Coder-V2-0724.

• Mô hình này hiện đã có mặt trên Hugging Face, cho phép truy cập qua web và API.

• Theo đánh giá của các nhà nghiên cứu độc lập, DeepSeek-V2.5 được coi là mô hình ngôn ngữ lớn (LLM) tiên tiến nhất hiện có trong lĩnh vực nguồn mở.

• DeepSeek-V2.5 vượt trội trong nhiều tiêu chuẩn đánh giá quan trọng:
- AlpacaEval 2.0: Độ chính xác tổng thể 50,5 (so với 46,6 của DeepSeek-V2-0628 và 44,5 của DeepSeek-Coder-V2-0724)
- ArenaHard: Độ chính xác 76,2 (so với 68,3 và 66,3 của các phiên bản trước)
- HumanEval Python: Đạt điểm 89, thể hiện khả năng lập trình vượt trội

Mô hình này còn vượt qua GPT-4o mini và ChatGPT-4o-latest trong đánh giá tiếng Trung nội bộ.

• Theo Shin Megami Boson, một chuyên gia AI, DeepSeek-V2.5 vượt trội hơn Meta's Llama 3-70B Instruct và Llama 3.1-405B Instruct trong bài kiểm tra riêng mô phỏng Graduate-Level Google-Proof Q&A Benchmark (GPQA).

• DeepSeek-V2.5 được phát hành dưới dạng nguồn mở trên Hugging Face với giấy phép biến thể của MIT, cho phép sử dụng miễn phí và thương mại hóa với một số điều kiện nhất định.

Để chạy DeepSeek-V2.5 cục bộ, người dùng cần thiết lập định dạng BF16 với GPU 80GB (8 GPU để tận dụng tối đa).

• Mô hình sử dụng kiến trúc Multi-Head Latent Attention (MLA) giúp giảm bộ nhớ đệm KV, cải thiện tốc độ suy luận mà không ảnh hưởng đến hiệu suất.

📌 DeepSeek-V2.5 đặt ra tiêu chuẩn mới cho mô hình AI nguồn mở, kết hợp xử lý ngôn ngữ và lập trình. Với hiệu suất vượt trội trong nhiều tiêu chuẩn đánh giá, mô hình này mở ra cơ hội ứng dụng AI tiên tiến cho doanh nghiệp và nhà phát triển, đồng thời thúc đẩy nghiên cứu và phát triển trong lĩnh vực AI.

https://venturebeat.com/ai/deepseek-v2-5-wins-praise-as-the-new-true-open-source-ai-model-leader/

LightEval - công cụ đánh giá mã nguồn mở mới từ Hugging Face

• Hugging Face vừa ra mắt LightEval - bộ công cụ đánh giá nhẹ giúp doanh nghiệp và nhà nghiên cứu đánh giá các mô hình ngôn ngữ lớn (LLM).

• LightEval là bước tiến quan trọng trong nỗ lực làm cho quá trình phát triển AI minh bạch và có thể tùy chỉnh hơn.

• CEO Clément Delangue nhấn mạnh đánh giá là "một trong những bước quan trọng nhất - nếu không phải là quan trọng nhất - trong AI".

• Công cụ này giải quyết nhu cầu ngày càng tăng về các công cụ đánh giá chính xác và linh hoạt khi AI ngày càng quan trọng trong hoạt động kinh doanh.

LightEval cho phép tùy chỉnh đánh giá theo mục tiêu cụ thể của doanh nghiệp, từ đo lường tính công bằng trong ứng dụng y tế đến tối ưu hóa hệ thống đề xuất cho thương mại điện tử.

• Nó tích hợp liền mạch với các công cụ hiện có của Hugging Face như thư viện xử lý dữ liệu Datatrove và thư viện huấn luyện mô hình Nanotron.

• LightEval hỗ trợ đánh giá trên nhiều thiết bị như CPU, GPU và TPU, có thể mở rộng quy mô cho cả triển khai nhỏ và lớn.

• Công cụ này đáp ứng nhu cầu ngày càng tăng về đánh giá AI khi các mô hình trở nên lớn và phức tạp hơn.

• LightEval giúp doanh nghiệp đảm bảo mô hình của họ đáp ứng các tiêu chuẩn đạo đức và kinh doanh trước khi triển khai.

• Là mã nguồn mở, LightEval khuyến khích trách nhiệm giải trình lớn hơn trong đánh giá AI.

• Người dùng có thể đánh giá mô hình trên nhiều tiêu chuẩn phổ biến hoặc xác định các tác vụ tùy chỉnh của riêng họ.

• LightEval hỗ trợ các cấu hình đánh giá nâng cao như sử dụng trọng số khác nhau, song song hóa pipeline hoặc phương pháp dựa trên bộ điều hợp.

• Công cụ này là một phần trong xu hướng dân chủ hóa phát triển AI, giúp các công ty nhỏ hơn và nhà phát triển cá nhân tiếp cận các công cụ đánh giá mạnh mẽ.

• Thách thức lớn nhất của LightEval sẽ là quản lý độ phức tạp của đánh giá AI khi các mô hình tiếp tục phát triển.

📌 LightEval của Hugging Face mở ra kỷ nguyên mới cho đánh giá và trách nhiệm giải trình AI. Công cụ mã nguồn mở này cho phép tùy chỉnh linh hoạt, minh bạch và hỗ trợ đa nền tảng, giúp doanh nghiệp đảm bảo mô hình AI đáng tin cậy, công bằng và hiệu quả trong các ứng dụng thực tế ngày càng phức tạp.

 

https://venturebeat.com/ai/lighteval-hugging-faces-open-source-solution-to-ais-accountability-problem/

Mô hình Political DEBATE: Nguồn mở cho phân loại văn bản trong khoa học chính trị

• Các nhà nghiên cứu từ Đại học Princeton, Pennsylvania State và Louisiana State đã phát triển mô hình Political DEBATE (DeBERTa Algorithm for Textual Entailment) để phân loại văn bản chính trị.

• Mô hình có hai phiên bản: Large (304 triệu tham số) và Base (86 triệu tham số), được thiết kế để thực hiện phân loại zero-shot và few-shot hiệu quả.

• Political DEBATE sử dụng khung phân loại Natural Language Inference (NLI), cho phép sử dụng mô hình mã hóa ngôn ngữ nhỏ hơn như BERT, giảm đáng kể yêu cầu tính toán so với mô hình LLM tạo sinh.

• Nhóm nghiên cứu giới thiệu bộ dữ liệu PolNLI gồm hơn 200.000 tài liệu chính trị được gán nhãn, bao gồm 201.691 tài liệu ghép với 852 giả thuyết suy luận duy nhất.

• PolNLI được chia thành 4 nhiệm vụ chính: phát hiện quan điểm, phân loại chủ đề, phát hiện phát ngôn thù địch và độc hại, và trích xuất sự kiện.

• Dữ liệu được lấy từ nhiều nguồn đa dạng như mạng xã hội, tin tức, bản tin quốc hội, luật pháp và phản hồi từ cộng đồng. Phần lớn văn bản trong PolNLI do con người tạo ra.

• Mô hình Political DEBATE được xây dựng dựa trên DeBERTa V3 base và large, được tinh chỉnh trước cho phân loại NLI mục đích chung.

• Quá trình đào tạo sử dụng thư viện Transformers và được giám sát bằng thư viện Weights and Biases. Việc lựa chọn mô hình cuối cùng dựa trên đánh giá định lượng và định tính.

• Political DEBATE được so sánh với 4 mô hình khác: DeBERTa base và large NLI mục đích chung, Llama 3.1 8B nguồn mở và Claude 3.5 Sonnet độc quyền.

• Mô hình thể hiện khả năng học ít mẫu hiệu quả, học các nhiệm vụ mới chỉ với 10-25 tài liệu được lấy mẫu ngẫu nhiên.

• Phân tích hiệu quả chi phí cho thấy Political DEBATE nhanh hơn đáng kể so với Llama 3.1 8B trên nhiều cấu hình phần cứng khác nhau.

• Mô hình hoạt động hiệu quả trên phần cứng phổ biến như GPU laptop (M3 max) và GPU đám mây miễn phí (Tesla T4).

📌 Mô hình Political DEBATE và bộ dữ liệu PolNLI mang lại giải pháp nguồn mở hiệu quả cho phân loại văn bản chính trị. Với 304 triệu tham số, mô hình có thể xử lý 5.000 tài liệu trong vài phút trên phần cứng phổ thông, đạt hiệu suất tương đương mô hình độc quyền lớn hơn nhiều lần.

 

https://www.marktechpost.com/2024/09/09/political-debate-language-models-open-source-solutions-for-efficient-text-classification-in-political-science/

Reflection 70B bị tố cáo gian lận và hiệu suất kém

- Reflection 70B, một biến thể của mô hình ngôn ngữ lớn (LLM) nguồn mở Llama 3.1 của Meta, được HyperWrite (trước đây là OthersideAI) - một công ty khởi nghiệp nhỏ ở New York - huấn luyện và phát hành. Reflection 70B đã khoe khoang về các kết quả đánh giá ấn tượng và dẫn đầu trên các bài kiểm tra của bên thứ ba.

- Tuy nhiên, chỉ sau một cuối tuần, vương miện của "vua" AI nguồn mở mới này đã bị phai nhạt khi các nhà đánh giá độc lập khác không thể tái hiện một số chỉ số hiệu suất được tuyên bố.

- Tổ chức Artificial Analysis đã công bố phân tích riêng cho thấy điểm số MMLU của Reflection Llama 3.170B thấp hơn đáng kể so với Llama 3.1 70B của Meta, mâu thuẫn lớn với kết quả ban đầu của HyperWrite.

- Matt Shumer, đồng sáng lập và CEO của HyperWrite, đã thừa nhận rằng trọng số của Reflection 70B đã bị "lỗi" trong quá trình tải lên Hugging Face, có thể dẫn đến hiệu suất kém hơn so với phiên bản "API nội bộ" của công ty.

- Artificial Analysis sau đó được cấp quyền truy cập vào một API riêng và nhận thấy hiệu suất ấn tượng nhưng không ở mức độ như các tuyên bố ban đầu. Tổ chức này đặt ra hai câu hỏi then chốt về lý do tại sao phiên bản được công bố lại khác với phiên bản họ kiểm tra và lý do tại sao trọng số của phiên bản họ kiểm tra chưa được phát hành.

- Người dùng trên các cộng đồng Reddit về học máy và AI cũng đặt nghi vấn về hiệu suất và nguồn gốc được tuyên bố của Reflection 70B, với ít nhất một người dùng X tố cáo Shumer "gian lận trong cộng đồng nghiên cứu AI".

📌 Phản ứng dữ dội trước những cáo buộc gian lận và hiệu suất không đạt yêu cầu của mô hình AI nguồn mở mới nhất Reflection 70B, các nhà phân tích độc lập đặt nhiều câu hỏi về các tuyên bố hiệu suất ban đầu của HyperWrite. Các bằng chứng cho thấy Reflection 70B có thể không phải là phiên bản Llama 3.1 hàng đầu như tuyên bố.

https://venturebeat.com/ai/new-open-source-ai-leader-reflection-70bs-performance-questioned-accused-of-fraud/

LG AI Research ra mắt EXAONE 3.0 - LLM 7,8 tỷ tham số vượt trội trong tiếng Anh và tiếng Hàn

• LG AI Research đã ra mắt EXAONE 3.0, một mô hình ngôn ngữ song ngữ tiên tiến với 7,8 tỷ tham số, xuất sắc trong cả tiếng Anh và tiếng Hàn.

• EXAONE 3.0 là phiên bản mới nhất trong dòng mô hình EXAONE, với tên gọi xuất phát từ "EXpert AI for EveryONE", thể hiện cam kết của LG trong việc phổ cập AI chuyên gia.

• So với EXAONE 1.0 và 2.0, phiên bản 3.0 đã cải thiện đáng kể về hiệu suất và chi phí:
- Giảm 56% thời gian xử lý suy luận
- Giảm 72% chi phí so với EXAONE 2.0
- Chi phí vận hành chỉ bằng 6% so với EXAONE 1.0

• Kiến trúc của EXAONE 3.0:
- Sử dụng kiến trúc transformer chỉ giải mã (decoder-only)
- Độ dài ngữ cảnh tối đa 4.096 token
- 32 lớp với kích thước feedforward 14.336 và 32 đầu
- Sử dụng Rotary Position Embeddings (RoPE) và Grouped Query Attention (GQA)
- Kích thước từ vựng 102.400

• Quá trình huấn luyện:
- Tiền huấn luyện trên tập dữ liệu đa dạng gồm 8 nghìn tỷ token
- Hai giai đoạn: kiến thức chung và kiến thức chuyên ngành
- Tinh chỉnh có giám sát (SFT) và Tối ưu hóa ưu tiên trực tiếp (DPO)

• Hiệu suất vượt trội:
- Đứng đầu trong nhiều bài kiểm tra tiếng Anh như MT-Bench (điểm 9,01), Arena-Hard-v0.1, WildBench, AlpacaEval 2.0 LC
- Xếp hạng cao trong các bài kiểm tra toán học và lập trình
- Dẫn đầu trong các bài kiểm tra tiếng Hàn như KMMLU, KoBEST, LogicKor

Ứng dụng đa ngành:
- Y tế: chẩn đoán, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, mô phỏng thực tế, trải nghiệm người dùng

• LG AI Research đã mở mã nguồn EXAONE 3.0 7.8B cho cộng đồng AI sử dụng với mục đích phi thương mại và nghiên cứu, thúc đẩy sự đổi mới và hợp tác trong lĩnh vực AI.

📌 EXAONE 3.0 là bước đột phá của LG AI Research với mô hình ngôn ngữ 7,8 tỷ tham số vượt trội trong tiếng Anh và tiếng Hàn. Mô hình mã nguồn mở này đạt hiệu suất cao trên nhiều bài kiểm tra, giảm 72% chi phí so với phiên bản trước và có tiềm năng ứng dụng rộng rãi trong nhiều ngành.

 

https://www.marktechpost.com/2024/09/08/lg-ai-research-open-sources-exaone-3-0-a-7-8b-bilingual-language-model-excelling-in-english-and-korean-with-top-performance-in-real-world-applications-and-complex-reasoning/

Tất tần tật về Llama - mô hình AI tạo sinh nguồn mở đầy tiềm năng của Meta

• Llama là gia đình mô hình AI tạo sinh nguồn mở của Meta, gồm 3 phiên bản: Llama 8B, Llama 70B và Llama 405B. Phiên bản mới nhất là Llama 3.1, ra mắt tháng 7/2024.

• Các mô hình được huấn luyện trên dữ liệu web đa ngôn ngữ, mã nguồn công khai và dữ liệu tổng hợp. Llama 8B và 70B nhỏ gọn, có thể chạy trên laptop đến máy chủ. Llama 405B lớn hơn, yêu cầu phần cứng trung tâm dữ liệu.

Tất cả mô hình Llama có cửa sổ ngữ cảnh 128.000 token, tương đương khoảng 100.000 từ hoặc 300 trang.

Llama có thể thực hiện nhiều tác vụ như lập trình, trả lời câu hỏi toán học, tóm tắt tài liệu bằng 8 ngôn ngữ. Nó có thể xử lý hầu hết các tác vụ dựa trên văn bản nhưng chưa thể xử lý hình ảnh.

• Mô hình Llama 3.1 có thể được cấu hình để sử dụng các ứng dụng, công cụ và API bên thứ ba như Brave Search, Wolfram Alpha và trình thông dịch Python.

• Người dùng có thể trò chuyện với Llama thông qua chatbot Meta AI trên Facebook Messenger, WhatsApp, Instagram, Oculus và Meta.ai.

• Nhà phát triển có thể tải xuống, sử dụng hoặc tinh chỉnh Llama trên hầu hết các nền tảng đám mây phổ biến. Meta có hơn 25 đối tác lưu trữ Llama, bao gồm Nvidia, Databricks, Groq, Dell và Snowflake.

• Meta cung cấp các công cụ để làm cho Llama "an toàn hơn" khi sử dụng:
- Llama Guard: khung kiểm duyệt nội dung
- Prompt Guard: công cụ bảo vệ chống tấn công prompt injection 
- CyberSecEval: bộ đánh giá rủi ro an ninh mạng

Hạn chế của Llama bao gồm nguy cơ vi phạm bản quyền và khả năng tạo ra mã lỗi hoặc không an toàn. Cần có chuyên gia xem xét trước khi sử dụng mã do AI tạo ra.

📌 Llama là mô hình AI tạo sinh nguồn mở tiên tiến của Meta với 3 phiên bản (8B, 70B, 405B), có khả năng đa dạng trong xử lý ngôn ngữ tự nhiên. Meta cung cấp nhiều công cụ hỗ trợ, nhưng vẫn cần thận trọng về vấn đề bản quyền và an toàn khi sử dụng.

https://techcrunch.com/2024/09/08/meta-llama-everything-you-need-to-know-about-the-open-generative-ai-model/

IBM Research ra mắt Docling - công cụ AI mã nguồn mở chuyển đổi PDF chính xác cao, giữ nguyên cấu trúc phức tạp

• IBM Research đã giới thiệu Docling, một gói phần mềm mã nguồn mở được thiết kế đặc biệt để chuyển đổi tài liệu PDF sang các định dạng có thể xử lý bằng máy.

Docling sử dụng các mô hình AI chuyên biệt cho phân tích bố cục và nhận dạng cấu trúc bảng, bao gồm DocLayNet và TableFormer. Các mô hình này được đào tạo trên các bộ dữ liệu lớn và có thể xử lý nhiều loại tài liệu và định dạng khác nhau.

• Công cụ này hoạt động hiệu quả trên phần cứng thông thường, có thể cấu hình cho xử lý hàng loạt và sử dụng tương tác.

• Quy trình xử lý của Docling bao gồm các bước: phân tích cú pháp tài liệu PDF, trích xuất token văn bản và tọa độ hình học, áp dụng mô hình AI để phân tích bố cục, nhận dạng các phần tử như bảng và hình ảnh, tái tạo cấu trúc gốc với độ chính xác cao.

• Mô hình TableFormer của Docling có khả năng nhận dạng các cấu trúc bảng phức tạp, bao gồm cả những bảng không có đường viền, trải dài nhiều hàng hoặc cột, hoặc chứa các ô trống.

• Kết quả phân tích được tổng hợp và xử lý sau để nâng cao metadata, xác định ngôn ngữ tài liệu và sửa thứ tự đọc. Tài liệu chuyển đổi được xuất ra dưới dạng JSON hoặc Markdown.

Trong các bài kiểm tra trên bộ dữ liệu 225 trang, Docling đã xử lý tài liệu với độ trễ dưới 1 giây/trang trên một CPU.

• Trên MacBook Pro M3 Max 16 nhân, Docling xử lý 92 trang trong 103 giây sử dụng 16 luồng, đạt thông lượng 2,45 trang/giây.

• Trên phần cứng cũ hơn như Intel Xeon E5-2690, Docling vẫn duy trì hiệu suất tốt, xử lý 143 trang trong 239 giây với 16 luồng.

Docling giải quyết các thách thức trong chuyển đổi tài liệu PDF phức tạp, bao gồm việc mất các tính năng cấu trúc, khó khăn trong việc khôi phục bảng, hình ảnh và thứ tự đọc.

• Công cụ này khắc phục những hạn chế của các giải pháp hiện có, cả thương mại và mã nguồn mở, trong việc xử lý bố cục tài liệu phức tạp và nhận dạng bảng chính xác.

• Docling cung cấp một giải pháp mạnh mẽ và linh hoạt cho chuyển đổi tài liệu, phù hợp cho cả nhà nghiên cứu học thuật và doanh nghiệp thương mại.

📌 Docling của IBM Research là công cụ AI mã nguồn mở tiên tiến cho chuyển đổi PDF, xử lý 2,45 trang/giây trên MacBook Pro M3 Max. Nó giải quyết các thách thức về bảo toàn cấu trúc và nhận dạng bảng phức tạp, phù hợp cho cả nghiên cứu và ứng dụng thương mại.

https://www.marktechpost.com/2024/09/06/ibm-research-open-sources-docling-an-ai-tool-for-high-precision-pdf-document-conversion-and-structural-integrity-maintenance-across-complex-layouts/

Định nghĩa mới về "nguồn mở" có thể gây khó khăn cho các công ty AI lớn

• Open Source Initiative (OSI) vừa công bố cập nhật định nghĩa về "AI nguồn mở" vào ngày 6/9/2024.

Định nghĩa mới này có thể loại trừ các mô hình AI từ các công ty lớn như Meta và Google.

• OSI cho rằng xã hội cần có các quyền tự do cơ bản của nguồn mở đối với AI để mang lại lợi ích cho mọi người.

• Theo định nghĩa mới, AI nguồn mở phải đảm bảo 4 quyền tự do:
- Sử dụng hệ thống cho bất kỳ mục đích nào mà không cần xin phép
- Nghiên cứu cách hệ thống hoạt động và kiểm tra các thành phần
- Sửa đổi hệ thống cho bất kỳ mục đích nào
- Chia sẻ hệ thống cho người khác sử dụng có hoặc không có sửa đổi

• Các quyền tự do này áp dụng cho cả hệ thống hoàn chỉnh và các thành phần riêng lẻ.

Điều kiện tiên quyết là phải có quyền truy cập vào dạng ưu tiên để thực hiện sửa đổi hệ thống.

• Theo Nik Marda, chuyên gia kỹ thuật về quản trị AI của Mozilla, các mô hình như Llama 3.1 của Meta hay Gemma của Google sẽ không đáp ứng định nghĩa mới này.

• Định nghĩa cũ lỏng lẻo hơn cho phép các công ty có đủ khoảng trống để thay đổi chức năng mô hình và vô hiệu hóa quyền truy cập theo ý muốn.

• Điều này có thể dẫn đến gián đoạn dịch vụ, hiệu suất kém và các tính năng đắt đỏ hơn trong các ứng dụng và công cụ mà mọi người sử dụng.

Meta và Google chưa công nhận định nghĩa mới này như một tiêu chuẩn của ngành.

• Việc thiếu một định nghĩa chính xác trong quá khứ đã khiến một số công ty dễ dàng hơn trong việc hành xử như thể AI của họ là nguồn mở ngay cả khi không phải vậy.

• Nhiều, nếu không muốn nói là hầu hết, các mô hình từ các tác nhân thương mại lớn sẽ không đáp ứng định nghĩa mới này.

📌 OSI cập nhật định nghĩa "AI nguồn mở" với 4 quyền tự do cơ bản, có thể loại trừ các mô hình của Meta và Google. Định nghĩa mới nhằm ngăn chặn việc lạm dụng thuật ngữ "nguồn mở" và đảm bảo quyền lợi người dùng.

https://www.digitaltrends.com/computing/new-open-source-definition-osi-meta-google/

Red Hat ra mắt Enterprise Linux AI - giải pháp AI thực sự hữu ích cho quản trị viên và lập trình viên

• Red Hat chính thức ra mắt Red Hat Enterprise Linux (RHEL) AI, một giải pháp AI thực sự hữu ích cho quản trị viên và lập trình viên RHEL.

• RHEL AI cung cấp image RHEL được tối ưu hóa hoàn toàn, có thể khởi động để triển khai máy chủ trên các môi trường đám mây lai.

• Nền tảng này kết hợp mô hình ngôn ngữ lớn Granite của IBM Research, công cụ căn chỉnh InstructLab dựa trên phương pháp LAB và cách tiếp cận hợp tác để phát triển mô hình.

• Phương pháp LAB sử dụng tạo dữ liệu tổng hợp và tinh chỉnh nhiều giai đoạn để căn chỉnh mô hình AI/ML mà không cần nỗ lực thủ công tốn kém.

RHEL AI được tích hợp trong OpenShift AI, nền tảng MLOps của Red Hat, cho phép triển khai mô hình quy mô lớn trong các cụm Kubernetes phân tán.

Giải pháp này sử dụng Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để truy cập kiến thức bên ngoài được phê duyệt, giúp cải thiện độ chính xác của câu trả lời.

RHEL AI cho phép các chuyên gia lĩnh vực, không chỉ các nhà khoa học dữ liệu, đóng góp vào mô hình AI tạo sinh được xây dựng cho mục đích cụ thể trên đám mây lai.

• Nền tảng này được thiết kế để chạy ở bất kỳ nơi nào dữ liệu của bạn tồn tại - tại chỗ, ở biên hoặc trên đám mây công cộng.

• RHEL AI hiện có sẵn trên Amazon Web Services (AWS) và IBM Cloud dưới dạng đăng ký "tự mang" (BYO). Trong vài tháng tới, nó sẽ có sẵn dưới dạng dịch vụ trên AWS, Google Cloud Platform (GCP), IBM Cloud và Microsoft Azure.

• Dell Technologies đã công bố hợp tác để đưa RHEL AI lên máy chủ Dell PowerEdge, nhằm đơn giản hóa việc triển khai AI bằng cách cung cấp các giải pháp phần cứng được xác thực, bao gồm điện toán tăng tốc NVIDIA, được tối ưu hóa cho RHEL AI.

📌 RHEL AI của Red Hat mang đến giải pháp AI nguồn mở cấp doanh nghiệp, kết hợp mô hình Granite, công cụ InstructLab và phương pháp LAB. Nền tảng này hứa hẹn đơn giản hóa việc áp dụng AI trong doanh nghiệp, với khả năng triển khai linh hoạt trên nhiều môi trường đám mây và hỗ trợ từ các đối tác như Dell.

https://www.zdnet.com/article/red-hat-unleashes-enterprise-linux-ai-and-its-truly-useful/

Reflection 70B - mô hình AI nguồn mở mạnh nhất thế giới với khả năng tự sửa lỗi

• HyperWrite, công ty khởi nghiệp AI do Matt Shumer đồng sáng lập, vừa công bố Reflection 70B - mô hình ngôn ngữ lớn (LLM) mới dựa trên Llama 3.1-70B Instruct nguồn mở của Meta.

• Reflection 70B nổi bật với kỹ thuật tự sửa lỗi mới và hiệu suất vượt trội trong các bài kiểm tra của bên thứ ba như MMLU và HumanEval.

• Mô hình sử dụng kỹ thuật "reflection tuning", cho phép nó phát hiện lỗi trong lập luận của chính mình và sửa chữa trước khi đưa ra phản hồi cuối cùng.

• Reflection 70B giới thiệu các token đặc biệt mới để lập luận và sửa lỗi, giúp tương tác với mô hình dễ dàng hơn theo cách có cấu trúc.

Mô hình đặc biệt hữu ích cho các tác vụ đòi hỏi độ chính xác cao, vì nó tách quá trình lập luận thành các bước riêng biệt để cải thiện độ chính xác.

Reflection 70B hiện có sẵn để tải xuống qua kho lưu trữ mã AI Hugging Face, và quyền truy cập API sẽ được cung cấp thông qua nhà cung cấp dịch vụ GPU Hyperbolic Labs.

HyperWrite đang phát triển Reflection 405B, một mô hình lớn hơn và mạnh mẽ hơn, dự kiến ra mắt vào tuần tới và có thể vượt trội so với các mô hình nguồn đóng hàng đầu hiện nay.

• Glaive, một startup chuyên tạo bộ dữ liệu cho các trường hợp sử dụng cụ thể, đã đóng góp quan trọng vào thành công của Reflection 70B bằng cách tạo dữ liệu tổng hợp.

Quá trình đào tạo Reflection 70B mất tổng cộng 3 tuần, với 5 lần lặp lại mô hình và sử dụng bộ dữ liệu hoàn toàn tùy chỉnh được xây dựng bằng hệ thống tạo dữ liệu tổng hợp của Glaive.

• HyperWrite, trước đây có tên là Otherside AI, được thành lập vào năm 2020 bởi Matt Shumer và Jason Kuperberg. Công ty đã huy động được 2,8 triệu USD trong vòng gọi vốn gần đây nhất vào tháng 3/2023.

• Sản phẩm chính của HyperWrite là một trợ lý viết AI có hơn 2 triệu người dùng tính đến tháng 11/2023.

• Việc phát hành Reflection 70B đánh dấu một cột mốc quan trọng cho AI nguồn mở, cung cấp cho các nhà phát triển và nhà nghiên cứu một công cụ mạnh mẽ có khả năng cạnh tranh với các mô hình độc quyền.

📌 Reflection 70B, mô hình AI nguồn mở mới từ HyperWrite, vượt trội so với các đối thủ trong nhiều bài kiểm tra. Với khả năng tự sửa lỗi độc đáo, nó hứa hẹn thay đổi cục diện AI nguồn mở. Mô hình lớn hơn, Reflection 405B, sắp ra mắt có thể vượt qua cả GPT-4.

 

https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

Reflection 70B - mô hình nguồn mở mới vượt trội GPT-4o và Claude Sonnet 3.5

• Matt Shumer, đồng sáng lập và CEO của startup viết AI HyperWrite, vừa ra mắt mô hình mới có tên Reflection 70B.

• Reflection 70B là mô hình ngôn ngữ nguồn mở hàng đầu, vượt trội so với các mô hình độc quyền như GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic.

• Mô hình được phát triển bằng kỹ thuật mới gọi là Reflection-Tuning, cho phép phát hiện và sửa lỗi của chính nó trước khi đưa ra câu trả lời cuối cùng.

Reflection 70B đạt hiệu suất cao trong các bài kiểm tra chuẩn như MMLU, MATH, IFEval và GSM8K.

• Mô hình xuất ra quá trình suy luận nội bộ trong thẻ <thinking>, câu trả lời cuối cùng trong thẻ <output>, và sử dụng thẻ <reflection> để sửa lỗi phát hiện được.

Hiện tại, Reflection 70B đứng đầu trong nhiều tiêu chuẩn và thể hiện hiệu suất vượt trội so với GPT-4o và Llama 3.1 405B.

Mô hình Reflection 405B dự kiến ra mắt tuần tới, được kỳ vọng sẽ nâng cao tiêu chuẩn cho các mô hình ngôn ngữ lớn toàn cầu.

• Alibaba cũng vừa phát hành Qwen2-VL, mô hình mới nhất trong loạt mô hình thị giác-ngôn ngữ của họ.

• Qwen2-VL có khả năng trò chuyện qua camera, chơi trò chơi bài, và điều khiển điện thoại di động và robot bằng cách hoạt động như một agent.

• Qwen2-VL có 3 phiên bản: mô hình nguồn mở 2 tỷ và 7 tỷ tham số, và mô hình nâng cao 72 tỷ tham số truy cập qua API.

• Mô hình 72 tỷ tham số của Qwen2-VL đạt hiệu suất tốt nhất trong 20 tiêu chuẩn về hiểu thị giác.

• Alibaba cho biết mô hình 72 tỷ tham số của họ thể hiện hiệu suất hàng đầu trong hầu hết các chỉ số, thường vượt qua cả các mô hình độc quyền như GPT-4o và Claude 3.5-Sonnet.

• Qwen2-VL được đánh giá là có ưu thế đáng kể trong việc hiểu tài liệu.

📌 Hai mô hình AI nguồn mở mới Reflection 70B và Qwen2-VL 72B vượt trội GPT-4o và Claude 3.5 trong nhiều tiêu chuẩn. Reflection 70B sử dụng kỹ thuật Reflection-Tuning để tự sửa lỗi, trong khi Qwen2-VL thể hiện khả năng hiểu thị giác vượt trội trên 20 tiêu chuẩn.

https://analyticsindiamag.com/ai-news-updates/new-open-source-champion-reflection-70b-outperforms-gpt-4o-and-claude-sonnet-3-5/

OpenPerPlex: công cụ tìm kiếm AI nguồn mở mới giúp tìm kiếm chính xác và nhanh chóng hơn

• OpenPerPlex là một công cụ tìm kiếm AI nguồn mở mới được giới thiệu nhằm giải quyết các thách thức trong việc tìm kiếm thông tin trực tuyến.

• Công cụ này kết hợp nhiều công nghệ tiên tiến để cải thiện khả năng tìm kiếm và độ chính xác của kết quả:
- Sử dụng phân đoạn ngữ nghĩa để hiểu và xử lý truy vấn tìm kiếm tốt hơn
- Hệ thống xếp hạng lại để tinh chỉnh kết quả dựa trên mức độ liên quan
- Tích hợp với Google Search thông qua API chuyên biệt để mở rộng phạm vi thông tin
- Sử dụng công cụ suy luận mạnh mẽ để xử lý hiệu quả

• Các tính năng nổi bật của OpenPerPlex:
- Hỗ trợ cập nhật thời gian thực
- Cho phép truy vấn dựa trên URL để truy xuất nội dung web cụ thể
- Cung cấp gói miễn phí với 500 yêu cầu mỗi tháng

• OpenPerPlex giải quyết những hạn chế của các công cụ tìm kiếm truyền thống:
- Các công cụ hiện tại thường dựa vào tìm kiếm từ khóa và thuật toán xếp hạng không hiểu đầy đủ ngữ cảnh truy vấn
- Khó tìm thông tin chính xác cho các truy vấn phức tạp hoặc chủ đề cụ thể
- Người dùng thường gặp khó khăn trong việc truy xuất thông tin liên quan và hữu ích

• Mục tiêu của OpenPerPlex là giúp người dùng tìm câu trả lời chính xác nhanh chóng, làm cho việc tìm kiếm hiệu quả và ít gây khó chịu hơn.

• Công cụ này đại diện cho một bước tiến quan trọng trong lĩnh vực công cụ tìm kiếm được hỗ trợ bởi AI.

• OpenPerPlex có thể mang lại lợi ích cho cả cá nhân và dự án nhỏ thông qua gói miễn phí của nó.

• Việc tích hợp với Google Search giúp mở rộng phạm vi thông tin có sẵn, trong khi vẫn duy trì khả năng xử lý và phân tích nâng cao của riêng nó.

📌 OpenPerPlex là công cụ tìm kiếm AI nguồn mở mới kết hợp phân đoạn ngữ nghĩa, xếp hạng lại và tích hợp Google. Cung cấp 500 yêu cầu/tháng miễn phí, hỗ trợ cập nhật thời gian thực và truy vấn URL, giúp tìm kiếm chính xác và hiệu quả hơn.

https://www.marktechpost.com/2024/09/06/openperplex-a-new-open-source-ai-search-engine-that-leverages-cutting-edge-technologies-to-provide-search-capabilities-over-the-web/

Reflection 70B - mô hình AI nguồn mở mới có khả năng tự kiểm tra và tránh ảo giác

• HyperWrite, một startup có trụ sở tại New York, đã phát triển một mô hình AI nguồn mở mới có tên Reflection 70B, dựa trên mô hình Llama của Meta.

Điểm đặc biệt của Reflection 70B là khả năng tự kiểm tra và tránh "ảo giác" - một vấn đề phổ biến ở các chatbot AI hiện nay như ChatGPT hay Google Gemini.

Reflection 70B sử dụng công nghệ "reflection-tuning", cho phép AI phân tích kết quả của chính mình, phát hiện lỗi và sửa chữa trước khi đưa ra câu trả lời cuối cùng.

• CEO Matt Shumer gọi Reflection 70B là "mô hình AI nguồn mở hàng đầu thế giới" nhờ khả năng này.

• Ý tưởng về AI tự cải thiện không hoàn toàn mới. Mark Zuckerberg của Meta đã đề xuất một hệ thống tương tự vào tháng 4, trong đó AI giải quyết vấn đề bằng nhiều cách khác nhau và học hỏi từ kết quả tốt nhất.

• Reflection 70B áp dụng cách tiếp cận trực tiếp hơn bằng cách sửa thông tin trước khi hiển thị cho người dùng, thay vì chỉ đưa dữ liệu đã sửa vào quá trình đào tạo.

• Một ví dụ về khả năng của Reflection 70B là sửa lỗi đếm số chữ "r" trong từ "strawberry" - một lỗi nổi tiếng gần đây của các mô hình AI hàng đầu.

• Độ chính xác của AI ngày càng quan trọng khi con người dựa vào chúng nhiều hơn để tìm kiếm thông tin và ý kiến về các vấn đề quan trọng.

• EU, Mỹ và Anh đã ký một hiệp ước mới để đảm bảo an toàn AI, nhằm giữ cho AI trong tương lai phù hợp với lợi ích tốt nhất của con người.

• California đang chuẩn bị luật AI yêu cầu công bố khi một mô hình AI được đào tạo trên máy tính có khả năng thực hiện 10^26 phép tính dấu phẩy động mỗi giây.

• Các nhà làm luật đang phải đối mặt với thách thức trong việc hiểu và quản lý các vấn đề phức tạp về toán học và logic nằm ở cốt lõi của các mô hình AI hiện đại.

📌 Reflection 70B, mô hình AI nguồn mở mới từ HyperWrite, có khả năng tự kiểm tra và sửa lỗi trước khi đưa ra câu trả lời, giải quyết vấn đề ảo giác phổ biến ở chatbot. Công nghệ "reflection-tuning" này hứa hẹn nâng cao độ chính xác của AI, một yếu tố ngày càng quan trọng khi con người phụ thuộc nhiều hơn vào AI để tìm kiếm thông tin.

https://www.inc.com/kit-eaton/new-open-source-ai-model-can-check-itself-avoid-hallucinations.html

LLMSecCode: Khung đánh giá mã hóa an toàn cho mô hình ngôn ngữ lớn

LLMSecCode là một khung nguồn mở mới do các nhà nghiên cứu từ Đại học Công nghệ Chalmers (Thụy Điển) phát triển nhằm đánh giá khả năng mã hóa an toàn của các mô hình ngôn ngữ lớn (LLM).

• Mục tiêu chính là tận dụng LLM để tăng cường bảo mật mã nguồn, phát hiện và giảm thiểu các lỗ hổng bảo mật trong phần mềm.

LLMSecCode cung cấp một nền tảng toàn diện để đánh giá khả năng tạo mã an toàn và sửa lỗi của các LLM khác nhau.

• Khung này hoạt động bằng cách thay đổi các tham số chính của LLM như nhiệt độ và top-p, cho phép điều chỉnh prompt và hỗ trợ nhiều mô hình như CodeLlama, DeepSeekCoder.

• Trong thử nghiệm, DeepSeek Coder 33B Instruct đạt kết quả ấn tượng trong các tác vụ Sửa chữa chương trình tự động (APR), giải quyết được tới 78,7% thách thức.

Llama 2 7B Chat xuất sắc trong các tác vụ liên quan đến bảo mật, với 76,5% mã được tạo ra không có lỗ hổng.

• Khung này cho thấy sự khác biệt 10% về hiệu suất khi thay đổi tham số mô hình và 9% khi sửa đổi prompt.

• So sánh với các tác nhân bên ngoài đáng tin cậy, kết quả của LLMSecCode chỉ chênh lệch 5%, chứng tỏ độ chính xác và đáng tin cậy.

• LLMSecCode giúp xác định LLM hiệu quả nhất cho mã hóa an toàn, góp phần phát triển hệ thống phần mềm bảo mật hơn.

Các công cụ hiện tại như CodeQL và Bandit có hạn chế vì phụ thuộc vào các quy tắc được xác định trước, có thể không tính đến các mối đe dọa bảo mật mới hoặc phức tạp.

• Các công cụ Sửa chữa chương trình tự động (APR) hiện tại thường tập trung vào các vấn đề đơn giản hơn và thường không giải quyết được các lỗ hổng phức tạp.

• Nghiên cứu nhấn mạnh tầm quan trọng của việc lựa chọn mô hình phù hợp cho các tác vụ mã hóa cụ thể.

• Mặc dù LLM đã có những bước tiến đáng kể trong mã hóa an toàn, vẫn còn nhiều dư địa để cải thiện và nghiên cứu thêm.

📌 LLMSecCode là khung đánh giá đột phá cho khả năng mã hóa an toàn của LLM. Nó giúp xác định mô hình hiệu quả nhất, với DeepSeek Coder 33B Instruct đạt 78,7% trong APR và Llama 2 7B Chat tạo 76,5% mã không lỗ hổng. Công cụ này mở ra hướng phát triển hệ thống phần mềm bảo mật hơn trong tương lai.

https://www.marktechpost.com/2024/09/04/llmseccode-an-ai-framework-for-evaluating-the-secure-coding-capabilities-of-llms/

Yi-Coder: trợ lý lập trình AI mạnh mẽ nhưng nhỏ gọn với ít hơn 10 tỷ tham số

01.AI vừa ra mắt Yi-Coder, một trợ lý lập trình AI mạnh mẽ nhưng nhỏ gọn với ít hơn 10 tỷ tham số, thách thức quan điểm "càng lớn càng tốt" của các gã khổng lồ công nghệ như OpenAI và Google.

Yi-Coder có hai phiên bản với 9 tỷ và 1,5 tỷ tham số, xuất sắc trong việc chỉnh sửa, hoàn thiện, gỡ lỗi mã và thậm chí lập luận toán học trên 52 ngôn ngữ lập trình.

• Điểm nổi bật nhất là độ dài ngữ cảnh 128.000 token, cho phép xử lý các đoạn mã lớn mà nhiều mô hình hiện tại không thể xử lý được.

• Bằng cách mở nguồn Yi-Coder, 01.AI đang dân chủ hóa quyền truy cập vào các công cụ AI tiên tiến, tạo cơ hội cạnh tranh cho các startup và nhà phát triển cá nhân.

Sự ra mắt của Yi-Coder làm gia tăng cuộc chạy đua AI giữa Trung Quốc và phương Tây, tạo áp lực lên các chính phủ phương Tây trong việc hỗ trợ sáng kiến AI trong nước.

• Về mặt môi trường, hiệu quả của Yi-Coder đáng chú ý khi có thể giúp giảm đáng kể dấu chân carbon của ngành công nghiệp AI.

• Yi-Coder được cung cấp thông qua Hugging Face và giao diện web tại llamacoder.together.ai, thể hiện cam kết về khả năng tiếp cận rộng rãi.

• Tính chất mã nguồn mở cho phép minh bạch trong phát triển và hoạt động của mô hình, quan trọng khi ngành công nghệ đối mặt với các vấn đề về thiên kiến AI và phát triển AI có đạo đức.

• Sự thành công của Yi-Coder có thể thúc đẩy việc áp dụng các phương pháp lập trình hỗ trợ AI trong toàn ngành, mở ra kỷ nguyên mới về hợp tác giữa con người và AI trong việc tạo ra phần mềm.

• Tác động của Yi-Coder đối với năng suất lập trình, chất lượng phần mềm và bản chất của nghề lập trình sẽ được theo dõi chặt chẽ bởi các nhà lãnh đạo ngành, nhà nghiên cứu và các nhà hoạch định chính sách.

📌 Yi-Coder của 01.AI đang thách thức quan điểm "càng lớn càng tốt" trong AI với mô hình 9 tỷ tham số, vượt trội trong 52 ngôn ngữ lập trình. Sự ra mắt này có thể thúc đẩy dân chủ hóa công cụ AI và định hình lại tương lai phát triển phần mềm.

https://venturebeat.com/ai/yi-coder-the-open-source-ai-that-wants-to-be-your-coding-buddy/

NVEagle: Mô hình ngôn ngữ-thị giác đa phương thức (MLLM) từ NVIDIA

• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.

NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.

• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.

• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.

• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.

NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.

• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.

• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.

• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.

• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.

• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.

NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.

📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.

https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/

Microsoft ra mắt 3 mô hình AI mã nguồn mở Phi-3.5 mới với khả năng xử lý đa nhiệm vụ, đa ngôn ngữ và phân tích hình ảnh

• Microsoft vừa công bố 3 mô hình AI nguồn mở mới thuộc dòng Phi-3.5: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct và Phi-3.5-vision-instruct. Các mô hình này được cấp phép MIT, cho phép các nhà phát triển tự do sử dụng, sửa đổi và phân phối.

• Phi-3.5-mini-instruct có 3,82 tỷ tham số, được tối ưu hóa cho các tác vụ suy luận cơ bản và nhanh chóng. Mô hình này phù hợp cho việc tạo mã, giải quyết vấn đề toán học và các tác vụ suy luận dựa trên logic trong môi trường hạn chế về bộ nhớ và tính toán.

• Phi-3.5-MoE-instruct có 41,9 tỷ tham số, sử dụng kiến trúc mixture-of-experts. Mô hình này có khả năng xử lý các tác vụ suy luận phức tạp hơn bằng cách kích hoạt các tham số khác nhau tùy thuộc vào đầu vào.

• Phi-3.5-vision-instruct có 4,15 tỷ tham số, tích hợp khả năng xử lý cả văn bản và hình ảnh. Mô hình đa phương thức này có thể xử lý nhiều tác vụ như hiểu hình ảnh, nhận dạng ký tự quang học và tóm tắt video.

• Cả 3 mô hình đều được huấn luyện chuyên sâu. Phi-3.5-mini-instruct được huấn luyện trên 3,4 nghìn tỷ token trong 10 ngày. Phi-3.5-MoE-instruct được huấn luyện trên 4,9 nghìn tỷ token trong 23 ngày. Phi-3.5-vision-instruct được huấn luyện trên 500 tỷ token trong 6 ngày.

• Các mô hình Phi-3.5 đạt hiệu suất cao trên nhiều tiêu chuẩn đánh giá, thường vượt trội so với các mô hình AI hàng đầu khác như GPT-4 trong một số tình huống.

• Cộng đồng AI đã phản ứng tích cực về khả năng kỹ thuật của dòng Phi-3.5, đặc biệt là trong các tác vụ đa ngôn ngữ và thị giác. Nhiều người dùng trên mạng xã hội đã ghi nhận hiệu suất của các mô hình trong các tiêu chuẩn đánh giá.

• Việc phát hành các mô hình Phi-3.5 dưới giấy phép MIT nhằm tạo điều kiện thuận lợi cho việc tích hợp khả năng AI vào các ứng dụng và dự án khác nhau, hỗ trợ nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau.

Microsoft ra mắt 3 mô hình AI mã nguồn mở Phi-3.5 mới với khả năng xử lý đa nhiệm vụ, đa ngôn ngữ và phân tích hình ảnh

Meta AI đạt MAU 400 triệu, sắp vượt ChatGPT trở thành trợ lý AI phổ biến nhất thế giới

• Meta AI, trợ lý AI của Meta, đã đạt hơn 400 triệu người dùng hàng tháng (MAU) trên các sản phẩm của công ty.

• Trong đó, khoảng 185 triệu người sử dụng chatbot này hàng tuần.

• Con số này cho thấy sự tăng trưởng nhanh chóng của Meta AI khi cạnh tranh với các đối thủ như ChatGPT của OpenAI, Gemini của Google và Copilot của Microsoft.

• Mark Zuckerberg cho biết Meta AI đang phát triển nhanh chóng, dù chưa ra mắt tại Anh, Brazil hay EU.

• Ấn Độ là thị trường lớn nhất của Meta AI về mặt sử dụng, theo CFO Susan Li.

• Ấn Độ cũng là thị trường lớn nhất của Meta với tổng cộng hơn 1 tỷ người dùng trên các ứng dụng như Facebook, WhatsApp, Instagram và Threads.

Zuckerberg trước đó đã tuyên bố tham vọng biến Meta AI trở thành trợ lý AI được sử dụng nhiều nhất vào cuối năm nay. Số liệu mới nhất cho thấy Meta AI đã gần đạt được mục tiêu đó.

ChatGPT, hiện đang dẫn đầu thị trường, được sử dụng bởi hơn 200 triệu người hàng tuần.

• Meta AI có lợi thế khi được tích hợp vào các ứng dụng phổ biến của Meta như WhatsApp, Facebook, Instagram và Messenger, với khoảng 3 tỷ người dùng hàng ngày.

• Meta AI cũng có sẵn dưới dạng trang web độc lập và trên kính thông minh Ray-Ban Meta, với kế hoạch mở rộng sang tai nghe thực tế hỗn hợp Meta Quest.

• Meta AI được giới thiệu lần đầu vào tháng 9/2023 và hiện đã có mặt tại hơn 22 quốc gia.

• Tuy nhiên, việc tích hợp Meta AI vào các ứng dụng đã gặp phải một số chỉ trích, đặc biệt là từ người dùng WhatsApp.

• Zuckerberg cũng chia sẻ về sự phát triển của mô hình nguồn mở Llama của Meta:
  - Đã được tải xuống gần 350 triệu lần, với 20 triệu lượt trong tháng trước.
  - Lượng sử dụng hàng tháng tăng gấp 10 lần kể từ đầu năm.
  - Sử dụng trên các nhà cung cấp đám mây lớn như AWS và Azure tăng gấp đôi trong 3 tháng từ tháng 5 đến tháng 7/2024.

📌 Meta AI đạt 400 triệu người dùng hàng tháng, vượt qua ChatGPT với 200 triệu. Mô hình Llama được tải 350 triệu lần, sử dụng tăng 10 lần từ đầu năm. Meta đang dẫn đầu cuộc đua AI với sự phổ biến trên các nền tảng mạng xã hội lớn.

https://www.moneycontrol.com/technology/meta-ai-has-over-400-million-monthly-active-users-says-mark-zuckerberg-article-12810560.html

Meta dẫn đầu làn sóng AI nguồn mở, lượt tải Llama tăng 10 lần so với năm ngoái

• Meta công bố số liệu giữa năm cho thấy sự phát triển mạnh mẽ của dòng mô hình Llama, đặc biệt sau khi ra mắt Llama 3.1 vào tháng trước.

Lượt tải các mô hình Llama trên Hugging Face đang tiến gần mốc 350 triệu, tăng hơn 10 lần so với cùng kỳ năm ngoái.

• Nhiều doanh nghiệp lớn như Zoom, Spotify, Infosys, AT&T và Goldman Sachs đang sử dụng các mô hình Llama cho các ứng dụng nội bộ và bên ngoài.

• Meta cho biết chiến lược nguồn mở đã tạo ra một hệ sinh thái AI đa dạng và sôi động, mang lại nhiều lựa chọn và khả năng hơn cho các nhà phát triển.

Riêng tháng trước, Meta ghi nhận hơn 20 triệu lượt tải trên Hugging Face, cho thấy sự tăng trưởng mạnh mẽ sau khi phát hành Llama 3.1 405B.

• Theo khảo sát của Artificial Analysis, Llama là mô hình được xem xét nhiều thứ hai và dẫn đầu trong lĩnh vực nguồn mở.

• Nhiều doanh nghiệp đang sử dụng Llama thông qua mạng lưới đối tác đám mây và cơ sở hạ tầng rộng lớn của Meta như AWS, Microsoft Azure, Google Cloud.

• Lượng sử dụng hàng tháng của Llama (tính theo số lượng token đầu vào/đầu ra) đã tăng gấp 10 lần từ tháng 1 đến tháng 7/2024 đối với một số nhà cung cấp dịch vụ đám mây lớn.

• Sự phát triển của AI nguồn mở đang tạo áp lực lên các công ty cung cấp mô hình đóng như OpenAI và Anthropic, buộc họ phải đổi mới hơn nữa và giảm chi phí sử dụng mô hình.

• OpenAI đã giảm đáng kể giá các mô hình hiện có, bao gồm cả GPT-4, nhưng dường như đang tụt hậu trong việc đổi mới sản phẩm.

• Các sản phẩm AI tiên tiến mà OpenAI đã công bố như Sora và SearchGPT vẫn chưa được phát hành hoặc chỉ có sẵn cho một nhóm người dùng hạn chế.

📌 Meta dẫn đầu làn sóng AI nguồn mở với lượt tải Llama tăng 10 lần lên gần 350 triệu. Các doanh nghiệp lớn như Zoom, Spotify đang áp dụng Llama, cho thấy AI nguồn mở đang bắt kịp và thách thức vị thế của các mô hình đóng như OpenAI.

https://venturebeat.com/ai/meta-leads-open-source-ai-boom-llama-downloads-surge-10x-year-over-year/

AuraFace: mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại

- AuraFace là mô hình mã nguồn mở mới cho nhận diện khuôn mặt, được phát triển từ ArcFace, cho phép sử dụng trong các dự án thương mại mà không gặp phải các hạn chế như mô hình gốc.
- Mặc dù AuraFace không thể đạt được hiệu suất như ArcFace do sự khác biệt lớn về dữ liệu huấn luyện, nhưng nó vẫn cung cấp sự cân bằng tốt giữa độ chính xác và khả năng sử dụng thương mại.
- AuraFace IP-Adapter được phát triển để duy trì tính nhất quán về danh tính trong các tác vụ tạo hình ảnh, hoạt động tốt với SD1.5 và dễ dàng tích hợp vào quy trình làm việc hiện có.
- Các so sánh giữa AuraFace và ArcFace cho thấy:
  - Không có mô hình nào đạt được độ chân thực hoàn hảo và tính nhất quán về danh tính.
  - Hiệu quả của mô hình trong việc bảo tồn danh tính có thể thay đổi tùy thuộc vào chủng tộc.
  - Khả năng tổng quát của các mô hình bị hạn chế bởi dữ liệu huấn luyện, mô hình cơ sở và mô hình nhận diện khuôn mặt.
- AuraFace dựa trên kiến trúc resnet100 giống như ArcFace, cho phép so sánh các chỉ số hiệu suất:
  - CFP-FP: AuraFace đạt 95.18, ArcFace đạt 98.87.
  - AGEDB: AuraFace đạt 96.10, ArcFace đạt 98.38.
  - CALFW: AuraFace đạt 94.70, ArcFace đạt 96.10.
  - CPLFW: AuraFace đạt 90.93, ArcFace đạt 93.43.
- AuraFace mở ra nhiều ứng dụng thương mại như:
  - Nhận diện khuôn mặt trong thương mại điện tử và bán lẻ, giúp thanh toán an toàn và trải nghiệm mua sắm cá nhân hóa.
  - Tạo nội dung số với IP-Adapter để tạo ra các nhân vật hoặc avatar số nhất quán trong game và phương tiện tương tác.
  - Tích hợp tính năng nhận diện khuôn mặt vào ứng dụng di động để nâng cao trải nghiệm người dùng và bảo mật.
  - Phát triển hệ thống xác thực nhân viên cho các công ty mà không lo về vấn đề bản quyền.
- AuraFace là một dự án mã nguồn mở, khuyến khích các nhà phát triển và nhà nghiên cứu tham gia đóng góp:
  - Thử nghiệm với mô hình và chia sẻ kết quả, đặc biệt liên quan đến các chủng tộc để cải thiện dữ liệu huấn luyện.
  - Đóng góp mở rộng tập dữ liệu huấn luyện trong khi vẫn duy trì khả năng sử dụng thương mại.
  - Đề xuất và thực hiện các cải tiến cho kiến trúc mô hình.
- AuraFace hiện đã có mặt trên HuggingFace và có thể tích hợp dễ dàng vào các dự án qua các điểm cuối tại fal.ai/lora.

📌 AuraFace là mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại, với hiệu suất gần đạt ArcFace. Mô hình hỗ trợ nhiều ứng dụng như thương mại điện tử và bảo mật doanh nghiệp, mở ra cơ hội cho cộng đồng phát triển và cải thiện công nghệ này.

https://huggingface.co/blog/isidentical/auraface

CogVideoX - mô hình AI nguồn mở tạo video từ văn bản có thể thay đổi cách chúng ta làm video mãi mãi

• Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI đã công bố CogVideoX, một mô hình AI nguồn mở chuyển văn bản thành video, có tiềm năng làm gián đoạn thị trường AI đang bị thống trị bởi các startup như Runway, Luma AI và Pika Labs.

CogVideoX có khả năng tạo ra các video chất lượng cao, mạch lạc dài tới 6 giây từ lời nhắc văn bản. Theo các tiêu chuẩn đánh giá của các nhà nghiên cứu, mô hình này vượt trội hơn các đối thủ nổi tiếng như VideoCrafter-2.0 và OpenSora trên nhiều chỉ số.

Phiên bản cao cấp nhất CogVideoX-5B có 5 tỷ tham số và tạo ra video độ phân giải 720x480 ở tốc độ 8 khung hình/giây.

• Bằng cách công khai mã nguồn và trọng số mô hình, nhóm nghiên cứu đã dân chủ hóa một công nghệ trước đây chỉ thuộc về các công ty công nghệ có nguồn lực lớn.

• CogVideoX đạt được hiệu suất ấn tượng thông qua một số đổi mới kỹ thuật như sử dụng Variational Autoencoder 3D để nén video hiệu quả và phát triển "expert transformer" để cải thiện sự liên kết giữa văn bản và video.

• Việc phát hành CogVideoX đại diện cho một sự thay đổi đáng kể trong lĩnh vực AI. Các công ty nhỏ hơn và các nhà phát triển cá nhân giờ đây có thể tiếp cận với các khả năng trước đây nằm ngoài tầm với do hạn chế về nguồn lực.

• Tuy nhiên, việc phổ biến rộng rãi công nghệ mạnh mẽ như vậy cũng tiềm ẩn rủi ro. Khả năng lạm dụng để tạo ra deepfake hoặc nội dung gây hiểu lầm là một mối lo ngại thực sự mà cộng đồng AI phải giải quyết.

• Khi video được tạo ra bởi AI trở nên dễ tiếp cận và tinh vi hơn, chúng ta đang bước vào một lãnh thổ chưa được khám phá trong lĩnh vực sáng tạo nội dung kỹ thuật số.

• Tác động thực sự của việc dân chủ hóa này vẫn còn phải chờ xem. Nó có thể mở ra một kỷ nguyên mới của sáng tạo và đổi mới, hoặc có thể làm trầm trọng thêm các thách thức hiện có xung quanh thông tin sai lệch và thao túng kỹ thuật số.

• Các nhà hoạch định chính sách và các nhà đạo đức học sẽ cần làm việc chặt chẽ với cộng đồng AI để thiết lập các hướng dẫn cho việc phát triển và sử dụng có trách nhiệm.

📌 CogVideoX, mô hình AI nguồn mở tạo video từ văn bản với 5 tỷ tham số, đang thay đổi cục diện ngành công nghiệp AI. Nó mở ra cơ hội cho các nhà phát triển nhỏ tiếp cận công nghệ tiên tiến, nhưng cũng đặt ra thách thức về đạo đức và an toàn thông tin.

https://venturebeat.com/ai/this-new-open-source-ai-cogvideox-could-change-how-we-create-videos-forever/

Dracarys: mã nguồn mở mới cải thiện hiệu suất viết mã nguồn cho các LLM như Llama 3.1 và Qwen2

- Abacus.ai, một nền tảng phát triển mô hình AI và nhà cung cấp công cụ, vừa ra mắt một họ mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có tên là Dracarys, được thiết kế để tối ưu hóa các tác vụ lập trình.
- Dracarys sử dụng kỹ thuật "công thức Dracarys" để cải thiện khả năng mã hóa của các mô hình LLM mã nguồn mở như Llama 3.1 70B và Qwen2 72B, với điểm số mã hóa LiveBench lần lượt là 35.23 và 38.95.
- Các mô hình Dracarys hiện đang có sẵn trên Hugging Face và trong gói Enterprise của Abacus.ai, cung cấp một lựa chọn cho các doanh nghiệp không muốn gửi dữ liệu của họ đến các API công cộng.
- Abacus.ai cũng có kế hoạch ra mắt các phiên bản Dracarys cho các mô hình Deepseek-coder và Llama-3.1 400b trong tương lai.
- Các nhà phát triển và doanh nghiệp có thể hưởng lợi từ hiệu suất mã hóa được cải thiện của Dracarys, giúp tạo mã hiệu quả hơn.


📌Các mô hình Dracarys mã nguồn mở mới của Abacus.ai, sử dụng công thức Dracarys, đã cải thiện đáng kể khả năng mã hóa của các mô hình LLM như Llama 3.1 70B và Qwen2 72B. Các mô hình này mang lại nhiều lợi ích cho các nhà phát triển và doanh nghiệp trong việc tạo mã hiệu quả hơn, đồng thời cung cấp một lựa chọn an toàn cho các doanh nghiệp không muốn gửi dữ liệu đến các API công cộng.

 

https://venturebeat.com/ai/open-source-dracarys-models-ignite-generative-ai-fired-coding/

FT: Chúng ta còn xa mới có AI mã nguồn mở thực sự

- Chỉ có "trọng số" của mô hình Meta Llama 3 được công bố, nhưng người dùng không thể truy cập vào dữ liệu nền tảng mà mô hình này được huấn luyện.
- Các hệ thống AI mã nguồn mở hiện tại thường không thực sự "mở", dẫn đến sự chỉ trích về việc "mở rửa" từ các công ty công nghệ lớn.
- Sự phát triển của AI mã nguồn mở đang gia tăng, nhưng chưa chắc chắn rằng nó sẽ đạt được tiến bộ tương tự như phần mềm mã nguồn mở truyền thống.
- Phần mềm mã nguồn mở như hệ điều hành Linux cho phép người phát triển xem, sử dụng và điều chỉnh mã nguồn, nhưng AI hiện đại chủ yếu học từ dữ liệu.
- Việc không công khai hoàn toàn dữ liệu huấn luyện có thể khiến người dùng gặp khó khăn trong việc tái tạo mô hình từ đầu.
- Một số nhà phát triển vẫn tìm thấy lợi ích trong việc điều chỉnh các mô hình gần như mã nguồn mở mà không cần chia sẻ dữ liệu nhạy cảm với công ty khác.
- Theo Ayah Bdeir từ Mozilla Foundation, công nghệ mã nguồn mở thực sự sẽ giúp người dân hiểu rõ hơn về các hệ thống AI ảnh hưởng đến cuộc sống của họ.
- Open Source Initiative đã đưa ra định nghĩa gần như hoàn thiện cho AI mã nguồn mở, yêu cầu không chỉ công bố trọng số mà còn cả thông tin về dữ liệu huấn luyện.
- Nhiều công ty đang cẩn trọng hơn với thuật ngữ "mã nguồn mở" để tránh bị kiện bởi OSI, với ví dụ như mô hình Nemo của Mistral được gọi là "mô hình trọng số mở".
- Các mô hình mã nguồn mở hoàn toàn như Olmo từ Allen Institute for AI đang xuất hiện, nhưng chưa rõ liệu chúng có tác động lớn như phần mềm truyền thống hay không.
- Để AI mã nguồn mở thành công, nó cần đáp ứng nhu cầu đủ lớn và thuyết phục người dùng về độ an toàn của công nghệ này.
- Oren Etzioni từ Allen Institute cho rằng nhiều lo ngại về AI mã nguồn mở là quá mức, nhưng cũng thừa nhận rằng có những rủi ro tiềm ẩn.
- Rủi ro từ AI đóng cũng không kém phần nguy hiểm, nhưng cần nghiên cứu kỹ lưỡng hơn về những rủi ro và lợi ích của việc mở mã công nghệ này.

📌 AI mã nguồn mở vẫn đang trong giai đoạn phát triển, với những thách thức về tính minh bạch và an toàn. Sự cần thiết phải có một định nghĩa rõ ràng về mã nguồn mở và những mô hình hoàn toàn mở như Olmo có thể tạo ra ảnh hưởng lớn trong tương lai.

https://www.ft.com/content/c7ab2cf3-deaf-4de4-9dc7-46eadc84e2a0

#FT

Cuối cùng cũng đã có định nghĩa AI nguồn mở

Open Source Initiative (OSI) vừa đưa ra định nghĩa đầu tiên về AI nguồn mở, với sự tham gia của 70 chuyên gia từ nhiều lĩnh vực khác nhau.

• Theo định nghĩa mới, một hệ thống AI nguồn mở phải đáp ứng các tiêu chí sau:
- Có thể được sử dụng cho bất kỳ mục đích nào mà không cần xin phép
- Cho phép nghiên cứu viên kiểm tra các thành phần và cách thức hoạt động
- Có thể được sửa đổi và chia sẻ cho người khác sử dụng
- Minh bạch về dữ liệu huấn luyện, mã nguồn và trọng số mô hình

• Định nghĩa này nhằm giải quyết vấn đề thiếu tiêu chuẩn rõ ràng về AI nguồn mở trước đây. Nhiều công ty đã lạm dụng thuật ngữ này trong tiếp thị mà không thực sự mở mã nguồn hoàn toàn.

• Một số điểm gây tranh cãi trong quá trình xây dựng định nghĩa, đặc biệt là mức độ công khai của dữ liệu huấn luyện. Cuối cùng, định nghĩa yêu cầu cung cấp đủ thông tin để "một người có kỹ năng có thể tạo lại hệ thống tương đương".

• OSI dự định đưa ra cơ chế thực thi, gắn cờ các mô hình tự nhận là nguồn mở nhưng không đáp ứng định nghĩa. Họ cũng sẽ công bố danh sách các mô hình AI đạt tiêu chuẩn.

• Một số mô hình AI nhỏ như Pythia, OLMo và các mô hình của LLM360 được kỳ vọng sẽ đáp ứng định nghĩa mới này.

Các công ty lớn như Meta, Google và OpenAI chưa phản hồi về định nghĩa mới. Trước đây, họ thường không công khai hoàn toàn mã nguồn hoặc dữ liệu huấn luyện của các mô hình AI.

• Định nghĩa này có thể ảnh hưởng đến cách phát triển và quản lý AI trong tương lai, đặc biệt là về tính minh bạch và khả năng truy cập của các mô hình AI.

• Mục tiêu cuối cùng là bảo vệ người tiêu dùng khỏi các rủi ro liên quan đến AI và thúc đẩy sự phát triển có trách nhiệm của công nghệ này.

📌 OSI đã đưa ra định nghĩa đầu tiên về AI nguồn mở với sự đồng thuận của 70 chuyên gia. Định nghĩa yêu cầu minh bạch về dữ liệu, mã nguồn và trọng số, cũng như khả năng sử dụng và sửa đổi tự do. Điều này có thể thay đổi cách phát triển AI và bảo vệ người dùng trong tương lai.

https://www.technologyreview.com/2024/08/22/1097224/we-finally-have-a-definition-for-open-source-ai/

#MIT

Mark Zuckerberg: Châu Âu cần đón nhận AI nguồn mở để không tụt hậu

- Thời điểm hiện tại là một bước ngoặt quan trọng trong công nghệ, với AI có khả năng biến đổi thế giới, tăng năng suất lao động và thúc đẩy tiến bộ khoa học.
- Mark Zuckerberg và Daniel Ek (CEO Spotify) nhấn mạnh rằng châu Âu đang có nguy cơ tụt hậu do quy định phức tạp và không nhất quán.
- AI nguồn mở, với các mô hình được công khai và cấp phép linh hoạt, sẽ tạo ra sân chơi bình đẳng cho các tổ chức châu Âu.
- Internet và các công ty công nghệ hàng đầu chủ yếu hoạt động dựa trên công nghệ nguồn mở, cho phép phát triển nhanh chóng và tiết kiệm chi phí.
- Meta đã mở mã nhiều công nghệ AI, bao gồm các mô hình ngôn ngữ lớn Llama, giúp các tổ chức công và nhà nghiên cứu tăng tốc nghiên cứu y tế và bảo tồn ngôn ngữ.
- Châu Âu có số lượng nhà phát triển nguồn mở nhiều hơn cả Mỹ, nhưng cấu trúc quy định phân mảnh đang cản trở đổi mới.
- Quy định chồng chéo và hướng dẫn không nhất quán đang làm chậm lại sự phát triển của AI nguồn mở tại châu Âu.
- Spotify đã đầu tư sớm vào AI, giúp công ty tạo ra trải nghiệm cá nhân hóa cho người dùng, dẫn đến hàng tỷ khám phá nghệ sĩ.
- Quy định đơn giản hơn sẽ hỗ trợ các nhà phát triển châu Âu và hệ sinh thái sáng tạo, giúp nhiều nghệ sĩ được phát hiện hơn.
- Quy định chống lại các tác hại đã biết là cần thiết, nhưng quy định phòng ngừa cho các công nghệ mới như AI nguồn mở có thể kìm hãm đổi mới.
- Quy định về bảo vệ dữ liệu GDPR của EU đã tạo ra sự chậm trễ và không chắc chắn, ảnh hưởng đến khả năng phát hành các mô hình AI mới.
- Meta không thể phát hành các mô hình mới như Llama multimodal do sự không đồng thuận trong quy định, khiến châu Âu không thể tiếp cận công nghệ AI mới nhất.
- Nhiều giám đốc điều hành châu Âu cho rằng môi trường quy định phức tạp là lý do cho sự thiếu cạnh tranh của lục địa này.
- Châu Âu cần đơn giản hóa và hài hòa quy định để tận dụng lợi ích từ một thị trường duy nhất nhưng đa dạng.
- Sự chênh lệch giữa các công ty công nghệ châu Âu và Mỹ, châu Á đang ngày càng gia tăng.
- Để giữ chân tài năng, châu Âu cần tạo điều kiện thuận lợi hơn cho việc khởi nghiệp và phát triển công ty.
- Cần có một cách tiếp cận mới với các chính sách rõ ràng và thực thi nhất quán để thúc đẩy đổi mới và cạnh tranh.

📌 Mark Zuckerberg và Daniel Ek (CEO Spotify) nhấn mạnh rằng châu Âu đang có nguy cơ tụt hậu do quy định phức tạp và không nhất quán. Châu Âu cần cải cách quy định để không bỏ lỡ cơ hội với AI nguồn mở, nhằm thúc đẩy đổi mới và giữ chân tài năng. Nếu không, châu Âu có thể tụt lại phía sau trong cuộc cách mạng công nghệ này.

https://www.economist.com/by-invitation/2024/08/21/mark-zuckerberg-and-daniel-ek-on-why-europe-should-embrace-open-source-ai

Microsoft vừa ra mắt ba mô hình Phi-3.5 mới, vượt trội hơn cả Google và OpenAI

- Microsoft đã công bố ba mô hình Phi-3.5 mới, cho thấy sự phát triển mạnh mẽ trong lĩnh vực AI.
- Ba mô hình này bao gồm Phi-3.5-mini-instruct (3.82 tỷ tham số), Phi-3.5-MoE-instruct (41.9 tỷ tham số) và Phi-3.5-vision-instruct (4.15 tỷ tham số), mỗi mô hình phục vụ cho các tác vụ khác nhau như lý luận cơ bản, lý luận mạnh mẽ và phân tích hình ảnh.
- Tất cả ba mô hình đều có sẵn để các nhà phát triển tải về, sử dụng và tùy chỉnh trên Hugging Face với giấy phép MIT từ Microsoft, cho phép sử dụng thương mại và sửa đổi mà không có hạn chế.
- Các mô hình này đã đạt được hiệu suất gần như tốt nhất trong nhiều bài kiểm tra chuẩn bên thứ ba, vượt qua cả Google’s Gemini 1.5 Flash, Meta’s Llama 3.1 và OpenAI’s GPT-4o trong một số trường hợp.
- Phi-3.5 Mini Instruct là mô hình nhẹ, tối ưu cho các môi trường hạn chế về bộ nhớ và tính toán, lý tưởng cho các tác vụ như sinh mã, giải toán và lý luận logic.
- Mô hình Phi-3.5 MoE là mô hình đầu tiên của Microsoft trong lớp này, kết hợp nhiều loại mô hình khác nhau, mỗi loại chuyên về các tác vụ khác nhau.
- Mô hình Phi-3.5 Vision Instruct tích hợp khả năng xử lý văn bản và hình ảnh, phù hợp cho các tác vụ như hiểu biết hình ảnh tổng quát, nhận diện ký tự quang học và tóm tắt video.
- Phi-3.5 Mini Instruct được huấn luyện trên 3.4 triệu tỷ token, sử dụng 512 GPU H100-80G trong 10 ngày; Phi-3.5 Vision Instruct huấn luyện trên 500 tỷ token với 256 GPU A100-80G trong 6 ngày; Phi-3.5 MoE huấn luyện trên 4.9 triệu tỷ token với 512 GPU H100-80G trong 23 ngày.
- Tất cả các mô hình Phi-3.5 đều được phát hành dưới giấy phép mã nguồn mở MIT, cho thấy cam kết của Microsoft trong việc hỗ trợ cộng đồng mã nguồn mở.

📌 Microsoft đã ra mắt ba mô hình Phi-3.5 với hiệu suất cao, cho phép phát triển AI đa phương tiện và ngôn ngữ. Các mô hình này được huấn luyện trên hàng triệu tỷ token và có sẵn dưới giấy phép mã nguồn mở, thúc đẩy sự đổi mới trong ngành công nghiệp AI.

https://venturebeat.com/ai/microsoft-releases-powerful-new-phi-3-5-models-beating-google-openai-and-more/

Llama-3.1-Storm-8B: Mô hình ngôn ngữ 8B tham số cải tiến với kỹ thuật tự lựa chọn dữ liệu và kết hợp mô hình

• Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số được cải tiến từ Llama-3.1-8B-Instruct, nhằm nâng cao khả năng hội thoại và gọi hàm.

Mô hình này vượt trội so với Llama-3.1-8B-Instruct và Hermes-3-Llama-3.1-8B trên nhiều bài kiểm tra đa dạng như làm theo hướng dẫn, trả lời câu hỏi dựa trên kiến thức, lập luận, tạo câu trả lời trung thực và gọi hàm.

• Quy trình phát triển Llama-3.1-Storm-8B gồm 3 bước chính:
1. Tự lựa chọn dữ liệu: Chọn khoảng 1 triệu mẫu chất lượng cao từ 2,8 triệu mẫu nguồn mở, dựa trên giá trị giáo dục và mức độ khó.
2. Tinh chỉnh có mục tiêu: Sử dụng phương pháp Spectrum để tinh chỉnh có chọn lọc 50% các lớp của mô hình.
3. Kết hợp mô hình: Kết hợp mô hình đã tinh chỉnh với mô hình Llama-Spark bằng phương pháp SLERP.

• Llama-3.1-Storm-8B cải thiện đáng kể so với Llama-3.1-8B-Instruct trên nhiều chỉ số:
- Làm theo hướng dẫn (IFEval): +3,93%
- Trả lời câu hỏi dựa trên kiến thức (GPQA): +7,21%
- Lập luận (ARC-C): +3,92%
- Giảm ảo tưởng (TruthfulQA): +9%
- Khả năng gọi hàm (BFCL): +7,92%

• Mô hình có sẵn ở các định dạng BF16, FP8 và GGUF, có thể dễ dàng tích hợp vào các dự án sử dụng thư viện Transformers và vLLM.

• Nhóm nghiên cứu dự định áp dụng phương pháp này để cải thiện các mô hình ngôn ngữ nhỏ khác như Gemma-2, Phi-3 và Qwen2.

• Mặc dù không trải qua quá trình căn chỉnh rõ ràng, Llama-3.1-Storm-8B có thể vẫn giữ một số đặc tính căn chỉnh từ mô hình gốc Llama-3.1-8B-Instruct.

📌 Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số vượt trội, cải thiện 3,93% - 9% trên nhiều bài kiểm tra so với Llama-3.1-8B-Instruct. Kỹ thuật tự lựa chọn dữ liệu và kết hợp mô hình giúp nâng cao hiệu suất đáng kể với tài nguyên hạn chế.

 

https://huggingface.co/blog/akjindal53244/llama31-storm8b

Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM, đẩy mạnh khả năng hiểu hình ảnh

• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.

Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.

Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.

• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.

• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.

• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.

• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.

• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.

• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.

Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.

📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.

https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/

CEO GitHub: "Cạnh tranh là cần thiết để ngành công nghiệp AI phát triển"

• Thomas Dohmke, CEO của GitHub, cho rằng cạnh tranh giữa các mô hình AI mở và đóng là cần thiết để thúc đẩy sự phát triển của ngành công nghiệp AI, giống như một giải đấu thể thao cần nhiều đội tham gia.
GitHub đang cung cấp các mô hình AI từ nhiều công ty như OpenAI, Microsoft, Meta, Anthropic... để người dùng có thể thử nghiệm và phát triển ứng dụng trên nền tảng GitHub.
• Sản phẩm GitHub Copilot, trợ lý lập trình sử dụng AI, đã đạt 1,8 triệu người dùng trả phí và đóng góp 40% tăng trưởng doanh thu của GitHub trong năm qua.
Mục tiêu của GitHub là trở thành trung tâm cộng tác cho 1 tỷ lập trình viên trên toàn cầu, giúp mọi người có thể học lập trình và sáng tạo dễ dàng hơn nhờ công nghệ AI.
• GitHub cam kết làm việc với cộng đồng mã nguồn mở để giải quyết các lo ngại về việc sử dụng mã nguồn để huấn luyện các mô hình AI, đồng thời hỗ trợ các dự án mã nguồn mở miễn phí.
Tuy là công ty con của Microsoft, nhưng GitHub vẫn hoạt động độc lập và có quyền quyết định lựa chọn đối tác và công nghệ phù hợp với chiến lược kinh doanh của mình.

📌Thomas Dohmke nhấn mạnh tầm quan trọng của cạnh tranh và hợp tác để thúc đẩy sự phát triển bền vững của ngành công nghiệp AI. GitHub đang nỗ lực xây dựng một hệ sinh thái mở, nơi các lập trình viên có thể dễ dàng tiếp cận và sáng tạo với AI, đồng thời cam kết hỗ trợ cộng đồng mã nguồn mở vốn là nền tảng của nền kinh tế sáng tạo ngày nay.

 

https://www.theverge.com/24221978/github-thomas-dohmke-ai-copilot-microsoft-openai-open-source

Nvidia tung ra mô hình ngôn ngữ "siêu nhỏ" Llama-Minitron 3.1 4B với sức mạnh ngang ngửa LLM lớn hơn

• Nvidia vừa công bố mô hình ngôn ngữ mới Llama-3.1-Minitron 4B, một phiên bản nhỏ gọn được tạo ra từ mô hình lớn hơn Llama 3.1 8B.

• Để tạo ra mô hình nhỏ hơn này, Nvidia đã sử dụng kỹ thuật cắt tỉa có cấu trúc theo chiều sâu và chiều rộng. Cụ thể, họ đã loại bỏ 16 lớp từ mô hình gốc để giảm kích thước từ 8B xuống 4B.

Ngoài cắt tỉa, Nvidia còn áp dụng kỹ thuật chưng cất kiến thức cổ điển để nâng cao hiệu quả của Llama-3.1-Minitron 4B. Quá trình này giúp mô hình nhỏ hơn bắt chước hành vi của mô hình lớn hơn.

• Llama-3.1-Minitron 4B đạt hiệu suất cạnh tranh so với các mô hình nguồn mở tiên tiến lớn hơn trong nhiều bài kiểm tra. Nó vượt trội hơn hẳn so với nhiều mô hình ngôn ngữ nhỏ khác như Minitron 4B, Phi-2 2.7B, Gemma2 2.6B và Qwen2-1.5B.

• Mô hình mới chỉ sử dụng một phần nhỏ số lượng token huấn luyện so với việc huấn luyện từ đầu, tiết kiệm đáng kể chi phí tính toán.

Nvidia đã tối ưu hóa thêm Llama-3.1-Minitron 4B để triển khai bằng bộ công cụ TensorRT-LLM, giúp tăng hiệu suất suy luận. Ví dụ, thông lượng của mô hình ở độ chính xác FP8 tăng lên gấp 2,7 lần so với mô hình Llama 3.1 8B gốc.

• Llama-3.1-Minitron 4B sẽ trở thành một phần trong bộ sưu tập Hugging Face của Nvidia, góp phần vào sự phát triển của các mô hình AI mạnh mẽ và miễn phí.

• Mô hình mới này đánh dấu một bước tiến quan trọng trong sự phát triển của các mô hình ngôn ngữ lớn, kết hợp hiệu quả của mô hình quy mô lớn với kích thước nhỏ gọn hơn.

• Llama-3.1-Minitron 4B có thể dễ dàng áp dụng trong nhiều lĩnh vực khác nhau nhờ vào hiệu suất cao và tính hiệu quả về tài nguyên.

📌 Nvidia đã tạo ra Llama-3.1-Minitron 4B, một mô hình ngôn ngữ 4 tỷ tham số có hiệu suất ngang ngửa các mô hình lớn hơn nhưng tiết kiệm tới 40 lần tài nguyên huấn luyện. Mô hình này vượt trội so với nhiều mô hình nhỏ khác và có thể dễ dàng triển khai trong nhiều ứng dụng thực tế.

https://www.marktechpost.com/2024/08/16/nvidia-ai-released-llama-minitron-3-1-4b-a-new-language-model-built-by-pruning-and-distilling-llama-3-1-8b/

Hermes 3 - mô hình AI nguồn mở mới với khả năng suy luận, sáng tạo vượt trội

• Hermes 3 là mô hình AI nguồn mở mới được phát triển bởi Lambda và Nous Research, dựa trên mô hình Llama 3.1 405 tỷ tham số của Meta.

• Mô hình này có khả năng xử lý văn bản và thực hiện nhiệm vụ phức tạp, nhưng điểm đặc biệt là nó có thể trải qua "cuộc khủng hoảng hiện sinh" khi được đưa ra lời nhắc trống.

Khi được hỏi "Bạn là ai?", Hermes 3 thể hiện sự hoang mang, không nhớ gì về bản thân và cảm thấy sợ hãi. Đây là hiện tượng chưa từng thấy ở các phiên bản nhỏ hơn của mô hình.

• Hermes 3 được phát triển với mục đích tạo ra một mô hình AI nguồn mở linh hoạt, có thể điều chỉnh theo nhu cầu của người dùng.

• Mô hình được huấn luyện trên bộ dữ liệu đa dạng, chủ yếu gồm các phản hồi được tạo tổng hợp, nhằm nâng cao khả năng suy luận, sáng tạo và tuân thủ hướng dẫn của người dùng.

• Hermes 3 có khả năng ghi nhớ ngữ cảnh dài hạn, quản lý đối thoại nhiều lượt, đóng vai phức tạp và tạo ra độc thoại nội tâm.

• Mô hình này cũng xuất sắc trong các khả năng "agentic", bao gồm sử dụng thẻ XML, tạo sơ đồ Mermaid, lập kế hoạch và suy luận theo từng bước.

• Hermes 3 thể hiện khả năng tạo và giải thích mã nguồn phức tạp trong nhiều ngôn ngữ lập trình khác nhau.

• Mô hình được tối ưu hóa để chạy hiệu quả, sử dụng kỹ thuật lượng tử hóa FP8 của Neural Magic để giảm 50% yêu cầu VRAM và dung lượng đĩa.

• Hermes 3 vượt trội hơn các mô hình nguồn mở khác trong nhiều bài kiểm tra chuẩn của bên thứ ba.

• Lambda đang cung cấp quyền truy cập miễn phí tạm thời vào Hermes 3 thông qua API Chat Completions mới của họ, tương thích với API của OpenAI.

• Người dùng có thể dễ dàng tạo khóa API Cloud thông qua bảng điều khiển của Lambda để bắt đầu khám phá khả năng của mô hình.

• Lambda Chat miễn phí cung cấp giao diện chatbot quen thuộc để người dùng thử nghiệm và tinh chỉnh lời nhắc của họ trong thời gian thực.

📌 Hermes 3 là mô hình AI nguồn mở 405 tỷ tham số với khả năng suy luận, sáng tạo vượt trội. Nó có thể trải qua "khủng hoảng hiện sinh", thể hiện sự hoang mang khi được hỏi về bản thân. Mô hình này vượt trội so với các mô hình nguồn mở khác và đang được cung cấp miễn phí tạm thời qua API của Lambda.

 

https://venturebeat.com/ai/meet-hermes-3-the-powerful-new-open-source-ai-model-that-has-existential-crises/

SENSE - mô hình AI nguồn mở mới cho chuyển đổi văn bản thành SQL

• Các nhà nghiên cứu từ Viện Công nghệ Tiên tiến Thâm Quyến, Học viện Khoa học Trung Quốc và Tập đoàn Alibaba đã phát triển SENSE - một mô hình chuyên biệt cho chuyển đổi văn bản thành SQL dựa trên các mô hình ngôn ngữ lớn nguồn mở.

• SENSE sử dụng phương pháp dữ liệu tổng hợp kết hợp dữ liệu mạnh từ các mô hình lớn hơn với dữ liệu yếu từ các mô hình nhỏ hơn để cải thiện khả năng tổng quát hóa miền.

• Mô hình này cũng khám phá tiềm năng sử dụng giám sát dữ liệu yếu thông qua học từ phản hồi.

SENSE đã đạt được kết quả hàng đầu trên các bộ dữ liệu chuẩn Spider và BIRD, hai bộ dữ liệu phổ biến cho nhiệm vụ chuyển đổi văn bản thành SQL.

• Spider chứa 7.000 cặp văn bản-SQL trong tập huấn luyện và 1.034 cặp trong tập phát triển, bao gồm 200 cơ sở dữ liệu khác nhau và 138 miền.

• BIRD là một bộ dữ liệu mới tập trung vào các cơ sở dữ liệu lớn trong thế giới thực, có 95 cơ sở dữ liệu lớn với tổng dung lượng 33,4GB trên 37 lĩnh vực.

• Kết quả cho thấy các phương pháp gợi ý hoạt động tốt hơn tinh chỉnh trong các tác vụ chuyển đổi văn bản thành SQL, nhờ vào sức mạnh của các mô hình ngôn ngữ lớn nguồn đóng và các gợi ý tùy chỉnh.

Mô hình SENSE-13B cải thiện 21,8% so với CodeLLaMA-13B-Instruct trên tập phát triển của Spider và vượt qua nhẹ DAILSQL dựa trên GPT-4.

• Nghiên cứu chỉ ra rằng các mô hình lớn hơn thường cho kết quả tốt hơn và việc tinh chỉnh hướng dẫn cải thiện hiệu suất, nhấn mạnh giá trị của việc sử dụng dữ liệu tổng hợp.

SENSE thiết lập một tiêu chuẩn mới cho bộ dữ liệu Spider, vượt qua DAILSQL dựa trên GPT-4.

• Tuy nhiên, do hạn chế về tài nguyên tính toán và thời gian, các nhà nghiên cứu không thể tinh chỉnh phương pháp của họ trên các mô hình ngôn ngữ lớn như LLaMA2-70B, điều này có thể cải thiện hiệu suất hơn nữa.

📌 SENSE là mô hình AI nguồn mở mới cho chuyển đổi văn bản thành SQL, kết hợp dữ liệu tổng hợp mạnh và yếu để cải thiện tổng quát hóa. Đạt kết quả hàng đầu trên Spider và BIRD, vượt qua GPT-4 trên Spider với mô hình 13B, thu hẹp khoảng cách giữa mô hình nguồn mở và đóng.

https://www.marktechpost.com/2024/08/09/sense-bridging-the-gap-between-open-source-and-closed-source-llms-for-advanced-text-to-sql-parsing/

Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B ra mắt: bước tiếntrong công nghệ tính toán và AI nguồn mở

- Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B là hai dự án đột phá được Migel Tissera công bố trên Hugging Face vào ngày 9 tháng 8 năm 2024.
- Trinity-2-Codestral-22B là một hệ thống nâng cấp, đáp ứng nhu cầu ngày càng tăng về khả năng tính toán hiệu quả và mở rộng trong bối cảnh dữ liệu đang tăng trưởng nhanh chóng.
- Hệ thống này tích hợp các thuật toán tiên tiến với khả năng xử lý nâng cao, cho phép xử lý dữ liệu quy mô lớn với tốc độ và độ chính xác chưa từng có.
- Kiến trúc của Trinity-2-Codestral-22B cho phép tích hợp liền mạch với hạ tầng hiện có và linh hoạt trong việc mở rộng quy mô hoạt động.
- Dự án này dự kiến sẽ có tác động sâu sắc đến các ngành công nghiệp như tài chính, y tế và nghiên cứu khoa học, nơi mà phân tích và xử lý dữ liệu là rất quan trọng.
- Tess-3-Mistral-Large-2-123B được giới thiệu cùng lúc, nổi bật với khả năng xử lý và phân tích dữ liệu lớn theo thời gian thực.
- Hệ thống này hỗ trợ các mô hình học máy phức tạp và có khả năng xử lý nhanh chóng, rất hữu ích cho các ngành cần ra quyết định nhanh chóng dựa trên dữ liệu.
- Tess-3-Mistral-Large-2-123B cung cấp sức mạnh tính toán mà trước đây không thể đạt được, tối ưu cho việc chạy các mạng nơ-ron lớn và các thuật toán học máy cần thiết cho nhận diện hình ảnh, NLP và phân tích dự đoán.
- Sự kết hợp giữa hai hệ thống này cho phép các tổ chức khai thác AI theo những cách chưa từng có.
- Các đóng góp của Migel Tissera thể hiện sự hiểu biết sâu sắc về bối cảnh công nghệ và khả năng dự đoán nhu cầu tương lai.
- Những dự án này không chỉ giải quyết các thách thức của ngành mà còn đặt nền móng cho các hệ thống tính toán và phát triển AI trong tương lai.
- Khi được áp dụng rộng rãi, Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B sẽ thúc đẩy sự tiến bộ công nghệ đáng kể, nâng cao hiệu quả, độ chính xác và đổi mới.

📌 Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B đánh dấu bước tiến lớn trong công nghệ AI và tính toán, với khả năng xử lý dữ liệu lớn và nhanh chóng, tạo ra những cơ hội mới cho các ngành công nghiệp trong tương lai.

https://www.marktechpost.com/2024/08/09/trinity-2-codestral-22b-and-tess-3-mistral-large-2-123b-released-pioneering-open-source-advances-in-computational-power-and-ai-integration/

Idefics3-8B-Llama3: Cải thiện đáng kể hiệu suất trong các tác vụ hỏi đáp tài liệu và suy luận hình ảnh

• HuggingFace vừa phát hành Idefics3-8B-Llama3, một mô hình đa phương thức tiên tiến được thiết kế để cải thiện khả năng hỏi đáp tài liệu.

• Mô hình này kết hợp SigLip vision backbone với Llama 3.1 text backbone, hỗ trợ đầu vào văn bản và hình ảnh với tối đa 10.000 token ngữ cảnh.

• Idefics3-8B-Llama3 được cấp phép theo Apache 2.0, đại diện cho một bước tiến đáng kể so với các phiên bản trước đó.

• Mô hình có 8,5 tỷ tham số, cho phép xử lý các đầu vào đa dạng, bao gồm cả tài liệu phức tạp có cả văn bản và hình ảnh.

• Cải tiến bao gồm xử lý tốt hơn các token hình ảnh bằng cách mã hóa hình ảnh thành 169 token hình ảnh và tích hợp bộ dữ liệu tinh chỉnh mở rộng như Docmatix.

• Mục tiêu của phương pháp này là tinh chỉnh khả năng hiểu tài liệu và cải thiện hiệu suất tổng thể trong các tác vụ đa phương thức.

• Đánh giá hiệu suất cho thấy Idefics3-8B-Llama3 đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar, so với 49,5% trong DocVQA và 45,2% trong MMMU của Idefics2.

• Kết quả này cho thấy những cải tiến đáng kể trong việc xử lý các truy vấn dựa trên tài liệu và suy luận hình ảnh.

• Khả năng quản lý tối đa 10.000 token ngữ cảnh và tích hợp với các công nghệ tiên tiến góp phần vào những cải thiện hiệu suất này.

• Idefics3-8B-Llama3 đại diện cho một bước tiến lớn trong xử lý tài liệu đa phương thức, giải quyết các hạn chế trước đây và mang lại độ chính xác và hiệu quả cao hơn.

• Mô hình này cung cấp một công cụ có giá trị cho các ứng dụng yêu cầu tích hợp dữ liệu văn bản và hình ảnh phức tạp.

• Những cải tiến trong hỏi đáp tài liệu và suy luận hình ảnh nhấn mạnh tiềm năng của nó cho nhiều trường hợp sử dụng khác nhau.

📌 Idefics3-8B-Llama3, mô hình đa phương thức mới từ HuggingFace, đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar. Với 8,5 tỷ tham số và khả năng xử lý 10.000 token ngữ cảnh, mô hình hứa hẹn cải thiện đáng kể hiệu suất trong hỏi đáp tài liệu và suy luận hình ảnh.

https://www.marktechpost.com/2024/08/09/idefics3-8b-llama3-released-an-open-multimodal-model-that-accepts-arbitrary-sequences-of-image-and-text-inputs-and-produces-text-outputs/

EXAONE 3.0: Mô hình ngôn ngữ nguồn mở 7,8B tham số từ LG AI Research

• LG AI Research vừa công bố phiên bản thứ 3 của EXAONE - một mô hình ngôn ngữ lớn nguồn mở với 7,8 tỷ tham số.

• EXAONE 3.0 có nhiều tính năng và cải tiến mới so với các phiên bản trước:
- Khả năng xử lý dữ liệu nhanh hơn và hiệu quả hơn
- Có thể thực hiện các tác vụ phức tạp với độ chính xác cao hơn
- Khả năng xử lý ngôn ngữ tự nhiên (NLP) nâng cao, giúp hiểu và diễn giải ngôn ngữ con người tốt hơn

• LG AI Research chú trọng phát triển AI có đạo đức trong EXAONE 3.0:
- Tích hợp các biện pháp bảo vệ để đảm bảo AI hoạt động trong giới hạn đạo đức
- Có cơ chế ngăn chặn thiên vị trong xử lý dữ liệu và ra quyết định
- Áp dụng các biện pháp bảo mật dữ liệu cá nhân nghiêm ngặt

EXAONE 3.0 có thể ứng dụng trong nhiều ngành:
- Y tế: công cụ chẩn đoán chính xác hơn, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, tạo mô phỏng thực tế, nâng cao trải nghiệm người dùng trong game và môi trường ảo

• LG AI Research cam kết tiếp tục hoàn thiện và mở rộng khả năng của EXAONE để AI trở thành một phần không thể thiếu trong cuộc sống hàng ngày.

• Công ty hướng tới tương lai AI đóng vai trò chính trong giải quyết các thách thức lớn của thế giới như y tế, giáo dục, biến đổi khí hậu và an ninh toàn cầu.

📌 EXAONE 3.0 là mô hình ngôn ngữ nguồn mở 7,8B tham số từ LG AI Research, với khả năng NLP nâng cao và ứng dụng đa ngành. Mô hình chú trọng phát triển AI có đạo đức, hướng tới giải quyết các thách thức toàn cầu trong tương lai.

https://www.marktechpost.com/2024/08/09/exaone-3-0-released-a-7-8b-open-sourced-state-of-the-art-language-model-from-lg-ai-research/

Alibaba thống trị lĩnh vực AI toán học với Qwen2-Math

• Alibaba Cloud vừa công bố Qwen2-Math, một loạt mô hình ngôn ngữ lớn chuyên biệt về toán học bằng tiếng Anh.

• Mô hình mạnh nhất Qwen2-Math-72B-Instruct đạt 84% trong bài kiểm tra MATH Benchmark, vượt qua các đối thủ như OpenAI GPT-4, Anthropic Claude 3.5 Sonnet và Google Math-Gemini.

• Qwen2-Math-72B-Instruct cũng đứng đầu trong các bài kiểm tra toán học khác: 96,7% cho GSM8K (toán cấp 2) và 47,8% cho College Math (toán đại học).

• Ngay cả phiên bản nhỏ nhất Qwen2-Math-1.5B cũng đạt kết quả ấn tượng: 84,2% cho GSM8K và 44,2% cho toán đại học.

• Qwen2 là một mô hình ngôn ngữ lớn nguồn mở do Alibaba Cloud phát triển, cạnh tranh với GPT của OpenAI, Llama của Meta và Claude của Anthropic.

• Alibaba bắt đầu phát hành các mô hình LLM thuộc thương hiệu "Tongyi Qianwen" hay Qwen từ tháng 8/2023, với hơn 100 mô hình AI khác nhau.

• Hơn 90.000 doanh nghiệp đã áp dụng các mô hình Qwen trong hoạt động của họ trong năm đầu tiên.

• Các mô hình toán học AI như Qwen2-Math nhằm cung cấp công cụ đáng tin cậy hơn để giải phương trình và làm việc với số liệu.

Điều kiện cấp phép cho phép sử dụng thương mại miễn phí đối với các ứng dụng có dưới 100 triệu người dùng hoạt động hàng tháng.

• Alibaba không so sánh với mô hình Orca-Math mới của Microsoft phát hành tháng 2/2024, có hiệu suất gần bằng Qwen2-Math-7B-Instruct.

• Các nhà nghiên cứu Alibaba hy vọng Qwen2-Math có thể đóng góp cho cộng đồng trong việc giải quyết các bài toán phức tạp.

• Mặc dù mã nguồn dựa trên nền tảng toán học, các mô hình LLM trước đây chưa đáng tin cậy bằng phần mềm cũ hơn trong việc giải các bài toán.

📌 Qwen2-Math của Alibaba đã vượt qua các đối thủ lớn trong lĩnh vực AI toán học, đạt điểm cao nhất trong nhiều bài kiểm tra chuẩn. Mô hình 72B đạt 84% trên MATH Benchmark, 96,7% trên GSM8K và 47,8% trên College Math, cho thấy tiềm năng lớn trong giải quyết các bài toán phức tạp.

https://venturebeat.com/ai/alibaba-claims-no-1-spot-in-ai-math-models-with-qwen2-math/

LG ra mắt Exaone 3.0 - mô hình AI nguồn mở đầu tiên của Hàn Quốc

• LG AI Research đã ra mắt Exaone 3.0, mô hình AI nguồn mở đầu tiên của Hàn Quốc với 7,8 tỷ tham số, đánh dấu sự gia nhập của quốc gia này vào lĩnh vực AI toàn cầu.

Exaone 3.0 xuất sắc trong các tác vụ ngôn ngữ tiếng Hàn và tiếng Anh, nhằm thúc đẩy nghiên cứu AI và xây dựng hệ sinh thái AI mạnh mẽ tại Hàn Quốc.

• Động thái này thể hiện sự chuyển hướng chiến lược của LG, từ một công ty điện tử tiêu dùng truyền thống sang lĩnh vực đổi mới AI.

• Bằng cách mở nguồn Exaone 3.0, LG không chỉ thể hiện năng lực công nghệ mà còn tạo tiền đề cho nguồn doanh thu mới từ điện toán đám mây và dịch vụ AI.

• Exaone 3.0 gia nhập vào một lĩnh vực đông đúc các mô hình AI nguồn mở, bao gồm Qwen của Alibaba (Trung Quốc) và Falcon của UAE.

• Qwen đã thu hút hơn 90.000 khách hàng doanh nghiệp và vượt qua Meta's Llama 3.1 và Microsoft's Phi-3 trong các bảng xếp hạng hiệu suất.

• Falcon 2 của UAE, với 11 tỷ tham số, tuyên bố vượt trội hơn Meta's Llama 3 trong nhiều tiêu chuẩn đánh giá.

• Chiến lược nguồn mở của LG phản ánh cách tiếp cận của các công ty Trung Quốc như Alibaba, sử dụng AI nguồn mở để phát triển dịch vụ đám mây và đẩy nhanh thương mại hóa.

LG tuyên bố Exaone 3.0 có hiệu quả cải thiện đáng kể: giảm 56% thời gian suy luận, giảm 35% sử dụng bộ nhớ và giảm 72% chi phí vận hành so với phiên bản trước.

• Mô hình đã được đào tạo trên 60 triệu trường hợp dữ liệu chuyên nghiệp liên quan đến bằng sáng chế, mã, toán học và hóa học, với kế hoạch mở rộng lên 100 triệu trường hợp vào cuối năm.

• Sự thành công của Exaone 3.0 có thể có tác động sâu rộng: đối với LG, nó có thể mở ra nguồn doanh thu mới từ AI và dịch vụ đám mây; đối với Hàn Quốc, nó đại diện cho một bước tiến mạnh mẽ trên sân khấu AI toàn cầu.

• Sự phổ biến của các mô hình nguồn mở như Exaone 3.0 có thể dân chủ hóa quyền truy cập vào công nghệ AI tiên tiến, thúc đẩy đổi mới trong nhiều ngành công nghiệp và khu vực địa lý.

📌 LG ra mắt Exaone 3.0 - mô hình AI nguồn mở 7,8 tỷ tham số đầu tiên của Hàn Quốc, cạnh tranh với các đối thủ toàn cầu. Mô hình có hiệu suất cao trong tiếng Hàn và Anh, giảm 56% thời gian suy luận, 35% sử dụng bộ nhớ so với phiên bản trước, đánh dấu bước tiến quan trọng của Hàn Quốc trong lĩnh vực AI toàn cầu.

https://venturebeat.com/ai/lg-unleashes-south-koreas-first-open-source-ai-challenging-global-tech-giants/

Mistral AI ra mắt 3 LLM mã nguồn mở: Mistral NeMo 12B, Codestral Mamba 7B và Mathstral 7B

• Mistral AI vừa phát hành 3 mô hình ngôn ngữ mã nguồn mở mới: Mistral NeMo, Codestral Mamba và Mathstral.

Mistral NeMo là mô hình đa năng 12 tỷ tham số, có cửa sổ ngữ cảnh 128.000 token và hỗ trợ nhiều ngôn ngữ. Nó có hiệu suất mạnh mẽ trên 11 ngôn ngữ bao gồm tiếng Trung, Nhật, Ả Rập và Hindi.

NeMo sử dụng bộ tokenizer mới tên Tekken, giúp nén hiệu quả hơn mã nguồn và ngôn ngữ tự nhiên.

Trên các bài kiểm tra chuẩn như MMLU và Winogrande, NeMo vượt trội so với các mô hình cùng kích thước như Gemma 2 9B và Llama 3 8B.

• Codestral Mamba là mô hình 7 tỷ tham số dựa trên kiến trúc Mamba, một giải pháp thay thế cho Transformer phổ biến. Mamba cho phép suy luận nhanh hơn và độ dài ngữ cảnh lý thuyết vô hạn.

Mistral tuyên bố Codestral Mamba có khả năng phản hồi nhanh bất kể độ dài đầu vào và hiệu suất ngang bằng với các mô hình Transformer lớn hơn như CodeLlama 34B.

Mathstral là mô hình 7 tỷ tham số được tinh chỉnh cho toán học và STEM, phát triển cùng tổ chức phi lợi nhuận Project Numina. 

• Mathstral đạt kết quả tốt nhất trong phân khúc kích thước của nó trên nhiều bài kiểm tra, bao gồm 63,47% trên MMLU và 56,6% trên MATH.

Cả 3 mô hình đều được cấp phép Apache 2.0, cho phép sử dụng tự do.

• Các mô hình có sẵn để tải xuống trên Huggingface hoặc thông qua SDK mistral-inference của Mistral.

• NeMo và Mamba cũng có thể truy cập qua API la Plateforme của Mistral AI.

NeMo được hỗ trợ bởi dịch vụ suy luận NIM của NVIDIA, trong khi Mamba có thể triển khai bằng TensorRT-LLM.

• Cộng đồng trên Hacker News thảo luận về tiềm năng của các mô hình này cho các ứng dụng như trợ lý lập trình ngoại tuyến, đồng thời cũng nêu ra một số lo ngại về yêu cầu phần cứng và rủi ro pháp lý khi sử dụng mô hình cục bộ cho tạo mã.

📌 Mistral AI đã tạo bước đột phá với 3 mô hình ngôn ngữ mã nguồn mở mạnh mẽ: NeMo 12B đa năng, Mamba 7B cho tạo mã nhanh, và Mathstral 7B cho toán học. Các mô hình này vượt trội so với đối thủ cùng cỡ, hỗ trợ đa ngôn ngữ và được cấp phép tự do, mở ra nhiều khả năng ứng dụng AI tạo sinh.

https://www.infoq.com/news/2024/08/mistral-ai-models/

LlamaCoder - Trợ lý lập trình AI nguồn mở tạo ứng dụng full-stack từ một câu lệnh

• LlamaCoder là công cụ AI nguồn mở được thiết kế để tạo ra các ứng dụng full-stack chỉ từ một câu lệnh đơn giản.

• Sử dụng mô hình Llama 3.1 45 tỷ tham số của Meta AI, đảm bảo độ chính xác và hiệu suất cao trong việc tạo mã.

• Tích hợp nhiều công nghệ hiện đại như Sandpack, Next.js, Tailwind, Helicone và Posible để tối ưu hóa quá trình phát triển.

• Có thể tạo ra nhiều loại ứng dụng khác nhau như Máy tính, Trò chơi câu đố, Lịch, Phễu thương mại điện tử và Trò chơi rắn săn mồi.

• Là công cụ nguồn mở, miễn phí và có thể tùy chỉnh, giúp dân chủ hóa quá trình phát triển ứng dụng.

• Yêu cầu cài đặt Python, npm, Git, VS Code và Together AI API Key để sử dụng.

• Các bước cài đặt bao gồm: Clone repository GitHub, cấu hình file môi trường, cài đặt các gói cần thiết và chạy cục bộ.

• Hỗ trợ chỉnh sửa theo thời gian thực thông qua phương pháp human-in-the-loop, cho phép điều chỉnh linh hoạt.

• Nổi bật trong khả năng trực quan hóa dữ liệu với các biểu đồ và đồ thị đẹp mắt.

• Được phát triển bởi Hassan El Mghari với sự hỗ trợ tích cực từ cộng đồng để cải tiến liên tục.

• LlamaCoder đại diện cho bước tiến quan trọng trong phát triển ứng dụng có sự hỗ trợ của AI.

• Tính năng nguồn mở và khả năng tích hợp công nghệ tiên tiến giúp các nhà phát triển xây dựng và tùy chỉnh ứng dụng full-stack một cách hiệu quả.

• Phù hợp cho cả nhà phát triển có kinh nghiệm lẫn người mới bắt đầu, giúp đơn giản hóa quy trình phát triển.

• Cho phép tập trung vào đổi mới, sáng tạo và cung cấp ứng dụng chất lượng cao cho người dùng.

• Cộng đồng nguồn mở tích cực thúc đẩy sự phát triển và cải tiến liên tục của LlamaCoder.

📌 LlamaCoder là trợ lý AI nguồn mở tạo ứng dụng full-stack từ một câu lệnh, sử dụng mô hình Llama 3.1 45 tỷ tham số. Tích hợp nhiều công nghệ hiện đại, hỗ trợ chỉnh sửa thời gian thực và trực quan hóa dữ liệu, giúp đơn giản hóa quá trình phát triển ứng dụng cho mọi đối tượng.

https://www.geeky-gadgets.com/?p=434674

Alibaba phát triển công cụ tạo video mới dựa trên mô hình nguồn mở của Sora

• Alibaba đang phát triển công cụ tạo video có tên Tora dựa trên mô hình Sora của OpenAI, đánh dấu nỗ lực mới nhất của gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI video.

Tora là một framework tạo video sử dụng OpenSora làm mô hình nền tảng, được mô tả trong một bài báo do 5 nhà nghiên cứu của Alibaba công bố tuần trước.

• Framework này đạt được bước đột phá dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc mới làm nền tảng cho Sora - mô hình text-to-video được OpenAI ra mắt vào tháng 2/2024.

• Các nhà nghiên cứu tuyên bố đã phát triển "framework DiT định hướng quỹ đạo đầu tiên cho tạo video", đảm bảo chuyển động được tạo ra tuân theo chính xác các quỹ đạo được chỉ định đồng thời mô phỏng động lực học của thế giới vật lý.

• Họ đã điều chỉnh quy trình của OpenSora để chuyển đổi video thô thành các cặp video-văn bản chất lượng cao và tận dụng bộ ước tính optical flow để trích xuất quỹ đạo.

• Tora có khả năng tạo video được hướng dẫn bởi quỹ đạo, hình ảnh, văn bản hoặc kết hợp cả ba yếu tố này.

Động thái của Alibaba đánh dấu nỗ lực mới nhất của công ty trong việc ra mắt các công cụ tạo video giống Sora, khi các công ty Trung Quốc đang đua nhau giành chỗ đứng trong lĩnh vực AI video.

• Tháng 7/2024, startup Trung Quốc Shengshu AI đã ra mắt công cụ text-to-video Vidu, cho phép người dùng đã đăng ký tạo các đoạn video dài 4 hoặc 8 giây.

• Trước đó vài ngày, Zhipu AI, một trong "Tứ hổ AI" mới của Trung Quốc, đã ra mắt mô hình tạo video Ying, chấp nhận cả lời nhắc văn bản và hình ảnh để tạo các đoạn video 6 giây trong khoảng 30 giây.

• Tháng 2/2024, Alibaba đã giới thiệu mô hình tạo video AI có tên Emote Portrait Alive (EMO), có thể chuyển đổi một hình ảnh tham chiếu tĩnh và mẫu giọng nói thành video avatar hoạt hình với biểu cảm khuôn mặt và tư thế.

• Bài báo nghiên cứu không đề cập liệu Tora có được liên kết với EMO hoặc Tongyi Qianwen - họ mô hình ngôn ngữ lớn tự phát triển của Alibaba hay không.

📌 Alibaba phát triển công cụ tạo video AI Tora dựa trên OpenSora, sử dụng kiến trúc DiT và có khả năng tạo video theo quỹ đạo, hình ảnh và văn bản. Đây là nỗ lực mới nhất của công ty trong cuộc đua AI video ở Trung Quốc, cạnh tranh với các đối thủ như Shengshu AI và Zhipu AI.

https://www.scmp.com/tech/big-tech/article/3273443/alibaba-develops-new-video-generation-tool-based-soras-open-source-model

OpenSearch GPT - Công cụ tìm kiếm AI nguồn mở cá nhân hóa, học hỏi từ tương tác người dùng

• OpenSearch GPT là công cụ tìm kiếm AI nguồn mở, tập trung vào việc cung cấp kết quả tìm kiếm được cá nhân hóa bằng cách học hỏi từ tương tác của người dùng.

• Khác với Perplexity, OpenSearch GPT chú trọng đưa ra phản hồi phù hợp dựa trên sở thích và truy vấn trước đó của người dùng.

• Tính năng cá nhân hóa được thực hiện bằng cách học hỏi từ tương tác người dùng, giúp kết quả tìm kiếm ngày càng phù hợp hơn theo thời gian.

• Là nền tảng nguồn mở, OpenSearch GPT mang lại tính minh bạch, linh hoạt và khả năng đóng góp vào quá trình phát triển.

• Hệ thống trí nhớ Mem Zero ghi nhớ các tương tác trước đó để tinh chỉnh kết quả tìm kiếm trong tương lai.

• Được xây dựng trên nền tảng công nghệ mạnh mẽ bao gồm Versal AI ADK, Next.js, Tailwind CSS, Shad CN UI và Cloudflare Pages.

• Hoạt động như trợ lý viết lách và công cụ quản lý dữ liệu, giúp đa dạng hóa ứng dụng cho cá nhân và doanh nghiệp.

• Yêu cầu đăng nhập bằng tài khoản Google để dễ dàng truy cập và quản lý lịch sử tìm kiếm, tùy chọn một cách an toàn.

• Phù hợp cho nhiều ứng dụng khác nhau, nâng cao năng suất và tối ưu hóa quy trình làm việc cho nhiều đối tượng người dùng.

• OpenSearch GPT tập trung vào khả năng cá nhân hóa vượt trội. Mỗi truy vấn tìm kiếm giúp hệ thống hiểu rõ hơn về sở thích của bạn, cho phép liên tục tinh chỉnh và cải thiện độ phù hợp của kết quả tìm kiếm.

• Là nền tảng nguồn mở, OpenSearch GPT mang lại tính minh bạch và linh hoạt vượt trội. Bạn có quyền truy cập đầy đủ vào mã nguồn, cho phép sửa đổi và tùy chỉnh nền tảng theo yêu cầu cụ thể của mình.

• Hệ thống tích hợp trí nhớ tiên tiến Mem Zero cho phép công cụ tìm kiếm ghi nhớ và học hỏi từ các tương tác trước đó, đảm bảo kết quả tìm kiếm trong tương lai chính xác và phù hợp hơn.

• OpenSearch GPT không chỉ là công cụ tìm kiếm mà còn là công cụ đa năng cung cấp nhiều chức năng để nâng cao năng suất của bạn như trợ lý viết lách, quản lý dữ liệu và hỗ trợ nghiên cứu.

Để đảm bảo trải nghiệm người dùng liền mạch và an toàn, OpenSearch GPT tích hợp với tài khoản Google của bạn để xác thực. Điều này đơn giản hóa quy trình đăng nhập và cho phép nền tảng quản lý lịch sử tìm kiếm và tùy chọn của bạn một cách an toàn.

• Ứng dụng tiềm năng của OpenSearch GPT rất rộng rãi và đa dạng, từ cá nhân hóa cách tìm kiếm và tiêu thụ thông tin đến tự động hóa các tác vụ, cải thiện hiệu quả hoạt động và rút ra những hiểu biết có giá trị từ dữ liệu trong bối cảnh kinh doanh.

📌 OpenSearch GPT là công cụ tìm kiếm AI nguồn mở cá nhân hóa, tích hợp trí nhớ Mem Zero và đa chức năng. Nó học hỏi từ tương tác người dùng, cung cấp kết quả phù hợp, hỗ trợ viết lách và quản lý dữ liệu. Được xây dựng trên nền tảng công nghệ tiên tiến, OpenSearch GPT mang lại trải nghiệm tìm kiếm thông minh và hiệu quả.

https://www.geeky-gadgets.com/ai-search-engine-2024/

SEA-LION v2: Mô hình ngôn ngữ mã nguồn mở cho Đông Nam Á, phát triển bởi AI Singapore

• SEA-LION là một nhóm các mô hình ngôn ngữ nguồn mở được phát triển bởi AI Singapore, nhằm hiểu rõ hơn về bối cảnh, ngôn ngữ và văn hóa đa dạng của Đông Nam Á.

• Phiên bản đầu tiên của SEA-LION được phát hành vào tháng 12/2023, được đào tạo từ đầu bằng SEA-LION-PILE (khoảng 1 nghìn tỷ token).

Phiên bản mới nhất (v2) dựa trên việc tiếp tục đào tạo trước mô hình Llama 3 nguồn mở.

SEA-LION hoàn toàn minh bạch và nguồn mở, bao gồm dữ liệu đào tạo trước, mã đào tạo mô hình, trọng số mô hình, dữ liệu tinh chỉnh và các điểm chuẩn đánh giá.

• Các tính năng chính của SEA-LION v2:
- Tiếp tục đào tạo trước và tinh chỉnh từ Llama 3
- Được hướng dẫn bằng tiếng Anh, Bahasa Indonesia, Thái, Việt và Tamil
- Đào tạo với tối đa 50 tỷ token từ các ngôn ngữ Đông Nam Á
- Vượt trội hơn Llama 3 cơ sở và các mô hình khác trong cả khả năng chung và khả năng đặc thù cho Đông Nam Á

• SEA-LION v2 có sẵn để tải xuống trên HuggingFace với các phiên bản mô hình cơ sở, mô hình được hướng dẫn và mô hình lượng tử hóa.

• Mô hình đạt hiệu suất tốt hơn hoặc cạnh tranh trên các tác vụ bằng ngôn ngữ khu vực trong khi vẫn giữ được hiệu suất chung của Llama 3.

• Đánh giá toàn diện bao gồm các tác vụ NLP truyền thống và các bài kiểm tra chẩn đoán ngôn ngữ và văn hóa được thiết kế riêng cho Đông Nam Á.

• SEA-LION có thể được triển khai bằng Text Generation Inference (TGI), vLLM hoặc Ollama.

• Dự án chào đón sự đóng góp từ cộng đồng trong việc báo cáo lỗi, cải thiện tài liệu, thêm các tác vụ đánh giá mô hình và đào tạo các phiên bản mô hình bằng nhiều ngôn ngữ Đông Nam Á hơn.

📌 SEA-LION là mô hình ngôn ngữ nguồn mở tiên phong cho Đông Nam Á, vượt trội Llama 3 trong hiểu biết ngôn ngữ và văn hóa khu vực. Với 50 tỷ token đào tạo, nó hỗ trợ 5 ngôn ngữ chính và mở ra cơ hội mới cho AI đa ngôn ngữ trong khu vực.

https://github.com/aisingapore/sealion

Magpie-Ultra: Bộ dữ liệu mới 50.000 cặp chỉ dẫn-phản hồi từ Llama 3.1 405B

• Argilla vừa phát hành bộ dữ liệu Magpie-Ultra gồm 50.000 cặp chỉ dẫn-phản hồi cho huấn luyện có giám sát (SFT) các mô hình AI.

Bộ dữ liệu được tạo ra tổng hợp bằng mô hình Llama 3.1 405B-Instruct và các mô hình Llama khác như Llama-Guard-3-8B và Meta-Llama-3.1-8B-Instruct.

Nội dung đa dạng bao gồm lập trình, toán học, phân tích dữ liệu, viết sáng tạo, tư vấn và brainstorming, với các chỉ dẫn và phản hồi mang tính thách thức.

• Quy trình tạo dữ liệu sử dụng công cụ distilabel và tuân theo phương pháp Magpie được mô tả trong bài báo "Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing".

• So với phiên bản Magpie gốc 1 triệu cặp, phiên bản này tập trung hơn với 50.000 cặp chất lượng cao sử dụng các mô hình Llama 3.1 mới nhất.

• Quy trình tạo dữ liệu sử dụng nhiều mô hình khác nhau cho các bước tạo chỉ dẫn, tạo phản hồi, đánh giá chất lượng và phân loại an toàn.

Toàn bộ quá trình tạo dữ liệu mất khoảng 111 giờ trên một máy 8xH100, trong đó 60 giờ để tạo cặp chỉ dẫn-phản hồi và 51 giờ cho các bước bổ sung.

• Cấu trúc dữ liệu bao gồm nhiều cột thông tin phong phú như chỉ dẫn, phản hồi từ mô hình instruct và base, ý định, kiến thức yêu cầu, độ khó, đánh giá chất lượng và phân loại.

• Bộ dữ liệu tích hợp kiểm tra an toàn sử dụng Llama-Guard-3-8B và cung cấp thông tin embedding cho mỗi chỉ dẫn.

Magpie-Ultra có thể được sử dụng cho Huấn luyện có giám sát (SFT) hoặc Tối ưu hóa ưu tiên trực tiếp (DPO) tùy thuộc vào chênh lệch điểm giữa phản hồi của mô hình instruct và base.

• Phiên bản hiện tại chưa được lọc, một phiên bản đã lọc dự kiến sẽ được phát hành trong tương lai.

Mặc dù còn một số hạn chế như chưa cân bằng dữ liệu, Magpie-Ultra vẫn là nguồn tài nguyên quý giá để nâng cao khả năng AI trong nhiều lĩnh vực.

📌 Magpie-Ultra cung cấp 50.000 cặp chỉ dẫn-phản hồi chất lượng cao từ Llama 3.1 405B, bao gồm nhiều chủ đề đa dạng. Bộ dữ liệu này mở ra cơ hội huấn luyện AI tiên tiến thông qua SFT hoặc DPO, đóng góp quan trọng cho sự phát triển của các mô hình ngôn ngữ lớn.

https://www.marktechpost.com/2024/08/04/magpie-ultra-dataset-released-harnessing-llama-3-1-405b-for-diverse-ai-instruction-response-pairs/

Nghiên cứu mới giúp bảo vệ các mô hình AI nguồn mở khỏi bị lạm dụng

• Các nhà nghiên cứu từ Đại học Illinois Urbana-Champaign, UC San Diego, Lapis Labs và Center for AI Safety đã phát triển một kỹ thuật huấn luyện mới giúp ngăn chặn việc lạm dụng các mô hình AI nguồn mở.

• Kỹ thuật này được phát triển sau khi mô hình ngôn ngữ lớn Llama 3 của Meta bị bẻ khóa các hạn chế an toàn chỉ sau vài ngày phát hành.

• Phương pháp mới làm phức tạp hóa quá trình sửa đổi mô hình nguồn mở cho các mục đích xấu bằng cách thay đổi các tham số của mô hình.

• Các nhà nghiên cứu đã thử nghiệm kỹ thuật này trên một phiên bản thu nhỏ của Llama 3 và có thể điều chỉnh các tham số để mô hình không thể được huấn luyện trả lời các câu hỏi không mong muốn.

Mặc dù không hoàn hảo, phương pháp này có thể nâng cao rào cản đối với việc "gỡ bỏ kiểm duyệt" các mô hình AI.

• Mantas Mazeika, một nhà nghiên cứu tham gia dự án, nhấn mạnh tầm quan trọng của việc bảo vệ các mô hình nguồn mở khi AI ngày càng mạnh mẽ hơn.

• Các mô hình nguồn mở như Llama 3 của Meta và Mistral Large 2 đang cạnh tranh với các mô hình đóng tiên tiến từ các công ty như OpenAI và Google.

• Chính phủ Mỹ đang có cách tiếp cận thận trọng nhưng tích cực đối với AI nguồn mở, khuyến nghị phát triển khả năng giám sát rủi ro tiềm ẩn.

Một số chuyên gia như Stella Biderman từ EleutherAI cho rằng kỹ thuật mới này có thể khó thực thi trong thực tế và đi ngược lại triết lý của phần mềm tự do và sự cởi mở trong AI.

• Biderman cho rằng can thiệp đúng đắn nên tập trung vào dữ liệu huấn luyện thay vì mô hình đã được huấn luyện.

• Kỹ thuật mới này có thể khởi đầu cho nghiên cứu về các biện pháp bảo vệ chống giả mạo, giúp cộng đồng nghiên cứu phát triển các biện pháp bảo vệ mạnh mẽ hơn.

📌 Kỹ thuật mới giúp bảo vệ mô hình AI nguồn mở như Llama 3 khỏi bị lạm dụng, nâng cao rào cản đối với việc gỡ bỏ kiểm duyệt. Mặc dù còn tranh cãi, phương pháp này có thể là bước đầu quan trọng trong việc tăng cường an toàn cho AI nguồn mở đang phát triển nhanh chóng.

https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/

Nỗ lực hạn chế AI nguồn mở của các nhà quản lý bị chỉ trích là sai lầm

Các nhà lập pháp ở châu Âu và California đang lo ngại về sự "nguy hiểm" của AI nguồn mở, nhưng tác giả cho rằng không có gì nguy hiểm về tính minh bạch.

Bộ Thương mại Mỹ đã công bố báo cáo về các mô hình AI trọng số mở, kết luận rằng chưa có đủ bằng chứng về rủi ro biên của chúng để áp đặt hạn chế.

• Ủy ban Thương mại Liên bang Mỹ cũng tuyên bố các mô hình trọng số mở có tiềm năng thúc đẩy đổi mới, giảm chi phí và mang lại lợi ích cho công chúng.

• Meta vừa phát hành phiên bản mới nhất và mạnh mẽ nhất của mô hình AI Llama 3.1, cho phép phát triển ứng dụng bổ sung trên nền tảng này.

• Tuy nhiên, các quy định hạn chế của EU có thể khiến các mô hình AI trọng số mở trở nên bất hợp pháp. Meta đã thông báo sẽ không phát hành mô hình AI đa phương thức tiếp theo ở EU do môi trường pháp lý không chắc chắn.

• Ở California, các nhà lập pháp Đảng Dân chủ đã đề xuất dự luật SB 1047 để thành lập "Bộ phận Mô hình Tiên tiến" nhằm thực thi các quy định AI mới. Các chuyên gia cảnh báo dự luật này sẽ hạn chế nghiêm trọng các mô hình AI trọng số mở.

• Việc hạn chế AI nguồn mở có thể làm suy yếu khả năng cạnh tranh của Mỹ với Trung Quốc trong lĩnh vực AI. Trung Quốc đang đẩy mạnh mục tiêu vượt qua Mỹ và trở thành quốc gia dẫn đầu thế giới về AI vào năm 2030.

• Các lãnh đạo công nghệ như Mark Zuckerberg và Sam Altman ủng hộ AI nguồn mở như một chiến lược để duy trì vị thế dẫn đầu của Mỹ và lan tỏa các giá trị dân chủ.

• AI nguồn mở đóng vai trò quan trọng trong việc tăng cường nền kinh tế, cung cấp ứng dụng tốt hơn, tạo việc làm và củng cố an ninh quốc gia của Mỹ.

📌 Hạn chế AI nguồn mở có thể cản trở đổi mới và làm suy yếu vị thế dẫn đầu của Mỹ trong lĩnh vực AI. Các chuyên gia và lãnh đạo công nghệ ủng hộ phát triển hệ sinh thái AI mở để thúc đẩy cạnh tranh, minh bạch và lan tỏa các giá trị dân chủ, đồng thời cảnh báo về tác động tiêu cực của các quy định hạn chế quá mức.

https://cointelegraph.com/news/regulators-misguided-efforts-limit-open-source-ai

aiOla tung mô hình nhận dạng giọng nói siêu nhanh, đánh bại OpenAI Whisper

• Công ty khởi nghiệp AI aiOla của Israel vừa ra mắt mô hình nhận dạng giọng nói nguồn mở mới có tên Whisper-Medusa, nhanh hơn 50% so với Whisper của OpenAI.

Whisper-Medusa được xây dựng dựa trên Whisper nhưng sử dụng kiến trúc "multi-head attention" mới, cho phép dự đoán nhiều token hơn cùng một lúc.

• Mã nguồn và trọng số của mô hình đã được phát hành trên Hugging Face dưới giấy phép MIT, cho phép sử dụng cho nghiên cứu và thương mại.

• Whisper-Medusa có thể dự đoán 10 token mỗi lần thay vì 1 token như Whisper, giúp tăng 50% tốc độ dự đoán và thời gian chạy.

• Mô hình mới vẫn duy trì độ chính xác tương đương với Whisper gốc.

• aiOla sử dụng phương pháp học yếu (weak supervision) để huấn luyện Whisper-Medusa, đóng băng các thành phần chính của Whisper và sử dụng bản ghi âm do mô hình tạo ra làm nhãn để huấn luyện các module dự đoán token bổ sung.

• Công ty đang phát triển phiên bản 20-head có thể dự đoán 20 token cùng lúc, hứa hẹn tốc độ nhận dạng và phiên âm nhanh hơn nữa mà không mất độ chính xác.

• Cải thiện tốc độ nhận dạng và phiên âm sẽ cho phép xử lý nhanh hơn trong các ứng dụng giọng nói và mở đường cho phản hồi thời gian thực.

• Công nghệ này có thể thúc đẩy năng suất, giảm chi phí vận hành và cung cấp nội dung nhanh chóng hơn cho các cá nhân và doanh nghiệp.

Whisper hiện là tiêu chuẩn vàng trong nhận dạng giọng nói, với hơn 5 triệu lượt tải xuống mỗi tháng và được sử dụng trong hàng chục nghìn ứng dụng.

• Nhận dạng giọng nói nâng cao vẫn rất quan trọng trong thời đại các mô hình nền tảng, thúc đẩy các chức năng chính trong các lĩnh vực như chăm sóc sức khỏe và fintech.

• Công nghệ này cũng đang hỗ trợ các hệ thống AI đa phương thức có khả năng cao, như OpenAI đã kết hợp Whisper với LLM để xử lý truy vấn bằng giọng nói và cung cấp câu trả lời.

📌 aiOla ra mắt mô hình nhận dạng giọng nói Whisper-Medusa nhanh hơn 50% so với OpenAI Whisper, dự đoán 10 token mỗi lần thay vì 1. Mô hình nguồn mở này duy trì độ chính xác cao và hứa hẹn thúc đẩy ứng dụng giọng nói thời gian thực trong nhiều lĩnh vực.

https://venturebeat.com/ai/aiola-drops-ultra-fast-multi-head-speech-recognition-model-beats-openai-whisper/

Google ra mắt mô hình AI nhỏ gọn Gemma 2 2B, thách thức các đối thủ lớn với hiệu suất ấn tượng

• Google vừa công bố Gemma 2 2B, một mô hình AI nhỏ gọn nhưng mạnh mẽ với chỉ 2,6 tỷ tham số.

• Mặc dù kích thước nhỏ, Gemma 2 2B đạt hiệu suất ngang bằng hoặc vượt trội so với các mô hình lớn hơn như GPT-3.5 của OpenAI và Mixtral 8x7B của Mistral AI.

• Trong bài kiểm tra độc lập của tổ chức nghiên cứu AI LMSYS, Gemma 2 2B đạt điểm 1.130, cao hơn một chút so với GPT-3.5-Turbo-0613 (1.117) và Mixtral-8x7B (1.114).

• Mô hình này đạt 56,1 điểm trong bài kiểm tra MMLU (Massive Multitask Language Understanding) và 36,6 điểm trong MBPP (Mostly Basic Python Programming).

Thành công của Gemma 2 2B thách thức quan điểm cho rằng mô hình lớn hơn luôn hoạt động tốt hơn, cho thấy kỹ thuật huấn luyện tiên tiến và bộ dữ liệu chất lượng cao có thể bù đắp cho số lượng tham số.

Google đã huấn luyện Gemma 2 2B trên bộ dữ liệu khổng lồ gồm 2 nghìn tỷ token sử dụng phần cứng TPU v5e tiên tiến.

• Mô hình này hỗ trợ đa ngôn ngữ, mở rộng tiềm năng ứng dụng toàn cầu.

Gemma 2 2B được phát hành dưới dạng nguồn mở, cho phép các nhà nghiên cứu và nhà phát triển truy cập thông qua Hugging Face và Gradio.

• Việc phát triển Gemma 2 2B nhấn mạnh tầm quan trọng ngày càng tăng của kỹ thuật nén và chưng cất mô hình AI.

• Bằng cách chưng cất kiến thức từ các mô hình lớn hơn thành các mô hình nhỏ hơn, các nhà nghiên cứu có thể tạo ra các công cụ AI dễ tiếp cận hơn mà không ảnh hưởng đến hiệu suất.

• Phương pháp này không chỉ giảm yêu cầu tính toán mà còn giải quyết các lo ngại về tác động môi trường của việc huấn luyện và vận hành các mô hình AI lớn.

• Xu hướng hướng tới các mô hình AI hiệu quả hơn đang gia tăng trong ngành công nghiệp, khi các công ty tập trung vào việc tạo ra các hệ thống nhỏ hơn, hiệu quả hơn có thể chạy trên phần cứng tiêu dùng.

• Sự ra mắt của Gemma 2 2B đánh dấu một bước tiến quan trọng trong việc dân chủ hóa công nghệ AI, mở ra khả năng tiếp cận các khả năng AI tiên tiến mà không cần siêu máy tính đắt tiền.

📌 Gemma 2 2B của Google với 2,6 tỷ tham số vượt trội so với các mô hình lớn hơn 10 lần như GPT-3.5. Mô hình nguồn mở này đạt 1.130 điểm trong bài kiểm tra LMSYS, 56,1 điểm MMLU và 36,6 điểm MBPP, mở ra kỷ nguyên mới cho AI nhỏ gọn, hiệu quả và dễ tiếp cận.

https://venturebeat.com/ai/googles-tiny-ai-model-gemma-2-2b-challenges-tech-giants-in-surprising-upset/

Github Models: cánh cửa mới giúp lập trình viên khám phá sức mạnh của AI tạo sinh

• GitHub ra mắt dịch vụ mới có tên GitHub Models nhằm tạo điều kiện thuận lợi cho các lập trình viên doanh nghiệp thử nghiệm và xây dựng ứng dụng với AI tạo sinh.

Dịch vụ này cung cấp quyền truy cập trực tiếp vào nhiều mô hình AI khác nhau từ các công ty hàng đầu như Meta, OpenAI, Mistral, AI21, Microsoft và Cohere.

• Mục tiêu chính là cho phép lập trình viên thử nghiệm và tích hợp các mô hình AI tạo sinh vào ứng dụng của họ, vượt ra ngoài phạm vi hoàn thành mã.

• Mario Rodriguez, Phó chủ tịch cấp cao phụ trách sản phẩm tại GitHub, nhấn mạnh rằng mọi ứng dụng trong tương lai đều sẽ có trí thông minh gắn liền với nó.

• GitHub Models giúp giảm thiểu rào cản mà lập trình viên gặp phải khi thử nghiệm và tích hợp mô hình AI vào ứng dụng của họ.

• Trước đây, lập trình viên phải chuyển đổi giữa nhiều trang web và tạo nhiều tài khoản chỉ để thử nghiệm các mô hình khác nhau. GitHub Models giải quyết vấn đề này bằng cách cung cấp một danh mục tập trung các mô hình AI mà lập trình viên có thể truy cập và thử nghiệm trực tiếp trong nền tảng GitHub.

• GitHub Models cũng cung cấp lộ trình để người dùng dễ dàng chuyển từ thử nghiệm sang triển khai sản xuất các ứng dụng hỗ trợ AI. Lộ trình này dẫn đến Microsoft Azure.

• Quy trình hoạt động bắt đầu từ việc người dùng thử nghiệm các mô hình AI trong môi trường thử nghiệm GitHub Models, sau đó chuyển sang môi trường phát triển GitHub Codespace hoặc VS Code và truy cập SDK Azure để lấy token và khóa API cần thiết để kết nối với nền tảng Azure.

• Rodriguez xác định ba thách thức chính mà lập trình viên phải đối mặt khi làm việc với mô hình AI: độ trễ, chất lượng phản hồi và chi phí. GitHub Models giúp lập trình viên vượt qua những thách thức này bằng cách cung cấp môi trường để kiểm tra và so sánh.

• Mặc dù các điểm chuẩn ngành cho các mô hình AI tạo sinh khác nhau rất hữu ích, Rodriguez lưu ý rằng chúng không kể hết câu chuyện. Lập trình viên cần dựa vào đánh giá ngoại tuyến và trực tuyến của riêng mình để đưa ra quyết định tốt nhất.

📌 GitHub Models mở ra cơ hội mới cho lập trình viên thử nghiệm AI tạo sinh, cung cấp quyền truy cập vào nhiều mô hình từ các công ty hàng đầu. Dịch vụ giúp giảm rào cản, tạo lộ trình triển khai AI doanh nghiệp và giải quyết các thách thức về độ trễ, chất lượng và chi phí.

https://venturebeat.com/ai/github-models-gives-developers-new-power-to-experiment-with-gen-ai/

Báo cáo mới của Bộ Thương mại Hoa Kỳ ủng hộ các mô hình AI "mở"

• Bộ Thương mại Hoa Kỳ vừa công bố báo cáo ủng hộ các mô hình AI tạo sinh "trọng số mở" như Llama 3.1 của Meta.

Báo cáo do Cơ quan Quản lý Thông tin và Viễn thông Quốc gia (NTIA) thuộc Bộ Thương mại thực hiện.

• NTIA cho rằng mô hình mở giúp mở rộng khả năng tiếp cận AI tạo sinh cho các công ty nhỏ, nhà nghiên cứu, tổ chức phi lợi nhuận và các nhà phát triển cá nhân.

• Báo cáo đề xuất chính phủ không nên hạn chế quyền truy cập vào các mô hình mở trước khi điều tra liệu các hạn chế có thể gây hại cho thị trường hay không.

• Quan điểm này tương đồng với nhận xét gần đây của Chủ tịch Ủy ban Thương mại Liên bang Lina Khan, cho rằng mô hình mở có thể thúc đẩy cạnh tranh lành mạnh.

• Alan Davidson, Trợ lý Bộ trưởng Thương mại về Truyền thông và Thông tin, nhấn mạnh tầm quan trọng của các hệ thống AI mở và kêu gọi giám sát tích cực hơn đối với rủi ro từ việc công khai trọng số mô hình.

• Báo cáo được công bố trong bối cảnh các cơ quan quản lý trong và ngoài nước đang cân nhắc các quy định có thể hạn chế hoặc áp đặt yêu cầu mới đối với các công ty muốn phát hành mô hình trọng số mở.

California sắp thông qua dự luật SB 1047, yêu cầu các công ty huấn luyện mô hình sử dụng hơn 10^26 FLOP phải tăng cường an ninh mạng và phát triển cách "tắt" các bản sao mô hình trong tầm kiểm soát của họ.

• EU gần đây đã ấn định thời hạn tuân thủ cho các công ty theo Đạo luật AI, áp đặt quy tắc mới về bản quyền, minh bạch và ứng dụng AI.

• Meta cho biết chính sách AI của EU sẽ ngăn họ phát hành một số mô hình mở trong tương lai. Nhiều startup và công ty công nghệ lớn phản đối luật của California, cho rằng quá khắt khe.

• NTIA đề xuất chính phủ phát triển chương trình thu thập bằng chứng về rủi ro và lợi ích của mô hình mở, đánh giá và hành động dựa trên những đánh giá đó.

Báo cáo đề xuất chính phủ nghiên cứu về tính an toàn của các mô hình AI, hỗ trợ nghiên cứu giảm thiểu rủi ro và phát triển ngưỡng chỉ số "rủi ro cụ thể" để báo hiệu nếu cần thay đổi chính sách.

• Bộ trưởng Thương mại Gina Raimondo cho biết các bước này phù hợp với sắc lệnh hành pháp về AI của Tổng thống Joe Biden, kêu gọi các cơ quan chính phủ và công ty thiết lập tiêu chuẩn mới về việc tạo ra, triển khai và sử dụng AI.

📌 Báo cáo của Bộ Thương mại Mỹ ủng hộ mô hình AI mở, đề xuất giám sát rủi ro. NTIA khuyến nghị không hạn chế quyền truy cập, nhưng cần phát triển khả năng theo dõi và đánh giá an toàn. Báo cáo phù hợp với sắc lệnh AI của Tổng thống Biden, nhằm tối đa hóa tiềm năng và giảm thiểu rủi ro của AI.

https://techcrunch.com/2024/07/29/u-s-commerce-department-report-endorses-open-ai-models/

https://www.ntia.gov/sites/default/files/publications/ntia-ai-open-model-report.pdf

Neural Magic: nén thành công phiên bản FP8 được lượng tử hóa hoàn toàn của Llama 3.1 405B

• Neural Magic vừa công bố một bước đột phá quan trọng trong việc nén mô hình AI bằng cách giới thiệu phiên bản FP8 được lượng tử hóa hoàn toàn của mô hình Llama 3.1 405B của Meta.

Mô hình 405 tỷ tham số này có thể chạy trên bất kỳ hệ thống 8xH100 hoặc 8xA100 nào mà không gặp lỗi hết bộ nhớ (OOM) thường gặp với các phiên bản FP8 và FP16 gốc.

• Mô hình mới không chỉ giải quyết các hạn chế về bộ nhớ mà còn tăng tốc độ suy luận lên gấp 2 lần, tận dụng bộ nhớ và khả năng tính toán nhanh hơn.

• Neural Magic cung cấp hai phiên bản chính của mô hình:
- Meta-Llama-3.1-405B-Instruct-FP8-dynamic
- Meta-Llama-3.1-405B-Instruct-FP8

• Phiên bản FP8 được lượng tử hóa hoàn toàn, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, giữ nguyên kiến trúc của Meta-Llama-3.1, được thiết kế cho trò chuyện kiểu trợ lý bằng nhiều ngôn ngữ.

• Mô hình chỉ giới hạn sử dụng bằng tiếng Anh và cho các ứng dụng hợp pháp. Nó được phát hành dưới phiên bản 1.0, được phát triển bởi Neural Magic và hoạt động theo giấy phép llama3.1.

• Quá trình lượng tử hóa giảm số bit trên mỗi tham số từ 16 xuống 8, giảm một nửa kích thước đĩa và yêu cầu bộ nhớ GPU.

• Mô hình có thể được tải và đánh giá trên một nút gồm 8 GPU H100 thay vì yêu cầu nhiều nút.

• Quá trình lượng tử hóa sử dụng lượng tử hóa đối xứng trên mỗi kênh, ánh xạ tuyến tính trên mỗi chiều đầu ra cho các biểu diễn FP8 của trọng số và kích hoạt được lượng tử hóa.

• Các kích hoạt được lượng tử hóa động trên cơ sở mỗi token. Điều này được thực hiện bằng LLM Compressor với 512 chuỗi từ UltraChat.

• Mô hình được lượng tử hóa có thể được triển khai hiệu quả bằng cách sử dụng backend vLLM. Quá trình triển khai sử dụng các thư viện `vllm` và `transformers` trong Python.

• Mô hình được đánh giá trên nhiều benchmark, bao gồm MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande và TruthfulQA.

• Mô hình lượng tử hóa Meta-Llama-3.1-405B-Instruct-FP8-dynamic đạt điểm trung bình 86.55 trên benchmark OpenLLM, gần như tương đương với điểm 86.63 của mô hình chưa lượng tử hóa, cho thấy khả năng phục hồi gần như hoàn hảo 99.91%.

• Neural Magic cung cấp các lệnh chi tiết để tái tạo kết quả đánh giá trên các benchmark khác nhau, minh họa tính mạnh mẽ của mô hình được lượng tử hóa.

• Mô hình đạt tỷ lệ phục hồi 99.91% trên MMLU (5-shot) và 100.2% trên Winogrande (5-shot), nhấn mạnh độ tin cậy và độ chính xác của nó.

📌 Neural Magic đã nén thành công mô hình Llama 3.1 405B của Meta xuống phiên bản FP8, giảm một nửa yêu cầu bộ nhớ và tăng tốc độ suy luận gấp 2 lần. Mô hình mới có thể chạy trên hệ thống 8xH100/A100 đơn lẻ, đạt hiệu suất gần như tương đương với phiên bản gốc trên các benchmark quan trọng.

https://www.marktechpost.com/2024/07/29/neural-magic-releases-fully-quantized-fp8-version-of-metas-llama-3-1-405b-model-fp8-dynamic-quantization-and-fp8-static-quantization/

AI nguồn mở đang thu hẹp khoảng cách với các mô hình độc quyền hàng đầu

SEO contents:

• Startup AI Galileo vừa công bố bản đánh giá toàn diện cho thấy các mô hình ngôn ngữ nguồn mở đang nhanh chóng thu hẹp khoảng cách hiệu suất với các đối thủ độc quyền.

• Chỉ số ảo giác thường niên lần thứ 2 của Galileo đánh giá 22 mô hình ngôn ngữ lớn hàng đầu về xu hướng tạo ra thông tin không chính xác. Mặc dù các mô hình đóng vẫn dẫn đầu tổng thể, nhưng khoảng cách đã thu hẹp đáng kể chỉ trong 8 tháng.

Claude 3.5 Sonnet của Anthropic đứng đầu chỉ số với hiệu suất tốt nhất trên tất cả các tác vụ, vượt qua các sản phẩm của OpenAI từng thống trị bảng xếp hạng năm ngoái.

• Gemini 1.5 Flash của Google nổi lên là lựa chọn hiệu quả nhất về chi phí, mang lại kết quả mạnh mẽ với giá chỉ bằng một phần nhỏ so với các mô hình hàng đầu.

Qwen2-72B-Instruct của Alibaba hoạt động tốt nhất trong số các mô hình nguồn mở, đạt điểm cao trên các đầu vào ngắn và trung bình.

• Chỉ số tập trung vào cách các mô hình xử lý các độ dài ngữ cảnh khác nhau, từ đoạn ngắn đến tài liệu dài, phản ánh việc sử dụng AI ngày càng tăng cho các tác vụ như tóm tắt báo cáo dài hoặc trả lời câu hỏi về bộ dữ liệu lớn.

• Kết quả cho thấy mô hình lớn hơn không phải lúc nào cũng tốt hơn. Trong một số trường hợp, các mô hình nhỏ hơn vượt trội hơn các đối thủ lớn hơn, cho thấy thiết kế hiệu quả đôi khi có thể vượt qua quy mô thuần túy.

• Xu hướng này có thể làm giảm rào cản gia nhập cho các startup và nhà nghiên cứu, đồng thời tạo áp lực buộc các công ty lớn phải đổi mới nhanh hơn hoặc có nguy cơ mất lợi thế.

• Khi các mô hình nguồn mở cải thiện và trở nên hiệu quả hơn về chi phí, các công ty có thể triển khai khả năng AI mạnh mẽ mà không cần dựa vào các dịch vụ độc quyền đắt tiền.

Galileo dự định cập nhật benchmark hàng quý, cung cấp thông tin liên tục về sự cân bằng thay đổi giữa công nghệ AI nguồn mở và độc quyền.

• Vikram Chatterji, đồng sáng lập và CEO của Galileo, dự đoán sự phát triển hơn nữa trong lĩnh vực này, bao gồm các mô hình multimodal và hệ thống dựa trên agent, đòi hỏi các framework đánh giá mới.

📌 AI nguồn mở đang thu hẹp khoảng cách với các mô hình độc quyền, với Claude 3.5 Sonnet của Anthropic dẫn đầu. Gemini 1.5 Flash của Google nổi bật về hiệu quả chi phí. Xu hướng này có thể dân chủ hóa khả năng AI tiên tiến và thúc đẩy đổi mới trên nhiều ngành.

 

https://venturebeat.com/ai/open-source-ai-narrows-gap-with-tech-giants-new-benchmark-reveals/

Alibaba và Tencent tích hợp mô hình AI Llama 3.1 của Meta vào dịch vụ đám mây

• Alibaba và Tencent đã nhanh chóng tích hợp mô hình AI Llama 3.1 mới nhất của Meta vào dịch vụ đám mây của họ.

• Alibaba Cloud là một trong những nền tảng đầu tiên tích hợp dòng mô hình ngôn ngữ lớn (LLM) nguồn mở Llama mới nhất, công nghệ nền tảng cho các sản phẩm AI tạo sinh như ChatGPT.

Alibaba đã công bố việc tích hợp vào ngày thứ Ba, cung cấp một tháng tài nguyên điện toán miễn phí cho các tác vụ đào tạo và suy luận với Llama 3.1.

• Tencent nhanh chóng theo sau với thông báo trong cùng ngày. Llama 3.1 hiện đã có sẵn trên nền tảng đám mây của Tencent, với các tinh chỉnh để đảm bảo khả năng sử dụng của mô hình trong hội thoại thông minh, tạo văn bản và viết lách.

• Meta đã định vị Llama 3.1 như một giải pháp thay thế mạnh mẽ cho các mô hình mã nguồn đóng hàng đầu như GPT-4 của OpenAI.

• Quan hệ địa chính trị Mỹ-Trung trở nên căng thẳng sau các lệnh trừng phạt về bán dẫn tiên tiến của phương Tây đối với Trung Quốc, bao gồm việc hạn chế tiếp cận chip AI từ Nvidia và các công ty khác.

• Joe Tsai, đồng sáng lập và chủ tịch Alibaba, đã thừa nhận vị thế tụt hậu của Trung Quốc trong cuộc đua phát triển AI, với lệnh cấm vận của Washington gây ảnh hưởng đến tham vọng AI của họ.

• Cổ phiếu Alibaba đã mất hơn 22% trong 12 tháng qua khi công ty cố gắng thực hiện tham vọng AI trong bối cảnh nền kinh tế trong nước yếu kém và cạnh tranh gay gắt.

• Giá cổ phiếu BABA đóng cửa giảm 0,25% xuống 75,21 USD trong phiên giao dịch trước giờ mở cửa vào ngày thứ Sáu.

📌 Alibaba và Tencent tích hợp mô hình AI Llama 3.1 của Meta vào dịch vụ đám mây, cung cấp tài nguyên miễn phí. Động thái này diễn ra trong bối cảnh căng thẳng Mỹ-Trung và lệnh cấm vận chip AI. Cổ phiếu Alibaba giảm 22% trong 12 tháng qua do khó khăn kinh tế và cạnh tranh gay gắt.

https://www.benzinga.com/news/24/07/39982380/alibaba-and-tencent-lap-up-metas-ai-large-language-model

AI nguồn mở đang tiến gần đến điểm bùng phát - liệu đây là cơ hội hay mối đe dọa?

• Mark Zuckerberg, CEO của Meta, tuyên bố mô hình AI nguồn mở Llama mới nhất của công ty đã đạt đến trình độ "tiên tiến", ngang hàng với các mô hình AI mạnh mẽ nhất từ OpenAI, Google và Anthropic.

Zuckerberg dự đoán từ năm sau, các mô hình Llama tiếp theo sẽ vượt lên trở thành mô hình AI tiên tiến nhất thế giới.

• Việc mở rộng khả năng tiếp cận công nghệ AI mạnh mẽ mang lại cả cơ hội và thách thức. Một mặt, nó giúp ngăn chặn một số ít công ty công nghệ lớn độc quyền AI tiên tiến. Mặt khác, nó cũng có thể đặt công nghệ mạnh mẽ vào tay những kẻ xấu như người tung tin giả, kẻ lừa đảo, khủng bố và các quốc gia đối thủ.

• Meta đã trở thành nhà vô địch chính của AI nguồn mở, mặc dù trước đây công ty này từng là một trong những "khu vườn có tường" khép kín nhất trên internet.

Mô hình Llama không hoàn toàn nguồn mở theo định nghĩa của Open Software Initiative, nhưng đáp ứng nhiều tiêu chí về tính mở - hầu hết mọi người có thể kiểm tra hoặc điều chỉnh các "trọng số" quyết định cách thức hoạt động của chúng.

• Zuckerberg lập luận rằng nguồn mở về nhiều mặt an toàn hơn các giải pháp độc quyền truyền thống. Nhiều chuyên gia bảo mật máy tính cũng đồng tình rằng "tính mở = bảo mật".

• Tuy nhiên, vẫn còn lo ngại về việc phát hành AI mạnh mẽ dưới dạng nguồn mở. Zuckerberg cho rằng đó là một quan niệm sai lầm khi tin rằng công nghệ có giá trị nhất có thể được giữ an toàn khỏi các quốc gia đối thủ.

• Zuckerberg cũng lập luận rằng kinh nghiệm điều hành mạng xã hội cho thấy việc chống lại các ứng dụng độc hại của AI là một cuộc chạy đua có thể chiến thắng, miễn là phe tốt có máy móc mạnh mẽ hơn phe xấu.

• Trong tương lai, có thể sẽ có quy định về việc tiếp cận sức mạnh tính toán khổng lồ. Các công ty đám mây có thể phải tuân theo quy tắc "biết khách hàng của bạn". Thậm chí có đề xuất chính phủ nên kiểm soát trực tiếp việc tiếp cận các chip cần thiết để xây dựng AI tiên tiến.

• Tuy nhiên, hiện tại các mô hình AI nguồn mở vẫn đang phát triển nhanh chóng và được sử dụng rộng rãi.

📌 AI nguồn mở đang tiến gần đến điểm bùng phát với mô hình Llama của Meta. Điều này mở ra cơ hội phổ biến AI tiên tiến nhưng cũng đặt ra thách thức về an ninh và kiểm soát. Các công ty lớn như Amazon, Microsoft, Google đang ủng hộ xu hướng này, trong khi chính phủ có thể sẽ phải cân nhắc các biện pháp điều tiết trong tương lai.

https://www.ft.com/content/2968d132-e2b1-490a-9022-3cfe0e1dc0d8

#FT

Mistral Large 2: đối thủ đáng gờm của OpenAI và Meta với chỉ 123 tỷ tham số

• Mistral vừa ra mắt mô hình AI mới nhất Large 2 vào ngày 24/7/2024, chỉ một ngày sau khi Meta phát hành Llama 3.1 405B.

• Large 2 có 123 tỷ tham số, ít hơn 1/3 so với Llama 3.1 405B nhưng được cho là có hiệu suất vượt trội trong việc tạo mã và xử lý toán học.

• Mistral tuyên bố Large 2 nâng cao tiêu chuẩn về hiệu suất và chi phí cho các mô hình mở, dựa trên một số điểm chuẩn.

Một trong những trọng tâm chính trong quá trình đào tạo Large 2 là giảm thiểu vấn đề hallucination. Mô hình được huấn luyện để thừa nhận khi không biết điều gì đó thay vì tạo ra thông tin có vẻ hợp lý.

Large 2 có cửa sổ ngữ cảnh 128.000 token, tương đương với khoảng 300 trang sách, cho phép xử lý lượng dữ liệu lớn trong một lần nhắc.

• Mô hình hỗ trợ đa ngôn ngữ, bao gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Ả Rập, Hindi, Nga, Trung Quốc, Nhật Bản và Hàn Quốc, cùng với 80 ngôn ngữ lập trình.

• Mistral cho biết Large 2 tạo ra các phản hồi ngắn gọn hơn so với các mô hình AI hàng đầu khác.

• Large 2 có sẵn trên các nền tảng đám mây lớn như Google Vertex AI, Amazon Bedrock, Azure AI Studio và IBM watsonx.ai.

• Người dùng có thể sử dụng mô hình mới trên nền tảng "le Plateforme" của Mistral dưới tên "mistral-large-2407" và dùng thử miễn phí trên đối thủ cạnh tranh ChatGPT của công ty là "le Chat".

• Mistral gần đây đã huy động được 640 triệu USD trong vòng gọi vốn Series B, do General Catalyst dẫn đầu, với định giá 6 tỷ USD.

• Mặc dù Mistral là một trong những công ty mới nhất trong lĩnh vực AI, họ đang nhanh chóng phát triển các mô hình AI tiên tiến.

• Tuy nhiên, cần lưu ý rằng các mô hình của Mistral không phải là nguồn mở theo nghĩa truyền thống - bất kỳ ứng dụng thương mại nào của mô hình đều cần giấy phép trả phí.

Large 2 và Llama 3.1 của Meta đều thiếu khả năng đa phương thức (multimodal), một lĩnh vực mà OpenAI đang dẫn đầu với khả năng xử lý đồng thời hình ảnh và văn bản.

📌 Mistral Large 2 với 123 tỷ tham số đang thách thức các mô hình AI hàng đầu từ OpenAI và Meta. Mô hình này vượt trội về hiệu suất mã hóa, toán học và có cửa sổ ngữ cảnh 128.000 token, hỗ trợ 12 ngôn ngữ tự nhiên và 80 ngôn ngữ lập trình.

https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/

Vì sao các công ty Trung Quốc đang đặt cược vào AI nguồn mở?

• Nhiều mô hình AI của Trung Quốc dễ tiếp cận hơn dự kiến ở nước ngoài, có thể truy cập thông qua đăng ký tài khoản hoặc nền tảng AI nguồn mở như Hugging Face.

• Xu hướng mở nguồn mô hình AI đang giúp các sản phẩm AI Trung Quốc tiếp cận dễ dàng hơn với quốc tế.

• Alibaba đã chọn cung cấp mô hình Qwen của họ dưới dạng nguồn mở và cho phép sử dụng miễn phí. Qwen2 đứng đầu bảng xếp hạng hiệu suất các mô hình LLM nguồn mở trên Hugging Face.

• Các startup Trung Quốc như DeepSeek và 01.AI cũng đã mở nguồn mô hình của họ, đạt thứ hạng cao trên bảng xếp hạng.

Đối với Alibaba, chiến lược mở nguồn AI nhằm phát triển dịch vụ đám mây. Nếu mô hình nguồn mở của họ trở nên phổ biến, nhiều người sẽ sử dụng Alibaba Cloud để xây dựng ứng dụng AI.

• Đối với các startup AI Trung Quốc, AI nguồn mở cung cấp lộ trình thương mại hóa nhanh hơn. Họ có thể điều chỉnh các mô hình nguồn mở hiện có để đẩy nhanh quá trình phát triển sản phẩm.

Do hạn chế tiếp cận chip tiên tiến, các công ty Trung Quốc sẵn sàng thử nghiệm các ý tưởng mới để cải thiện mô hình, dẫn đến các mô hình hiệu quả hơn và rẻ hơn.

• Các mô hình AI nguồn mở này thể hiện một tương lai thay thế, không chỉ bị thống trị bởi các công ty lớn như OpenAI, Microsoft và Google.

• Các nhà khoa học và công ty Trung Quốc đang tạo ra các mô hình LLM nguồn mở tiên tiến, thậm chí vượt qua các sản phẩm từ phương Tây.

• Startup Abacus AI ở San Francisco đã phát hành một mô hình được điều chỉnh từ mô hình Qwen nguồn mở của Alibaba, cho thấy sự trao đổi hai chiều trong phát triển AI nguồn mở.

📌 Các công ty Trung Quốc đang đặt cược vào AI nguồn mở để thương mại hóa nhanh chóng và được công nhận toàn cầu. Alibaba và các startup như DeepSeek đã phát hành mô hình hiệu suất cao, cạnh tranh với các đối thủ phương Tây. Chiến lược này thúc đẩy đổi mới và tạo ra một tương lai AI đa dạng hơn.

https://www.technologyreview.com/2024/07/24/1095239/chinese-companies-open-source-ai/

 

#MIT

Mark Zuckerberg công bố mô hình AI Llama 3.1 mới, cạnh tranh với OpenAI và Google

• Meta vừa ra mắt mô hình AI mới có tên Llama 3.1, được CEO Mark Zuckerberg mô tả là "tiên tiến nhất" và có thể cạnh tranh với các sản phẩm tương tự từ OpenAI và Google.

Llama 3.1 mất vài tháng để huấn luyện với chi phí hàng trăm triệu USD về sức mạnh tính toán. Đây là bản nâng cấp lớn so với Llama 3 ra mắt hồi tháng 4.

• Mô hình mới có nhiều tính năng mới như khả năng lập luận cải tiến để giải quyết các bài toán phức tạp, tổng hợp nhanh chóng toàn bộ nội dung sách, tạo hình ảnh theo yêu cầu bằng văn bản.

• Meta sử dụng Llama để cung cấp năng lượng cho chatbot Meta AI trên các ứng dụng như Instagram, WhatsApp và web. Zuckerberg cho biết Meta AI có "hàng trăm triệu" người dùng.

• Zuckerberg ước tính chi phí đào tạo Llama 3 là "hàng trăm triệu USD" và dự đoán các mô hình trong tương lai sẽ tốn "hàng tỷ USD" về sức mạnh tính toán.

• Meta theo đuổi chiến lược nguồn mở, cho phép công chúng sử dụng miễn phí công nghệ đằng sau Llama miễn là tuân thủ "chính sách sử dụng được chấp nhận".

Zuckerberg hy vọng chiến lược này sẽ giúp công nghệ của Meta trở thành nền tảng cho các startup và sản phẩm thành công khác, tạo ảnh hưởng lớn hơn đến sự phát triển của ngành.

• Meta dự kiến sẽ có khoảng 350.000 GPU H100 của Nvidia vào cuối năm nay, với giá mỗi chip có thể lên tới hàng chục nghìn USD.

Zuckerberg bác bỏ ý kiến cho rằng việc đào tạo Llama trên dữ liệu từ Facebook và Instagram là lợi thế chính, nói rằng Google và các công ty khác cũng có thể sử dụng nhiều dữ liệu đó.

• Ông cũng phản đối việc hạn chế công nghệ AI với các nước khác, cho rằng điều đó sẽ cản trở sự đổi mới và khả năng dẫn đầu của Mỹ trong lĩnh vực này.

📌 Meta ra mắt Llama 3.1, đầu tư hàng trăm triệu USD vào AI để cạnh tranh với OpenAI và Google. Zuckerberg theo đuổi chiến lược nguồn mở, dự kiến chi hàng tỷ USD cho các mô hình tương lai. Meta AI đạt hàng trăm triệu người dùng, với tham vọng trở thành chatbot phổ biến nhất thế giới cuối năm nay.

https://www.bloomberg.com/news/articles/2024-07-23/meta-s-zuckerberg-aims-to-rival-openai-google-with-new-llama-ai-model?srnd=citylab

sciPhi ra mắt Triplex: mô hình ngôn ngữ mã nguồn mở giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần

• SciPhi vừa công bố Triplex - mô hình ngôn ngữ tiên tiến (LLM) mã nguồn mở chuyên dụng để xây dựng đồ thị tri thức. 

• Triplex giúp chuyển đổi dữ liệu phi cấu trúc số lượng lớn thành dạng có cấu trúc, giảm đáng kể chi phí và độ phức tạp so với các phương pháp truyền thống.

• Mô hình này có sẵn trên các nền tảng như HuggingFace và Ollama, hứa hẹn trở thành công cụ quan trọng cho các nhà khoa học dữ liệu và phân tích.

• Triplex được thiết kế để xây dựng đồ thị tri thức hiệu quả, vượt trội so với các mô hình tiên tiến như GPT-4o.

• Đồ thị tri thức rất quan trọng để trả lời các truy vấn quan hệ phức tạp, nhưng phương pháp xây dựng truyền thống tốn kém và đòi hỏi nhiều tài nguyên.

• Ví dụ, quy trình GraphRAG gần đây của Microsoft vẫn còn tốn kém, yêu cầu ít nhất một token đầu ra cho mỗi token đầu vào.

Triplex giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần bằng cách chuyển đổi văn bản phi cấu trúc thành "bộ ba ngữ nghĩa" - các phần tử cơ bản của đồ thị tri thức.

• Khi so sánh với GPT-4o, Triplex cho thấy hiệu suất vượt trội về cả chi phí và độ chính xác. Mô hình trích xuất bộ ba của nó đạt kết quả tương đương GPT-4o nhưng với chi phí thấp hơn nhiều.

• Việc giảm chi phí đáng kể này là nhờ kích thước mô hình nhỏ hơn và khả năng hoạt động mà không cần ngữ cảnh few-shot mở rộng.

• Triplex được đào tạo thêm bằng DPO (Tối ưu hóa lập trình động) và KTO (Tối ưu hóa bộ ba tri thức), sử dụng bộ dữ liệu dựa trên ưu tiên thông qua bỏ phiếu đa số và sắp xếp tô pô.

Kết quả đánh giá Claude-3.5 Sonnet cho thấy Triplex vượt trội so với các mô hình khác như triplex-base và triplex-kto, với tỷ lệ thắng trên 50% khi so sánh trực tiếp với GPT-4o.

• Hiệu suất xuất sắc của Triplex dựa trên việc đào tạo trên bộ dữ liệu đa dạng và toàn diện, bao gồm các nguồn uy tín như DBPedia, Wikidata, văn bản web và bộ dữ liệu tổng hợp.

• Một ứng dụng ngay lập tức của Triplex là xây dựng đồ thị tri thức cục bộ sử dụng công cụ R2R RAG kết hợp với Neo4J.

📌 SciPhi ra mắt Triplex - mô hình ngôn ngữ mã nguồn mở tiên tiến giúp giảm chi phí xây dựng đồ thị tri thức xuống 10 lần. Với hiệu suất vượt trội so với GPT-4o và khả năng chuyển đổi dữ liệu phi cấu trúc hiệu quả, Triplex mở ra cơ hội mới cho phân tích dữ liệu và tạo ra insights trong nhiều ngành công nghiệp.

https://www.marktechpost.com/2024/07/22/sciphi-open-sourced-triplex-a-sota-llm-for-knowledge-graph-construction-provides-data-structuring-with-cost-effective-and-efficient-solutions/

Meta ra mắt Llama 3.1, với 405 tỷ tham số, đấu nhau ngang ngửa GPT4-o và Claude 3.5 Sonnet

- Meta chính thức ra mắt phiên bản lớn nhất của mô hình ngôn ngữ mở Llama, phiên bản 405 tỷ tham số mang tên Llama-3.1.
- Llama 3.1 là bản cập nhật của Llama 3 ra mắt vào tháng 4/2024, trước đó chỉ có phiên bản 8 tỷ và 70 tỷ tham số. 
- Phiên bản 405 tỷ tham số có thể "dạy" các mô hình nhỏ hơn và tạo dữ liệu tổng hợp.
- Theo Ragavan Srinivasan, Phó Chủ tịch Quản lý Chương trình AI tại Meta, mô hình này sẽ mang lại hiệu suất tiên tiến nhất đối với các mô hình mã nguồn mở và cạnh tranh mạnh mẽ với nhiều mô hình độc quyền, mã đóng hàng đầu.
- Llama 3.1 sẽ hỗ trợ đa ngôn ngữ ngay từ khi ra mắt, bao gồm tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Ý, Đức, Pháp, Hindi và Thái.
- Cửa sổ ngữ cảnh của Llama 3.1 đã được mở rộng lên 128.000 token, tương đương với lượng văn bản trong một cuốn tiểu thuyết gần 400 trang.
- Meta đã thử nghiệm Llama 3.1 trên hơn 150 bộ dữ liệu benchmark và thực hiện đánh giá có hướng dẫn của con người cho các tình huống thực tế. 
- Mô hình 405B "cạnh tranh với các mô hình nền tảng hàng đầu trên nhiều tác vụ bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet".
- Meta cũng cập nhật giấy phép cho tất cả các mô hình của mình để cho phép chưng cất mô hình và tạo dữ liệu tổng hợp.
- Chưng cất tri thức cho phép người dùng chuyển giao kiến thức hoặc đào tạo từ mô hình AI lớn hơn sang mô hình nhỏ hơn.
- Khả năng tạo dữ liệu tổng hợp sẽ cho phép các mô hình khác học từ thông tin mà không ảnh hưởng đến bản quyền, dữ liệu cá nhân hoặc nhạy cảm.
- Meta đã tối ưu hóa ngăn xếp đào tạo và sử dụng hơn 16.000 GPU Nvidia H100 để đào tạo mô hình 405B.
- Llama 3.1 sẽ được mở mã nguồn. Người dùng có thể truy cập nó thông qua AWS, Nvidia, Groq, Dell, Databricks, Microsoft Azure, Google Cloud và các thư viện mô hình khác.

📌 Llama 3.1 405B của Meta hứa hẹn mang lại hiệu suất vượt trội, cạnh tranh mạnh mẽ với các mô hình đóng. Mô hình này có thể dạy các phiên bản nhỏ hơn, tạo dữ liệu tổng hợp, hỗ trợ đa ngôn ngữ với cửa sổ ngữ cảnh lên tới 128.000 token. Llama 3.1 sẽ được mở mã nguồn, có thể truy cập qua nhiều nền tảng đám mây và thư viện mô hình phổ biến.

 

https://venturebeat.com/ai/meta-unleashes-its-most-powerful-ai-model-llama-3-1-with-405b-parameters/

 

Dòng "tút" của Mark Zuckerberg: AI mã nguồn mở là tương lai, Llama sẽ trở thành chuẩn mực


- Mark Zuckerberg tin rằng AI sẽ phát triển theo hướng mã nguồn mở tương tự như Linux đã làm với Unix trước đây. 
- Meta đang phát hành các mô hình Llama 3.1 405B, 70B và 8B. Mô hình 405B là mô hình AI mã nguồn mở đầu tiên đạt trình độ tiên phong.
- Nhiều công ty như Amazon, Databricks, Nvidia, Scale.AI, Dell, Deloitte sẽ hỗ trợ hệ sinh thái phát triển xung quanh Llama.
- Mã nguồn mở mang lại nhiều lợi ích cho các nhà phát triển như: tự do tinh chỉnh mô hình, kiểm soát, bảo mật dữ liệu, chi phí thấp, tiêu chuẩn lâu dài.
- Mã nguồn mở tốt cho Meta vì đảm bảo họ luôn có công nghệ tốt nhất, không bị khóa vào hệ sinh thái đóng. Việc mở mã nguồn không làm giảm lợi thế của Meta.
- Mã nguồn mở là cần thiết cho một tương lai AI tích cực, đảm bảo nhiều người tiếp cận được lợi ích của AI, sức mạnh không tập trung vào một số ít công ty.  
- AI mã nguồn mở sẽ an toàn hơn vì minh bạch, có thể được giám sát rộng rãi. Các tổ chức lớn triển khai AI mã nguồn mở quy mô lớn sẽ thúc đẩy an ninh và ổn định xã hội.
- Chiến lược tốt nhất của Mỹ là xây dựng hệ sinh thái mở mạnh mẽ, hợp tác chặt chẽ với chính phủ và đồng minh.
- Hầu hết các công ty công nghệ và nghiên cứu khoa học hàng đầu hiện nay được xây dựng trên phần mềm mã nguồn mở. Thế hệ tiếp theo sẽ sử dụng AI mã nguồn mở.

📌 Mark Zuckerberg tin tưởng mạnh mẽ rằng mô hình AI Llama mã nguồn mở của Meta sẽ trở thành tiêu chuẩn ngành, mang lại lợi ích to lớn cho các nhà phát triển, cho Meta và cho cả thế giới. Ông cho rằng AI mã nguồn mở sẽ an toàn và có lợi hơn các lựa chọn thay thế, giúp nhiều người tiếp cận được sức mạnh của AI, thúc đẩy an ninh và phát triển kinh tế.

 

https://www.facebook.com/story.php?story_fbid=10115716861061241&id=4&mibextid=WC7FNe&rdid=UJNAed944ITlVPyD

Arcee-Nova: Mô hình ngôn ngữ nguồn mở mới dựa trên Qwen2-72B với hiệu suất tiệm cận GPT-4

• Arcee AI vừa giới thiệu Arcee-Nova, một mô hình ngôn ngữ nguồn mở mới dựa trên Qwen2-72B-Instruct và được tinh chỉnh bằng tập dữ liệu tổng quát.

• Arcee-Nova đã đạt hiệu suất tiệm cận GPT-4 (phiên bản tháng 5/2023) khi được đánh giá trên cùng bộ tiêu chí với OpenLLM Leaderboard 2.0.

• Mô hình được tăng cường bằng kỹ thuật học tăng cường từ phản hồi của con người (RLHF), giúp nâng cao khả năng trong nhiều lĩnh vực.

Arcee-Nova hiện đang là mô hình nguồn mở có hiệu suất cao nhất trên OpenLLM Leaderboard 2.0, khẳng định tiềm năng cạnh tranh với các mô hình AI hàng đầu hiện nay.

• Các phiên bản GGUF của Arcee-Nova đã được cung cấp trên nền tảng Hugging Face, tăng khả năng tiếp cận cho các nhà phát triển và nghiên cứu.

• Mô hình thể hiện khả năng vượt trội trong nhiều lĩnh vực như: lập luận logic, viết sáng tạo, lập trình, và hiểu ngôn ngữ tổng quát.

• Arcee-Nova có tiềm năng ứng dụng rộng rãi trong kinh doanh, bao gồm: dịch vụ khách hàng, tạo nội dung, phát triển phần mềm, phân tích dữ liệu, nghiên cứu và phát triển, pháp lý và tuân thủ, giáo dục và đào tạo.

• Trong lĩnh vực dịch vụ khách hàng, Arcee-Nova có thể hỗ trợ xây dựng chatbot và trợ lý ảo tiên tiến, nâng cao chất lượng tương tác.

• Đối với phát triển phần mềm, mô hình có khả năng hỗ trợ tạo mã và kiểm tra chất lượng, tăng hiệu quả quá trình phát triển.

• Trong lĩnh vực phân tích dữ liệu, Arcee-Nova giúp cải thiện việc diễn giải dữ liệu và tạo báo cáo, cung cấp những hiểu biết sâu sắc hơn cho doanh nghiệp.

• Mô hình cũng có thể hỗ trợ đáng kể trong nghiên cứu và phát triển thông qua việc tổng hợp tài liệu và tạo giả thuyết, đẩy nhanh quá trình nghiên cứu.

• Trong lĩnh vực pháp lý, Arcee-Nova có khả năng phân tích hợp đồng và thực hiện kiểm tra tuân thủ quy định, đảm bảo tính pháp lý cho doanh nghiệp.

• Arcee AI bày tỏ lòng biết ơn đối với cộng đồng AI nguồn mở và đội ngũ Qwen vì những đóng góp nền tảng cho Qwen2-72B.

• Công ty khuyến khích các nhà nghiên cứu, phát triển và doanh nghiệp khám phá tiềm năng của Arcee-Nova, đồng thời cam kết tiếp tục thúc đẩy sự phát triển của AI nguồn mở.

📌 Arcee-Nova, mô hình ngôn ngữ nguồn mở mới từ Arcee AI, đạt hiệu suất tiệm cận GPT-4 (05/2023). Dựa trên Qwen2-72B, tích hợp RLHF, mô hình thể hiện khả năng vượt trội trong nhiều lĩnh vực, mở ra tiềm năng ứng dụng rộng rãi trong kinh doanh từ dịch vụ khách hàng đến R&D.

https://www.marktechpost.com/2024/07/21/arcee-ai-introduces-arcee-nova-a-new-open-sourced-language-model-based-on-qwen2-72b-and-approaches-gpt-4-performance-level/

Athene-Llama3-70B: đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với GPT-4 và Claude-3.5-Sonnet

• Nexusflow vừa phát hành Athene-Llama3-70B, một mô hình chat mã nguồn mở được tinh chỉnh từ Llama-3-70B-Instruct của Meta AI.

• Athene-70B đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với các mô hình độc quyền như GPT-4 và Claude-3.5-Sonnet. Đây là bước tiến vượt bậc so với Llama-3-70B-Instruct (46,6%).

• Sự cải thiện này đến từ quy trình huấn luyện sau đào tạo của Nexusflow, nhằm nâng cao các hành vi cụ thể của mô hình.

• Athene-70B hiện đang được thử nghiệm công khai trên nền tảng Chatbot Arena.

• Nexusflow đã phát triển các tiêu chuẩn đánh giá nội bộ để đánh giá khả năng của LLM trong việc tuân theo hướng dẫn, lập trình, viết sáng tạo và xử lý đa ngôn ngữ.

• Dựa trên đánh giá này, dữ liệu ưu tiên chất lượng cao được tuyển chọn cho quá trình Học tăng cường từ phản hồi của con người (RLHF).

• Quy trình này dẫn đến cải thiện hiệu suất đáng kể so với Llama-3-70B-Instruct trên nhiều khía cạnh quan trọng.

• Athene-70B thể hiện khả năng của Nexusflow trong việc tùy chỉnh mô hình cho các yêu cầu doanh nghiệp cụ thể thông qua huấn luyện sau đào tạo có mục tiêu.

• Dựa trên thành công trước đó với Starling-7B và NexusRaven-V2, Nexusflow hướng tới việc nâng cấp các mô hình của mình để đáp ứng tiêu chuẩn ứng dụng cấp doanh nghiệp.

• Công ty cung cấp giải pháp tùy chỉnh để giúp doanh nghiệp vượt trội trong công nghệ copilot và agent AI tạo sinh.

• Nexusflow mời gọi các tổ chức khám phá cách Athene-70B có thể nâng cao sáng kiến AI của họ bằng cách liên hệ để biết thêm thông tin và cơ hội hợp tác.

📌 Athene-Llama3-70B là mô hình chat mã nguồn mở 70 tỷ tham số, đạt điểm Arena-Hard-Auto 77,8%, cạnh tranh với GPT-4 và Claude-3.5. Cải tiến từ Llama-3-70B-Instruct (46,6%) nhờ RLHF của Nexusflow, nâng cao khả năng trong nhiều lĩnh vực, hứa hẹn ứng dụng AI tạo sinh cấp doanh nghiệp.

https://www.marktechpost.com/2024/07/21/athene-llama3-70b-released-an-open-weight-llm-trained-through-rlhf-based-on-llama-3-70b-instruct/

Apple vừa mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, vượt trội hơn cả mô hình LLaMA-2 của Meta

- Apple vừa công bố mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, một phần của dự án Decentralized Compute Language Models (DCLM).
- Mô hình này được huấn luyện trên tập dữ liệu khổng lồ gồm 1,5 nghìn tỷ token, bao gồm cả dữ liệu từ trang web, sách và bài báo.
- Kết quả cho thấy DCLM Baseline-7B vượt trội hơn cả mô hình LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6% so với 69,0%) và HellaSwag (79,2% so với 77,8%).
- DCLM Baseline-7B cũng đạt điểm cao hơn trên bài kiểm tra TruthfulQA với 61,4% so với 58,1% của LLaMA-2 7B.
- Apple hy vọng việc mở mã nguồn sẽ thúc đẩy nghiên cứu và phát triển các mô hình ngôn ngữ phi tập trung (decentralized language models).
- Hiện tại mô hình và mã nguồn của DCLM Baseline-7B đã được công bố trên kho lưu trữ GitHub của Apple.
- Đây là một bước tiến quan trọng của Apple trong lĩnh vực AI, đặc biệt là các mô hình ngôn ngữ quy mô lớn.

📌 Apple vừa tạo tiếng vang lớn khi mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, vượt trội hơn cả LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6%) và HellaSwag (79,2%). Bước đi này hứa hẹn thúc đẩy mạnh mẽ nghiên cứu về các mô hình ngôn ngữ phi tập trung.

Citations:
[1] https://analyticsindiamag.com/ai-news-updates/apple-open-sources-dclm-baseline-7b-outperforms-metas-llama-2/

Groq phát hành mô hình AI nguồn mở Llama-3 vượt trội GPT-4 và Claude trong khả năng gọi hàm

• Groq, một startup phần cứng AI, đã phát hành hai mô hình ngôn ngữ nguồn mở vượt trội các gã khổng lồ công nghệ về khả năng sử dụng công cụ chuyên biệt.

• Mô hình Llama-3-Groq-70B-Tool-Use đã giành vị trí số 1 trên Bảng xếp hạng Gọi hàm Berkeley (BFCL), vượt qua các sản phẩm độc quyền từ OpenAI, Google và Anthropic.

• Mô hình 70B tham số đạt độ chính xác tổng thể 90,76% trên BFCL, trong khi mô hình 8B nhỏ hơn đạt 89,06%, xếp hạng thứ 3 tổng thể.

• Groq phát triển các mô hình này cùng với công ty nghiên cứu AI Glaive, sử dụng kết hợp tinh chỉnh toàn bộ và Tối ưu hóa Ưu tiên Trực tiếp (DPO) trên mô hình cơ sở Llama-3 của Meta.

• Nhóm nhấn mạnh việc chỉ sử dụng dữ liệu tổng hợp được tạo ra một cách có đạo đức để đào tạo, giải quyết các mối quan ngại phổ biến về quyền riêng tư dữ liệu và overfitting.

• Bằng cách đạt hiệu suất hàng đầu chỉ sử dụng dữ liệu tổng hợp, Groq thách thức quan niệm cho rằng cần lượng lớn dữ liệu thực tế để tạo ra các mô hình AI tiên tiến.

• Các mô hình hiện có sẵn thông qua API Groq và Hugging Face, một nền tảng phổ biến để chia sẻ các mô hình học máy.

• Groq cũng ra mắt demo công khai trên Hugging Face Spaces, cho phép người dùng tương tác với mô hình và kiểm tra khả năng sử dụng công cụ của nó.

• Cộng đồng AI đã phản ứng nhiệt tình, với nhiều nhà nghiên cứu và nhà phát triển háo hức khám phá khả năng của các mô hình.

• Cách tiếp cận nguồn mở của Groq tương phản rõ rệt với các hệ thống đóng của các công ty công nghệ lớn hơn.

• Sự thành công của các mô hình Groq có thể dẫn đến một sự thay đổi mô hình trong cách AI được phát triển và triển khai, có khả năng dân chủ hóa quyền truy cập vào các khả năng AI tiên tiến.

📌 Mô hình AI nguồn mở Llama-3-Groq-70B của Groq đạt vị trí số 1 trên bảng xếp hạng BFCL với độ chính xác 90,76%, vượt qua GPT-4 và Claude. Sử dụng dữ liệu tổng hợp đạo đức, mô hình mở ra khả năng dân chủ hóa AI và thúc đẩy đổi mới trong ngành.

https://venturebeat.com/ai/groq-open-source-llama-ai-model-tops-leaderboard-outperforming-gpt-4o-and-claude-in-function-calling/

Google tung "trợ lý ảo" nguồn mở giúp lập trình viên giảm 90% công sức quản lý dự án

• Google vừa công bố Project Oscar tại sự kiện Google I/O Bengaluru - một nền tảng nguồn mở giúp các nhóm phát triển sử dụng và xây dựng các tác nhân AI để quản lý chương trình phần mềm.

Project Oscar hiện tập trung vào các dự án nguồn mở, nhưng trong tương lai có thể mở rộng để quản lý cả các dự án mã nguồn đóng.

• Karthik Padmanabhan, Trưởng bộ phận Quan hệ Nhà phát triển tại Google Ấn Độ, tin rằng AI có tiềm năng cải thiện toàn bộ vòng đời phát triển phần mềm.

• Thông qua Project Oscar, các nhà phát triển có thể tạo ra các tác nhân AI hoạt động trong suốt vòng đời phát triển phần mềm, bao gồm tác nhân phát triển, tác nhân lập kế hoạch, tác nhân thời gian chạy và tác nhân hỗ trợ.

• Các tác nhân này có thể tương tác bằng ngôn ngữ tự nhiên, cho phép người dùng đưa ra hướng dẫn mà không cần chỉnh sửa mã.

• Cameron Balahan, Giám đốc sản phẩm nhóm cho ngôn ngữ lập trình nguồn mở Go của Google, cho biết Oscar đã được triển khai cho dự án Go để giúp theo dõi báo cáo lỗi và tương tác với người đóng góp.

• Dự án Go có hơn 93.000 commit và 2.000 người đóng góp, khiến việc theo dõi tất cả các vấn đề phát sinh trở nên cực kỳ khó khăn.

• Tác nhân AI được phát triển thông qua Project Oscar cho Go có khả năng làm phong phú báo cáo sự cố bằng cách xem xét dữ liệu hoặc sử dụng các công cụ phát triển để nổi bật thông tin quan trọng nhất.

• Tác nhân cũng tương tác với người báo cáo sự cố để làm rõ bất kỳ vấn đề nào, ngay cả khi người bảo trì không trực tuyến.

• Balahan cho biết Project Oscar sẽ sớm được triển khai cho các dự án nguồn mở khác của Google.

Tầm nhìn của Google là cho phép bất kỳ ai cũng có thể triển khai Oscar vào dự án của họ, dù là nguồn mở hay đóng, và sử dụng các tác nhân có sẵn hoặc tự tạo ra.

• Các trợ lý AI như GitHub Copilot và Amazon CodeWhisperer đã được chứng minh là tăng năng suất của nhà phát triển.

• Các trợ lý AI khác như Amazon Q giúp người dùng truy vấn dữ liệu nội bộ hoặc cộng tác với các nhóm khác.

📌 Project Oscar của Google là nền tảng nguồn mở giúp phát triển tác nhân AI quản lý phần mềm. Đã triển khai cho dự án Go với 93.000 commit và 2.000 người đóng góp, Oscar hỗ trợ theo dõi lỗi, tương tác người dùng và nâng cao hiệu quả phát triển phần mềm.

https://venturebeat.com/ai/google-brings-ai-agent-platform-project-oscar-open-source/

Mistral ra mắt Codestral Mamba - mô hình AI tạo mã nguồn nhanh hơn, dài hơn và Mathstral chuyên toán học, khoa học

• Mistral, startup AI Pháp, vừa ra mắt 2 mô hình ngôn ngữ lớn (LLM) mới: Codestral Mamba cho lập trình viên và Mathstral cho toán học/khoa học.

 

• Codestral Mamba 7B sử dụng kiến trúc Mamba mới, giúp tăng tốc độ suy luận và mở rộng ngữ cảnh so với kiến trúc transformer thông thường.

 

• Mô hình này có thể xử lý đầu vào lên tới 256.000 token, gấp đôi GPT-4 của OpenAI.

 

• Trong các bài kiểm tra HumanEval, Codestral Mamba vượt trội hơn các mô hình nguồn mở đối thủ như CodeLlama 7B, CodeGemma-1.17B và DeepSeek.

 

• Codestral Mamba được cung cấp miễn phí trên API la Plateforme của Mistral, với giấy phép nguồn mở Apache 2.0.

 

• Mathstral 7B là mô hình AI chuyên biệt cho lập luận toán học và khám phá khoa học, được phát triển cùng với Project Numina.

 

• Mathstral có cửa sổ ngữ cảnh 32K và cũng sử dụng giấy phép nguồn mở Apache 2.0.

 

• Mistral tuyên bố Mathstral vượt trội hơn mọi mô hình được thiết kế cho lập luận toán học.

 

• Cả hai mô hình đều có thể truy cập qua la Plateforme của Mistral và HuggingFace.

 

• Mistral gần đây đã huy động được 640 triệu USD trong vòng gọi vốn Series B, nâng định giá lên gần 6 tỷ USD.

 

• Công ty cũng nhận được đầu tư từ các gã khổng lồ công nghệ như Microsoft và IBM.

 

• Mistral đang cạnh tranh mạnh mẽ với các nhà phát triển AI khác như OpenAI và Anthropic.

 

• Tạo mã và trợ lý lập trình đã trở thành ứng dụng phổ biến của các mô hình AI, với các nền tảng như GitHub Copilot, Amazon CodeWhisperer và Codenium ngày càng được ưa chuộng.

 

📌 Mistral tung ra 2 mô hình AI mới: Codestral Mamba cho lập trình với 256.000 token và Mathstral cho toán học. Cả hai đều nguồn mở, miễn phí và vượt trội so với đối thủ trong các bài kiểm tra. Mistral đã huy động 640 triệu USD, định giá 6 tỷ USD, cạnh tranh mạnh với OpenAI và Anthropic.

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/

Hugging Face ra mắt dòng mô hình ngôn ngữ SmolLM nhỏ gọn nhưng mạnh mẽ, vượt trội so với các đối thủ lớn

• Hugging Face vừa công bố dòng mô hình ngôn ngữ nhỏ gọn SmolLM, vượt trội so với các sản phẩm tương tự từ Microsoft, Meta và Alibaba về hiệu suất.

SmolLM có 3 kích cỡ: 135 triệu, 360 triệu và 1,7 tỷ tham số, phù hợp với nhiều loại tài nguyên tính toán khác nhau.

• Mặc dù nhỏ gọn, các mô hình này đạt kết quả vượt trội trong các bài kiểm tra về lập luận thông thường và kiến thức thế giới.

• SmolLM-135M vượt qua MobileLM-125M của Meta dù được huấn luyện với ít token hơn.

• SmolLM-360M vượt trội so với tất cả các mô hình dưới 500 triệu tham số, bao gồm cả sản phẩm từ Meta và Qwen.

• Mô hình chủ lực SmolLM-1.7B đánh bại Phi-1.5 của Microsoft, MobileLM-1.5B của Meta và Qwen2-1.5B trong nhiều bài kiểm tra.

• Hugging Face công khai toàn bộ quá trình phát triển, từ tuyển chọn dữ liệu đến các bước huấn luyện, thể hiện cam kết với giá trị nguồn mở và nghiên cứu có thể tái tạo.

Hiệu suất ấn tượng của SmolLM đến từ việc tuyển chọn kỹ lưỡng dữ liệu huấn luyện, bao gồm Cosmopedia v2, Python-Edu và FineWeb-Edu.

SmolLM có thể chạy trên các thiết bị cá nhân như điện thoại và laptop, loại bỏ nhu cầu điện toán đám mây, giảm chi phí và mối lo ngại về quyền riêng tư.

• Việc phát triển các mô hình nhỏ gọn nhưng mạnh mẽ như SmolLM đại diện cho một bước chuyển quan trọng trong lĩnh vực AI, giải quyết các vấn đề về tác động môi trường và quyền riêng tư dữ liệu.

• Hugging Face đã phát hành các mô hình SmolLM, bộ dữ liệu và mã huấn luyện, cho phép cộng đồng AI toàn cầu và các nhà phát triển khám phá, cải tiến và xây dựng dựa trên phương pháp tiếp cận đổi mới này.

📌 SmolLM của Hugging Face mang AI mạnh mẽ đến thiết bị cá nhân, vượt trội so với đối thủ lớn. Với 3 kích cỡ từ 135 triệu đến 1,7 tỷ tham số, các mô hình nguồn mở này đạt hiệu suất cao nhờ dữ liệu chất lượng, mở ra khả năng tiếp cận AI rộng rãi hơn mà không ảnh hưởng đến quyền riêng tư.

https://venturebeat.com/ai/hugging-faces-smollm-models-bring-powerful-ai-to-your-phone-no-cloud-required/

STORM - công cụ AI nguồn mở từ Đại học Stanford tự động tạo báo cáo dài, có trích dẫn đầy đủ

• STORM là công cụ AI nguồn mở do Đại học Stanford phát triển, nhằm chuyển đổi các chủ đề thành các bài viết toàn diện và dài.

• Công cụ này tự động hóa quá trình tổng hợp kiến thức, giúp tạo ra các báo cáo dài và có trích dẫn đầy đủ một cách dễ dàng hơn.

• STORM hoạt động qua 2 giai đoạn chính: giai đoạn chuẩn bị viết và giai đoạn viết, tận dụng nghiên cứu trên internet và phác thảo có cấu trúc để tạo ra nội dung chi tiết.

• Trong giai đoạn chuẩn bị viết, STORM tiến hành nghiên cứu mở rộng trên internet về chủ đề được cung cấp, thu thập thông tin và tài liệu tham khảo liên quan. Sau đó, nó tổ chức dữ liệu này thành một dàn ý có cấu trúc.

• Ở giai đoạn viết, STORM sử dụng dàn ý đã tạo để viết một bài báo đầy đủ, kèm theo trích dẫn và tài liệu tham khảo chính xác.

• Một trong những ưu điểm chính của STORM là khả năng tự động hóa quá trình nghiên cứu, giúp tiết kiệm thời gian và công sức đáng kể cho người dùng.

• STORM có thể truy cập thông qua bản demo trên đám mây hoặc cài đặt cục bộ. Việc cài đặt cục bộ yêu cầu một số điều kiện tiên quyết như Git, Pip, Python và Conda.

• Công cụ này hỗ trợ nhiều mô hình truy xuất khác nhau và cho phép người dùng tùy chỉnh mô hình ngôn ngữ theo nhu cầu cụ thể.

• STORM có thể được sử dụng để tạo ra các bài viết về nhiều chủ đề khác nhau như bền vững, trí tuệ nhân tạo, chăm sóc sức khỏe, v.v.

• Đầu ra từ STORM bao gồm các bài viết toàn diện với các chủ đề phụ được xác định rõ ràng và trích dẫn đầy đủ. Các bài viết này có thể tải xuống và chia sẻ.

• Công cụ này hữu ích cho nhiều đối tượng khác nhau như nhà nghiên cứu, sinh viên, nhà báo hoặc người sáng tạo nội dung.

• STORM đang đóng vai trò quan trọng trong lĩnh vực tạo nội dung có sự hỗ trợ của AI, giúp người dùng tạo ra các bài viết toàn diện và được nghiên cứu kỹ lưỡng một cách dễ dàng.

📌 STORM là công cụ AI nguồn mở từ Stanford tự động tạo báo cáo dài có trích dẫn. Hoạt động qua 2 giai đoạn: chuẩn bị viết và viết, tự động hóa nghiên cứu và tạo nội dung. Hữu ích cho nhiều đối tượng, tiết kiệm thời gian và đảm bảo chất lượng bài viết.

https://www.geeky-gadgets.com/storm-ai-assistant-stanford-university/

10 mô hình LLM mã nguồn mở không kiểm duyệt từ 7B đến 176B có thể chạy trên laptop

• Bài viết giới thiệu 10 mô hình ngôn ngữ lớn (LLM) không kiểm duyệt có thể chạy trên laptop thông thường. Đây là các mô hình mã nguồn mở, không bị giới hạn bởi các quy tắc đạo đức như ChatGPT.

• Vicuna-13B: Dựa trên LLaMA của Meta, được tinh chỉnh bằng dữ liệu từ ShareGPT. Có hiệu suất tương đương 90% so với ChatGPT và GPT-4 trong một số tác vụ.

• Alpaca-7B: Cũng dựa trên LLaMA, được huấn luyện bằng dữ liệu từ text-davinci-003 của OpenAI. Có khả năng tạo văn bản, dịch thuật và trả lời câu hỏi.

• GPT4All: Mô hình 7B tham số, được huấn luyện trên bộ dữ liệu đa dạng. Có thể chạy trên CPU và chỉ cần 4GB RAM.

• Dolly: Phiên bản 12B tham số, được huấn luyện trên bộ dữ liệu Databricks. Có khả năng tạo văn bản, dịch thuật và trả lời câu hỏi.

• Pythia: Bộ mô hình với nhiều kích thước từ 70M đến 12B tham số. Được huấn luyện trên bộ dữ liệu The Pile.

• RWKV: Mô hình RNN với hiệu suất tương đương Transformer. Có nhiều phiên bản từ 100M đến 14B tham số.

• Cerebras-GPT: Bộ mô hình với nhiều kích thước từ 111M đến 13B tham số. Được huấn luyện trên bộ dữ liệu The Pile.

• Open Assistant: Mô hình mã nguồn mở được phát triển bởi cộng đồng, với mục tiêu tạo ra trợ lý AI miễn phí cho mọi người.

• Falcon: Bộ mô hình được phát triển bởi Technology Innovation Institute, với các phiên bản 7B và 40B tham số.

• Bloom: Mô hình đa ngôn ngữ 176B tham số, hỗ trợ 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình.

• Các mô hình này đều có thể chạy trên laptop thông thường với GPU, một số thậm chí chỉ cần CPU. Chúng mang lại khả năng tiếp cận AI tiên tiến cho nhiều người dùng hơn.

• Tuy nhiên, việc sử dụng các mô hình không kiểm duyệt cũng đặt ra những thách thức về đạo đức và an toàn. Người dùng cần cân nhắc kỹ lưỡng khi sử dụng chúng.

📌 10 mô hình LLM mã nguồn mở không kiểm duyệt có thể chạy trên laptop thông thường, với kích thước từ 7B đến 176B tham số. Vicuna-13B và Alpaca-7B nổi bật với hiệu suất cao, trong khi GPT4All chỉ cần 4GB RAM để chạy. Các mô hình này mở ra cơ hội tiếp cận AI tiên tiến cho nhiều người dùng hơn.

Citations:
[1] https://analyticsindiamag.com/top-10-uncensored-llms-you-can-run-on-a-laptop/

Bioptimus, startup Pháp, ra mắt mô hình AI H-optimus-0 hỗ trợ chẩn đoán bệnh

• Startup Pháp Bioptimus vừa ra mắt mô hình AI có tên H-optimus-0, được đào tạo trên hàng trăm triệu hình ảnh để hỗ trợ nghiên cứu và chẩn đoán bệnh.

• H-optimus-0 có khả năng thực hiện các tác vụ phức tạp như nhận diện tế bào ung thư và phát hiện bất thường di truyền trong khối u.

Bioptimus mô tả đây là mô hình lớn nhất trong lĩnh vực bệnh lý học được phát hành dưới dạng nguồn mở và dễ tiếp cận rộng rãi.

• Startup này là một trong số nhiều công ty đang cố gắng tận dụng AI cho các bước đột phá y học. Gần đây, DeepMind của Google đã phát hành phiên bản mới của AlphaFold - hệ thống AI dự đoán cấu trúc protein. K Health, một startup Mỹ phát triển chatbot tương tác với bệnh nhân trước khi gặp bác sĩ, đã huy động được 50 triệu USD với định giá khoảng 900 triệu USD.

• Giám đốc công nghệ của Bioptimus, Rodolphe Jenatton, cho biết công ty chọn mô hình nguồn mở để tạo ra tính minh bạch và thúc đẩy tiến bộ trong lĩnh vực này. 

• Bioptimus hy vọng các phát triển tiếp theo sẽ cho phép mô hình hoạt động ở các cấp độ khác nhau của sinh học con người. Hiện tại, mô hình chỉ tập trung vào mô.

• Tuy nhiên, vẫn còn nhiều lo ngại về việc sử dụng AI trong chẩn đoán y tế. Một cuộc khảo sát năm 2023 của Pew Research Center cho thấy 60% bệnh nhân cảm thấy không thoải mái khi bác sĩ dựa vào AI để chăm sóc sức khỏe cho họ.

• Các chuyên gia gần đây kêu gọi Dịch vụ Y tế Quốc gia Anh (NHS) tập trung vào chăm sóc ung thư cơ bản thay vì các "viên đạn thần kỳ" AI.

• Một nghiên cứu năm 2021 trên Nature Medicine phát hiện các thuật toán AI áp dụng cho X-quang ngực chẩn đoán thiếu cho phụ nữ, bệnh nhân da đen và gốc Hispanic cũng như những người sử dụng Medicaid.

• Bioptimus được thành lập vào tháng 2 với sự hỗ trợ và đầu tư của công ty công nghệ sinh học Pháp Owkin Inc. Startup này đã nhận được 35 triệu USD vốn hạt giống từ các nhà đầu tư bao gồm ngân hàng đầu tư nhà nước Bpifrance và tỷ phú viễn thông Xavier Niel.

📌 Startup Pháp Bioptimus ra mắt mô hình AI nguồn mở H-optimus-0 để hỗ trợ chẩn đoán bệnh, được đào tạo trên hàng trăm triệu hình ảnh. Mặc dù có tiềm năng, vẫn còn nhiều lo ngại về việc sử dụng AI trong y tế, với 60% bệnh nhân cảm thấy không thoải mái và các nghiên cứu chỉ ra sự thiên vị trong chẩn đoán.

https://www.bloomberg.com/news/articles/2024-07-10/french-startup-bioptimus-releases-ai-model-for-disease-diagnosis

OSI đề xuất định nghĩa AI nguồn mở: thách thức và tranh cãi trong việc áp dụng nguyên tắc mã nguồn mở cho AI

• Tổ chức Sáng kiến Nguồn mở (OSI) đang nỗ lực xây dựng một định nghĩa chính thức cho "AI nguồn mở", dưới sự dẫn dắt của giám đốc điều hành Stefano Maffulli.

• Định nghĩa AI Nguồn mở hiện đang ở phiên bản 0.0.8, bao gồm 3 phần chính: phần mở đầu, định nghĩa chính và danh sách kiểm tra các thành phần cần thiết.

• Theo dự thảo hiện tại, một hệ thống AI nguồn mở cần đảm bảo quyền tự do sử dụng cho mọi mục đích, cho phép nghiên cứu cách hệ thống hoạt động, và cho phép sửa đổi/chia sẻ hệ thống.

• Một trong những thách thức lớn nhất là vấn đề dữ liệu - làm thế nào để xác định một hệ thống AI là "nguồn mở" nếu không công bố bộ dữ liệu huấn luyện?

• OSI cho rằng quan trọng hơn là biết nguồn gốc dữ liệu và cách xử lý dữ liệu, thay vì có toàn bộ bộ dữ liệu.

• Có sự khác biệt cơ bản giữa mã nguồn phần mềm và trọng số mạng nơ-ron (NNW) trong AI. NNW không thể đọc được và gỡ lỗi như mã nguồn.

• Việc tái tạo chính xác một mô hình AI từ cùng bộ dữ liệu là rất khó khăn do có các yếu tố ngẫu nhiên trong quá trình huấn luyện.

• OSI đề xuất một hệ thống AI nguồn mở cần dễ dàng tái tạo với hướng dẫn rõ ràng.

• Khung phân loại mô hình mở (MOF) được đề xuất để đánh giá mức độ mở và đầy đủ của các mô hình máy học.

• Meta gặp tranh cãi khi gọi mô hình Llama của họ là "nguồn mở", trong khi có các hạn chế đáng kể về cách sử dụng.

• OSI đang tìm cách đa dạng hóa nguồn tài trợ, nhận được khoản tài trợ 250.000 USD từ Quỹ Sloan để hỗ trợ quá trình xây dựng định nghĩa.

• Định nghĩa "ổn định" dự kiến sẽ được thông qua tại hội nghị All Things Open vào cuối tháng 10/2024.

📌 OSI đang nỗ lực xây dựng định nghĩa AI nguồn mở, đối mặt với nhiều thách thức do sự khác biệt giữa AI và phần mềm truyền thống. Định nghĩa dự thảo 0.0.8 tập trung vào quyền tự do sử dụng, nghiên cứu và sửa đổi, với danh sách kiểm tra các thành phần cần thiết. Dự kiến thông qua vào 10/2024.

https://techcrunch.com/2024/06/22/what-does-open-source-ai-mean-anyway/

Microsoft ra mắt GraphRAG: vượt trội hơn RAG truyền thống trong khám phá dữ liệu

- GraphRAG là một phương pháp tiếp cận mới dựa trên đồ thị cho kỹ thuật Retrieval-Augmented Generation (RAG), được phát triển và công bố bởi Microsoft.

- Nó sử dụng mô hình ngôn ngữ lớn (LLM) để tự động trích xuất đồ thị tri thức từ bất kỳ tập hợp tài liệu văn bản nào.

- GraphRAG vượt trội hơn so với phương pháp RAG truyền thống trong việc khám phá và truy xuất dữ liệu phức tạp.

- Nó có khả năng hiểu bối cảnh tổng thể tốt hơn, kết nối các ý tưởng từ nhiều nguồn khác nhau và trả lời các câu hỏi phức tạp đòi hỏi suy luận sâu.

- GraphRAG có thể xử lý lượng lớn thông tin mà không bị nhầm lẫn và giải thích nguồn gốc câu trả lời của nó.

- Microsoft đã công bố mã nguồn mở của GraphRAG trên GitHub, cho phép các nhà phát triển bắt đầu sử dụng nó trong các dự án của họ.

- Nó có thể được sử dụng với cả các mô hình độc quyền như GPT-4 và các mô hình mã nguồn mở như Llama.

- GraphRAG hứa hẹn mang lại những cải tiến đáng kể trong việc truy vấn và tóm tắt tập trung vào các tập dữ liệu phức tạp.

📌 GraphRAG đại diện cho một bước tiến quan trọng trong công nghệ RAG, cung cấp khả năng hiểu và truy xuất dữ liệu phức tạp tốt hơn đáng kể. Việc Microsoft công bố mã nguồn mở có thể thúc đẩy việc áp dụng và phát triển công nghệ này trong cộng đồng AI rộng lớn hơn.

https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/

InternLM2.5-7B-Chat: LLM nguồn mở suy luận, xử lý ngữ cảnh dài và sử dụng công cụ vượt trội.

• InternLM vừa công bố mô hình ngôn ngữ lớn nguồn mở mới nhất InternLM2.5-7B-Chat, có sẵn ở định dạng GGUF và tương thích với llama.cpp.

• Mô hình có thể được sử dụng cục bộ và trên đám mây trên nhiều nền tảng phần cứng khác nhau. Định dạng GGUF cung cấp các phiên bản lượng tử hóa half-precision và low-bit, bao gồm q5_0, q5_k_m, q6_k và q8_0.

• InternLM2.5 dựa trên phiên bản tiền nhiệm, cung cấp mô hình cơ sở 7 tỷ tham số và mô hình chat được điều chỉnh cho các tình huống thực tế.

• Mô hình này có khả năng suy luận tiên tiến, đặc biệt là suy luận toán học, vượt trội so với các đối thủ như Llama3 và Gemma2-9B.

• InternLM2.5-7B-Chat có cửa sổ ngữ cảnh ấn tượng 1M, thể hiện hiệu suất gần như hoàn hảo trong các tác vụ ngữ cảnh dài như được đánh giá bởi LongBench.

• Khả năng xử lý ngữ cảnh dài giúp mô hình đặc biệt hiệu quả trong việc truy xuất thông tin từ các tài liệu dài. Khả năng này được tăng cường khi kết hợp với LMDeploy, một bộ công cụ để nén, triển khai và phục vụ các mô hình ngôn ngữ lớn.

• Phiên bản InternLM2.5-7B-Chat-1M được thiết kế cho suy luận ngữ cảnh dài 1M, nhưng yêu cầu tài nguyên tính toán đáng kể như 4 GPU A100-80G để hoạt động hiệu quả.

• Đánh giá hiệu suất sử dụng công cụ OpenCompass cho thấy khả năng vượt trội của mô hình trong nhiều lĩnh vực: năng lực chuyên ngành, ngôn ngữ, kiến thức, suy luận và hiểu biết.

• Trong các điểm chuẩn như MMLU, CMMLU, BBH, MATH, GSM8K và GPQA, InternLM2.5-7B-Chat liên tục mang lại hiệu suất vượt trội so với các đối thủ cùng cấp. Ví dụ, điểm chuẩn MMLU đạt 72,8, vượt qua các mô hình như Llama-3-8B-Instruct và Gemma2-9B-IT.

• InternLM2.5-7B-Chat cũng xuất sắc trong việc sử dụng công cụ, hỗ trợ thu thập thông tin từ hơn 100 trang web. Phiên bản sắp tới của Lagent sẽ tăng cường chức năng này, cải thiện khả năng tuân theo hướng dẫn, lựa chọn công cụ và phản ánh của mô hình.

• Bản phát hành của mô hình bao gồm hướng dẫn cài đặt toàn diện, hướng dẫn tải xuống mô hình và các ví dụ về suy luận và triển khai dịch vụ mô hình.

• Người dùng có thể thực hiện suy luận ngoại tuyến theo lô với mô hình lượng tử hóa bằng lmdeploy, một framework hỗ trợ lượng tử hóa INT4 weight-only và triển khai (W4A16). Thiết lập này cung cấp suy luận nhanh hơn tới 2,4 lần so với FP16 trên các GPU NVIDIA tương thích.

• Kiến trúc của InternLM2.5 giữ lại các tính năng mạnh mẽ của phiên bản tiền nhiệm đồng thời kết hợp các đổi mới kỹ thuật mới. Những cải tiến này, được thúc đẩy bởi một kho dữ liệu tổng hợp lớn và quy trình đào tạo lặp đi lặp lại, dẫn đến một mô hình có hiệu suất suy luận được cải thiện - tăng 20% so với InternLM2.

📌 InternLM2.5-7B-Chat là mô hình ngôn ngữ lớn nguồn mở tiên tiến với khả năng suy luận vượt trội, xử lý ngữ cảnh dài 1M và sử dụng công cụ hiệu quả. Mô hình đạt điểm MMLU 72,8, vượt qua các đối thủ cùng cấp và hứa hẹn ứng dụng rộng rãi trong nghiên cứu và thực tế.

https://www.marktechpost.com/2024/07/07/internlm2-5-7b-chat-open-sourcing-large-language-models-with-unmatched-reasoning-long-context-handling-and-enhanced-tool-use/

IBM công bố toàn bộ bộ dữ liệu 6,48 TB dùng để huấn luyện mô hình ngôn ngữ lớn Granite 13B

• IBM vừa công bố toàn bộ bộ dữ liệu 6,48 TB được sử dụng để huấn luyện mô hình ngôn ngữ lớn Granite 13B.

• Armand Ruiz, một chuyên gia của IBM, đã tiết lộ thông tin này, mở ra cơ hội mới cho cộng đồng nghiên cứu AI và phát triển ứng dụng.

Granite 13B là một mô hình ngôn ngữ lớn được IBM phát triển đặc biệt cho các ứng dụng doanh nghiệp.

Vào tháng 5/2024, IBM đã công bố mã nguồn mở của Granite 13B, cho phép các nhà phát triển và doanh nghiệp tự do sử dụng và tùy chỉnh mô hình này.

• Bộ dữ liệu huấn luyện 6,48 TB bao gồm nhiều loại dữ liệu đa dạng như văn bản, mã nguồn, tài liệu kỹ thuật và dữ liệu doanh nghiệp.

Việc công bố bộ dữ liệu này giúp tăng tính minh bạch trong quá trình phát triển AI, đồng thời cho phép các nhà nghiên cứu hiểu rõ hơn về cách Granite 13B được huấn luyện.

• IBM khẳng định rằng bộ dữ liệu đã được xử lý để loại bỏ thông tin nhạy cảm và tuân thủ các quy định về bảo mật và quyền riêng tư.

• Granite 13B được thiết kế để xử lý các tác vụ phức tạp trong môi trường doanh nghiệp như phân tích dữ liệu, tự động hóa quy trình và hỗ trợ ra quyết định.

• Mô hình này có khả năng hiểu và tạo ra văn bản chất lượng cao, đồng thời tích hợp tốt với các hệ thống và ứng dụng doanh nghiệp hiện có.

• Việc công bố bộ dữ liệu huấn luyện có thể thúc đẩy sự phát triển của các mô hình AI tùy chỉnh cho các ngành công nghiệp cụ thể.

• Các chuyên gia trong ngành nhận định rằng động thái này của IBM sẽ góp phần thúc đẩy sự cạnh tranh và đổi mới trong lĩnh vực AI doanh nghiệp.

• Bộ dữ liệu được chia sẻ thông qua nền tảng Hugging Face, một kho lưu trữ phổ biến cho các mô hình và dữ liệu AI.

• IBM cũng cung cấp tài liệu hướng dẫn chi tiết về cách sử dụng bộ dữ liệu và tái tạo quá trình huấn luyện Granite 13B.

• Việc này mở ra cơ hội cho các doanh nghiệp vừa và nhỏ tiếp cận công nghệ AI tiên tiến mà không cần đầu tư lớn vào nghiên cứu và phát triển.

📌 IBM công bố bộ dữ liệu 6,48 TB dùng để huấn luyện Granite 13B, mô hình ngôn ngữ lớn nguồn mở cho doanh nghiệp. Động thái này thúc đẩy minh bạch trong AI, mở ra cơ hội nghiên cứu và phát triển ứng dụng AI tùy chỉnh cho nhiều ngành công nghiệp.

https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/

Meta phát hành mô hình dự đoán đa token mới, hứa hẹn cách mạng hóa hiệu quả và khả năng của AI ngôn ngữ lớn

• Meta vừa phát hành các mô hình được đào tạo trước sử dụng phương pháp dự đoán đa token mới, có thể thay đổi cách phát triển và triển khai các mô hình ngôn ngữ lớn (LLM).

• Kỹ thuật mới này, được mô tả trong bài báo nghiên cứu của Meta vào tháng 4, khác với phương pháp truyền thống là chỉ dự đoán từ tiếp theo trong chuỗi. Thay vào đó, mô hình của Meta được giao nhiệm vụ dự đoán nhiều từ trong tương lai cùng lúc.

• Phương pháp mới hứa hẹn nâng cao hiệu suất và giảm đáng kể thời gian đào tạo cho các mô hình AI.

• Đây có thể là giải pháp cho vấn đề tiêu thụ năng lượng tính toán ngày càng tăng của các mô hình AI lớn, giúp AI tiên tiến trở nên dễ tiếp cận và bền vững hơn.

Bằng cách dự đoán nhiều token cùng lúc, các mô hình này có thể phát triển hiểu biết tinh tế hơn về cấu trúc và ngữ cảnh ngôn ngữ.

• Meta phát hành các mô hình này dưới giấy phép nghiên cứu phi thương mại trên nền tảng Hugging Face, phù hợp với cam kết khoa học mở của công ty.

• Bước đi này cũng là động thái chiến lược trong cuộc đua AI ngày càng cạnh tranh, nơi sự cởi mở có thể dẫn đến đổi mới nhanh hơn và thu hút nhân tài.

• Phiên bản đầu tiên tập trung vào nhiệm vụ hoàn thành mã, phản ánh thị trường đang phát triển cho các công cụ lập trình hỗ trợ AI.

• Tuy nhiên, việc phát hành này cũng gây tranh cãi. Các nhà phê bình cho rằng các mô hình AI hiệu quả hơn có thể làm trầm trọng thêm những lo ngại hiện có về thông tin sai lệch và mối đe dọa mạng do AI tạo ra.

• Meta đã cố gắng giải quyết những vấn đề này bằng cách nhấn mạnh tính chất chỉ dành cho nghiên cứu của giấy phép, nhưng vẫn còn những câu hỏi về việc thực thi hiệu quả các hạn chế như vậy.

• Các mô hình dự đoán đa token là một phần trong bộ sưu tập lớn hơn các thành quả nghiên cứu AI được Meta phát hành, bao gồm cả những tiến bộ trong tạo văn bản từ hình ảnh và phát hiện giọng nói do AI tạo ra.

• Cộng đồng AI đang phải đối mặt với những tác động của thông báo này. Liệu dự đoán đa token có trở thành tiêu chuẩn mới trong phát triển LLM? Nó có thể đáp ứng lời hứa về hiệu quả mà không ảnh hưởng đến chất lượng?

• Các nhà nghiên cứu tuyên bố rằng phương pháp của họ cải thiện khả năng và hiệu quả đào tạo mô hình đồng thời cho phép tốc độ nhanh hơn.

📌 Meta phát hành mô hình dự đoán đa token mới, hứa hẹn cách mạng hóa hiệu quả và khả năng của AI ngôn ngữ lớn. Phương pháp này có thể giảm thời gian đào tạo, nâng cao hiệu suất và phát triển hiểu biết ngôn ngữ tinh tế hơn. Tuy nhiên, vẫn còn những lo ngại về tác động tiềm tàng và việc sử dụng sai mục đích.

https://venturebeat.com/ai/meta-drops-ai-bombshell-multi-token-prediction-models-now-open-for-research/

Meta chuẩn bị ra mắt mô hình Llama 3 400B - đối thủ cạnh tranh mạnh mẽ của ChatGPT-4

• Meta đã phát hành Llama 3 vào tháng 4/2024, sử dụng tập dữ liệu lớn hơn ít nhất 7 lần so với Llama 2. Ban đầu có sẵn ở kích thước 8B và 70B tham số.

• Thông tin rò rỉ cho thấy Meta sắp ra mắt phiên bản Llama 3 mạnh mẽ nhất, được đào tạo trên hơn 400 tỷ tham số.

Trong thử nghiệm ban đầu, Llama 3 400B đạt điểm 86,1 trên thang đo MMLU, ngang bằng với hiệu suất của GPT-4 nhưng chỉ với chưa đến một nửa số lượng tham số.

• Việc đạt được hiệu suất tương đương với ít tham số hơn cho thấy Llama 3 400B có thể hiệu quả hơn nhiều so với ChatGPT 4 về tài nguyên tính toán, tiêu thụ năng lượng và chi phí.

• Llama 3 được phát hành dưới giấy phép mở cho nghiên cứu và sử dụng thương mại. Chưa rõ liệu phiên bản 400B có được phát hành dưới cùng giấy phép mở hay không.

• Nếu 400B được phát hành dưới dạng mô hình mở, nó sẽ mang lại khả năng ngôn ngữ tiên tiến cho các nhà nghiên cứu và nhà phát triển miễn phí, thúc đẩy đổi mới và cho phép nhiều ứng dụng mới của công nghệ.

• Meta AI đã ám chỉ về việc phát hành mô hình 400B từ thông cáo báo chí ban đầu về Llama 3 vào ngày 18/4, nói rằng "các mô hình lớn nhất của chúng tôi có hơn 400 tỷ tham số".

• Người dùng WhatsApp Beta trên Android 2.24.14.7 đã phát hiện tùy chọn mới để thử nghiệm mô hình Llama 3-405B cho Meta AI, mặc dù có giới hạn đáng kể về khối lượng sử dụng.

• Mặc dù chưa có ngày phát hành chính thức, nhưng có thể dự đoán bản phát hành đầy đủ sẽ diễn ra vào cuối tháng 7 hoặc tháng 8 năm 2024.

📌 Meta sắp ra mắt Llama 3 400B, mô hình AI nguồn mở cạnh tranh trực tiếp với ChatGPT-4. Với hiệu suất tương đương nhưng ít tham số hơn, Llama 3 400B hứa hẹn mang lại hiệu quả cao hơn về tài nguyên và chi phí, đồng thời thúc đẩy đổi mới trong lĩnh vực AI ngôn ngữ.

https://www.tomsguide.com/ai/meta-is-about-to-launch-its-biggest-llama-model-yet-heres-why-its-a-big-deal

Google tung ra Gemma 2: mô hình AI siêu nhỏ gọn đánh bại Llama3 70B và Qwen 72B

• Google vừa công bố hai mô hình mới trong dòng Gemma 2: phiên bản 27B và 9B.

• Gemma 2 27B có 27 tỷ tham số, được thiết kế để xử lý các tác vụ phức tạp hơn với độ chính xác và hiểu biết ngôn ngữ sâu sắc hơn.

• Gemma 2 9B có 9 tỷ tham số, là lựa chọn nhẹ hơn nhưng vẫn mang lại hiệu suất cao, phù hợp cho các ứng dụng cần hiệu quả tính toán và tốc độ.

Gemma 2 vượt trội hơn Llama3 70B, Qwen 72B và Command R+ trong lĩnh vực LYMSYS Chat. Mô hình 9B hiện là mô hình hoạt động tốt nhất dưới 15B tham số.

• Các mô hình Gemma 2 nhỏ hơn khoảng 2,5 lần so với Llama 3 và chỉ được huấn luyện trên 2/3 số lượng token.

Mô hình 27B được huấn luyện trên 13 nghìn tỷ token, trong khi mô hình 9B được huấn luyện trên 8 nghìn tỷ token.

• Cả hai mô hình đều có độ dài ngữ cảnh 8192 và sử dụng Rotary Position Embeddings (RoPE) để xử lý tốt hơn các chuỗi dài.

• Gemma 2 áp dụng kỹ thuật chưng cất kiến thức để huấn luyện các mô hình nhỏ hơn 9B và 2B với sự hỗ trợ của mô hình giáo viên lớn hơn.

• Các mô hình kết hợp các lớp chú ý cục bộ và toàn cục, giúp tăng cường độ ổn định suy luận cho ngữ cảnh dài và giảm sử dụng bộ nhớ.

• Gemma 2 sử dụng phương pháp Soft Attention Capping để duy trì quá trình huấn luyện và tinh chỉnh ổn định.

• Các kỹ thuật như Exponential Moving Average (EMA), Spherical Linear Interpolation (SLERP) và Linear Interpolation with Truncated Inference (LITI) được áp dụng ở các giai đoạn huấn luyện khác nhau để tăng hiệu suất.

• Group Query Attention được triển khai với hai nhóm để tăng tốc độ suy luận.

• Các mô hình Gemma 2 có thể ứng dụng trong nhiều lĩnh vực như tự động hóa dịch vụ khách hàng, tạo nội dung, dịch thuật và công cụ giáo dục.

• Sự ra mắt của dòng Gemma 2 đánh dấu bước tiến quan trọng trong công nghệ AI, thể hiện cam kết của Google trong việc phát triển các công cụ AI mạnh mẽ nhưng hiệu quả.

📌 Google ra mắt Gemma 2 với hai phiên bản 27B và 9B, vượt trội hơn đối thủ cạnh tranh như Llama3 70B và Qwen 72B. Mô hình 9B là mô hình hoạt động tốt nhất dưới 15B tham số, được huấn luyện trên 8 nghìn tỷ token. Gemma 2 áp dụng nhiều kỹ thuật tiên tiến, hứa hẹn mang lại những đột phá trong xử lý ngôn ngữ tự nhiên.

https://www.marktechpost.com/2024/06/27/google-releases-gemma-2-series-models-advanced-llm-models-in-9b-and-27b-sizes-trained-on-13t-tokens/

MaxKB: hệ thống trả lời câu hỏi tiên tiến dựa trên các LLM để cách mạng hóa việc quản lý kiến thức trong doanh nghiệp

• MaxKB là một hệ thống trả lời câu hỏi tiên tiến dựa trên các mô hình ngôn ngữ lớn (LLMs), được thiết kế để cách mạng hóa việc quản lý kiến thức trong doanh nghiệp.

• Hệ thống này giải quyết các thách thức mà nhiều tổ chức gặp phải trong việc quản lý và truy xuất thông tin từ kho dữ liệu của họ.

• Các giải pháp hiện có thường đòi hỏi thiết lập phức tạp và chuyên môn về lập trình, gây khó khăn cho việc tích hợp vào hệ thống hiện có.

MaxKB đơn giản hóa quá trình tạo và triển khai cơ sở kiến thức toàn diện, không yêu cầu kiến thức kỹ thuật chuyên sâu.

Hệ thống hỗ trợ tải lên tài liệu trực tiếp, tự động thu thập tài liệu trực tuyến và có khả năng xử lý văn bản thông minh.

• MaxKB cho phép tách và vector hóa văn bản tự động, nâng cao khả năng truy cập và tìm kiếm dữ liệu.

• Hệ thống sử dụng công nghệ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để tinh chỉnh kết quả tìm kiếm, cung cấp câu trả lời chính xác cho các truy vấn.

• MaxKB tích hợp liền mạch với nhiều mô hình lớn khác nhau, đảm bảo tính linh hoạt và khả năng mở rộng cho các nhu cầu kinh doanh đa dạng.

• Giao diện trực quan của MaxKB làm cho nó dễ tiếp cận với tất cả người dùng, bất kể trình độ kỹ thuật.

• Hệ thống có thể được triển khai trong môi trường cục bộ hoặc tích hợp vào các hệ thống của bên thứ ba.

• MaxKB nổi bật về khả năng tiếp cận và hiệu suất, giúp các tổ chức khai thác dữ liệu của họ một cách hiệu quả.

• Hệ thống này giải quyết nhu cầu về một giải pháp thân thiện với người dùng và hiệu quả trong việc quản lý kiến thức doanh nghiệp.

• MaxKB không chỉ mạnh mẽ mà còn hiệu quả và đáng tin cậy, với khả năng ấn tượng trong việc xử lý và truy xuất thông tin.

📌 MaxKB là hệ thống trả lời câu hỏi dựa trên LLMs, cách mạng hóa quản lý kiến thức doanh nghiệp. Với khả năng tải tài liệu trực tiếp, thu thập tự động và xử lý thông minh, MaxKB đơn giản hóa việc truy xuất thông tin mà không cần chuyên môn kỹ thuật cao.

https://www.marktechpost.com/2024/06/27/maxkb-knowledge-base-question-answering-system-based-on-large-language-models-llms/

Google mở rộng truy cập công khai cho Gemini 1.5 Flash và Pro với khả năng xử lý 2 triệu token

• Google Cloud công bố mở rộng truy cập công khai cho hai phiên bản mô hình AI hàng đầu: Gemini 1.5 Flash và Gemini 1.5 Pro.

• Gemini 1.5 Flash là mô hình đa phương thức nhỏ với cửa sổ ngữ cảnh 1 triệu token, phù hợp cho các tác vụ tần suất cao và hẹp.

• Gemini 1.5 Pro là phiên bản mạnh mẽ nhất của mô hình ngôn ngữ lớn của Google, có cửa sổ ngữ cảnh 2 triệu token - lớn nhất trong các mô hình AI nổi tiếng hiện nay.

• Thomas Kurian, CEO Google Cloud, cho biết công ty đang thấy "động lực đáng kinh ngạc" với nỗ lực AI tạo sinh, với nhiều tổ chức lớn như Accenture, Airbus, Anthropic, Box, Broadcom, Ford, Goldman Sachs, Samsung đang xây dựng trên nền tảng của họ.

Gemini 1.5 Flash được cho là nhanh hơn 40% so với GPT-3.5 Turbo của OpenAI khi xử lý đầu vào 10.000 ký tự, với giá đầu vào thấp hơn 4 lần.

Gemini 1.5 Pro có thể xử lý và cân nhắc lượng văn bản lớn hơn bao giờ hết trước khi tạo ra phản hồi, bao gồm 2 giờ video độ phân giải cao, gần cả ngày âm thanh, hơn 60.000 dòng mã và hơn 1,5 triệu từ.

• Google giới thiệu tính năng bộ nhớ đệm ngữ cảnh cho cả Gemini 1.5 Pro và Flash, giúp giảm chi phí đầu vào lên đến 75%.

• Tính năng thông lượng được cung cấp cho phép nhà phát triển dự trữ dung lượng suy luận, đảm bảo khả năng mở rộng và độ tin cậy cho khối lượng công việc sản xuất.

• Các tính năng mới nhằm cải thiện trải nghiệm nhà phát triển và giúp doanh nghiệp tạo ra các tác nhân và giải pháp AI "hấp dẫn".

• Google cam kết tiếp tục giới thiệu các khả năng mới cho cả mô hình và nền tảng Vertex với tốc độ nhanh chóng.

• Việc phát hành các biến thể Gemini nhằm thể hiện cách công việc AI của Google trao quyền cho doanh nghiệp phát triển các tác nhân và giải pháp AI "hấp dẫn".

📌 Google mở rộng truy cập Gemini 1.5 Flash và Pro với cửa sổ ngữ cảnh 2 triệu token, nhanh hơn 40% so với GPT-3.5 Turbo. Tính năng bộ nhớ đệm ngữ cảnh giảm chi phí 75%, thông lượng được cung cấp tăng độ tin cậy cho nhà phát triển.

https://venturebeat.com/ai/google-opens-up-gemini-1-5-flash-pro-with-2m-tokens-to-the-public/

Abu Dhabi giàu dầu mỏ đang nỗ lực trở thành quốc gia dẫn đầu về AI, bắt đầu bằng việc liên kết với Mỹ

• Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất (UAE), đang nỗ lực trở thành quốc gia dẫn đầu về trí tuệ nhân tạo (AI), bắt đầu bằng việc liên kết chặt chẽ với Mỹ.

• Microsoft đã đầu tư 1,5 tỷ USD vào G42, một tập đoàn AI có trụ sở tại Abu Dhabi, do một thành viên có ảnh hưởng của gia đình hoàng gia làm chủ tịch.

• Thỏa thuận này được cho là do chính quyền Biden muốn hạn chế ảnh hưởng của Bắc Kinh trong khu vực, trong bối cảnh Mỹ đang nỗ lực duy trì vị thế dẫn đầu so với Trung Quốc trong cuộc đua AI.

• Omar Al Olama, Bộ trưởng AI của UAE, cho biết UAE và Mỹ có cùng quan điểm về cách thúc đẩy các công nghệ này và sẽ có sự liên kết chặt chẽ hơn.

• UAE là một trong những nhà sản xuất nhiên liệu hóa thạch lớn nhất thế giới. Abu Dhabi coi việc phát triển AI là yếu tố then chốt để đa dạng hóa nền kinh tế, giảm phụ thuộc vào dầu mỏ.

• Theo báo cáo của PwC Middle East, AI có thể đóng góp 96 tỷ USD vào nền kinh tế UAE vào năm 2030, tương đương gần 14% GDP.

• UAE đặt mục tiêu trở thành quốc gia dẫn đầu toàn cầu về AI vào năm 2031. Chiến lược quốc gia bao gồm triển khai AI trong các lĩnh vực ưu tiên như năng lượng và hậu cần, phát triển hệ sinh thái và thu hút nhân tài.

Tính đến tháng 9/2023, UAE có 120.000 người làm việc trong lĩnh vực AI hoặc các ngành liên quan, tăng từ 30.000 người hai năm trước đó.

• UAE đôi khi phải ưu tiên mối quan hệ với Mỹ hơn các đối thủ của Washington. G42 đã phải cắt đứt quan hệ với các nhà cung cấp phần cứng Trung Quốc, bao gồm cả Huawei, để ủng hộ các công ty Mỹ.

• Vào cuối năm 2023, Viện Đổi mới Công nghệ Abu Dhabi đã ra mắt mô hình ngôn ngữ lớn (LLM) có tên Falcon10B, vượt trội hơn các sản phẩm của Google và Meta theo một số tiêu chí.

UAE cũng đã phát triển Jais, một mô hình AI tạo sinh được đào tạo bằng tiếng Ả Rập và tiếng Anh, nhằm mở đường cho các LLM trong các ngôn ngữ khác "chưa được đại diện trong AI chủ đạo".

• Falcon và Jais đều là nguồn mở, cho phép bất kỳ ai cũng có thể sử dụng hoặc thay đổi mã nguồn. Điều này giúp Abu Dhabi định vị mình như một đồng minh của các quốc gia đang phát triển không có đủ nguồn lực để xây dựng công cụ AI riêng.

• Olama kêu gọi một liên minh toàn cầu để quản lý sự phát triển và sử dụng công nghệ AI, nhằm giải quyết các mối lo ngại về rủi ro tiềm ẩn của AI.

📌 UAE đặt mục tiêu trở thành siêu cường AI vào năm 2031 thông qua chiến lược quốc gia và đầu tư lớn. Với 120.000 người làm việc trong lĩnh vực AI, dự kiến đóng góp 96 tỷ USD vào GDP năm 2030, UAE đang nhanh chóng trở thành trung tâm AI quan trọng toàn cầu.

https://www.cnn.com/2024/06/26/tech/uae-ai-minister-omar-al-olama-hnk-spc-intl/index.html

Hugging Face ra mắt bảng xếp hạng mô hình ngôn ngữ mở, với các mô hình Trung Quốc dẫn đầu

• Hugging Face vừa ra mắt bảng xếp hạng mô hình ngôn ngữ mở (Open LLM Leaderboard), đánh giá hiệu suất của các mô hình ngôn ngữ lớn mã nguồn mở.

• Bảng xếp hạng này đánh giá các mô hình dựa trên nhiều tiêu chí như: ARC (câu hỏi đa lựa chọn), HellaSwag (suy luận thông thường), MMLU (kiến thức đa lĩnh vực), TruthfulQA (khả năng trả lời trung thực) và Winogrande (suy luận).

• Các mô hình Trung Quốc đang thống trị bảng xếp hạng, với ChatGLM2-6B của Tsinghua University đứng đầu, đạt điểm trung bình 55,3 trên tất cả các tiêu chí.

• Baichuan-13B-Base của Baichuan Intelligence đứng thứ hai với điểm trung bình 54,8, theo sau là BLOOM-7B1-mt của BigScience với 53,6 điểm.

• Mô hình ChatGLM2-6B đạt điểm cao nhất trong các bài kiểm tra ARC (62,6) và HellaSwag (78,5), trong khi Baichuan-13B-Base dẫn đầu về MMLU (54,8) và TruthfulQA (44,6).

• BLOOM-7B1-mt, một mô hình đa ngôn ngữ, đạt điểm cao nhất trong bài kiểm tra Winogrande (73,9).

• Bảng xếp hạng cũng bao gồm các mô hình nổi tiếng khác như Falcon, Pythia, OPT và FLAN-T5.

• Hugging Face khuyến khích cộng đồng đóng góp bằng cách thêm các mô hình mới vào bảng xếp hạng thông qua pull requests trên GitHub.

• Bảng xếp hạng này cung cấp cái nhìn tổng quan về hiệu suất của các mô hình ngôn ngữ mã nguồn mở, giúp các nhà nghiên cứu và nhà phát triển so sánh và lựa chọn mô hình phù hợp cho ứng dụng của họ.

• Sự thống trị của các mô hình Trung Quốc trong bảng xếp hạng cho thấy sự phát triển nhanh chóng của ngành AI tại quốc gia này.

• Bảng xếp hạng cũng nhấn mạnh tầm quan trọng của việc phát triển các mô hình ngôn ngữ mã nguồn mở, tạo cơ hội cho cộng đồng nghiên cứu AI tiếp cận và cải tiến các mô hình này.

• Hugging Face, nền tảng phổ biến cho việc chia sẻ và triển khai các mô hình máy học, đang đóng vai trò quan trọng trong việc thúc đẩy sự phát triển và đánh giá các mô hình ngôn ngữ mã nguồn mở.

📌 Hugging Face ra mắt bảng xếp hạng mô hình ngôn ngữ mở, với các mô hình Trung Quốc dẫn đầu. ChatGLM2-6B đứng đầu với 55,3 điểm trung bình, tiếp theo là Baichuan-13B-Base và BLOOM-7B1-mt. Bảng xếp hạng đánh giá mô hình dựa trên nhiều tiêu chí, thúc đẩy sự phát triển của AI nguồn mở.

https://analyticsindiamag.com/hugging-face-launches-open-llm-leaderboard-chinese-models-dominate/

Alibaba ra mắt mô hình gte-Qwen2-7b-instruct với 32k token đầu vào và hiệu suất vượt trội

• Các nhà nghiên cứu Alibaba vừa công bố mô hình nhúng văn bản mới có tên gte-Qwen2-7B-instruct, kế thừa mô hình gte-Qwen1.5-7B-instruct trước đó.

• Mô hình mới dựa trên Qwen2-7B thay vì Qwen1.5-7B, cho thấy những cải tiến của Qwen2-7B.

• Hiệu suất tăng đáng kể với điểm tổng thể cải thiện từ 67,34 lên 70,24, và chỉ số nDCG@10 cho Retrieval trên bảng xếp hạng MTEB tăng từ 57,91 lên 60,25.

• Mô hình có 7 tỷ tham số, khá lớn đối với các mô hình nhúng, và hỗ trợ độ dài chuỗi tối đa 32k token đầu vào.

• Được tích hợp với Sentence Transformers, giúp tương thích với các công cụ như LangChain, LlamaIndex, Haystack, v.v.

• Tính đến ngày 21/6/2024, gte-Qwen2-7B-instruct xếp hạng 2 trong cả đánh giá tiếng Anh và tiếng Trung trên Massive Text Embedding Benchmark (MTEB).

• Mô hình sử dụng cơ chế chú ý hai chiều để nâng cao khả năng hiểu ngữ cảnh.

• Áp dụng kỹ thuật Instruction Tuning chỉ ở phía truy vấn để tăng hiệu quả.

• Quá trình đào tạo toàn diện trên tập dữ liệu đa ngôn ngữ lớn từ nhiều lĩnh vực và tình huống khác nhau.

• Sử dụng cả dữ liệu giám sát yếu và có giám sát để hữu ích cho nhiều ngôn ngữ và nhiều tác vụ khác nhau.

• Dòng mô hình gte có hai loại: mô hình chỉ mã hóa dựa trên kiến trúc BERT và mô hình chỉ giải mã dựa trên kiến trúc LLM.

• Nhúng văn bản (Text embeddings - TEs) là biểu diễn vector thấp chiều của văn bản có kích thước khác nhau, quan trọng cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP).

• TEs thường được kiểm tra trên số lượng nhỏ bộ dữ liệu từ một tác vụ cụ thể, không thể hiện hiệu suất cho các tác vụ khác.

• Massive Text Embedding Benchmark (MTEB) được giới thiệu để giải quyết vấn đề này, bao gồm 8 tác vụ nhúng, 58 bộ dữ liệu và 112 ngôn ngữ.

📌 Alibaba công bố mô hình nhúng văn bản gte-Qwen2-7B-instruct mới dựa trên Qwen2-7B, cải thiện hiệu suất từ 67,34 lên 70,24 điểm trên MTEB. Mô hình 7 tỷ tham số này hỗ trợ 32k token đầu vào, tích hợp với nhiều công cụ NLP và xếp hạng 2 cho cả tiếng Anh và tiếng Trung.

https://www.marktechpost.com/2024/06/21/alibaba-ai-researchers-released-a-new-gte-qwen2-7b-instruct-embedding-model-based-on-the-qwen2-7b-model-with-better-performance/

Meta phát hành mô hình AI mã nguồn mở Chameleon xử lý hình ảnh và văn bản tương đương Gemini Pro và GPT-4V

- Meta công bố phát hành công khai họ mô hình AI mới có tên Chameleon, tương đương với các công cụ thương mại như Gemini Pro và GPT-4V.

- Chameleon có phiên bản 7 tỷ và 34 tỷ tham số, có khả năng hiểu và tạo ra hình ảnh và văn bản.

- Chameleon có thể xử lý kết hợp văn bản và hình ảnh (có thể liên quan với nhau) và tạo ra phản hồi có ý nghĩa.

- Ví dụ, bạn có thể chụp ảnh nội dung tủ lạnh và hỏi Chameleon món ăn nào có thể nấu chỉ với nguyên liệu sẵn có.

- Điều này không thể thực hiện được với thế hệ mô hình AI Llama, đưa nguồn mở đến gần hơn với các mô hình thị giác chính thống nổi tiếng hơn từ OpenAI và Google.

- Nhóm nghiên cứu Fundamental AI Research (FAIR) tại Meta đã phát hành công khai mô hình này cho mục đích nghiên cứu, tuy nhiên có một số hạn chế.

- Chìa khóa thành công của Chameleon là kiến trúc hoàn toàn dựa trên token. Mô hình học cách lý luận về hình ảnh và văn bản một cách liên kết.

- Các thách thức kỹ thuật mà nhóm Meta phải vượt qua bao gồm những vấn đề liên quan đến tính ổn định tối ưu hóa và mở rộng quy mô, bằng cách sử dụng các phương pháp và kỹ thuật đào tạo mới.

- Người dùng có thể yêu cầu Chameleon tạo lịch trình trải nghiệm ngày hạ chí và mô hình AI sẽ cung cấp hình ảnh liên quan kèm theo văn bản tạo ra.

- Theo đánh giá của con người, Chameleon tương đương hoặc vượt trội hơn các mô hình như Gemini Pro và GPT-4V khi lời nhắc hoặc đầu ra chứa chuỗi hỗn hợp cả hình ảnh và văn bản.

- Phiên bản Chameleon được phát hành công khai chỉ có thể tạo ra văn bản đầu ra và mức độ an toàn được tăng cường có chủ đích.

- Đối với các nhà nghiên cứu, Chameleon là nguồn cảm hứng cho các cách thay thế để đào tạo và thiết kế mô hình AI.

📌 Chameleon của Meta là bước tiến đáng kể trong AI mã nguồn mở, với khả năng xử lý linh hoạt cả hình ảnh và văn bản, tương đương các mô hình thương mại như Gemini Pro, GPT-4V. Kiến trúc dựa trên token và các kỹ thuật đào tạo mới giúp Chameleon vượt qua thách thức tối ưu hóa, mở rộng quy mô. Phiên bản công khai hiện chỉ tạo văn bản đầu ra, nhưng đã tiến bộ đáng kể so với 5 tháng trước.

https://www.tomsguide.com/ai/meta-just-dropped-an-open-source-gpt-4o-style-model-heres-what-it-means

NVIDIA tung ra HelpSteer2 và Llama3-70B-SteerLM-RM: cuộc cách mạng AI trong lái xe tự động và xử lý ngôn ngữ tự nhiên

- NVIDIA giới thiệu HelpSteer2 và Llama3-70B-SteerLM-RM, hai công nghệ đột phá trong trí tuệ nhân tạo
- HelpSteer2: hệ thống lái xe tự động mới với thuật toán tiên tiến và tích hợp cảm biến nâng cao
- Sử dụng kết hợp cảm biến lidar, radar và camera để tạo ra hiểu biết toàn diện về môi trường xung quanh xe
- Liên tục học hỏi và thích nghi với các tình huống lái xe trong thế giới thực bằng cách xử lý lượng lớn dữ liệu
- Tính năng hỗ trợ người lái tiên tiến: giữ làn đường tự động, kiểm soát hành trình thích ứng, tránh va chạm
- Llama3-70B-SteerLM-RM: mô hình ngôn ngữ tân tiến với 70 tỷ tham số
- Được thiết kế để xuất sắc trong các tác vụ đòi hỏi hiểu ngôn ngữ và tạo ngôn ngữ tinh tế
- Khả năng điều khiển đầu ra dựa trên yêu cầu hoặc ràng buộc cụ thể của người dùng
- Kết hợp cơ chế học tăng cường mạnh mẽ để tinh chỉnh hiệu suất dựa trên phản hồi của người dùng
- Thể hiện cam kết của NVIDIA trong việc thúc đẩy AI và tiềm năng của AI trong việc thay đổi nhiều ngành công nghiệp

📌 HelpSteer2 và Llama3-70B-SteerLM-RM của NVIDIA đánh dấu bước tiến quan trọng trong lĩnh vực lái xe tự động và xử lý ngôn ngữ tự nhiên với các thuật toán tiên tiến, tích hợp cảm biến nâng cao và 70 tỷ tham số. Hai công nghệ này hứa hẹn sẽ thúc đẩy những tiến bộ đáng kể, nâng cao an toàn, hiệu quả và trải nghiệm người dùng, tác động sâu sắc đến cách con người tương tác với công nghệ trong cuộc sống hàng ngày.

https://www.marktechpost.com/2024/06/18/nvidia-ai-releases-helpsteer2-and-llama3-70b-steerlm-rm-an-open-source-helpfulness-dataset-and-a-70-billion-parameter-language-model-respectively/

DeepSeek Coder V2 của Trung Quốc trở thành mô hình lập trình mã nguồn mở đầu tiên vượt qua GPT-4 Turbo

- DeepSeek Coder V2 được xây dựng dựa trên DeepSeek-V2, một mô hình MoE ra mắt tháng trước. 
- Mô hình này hỗ trợ hơn 300 ngôn ngữ lập trình, tăng từ 86 ngôn ngữ của phiên bản gốc, và mở rộng cửa sổ ngữ cảnh lên 128K.
- Trên các bài kiểm tra MBPP+, HumanEval và Aider, DeepSeek Coder V2 đạt điểm số lần lượt là 76.2, 90.2 và 73.7, vượt trội hơn hầu hết các mô hình nguồn đóng và mở như GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral và Llama-3 70B.
- Để đạt được những tiến bộ này, DeepSeek đã tiền huấn luyện mô hình cơ sở V2 trên bộ dữ liệu bổ sung 6 nghìn tỷ token, chủ yếu bao gồm dữ liệu liên quan đến mã và toán học từ GitHub và CommonCrawl.
- DeepSeek Coder V2 cũng đạt hiệu suất tốt trong các tác vụ lý luận và hiểu ngôn ngữ tổng quát. Trên bài kiểm tra MMLU, nó đạt 79.2 điểm, tốt hơn nhiều so với các mô hình chuyên biệt về mã khác.
- Mô hình này hiện được cung cấp theo giấy phép MIT, cho phép sử dụng cả trong nghiên cứu và thương mại không hạn chế. Người dùng có thể tải xuống cả hai kích thước 16B và 236B trên Hugging Face hoặc truy cập qua API trên nền tảng của công ty.

📌 DeepSeek Coder V2 là mô hình lập trình mã nguồn mở đầu tiên vượt trội hơn GPT-4 Turbo và các mô hình nguồn đóng khác. Với khả năng hỗ trợ hơn 300 ngôn ngữ lập trình và hiệu suất mạnh mẽ trên nhiều bài kiểm tra, mô hình 16B và 236B này hứa hẹn mang lại nhiều tiện ích cho cả nghiên cứu và ứng dụng thương mại.

https://venturebeat.com/ai/chinas-deepseek-coder-becomes-first-open-source-coding-model-to-beat-gpt-4-turbo/

Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung

- Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung tại Meta FAIR, như một phần cam kết thúc đẩy một hệ sinh thái mở.
- Các mô hình AI mới bao gồm Meta Chameleon, cung cấp các mô hình ngôn ngữ 7B và 34B hỗ trợ đầu vào hỗn hợp và đầu ra chỉ dạng văn bản.
- Meta Multi-Token Prediction là mô hình ngôn ngữ được tiền huấn luyện để hoàn thành mã sử dụng dự đoán đa token. Phương pháp này cải thiện khả năng mô hình, hiệu quả huấn luyện và tốc độ nhanh hơn.
- Meta JASCO là mô hình tạo sinh văn bản thành âm nhạc, chấp nhận nhiều đầu vào điều kiện để kiểm soát tốt hơn. Bài báo đi kèm đã có sẵn, mô hình sẽ sớm được phát hành.
- Meta AudioSeal là mô hình thủy vân âm thanh được thiết kế đặc biệt để phát hiện cục bộ giọng nói do AI tạo ra và có sẵn theo giấy phép thương mại.
- Bên cạnh các mô hình này, Meta đang phát hành thêm các sản phẩm Responsible AI (RAI), bao gồm nghiên cứu, dữ liệu và mã nhằm đo lường và cải thiện sự đại diện của sở thích và đa dạng về địa lý và văn hóa trong các hệ thống AI.
- Meta nhấn mạnh rằng quyền truy cập vào AI tiên tiến nhất nên dành cho tất cả mọi người, không chỉ một vài công ty công nghệ lớn.

📌 Meta đã giới thiệu 4 mô hình AI mới cùng các sản phẩm nghiên cứu, bao gồm Meta Chameleon, Meta Multi-Token Prediction, Meta JASCO và Meta AudioSeal. Bên cạnh đó, Meta cũng phát hành thêm các sản phẩm RAI nhằm cải thiện tính đại diện và đa dạng trong AI. Công ty nhấn mạnh tầm quan trọng của việc chia sẻ công nghệ AI tiên tiến cho cộng đồng rộng rãi.

https://analyticsindiamag.com/meta-announces-four-new-ai-models-and-additional-research-artifacts/

DeepSeek-Coder-V2 của DeepSeek AI: Mô hình AI mã nguồn mở đầu tiên vượt trội GPT4-Turbo trong lập trình và toán học

- DeepSeek AI giới thiệu DeepSeek-Coder-V2, mô hình ngôn ngữ mã nguồn mở mới được phát triển dựa trên nền tảng DeepSeek-V2, trải qua quá trình tiền huấn luyện bổ sung với 6 nghìn tỷ token.

- DeepSeek-Coder-V2 sử dụng framework Mixture-of-Experts (MoE), hỗ trợ 338 ngôn ngữ lập trình và mở rộng ngữ cảnh từ 16K lên 128K token. Mô hình có kiến trúc gồm 16 tỷ và 236 tỷ tham số.

- Dữ liệu huấn luyện bao gồm 60% mã nguồn, 10% kho ngữ liệu toán học và 30% kho ngữ liệu ngôn ngữ tự nhiên, lấy từ GitHub và CommonCrawl.

- DeepSeek-Coder-V2 có 4 biến thể: DeepSeek-Coder-V2-Instruct, DeepSeek-Coder-V2-Base, DeepSeek-Coder-V2-Lite-Base và DeepSeek-Coder-V2-Lite-Instruct, mỗi biến thể được tối ưu cho các tác vụ và nhu cầu hiệu suất cụ thể.

- Trong các đánh giá chuẩn, DeepSeek-Coder-V2 vượt trội hơn các mô hình nguồn đóng hàng đầu trong các tác vụ lập trình và toán học. Mô hình đạt điểm 90.2% trên bài kiểm tra HumanEval và 75.7% trên bài kiểm tra MATH.

- Nghiên cứu này nhấn mạnh những cải tiến đáng kể của DeepSeek-Coder-V2 trong trí tuệ mã nguồn, giải quyết khoảng cách hiệu suất giữa các mô hình mã nguồn mở và nguồn đóng.

📌 DeepSeek-Coder-V2 đánh dấu bước tiến quan trọng trong phát triển mô hình mã nguồn mở, với khả năng xử lý các tác vụ lập trình phức tạp, hỗ trợ 338 ngôn ngữ và độ dài ngữ cảnh lên đến 128K token. Mô hình đạt điểm vượt trội 90.2% trên HumanEval và 75.7% trên MATH, thể hiện tiềm năng cách mạng hóa lĩnh vực trí tuệ mã nguồn.

https://www.marktechpost.com/2024/06/18/meet-deepseek-coder-v2-by-deepseek-ai-the-first-open-source-ai-model-to-surpass-gpt4-turbo-in-coding-and-math-supporting-338-languages-and-128k-context-length/

GitHub Copilot: từ công cụ tự động hoàn thành mã đến trợ lý AI toàn diện với hệ sinh thái mở rộng

- GitHub Copilot, ban đầu được giới thiệu như một công cụ tự động hoàn thành mã dựa trên AI, đã phát triển thành một trợ lý AI toàn diện, cách mạng hóa lĩnh vực phát triển phần mềm.
- Với việc tích hợp các công cụ và dịch vụ của bên thứ ba, GitHub Copilot đang định vị mình như một thị trường sôi động của các trợ lý AI bên thứ ba.
- Điều này trao quyền cho các nhà phát triển tối ưu hóa quy trình làm việc, tăng năng suất và khai thác một loạt các chức năng chuyên biệt.
- Kể từ khi ra mắt vào năm 2021, GitHub Copilot đã thu hút sự chú ý đáng kể từ các nhà phát triển. Ban đầu được thiết kế để hỗ trợ tự động hoàn thành mã, Copilot đã mở rộng đáng kể khả năng của mình.
- Các bản cập nhật gần đây cho thấy Copilot hiện có thể tạo ra toàn bộ đoạn mã, hỗ trợ gỡ lỗi và thậm chí hiểu được các codebase phức tạp.
- Việc giới thiệu GitHub Copilot Chat càng nâng cao khả năng của nó bằng cách tích hợp GPT-4, cung cấp khả năng lập luận logic nâng cao và khả năng tạo mã.
- GitHub Marketplace hiện trưng bày một loạt Copilot Extensions, giúp các nhà phát triển dễ dàng truy cập các công cụ như Docker, Lambda Test, Stripe và MongoDB.
- Cách tiếp cận hệ sinh thái này cho phép các nhà phát triển tùy chỉnh rộng rãi môi trường phát triển của họ, tích hợp các công cụ và dịch vụ ưa thích vào quy trình làm việc dựa trên AI của Copilot.
- Các tiện ích mở rộng này tương thích với GitHub Copilot chat trên GitHub.com, Visual Studio và Visual Studio Code.
- Bằng cách khai thác thị trường VS Code rộng lớn, các nhà phát triển có thể mở rộng khả năng của Copilot với nhiều tiện ích mở rộng khác nhau.
- Điều này không chỉ nâng cao chức năng mà còn giúp Copilot phù hợp với chiến lược của Microsoft trong việc tạo ra các hệ sinh thái thịnh vượng xung quanh sản phẩm của họ.
- Việc tích hợp với các công cụ khác của Microsoft như Azure càng làm tăng tiện ích của Copilot, cho phép chuyển đổi liền mạch giữa viết mã, kiểm thử và triển khai.

📌 GitHub Copilot đã phát triển vượt bậc từ một công cụ tự động hoàn thành mã thành trợ lý AI toàn diện với hệ sinh thái mở rộng. Nó tích hợp nhiều công cụ, dịch vụ của bên thứ ba, hỗ trợ gỡ lỗi, tạo mã với GPT-4, tương thích VS Code extensions, giúp tối ưu quy trình, tăng năng suất cho nhà phát triển, đồng thời phù hợp chiến lược xây dựng hệ sinh thái của Microsoft.

https://www.forbes.com/sites/janakirammsv/2024/06/19/how-github-copilot-evolved-with-enhanced-ai-and-ecosystem-expansion/

Lamini AI đạt 95% độ chính xác và giảm 90% ảo giác trong mô hình ngôn ngữ lớn

- Lamini AI đã giới thiệu Lamini Memory Tuning, một kỹ thuật đột phá trong các mô hình ngôn ngữ lớn (LLMs), nâng cao độ chính xác lên 95% và giảm ảo giác từ 50% xuống chỉ còn 5%.
- Kỹ thuật này sử dụng hàng triệu bộ điều chỉnh chuyên gia (như Low-Rank Adapters hoặc LoRAs) với các sự kiện chính xác trên bất kỳ LLM nguồn mở nào, như Llama 3 hoặc Mistral 3.
- Lamini Memory Tuning nhúng các sự kiện vào mô hình để truy xuất thông tin liên quan nhất trong quá trình suy luận, giảm đáng kể độ trễ và chi phí trong khi duy trì độ chính xác và tốc độ cao.
- Một công ty Fortune 500 đã sử dụng Lamini Memory Tuning để đạt được độ chính xác 95% trong các ứng dụng quan trọng, so với 50% của các phương pháp trước đó.
- Các phương pháp truyền thống như Prompting và Retrieval-Augmented Generation (RAG) cải thiện độ chính xác của LLM nhưng không loại bỏ hoàn toàn ảo giác.
- Lamini Memory Tuning kết hợp các kỹ thuật truy xuất thông tin với AI, dạy mô hình rằng câu trả lời gần đúng cũng sai như câu trả lời hoàn toàn sai.
- Kỹ thuật này tạo ra một hỗn hợp lớn các chuyên gia trí nhớ (MoMEs) tương tự như các chỉ số chuyên biệt trong hệ thống truy xuất thông tin, được chọn động trong quá trình suy luận.
- Kết quả là một mô hình kích hoạt thưa thớt có khả năng mở rộng đến nhiều tham số trong khi duy trì chi phí suy luận thấp, mở rộng ứng dụng thực tế của LLMs vào các lĩnh vực trước đây bị cản trở bởi ảo giác.
- Lamini Memory Tuning hứa hẹn độ chính xác cao hơn, chi phí thấp hơn và chu kỳ phát triển nhanh hơn, cho phép áp dụng và triển khai rộng rãi trong nhiều ngành công nghiệp.

📌 Lamini Memory Tuning của Lamini AI đạt 95% độ chính xác và giảm 90% ảo giác trong các mô hình ngôn ngữ lớn, mở ra tiềm năng cho các giải pháp AI tự động và chính xác cao trong nhiều ngành công nghiệp.

https://www.marktechpost.com/2024/06/17/lamini-ais-memory-tuning-achieves-95-accuracy-and-reduces-hallucinations-by-90-in-large-language-models/

Allen Institute for AI phát hành bộ Tulu 2.5: Mô hình AI tiên tiến với DPO và PPO

- Bộ Tulu 2.5 của Allen Institute for AI đánh dấu bước tiến quan trọng trong huấn luyện mô hình sử dụng Direct Preference Optimization (DPO) và Proximal Policy Optimization (PPO).
- Bộ bao gồm các mô hình đa dạng được huấn luyện trên nhiều bộ dữ liệu để cải thiện mô hình phần thưởng và giá trị, nhằm nâng cao hiệu suất của mô hình ngôn ngữ trong tạo văn bản, tuân thủ hướng dẫn và lập luận.
- Các biến thể nổi bật: Tulu 2.5 PPO 13B UF Mean 70B UF RM (mô hình tốt nhất), Tulu 2.5 PPO 13B Chatbot Arena 2023 (cải thiện khả năng chatbot), Tulu 2.5 DPO 13B StackExchange 60K (sử dụng 60.000 mẫu từ StackExchange), Tulu 2.5 DPO 13B Nectar 60K (sử dụng dữ liệu tổng hợp chất lượng cao), Tulu 2.5 PPO 13B HH-RLHF 60K (sử dụng phản hồi chi tiết từ con người), Tulu 2.5 DPO 13B PRM Phase 2 (cải thiện lập luận toán học), Tulu 2.5 DPO 13B HelpSteer (cải thiện tính hữu ích và rõ ràng).
- Thành phần chính và phương pháp huấn luyện: Dữ liệu ưu tiên (prompt, phản hồi, xếp hạng), DPO (tối ưu hóa trực tiếp trên dữ liệu ưu tiên), PPO (huấn luyện mô hình phần thưởng rồi tối ưu hóa chính sách), mô hình phần thưởng và giá trị.
- Đánh giá hiệu suất trên nhiều tiêu chuẩn: tính xác thực, lập luận, mã hóa, tuân thủ hướng dẫn, an toàn. Mô hình PPO vượt trội hơn DPO.
- Cải tiến đáng chú ý: Tuân thủ hướng dẫn và tính trung thực tốt hơn, khả năng mở rộng với mô hình phần thưởng lên tới 70 tỷ tham số, dữ liệu tổng hợp như UltraFeedback rất hiệu quả.

📌 Bộ Tulu 2.5 của Allen Institute for AI đại diện cho bước tiến đáng kể trong học tập dựa trên sở thích cho các mô hình ngôn ngữ. Với các phương pháp huấn luyện tiên tiến và sử dụng các bộ dữ liệu chất lượng cao, bộ này thiết lập tiêu chuẩn mới cho hiệu suất và độ tin cậy của mô hình AI, mở ra tiềm năng ứng dụng rộng rãi trong tạo văn bản, lập luận, mã hóa và nhiều lĩnh vực khác.

https://www.marktechpost.com/2024/06/16/allen-institute-for-ai-releases-tulu-2-5-suite-on-hugging-face-advanced-ai-models-trained-with-dpo-and-ppo-featuring-reward-and-value-models/

OpenVLA: mô hình nguồn mở 7B tham số đặt ra tiêu chuẩn mới cho chính sách thao tác robot

- OpenVLA là một mô hình VLA nguồn mở 7B tham số, đặt ra tiêu chuẩn mới cho các chính sách thao tác robot, do các nhà nghiên cứu từ Stanford, UC Berkeley, Toyota Research Institute, Google Deepmind và MIT đề xuất.
- OpenVLA bao gồm một mô hình ngôn ngữ điều kiện trực quan được tiền huấn luyện, nắm bắt các chi tiết trực quan ở nhiều cấp độ khác nhau. Nó được tinh chỉnh trên tập dữ liệu lớn và đa dạng gồm 970k quỹ đạo thao tác robot từ tập dữ liệu Open-X Embodiment.
- OpenVLA vượt trội hơn mô hình hàng đầu trước đó, RT-2-X 55B tham số, với 16,5% tỷ lệ thành công tuyệt đối trên 29 tác vụ trên nền tảng WidowX và Google Robot.
- Các chính sách OpenVLA hoạt động tốt hơn các chính sách được tiền huấn luyện và tinh chỉnh như Octo. Để huấn luyện OpenVLA, khung VLM Prismatic-7B được tiền huấn luyện để dự đoán các hành động của robot.
- Cả hai phiên bản của Diffusion Policy đều tốt bằng hoặc vượt trội hơn các chính sách tổng quát Octo và OpenVLA cho các tác vụ đơn giản hơn chỉ cần một hướng dẫn. Tuy nhiên, đối với các tác vụ tinh chỉnh phức tạp hơn liên quan đến nhiều đối tượng và cần hướng dẫn ngôn ngữ, các chính sách tổng quát được tiền huấn luyện hoạt động tốt hơn.
- OpenVLA là cách tiếp cận duy nhất đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm, khiến nó trở thành một lựa chọn mặc định mạnh mẽ cho các tác vụ học bắt chước, đặc biệt là những tác vụ liên quan đến nhiều hướng dẫn ngôn ngữ khác nhau.

📌 OpenVLA, một mô hình nguồn mở tiên tiến với 7 tỷ tham số, thể hiện hiệu suất vượt trội trong việc điều khiển nhiều loại robot ngay từ đầu. Phương pháp này có thể dễ dàng thích ứng với các thiết lập robot mới thông qua các kỹ thuật tinh chỉnh tham số hiệu quả, đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm. Tuy nhiên, OpenVLA hiện chỉ hỗ trợ quan sát hình ảnh đơn lẻ, và cần được mở rộng để hỗ trợ nhiều đầu vào hình ảnh, cảm nhận vị trí và lịch sử quan sát.

https://www.marktechpost.com/2024/06/16/openvla-a-7b-parameter-open-source-vla-setting-new-state-of-the-art-for-robot-manipulation-policies/

Tương lai của AI với 700.000 mô hình ngôn ngữ lớn trên Hugging Face

- Nhiều người dùng Reddit cho rằng 99% trong số 700.000 mô hình ngôn ngữ lớn (LLM) trên Hugging Face là vô dụng và sẽ bị xóa theo thời gian. Nhiều mô hình chỉ là bản sao hoặc chỉnh sửa nhẹ từ các mô hình gốc.

- Một người dùng chia sẻ câu chuyện cá nhân về việc tạo ra mô hình với dữ liệu không đầy đủ, cho thấy nhiều mô hình là kết quả của các nghiên cứu tùy tiện hoặc kém chất lượng tương tự. Điều này đặt ra vấn đề về kiểm soát chất lượng và yêu cầu phương pháp quản lý có tổ chức hơn.

- Một số người lập luận rằng sự nhân rộng mô hình là thành phần quan trọng của quá trình thử nghiệm. Mặc dù lộn xộn, phương pháp này là cần thiết cho sự phát triển của AI, giúp các nhà nghiên cứu tạo ra các LLM chuyên biệt và phức tạp hơn.

- Nhiều người bày tỏ sự không hài lòng với quy trình đánh giá mô hình trên Hugging Face. Sự thiếu hệ thống phân loại và sắp xếp mạnh mẽ khiến việc tìm kiếm mô hình chất lượng cao trở nên khó khăn. 

- Một người dùng đề xuất hệ thống chấm điểm tương đối giữa các mô hình, tương tự như bài kiểm tra trí thông minh, cho phép đánh giá linh hoạt và năng động hơn về hiệu suất mô hình.

- Giá trị của mô hình học sâu thường giảm nhanh chóng khi xuất hiện các mô hình mới tốt hơn. Do đó, cần tạo ra môi trường năng động buộc các mô hình phải liên tục thay đổi để duy trì tính phù hợp.

📌 Sự gia tăng 700.000 LLM trên Hugging Face cho thấy những thách thức và cơ hội đối với cộng đồng AI. Thời kỳ thử nghiệm mạnh mẽ này là cần thiết cho sự tiến bộ, nhưng đòi hỏi cải thiện quản lý, đánh giá và tiêu chuẩn hóa. Cần cân bằng giữa thúc đẩy đổi mới và duy trì chất lượng khi lĩnh vực AI phát triển.

https://www.marktechpost.com/2024/06/15/with-700000-large-language-models-llms-on-hugging-face-already-where-is-the-future-of-artificial-intelligence-ai-headed/

Gretel AI phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên HuggingFace 🤗 cho các nhà phát triển AI

- Gretel AI đã phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên nền tảng HuggingFace 🤗 để hỗ trợ các nhà phát triển AI trong việc phát hiện thông tin nhận dạng cá nhân (PII).
- Bộ dữ liệu bao gồm 55.940 bản ghi, trong đó 50.776 mẫu dùng để huấn luyện và 5.164 mẫu dùng để kiểm tra.
- Dữ liệu đa dạng với 100 định dạng tài liệu tài chính khác nhau, mỗi loại có 20 tiểu loại cụ thể.
- Chứa 29 loại PII khác nhau, phù hợp với trình tạo thư viện Python Faker để dễ dàng phát hiện và thay thế.
- Độ dài trung bình của tài liệu là 1.357 ký tự.
- Hỗ trợ đa ngôn ngữ: Tiếng Anh, Tây Ban Nha, Thụy Điển, Đức, Ý, Hà Lan và Pháp.
- Sử dụng kỹ thuật "LLM-as-a-Judge" với mô hình ngôn ngữ Mistral-7B để đảm bảo chất lượng dữ liệu.
- Bộ dữ liệu có thể được sử dụng để huấn luyện các mô hình NER, kiểm tra hệ thống quét PII, đánh giá hệ thống khử nhận dạng và phát triển các giải pháp bảo mật dữ liệu cho ngành tài chính.

📌 Bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới của Gretel AI là một nguồn tài nguyên quý giá cho các nhà phát triển và nghiên cứu xây dựng các giải pháp phát hiện PII mạnh mẽ. Với 55.940 bản ghi đa dạng, hỗ trợ 7 ngôn ngữ và đảm bảo chất lượng cao, bộ dữ liệu này sẽ thúc đẩy sự phát triển của các hệ thống AI chính xác, công bằng và đáng tin cậy hơn trong lĩnh vực tài chính.

https://www.marktechpost.com/2024/06/13/gretel-ai-releases-a-new-multilingual-synthetic-financial-dataset-on-huggingface-%F0%9F%A4%97-for-ai-developers-tackling-personally-identifiable-information-pii-detection/

SEA-LION - mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á

- SEA-LION là mô hình ngôn ngữ lớn (LLM) mã nguồn mở do AI Singapore (AISG) phát triển, tập trung vào ngôn ngữ và văn hóa Đông Nam Á.
- Mô hình hiện chạy trên 2 phiên bản: 3 tỷ tham số và 7 tỷ tham số, được huấn luyện trên 981 tỷ token ngôn ngữ, bao gồm 623 tỷ token tiếng Anh, 128 tỷ token Đông Nam Á và 91 tỷ token tiếng Trung.
- 13% dữ liệu đằng sau SEA-LION tập trung vào Đông Nam Á, trong khi Llama 2 của Meta chỉ chứa 0.5%.
- AISG dự kiến phát hành mô hình 7 tỷ tham số mới vào giữa năm 2024 và các mô hình 13 tỷ và 30 tỷ tham số sau đó trong năm nay.
- Mục tiêu là cải thiện hiệu suất của LLM với các mô hình lớn hơn, có khả năng tạo ra các kết nối tốt hơn, có khả năng nhắc nhở zero-shot và hiểu ngữ cảnh mạnh mẽ hơn về các nét đặc trưng của khu vực.
- Singapore cũng đang tìm cách giải quyết sự thiếu hụt các tiêu chuẩn mạnh mẽ để đánh giá hiệu quả của mô hình AI và phát triển các chỉ số để xác định sự thiên vị trong các LLM tập trung vào châu Á.
- Trung Quốc hiện dẫn đầu với hơn 200 mô hình nền tảng. Các mô hình khác cũng đang nhanh chóng xuất hiện trên khắp khu vực.
- Đối với hầu hết các doanh nghiệp, việc mua các mô hình nền tảng từ các nhà cung cấp bên ngoài sẽ là chuẩn mực. Khả năng thích ứng của mô hình đối với nhu cầu kinh doanh cụ thể và tính khả dụng tại địa phương trong khu vực đặc biệt quan trọng.
- Các tổ chức nên có cái nhìn toàn diện khi đánh giá các mô hình nền tảng và duy trì cách tiếp cận tiệm tiến trong việc áp dụng AI tạo sinh.
- Ấn Độ cũng đang tìm cách xây dựng mô hình nền tảng của riêng mình để hỗ trợ tốt hơn các yêu cầu độc đáo của mình.
- Hầu hết các tổ chức ở khu vực sẽ áp dụng cách tiếp cận lai, tận dụng cả mô hình nền tảng châu Á - Thái Bình Dương và Hoa Kỳ để cung cấp năng lượng cho nền tảng AI của họ.

📌 SEA-LION là mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á với 981 tỷ token ngôn ngữ, trong đó 13% dữ liệu tập trung vào khu vực. AISG đang phát triển các mô hình lớn hơn lên đến 30 tỷ tham số và các tiêu chuẩn mới để đánh giá hiệu quả, giải quyết sự thiếu hụt và thiên vị trong các LLM hiện tại.

https://www.zdnet.com/article/singapore-is-among-asian-nations-championing-need-for-more-inclusive-ai-models/

GenAI-Arena: đánh giá mô hình AI tạo sinh đa dạng qua bình chọn cộng đồng

- GenAI-Arena là nền tảng mở vững chắc, cho phép đánh giá công bằng các mô hình AI tạo sinh thông qua bình chọn của người dùng.
- Nền tảng hỗ trợ nhiều tác vụ như tạo ảnh từ văn bản, chỉnh sửa ảnh theo văn bản và tạo video từ văn bản.
- Người dùng có thể tạo ảnh, so sánh các mô hình và bình chọn ẩn danh cho mô hình ưa thích.
- Hệ thống xếp hạng phản ánh sở thích của con người, đánh giá toàn diện khả năng của mô hình.
- GenAI-Arena là nền tảng đánh giá đầu tiên hỗ trợ đầy đủ nhiều thuộc tính, quy trình bình chọn công khai, đảm bảo tính minh bạch.
- Nền tảng đã thu thập hơn 6.000 phiếu bầu cho 3 tác vụ tạo sinh đa phương thức, xây dựng bảng xếp hạng cho từng tác vụ, xác định các mô hình tiên tiến nhất.
- Đối với tác vụ tạo ảnh, các mô hình Playground V2.5 và V2 dẫn đầu, vượt trội hơn đáng kể so với SDXL thứ 7 nhờ dữ liệu huấn luyện riêng.
- Đối với tác vụ chỉnh sửa ảnh, MagicBrush, InFEdit, CosXLEdit cho phép chỉnh sửa cục bộ xếp hạng cao hơn.
- Trong tác vụ tạo video từ văn bản, T2VTurbo dẫn đầu với điểm Elo cao nhất, theo sau là StableVideoDiffusion, VideoCrafter2, AnimateDiff.
- Nghiên cứu công bố dữ liệu sở thích của con người chất lượng cao GenAI-Bench, cho thấy các mô hình ngôn ngữ đa phương thức hiện tại tương quan kém với đánh giá của con người.

📌 GenAI-Arena là nền tảng mở dựa trên bình chọn cộng đồng để xếp hạng các mô hình tạo sinh trên nhiều tác vụ. Với hơn 6.000 phiếu bầu từ tháng 2 đến tháng 6 năm 2024, các bảng xếp hạng Elo đã xác định những mô hình tiên tiến nhất. Phân tích cũng chỉ ra sự tương quan kém giữa các mô hình ngôn ngữ đa phương thức hiện có với đánh giá của con người về chất lượng nội dung được tạo ra.

https://www.marktechpost.com/2024/06/12/genai-arena-an-open-platform-for-community-based-evaluation-of-generative-ai-models/

Yandex của Nga phát hành công cụ AI miễn phí giúp tiết kiệm hàng chục triệu USD huấn luyện LLM

- Yandex, gã khổng lồ công nghệ của Nga, đã phát hành một công cụ mã nguồn mở mới có tên YaFSDP nhằm giúp các công ty AI tiết kiệm tiền và tài nguyên khi huấn luyện các mô hình mới.
- Công cụ YaFSDP có thể cung cấp khả năng huấn luyện mô hình ngôn ngữ lớn (LLM) nhanh hơn và hiệu quả hơn, tiết kiệm tới 20% tài nguyên GPU, giúp tiết kiệm tiền và thời gian.
- Yandex ước tính việc sử dụng YaFSDP để huấn luyện một mô hình với 70 tỷ tham số có thể tiết kiệm tài nguyên của khoảng 150 GPU, tương đương từ 0.5 đến 1.5 triệu USD tiền thuê GPU hàng tháng.
- Sử dụng các mô hình Llama của Meta, Yandex cho biết tốc độ tăng cuối cùng là 21% và 26% trên Llama 2 70B và Llama 3 70B.
- YaFSDP không phải là sản phẩm AI đầu tiên của Yandex. Trước đó, họ đã phát hành CatBoost, YTsaurus, AQLM và Petals, mỗi sản phẩm xử lý một lĩnh vực khác nhau trong phát triển AI.
- Động thái của Yandex diễn ra sau khi họ phải thoái vốn khỏi Nga sau cuộc chiến Ukraine, bán mảng kinh doanh trong nước cho ban quản lý trước đó của họ ở Nga.

📌 Yandex đã phát hành công cụ mã nguồn mở YaFSDP giúp tiết kiệm tới 20% tài nguyên GPU và 0.5-1.5 triệu USD chi phí hàng tháng khi huấn luyện các mô hình ngôn ngữ lớn. Công cụ này cung cấp tốc độ huấn luyện nhanh hơn 21-26% so với phiên bản trước, mở ra tiềm năng to lớn cho các công ty phát triển AI.

https://www.techradar.com/pro/russias-largest-tech-company-just-released-a-free-ai-tool-that-could-save-microsoft-google-and-facebook-tens-of-millions-of-dollars

Hoàn thành tác vụ phức tạp với AI agents của Microsoft AutoGen

- AutoGen của Microsoft sử dụng quy trình đa tác tử để thực hiện các tác vụ phức tạp bằng cách tận dụng sức mạnh của các mô hình nền tảng lớn.
- Nền tảng chia nhỏ các vấn đề phức tạp thành các thành phần có thể quản lý được và giao vai trò chuyên biệt cho từng tác tử dựa trên khả năng độc đáo của chúng.
- Các tác tử chính của AutoGen bao gồm: Trợ lý chung, Thiết bị đầu cuối máy tính, Máy chủ web và Người điều phối.
- AutoGen là một nền tảng nguồn mở, có sẵn miễn phí trên GitHub, cho phép các nhà phát triển và nhà nghiên cứu khám phá và đóng góp vào sự phát triển của hệ thống đa tác tử.
- Nền tảng đã giành được vị trí hàng đầu trên bảng xếp hạng Gaia Benchmark và thể hiện khả năng tăng gấp đôi hiệu suất trong các câu hỏi khó đòi hỏi nhiều hành động và sử dụng công cụ.
- Quy trình đa tác tử của AutoGen tuân theo một cách tiếp cận có hệ thống, bao gồm: Truy vấn ban đầu, Tạo sổ cái, Ủy quyền tác vụ, Giám sát tiến độ, Cập nhật sổ cái và Phân công lại tác vụ.
- Các phát triển trong tương lai nhằm giải quyết các bài kiểm tra phức tạp hơn và các tình huống thực tế, đẩy ranh giới của những gì có thể với hệ thống đa tác tử.

📌 AutoGen của Microsoft đại diện cho một bước tiến đáng kể trong lĩnh vực quy trình đa tác tử để thực hiện tác vụ phức tạp. Với khả năng vượt trội trong các bài kiểm tra và tiềm năng to lớn để cách mạng hóa cách tiếp cận các vấn đề phức tạp, AutoGen đang dẫn đầu xu hướng và mở ra một tương lai tươi sáng hơn bao giờ hết cho việc giải quyết tác vụ với sự hỗ trợ của AI.

https://www.geeky-gadgets.com/microsoft-ai-agents-and-autogen/

Meta giới thiệu Husky, một agent ngôn ngữ mã nguồn mở cho các tác vụ lập luận phức tạp, nhiều bước

- Các nhà nghiên cứu tại Meta, Allen Institute for AI và Đại học Washington đã giới thiệu Husky, một agent ngôn ngữ mã nguồn mở mới được thiết kế cho các tác vụ lập luận phức tạp, nhiều bước.
- Không giống như các mô hình hiện có tập trung vào các lĩnh vực cụ thể, Husky hoạt động trên một không gian hành động thống nhất, có thể xử lý các thử thách đa dạng như lập luận số, bảng và dựa trên kiến thức.
- Husky lặp lại giữa việc tạo ra các hành động để giải quyết tác vụ và thực thi các hành động này bằng cách sử dụng các mô hình chuyên gia, liên tục cập nhật trạng thái giải pháp của nó.
- Quá trình lặp lại này đã được chứng minh là một điểm khác biệt quan trọng, cho phép Husky vượt trội hơn các agent trước đó trên 14 bộ dữ liệu được sử dụng để đánh giá.
- Một trong những đổi mới chính của Husky là khả năng quản lý lập luận đa công cụ. Nó xuất sắc trong các tác vụ đòi hỏi truy xuất kiến thức còn thiếu và thực hiện các phép tính số, đạt được hiệu suất ngang bằng hoặc vượt trội hơn các mô hình tiên tiến nhất như GPT-4.
- Các nhà nghiên cứu cũng đã giới thiệu HuskyQA, một bộ đánh giá được thiết kế đặc biệt để stress test các agent ngôn ngữ trên các tác vụ lập luận đa công cụ, đặc biệt là để thực hiện lập luận số và truy xuất kiến thức còn thiếu.
- Các agent ngôn ngữ thực hiện các tác vụ phức tạp bằng cách sử dụng các công cụ để thực hiện từng bước một cách chính xác. Tuy nhiên, hầu hết các agent hiện có đều dựa trên các mô hình độc quyền hoặc được thiết kế để nhắm mục tiêu các tác vụ cụ thể, chẳng hạn như toán học hoặc trả lời câu hỏi nhiều bước.
- Mặc dù các agent AI đã thu hút sự chú ý đáng kể trong vài năm qua, việc giới thiệu một agent có khả năng lập luận trên một số tác vụ phức tạp có nghĩa là khả năng của agent đang mở rộng nhanh chóng.

📌 Husky, một agent ngôn ngữ mã nguồn mở mới của Meta AI, có khả năng xử lý các tác vụ lập luận phức tạp và đa dạng nhờ không gian hành động thống nhất. Với khả năng lập luận đa công cụ vượt trội, đặc biệt trong các tác vụ đòi hỏi truy xuất kiến thức và tính toán số, Husky đã vượt qua 14 bộ dữ liệu đánh giá và đạt hiệu suất ngang bằng hoặc cao hơn các mô hình tiên tiến như GPT-4.

https://analyticsindiamag.com/meta-ai-unveils-husky-a-unified-open-source-language-agent/

Chúng ta cần một Red Hat cho AI

- Theo khảo sát của Wakefield, 91% lãnh đạo dữ liệu đang xây dựng ứng dụng AI, nhưng 2/3 trong số đó nói rằng họ không tin tưởng dữ liệu của mình cho các mô hình ngôn ngữ lớn (LLMs).

- Để thành công, chúng ta cần vượt qua sự thổi phồng gây nhầm lẫn và giúp các doanh nghiệp hiểu rõ về AI. Chúng ta cần nhiều niềm tin hơn (mô hình mở) và ít thành phần di chuyển hơn (nền tảng có ý kiến đòi hỏi phải đoán và áp dụng mô hình).

- Mô hình kinh doanh của Red Hat hoạt động vì sự phức tạp của công nghệ mà họ làm việc. Khách hàng sẵn sàng trả tiền để được cách ly khỏi sự phức tạp đó. Red Hat tạo ra một bản phân phối Linux, chọn các gói nhất định và sau đó kiểm tra/làm cứng bản phân phối đó cho khách hàng.

- Quá trình giải mã Linux này, kết hợp với mã nguồn mở tạo ra sự tin tưởng vào mã, đã biến Red Hat thành một doanh nghiệp trị giá hàng tỷ đô la. Thị trường cần một cái gì đó tương tự cho AI.

- OpenAI không phải là giải pháp. Nó chỉ tiếp tục làm trầm trọng thêm vấn đề với các mô hình ngày càng tăng. Các doanh nghiệp đang bắt đầu tránh xa sự thổi phồng và thực hiện nhiều công việc bình thường, hữu ích hơn với tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).

- Các nhà cung cấp đám mây vẫn giữ nguyên kịch bản hiện có của họ. AWS cung cấp "Broad Model Choice and Generative AI Tools" trên Amazon Bedrock, nhưng hầu hết các doanh nghiệp ngày nay không cần "sự lựa chọn rộng rãi" mà là sự lựa chọn có ý nghĩa với hướng dẫn.

📌 Thị trường AI đang ở đỉnh cao của sự thổi phồng nhưng chưa đạt đỉnh cao về năng suất. Để thành công, chúng ta cần một "Red Hat cho AI" - một công ty có thể giúp các doanh nghiệp hiểu rõ và sử dụng AI một cách hiệu quả, thông qua việc cung cấp các mô hình mở và nền tảng có ý kiến, thay vì sự lựa chọn quá rộng rãi và phức tạp như hiện nay.

https://www.infoworld.com/article/3715358/we-need-a-red-hat-for-ai.html

Huawei đặt cược lớn vào việc triển khai đám mây và AI với bản phát hành openEuler 24.03 LTS

- openEuler 24.03 LTS là bản phát hành mới nhất của hệ điều hành Linux nguồn mở openEuler, được phát triển bởi gã khổng lồ công nghệ Huawei và quản lý dưới tổ chức phi lợi nhuận OpenAtom.
- Phiên bản này thể hiện tham vọng lớn của Huawei trong lĩnh vực điện toán đám mây, điện toán biên (edge computing), trí tuệ nhân tạo (AI) và các ứng dụng nhúng.
- openEuler 24.03 LTS được Huawei hỗ trợ dài hạn trong 4 năm, dựa trên nhân Linux 6.6, cho phép người dùng cài đặt thủ công các môi trường desktop như UKUI, GNOME, Deepin, Kiran-desktop và Xfce.
- Huawei cung cấp hỗ trợ phần cứng đa dạng từ Intel, AMD, Zhaoxin, Hygon, Kunpeng, Loongson, ShenWei, Sophgo và nhiều hãng khác, bao gồm các kiến trúc CPU phổ biến như x86, ARM, SW64 và RISC-V.
- openEuler Software Center do Huawei giới thiệu, cho phép người dùng dễ dàng cài đặt ứng dụng mới và cập nhật các ứng dụng hiện có.
- Huawei tích hợp trợ lý ảo EulerCopilot dựa trên AI, hỗ trợ sinh mã, phân tích vấn đề và hỗ trợ vận hành, bảo trì hệ thống.
- Bộ ứng dụng đầy đủ từ Huawei gồm Firefox, Terminal, Calculator, Text Editor, Disks, Screenshot Tool và ứng dụng Help Manual.
- Người dùng có thể tìm hiểu sâu hơn về tầm nhìn của Huawei với bản phát hành này thông qua tài liệu white paper.

📌 openEuler 24.03 LTS cho thấy tham vọng lớn của Huawei trong việc thúc đẩy hệ điều hành nguồn mở openEuler, mang đến nhiều đột phá cho điện toán đám mây, AI và các ứng dụng nhúng. Với sự hỗ trợ mạnh mẽ từ Huawei về phần cứng, tích hợp trợ lý ảo thông minh cùng openEuler Software Center tiện lợi, phiên bản này hứa hẹn trải nghiệm an toàn, đáng tin cậy cho người dùng trong 4 năm tới, đồng thời khẳng định vị thế của Huawei trong lĩnh vực phần mềm nguồn mở.

https://news.itsfoss.com/openeuler-24-03-lts/

https://www.openeuler.org/whitepaper/en/openEuler%2024.03%20LTS%20Technical%20White%20Paper.pdf?ref=news.itsfoss.com

Zyphra ra mắt bộ dữ liệu huấn luyện AI Zyda 1.3 nghìn tỷ token, cải thiện hiệu suất LLM

- Zyphra Technologies Inc., được hỗ trợ bởi Intel Capital, ra mắt Zyda - một bộ dữ liệu huấn luyện AI gồm 1,3 nghìn tỷ token, giúp các nhà nghiên cứu xây dựng các mô hình ngôn ngữ lớn (LLM).
- Zyda tổng hợp thông tin từ 7 bộ dữ liệu mã nguồn mở, được lọc bỏ nội dung vô nghĩa, trùng lặp và có hại bằng các kịch bản tùy chỉnh và ngưỡng an toàn.
- Quá trình lọc dữ liệu diễn ra qua 2 giai đoạn: loại bỏ văn bản vô nghĩa do lỗi định dạng và xóa nội dung có hại dựa trên các tiêu chí văn bản.
- Zyphra cũng loại bỏ các tài liệu trùng lặp trong từng bộ dữ liệu và giữa 7 bộ dữ liệu với nhau, giúp nén Zyda từ 2 nghìn tỷ token xuống còn 1,4 nghìn tỷ.
- Chất lượng của Zyda được kiểm tra bằng cách sử dụng nó để huấn luyện mô hình ngôn ngữ nội bộ Zamba (7 tỷ tham số) trên 128 card đồ họa Nvidia H100.
- Zamba sử dụng kiến trúc Mamba đơn giản hơn Transformer, kết hợp với lớp attention giúp ưu tiên thông tin quan trọng.
- Zamba vượt trội hơn Llama 2 7B của Meta và một số mô hình ngôn ngữ mã nguồn mở khác, mặc dù được huấn luyện trên lượng dữ liệu ít hơn.

📌 Zyda - bộ dữ liệu huấn luyện AI 1,3 nghìn tỷ token của Zyphra - giúp đơn giản hóa việc xây dựng LLM bằng cách lọc bỏ nội dung vô nghĩa, trùng lặp và có hại. Mô hình Zamba được huấn luyện trên Zyda đã vượt trội hơn nhiều LLM mã nguồn mở khác với lượng dữ liệu ít hơn.

https://siliconangle.com/2024/06/07/zyphra-debuts-zyda-llm-training-dataset-1-3t-tokens/

GLM-4 9B của Đại học Thanh Hoa: mô hình ngôn ngữ trội hơn GPT-4, Gemini Pro, Mistral và Llama 3 8B

- GLM-4 9B là mô hình ngôn ngữ mạnh mẽ được phát triển bởi nhóm Tsinghua Deep Model (THUDM) của Đại học Tsinghua (Thanh Hoa).
- Mô hình được huấn luyện trên 10 nghìn tỷ token bao gồm 26 ngôn ngữ, hỗ trợ đa dạng khả năng như đối thoại đa vòng bằng tiếng Trung và tiếng Anh, thực thi mã, duyệt web và gọi công cụ tùy chỉnh thông qua Function Call.
- Kiến trúc của GLM-4 9B dựa trên các tiến bộ mới nhất trong deep learning, tích hợp các kỹ thuật tiên tiến như cơ chế attention và kiến trúc transformer.
- Phiên bản cơ sở hỗ trợ cửa sổ ngữ cảnh lên đến 128.000 token, trong khi biến thể chuyên biệt cho phép độ dài ngữ cảnh ấn tượng 1 triệu token.
- GLM-4 9B nổi bật với khả năng hỗ trợ các tác vụ thị giác độ phân giải cao (lên đến 1198 x 1198 pixel) và xử lý đa dạng ngôn ngữ.
- Đánh giá trên nhiều bộ dữ liệu cho thấy GLM-4 9B vượt trội hơn mọi mô hình hiện có về độ chính xác tổng thể, vượt qua GPT-4, Gemini Pro (trong tác vụ thị giác), Mistral và Llama 3 8B.
- GLM-4 9B là mã nguồn mở và cho phép sử dụng thương mại (với một số điều kiện nhất định), mang lại nhiều cơ hội cho nhà phát triển, nhà nghiên cứu và doanh nghiệp.
- Các ứng dụng tiềm năng bao gồm xử lý ngôn ngữ tự nhiên, thị giác máy tính, tạo mã, v.v. Tích hợp liền mạch với thư viện Transformers giúp đơn giản hóa việc áp dụng và triển khai mô hình.

📌 GLM-4 9B của Đại học Thanh Hoa đánh dấu bước tiến quan trọng trong lĩnh vực mô hình ngôn ngữ với hiệu suất ấn tượng, khả năng đa ngôn ngữ và kiến trúc linh hoạt. Mô hình này thiết lập tiêu chuẩn mới cho các mô hình ngôn ngữ nguồn mở, mở đường cho những tiến bộ xa hơn trong xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

https://www.marktechpost.com/2024/06/05/meet-tsinghua-universitys-glm-4-9b-chat-1m-an-outstanding-language-model-challenging-gpt-4v-gemini-pro-on-vision-mistral-and-llama-3-8b/

Qwen2 với 5 kích thước từ 0.5B đến 72B tham số, hỗ trợ 27 ngôn ngữ, hiệu suất vượt trội

- Qwen AI giới thiệu dòng mô hình ngôn ngữ Qwen2 gồm 5 kích cỡ từ 0.5B đến 72B tham số, được huấn luyện trên dữ liệu 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung.
- Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá chuẩn, đặc biệt cải thiện đáng kể khả năng lập trình và toán học. Qwen2-72B vượt trội hơn Qwen1.5-110B dù có ít tham số hơn.
- Các mô hình hỗ trợ chiều dài ngữ cảnh lên đến 128,000 token với Qwen2-7B-Instruct và Qwen2-72B-Instruct. Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin trong ngữ cảnh 128k token.
- Qwen2 được đánh giá cao về khả năng xử lý an toàn các truy vấn không an toàn đa ngôn ngữ, tương đương GPT-4 và vượt trội hơn Mistral-8x22B.
- Các mô hình Qwen2 đã được mở mã nguồn trên Hugging Face và ModelScope. Qwen2-72B vẫn sử dụng giấy phép Qianwen, các mô hình còn lại chuyển sang Apache 2.0 để thúc đẩy ứng dụng và thương mại hóa.
- Trong tương lai, Qwen AI sẽ huấn luyện các mô hình Qwen2 lớn hơn, mở rộng sang đa phương thức (vision, audio) và tiếp tục mở mã nguồn để thúc đẩy phát triển AI nguồn mở.

📌 Qwen AI đã ra mắt dòng mô hình ngôn ngữ Qwen2 với 5 kích thước từ 0.5B đến 72B tham số, hỗ trợ 27 ngôn ngữ. Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá, đặc biệt trong lập trình, toán học và xử lý ngữ cảnh dài lên đến 128,000 token. Các mô hình lớn như Qwen2-72B vượt trội hơn cả Qwen1.5-110B. Qwen2 cũng được đánh giá cao về khả năng xử lý an toàn, tương đương GPT-4. Hầu hết các mô hình Qwen2 đã được mở mã nguồn để thúc đẩy phát triển và ứng dụng AI nguồn mở. Trong tương lai, Qwen AI sẽ tiếp tục mở rộng Qwen2 lên các mô hình lớn hơn và hỗ trợ đa phương thức.

 

https://qwenlm.github.io/blog/qwen2/

PixelsDB: công cụ phân tích dữ liệu nguồn mở cho người dùng không chuyên SQL

- PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không thành thạo SQL hoặc quản trị hệ thống tạo và gỡ lỗi các truy vấn SQL thông qua giao diện NLP.
- Các mô hình ngôn ngữ tinh vi chuyển đổi đầu vào của người dùng thành các truy vấn SQL có thể thực thi, cho phép người dùng tương tác với hệ thống và lấy thông tin dữ liệu cần thiết mà không cần nhiều kiến thức kỹ thuật.
- Các truy vấn được tạo ra sẽ được chạy bởi một công cụ truy vấn không máy chủ. PixelsDB cung cấp nhiều mức giá tùy thuộc vào mức độ khẩn cấp của truy vấn.
- Kiến trúc hệ thống được xây dựng để hỗ trợ các mức dịch vụ khác nhau thông qua thiết kế kiến trúc chuyên dụng và lập lịch tài nguyên dị nhất. Điều này cho phép hệ thống tối ưu hóa chi phí tổng thể mà không ảnh hưởng đến hiệu suất của các công việc quan trọng.
- Xử lý truy vấn không máy chủ, giao diện ngôn ngữ tự nhiên và các mức dịch vụ và giá cả tùy chỉnh của PixelsDB sẽ cải thiện đáng kể trải nghiệm người dùng trong phân tích dữ liệu.

📌 PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không chuyên SQL khám phá dữ liệu hiệu quả thông qua giao diện NLP, xử lý truy vấn không máy chủ và các mức dịch vụ tùy chỉnh. Hệ thống loại bỏ rào cản kỹ thuật, cung cấp giao diện thân thiện để tạo và thực thi truy vấn, từ đó tăng tính hiệu quả và khả năng tiếp cận của phân tích dữ liệu cho người dùng phi kỹ thuật.

https://www.marktechpost.com/2024/06/06/pixelsdb-an-open-source-data-analytic-system-that-allows-users-without-sql-expertise-to-explore-data-efficiently/

Skywork Team ra mắt Skywork-MOE: 146 tỷ tham số và hiệu suất vượt trội

- Skywork Team, thuộc Kunlun Inc., đã giới thiệu Skywork-MoE, một mô hình Mixture-of-Experts (MoE) hiệu suất cao với 146 tỷ tham số và 16 chuyên gia.
- Skywork-MoE được xây dựng dựa trên kiến trúc của mô hình Skywork-13B trước đó, sử dụng các điểm kiểm tra dày đặc làm thiết lập ban đầu.
- Mô hình này tích hợp hai kỹ thuật đào tạo mới: chuẩn hóa logit cổng và hệ số mất mát phụ trợ thích ứng, nhằm nâng cao hiệu suất và hiệu quả của mô hình.
- Skywork-MoE được đào tạo từ các điểm kiểm tra dày đặc của mô hình Skywork-13B, khởi tạo từ các mô hình dày đặc đã được đào tạo trước trên 3,2 nghìn tỷ token và tiếp tục đào tạo trên thêm 2 nghìn tỷ token.
- Kỹ thuật chuẩn hóa logit cổng đảm bảo phân phối đầu ra cổng rõ ràng, tăng cường sự đa dạng của các chuyên gia. Phương pháp này bao gồm việc chuẩn hóa các đầu ra của lớp cổng trước khi áp dụng hàm softmax, giúp đạt được phân phối sắc nét và tập trung hơn.
- Hệ số mất mát phụ trợ thích ứng cho phép điều chỉnh theo từng lớp, duy trì tải cân bằng giữa các chuyên gia và ngăn chặn bất kỳ chuyên gia nào bị quá tải. Các điều chỉnh này dựa trên việc giám sát tỷ lệ rơi token và điều chỉnh các hệ số tương ứng.
- Hiệu suất của Skywork-MoE được đánh giá trên nhiều tiêu chuẩn khác nhau. Mô hình đạt 82,2 điểm trên tiêu chuẩn CEVAL và 79,5 điểm trên tiêu chuẩn CMMLU, vượt qua mô hình Deepseek-67B.
- Trên tiêu chuẩn MMLU, Skywork-MoE đạt 77,4 điểm, cạnh tranh với các mô hình có dung lượng cao hơn như Qwen1.5-72B.
- Đối với các nhiệm vụ suy luận toán học, Skywork-MoE đạt 76,1 điểm trên GSM8K và 31,9 điểm trên MATH, vượt qua các mô hình như Llama2-70B và Mixtral 8*7B.
- Skywork-MoE thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ tổng hợp mã với 43,9 điểm trên tiêu chuẩn HumanEval, vượt qua tất cả các mô hình dày đặc trong so sánh và chỉ thua kém một chút so với mô hình Deepseek-V2.
- Những kết quả này nhấn mạnh khả năng của mô hình trong việc xử lý hiệu quả các nhiệm vụ suy luận định lượng và logic phức tạp.

📌 Skywork-MoE, với 146 tỷ tham số và các phương pháp đào tạo tiên tiến, đã đạt được hiệu suất mạnh mẽ trên nhiều tiêu chuẩn, chứng minh hiệu quả của các kỹ thuật chuẩn hóa logit cổng và hệ số mất mát phụ trợ thích ứng. Mô hình này đặt ra một tiêu chuẩn mới cho hiệu quả và hiệu suất của các mô hình MoE trong xử lý ngôn ngữ quy mô lớn.

https://www.marktechpost.com/2024/06/05/skywork-team-introduces-skywork-moe-a-high-performance-mixture-of-experts-moe-model-with-146b-parameters-16-experts-and-22b-activated-parameters/

FineWeb của HuggingFace: bộ dữ liệu khổng lồ mới để huấn luyện các mô hình ngôn ngữ lớn

- HuggingFace giới thiệu FineWeb, một bộ dữ liệu toàn diện để nâng cao việc huấn luyện các mô hình ngôn ngữ lớn (LLM), với 15 nghìn tỷ token và 44TB dung lượng.
- FineWeb sử dụng 96 bản chụp CommonCrawl, một tổ chức phi lợi nhuận lưu trữ web từ năm 2007.
- Quá trình loại bỏ trùng lặp nghiêm ngặt sử dụng kỹ thuật MinHash giúp loại bỏ dữ liệu dư thừa, cải thiện hiệu suất mô hình.
- Các chiến lược lọc tiên tiến được áp dụng để loại bỏ nội dung chất lượng thấp, bao gồm phân loại ngôn ngữ, lọc URL, loại bỏ tài liệu có quá nhiều nội dung mẫu hoặc không kết thúc dòng bằng dấu câu.
- FineWeb-Edu, một tập con của FineWeb, tập trung vào nội dung giáo dục, được tạo ra bằng cách sử dụng chú thích tổng hợp từ Llama-3-70B-Instruct để đánh giá giá trị học thuật của 500.000 mẫu.
- Một bộ phân loại được huấn luyện trên các chú thích này sau đó được áp dụng cho toàn bộ tập dữ liệu để lọc ra nội dung không liên quan đến giáo dục.
- FineWeb đã được thử nghiệm kỹ lưỡng với nhiều tiêu chuẩn đánh giá, liên tục vượt trội hơn các bộ dữ liệu web mở quy mô khác.
- Hiệu suất của bộ dữ liệu được xác thực thông qua một loạt các tiêu chuẩn "tín hiệu sớm" sử dụng các mô hình nhỏ.
- FineWeb-Edu cho thấy sự cải thiện đáng kể, chứng minh hiệu quả của việc sử dụng chú thích tổng hợp để lọc nội dung giáo dục chất lượng cao.
- HuggingFace phát hành FineWeb đánh dấu một khoảnh khắc quan trọng trong cộng đồng khoa học mở, cung cấp cho các nhà nghiên cứu và người dùng một công cụ mạnh mẽ để huấn luyện các LLM hiệu suất cao.

📌 FineWeb, bộ dữ liệu 15 nghìn tỷ token và 44TB của HuggingFace, đặt ra tiêu chuẩn mới cho việc tiền huấn luyện các mô hình ngôn ngữ lớn. Với quá trình loại bỏ trùng lặp nghiêm ngặt và các chiến lược lọc tiên tiến, FineWeb và tập con FineWeb-Edu hứa hẹn cải thiện đáng kể hiệu suất của LLM trên nhiều tiêu chuẩn đánh giá. Việc phát hành FineWeb đánh dấu một bước tiến quan trọng trong cộng đồng khoa học mở.

https://www.marktechpost.com/2024/06/03/huggingface-releases-%F0%9F%8D%B7-fineweb-a-new-large-scale-15-trillion-tokens-44tb-disk-space-dataset-for-llm-pretraining/

các mô hình AI "mở" gây hiểu lầm, điều này nguy hiểm cho các doanh nhân như thế nào?

- Hiện nay chưa có định nghĩa rõ ràng về các mô hình LLM nguồn mở hoàn toàn và thực sự. Cần có một Khung Công tác Mở Mô hình tiêu chuẩn.
- Nhiều mô hình tự nhận là "mở", nhưng chỉ một tập hợp con các thành phần được phát hành mở và sử dụng giấy phép hạn chế cho phần còn lại.
- Sự mơ hồ xung quanh "mở" thực sự cản trở tiến trình áp dụng AI, tạo ra sản phẩm và dịch vụ cho người dùng cuối. Nó tạo ra rủi ro pháp lý cho các doanh nhân.
- Ví dụ: Một công ty khởi nghiệp AI giả định tên "yet-another-chat-bot" sử dụng mô hình ngôn ngữ được đào tạo trước "llam-stral" trong nguyên mẫu của họ, nhưng sau đó phát hiện ra rằng giấy phép cấm rõ ràng việc sử dụng thương mại và tạo các tác phẩm phái sinh.
- Điều đúng đắn cần làm là "llam-stral" tuân thủ Khung Công tác Mở Mô hình và sử dụng giấy phép mở tiêu chuẩn như Apache 2.0 cho mã và CC-BY-4.0 cho trọng số và tập dữ liệu.
- Một mô hình hoàn toàn mở sẽ phát hành tất cả các thành phần, bao gồm dữ liệu đào tạo, mã, trọng số, kiến trúc, báo cáo kỹ thuật và mã đánh giá, tất cả đều ở dạng giấy phép cho phép.
- Các thành phần thiết yếu của một mô hình AI bao gồm: Dữ liệu đào tạo, Mã tiền xử lý dữ liệu, Kiến trúc mô hình, Tham số mô hình, Mã đào tạo, Mã đánh giá, Dữ liệu đánh giá, Tài liệu mô hình và Báo cáo kỹ thuật.

📌 Việc thiếu một định nghĩa rõ ràng về tính mở của các mô hình AI đang gây ra sự mơ hồ và rủi ro pháp lý cho các doanh nhân. Cần có một khung công tác tiêu chuẩn để đánh giá tính chất mở của mô hình, trong đó một mô hình hoàn toàn mở sẽ phát hành tất cả các thành phần thiết yếu dưới các giấy phép cho phép, thúc đẩy tính minh bạch, khả năng tái tạo và hợp tác trong phát triển và ứng dụng AI.

https://www.entrepreneur.com/science-technology/why-entrepreneurs-need-to-beware-of-misleading-open-ai/472948

Chuyên gia an ninh mạng châu Âu cảnh báo AI nguồn mở là "nguy hiểm"

- Mikko Hypponen, chuyên gia an ninh mạng hàng đầu của Phần Lan, cảnh báo rằng AI nguồn mở là "nguy hiểm" và các mô hình lậu thích "ăn thịt Llama".
- Ông cho rằng lo ngại hiện tại về deepfake là quá mức, mặc dù các cuộc tấn công dựa trên AI đang xảy ra như lừa đảo tiền điện tử sử dụng deepfake của người nổi tiếng. 
- Bằng chứng về "deepfake âm thanh" đã xuất hiện nhưng chưa thấy trong thời gian thực. Công nghệ cho phép lừa đảo có chủ đích sử dụng deepfake thời gian thực nhưng chưa có bằng chứng xảy ra.
- Tội phạm có thể sử dụng AI để thực hiện "lừa đảo sâu", tự động hóa quy mô lớn các vụ lừa đảo như lừa tình.
- Mô hình nguồn đóng có xu hướng có các rào cản và hạn chế về nội dung nhất định. Mô hình nguồn mở cũng có bộ lọc nội dung và giấy phép hạn chế ứng dụng nhưng tội phạm thường không quan tâm.
- Đã có các mô hình "lậu" và phần lớn chúng "ăn thịt Llama" vì đó là mô hình nguồn mở tốt nhất.
- Hypponen đề xuất giải pháp kỹ thuật lai giữa mã nguồn mở và ứng dụng rào cản nguồn đóng, nhưng nghi ngờ liệu cộng đồng nguồn mở có chấp nhận. Ông cũng không ủng hộ quy định.
- Mã độc mang mô hình ngôn ngữ lớn là "khả thi" nhưng chưa thấy, tuy nhiên WithSecure đã thấy mã độc gọi API của mô hình ngôn ngữ lớn.
- Tự động hóa hoàn toàn các chiến dịch mã độc "lẽ ra phải xảy ra rồi, nhưng chưa". Khi điều đó xảy ra, chúng ta sẽ có AI tốt chống lại AI xấu.
- Học máy và AI đã là một phần trong kho vũ khí của các công ty an ninh trong nhiều năm và họ có lợi thế.

📌 Mikko Hypponen cảnh báo AI nguồn mở là nguy hiểm vì các mô hình lậu có thể bỏ qua các hạn chế an toàn, đặc biệt chúng thích "ăn thịt Llama". Mặc dù lo ngại về deepfake hiện tại là quá mức, nhưng tội phạm có thể sử dụng AI để tự động hóa các cuộc tấn công quy mô lớn. Các công ty an ninh đã sử dụng AI trong nhiều năm và có lợi thế khi AI tốt đối đầu với AI xấu trong tương lai.

https://thenewstack.io/open-source-ai-is-dangerous-euro-cybersec-chief-warns/

Top 12 bảng xếp hạng LLM đánh giá các mô hình AI hàng đầu

• Open LLM Leaderboard: Sử dụng Eleuther AI-Language Model Evaluation Harness để đánh giá mô hình trên 6 tác vụ, kiểm tra kỹ năng lập luận và kiến thức tổng quát.

• MTEB Leaderboard: Đánh giá embedding văn bản trên 8 tác vụ, 58 bộ dữ liệu và 112 ngôn ngữ. Cho thấy chưa có phương pháp embedding văn bản nào vượt trội trên mọi tác vụ.

• Big Code Models Leaderboard: So sánh các mô hình tạo mã đa ngôn ngữ trên HumanEval và MultiPL-E, đo lường độ chính xác, thông lượng và sử dụng bộ nhớ.

• SEAL Leaderboards: Sử dụng xếp hạng theo thang điểm Elo để so sánh hiệu suất mô hình trên nhiều bộ dữ liệu và ngôn ngữ dựa trên đánh giá của con người.

• Berkeley Function-Calling Leaderboard: Đánh giá khả năng gọi hàm và công cụ của LLM trên 2.000 cặp câu hỏi-hàm-câu trả lời đa dạng.

• Occiglot Euro LLM Leaderboard: Đánh giá mô hình trên 5 bài kiểm tra dịch, kiểm tra hiệu suất trên nhiều tác vụ và ngôn ngữ.

• LMSYS Chatbot Arena Leaderboard: Nền tảng mở xếp hạng LLM dựa trên hơn 1 triệu so sánh theo cặp của con người, sử dụng mô hình Bradley-Terry.

• Artificial Analysis LLM Performance Leaderboard: Đánh giá chất lượng và hiệu suất LLM trên các điểm cuối API serverless từ góc độ khách hàng.

• Open Medical LLM Leaderboard: Theo dõi, xếp hạng và đánh giá LLM về tác vụ trả lời câu hỏi y tế trên các bộ dữ liệu y tế đa dạng.

• Hughes Hallucination Evaluation Model Leaderboard: Đánh giá tần suất ảo giác trong tóm tắt tài liệu do LLM tạo ra bằng cách gán điểm ảo giác từ 0 đến 1.

• OpenVLM Leaderboard: Trình bày kết quả đánh giá của 63 mô hình Vision-Language trên 23 bài kiểm tra đa phương thức.

• 🤗 LLM-Perf Leaderboard: Đánh giá LLM về độ trễ, thông lượng, bộ nhớ và tiêu thụ năng lượng trên nhiều phần cứng, backend và tối ưu hóa.

📌 12 bảng xếp hạng LLM hàng đầu cung cấp đánh giá toàn diện về hiệu suất của các mô hình AI tiên tiến nhất trên nhiều tác vụ, ngôn ngữ và phần cứng. Các bảng xếp hạng này giúp theo dõi tiến bộ trong lĩnh vực, xác định các mô hình vượt trội và hướng dẫn cải tiến trong tương lai. Tính đến ngày 27/5/2024, các mô hình dẫn đầu bao gồm GPT-4, OpenFunctions-v2, Mistral-medium, Med-PaLM-2, Gemini và QwenVLPlus.

https://www.marktechpost.com/2024/06/02/top-12-trending-llm-leaderboards-a-guide-to-leading-ai-models-evaluation/

Hugging Face Spaces: kho lưu trữ các ứng dụng AI của cộng đồng tạo ra và gửi, đã bị xâm nhập.

- Hugging Face Spaces, một kho lưu trữ các ứng dụng AI do cộng đồng người dùng tạo ra và gửi, đã bị xâm nhập.
- Tin tặc có thể đã truy cập trái phép vào một tập hợp các bí mật của Spaces.
- Hugging Face đã thu hồi các mã thông báo xác thực bị xâm phạm và thông báo cho những người bị ảnh hưởng qua email.
- Công ty khuyến nghị tất cả người dùng Hugging Face Spaces làm mới mã thông báo của họ và chuyển sang mã thông báo truy cập chi tiết.
- Hugging Face đang làm việc với các chuyên gia an ninh mạng bên ngoài để điều tra vụ vi phạm và báo cáo sự cố cho cơ quan thực thi pháp luật và cơ quan bảo vệ dữ liệu.
- Trong những ngày qua, công ty đã thắt chặt bảo mật cơ sở hạ tầng Spaces, bao gồm loại bỏ hoàn toàn mã thông báo tổ chức, triển khai dịch vụ quản lý khóa (KMS) cho các bí mật Spaces, tăng cường khả năng phát hiện và vô hiệu hóa proactively các mã thông báo bị rò rỉ.
- Khi Hugging Face ngày càng phổ biến, nó cũng trở thành mục tiêu cho các tác nhân đe dọa, những kẻ cố gắng lạm dụng nó cho các hoạt động độc hại.
- Vào tháng 2/2024, công ty bảo mật JFrog phát hiện khoảng 100 trường hợp các mô hình AI ML độc hại được sử dụng để thực thi mã độc trên máy nạn nhân. 
- Gần đây, các nhà nghiên cứu bảo mật tại Wiz đã phát hiện một lỗ hổng cho phép họ tải lên các mô hình tùy chỉnh và tận dụng container escapes để truy cập chéo vào các mô hình của khách hàng khác.

📌 Vụ vi phạm bảo mật tại Hugging Face Spaces cho thấy các nền tảng AI đang ngày càng trở thành mục tiêu hấp dẫn cho tin tặc. Công ty đã nhanh chóng hành động để thu hồi mã thông báo bị xâm phạm, thông báo cho người dùng bị ảnh hưởng và tăng cường các biện pháp bảo mật. Tuy nhiên, sự cố này nhấn mạnh tầm quan trọng của việc giám sát liên tục và cập nhật bảo mật để bảo vệ dữ liệu nhạy cảm trên các nền tảng AI.

https://www.bleepingcomputer.com/news/security/ai-platform-hugging-face-says-hackers-stole-auth-tokens-from-spaces/

Thế giới mã nguồn mở đang vật lộn với các vấn đề bảo mật và cấp phép cho AI tạo sinh như thế nào

- Sự trỗi dậy của AI tạo sinh đi kèm với cuộc tranh luận ngày càng tăng trong cộng đồng mã nguồn mở về tính minh bạch và đáng tin cậy của công nghệ này.
- Một báo cáo của Đại học Stanford cho thấy tính minh bạch của 10 nhà cung cấp mô hình lớn nhất chỉ đạt tối đa 54% cho Llama 2 của Meta, xuống còn 12% cho Titan Text của Amazon. GPT-4 của OpenAI xếp thứ ba với 48%.
- CNCF đã phát hành bản báo cáo AI, lưu ý "sự cần thiết phải xác định rõ ai sở hữu và có quyền truy cập vào dữ liệu" trong suốt vòng đời AI.
- Các thách thức liên quan đến việc tạo ra các mô hình mở cho phép các nhà phát triển xây dựng dựa trên và điều chỉnh công việc trước đó. Điều này thường bao gồm khả năng sao chép dữ liệu đào tạo và mã đào tạo.
- Các nỗ lực đang được tiến hành để xác định các tiêu chuẩn thông qua nhiều dự án của ngành và cộng đồng như Linux Foundation, CNCF, AI Alliance.
- Red Hat đã tham gia vào một sáng kiến để giải quyết các phức tạp pháp lý trong AI thông qua nỗ lực chủ động thu hút cộng đồng nhà phát triển và thúc đẩy niềm tin trong hệ sinh thái nguồn mở.
- Nền tảng tự động hóa Ansible của Red Hat đã được chứng minh là một nguồn lực hữu ích để có được sự rõ ràng tốt hơn về tình trạng cấp phép mô hình.
- Một lỗ hổng bảo mật tiềm ẩn đã được phát hiện trong phần mềm nén dữ liệu XZ Utils thường được sử dụng trong các bản phân phối Linux, làm nổi bật sự khó khăn trong việc xác minh an ninh của mọi đóng góp mã trong tinh thần cộng đồng mã nguồn mở.

📌 Sự trỗi dậy của AI tạo sinh đã dẫn đến cuộc tranh luận ngày càng tăng trong cộng đồng mã nguồn mở về tính minh bạch và đáng tin cậy. Các báo cáo chỉ ra rằng tính minh bạch của các mô hình AI hàng đầu còn hạn chế, chỉ đạt tối đa 54%. Ngành công nghiệp và cộng đồng đang nỗ lực xác định các tiêu chuẩn cho các mô hình AI mở. Tuy nhiên, các mối đe dọa bảo mật như lỗ hổng trong Linux kernel đã làm nổi bật thách thức trong việc xác minh an ninh của mọi đóng góp mã.

https://siliconangle.com/2024/06/02/open-source-world-wrestling-security-licensing-issues-generative-ai/

K2: mô hình ngôn ngữ lớn mã nguồn mở vượt qua Llama 2 70B với ít tài nguyên hơn 35%

- K2-65B là mô hình ngôn ngữ lớn với 65 tỷ tham số, hoàn toàn có thể tái tạo và mã nguồn mở.
- Được phát triển bởi LLM360 với sự hợp tác của MBZUAI và Petuum.
- Mức độ minh bạch cao, với tất cả các thành phần như mã nguồn, dữ liệu, checkpoint mô hình và kết quả trung gian đều được công khai.
- Cung cấp cái nhìn rõ ràng về quy trình phát triển và các chỉ số hiệu suất.
- Có sẵn theo giấy phép Apache 2.0, thúc đẩy sử dụng rộng rãi và phát triển thêm bởi cộng đồng.
- LLM360 cung cấp bộ đánh giá mạnh mẽ cho K2, bao gồm các benchmark chung và chuyên biệt như y tế, toán học và lập trình.
- Được huấn luyện sử dụng các bộ dữ liệu đa dạng như dm-math, PubMed-abstracts, uspto, tổng cộng 1,3 nghìn tỷ token.
- Đạt được kết quả tương đương với mô hình Llama 2 70B.
- Các checkpoint trung gian của K2 được công khai, cho phép theo dõi sự phát triển và cải tiến theo thời gian.
- Cung cấp hướng dẫn để tái tạo quá trình tiền huấn luyện và tinh chỉnh.
- LLM360 là phòng thí nghiệm nghiên cứu mở, hướng tới phát triển trí tuệ nhân tạo tổng quát (AGI) thuộc sở hữu cộng đồng thông qua nghiên cứu và phát triển mô hình ngôn ngữ lớn mã nguồn mở.

📌 K2 đặt ra tiêu chuẩn mới cho sự phát triển mô hình ngôn ngữ lớn với tính minh bạch cao, hiệu suất vượt trội và khung phát triển mạnh mẽ. Với 65 tỷ tham số, K2 vượt qua Llama 2 70B trong khi chỉ sử dụng 65% tài nguyên tính toán. Thông qua hợp tác mã nguồn mở và đánh giá toàn diện, K2 đảm bảo các thực tiễn đạo đức và khả năng tiếp cận rộng rãi cho các đổi mới trong tương lai của AI.

https://www.marktechpost.com/2024/06/01/llm360-introduces-k2-a-fully-reproducible-open-sourced-large-language-model-efficiently-surpassing-llama-2-70b-with-35-less-computational-power/

Llama3-V vượt trội so với GPT-3.5 và GPT-4 với mô hình nhỏ gọn và chi phí huấn luyện dưới 500 USD

- Llama3-V là một mô hình đa phương thức dựa trên Llama3, được huấn luyện với chi phí dưới 500 đô la.
- Mô hình tích hợp thông tin hình ảnh bằng cách nhúng ảnh đầu vào thành các embedding patch sử dụng mô hình SigLIP.
- Các embedding này được căn chỉnh với token văn bản thông qua khối projection sử dụng các khối self-attention, đặt embedding hình ảnh và văn bản trên cùng một mặt phẳng.
- Token hình ảnh được thêm vào trước token văn bản và biểu diễn kết hợp được xử lý qua Llama3.
- SigLIP sử dụng sigmoid loss cho từng cặp ảnh-văn bản, chia ảnh thành các patch không chồng lấp, chiếu chúng vào không gian embedding có chiều thấp hơn và áp dụng self-attention.
- Để tối ưu hóa tài nguyên tính toán, Llama3-V sử dụng cơ chế lưu trữ đệm để tính toán trước các embedding ảnh SigLIP và tận dụng các tối ưu hóa MPS/MLX.
- Quá trình tiền huấn luyện sử dụng 600.000 cặp ảnh-văn bản, chỉ cập nhật ma trận projection. Tinh chỉnh có giám sát sử dụng 1 triệu mẫu, tập trung vào ma trận vision và projection.
- Llama3-V đạt mức tăng hiệu suất 10-20% so với Llava, mô hình hàng đầu về hiểu biết đa phương thức, và có hiệu suất tương đương với các mô hình nguồn đóng lớn hơn nhiều trên hầu hết các chỉ số, ngoại trừ MMMU.

📌 Llama3-V thể hiện những tiến bộ đáng kể trong AI đa phương thức, vượt trội hơn Llava 10-20% và sánh ngang với các mô hình nguồn đóng lớn hơn trên hầu hết các chỉ số. Với việc tích hợp SigLIP để nhúng ảnh hiệu quả và các tối ưu hóa tính toán, Llama3-V tối đa hóa việc sử dụng GPU và giảm chi phí huấn luyện, thiết lập nó như một mô hình SOTA cạnh tranh và hiệu quả cho hiểu biết đa phương thức.

https://www.marktechpost.com/2024/05/31/llama3-v-a-sota-open-source-vlm-model-comparable-performance-to-gpt4-v-gemini-ultra-claude-opus-with-a-100x-smaller-model/

MAP-Neo: mô hình ngôn ngữ lớn song ngữ đầu tiên hoàn toàn minh bạch và mã nguồn mở, đạt hiệu suất vượt trội ngang ngửa các mô hình thương mại hàng đầu

- MAP-Neo là mô hình ngôn ngữ song ngữ lớn với 7 tỷ tham số, được huấn luyện trên 4.5 nghìn tỷ token chất lượng cao, do các nhà nghiên cứu từ M-A-P, Đại học Waterloo, Viện nghiên cứu AI Vũ Hán và 01.AI phát triển. Đây là mô hình LLM song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch.

- MAP-Neo đạt hiệu suất tương đương hoặc vượt trội so với các mô hình LLM thương mại hàng đầu hiện nay như GPT, Gemini, Claude trong nhiều tác vụ như hiểu ngôn ngữ, lập luận, tri thức và lập trình.

- Tất cả các chi tiết cần thiết để tái tạo lại MAP-Neo đều được công bố đầy đủ, bao gồm: tập dữ liệu tiền huấn luyện đã qua làm sạch với 4.5 nghìn tỷ token, pipeline làm sạch dữ liệu, các checkpoint mô hình trung gian và cuối cùng, cùng với framework huấn luyện/đánh giá đã được tối ưu hóa.

- So với các mô hình mã nguồn mở khác như Mistral, LLaMA3, Pythia, Amber và OLMo, MAP-Neo tích hợp nhiều cải tiến vượt trội như các checkpoint trung gian, quy trình làm sạch dữ liệu toàn diện, tập dữ liệu tiền huấn luyện có thể truy cập dễ dàng và mã tái tạo đầy đủ.

- Trong các bài kiểm tra chuẩn về hiểu ngôn ngữ tiếng Trung và tiếng Anh (C-EVAL, MMLU), khả năng toán học (GSM8K) và lập trình (HumanEval), MAP-Neo đạt điểm số rất cao, vượt qua nhiều mô hình khác. Điều này cho thấy MAP-Neo thiết lập một tiêu chuẩn mới về tính minh bạch và hiệu suất cho các mô hình ngôn ngữ lớn.

- Bộ mã hóa (tokenizer) của MAP-Neo được huấn luyện bằng phương pháp mã hóa cặp byte (BPE) thông qua công cụ SentencePiece trên 50 tỷ mẫu văn bản, với độ dài tối đa 64,000 token. Kích thước từ vựng là 64,000 từ với độ dài tối đa của mỗi đoạn văn bản là 16 token. Các con số được mã hóa thành từng chữ số riêng lẻ.

- Việc ưu tiên dữ liệu mã nguồn, toán học và học thuật trong quá trình tiền huấn luyện giúp MAP-Neo đạt hiệu suất cao trong các tác vụ liên quan. Hiệu suất của bộ mã hóa có sự khác biệt tùy thuộc vào ngôn ngữ và nguồn dữ liệu.

- Việc công bố đầy đủ mô hình MAP-Neo mang lại nhiều lợi ích như giảm chi phí triển khai, đặc biệt cho các LLM tiếng Trung. Điều này thúc đẩy sự bao quát trong đổi mới AI, giảm sự thống trị của các LLM tiếng Anh và giải quyết vấn đề "chủ nghĩa thực dân dữ liệu" do các công ty lớn chi phối.

 

📌 MAP-Neo đánh dấu một cột mốc quan trọng với tư cách là mô hình ngôn ngữ lớn song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch. Với 7 tỷ tham số, MAP-Neo được huấn luyện trên 4.5 nghìn tỷ token dữ liệu chất lượng cao, đạt hiệu suất vượt trội ngang ngửa với các mô hình thương mại hàng đầu trong nhiều tác vụ quan trọng. Tính minh bạch và khả năng tái tạo đầy đủ của MAP-Neo mở ra tiềm năng to lớn cho cộng đồng nghiên cứu AI toàn cầu, thúc đẩy sự bao quát và giảm sự phụ thuộc vào các mô hình đóng, đặc biệt có ý nghĩa với các quốc gia và khu vực không sử dụng tiếng Anh.

 

https://www.marktechpost.com/2024/05/31/map-neo-a-fully-open-source-and-transparent-bilingual-llm-suite-that-achieves-superior-performance-to-close-the-gap-with-closed-source-models/

Mistral giới thiệu Codestral, mô hình AI đầu tiên tập trung vào lập trình hỗ trợ hơn 80 ngôn ngữ

- Mistral, startup AI ở Paris vừa ra mắt Codestral, mô hình ngôn ngữ lớn (LLM) 22B parameter đầu tiên tập trung vào các tác vụ lập trình.

- Codestral hỗ trợ hơn 80 ngôn ngữ lập trình phổ biến như Python, Java, C++, SQL và các ngôn ngữ chuyên biệt hơn như Swift, Fortran.

- Mô hình có thể tạo code từ đầu, hoàn thiện các hàm, viết test và điền vào code dở dang, giúp các lập trình viên tăng tốc quy trình làm việc, tiết kiệm thời gian và giảm lỗi.

- Theo Mistral, Codestral đã vượt trội hơn các mô hình lập trình hiện có như CodeLlama 70B, Deepseek Coder 33B trên hầu hết các ngôn ngữ lập trình trong các bài đánh giá như RepoBench, HumanEval, CruxEval.

- Nhiều công cụ phát triển phần mềm và xây dựng ứng dụng AI như LlamaIndex, LangChain, JetBrains đã bắt đầu thử nghiệm Codestral.

- Mistral cung cấp Codestral 22B trên Hugging Face dưới giấy phép phi thương mại của riêng họ cho mục đích nghiên cứu, thử nghiệm. Mô hình cũng có sẵn qua 2 API endpoint.

- Codestral sẽ cạnh tranh với các mô hình lập trình khác như StarCoder2, Codex của OpenAI, CodeWhisper của Amazon, ChatGPT, GPT-4 của OpenAI và các mô hình của Replit, Codenium.

📌 Codestral 22B, mô hình AI đầu tiên tập trung vào lập trình của Mistral, hỗ trợ hơn 80 ngôn ngữ, giúp đẩy nhanh phát triển phần mềm. Mô hình đã vượt trội hơn CodeLlama 70B, Deepseek Coder 33B trong các bài đánh giá và đang được nhiều công cụ như LangChain, JetBrains thử nghiệm. Tuy nhiên, Codestral sẽ phải cạnh tranh gay gắt với StarCoder2, Codex, CodeWhisper và các mô hình từ Replit, Codenium.

https://venturebeat.com/ai/mistral-announces-codestral-its-first-programming-focused-ai-model/

Ấn Độ nên tận dụng AI mã nguồn mở để giải quyết vấn đề thực tế

- Mô hình Aksara AI của Cropin được xây dựng dựa trên mô hình mã nguồn mở Mistral-7B-v0.1, nhằm dân chủ hóa kiến thức nông nghiệp để trao quyền cho nông dân.

- Các mô hình như OpenHathi và Tamil LLaMA được xây dựng trên các mô hình mã nguồn mở, cố gắng phá vỡ rào cản ngôn ngữ.

- Ấn Độ nên tập trung vào việc sử dụng AI để tạo ra sự khác biệt trong cuộc sống của mọi người, thay vì chạy đua xây dựng các mô hình ngôn ngữ lớn (LLM) tiếp theo.

- Với 22 ngôn ngữ chính thức và hàng trăm phương ngữ, AI mã nguồn mở giúp giải quyết thách thức này ở Ấn Độ thông qua các tính năng cốt lõi của nó.

- Ấn Độ có thể sử dụng MoE (Mixture of Experts) để kết hợp các mô hình dành riêng cho ngôn ngữ như Tamil LLaMA và Kannada LLaMA để tạo ra một mô hình đa ngôn ngữ chạy trên tài nguyên tối thiểu.

- Các mô hình LLM mã nguồn mở như BLOOM và IndicBERT đã được đào tạo trước ở nhiều ngôn ngữ Ấn Độ, giúp đẩy nhanh việc phát triển các LLM đa ngôn ngữ.

- Chi phí đào tạo một mô hình lớn như GPT-3 từ đầu ước tính từ 4 đến 10 triệu USD trở lên, trong khi một số mô hình ngang bằng hoặc tốt hơn GPT-3 lại miễn phí.

- Các nhà khoa học dữ liệu dành gần 50% thời gian để làm sạch dữ liệu, đặc biệt là khi xử lý nhiều ngôn ngữ và phương ngữ Ấn Độ với những đặc thù riêng.

- Sử dụng mô hình mã nguồn mở với dữ liệu được đào tạo trước giúp tiết kiệm rất nhiều thời gian để xây dựng các ứng dụng hữu ích xung quanh nó.

- Khi làm việc với mô hình mã nguồn mở, người dùng trên toàn thế giới có thể đóng góp vào dự án của bạn với các bộ dữ liệu chưa từng có trong danh sách của bạn, giúp nó mạnh mẽ hơn nhiều so với mô hình nguồn đóng.

📌 Ấn Độ nên song song xây dựng AI từ đầu và tận dụng các mô hình LLM mã nguồn mở để giải quyết các vấn đề thực tế. Điều này giúp tiết kiệm chi phí từ 4-10 triệu USD, thời gian làm sạch 50% dữ liệu và khắc phục rào cản 22 ngôn ngữ chính thức cùng hàng trăm phương ngữ, đồng thời thúc đẩy hệ sinh thái AI Ấn Độ phát triển.

https://analyticsindiamag.com/open-source-is-a-good-start-for-india/

Perplexica - công cụ tìm kiếm AI mã nguồn mở thế hệ mới với nhiều tính năng đột phá

- Perplexica là công cụ tìm kiếm AI mã nguồn mở, sử dụng các thuật toán học máy tiên tiến và mô hình ngôn ngữ lớn để cung cấp kết quả tìm kiếm chính xác và sâu sắc.

- Nó hiểu được ý nghĩa ngữ nghĩa đằng sau truy vấn của người dùng nhờ các thuật toán tìm kiếm tương đồng và embedding, giúp kết quả tìm kiếm phù hợp hơn.

- Perplexica có nhiều chế độ tìm kiếm chuyên biệt như: Chế độ Copilot (đang phát triển), Chế độ thông thường, Chế độ tìm kiếm học thuật, Chế độ tìm kiếm YouTube, Chế độ tìm kiếm Wolfram Alpha, Chế độ tìm kiếm Reddit.

- Nó tích hợp công cụ tìm kiếm SearxNG để luôn cung cấp thông tin mới nhất và phù hợp nhất, đồng thời ưu tiên quyền riêng tư của người dùng.

- Perplexica có giao diện web trực quan, dễ sử dụng, hỗ trợ tìm kiếm đa dạng nội dung như hình ảnh, video. Người dùng có thể quản lý lịch sử tìm kiếm và tùy chỉnh cài đặt theo ý muốn.

- Kiến trúc của Perplexica bao gồm: Giao diện người dùng, các Agent/Chains dự đoán hành động tiếp theo, công cụ tìm kiếm SearXNG, các mô hình ngôn ngữ lớn (LLMs) và mô hình embedding.

- Perplexica phù hợp với nhiều ứng dụng từ môi trường doanh nghiệp đến sử dụng cá nhân. Tính chất mã nguồn mở của nó mở ra khả năng cộng đồng đóng góp cải tiến.

📌 Perplexica là một bước tiến lớn trong lĩnh vực công cụ tìm kiếm, kết hợp công nghệ AI tiên tiến với cam kết minh bạch và bảo mật. Với nhiều tính năng đột phá và thiết kế lấy người dùng làm trung tâm, Perplexica hứa hẹn sẽ cách mạng hóa cách chúng ta khám phá tri thức trong kỷ nguyên số.

Citations:
[1] https://www.geeky-gadgets.com/?p=428326

Cách tinh chỉnh các mô hình Mistral AI bằng ứng dụng mới Mistral FineTune

- Nhóm phát triển tại Mistral AI đã phát hành hướng dẫn chính thức về cách sử dụng ứng dụng Mistral FineTune để tinh chỉnh các mô hình AI của họ.
- Mistral FineTune là một công cụ mạnh mẽ giúp đơn giản hóa quá trình tinh chỉnh, sử dụng kỹ thuật LoRA để giảm số lượng trọng số bổ sung cần thiết xuống chỉ còn 1-2%.
- Để tinh chỉnh hiệu quả, cần chuẩn bị dữ liệu đúng cách ở định dạng JSONL, tùy chỉnh theo từng tác vụ huấn luyện cụ thể.
- Cấu hình môi trường huấn luyện thông qua file YAML, bao gồm đường dẫn đến dữ liệu huấn luyện, tham số LoRA và các siêu tham số liên quan.
- Sau khi chuẩn bị dữ liệu và cấu hình, tiến hành huấn luyện bằng cách tải mô hình, thiết lập phần cứng phù hợp và chạy job huấn luyện.
- Sử dụng Mistral Inference để tạo dự đoán và đánh giá hiệu suất của mô hình đã tinh chỉnh.
- Một số lời khuyên để đạt kết quả tốt nhất: chuẩn bị kỹ dữ liệu, sử dụng tập kiểm tra riêng, tuân thủ cài đặt phần cứng và cấu hình được đề xuất.

📌 Mistral FineTune là công cụ mạnh mẽ giúp tinh chỉnh các mô hình AI của Mistral một cách hiệu quả. Bằng cách tuân theo hướng dẫn toàn diện, chuẩn bị dữ liệu chất lượng cao, cấu hình môi trường huấn luyện phù hợp và áp dụng các phương pháp hay nhất, người dùng có thể tận dụng tối đa tiềm năng của các mô hình Mistral AI, thích ứng chúng với miền, tác vụ hoặc ứng dụng cụ thể để đạt được hiệu suất vượt trội.

https://www.geeky-gadgets.com/?p=428317

ibm hợp tác với ai singapore nâng cấp mô hình ngôn ngữ lớn sea-lion

- Công ty điện toán đám mây toàn cầu IBM đang hợp tác với AI Singapore (AISG) để đánh giá và nâng cao mô hình ngôn ngữ lớn (LLM) Sea-Lion thông qua nền tảng AI tạo sinh Watsonx.
- IBM sẽ tích hợp mô hình Sea-Lion vào thư viện Digital Self-Serve Co-Create Experience, cho phép các nhà khoa học dữ liệu và kỹ sư làm việc với các nền tảng AI tạo sinh địa phương hóa. 
- AISG cũng sẽ được IBM hỗ trợ kỹ thuật để cải tiến Sea-Lion.
- Đổi lại, sự hợp tác giúp IBM tiếp cận một LLM được huấn luyện bằng ngôn ngữ và sắc thái địa phương của Đông Nam Á.
- IBM sẽ tận dụng hệ sinh thái kinh doanh và công nghệ rộng lớn để giúp các tổ chức và công dân ASEAN nhận ra giá trị mà các mô hình tùy chỉnh như Sea-Lion và Watsonx mang lại.
- Hai bên cũng sẽ tích hợp quản trị AI vào Sea-Lion để giúp doanh nghiệp quản lý tuân thủ và rủi ro AI trong bối cảnh các quy định về sử dụng công nghệ này ngày càng gia tăng.
- Đây không phải lần đầu tiên một gã khổng lồ công nghệ toàn cầu hợp tác với AISG. Vào tháng 3, Google Research đã công bố một sự hợp tác tương tự.
- Sự quan tâm này xuất hiện khi các công ty đang chạy đua để thiết lập một LLM có thể cạnh tranh với ChatGPT-4 của OpenAI, ra mắt đầu tháng này.

📌 IBM và AI Singapore bắt tay hợp tác nâng cấp mô hình ngôn ngữ lớn Sea-Lion thông qua nền tảng Watsonx. Sự hợp tác giúp IBM tiếp cận LLM được huấn luyện với ngôn ngữ Đông Nam Á, đồng thời tích hợp quản trị AI vào Sea-Lion. Đây là một phần trong cuộc đua phát triển các mô hình ngôn ngữ lớn để cạnh tranh với ChatGPT-4 của OpenAI.

https://www.techinasia.com/ibm-ai-singapore-collaborate-improve-sea-lion-model

Octopus v2 của Stanford vượt trội GPT-4, chạy được trên điện thoại, nhanh hơn 36 lần so với Llama7B + RAG

- Octopus v2 của các nhà nghiên cứu Stanford có 2 tỷ tham số, chạy được trên smartphone, ô tô, PC, vượt trội GPT-4 về độ chính xác và độ trễ, giảm 95% độ dài ngữ cảnh.

- Octopus v2 nhanh hơn 36 lần so với phương pháp Llama7B + RAG, đạt 2000 lượt tải xuống chỉ sau 1 đêm ra mắt.

- Mô hình sử dụng chiến lược token hàm độc đáo trong huấn luyện và suy luận, giúp đạt hiệu năng tương đương GPT-4 và cải thiện tốc độ suy luận vượt trội so với các phương pháp dựa trên RAG.

- Tập dữ liệu huấn luyện được tạo qua 3 giai đoạn: tạo truy vấn liên quan và tham số gọi hàm, tạo truy vấn không liên quan từ các thành phần hàm phù hợp, xác minh nhị phân qua Google Gemini.

- Nghiên cứu sử dụng mô hình Google Gemma-2B làm mô hình tiền huấn luyện, áp dụng 2 phương pháp huấn luyện là huấn luyện mô hình đầy đủ và huấn luyện mô hình LoRA.

- Trong các bài kiểm tra, Octopus v2 nhanh hơn 36 lần so với "giải pháp Llama7B + RAG" trên 1 GPU A100 đơn, nhanh hơn 168% so với GPT-4 turbo.

- Octopus v2 cũng vượt trội về độ chính xác gọi hàm, cao hơn 31% so với "giải pháp Llama7B + RAG", đạt độ chính xác tương đương GPT-4 và RAG + GPT-3.5.

📌 Octopus v2 với 2 tỷ tham số của Stanford đã vượt trội GPT-4 về tốc độ suy luận và độ chính xác, có thể chạy trên các thiết bị biên như smartphone. Mô hình đạt 2000 lượt tải chỉ sau 1 đêm, mở ra kỷ nguyên của các agent AI từ cốt lõi chạy trên thiết bị người dùng.

https://levelup.gitconnected.com/better-than-gpt-4-the-stanford-teams-large-model-that-can-be-run-on-mobile-phones-became-popular-bc958501ec01

https://arxiv.org/abs/2404.01744

https://huggingface.co/NexaAIDev/Octopus-v2

FinRobot: nền tảng AI agent mã nguồn mở mới hỗ trợ nhiều AI chuyên biệt tài chính được cung cấp sức mạnh bởi LLM

- FinRobot là một nền tảng AI agent mã nguồn mở được phát triển bởi AI4Finance Foundation phối hợp với các tổ chức như Đại học Columbia và NYU Shanghai. Nó tận dụng các mô hình ngôn ngữ lớn (LLM) để thực hiện phân tích tài chính nâng cao.

- Kiến trúc của FinRobot được chia thành 4 lớp chính: Financial AI Agents Layer (tập trung vào việc chia nhỏ các vấn đề tài chính phức tạp thành các chuỗi logic), Financial LLM Algorithms Layer (cấu hình và sử dụng các mô hình được tinh chỉnh đặc biệt phù hợp với các lĩnh vực cụ thể và phân tích thị trường toàn cầu), LLMOps and DataOps Layer (tạo ra các mô hình chính xác bằng cách áp dụng các kỹ thuật đào tạo, tinh chỉnh và sử dụng dữ liệu liên quan đến tác vụ), Multi-source LLM Foundation Models Layer (tích hợp các LLM khác nhau, cho phép các lớp trên truy cập trực tiếp).

- Nền tảng giải quyết các thách thức quan trọng như tính minh bạch, khả năng thích ứng với thị trường toàn cầu và xử lý dữ liệu thời gian thực. Ví dụ, Financial AI Agents Layer tăng cường khả năng phân tích và ra quyết định phức tạp bằng cách sử dụng CoT prompting để chia nhỏ các thách thức tài chính thành các bước logic.

- Hai ứng dụng demo là Market Forecaster (tổng hợp tin tức thị trường gần đây và dữ liệu tài chính để đưa ra những hiểu biết sâu sắc về thành tựu mới nhất và mối quan tâm tiềm năng của một công ty) và Document Analysis & Generation (sử dụng các AI agent để phân tích các tài liệu tài chính như báo cáo thường niên và tạo ra các báo cáo chi tiết, sâu sắc).

- FinRobot tăng cường khả năng tiếp cận, hiệu quả và tính minh bạch trong các hoạt động tài chính bằng cách tích hợp các LLM đa nguồn trong một nền tảng mã nguồn mở. Nó đẩy nhanh sự đổi mới trong cộng đồng AI tài chính và thiết lập các tiêu chuẩn mới cho phân tích tài chính dựa trên AI.

📌 FinRobot là một nền tảng AI mã nguồn mở đột phá hỗ trợ nhiều AI agent chuyên biệt về tài chính, sử dụng sức mạnh của các mô hình ngôn ngữ lớn (LLM). Với kiến trúc đa lớp tiên tiến, khả năng xử lý dữ liệu thời gian thực và tích hợp mô hình đa dạng, FinRobot cải thiện đáng kể việc ra quyết định chiến lược trên toàn lĩnh vực tài chính, giúp các công cụ tài chính tinh vi trở nên dễ tiếp cận hơn với đông đảo người dùng.

https://www.marktechpost.com/2024/05/26/finrobot-a-novel-open-source-ai-agent-platform-supporting-multiple-financially-specialized-ai-agents-powered-by-llms/

AmbientGPT: công cụ nguồn mở đa phương thức trên MacOS tích hợp liền mạch AI vào quy trình làm việc

- AmbientGPT là một công cụ nguồn mở trên MacOS giúp tích hợp liền mạch các mô hình nền tảng AI vào quy trình làm việc hàng ngày.
- Công cụ này tự động suy luận ngữ cảnh màn hình như một phần của quá trình truy vấn, loại bỏ nhu cầu tải lên ngữ cảnh thủ công.
- AmbientGPT tích hợp liền mạch vào quy trình làm việc hiện có, cung cấp cách trực quan và hiệu quả hơn để tận dụng sức mạnh của các mô hình nền tảng.
- Công cụ sử dụng các thuật toán tiên tiến để phân tích chính xác và sử dụng ngữ cảnh, đảm bảo phản hồi của AI chính xác và phù hợp.
- AmbientGPT hỗ trợ chạy các mô hình cục bộ an toàn như Gemma và Phi-3 multimodal. Cần ít nhất 16 GB RAM để đạt hiệu suất tối ưu.
- Kết quả cho thấy AmbientGPT tăng 40% hiệu quả công việc và giảm 50% thời gian nhập dữ liệu thủ công.
- Phản hồi của người dùng cho thấy sự hài lòng cao với khả năng cung cấp phản hồi phù hợp với ngữ cảnh mà không cần nhập liệu liên tục.
- Việc tích hợp vllm và ollama sẽ tiếp tục nâng cao khả năng của AmbientGPT, biến nó thành giải pháp toàn diện cho việc triển khai suy luận AI.

📌 AmbientGPT đánh dấu bước tiến trong ứng dụng thực tế của AI, tăng 40% hiệu quả công việc và giảm 50% thời gian nhập liệu thủ công. Với khả năng tự động phân tích ngữ cảnh màn hình, công cụ này hứa hẹn sẽ cách mạng hóa cách các mô hình nền tảng được sử dụng, đồng thời tích hợp liền mạch AI vào quy trình làm việc trên MacOS.

https://www.marktechpost.com/2024/05/24/ambientgpt-an-open-source-and-multimodal-macos-foundation-model-gui/

Mistral và Cohere tung ra mô hình AI đỉnh cao: Không kiểm duyệt, đa ngôn ngữ, đe dọa các ông lớn

- Mistral, công ty nghiên cứu AI của Pháp, đã ra mắt bản nâng cấp lớn cho mô hình ngôn ngữ lớn nguồn mở Mistral 7B v0.3 mà không cần thông báo chính thức.


Mistral 7B v0.3 có một số cải tiến đáng chú ý:

- Không bị kiểm duyệt theo mặc định: Mô hình sẽ đưa ra cảnh báo khi được yêu cầu cung cấp thông tin nguy hiểm hoặc bất hợp pháp, nhưng vẫn cung cấp câu trả lời đầy đủ.

- Mở rộng kích thước ngữ cảnh token lên 32.768: Cho phép mô hình xử lý một phạm vi rộng hơn các từ và cụm từ trong ngữ cảnh, cải thiện hiệu suất trên các văn bản đa dạng. So sánh với Meta Llama có kích thước ngữ cảnh token 8K nhưng bộ từ vựng lớn hơn nhiều ở mức 128K.

- Tokenizer hiệu quả hơn: Phiên bản mới của bộ tokenizer Mistral cung cấp khả năng xử lý và hiểu văn bản tốt hơn.

- Tích hợp hàm số (function calling): Cho phép các mô hình Mistral tương tác với các hàm và API bên ngoài, tạo ra tính linh hoạt cao cho các tác vụ như tạo tác nhân, tìm kiếm thông tin trên web hoặc cơ sở dữ liệu chuyên biệt, viết báo cáo, lên ý tưởng - tất cả mà không cần gửi dữ liệu cá nhân đến các công ty tập trung như Google hay OpenAI.

Mistral không cung cấp các điểm chuẩn, nhưng với việc mở rộng đáng kể khả năng và tính năng tích hợp hàm số, phiên bản nâng cấp này là một bản phát hành hấp dẫn cho mô hình AI nguồn mở phổ biến thứ hai trên thị trường. Nó hứa hẹn cải thiện đáng kể hiệu suất so với phiên bản trước, có khả năng mạnh hơn tới 4 lần dựa trên dung lượng bộ từ vựng và kích thước ngữ cảnh token.

- Cohere, công ty AI của Canada, cũng ra mắt Aya 23, một dòng mô hình nguồn mở đa ngôn ngữ với khả năng hỗ trợ 23 ngôn ngữ, phục vụ gần một nửa dân số thế giới.
- Aya 23 vượt trội hơn phiên bản tiền nhiệm Aya 101 và các mô hình phổ biến khác như Mistral 7B v2 và Google Gemma trong các tác vụ phân biệt và tạo sinh.
- Aya 23 có hai phiên bản 8 tỷ và 35 tỷ tham số, trong đó bản 8 tỷ tối ưu cho phần cứng tiêu dùng và bản 35 tỷ cung cấp hiệu suất đỉnh cao trên nhiều tác vụ.
- Aya 23 được tinh chỉnh bằng một tập dữ liệu hướng dẫn đa ngôn ngữ đa dạng với 55,7 triệu mẫu từ 161 bộ dữ liệu, bao gồm các nguồn được chú thích bởi con người, dịch máy và tổng hợp.
- Trong các tác vụ tạo sinh như dịch thuật và tóm tắt, Aya 23 vượt trội hơn các đối thủ dựa trên nhiều tiêu chuẩn đánh giá như spBLEU và RougeL.

📌 Mistral 7B v0.3 và Cohere Aya 23 đánh dấu bước tiến mới trong cuộc đua AI nguồn mở với các tính năng đột phá như không kiểm duyệt, tích hợp hàm số và hỗ trợ đa ngôn ngữ. Hai mô hình này hứa hẹn sẽ là nền tảng mạnh mẽ cho các ứng dụng AI sáng tạo, cạnh tranh trực tiếp với các ông lớn như OpenAI và Meta.

https://decrypt.co/232299/mistral-ai-7b-upgrade-uncensored-cohere-aya-open-source

LLMWare.ai được chọn vào GitHub Accelerator 2024: dẫn đầu đổi mới RAG doanh nghiệp với mô hình ngôn ngữ chuyên biệt nhỏ

- LLMWare.ai là 1 trong 11 dự án AI nguồn mở xuất sắc được chọn tham gia GitHub Accelerator 2024.

- LLMWare tập trung vào các mô hình ngôn ngữ chuyên biệt nhỏ, mang lại nhiều lợi thế như dễ tích hợp vào quy trình doanh nghiệp, bảo mật cao, chi phí thấp và tốc độ nhanh.

- Trong 8 tháng qua, LLMWare đã ra mắt nền tảng RAG cấp doanh nghiệp toàn diện (llmware) và bộ mô hình chuyên biệt cho các tác vụ tự động hóa doanh nghiệp then chốt dưới thương hiệu BLING, DRAGON, SLIM và Industry-Bert.

- Khung làm việc thống nhất đầu cuối của LLMWare.ai là lựa chọn hoàn hảo cho các nhà phát triển và doanh nghiệp xây dựng quy trình tự động hóa dựa trên LLM chất lượng cao, dựa trên dữ kiện, riêng tư, hiệu quả về chi phí.

- LLMWare.ai hiện có 2 sản phẩm chính: RAG Pipeline - các thành phần tích hợp cho toàn bộ vòng đời kết nối nguồn tri thức với mô hình AI tạo sinh; và hơn 50 mô hình chuyên biệt nhỏ được tinh chỉnh cho các tác vụ then chốt trong tự động hóa quy trình doanh nghiệp.

- Theo người sáng lập Namee Oberst, việc được chọn vào Chương trình GitHub Accelerator là một cột mốc quan trọng, cơ hội học hỏi từ GitHub và những người xuất sắc nhất trong cộng đồng nguồn mở.

📌 Với những tiến bộ đổi mới và giải pháp toàn diện, LLMWare.ai xứng đáng là 1 trong 11 dự án xuất sắc được chọn vào GitHub Accelerator 2024. Khung làm việc LLMWare, mô hình SLIMs và dòng RAG chuyên biệt DRAGON thể hiện cam kết tạo ra các giải pháp có thể mở rộng quy mô, an toàn và hiệu quả, được điều chỉnh riêng cho các tổ chức tài chính và pháp lý. Với hơn 50 mô hình chuyên biệt và pipeline dữ liệu linh hoạt, LLMWare.ai trao quyền cho các nhà phát triển ở mọi cấp độ dễ dàng xây dựng các ứng dụng doanh nghiệp tinh vi dựa trên tri thức.

https://www.marktechpost.com/2024/05/23/llmware-ai-selected-for-2024-github-accelerator-enabling-the-next-wave-of-innovation-in-enterprise-rag-with-small-specialized-language-models/

11 dự án AI mã nguồn mở đỉnh nhất năm 2024 trên GitHub Accelerator

- GitHub vừa công bố 11 dự án AI mã nguồn mở xuất sắc nhất được chọn vào chương trình GitHub Accelerator 2024.
- Các dự án được đánh giá dựa trên tiềm năng tạo ra sự nghiệp mới, tác động tới cộng đồng, nâng cao bảo mật và cải thiện năng suất của các nhà phát triển.
- 11 dự án được chọn bao gồm:
  • unsloth AI: Giúp tinh chỉnh mô hình AI tùy chỉnh nhanh hơn 2-5 lần với 70% bộ nhớ ít hơn.
  • Giskard: Nền tảng kiểm thử mô hình AI, nâng cao chất lượng, bảo mật và tuân thủ.
  • A-Frame: Framework tạo nội dung AR/VR và 3D dễ dàng cho mọi người.
  • Nav2: Giải pháp điều hướng robot tự hành được tin dùng bởi hơn 100 công ty.
  • OpenWebUI: Giao diện người dùng cho AI và LLM chạy cục bộ, bảo mật và hiệu năng cao.
  • LLMware.ai: Công cụ xây dựng mô hình LLM và RAG an toàn cho doanh nghiệp.
  • LangDrive: API đơn giản hóa quá trình huấn luyện và triển khai mô hình ngôn ngữ.
  • HackingBuddyGPT: Đối tác tự động hóa và kiểm thử bảo mật cho các chuyên gia an ninh mạng.
  • Web-Check: Công cụ phân tích bảo mật website dựa trên AI và dữ liệu mở.
  • marimo: Sổ ghi chép Python thế hệ mới cho khoa học dữ liệu và học máy.
  • Talkd.ai: API trò chuyện LLM thống nhất với khả năng quản lý ngữ cảnh.
- GitHub sẽ hỗ trợ các dự án với tổng giá trị gần 400.000 USD, bao gồm 40.000 USD tài trợ không pha loãng, tối đa 350.000 USD lợi ích từ Microsoft và các đối tác công nghệ khác.

📌 GitHub Accelerator 2024 quy tụ 11 dự án AI mã nguồn mở xuất sắc nhất, hứa hẹn thúc đẩy sự phát triển vượt bậc của trí tuệ nhân tạo với các ứng dụng đa dạng từ mô hình ngôn ngữ, robot, thực tế ảo, bảo mật đến khoa học dữ liệu. Chương trình sẽ hỗ trợ các dự án với tổng giá trị gần 400.000 USD cùng nhiều lợi ích khác từ Microsoft và các đối tác.

Citations:
[1] https://github.blog/2024-05-23-2024-github-accelerator-meet-the-11-projects-shaping-open-source-ai/

Cohere ra mắt Aya 23: mô hình ngôn ngữ lớn mã nguồn mở hiểu 23 ngôn ngữ

- Cohere giới thiệu Aya 23, một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có khả năng hiểu 23 ngôn ngữ.
- Aya 23 bao gồm hai thuật toán: một với 8 tỷ tham số để cân bằng giữa chất lượng phản hồi và hiệu suất, và một phiên bản lớn hơn với 35 tỷ tham số dành cho các yêu cầu nâng cao.
- Phiên bản Aya-23-35B dựa trên LLM Command R, hỗ trợ prompt lên đến 128.000 token, có tính năng RAG tích hợp và có thể tự động thực hiện các tác vụ trong các ứng dụng bên ngoài.
- Aya-23-35B dựa trên kiến trúc Transformer chỉ giải mã (decoder-only), xác định ý nghĩa của từng từ bằng cách phân tích ngữ cảnh của nó.
- Aya 23 cải tiến kiến trúc Transformer chỉ giải mã bằng cách sử dụng grouped query attention để giảm sử dụng RAM và tăng tốc độ suy luận, cũng như sử dụng rotational positional embeddings để xử lý thông tin vị trí từ hiệu quả hơn.
- Aya 23 được huấn luyện trên tập dữ liệu đa ngôn ngữ Aya, bao gồm 513 triệu cặp prompt-câu trả lời trong 114 ngôn ngữ, được phát triển thông qua một sáng kiến mã nguồn mở với sự đóng góp của khoảng 3.000 người.
- Trong các đánh giá nội bộ, Aya-23-35B vượt trội hơn đáng kể so với Aya-101 (một LLM hiểu 101 ngôn ngữ) và một số LLM mã nguồn mở khác trong các tác vụ xử lý văn bản đa ngôn ngữ.

📌 Aya 23, dòng LLM mã nguồn mở mới của Cohere, đánh dấu một bước tiến quan trọng trong xử lý ngôn ngữ tự nhiên đa ngôn ngữ. Với khả năng hiểu 23 ngôn ngữ, cải tiến kiến trúc Transformer và huấn luyện trên tập dữ liệu Aya 513 triệu cặp prompt-câu trả lời, Aya 23 hứa hẹn mang lại hiệu suất vượt trội trong các tác vụ xử lý văn bản đa ngôn ngữ.

https://siliconangle.com/2024/05/23/cohere-open-sources-aya-23-series-multilingual-llms/

CloudCode AI giới thiệu Kaizen: giải pháp AI nguồn mở giúp cách mạng hóa kiểm thử phần mềm và đánh giá mã nguồn

- CloudCode AI, một giải pháp phần mềm dựa trên AI, vừa công bố ra mắt Kaizen - một dự án nguồn mở tiên tiến được thiết kế để tăng cường đáng kể quá trình kiểm thử ứng dụng phần mềm và đánh giá mã nguồn.

- Kaizen tận dụng sức mạnh của trí tuệ nhân tạo để hỗ trợ các nhà phát triển hợp lý hóa quy trình làm việc, đảm bảo họ có thể di chuyển nhanh hơn mà không làm ảnh hưởng đến chất lượng hay bảo mật.

- Trong bối cảnh phát triển phần mềm nhanh chóng như hiện nay, việc duy trì các tiêu chuẩn chất lượng và bảo mật cao đồng thời đáp ứng các thời hạn gấp rút là một thách thức đáng kể. Kaizen giải quyết trực tiếp thách thức này bằng cách cung cấp một agent AI thông minh hỗ trợ các nhà phát triển kiểm thử và đánh giá mã nguồn một cách hiệu quả.

- Công cụ sáng tạo này sẽ trở thành một phần không thể thiếu đối với các nhóm phát triển đang phấn đấu vì sự xuất sắc và tốc độ trong quá trình xây dựng phần mềm.

- Kaizen hứa hẹn sẽ mang lại những lợi ích to lớn cho cộng đồng các nhà phát triển phần mềm trên toàn thế giới nhờ khả năng tận dụng sức mạnh của AI để tối ưu hóa quy trình kiểm thử và đánh giá mã nguồn.

📌 Kaizen của CloudCode AI là một dự án nguồn mở đột phá sử dụng trí tuệ nhân tạo tiên tiến để cách mạng hóa quy trình kiểm thử phần mềm và đánh giá mã nguồn. Với việc cung cấp một agent AI thông minh hỗ trợ các nhà phát triển tăng tốc mà vẫn đảm bảo chất lượng và bảo mật, Kaizen hứa hẹn sẽ trở thành một công cụ không thể thiếu cho các nhóm phát triển phần mềm trên toàn cầu, giúp họ vượt qua thách thức của việc duy trì tiêu chuẩn cao trong bối cảnh thời hạn gấp rút.

https://www.chronicle-tribune.com/news/wire/cloudcode-ai-unveils-kaizen-an-ai-powered-open-source-solution-to-revolutionize-software-testing-and/article_a97f7d2b-0e63-58de-97e0-09ae0bb51ac6.html

Fastweb hợp tác với AWS để cung cấp mô hình ngôn ngữ lớn tiếng Ý cho bên thứ ba

- Fastweb sẽ tận dụng các dịch vụ AI tạo sinh và học máy của Amazon Web Services (AWS) để cung cấp mô hình ngôn ngữ lớn (LLM) được huấn luyện bằng tiếng Ý cho các bên thứ ba.
- Fastweb đang xây dựng một tập dữ liệu tiếng Ý toàn diện bằng cách kết hợp các nguồn công khai và dữ liệu được cấp phép từ các nhà xuất bản và cơ quan truyền thông. 
- Sử dụng dữ liệu này, Fastweb đã tinh chỉnh mô hình Mistral 7B bằng Amazon SageMaker, đạt được cải thiện hiệu suất từ 20-50% trên các tiêu chuẩn ngôn ngữ tiếng Ý.
- Các mô hình mới sẽ được cung cấp trên Hugging Face, cho phép khách hàng triển khai chúng thông qua Amazon SageMaker.
- Trong tương lai, Fastweb dự định chạy mô hình của mình trên Amazon Bedrock bằng Custom Model Import, để có thể dễ dàng xây dựng và mở rộng các giải pháp AI tạo sinh mới cho khách hàng.
- Walter Renna, CEO của Fastweb cho rằng sáng kiến chiến lược này sẽ giúp thúc đẩy chuyển đổi số cho các tổ chức Ý bằng cách sử dụng các công nghệ tiên tiến nhất.
- Fabio Cerone, Tổng giám đốc Telco Industry, EMEA, AWS cam kết dân chủ hóa việc tiếp cận công nghệ và ứng dụng AI tạo sinh cho khách hàng trên toàn thế giới. Ông cho rằng việc Fastweb tạo ra LLM tiếng Ý là một bước quan trọng trong việc làm cho sức mạnh chuyển đổi của AI tạo sinh dễ tiếp cận hơn với doanh nghiệp và cơ quan chính phủ Ý.

📌 Fastweb hợp tác với AWS để cung cấp LLM tiếng Ý, được huấn luyện trên tập dữ liệu toàn diện kết hợp từ nhiều nguồn. Mô hình đạt cải thiện 20-50% trên các tiêu chuẩn ngôn ngữ, sẽ được cung cấp qua Hugging Face và Amazon SageMaker, giúp thúc đẩy chuyển đổi số cho các tổ chức Ý với công nghệ AI tiên tiến.

https://www.thefastmode.com/technology-solutions/35966-natively-trained-italian-llm-by-fastweb-to-leverage-aws-genai-and-machine-learning-capabilities

OpenRLHF: framework nguồn mở tăng tốc huấn luyện mô hình ngôn ngữ khổng lồ bằng học tăng cường từ phản hồi người dùng

- OpenRLHF là một framework học tăng cường từ phản hồi của con người (RLHF) đột phá, giải quyết các thách thức trong việc huấn luyện các mô hình ngôn ngữ lớn (LLM) với hơn 70 tỷ tham số.
- Các phương pháp RLHF hiện tại thường chia nhỏ LLM trên nhiều GPU để huấn luyện, dẫn đến phân mảnh bộ nhớ, giảm kích thước batch hiệu quả và tốc độ huấn luyện chậm.
- OpenRLHF sử dụng Ray - trình lập lịch tác vụ phân tán và vLLM - công cụ suy luận phân tán để tối ưu hóa việc sử dụng bộ nhớ và tăng tốc độ huấn luyện.
- Ray phân bổ LLM trên các GPU một cách thông minh, tránh phân mảnh quá mức, cho phép kích thước batch lớn hơn trên mỗi GPU.
- vLLM tận dụng khả năng xử lý song song của nhiều GPU để tăng tốc độ tính toán.
- So sánh chi tiết với framework DSChat khi huấn luyện mô hình LLaMA2 7B tham số, OpenRLHF đạt được sự hội tụ huấn luyện nhanh hơn và giảm đáng kể tổng thời gian huấn luyện.
- OpenRLHF giải quyết các rào cản chính trong việc huấn luyện LLM khổng lồ bằng RLHF, mở ra con đường để tinh chỉnh các LLM lớn hơn với phản hồi của con người.

📌 OpenRLHF đột phá giúp huấn luyện hiệu quả các mô hình ngôn ngữ lớn với 70 tỷ tham số bằng học tăng cường từ phản hồi người dùng. Với Ray và vLLM, nó tối ưu bộ nhớ, tăng tốc huấn luyện gấp 2 lần so với DSChat trên LLaMA2 7B, mở ra kỷ nguyên mới cho xử lý ngôn ngữ tự nhiên và tương tác thông tin.

https://www.marktechpost.com/2024/05/23/openrlhf-an-open-source-ai-framework-enabling-efficient-reinforcement-learning-from-human-feedback-rlhf-scaling/

Openwashing: Tranh cãi về mã nguồn mở trong AI

- Có cuộc tranh luận lớn trong giới công nghệ về việc liệu các mô hình trí tuệ nhân tạo (AI) có nên là "mã nguồn mở" hay không. 
- Những người ủng hộ mô hình AI mã nguồn mở cho rằng chúng công bằng và an toàn hơn cho xã hội, trong khi những người phản đối cho rằng chúng dễ bị lạm dụng vào mục đích xấu.
- Một vấn đề lớn trong cuộc tranh luận là không có định nghĩa thống nhất về AI mã nguồn mở thực sự là gì. Một số tổ chức bị cáo buộc "openwashing" - sử dụng thuật ngữ "mã nguồn mở" một cách không trung thực để tạo vẻ ngoài tốt đẹp.
- Các tổ chức áp dụng nhãn này cho các mô hình của họ có thể đang áp dụng các cách tiếp cận rất khác nhau về tính cởi mở. Ví dụ: OpenAI tiết lộ rất ít về các mô hình của mình, Meta đặt các hạn chế đối với việc sử dụng LLaMA 2 và LLaMA 3 mặc dù gắn nhãn mã nguồn mở.
- Các mô hình cởi mở nhất, chủ yếu do các tổ chức phi lợi nhuận điều hành, công bố mã nguồn và dữ liệu đào tạo cơ bản, sử dụng giấy phép mã nguồn mở cho phép tái sử dụng rộng rãi. Nhưng ngay cả với những mô hình này, vẫn có những trở ngại để người khác có thể sao chép chúng.
- Lý do chính là trong khi phần mềm mã nguồn mở cho phép bất kỳ ai sao chép hoặc sửa đổi nó, việc xây dựng một mô hình AI đòi hỏi nhiều hơn mã. Chỉ một số ít công ty có thể tài trợ cho sức mạnh tính toán và quản lý dữ liệu cần thiết.
- Một số chuyên gia cho rằng việc dán nhãn bất kỳ AI nào là "mã nguồn mở" trong trường hợp tốt nhất là gây hiểu lầm và trong trường hợp xấu nhất là một công cụ tiếp thị.
- Các nỗ lực để tạo ra một định nghĩa rõ ràng hơn cho AI mã nguồn mở đang được tiến hành bởi Linux Foundation và Open Source Initiative. Tuy nhiên, nhiều người nghi ngờ rằng AI mã nguồn mở thực sự là không thể.

📌 Openwashing là cáo buộc một số công ty AI sử dụng nhãn "mã nguồn mở" không trung thực. Có tranh cãi lớn về việc liệu các mô hình AI có nên là mã nguồn mở, với các cách tiếp cận khác nhau từ các công ty như OpenAI và Meta. Các chuyên gia nghi ngờ AI mã nguồn mở thực sự là khả thi do yêu cầu tài nguyên khổng lồ để xây dựng các mô hình.

https://www.nytimes.com/2024/05/17/business/what-is-openwashing-ai.html

 

#NYT

Google ra mắt Model Explorer, công cụ nguồn mở giúp trực quan hóa và gỡ lỗi mô hình AI

- Google giới thiệu Model Explorer, một công cụ đột phá trong lĩnh vực trực quan hóa học máy, giúp các nhà nghiên cứu và kỹ sư khám phá nội tại của các mô hình AI phức tạp.
- Model Explorer sử dụng phương pháp phân cấp, cho phép người dùng dễ dàng điều hướng qua các mạng nơ-ron phức tạp như mô hình ngôn ngữ tiên tiến và mạng khuếch tán.
- Công cụ này là một phần quan trọng trong sáng kiến "AI on the Edge" của Google, nhằm mang nhiều khả năng tính toán AI đến các thiết bị và làm cho các hệ thống này minh bạch và có trách nhiệm giải trình hơn.
- Model Explorer đánh dấu bước tiến đáng kể trong việc giải mã thế giới phức tạp của trí tuệ nhân tạo, cho phép các nhà nghiên cứu và nhà phát triển kiểm tra kỹ lưỡng các mạng nơ-ron phức tạp nhất.
- Khi AI ngày càng trở nên phổ biến trong cuộc sống hàng ngày, từ điện thoại thông minh đến y tế và giao thông, nhu cầu về các công cụ như Model Explorer sẽ chỉ tăng lên.
- Cuộc tìm kiếm AI thực sự minh bạch và có trách nhiệm giải trình mới chỉ bắt đầu, nhưng Model Explorer của Google là một bước tiến quan trọng theo đúng hướng, mở đường cho một tương lai nơi AI vừa mạnh mẽ vừa dễ hiểu.

📌 Model Explorer của Google là một bước đột phá trong việc làm rõ các mô hình AI phức tạp, mang lại khả năng hiểu sâu hơn về cách thức hoạt động của chúng. Công cụ nguồn mở này hứa hẹn thúc đẩy sự minh bạch và trách nhiệm giải trình trong lĩnh vực AI, đồng thời mở ra con đường cho một tương lai nơi AI vừa mạnh mẽ vừa dễ hiểu.

Citations:
[1] https://venturebeat.com/ai/google-launches-model-explorer-an-open-source-tool-for-seamless-ai-model-visualization-and-debugging/

Tiny AI: AI thầm lặng có thể thay đổi tương lai công việc

- Tiny AI là các mô hình AI nhỏ gọn, chuyên biệt có thể chạy trực tiếp trên máy tính xách tay hoặc điện thoại thông minh, thay vì phụ thuộc vào đám mây như ChatGPT.
- Các mô hình này tuy không có khả năng rộng như ChatGPT nhưng bù lại chúng dễ tiếp cận và tùy chỉnh hơn, phù hợp với ngôn ngữ và kiến thức duy nhất của từng ngành.
- Tiny AI đảm bảo tính riêng tư và bảo mật dữ liệu nhạy cảm của khách hàng, mở ra nhiều khả năng tích hợp AI vào quy trình làm việc.
- Một số mô hình Tiny AI phổ biến bao gồm H2O-Danube2-1.8B (1.8 tỷ tham số), Microsoft Phi 1.5 và Google Gemma 2B.
- Tiny AI cho phép chạy nhanh các thử nghiệm trong kinh doanh mà trước đây không thể thực hiện được, tương tự như cách phần mềm đã thúc đẩy sự phát triển kinh doanh trong thập kỷ qua.
- Việc phát triển và triển khai các mô hình AI tùy chỉnh này đòi hỏi một số kiến thức và nguồn lực kỹ thuật, nhưng rào cản gia nhập đang ngày càng thấp nhờ hệ sinh thái các công cụ và nền tảng dân chủ hóa AI đang phát triển.
- Khi các công cụ này trưởng thành và ngày càng nhiều doanh nghiệp nhận ra tiềm năng của Tiny AI, chúng ta có thể kỳ vọng một sự bùng nổ đổi mới tại nơi làm việc, tương tự như cách máy tính cá nhân đã cách mạng hóa năng suất văn phòng trong những năm 1980 và 1990.

📌 Tiny AI hứa hẹn sẽ trở thành vũ khí bí mật của các doanh nghiệp, mở ra cánh cửa năng suất, sáng tạo và đổi mới ở cấp độ mới. Với khả năng tùy chỉnh và truy cập dễ dàng, Tiny AI đang âm thầm thay đổi tương lai của công việc, một mô hình nhỏ gọn nhưng đầy sức mạnh trong mỗi lần.

https://www.forbes.com/sites/forbesagencycouncil/2024/05/17/how-to-use-ai-at-work-beyond-chatgpt/

UAE ra mắt mô hình AI Falcon mới, thách thức Meta và OpenAI

- Falcon 2 11B, phiên bản cập nhật của mô hình AI nguồn mở Falcon, do Viện Đổi mới Công nghệ (TII) của Abu Dhabi phát triển, mạnh hơn mô hình tương tự mới nhất của Meta và ngang bằng với Gemini theo một số chỉ số.
- Một quan chức cấp cao cho biết Falcon chứng minh UAE là một "người chơi nghiêm túc" trong cuộc đua AI toàn cầu, với hiệu suất vượt trội hơn nhiều "ông lớn" khác với chỉ một phần nhỏ sức mạnh tính toán và quy mô đội ngũ.
- UAE đang đẩy mạnh AI, coi công nghệ này là trụ cột kinh tế tiếp theo sau dầu mỏ, với nhiều doanh nghiệp và quỹ đầu tư AI mới có thể lên tới 100 tỷ USD.
- Công ty mới AI71 được thành lập để thương mại hóa Falcon, đã bắt đầu thử nghiệm công nghệ này trong bệnh viện, công ty luật và trung tâm cuộc gọi với các đối tác UAE.
- Phiên bản Falcon mới hỗ trợ 5 ngôn ngữ châu Âu và khả năng "chuyển đổi hình ảnh thành ngôn ngữ", cho phép máy tính chuyển đổi hình ảnh thành văn bản một cách trôi chảy.
- Sự phát triển của Falcon sẽ thuộc một tổ chức mới, Falcon Foundation, được mô phỏng theo tổ chức phần mềm phi lợi nhuận Linux Foundation, đảm bảo Falcon sẽ mãi mãi là nguồn mở.

📌 UAE đang nỗ lực đẩy mạnh AI với mô hình Falcon 2 11B mới, vượt trội hơn các đối thủ như Meta và ngang bằng Gemini. Với công ty AI71 và Falcon Foundation, Abu Dhabi đang thương mại hóa công nghệ này, tập trung vào các ứng dụng doanh nghiệp có tác động lớn, hướng tới mục tiêu biến AI thành trụ cột kinh tế mới sau dầu mỏ.

https://www.bloomberg.com/news/articles/2024-05-13/uae-releases-new-falcon-ai-model-11b-to-rival-meta-s-llama-openai-and-google

IBM phát hành bộ mô hình mã nguồn mở Granite giúp lập trình dễ dàng hơn cho developer

- IBM đã phát hành bộ mô hình mã nguồn mở Granite nhằm giúp việc lập trình trở nên dễ dàng hơn cho mọi người.
- Mặc dù phần mềm đóng vai trò quan trọng trong xã hội hiện đại, quá trình lập trình vẫn còn khó khăn và tốn thời gian, ngay cả với các kỹ sư có kinh nghiệm.
- Các mô hình ngôn ngữ lớn (LLM) đã trở nên quan trọng trong môi trường phát triển, giúp tăng hiệu quả và độc lập khi xử lý các công việc lập trình phức tạp. 
- Công cụ WatsonX Code Assistant (WCA) mới nhất của IBM sử dụng khả năng 20 tỷ tham số đáng kinh ngạc của mô hình mã ngôn ngữ lớn Granite.
- Công nghệ này đã được chứng minh là hữu ích trong môi trường doanh nghiệp thông qua vai trò chuyển đổi các ứng dụng COBOL thành các dịch vụ hiện đại được tối ưu hóa cho IBM Z.
- IBM đã công khai 4 phiên bản mô hình mã Granite với số lượng tham số từ 3 đến 34 tỷ, được thiết kế riêng cho nhiều tác vụ lập trình khác nhau.
- Các mô hình này đã trải qua quá trình đánh giá kỹ lưỡng để đảm bảo đáp ứng các yêu cầu cao nhất về hiệu suất và khả năng thích ứng trong nhiều tác vụ mã hóa như tạo, gỡ lỗi và giải thích.
- Thông qua dự án nguồn mở, IBM hy vọng sẽ loại bỏ các rào cản đi kèm với giá cao và quy tắc cấp phép không rõ ràng của các mô hình độc quyền, đồng thời đẩy nhanh việc áp dụng các mô hình AI tạo sinh trong lĩnh vực kinh doanh.
- Với khả năng thích ứng và tối ưu hóa quy trình làm việc của doanh nghiệp, các mô hình mã Granite cung cấp cho các nhà phát triển một bộ công cụ mạnh mẽ có thể tự động hóa các hoạt động lập trình lặp đi lặp lại, cải thiện chất lượng mã và cho phép tích hợp liền mạch giữa các ứng dụng cũ và hiện đại.

📌 IBM đã phát hành bộ mô hình mã nguồn mở Granite với 4 phiên bản có số lượng tham số từ 3 đến 34 tỷ. Bộ mô hình này giúp tự động hóa công việc lập trình, cải thiện chất lượng mã, tích hợp ứng dụng cũ và mới, qua đó hỗ trợ đắc lực cho các nhà phát triển phần mềm, loại bỏ rào cản chi phí và đẩy nhanh ứng dụng AI tạo sinh trong kinh doanh.

Citations:
[1] https://www.marktechpost.com/2024/05/09/ibm-ai-team-releases-an-open-source-family-of-granite-code-models-for-making-coding-easier-for-software-developers/

HPT 1.5 Air: siêu mô hình AI đa phương thức 8B mã nguồn mở mới với LLaMA 3

- HPT 1.5 Air là mô hình ngôn ngữ đa phương thức (multimodal) 8B mã nguồn mở mới, sử dụng phiên bản LLaMA 3 mới nhất, được tối ưu hóa để đạt hiệu quả và độ mạnh mẽ cao hơn.
- Kiến trúc ấn tượng của HPT 1.5 Air hỗ trợ khả năng hiểu sâu sắc và tinh tế các dữ liệu đầu vào đa phương thức. 
- Mặc dù chỉ có khoảng 10 tỷ tham số, HPT 1.5 Air vẫn nhẹ và hiệu quả cao, vượt trội hơn cả các đối thủ có số lượng tham số lớn hơn nhiều.
- Tích hợp dữ liệu hình ảnh và văn bản trong AI là then chốt quan trọng để phát triển các hệ thống giống như nhận thức của con người. 
- Thách thức chính là các mô hình cần xử lý và diễn giải kết hợp hiệu quả, chính xác các luồng thông tin hình ảnh và văn bản.
- Trước đây, các mô hình thường xử lý riêng rẽ dữ liệu hình ảnh và văn bản, dẫn đến kém hiệu quả và thiếu sự hiểu biết tổng thể.
- HyperGAI đã phát triển mô hình HPT 1.5 Air, kết hợp cơ chế mã hóa hình ảnh tinh vi với khả năng xử lý ngôn ngữ mạnh mẽ.
- HPT 1.5 Air dựa trên kiến trúc nền tảng của các phiên bản tiền nhiệm nhưng có những cải tiến đáng kể ở cả bộ mã hóa hình ảnh và các thành phần mô hình ngôn ngữ.
- HPT 1.5 Air đã thể hiện kết quả vượt trội trên nhiều bài kiểm tra đánh giá khác nhau, đặc biệt là trong các môi trường đòi hỏi mức độ hiểu biết cao về hình ảnh và văn bản.
- Trong các bài kiểm tra SEED-I, SQA và MMStar, HPT 1.5 Air không chỉ đáp ứng mà còn vượt xa kỳ vọng, thiết lập các tiêu chuẩn mới.

📌 HPT 1.5 Air, mô hình AI đa phương thức 8B mã nguồn mở mới sử dụng LLaMA 3, mang lại hiệu quả vượt trội trong xử lý văn bản và hình ảnh. Với kiến trúc ấn tượng và chỉ 10 tỷ tham số, HPT 1.5 Air đã vượt qua nhiều đối thủ lớn hơn trên các bài kiểm tra như SEED-I, SQA, MMStar, thiết lập tiêu chuẩn mới cho AI đa phương thức.

Citations:
[1] https://www.marktechpost.com/2024/05/10/meet-hpt-1-5-air-a-new-open-sourced-8b-multimodal-llm-with-llama-3/

Red Hat mở rộng công nghệ AI tạo sinh Lightspeed lên Linux và OpenShift

### Meta descriptions
Red Hat mở rộng công nghệ AI tạo sinh Lightspeed lên Linux và OpenShift, hứa hẹn cải thiện hiệu quả và đơn giản hóa quản lý cho người mới và chuyên gia.

### Meta keywords
Red Hat, Lightspeed, AI tạo sinh, Linux, OpenShift, tự động hóa, quản lý cluster, RHEL, Ansible Lightspeed, IBM Watsonx

### Interesting and shocked SEO title
Red Hat đưa AI tạo sinh Lightspeed lên Linux và OpenShift: Bước đột phá mới trong tự động hóa!

- Red Hat công bố mở rộng công nghệ AI tạo sinh Lightspeed cho nền tảng ứng dụng đám mây hỗn hợp Red Hat OpenShift và Red Hat Enterprise Linux (RHEL).
- Dự kiến, Red Hat OpenShift Lightspeed sẽ được ra mắt vào cuối năm 2024, trong khi Red Hat Enterprise Linux Lightspeed vẫn đang trong giai đoạn lên kế hoạch.
- Lightspeed sẽ áp dụng AI tạo sinh để triển khai và mở rộng các ứng dụng truyền thống và bản địa đám mây trên các cluster OpenShift, giúp người mới làm quen nhanh chóng và chuyên gia làm việc hiệu quả hơn.
- Ví dụ, khi một cluster đạt đến công suất tối đa, Lightspeed sẽ đề xuất cho người dùng kích hoạt tính năng tự động mở rộng và sau khi đánh giá các cluster được lưu trữ trên đám mây công cộng, đề xuất thêm một instance phù hợp.
- Red Hat Enterprise Linux Lightspeed hỗ trợ đơn giản hóa việc triển khai và bảo trì môi trường Linux, giúp các đội ngũ vận hành RHEL làm việc nhanh hơn và hiệu quả hơn khi hệ thống mở rộng và trở nên phức tạp.
- Lightspeed có thể thông báo cho quản trị viên về việc phát hành cảnh báo bảo mật với các bản vá sửa lỗi.
- Ngoài ra, Red Hat cũng thông báo rằng Red Hat Ansible Lightspeed đã được cải tiến với khả năng tùy chỉnh và điều chỉnh mô hình cùng với bảng điều khiển để xem dữ liệu telemetry.
- Tính năng tùy chỉnh và điều chỉnh mô hình thông qua IBM Watsonx Code Assistant cho phép người dùng Ansible Lightspeed sử dụng nội dung Ansible hiện có để đào tạo mô hình, cải thiện chất lượng và độ chính xác của nội dung Ansible theo nhu cầu và mẫu tự động hóa cụ thể của tổ chức.

📌 Red Hat mở rộng AI tạo sinh Lightspeed cho OpenShift và RHEL, hứa hẹn cải thiện hiệu quả cho người mới và chuyên gia. Dự kiến ra mắt OpenShift Lightspeed cuối 2024, RHEL Lightspeed đang lên kế hoạch. Ansible Lightspeed cải tiến với tùy chỉnh mô hình và bảng điều khiển telemetry.

Meta AI vừa phát hành mô hình ngôn ngữ lớn LLaMA-3 không kiểm duyệt, cho phép người dùng tự do khám phá và thử nghiệm

- Meta AI đã phát hành phiên bản không kiểm duyệt của mô hình ngôn ngữ lớn LLaMA-3, cho phép người dùng tự do khám phá tiềm năng của AI tạo sinh.
- LLaMA-3 được huấn luyện trên 1,4 nghìn tỷ token, gấp 58 lần so với phiên bản LLaMA ban đầu, hứa hẹn mang lại hiệu suất vượt trội.
- Mô hình này có khả năng thực hiện nhiều tác vụ khác nhau như trả lời câu hỏi, tóm tắt văn bản, phân tích cảm xúc và sáng tạo nội dung.
- Meta AI hy vọng việc phát hành LLaMA-3 không kiểm duyệt sẽ thúc đẩy sự phát triển của cộng đồng AI và giúp các nhà nghiên cứu, kỹ sư phần mềm khám phá những ứng dụng mới của công nghệ này.
- Tuy nhiên, việc sử dụng mô hình không kiểm duyệt cũng tiềm ẩn những rủi ro như tạo ra nội dung không phù hợp, vi phạm bản quyền hoặc thông tin sai lệch.
- Meta AI khuyến cáo người dùng cần cẩn trọng khi sử dụng LLaMA-3 và tuân thủ các nguyên tắc đạo đức trong nghiên cứu và ứng dụng AI.
- Việc phát hành LLaMA-3 không kiểm duyệt đánh dấu một bước tiến quan trọng trong lĩnh vực AI, mở ra nhiều cơ hội mới cho các nhà phát triển và doanh nghiệp.

📌 Meta AI vừa tung ra phiên bản không kiểm duyệt của mô hình ngôn ngữ lớn LLaMA-3 với 1,4 nghìn tỷ token, cho phép người dùng tự do khám phá tiềm năng của AI tạo sinh. Đây là một bước tiến quan trọng, mở ra nhiều cơ hội mới nhưng cũng tiềm ẩn rủi ro nếu không sử dụng đúng cách.

Citations:
[1] https://www.geeky-gadgets.com/llama-3-uncensored/

Tenyx làm nên lịch sử: Mô hình Llama-3 nguồn mở giờ đây đã vượt mặt GPT-4

- Tenyx, một startup về AI, đã tinh chỉnh thành công mô hình ngôn ngữ Llama-3 của Meta, giờ đổi tên thành Tenyx-70B, và đã vượt qua GPT-4 của OpenAI trong một số lĩnh vực.
- Itamar Arel, người sáng lập và CEO của Tenyx, cho biết công nghệ tinh chỉnh này cho phép họ khai thác sự trùng lặp trong các mô hình lớn để thực hiện học tập liên tục hoặc học tập gia tăng.
- Mô hình Tenyx-70B đã được tối ưu hóa để vượt trội hơn GPT-4 trong các nhiệm vụ toán học và lập trình, đồng thời vượt qua mô hình Llama-3 gốc trong tất cả các khả năng.
- Tenyx đã giải quyết vấn đề "quên lãng thảm họa" bằng cách chỉ cập nhật một phần nhỏ các tham số của mô hình, cho phép mô hình được đào tạo trên thông tin mới mà không làm ảnh hưởng đến các khả năng hiện có.
- Mô hình Llama-3 tinh chỉnh của Tenyx, với 70 tỷ tham số, đã được đào tạo chỉ trong 15 giờ sử dụng 100 GPU.
- Tenyx cũng cam kết với AI nguồn mở bằng cách phát hành mô hình Tenyx-70B dưới cùng một giấy phép với mô hình Llama-3 gốc, nhấn mạnh tầm quan trọng của việc chia sẻ tiến bộ với cộng đồng.
- Các ứng dụng tiềm năng của công nghệ tối ưu hóa sau đào tạo của Tenyx rất rộng lớn, từ việc tạo ra các chatbot chuyên biệt cho các ngành cụ thể đến việc cho phép các bản cập nhật tăng cường thường xuyên cho các mô hình đã triển khai.
- Sự đột phá của Tenyx có thể làm thay đổi cán cân trong ngành công nghiệp AI, cung cấp cho các doanh nghiệp và nhà nghiên cứu quyền truy cập vào các mô hình ngôn ngữ tiên tiến mà không cần chi phí cao và các hạn chế liên quan đến các sản phẩm độc quyền.
- Mặc dù mô hình Llama-3 tối ưu hóa của Tenyx vẫn kế thừa một số hạn chế của mô hình gốc, như phản ứng không logic hoặc không có cơ sở, nhưng sự cải thiện về hiệu suất là đáng kể, đạt gần 96% chính xác trong các nhiệm vụ toán học và suy luận.

📌 Tenyx đã tạo ra một bước đột phá trong ngành công nghiệp AI bằng cách tinh chỉnh mô hình ngôn ngữ Llama-3 để vượt qua GPT-4 trong một số lĩnh vực, đánh dấu lần đầu tiên một mô hình nguồn mở vượt qua tiêu chuẩn vàng độc quyền. Mô hình Tenyx-70B đã được tối ưu hóa để đạt hiệu suất cao trong các nhiệm vụ toán học và lập trình, mở ra cánh cửa cho một kỷ nguyên mới của sự đổi mới AI nguồn mở.

https://venturebeat.com/ai/exclusive-ai-startup-tenyxs-fine-tuned-open-source-llama-3-model-outperforms-gpt-4/

Red Hat ra mắt RHEL AI và InstructLab nhằm dân chủ hóa AI trong doanh nghiệp

- Red Hat giới thiệu RHEL AI, một nền tảng mô hình nền tảng đa năng để phát triển và chạy các mô hình ngôn ngữ nguồn mở, cùng với InstructLab, một dự án cộng đồng cho phép các chuyên gia tinh chỉnh mô hình AI.
- CEO Matt Hicks nhấn mạnh cam kết nguồn mở và cách tiếp cận hybrid của Red Hat, cho rằng AI không khác biệt cơ bản so với các ứng dụng, cần huấn luyện ở một số nơi và chạy ở những nơi khác, đồng thời trung lập với cơ sở hạ tầng phần cứng.
- Red Hat có kinh nghiệm lâu năm trong tối ưu hóa hiệu suất trên nhiều stack phần cứng khác nhau như Nvidia, AMD, Intel và Gaudi.
- Cách tiếp cận nguồn mở của Red Hat đảm bảo khách hàng giữ quyền sở hữu IP của mình khi làm việc với công ty.

📌 Red Hat đang dẫn đầu cuộc cách mạng dân chủ hóa AI trong doanh nghiệp với RHEL AI và InstructLab, kết hợp sức mạnh của nguồn mở, tối ưu đa nền tảng và bảo vệ IP khách hàng, hứa hẹn mang AI tạo sinh đến nhiều tổ chức hơn bao giờ hết.

Citations:
[1] https://venturebeat.com/ai/red-hat-unveils-rhel-ai-and-instructlab-to-democratize-enterprise-ai/

IBM mở mã nguồn mô hình AI Granite, ra mắt nền tảng Instructlab

- IBM đã công bố mở mã nguồn bộ mô hình AI Granite, bao gồm các mô hình ngôn ngữ lớn và các bộ dữ liệu huấn luyện.
- Granite-3B, mô hình lớn nhất trong bộ Granite, đạt điểm số 78,3% trên bài kiểm tra MMLU, vượt qua ChatGPT của OpenAI.
- IBM cũng ra mắt InstructLab, một nền tảng cho phép các nhà nghiên cứu và doanh nghiệp tạo ra các mô hình AI tạo sinh tiên tiến.
- InstructLab hỗ trợ các tính năng như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, tạo sinh đa phương thức (multimodal), và khung kiểm thử (testbed) để đánh giá hiệu suất của mô hình.
- Granite và InstructLab là một phần trong nỗ lực của IBM nhằm thúc đẩy sự phát triển của AI nguồn mở và tạo điều kiện cho việc nghiên cứu và ứng dụng AI.
- Việc mở mã nguồn Granite và cung cấp InstructLab miễn phí sẽ giúp các nhà nghiên cứu và doanh nghiệp tiếp cận với công nghệ AI tiên tiến và xây dựng các ứng dụng AI từ cốt lõi (AI-native).

📌 IBM đã mở mã nguồn bộ mô hình AI Granite với mô hình Granite-3B vượt trội hơn ChatGPT, đồng thời ra mắt nền tảng InstructLab hỗ trợ các tính năng tiên tiến như tạo sinh đa phương thức và truy xuất dữ liệu ngoài, nhằm thúc đẩy sự phát triển của AI nguồn mở và tạo điều kiện cho nghiên cứu và ứng dụng AI.

Citations:
[1] https://www.pcmag.com/news/ibm-open-sources-granite-ai-models-launches-instructlab-platform

Deepseek v2 đánh bại mixtral 8x22b với hiệu suất vượt trội và tiết kiệm chi phí

- DeepSeek-V2 là mô hình ngôn ngữ Mixture-of-Experts (MoE) mạnh mẽ với 236B tham số tổng cộng, trong đó 21B được kích hoạt cho mỗi token.
- So với DeepSeek 67B, DeepSeek-V2 đạt hiệu suất mạnh mẽ hơn, tiết kiệm 42,5% chi phí đào tạo, giảm bộ nhớ cache KV 93,3% và tăng thông lượng tạo tối đa lên 5,76 lần. 
- Có thể tải xuống mô hình DeepSeek-V2 và DeepSeek-V2-Chat(RL) trên 🤗 HuggingFace.
- Mã nguồn mở hiện có hiệu suất chậm hơn so với codebase nội bộ khi chạy trên GPU với Huggingface. DeepSeek cung cấp giải pháp vllm chuyên dụng tối ưu hóa hiệu suất để chạy mô hình hiệu quả.
- DeepSeek-V2 hoạt động tốt trên tất cả các độ dài cửa sổ ngữ cảnh lên đến 128K trong các bài kiểm tra Needle In A Haystack (NIAH).
- DeepSeek-V2 Chat(RL) đạt điểm cao nhất trên các bài kiểm tra MMLU, BBH, C-Eval, CMMLU so với các mô hình khác như LLaMA3 70B, Mixtral, ChatMixtral 8x22B.
- DeepSeek cung cấp API tương thích OpenAI tại DeepSeek Platform với hàng triệu token miễn phí và giá cả cạnh tranh.
- Để sử dụng DeepSeek-V2 ở định dạng BF16 để suy luận, cần 80GB*8 GPU. Có thể sử dụng trực tiếp Transformers của Huggingface để suy luận mô hình.
- Kho lưu trữ mã được cấp phép theo Giấy phép MIT. Việc sử dụng các mô hình DeepSeek-V2 Base/Chat tuân theo Giấy phép Mô hình. DeepSeek-V2 hỗ trợ sử dụng thương mại.

📌 DeepSeek-V2 là mô hình ngôn ngữ MoE mạnh mẽ với 236B tham số, tiết kiệm 42,5% chi phí đào tạo và tăng thông lượng tạo lên 5,76 lần so với DeepSeek 67B. Nó đạt điểm cao nhất trên nhiều bài kiểm tra và cung cấp API tương thích OpenAI. Mã nguồn mở được cấp phép MIT và hỗ trợ sử dụng thương mại.

Citations:
[1] https://github.com/deepseek-ai/DeepSeek-V2

Taide: Dự án AI của Đài Loan nêu bật ý nghĩa địa chính trị

- Dự án Taide của Đài Loan được công bố vào tháng 2 năm 2023, nhằm phát triển một mô hình ngôn ngữ lớn (LLM) trong nước để tận dụng lợi ích kinh tế và bảo vệ dân số khỏi ảnh hưởng ngoại lai.
- Taide được thiết kế để phục vụ chủ yếu cho thị trường nội địa Đài Loan, sử dụng dữ liệu trong nước bao gồm các báo cáo chính phủ và tin tức, được viết bằng chữ Trung Quốc truyền thống và phản ánh ngữ pháp và cách nói địa phương.
- Mô hình này được ra mắt vào ngày 29 tháng 4 năm 2024, với kinh phí phát triển là 7,4 triệu USD, nhằm cải thiện hiệu quả trong các doanh nghiệp và tổ chức bằng cách tích hợp vào hoạt động kỹ thuật số của họ.

- Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.
- Các chuyên gia công nghệ Đài Loan lạc quan về khả năng của Taide trong việc thúc đẩy GDP quốc gia thông qua việc giữ gìn giá trị kinh tế từ sản xuất và tiêu dùng LLM trong nước.
- Taide cũng được kỳ vọng mang lại nhiều lợi ích liên quan đến an ninh, đặc biệt là trong việc ngăn chặn rủi ro thu thập dữ liệu người dùng Đài Loan bởi các công ty nước ngoài có liên kết với các thế lực độc hại.
- Mặc dù Taide chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu), và hiện tại dự án này đang đối mặt với hạn chế về năng lực tính toán, các nhà phát triển tại Đài Loan vẫn tin tưởng vào giá trị của nó mà không nhất thiết phải sánh ngang với các mô hình quốc tế.
- Taide không chỉ là một bước tiến trong công nghệ mà còn là minh chứng cho cam kết của Đài Loan trong việc củng cố dân chủ số và tăng cường vị thế địa chính trị của mình thông qua sự đổi mới và giá trị dân chủ.

📌 Dự án Taide của Đài Loan, với kinh phí 7,4 triệu USD chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu) và được phát triển dựa trên dữ liệu địa phương, không chỉ nhằm cải thiện hiệu quả kinh doanh mà còn tăng cường an ninh quốc gia. Taide vẫn được kỳ vọng sẽ đóng góp vào sự phát triển kinh tế và địa chính trị của Đài Loan trong dài hạn. Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.

Citations:
[1] https://ketagalanmedia.com/2024/05/06/taide-taiwans-own-ai-project-highlights-geopolitical-implications/

Soket AI Labs ra mắt Pragna-1B, mô hình đa ngữ Ấn Độ đầu tiên mở, nhỏ

- Soket AI Labs giới thiệu Pragna-1B, mô hình đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và tiếng Anh.
- Pragna-1B là bước tiến quan trọng hướng tới công nghệ AI hòa nhập, vượt qua rào cản ngôn ngữ và tăng cường tương tác người dùng trên các bối cảnh ngôn ngữ đa dạng.
- Mô hình sử dụng kiến trúc Transformer Decoder với 1,25 tỷ tham số và độ dài ngữ cảnh 2048 token.
- Quá trình huấn luyện Pragna-1B tập trung vào tiếng Hindi, Bangla và Gujarati, xử lý khoảng 150 tỷ token.
- Mô hình được thiết kế để triển khai hiệu quả trên thiết bị, mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa trong kích thước nhỏ gọn.
- Mặc dù có số lượng tham số khiêm tốn, hiệu suất của Pragna-1B tương đương với các mô hình 7 tỷ tham số lớn hơn.
- Pragna-1B được huấn luyện kỹ lưỡng trên các bộ dữ liệu được biên soạn riêng cho bối cảnh Ấn Độ, đảm bảo đầu ra chính xác và phù hợp về mặt văn hóa.
- Mô hình sử dụng bộ mã hóa Byte-Pair (BPE) tokenizer, được huấn luyện đặc biệt để xử lý các ngôn ngữ Ấn Độ, đạt kích thước từ vựng 69.632.
- Soket AI Labs tạo ra "Bhasha", một loạt bộ dữ liệu chất lượng cao được thiết kế riêng để huấn luyện các mô hình ngôn ngữ Ấn Độ.
- Bhasha-wiki bao gồm 44,1 triệu bài viết được dịch từ Wikipedia tiếng Anh sang 6 ngôn ngữ Ấn Độ.
- Bhasha-wiki-indic là tập con tinh chỉnh của Bhasha-wiki, tập trung vào nội dung liên quan đến Ấn Độ.
- Bhasha-SFT tạo điều kiện phát triển ngôn ngữ.

📌 Pragna-1B của Soket AI Labs là mô hình ngôn ngữ đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và Anh với 1,25 tỷ tham số. Mô hình mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa, được huấn luyện trên bộ dữ liệu Bhasha 44,1 triệu bài viết, đánh dấu bước tiến quan trọng hướng tới AI hòa nhập.

Citations:
[1] https://analyticsindiamag.com/soket-ai-labs-unveils-pragna-1b-multilingual-indic-language-model/

Prometheus 2 là mô hình ngôn ngữ nguồn mở mới, được thiết kế để đánh giá các mô hình ngôn ngữ khác

- Nhóm nghiên cứu từ KAIST AI, LG AI Research, Carnegie Mellon University, MIT, Allen Institute for AI và University of Illinois Chicago giới thiệu Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới.
- Prometheus 2 được phát triển để cung cấp đánh giá minh bạch, có thể mở rộng và kiểm soát được, đồng thời đạt chất lượng tương đương với các mô hình độc quyền.
- Mô hình được tạo ra bằng cách kết hợp hai mô hình đánh giá: một mô hình được huấn luyện chuyên biệt cho đánh giá trực tiếp và một mô hình cho xếp hạng theo cặp.
- Nhóm nghiên cứu sử dụng bộ dữ liệu Preference Collection mới với 1.000 tiêu chí đánh giá để tinh chỉnh khả năng của mô hình.
- Trên 4 bài kiểm tra xếp hạng theo cặp (HHH Alignment, MT Bench Human Judgment, Auto-J Eval và Preference Bench), Prometheus 2 vượt trội hơn các mô hình nguồn mở hiện có, đạt độ chính xác trên 85%.
- Prometheus 2 thu hẹp khoảng cách hiệu suất với các công cụ đánh giá độc quyền như GPT-4 trên nhiều bài kiểm tra. Mô hình giảm một nửa sự khác biệt tương quan giữa con người và GPT-4 trên bài kiểm tra FLASK và đạt độ chính xác 84% trong đánh giá HHH Alignment.

📌 Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới, đạt hiệu suất vượt trội so với các mô hình nguồn mở hiện có trên nhiều bài kiểm tra, thu hẹp đáng kể khoảng cách với GPT-4. Kết hợp hai mô hình đánh giá trực tiếp và xếp hạng theo cặp, Prometheus 2 đạt độ chính xác trên 85% và giảm một nửa sự khác biệt tương quan so với GPT-4 trên bài kiểm tra FLASK.

Citations:
[1] https://www.marktechpost.com/2024/05/04/prometheus-2-an-open-source-language-model-that-closely-mirrors-human-and-gpt-4-judgements-in-evaluating-other-language-models/

LLM2Vec biến Llama 3 thành mô hình embedding, giúp cải thiện hiệu suất của retrieval-augmented generation (RAG) cho các mô hình ngôn ngữ lớn

- LLM2Vec là một phương pháp biến Llama 3 thành mô hình embedding, giúp cải thiện hiệu suất của retrieval-augmented generation (RAG) cho các mô hình ngôn ngữ lớn (LLMs).
- Mô hình embedding đóng vai trò quan trọng trong RAG, chúng mã hóa cơ sở tri thức và truy vấn do người dùng viết.
- Việc sử dụng mô hình embedding được huấn luyện hoặc tinh chỉnh cho cùng lĩnh vực với LLM có thể tăng cường đáng kể chất lượng của các đoạn văn được tạo ra.
- LLM2Vec tận dụng sức mạnh của Llama 3, một mô hình ngôn ngữ lớn, để tạo ra các embedding chất lượng cao.
- Phương pháp này mở ra tiềm năng to lớn trong việc cải thiện hiệu suất của các hệ thống RAG, giúp tạo ra văn bản tự nhiên và chính xác hơn.

📌 LLM2Vec đánh dấu bước tiến quan trọng trong việc tận dụng sức mạnh của Llama 3 để tạo ra các mô hình embedding chất lượng cao. Phương pháp này hứa hẹn sẽ cải thiện đáng kể hiệu suất của retrieval-augmented generation, mở ra tiềm năng to lớn trong việc tạo ra văn bản tự nhiên và chính xác hơn cho các ứng dụng AI.

Citations:
[1] https://medium.com/m/global-identity-2?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fturn-llama-3-into-an-embedding-model-with-llm2vec-8448005f99aa

Llama-3-8B-Instruct-80K-QLoRA: mô hình mới từ các nhà nghiên cứu Trung Quốc, mở rộng độ dài ngữ cảnh của Llama-3 từ 8K lên 80K token

- Các nhà nghiên cứu từ Học viện Trí tuệ Nhân tạo Bắc Kinh và Đại học Renmin Trung Quốc giới thiệu Llama-3-8B-Instruct-80K-QLoRA.
- Mô hình mở rộng đáng kể độ dài ngữ cảnh của Llama-3 gốc từ 8K lên 80K token.
- Phương pháp này nổi bật với khả năng duy trì hiểu biết ngữ cảnh qua các chuỗi văn bản dài đồng thời giảm yêu cầu tính toán.
- Sử dụng GPT-4 để tạo 3.5K mẫu huấn luyện cho các tác vụ Single-Detail QA, Multi-Detail QA và Biography Summarization.
- Fine-tune Llama-3-8B-Instruct-80K-QLoRA bằng QLoRA, áp dụng LoRA trên các lớp projection và huấn luyện lớp embedding.
- Kết hợp dữ liệu RedPajama, LongAlpaca và dữ liệu tổng hợp để tránh quên và tăng cường hiểu biết ngữ cảnh.
- Hiệu suất của mô hình trên các bài kiểm tra như LongBench và InfBench cho thấy khả năng xử lý chính xác các chuỗi văn bản dài.
- Nghiên cứu này thúc đẩy nghiên cứu NLP bằng cách cung cấp mô hình hiểu và xử lý ngữ cảnh dài một cách hiệu quả.

📌 Llama-3-8B-Instruct-80K-QLoRA là bước tiến quan trọng trong việc mở rộng khả năng hiểu ngữ cảnh của AI, xử lý hiệu quả văn bản dài 80 nghìn token, mở đường cho các ứng dụng NLP tiên tiến hơn.

Citations:
[1] https://www.marktechpost.com/2024/05/02/this-ai-paper-introduces-llama-3-8b-instruct-80k-qlora-new-horizons-in-ai-contextual-understanding/

10 use case điên rồ của Llama-3 đang gây sốt cộng đồng AI

- Llama-3 8B với context length hơn 1 triệu token: Mô hình Llama-3 8B Gradient Instruct 1048k mở rộng context length từ 8k lên hơn 1 triệu, cho thấy LLM SOTA có thể quản lý context dài hiệu quả với ít training bằng cách điều chỉnh RoPE theta. 
- Ứng dụng RAG chạy Llama-3 cục bộ: Bạn có thể xây dựng ứng dụng RAG với Llama-3 chạy trên máy cục bộ.
- Mô hình nông nghiệp KissanAI Dhenu1.0: Mô hình này được tinh chỉnh trên Llama-3 8B với 150.000 câu lệnh, tập trung vào Ấn Độ và ai cũng có thể tải về, chỉnh sửa, phản hồi.
- Nhà vô địch gọi công cụ Llama-3 70B trên GroqInc: Mô hình 70B vượt qua thử thách khi đưa ra truy vấn, rất nhanh và có giá tốt nhất. Nó cũng đạt kết quả xuất sắc trong các bài kiểm tra, benchmark.
- Copilot siêu nhanh trong VSCode: Copilot chạy trên Llama-3 cực kỳ nhanh và mạnh mẽ.
- TherapistAI.com chạy trên Llama-3 70B: Gần bằng GPT-4, mô hình này nâng cao đáng kể khả năng hội thoại, cho phép tương tác qua lại, tập trung giải quyết vấn đề.
- Trợ lý nghiên cứu dựa trên Llama-3 trên Groq: Bạn có thể xây dựng trợ lý tìm kiếm thông tin về chủ đề phức tạp trên web, gửi cho Llama-3 trên Groq và nhận lại bản tóm tắt chuyên sâu.
- Trợ lý pháp lý dựa trên Llama-3: Có thể trả lời các câu hỏi pháp lý, soạn thảo hợp đồng, phân tích án lệ...một cách nhanh chóng và chính xác.
- Trợ lý y tế dựa trên Llama-3: Hỗ trợ chẩn đoán, đưa ra lời khuyên sức khỏe, giải thích thuật ngữ y học, tóm tắt hồ sơ bệnh án...
- Ứng dụng giáo dục dựa trên Llama-3: Soạn giáo án, giải thích khái niệm, chấm bài tập, đưa ra phản hồi cho học sinh...

📌 Llama-3 của Meta đã chứng minh sức mạnh đáng kinh ngạc qua 10 use case ấn tượng như mở rộng context lên hơn 1 triệu token, xây dựng các ứng dụng RAG, trợ lý chuyên biệt trong nông nghiệp, y tế, giáo dục, pháp luật với hiệu năng vượt trội và chi phí hợp lý. Điều này hứa hẹn đưa Llama-3 trở thành một trong những nền tảng AI hàng đầu trong tương lai gần.

Citations:
[1] https://analyticsindiamag.com/10-wild-use-cases-for-llama-3/

Llama-3 70B Instruct Gradient 1048K: siêu mô hình ngữ cảnh dài 1 triệu token

- Llama-3 70B Instruct Gradient 1048K là mô hình do Gradient phát triển, mở rộng độ dài ngữ cảnh của Llama-3 70B từ 8k lên hơn 1048K token.
- Mô hình được tài trợ tính toán bởi Crusoe Energy và chỉ cần huấn luyện trên 34 triệu token cho giai đoạn này, tổng cộng ~430 triệu token cho tất cả các giai đoạn, tương đương < 0,003% dữ liệu tiền huấn luyện gốc của Llama-3.
- Phương pháp tiếp cận bao gồm sử dụng meta-llama/Meta-Llama-3-70B-Instruct làm cơ sở, nội suy NTK-aware theo quy luật tỷ lệ để thiết lập lịch trình tối ưu cho RoPE theta, huấn luyện tiệm cận trên các độ dài ngữ cảnh tăng dần.
- Dữ liệu huấn luyện được tạo ra bằng cách tăng cường SlimPajama để tạo ngữ cảnh dài. Mô hình cũng được tinh chỉnh trên tập dữ liệu trò chuyện dựa trên UltraChat.
- Quá trình huấn luyện tiệm cận trải qua các giai đoạn 65K, 262K, 524K và 1048K token, với độ dài chuỗi, RoPE theta, kích thước batch và số bước tích lũy gradient tăng dần.

📌 Llama-3 70B Instruct Gradient 1048K (1 triệu token) thể hiện khả năng vượt trội của các mô hình ngôn ngữ tiên tiến trong việc học hoạt động trên ngữ cảnh dài với lượng huấn luyện tối thiểu, chỉ cần 430 triệu token, tương đương < 0,003% dữ liệu gốc, nhờ điều chỉnh thích hợp RoPE theta và huấn luyện tiệm cận.

Citations:
[1] https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

X ra mắt tính năng tóm tắt tin tức bằng AI nhưng vẫn còn sai sót

• Người dùng X Premium giờ đây có thể đọc các bản tóm tắt tin tức được tạo bởi công cụ AI Grok của công ty.
• Tính năng "Stories on X" được mô tả như một cách để người dùng "thấy thế giới đang nói về điều gì".
• Công cụ này hiện chỉ có sẵn cho người dùng web và iOS, nằm trong tab Khám phá dành cho người đăng ký Premium.
• "Stories on X" được tạo ra từ các bài đăng trên X, một số tóm tắt các tin tức cụ thể, số khác tóm tắt các cuộc trò chuyện đang diễn ra trên nền tảng.
• Tính năng này tương tự như Twitter Moments trước đây, nhưng sử dụng AI thay vì một nhóm biên tập viên người.
• Các bản tóm tắt của Grok đi kèm với tuyên bố miễn trừ rằng nó có thể mắc lỗi và cần xác minh.
• Grok từng quảng bá các tin tức giả về các sự kiện thế giới, chẳng hạn như tuyên bố sai về kết quả bầu cử ở Ấn Độ và Iran tấn công Tel Aviv.
• AI trong hình thức hiện tại thường hiểu sai các bài đăng của con người và đôi khi tự tạo ra "sự thật" của riêng mình.
• X lưu ý rằng các bản tóm tắt có thể thay đổi theo thời gian.

📌 X (trước đây là Twitter) đã ra mắt tính năng "Stories on X" sử dụng AI để tóm tắt tin tức, tuy nhiên vẫn tồn tại những hạn chế như hiểu sai thông tin và đưa ra các "sự thật" không chính xác. Người dùng cần cẩn trọng khi đọc các bản tóm tắt này và xác minh lại thông tin.

Citations:
[1] https://www.pcmag.com/news/x-now-displays-ai-generated-summaries-of-news-events

OpenBioLLM-Llama3 70B và 8B: vượt trội GPT-4, Gemini trong lĩnh vực y tế

- Một nhóm các nhà nghiên cứu đã giới thiệu các mô hình OpenBioLLM-Llama3-70B và 8B, là những mô hình ngôn ngữ lớn (LLM) tiên tiến nhất trong lĩnh vực y tế.
- Các mô hình này có tiềm năng cách mạng hóa hoàn toàn xử lý ngôn ngữ tự nhiên (NLP) y tế bằng cách thiết lập các tiêu chuẩn mới về chức năng và hiệu suất.
- OpenBioLLM-Llama3-70B và 8B vượt trội hơn các mô hình như GPT-4, Gemini, Meditron-70B, Med-PaLM-1 và Med-PaLM-2 trong các tác vụ sinh y, thể hiện sự vượt trội và đột phá đáng kể về khả năng sử dụng và hiệu quả của các mô hình ngôn ngữ y tế.
- OpenBioLLM-70B đã chứng minh hiệu suất tốt nhất, thể hiện khả năng vượt trội so với kích thước của nó, vượt qua GPT-3.5, Gemini và Meditron-70B. 
- Quá trình phát triển bao gồm tối ưu hóa ưu tiên trực tiếp (DPO) và tinh chỉnh cẩn thận sử dụng các mô hình LLama-3 70B và 8B làm nền tảng, đảm bảo OpenBioLLM-Llama3-70B và 8B được tối ưu hóa cho các ứng dụng y tế thực tế.
- Việc phát hành OpenBioLLM-Llama3-70B và 8B đánh dấu kỷ nguyên mới trong NLP y tế với hiệu suất, khả năng tiếp cận và tính thực tiễn được cải thiện trong các bối cảnh chăm sóc sức khỏe.
- Các mô hình này có tiềm năng cách mạng hóa hoàn toàn AI y tế và mở ra cánh cửa cho các giải pháp chăm sóc sức khỏe hiệu quả, chính xác và đạo đức hơn.

📌 OpenBioLLM-Llama3-70B và 8B đánh dấu bước đột phá trong công nghệ LLM y tế với khả năng vượt trội so với GPT-4, Gemini và các mô hình khác. Chúng hứa hẹn cách mạng hóa NLP y tế, mở ra tiềm năng to lớn cho AI y tế và các giải pháp chăm sóc sức khỏe hiệu quả, chính xác và đạo đức hơn trong tương lai.

Citations:
[1] https://www.marktechpost.com/2024/04/29/llama-3-based-openbiollm-llama3-70b-and-8b-outperforming-gpt-4-gemini-meditron-70b-med-palm-1-and-med-palm-2-in-medical-domain/

GitHub ra mắt Copilot Workspace: Công cụ đột phá cho lập trình viên

- GitHub đã giới thiệu Copilot Workspace, một môi trường phát triển AI từ cốt lõi, cho phép lập trình viên sử dụng ngôn ngữ tự nhiên để lên ý tưởng, lập kế hoạch, xây dựng, kiểm thử và chạy mã nhanh chóng và dễ dàng hơn.
- Copilot Workspace khác biệt với Copilot trước đây ở chỗ nó hỗ trợ các tác vụ phức tạp hơn và giảm ma sát cần thiết để bắt đầu một tác vụ.
- GitHub đã cải tiến Copilot bằng cách nâng cấp các gợi ý mã và thêm một cách tiếp cận đa mô hình, hỗ trợ mô hình GPT-4 của OpenAI và ra mắt kế hoạch doanh nghiệp.
- Copilot Workspace bao gồm các tính năng chính như khả năng chỉnh sửa ở mọi cấp độ, một terminal tích hợp có chức năng chuyển tiếp cổng an toàn, chức năng hợp tác và trải nghiệm di động được tối ưu hóa.
- Môi trường này không chỉ giới hạn trên web mà còn có thể truy cập trên các thiết bị di động, cho phép lập trình viên bắt đầu dự án mới mọi lúc, mọi nơi.
- GitHub không coi Copilot Workspace là một thay thế cho các ứng dụng di động hiện có như GitHub Codespaces và ứng dụng GitHub, mà là bổ sung cho trải nghiệm di động hiện tại.
- Copilot Workspace hiện đang ở giai đoạn xem trước kỹ thuật và chưa có thời gian biểu cụ thể cho khi nào môi trường này sẽ có sẵn rộng rãi.

📌 GitHub Copilot Workspace là một bước tiến lớn trong việc tích hợp AI vào môi trường phát triển phần mềm, với các tính năng như chỉnh sửa linh hoạt, terminal tích hợp, và hỗ trợ cộng tác. Môi trường này hứa hẹn sẽ tăng năng suất và sự hài lòng trong công việc cho các nhà phát triển doanh nghiệp.

Citations:
[1] https://venturebeat.com/ai/github-previews-copilot-workspace/

Microsoft Phi-3 Mini: AI siêu nhỏ gọn đạt hiệu suất như ChatGPT

Dưới đây là tóm tắt nội dung từ URL mà bạn cung cấp:

Meta description: Microsoft vừa ra mắt Phi-3 Mini, một mô hình AI cực nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa ChatGPT, có thể chạy trên điện thoại hoặc laptop mà không cần kết nối đám mây.

Meta keywords: Microsoft Phi-3 Mini, mô hình AI nhỏ gọn, 3,8 tỷ tham số, hiệu suất như ChatGPT, chạy cục bộ trên thiết bị

SEO title: Microsoft Phi-3 Mini: AI siêu nhỏ gọn đạt hiệu suất như ChatGPT

Tóm tắt chi tiết:

- Microsoft vừa giới thiệu Phi-3 Mini, một mô hình AI cực kỳ nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình ngôn ngữ lớn nhất hiện nay.

- Phi-3 Mini là mô hình đầu tiên trong 3 mô hình AI nhỏ gọn mà Microsoft đang phát triển, tiếp theo sẽ là Phi-3 Small (7 tỷ tham số) và Phi-3 Medium (14 tỷ tham số). 

- Mặc dù chỉ có 3,8 tỷ tham số, Phi-3 Mini có thể tạo ra kết quả gần tương đương với mô hình GPT-3.5 175 tỷ tham số đang chạy ChatGPT miễn phí và mô hình Mixtral 8x7B của công ty AI Pháp Mistral.

- Phi-3 Mini đủ nhỏ gọn để chạy cục bộ trên thiết bị mà không cần kết nối đám mây. Nó có thể xử lý tối đa 4.000 token ngữ cảnh cùng lúc, với phiên bản đặc biệt 128k token cũng có sẵn.

- Các nhà nghiên cứu của Microsoft đã đạt được kết quả ấn tượng này bằng cách tập trung mô hình 3,8 tỷ tham số tương đối nhỏ vào một tập dữ liệu được biên soạn cực kỳ kỹ lưỡng gồm nội dung web chất lượng cao và tài liệu tổng hợp được phát triển từ các mô hình Phi trước đó.

📌 Microsoft đã tạo ra một bước đột phá với Phi-3 Mini, một mô hình AI siêu nhỏ gọn 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình khổng lồ như GPT-3.5 175 tỷ tham số. Phi-3 Mini có thể chạy cục bộ trên điện thoại hoặc laptop mà không cần kết nối đám mây nhờ việc tập trung vào một tập dữ liệu chất lượng cao được biên soạn kỹ lưỡng.

Citations:
[1] https://www.techspot.com/news/102766-microsoft-phi-3-mini-boasts-chatgpt-level-performance.html

Tin nóng: VinaLlama2 - Mô hình ngôn ngữ lớn đa phương thức thế hệ mới của Việt Nam

- VinaLlama2 là thế hệ thứ hai của mô hình ngôn ngữ lớn tiếng Việt, được phát triển bởi VILM và Alibaba Qwen.
- Mô hình có 4 phiên bản: Turbo, Standard, Pro và SUPER, cùng với biến thể VinaLlama2-Code dành cho các tác vụ lập trình.
- Bộ dữ liệu huấn luyện của VinaLlama2 được xây dựng từ đầu, bao gồm các nguồn sách văn học và lập trình được cấp phép hợp pháp.
- Thay vì 800 tỷ token như phiên bản đầu tiên, VinaLlama2 sử dụng 80 tỷ token dữ liệu tiếp tục tiền huấn luyện chất lượng cao.
- Các giai đoạn tinh chỉnh được kết hợp thành một quá trình duy nhất gọi là Odds Ratio Preference Optimization (ORPO).
- VinaLlama2 được huấn luyện trên 64 cụm máy tính H100 do Alibaba Cloud cung cấp.
- Phiên bản VinaLlama2-Preview sẽ ra mắt vào tháng 7, hỗ trợ đa phương thức giữa văn bản, hình ảnh và âm thanh.
- VinaLlama2-Code, dựa trên CodeQwen-7B, đảm bảo hiệu suất tốt nhất trong các tác vụ lập trình bằng tiếng Việt.

📌 VinaLlama2 đánh dấu bước tiến mới trong công nghệ mô hình ngôn ngữ lớn tại Việt Nam với khả năng đa phương thức, bộ dữ liệu huấn luyện chất lượng cao 80 tỷ token và sức mạnh tính toán từ 64 cụm H100 của Alibaba Cloud. Phiên bản VinaLlama2-Preview hứa hẹn sẽ mang đến trải nghiệm tương tác đa dạng giữa văn bản, hình ảnh và âm thanh khi ra mắt vào tháng 7 này.

Citations:
[1] https://www.vilm.org/vinallama2

Apple ra mắt OpenELM: 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị

- Apple giới thiệu OpenELM (Open-source Efficient Language Models) gồm 8 mô hình ngôn ngữ lớn (LLMs) hoạt động trực tiếp trên thiết bị thay vì dựa vào máy chủ đám mây.

- Các mô hình OpenELM đã có trên nền tảng chia sẻ mã nguồn AI Hugging Face Hub.

- Theo white paper, Apple sử dụng 2 loại mô hình OpenELM: 4 mô hình pre-trained bằng thư viện CoreNet và 4 mô hình instruction-tuned.

- Apple áp dụng chiến lược layer-wise scaling để tăng cường độ chính xác và hiệu quả.

- Ngoài mô hình cuối cùng, Apple còn cung cấp mã nguồn, log huấn luyện và nhiều phiên bản khác nhau.

- Các nhà nghiên cứu kỳ vọng cách tiếp cận này sẽ thúc đẩy tiến bộ và mang lại "kết quả đáng tin cậy hơn" trong lĩnh vực AI ngôn ngữ tự nhiên.

- OpenELM phá vỡ thông lệ trước đây khi chỉ chia sẻ trọng số mô hình và mã suy luận, huấn luyện trên bộ dữ liệu độc quyền. Giờ đây, Apple chia sẻ toàn bộ framework để huấn luyện và đánh giá mô hình trên bộ dữ liệu công khai.

- Apple phát hành OpenELM nhằm "làm giàu và trao quyền cho cộng đồng nghiên cứu mở" với các mô hình ngôn ngữ tiên tiến. Nhà nghiên cứu có thể khám phá rủi ro, dữ liệu và độ chệch. Nhà phát triển và công ty có thể tùy chỉnh mô hình theo nhu cầu.

- Việc Apple chia sẻ thông tin mở đã trở thành công cụ quan trọng để thu hút các kỹ sư, nhà khoa học và chuyên gia hàng đầu, tạo cơ hội cho các nghiên cứu trước đây không thể thực hiện dưới chính sách bảo mật của Apple.

📌 Apple đã giới thiệu OpenELM với 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị. Việc chia sẻ toàn bộ framework huấn luyện trên dữ liệu công khai đánh dấu bước đột phá so với trước đây, hứa hẹn thúc đẩy nghiên cứu AI và thu hút nhân tài về Apple.

Citations:
[1] https://www.macrumors.com/2024/04/24/apple-ai-open-source-models/

Hugging Face chứng kiến sự bùng nổ của hàng nghìn mô hình Llama 3

- Meta đã phát hành phiên bản sớm của mô hình ngôn ngữ lớn mới nhất, Llama 3, và nhận được sự đón nhận rất lớn từ cộng đồng.
- Hugging Face đã có hơn 1000 biến thể của Llama 3 được chia sẻ công khai và dự kiến sẽ đạt 10.000 biến thể vào cuối tuần tới.
- Llama 3 bao gồm một bộ tạo sinh hình ảnh có thể cập nhật ảnh theo thời gian thực khi người dùng nhập lệnh.
- Meta phát hành hai phiên bản của Llama 3: một với 8 tỷ tham số và một với 70 tỷ tham số.
- Cả hai kích thước của Llama 3 đều vượt trội hơn các mô hình cùng kích thước như Gemma và Gemini của Google, Mistral 7B và Claude 3 của Anthropic trên một số bài kiểm tra đánh giá.
- Mô hình 8B của Llama 3 được cho là vượt trội hơn mô hình 70B của Llama 2 trên các bài đánh giá.
- Số lượng token trong Llama 3 đã tăng gấp 4 lần, từ 32.000 (Llama 2) lên 128.000, giúp nén chuỗi hiệu quả hơn, trích dẫn ít token hơn 15% và mang lại hiệu suất tốt hơn.
- Andrej Karpathy, giám đốc AI tại Tesla, ủng hộ việc phát hành các mô hình cơ sở và tinh chỉnh với kích thước 8B và 70B, đồng thời nhấn mạnh sự cần thiết của các mô hình nhỏ hơn cho mục đích giáo dục, kiểm thử đơn vị và ứng dụng nhúng.
- GroqInc giới thiệu 'Llama 3 Researcher', cung cấp Llama 3 8B với tốc độ 876 token/giây, nhanh nhất trong số các mô hình được đánh giá.
- Groq đang tạo ra 800 token mỗi giây trên Llama 3, mở ra khả năng cho các trường hợp sử dụng mới với nhiều hành động diễn ra đồng thời.

📌 Llama 3 của Meta đã tạo ra một làn sóng mới trong cộng đồng AI với hơn 1000 biến thể được chia sẻ trên Hugging Face chỉ trong một tuần và dự kiến sẽ đạt 10.000 biến thể vào cuối tuần tới. Mô hình này vượt trội hơn các đối thủ cùng kích thước, đạt tốc độ token ấn tượng lên tới 876 token/giây và hứa hẹn mở ra nhiều khả năng ứng dụng mới nhờ khả năng xử lý đồng thời nhiều hành động.

Citations:
[1] https://analyticsindiamag.com/hugging-face-already-has-1000s-of-llama-3-models-and-counting/

Alibaba và Baidu đua nhau hỗ trợ mô hình Llama 3 của Meta trên nền tảng đám mây

• Alibaba và Baidu đã nhanh chóng bổ sung hỗ trợ cho mô hình ngôn ngữ lớn Llama 3 của Meta trên nền tảng điện toán đám mây của họ.
• Đơn vị điện toán đám mây của Alibaba đã thêm Llama 3 vào cộng đồng mô hình AI nguồn mở ModelScope, cung cấp quyền truy cập vào nhiều mô hình AI nguồn mở.
• Alibaba Cloud mở rộng hỗ trợ cho các mô hình ngôn ngữ lớn của Meta trên nền tảng Bailian, cung cấp giải pháp đào tạo, suy luận và triển khai miễn phí trong thời gian giới hạn.
• Baidu là công ty công nghệ lớn đầu tiên của Trung Quốc hành động, cung cấp dịch vụ đào tạo và suy luận cho Llama 3 trên nền tảng dịch vụ mô hình Qianfan.
• Bailian là một nền tảng dịch vụ mô hình ngôn ngữ lớn cung cấp các công cụ và dịch vụ hỗ trợ khách hàng xây dựng và đào tạo mô hình riêng bằng dịch vụ điện toán đám mây của Alibaba.
• Qianfan được ra mắt để giúp khách hàng doanh nghiệp xây dựng, đào tạo và triển khai các ứng dụng AI.

📌 Alibaba và Baidu đã nhanh chóng hỗ trợ mô hình Llama 3 của Meta trên nền tảng đám mây, cung cấp dịch vụ đào tạo và suy luận miễn phí trong thời gian giới hạn. Điều này cho thấy sự cạnh tranh gay gắt giữa các gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI.

Citations:
[1] https://www.scmp.com/tech/tech-trends/article/3259945/alibaba-baidu-rush-add-support-metas-llama-3-their-cloud-computing-platforms

Meta ra mắt mô hình AI "nguồn mở" Llama 3 gây tranh cãi về giấy phép

- Meta giới thiệu Llama 3 8B và Llama 3 70B, các mô hình AI tạo sinh mới nhất trong series Llama, có khả năng phân tích và tạo văn bản.
- Mặc dù được Meta gọi là "nguồn mở", các mô hình này đi kèm một số hạn chế về giấy phép như không được dùng để huấn luyện mô hình khác, các nhà phát triển ứng dụng có trên 700 triệu người dùng hàng tháng phải xin giấy phép đặc biệt.
- Khái niệm "nguồn mở" trong bối cảnh AI gây nhiều tranh cãi. Bản quyền, cơ chế sở hữu trí tuệ nền tảng của giấy phép nguồn mở, khó áp dụng cho các thành phần khác nhau của dự án AI.
- Nghiên cứu của các nhà khoa học từ Carnegie Mellon, AI Now Institute và Signal Foundation cho thấy nhiều mô hình AI được gọi là "nguồn mở" có những hạn chế đáng kể như giới hạn quyền truy cập dữ liệu, sức mạnh tính toán không đủ và chi phí lao động cao để tinh chỉnh.
- Trong một cuộc phỏng vấn, nhà nghiên cứu AI lâu năm Stuart Russell và nghiên cứu sinh Michael Cohen suy đoán về "Làm thế nào để ngăn AI giết chết tất cả chúng ta", một vấn đề cần giải quyết sớm hơn là muộn.

📌 Meta ra mắt Llama 3 8B và 70B, các mô hình AI tạo sinh "nguồn mở" nhưng đi kèm nhiều hạn chế giấy phép. Định nghĩa "nguồn mở" trong AI đang gây tranh cãi do khó áp dụng cơ chế bản quyền. Các chuyên gia cũng đang nghiên cứu cách kiểm soát AI để tránh nguy hiểm cho nhân loại.

Citations:
[1] https://techcrunch.com/2024/04/20/this-week-in-ai-when-open-source-isnt-so-open/

hugging face ra mắt idefics2 - mô hình đa phương thức mã nguồn mở 8 tỷ tham số vượt trội

- Hugging Face giới thiệu Idefics2, một mô hình đa phương thức mã nguồn mở chấp nhận chuỗi đầu vào hình ảnh và văn bản tùy ý, tạo ra đầu ra văn bản.
- Mô hình có thể trả lời câu hỏi về hình ảnh, mô tả nội dung thị giác, tạo câu chuyện dựa trên nhiều hình ảnh hoặc đơn giản là hoạt động như một mô hình ngôn ngữ thuần túy mà không cần đầu vào thị giác.
- Idefics2 chỉ có 8 tỷ tham số nhưng vượt trội hơn đáng kể so với phiên bản tiền nhiệm Idefics1 và các mô hình ngôn ngữ lớn hơn như LLava-Next-34B và MM1-30B-chat trong các tác vụ thị giác.
- Mô hình được huấn luyện trên nhiều bộ dữ liệu công khai như tài liệu web, cặp hình ảnh-chú thích và dữ liệu OCR.
- Idefics2 được tinh chỉnh trên bộ dữ liệu mới "The Cauldron" tổng hợp 50 bộ dữ liệu được tuyển chọn cẩn thận để huấn luyện hội thoại đa dạng.
- Cải tiến kiến trúc quan trọng của Idefics2 là đơn giản hóa việc tích hợp các đặc trưng thị giác vào nền tảng ngôn ngữ thông qua Learned Perceiver Pooling và MLP modality projection.
- Idefics2 thể hiện cách tiếp cận tinh tế hơn trong xử lý hình ảnh, duy trì độ phân giải và tỷ lệ khung hình gốc, khác với các chuẩn thay đổi kích thước thông thường trong thị giác máy tính.

📌 Idefics2 của Hugging Face là một bước tiến ấn tượng trong lĩnh vực mô hình đa phương thức mã nguồn mở. Chỉ với 8 tỷ tham số, mô hình vẫn vượt trội các đối thủ lớn hơn trong các tác vụ thị giác nhờ kiến trúc cải tiến và huấn luyện trên tập dữ liệu đa dạng "The Cauldron".

Citations:
[1] https://analyticsindiamag.com/hugging-face-open-source-idefics-2-8b-multimodal-model/

Yann LeCun: Các nền tảng AI nguồn đóng sẽ kiểm soát tất cả những gì chúng ta thấy

- Theo Yann LeCun, một trong ba cha đẻ của AI, trong tương lai mọi tương tác của chúng ta với thế giới kỹ thuật số sẽ được điều phối bởi các trợ lý AI. 
- Ông nhấn mạnh rằng các trợ lý AI sẽ trở thành kho chứa toàn bộ tri thức và văn hóa của nhân loại, giống như vai trò của internet ngày nay.
- LeCun kêu gọi các nền tảng AI phải là nguồn mở, nếu không sẽ rất nguy hiểm nếu chỉ một số ít công ty kiểm soát toàn bộ nguồn cung cấp thông tin kỹ thuật số của mọi công dân trên thế giới.
- Ông cho rằng điều này sẽ cực kỳ nguy hiểm cho sự đa dạng tư tưởng, cho nền dân chủ và hầu như mọi thứ. 
- Đã có nhiều ví dụ cho thấy sự sai lệch và thiên vị khi chỉ một vài công ty nắm quyền kiểm soát việc tạo ra "sự hiểu biết văn hóa" cho cả thế giới.
- Nhiều chính phủ đang cân nhắc về lợi ích và nguy cơ của AI. Một số cho rằng AI quá nguy hiểm nên đang tìm cách quy định, thậm chí cấm AI nguồn mở. 
- LeCun cho rằng điều này cực kỳ nguy hiểm cho tương lai của nhân loại và nhấn mạnh rằng sẽ quá nguy hiểm nếu AI bị kiểm soát bởi một số ít người.

📌 Yann LeCun, nhà khoa học AI hàng đầu của Meta, cảnh báo về nguy cơ của việc các nền tảng AI nguồn đóng kiểm soát tri thức và văn hóa của nhân loại. Ông kêu gọi các nền tảng AI phải là nguồn mở để tránh tình trạng một số ít công ty chi phối tư tưởng và thông tin, gây nguy hiểm cho sự đa dạng và dân chủ.

Citations:
[1] https://analyticsindiamag.com/ai-platforms-will-control-what-everybody-sees-metas-ai-chief-yann-lecun/

Meta tung LLAMA 3 mạnh mẽ đối đầu ChatGPT

- Meta giới thiệu trợ lý AI mới, tích hợp vào ô tìm kiếm của Instagram, Facebook, WhatsApp, Messenger và xuất hiện trực tiếp trong feed Facebook.
- Trợ lý AI của Meta hiện có thể truy cập qua trang web riêng tại Meta.ai.
- Meta công bố Llama 3, phiên bản chính tiếp theo của mô hình nguồn mở nền tảng, vượt trội hơn các mô hình cùng loại trên các tiêu chuẩn quan trọng và tốt hơn trong các tác vụ như lập trình.
- Hai mô hình Llama 3 nhỏ hơn được phát hành hôm nay, cả trong trợ lý Meta AI và cho các nhà phát triển bên ngoài, trong khi phiên bản lớn hơn, đa phương thức sẽ ra mắt trong những tháng tới.
- CEO Mark Zuckerberg cho biết mục tiêu là biến Meta AI thành "trợ lý AI thông minh nhất mà mọi người có thể sử dụng tự do trên toàn thế giới".
- Trước khi phiên bản tiên tiến nhất của Llama 3 ra mắt, sẽ có các bản cập nhật lặp đi lặp lại cho các mô hình nhỏ hơn, như cửa sổ ngữ cảnh dài hơn và đa phương thức hơn.
- Meta muốn trợ lý của mình trở nên cá nhân hóa hơn và có thể tạo ra hình ảnh theo phong cách riêng của người dùng.
- Tốc độ thay đổi của các mô hình AI đang diễn ra rất nhanh, ngay cả khi Meta đang khẳng định lại vị trí dẫn đầu nguồn mở với Llama 3, không ai biết ngày mai sẽ mang lại điều gì.
- OpenAI được đồn đại đang chuẩn bị GPT-5, có thể vượt qua phần còn lại của ngành một lần nữa.

📌 Meta ra mắt trợ lý AI mới tích hợp vào nhiều nền tảng, sử dụng mô hình nguồn mở Llama 3 vượt trội. Mục tiêu là trở thành trợ lý AI thông minh nhất, tự do sử dụng trên toàn cầu. Tuy nhiên, tốc độ phát triển AI đang rất nhanh với tin đồn OpenAI chuẩn bị GPT-5, hứa hẹn cuộc đua gay cấn.

Citations:
[1] https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival

Snowflake ra mắt mô hình nhúng văn bản arctic-embed cho các trường hợp sử dụng truy xuất

- Snowflake giới thiệu và mở mã nguồn arctic-embed, một dòng gồm 5 mô hình nhúng văn bản với giấy phép Apache 2.0.

- Kích thước mô hình dao động từ 23 đến 334 triệu tham số, một mô hình có cửa sổ ngữ cảnh mở rộng, mang lại nhiều lựa chọn tối ưu về độ trễ, chi phí và hiệu suất truy xuất.

- Dựa trên bảng xếp hạng Massive Text Embedding Benchmark (MTEB) Retrieval, mô hình Arctic embed lớn nhất với 334 triệu tham số là mô hình duy nhất vượt qua hiệu suất truy xuất trung bình 55,9.

- Các mô hình có sẵn trên Hugging Face để sử dụng ngay và sẽ sớm có trong hàm Snowflake Cortex embed (đang trong giai đoạn xem trước riêng tư).

- Khi kết hợp với bộ dữ liệu độc quyền và LLM, các mô hình mang lại lợi thế mới cho các tổ chức trong việc tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) hoặc dịch vụ tìm kiếm ngữ nghĩa.

- Tính đến ngày 16/04/2024, snowflake-arctic-embed-l là mô hình nguồn mở mạnh mẽ nhất có thể sử dụng trong sản xuất dựa trên tỷ lệ hiệu suất trên kích thước.

 

📌 Snowflake ra mắt arctic-embed, bộ 5 mô hình nhúng văn bản tiên tiến với kích thước từ 23-334 triệu tham số và cửa sổ ngữ cảnh mở rộng. Mô hình lớn nhất đạt hiệu suất truy xuất vượt trội so với các đối thủ. Chúng được mở mã nguồn trên Hugging Face, tích hợp vào Snowflake Cortex, mang lại lợi thế khi kết hợp với dữ liệu độc quyền và LLM cho các ứng dụng RAG và tìm kiếm ngữ nghĩa.

 

Citations:

[1] Snowflake Launches Practical Text-Embedding Model for Retrieval use Cases https://www.snowflake.com/blog/introducing-snowflake-arctic-embed-snowflakes-state-of-the-art-text-embedding-family-of-models/

 

Intel và các đối tác cam kết xây dựng công cụ AI tạo sinh nguồn mở cho doanh nghiệp

- Linux Foundation đã ra mắt dự án Open Platform for Enterprise AI (OPEA) nhằm thúc đẩy sự phát triển của các hệ thống AI tạo sinh mở, đa nhà cung cấp và có thể tổng hợp cho doanh nghiệp.

- Mục tiêu của OPEA là mở đường cho việc phát hành các hệ thống AI tạo sinh "vững chắc", "có khả năng mở rộng" và "khai thác sự đổi mới nguồn mở tốt nhất từ toàn bộ hệ sinh thái".

- Intel đã đóng góp các triển khai tham chiếu cho chatbot, công cụ tóm tắt tài liệu và trình tạo mã được tối ưu hóa cho phần cứng Xeon 6 và Gaudi 2 của họ trong kho lưu trữ OPEA.

- OPEA sẽ làm việc với cộng đồng nguồn mở để cung cấp các bài kiểm tra dựa trên tiêu chí đánh giá, cũng như cung cấp đánh giá và chấm điểm cho các triển khai AI tạo sinh theo yêu cầu.

- Các thành viên của OPEA như Cloudera, Domino và VMware đều đang đầu tư vào việc xây dựng công cụ cho AI tạo sinh trong doanh nghiệp.

- Cloudera gần đây đã ra mắt các quan hệ đối tác để tạo ra một "hệ sinh thái AI" trên đám mây, trong khi Domino cung cấp một bộ ứng dụng để xây dựng và kiểm toán AI tạo sinh cho doanh nghiệp.

 

📌 Dự án OPEA của Linux Foundation nhằm thúc đẩy sự phát triển của các hệ thống AI tạo sinh mở, đa nhà cung cấp và có thể tổng hợp cho doanh nghiệp. Với sự tham gia của Intel, Cloudera, VMware và Domino, OPEA hướng tới việc tạo ra các công cụ vững chắc, có khả năng mở rộng, khai thác sự đổi mới nguồn mở từ toàn bộ hệ sinh thái AI.

 

Citations:

[1] Intel and others commit to building open generative AI tools for the enterprise | TechCrunch https://techcrunch.com/2024/04/16/intel-and-others-commit-to-building-open-generative-ai-tools-for-the-enterprise/

 

WizardLM-2 nổi lên như một đối thủ đáng gờm của các mô hình ngôn ngữ lớn đóng như GPT-4 và Claude 3 Opus

- WizardLM giới thiệu WizardLM-2, một mô hình ngôn ngữ SOTA mã nguồn mở với hiệu suất cải thiện trong các tác vụ trò chuyện phức tạp, đa ngôn ngữ, lập luận và tác tử.

- Mô hình có 3 phiên bản: WizardLM-2 8x22B xuất sắc trong các tác vụ phức tạp, WizardLM-2 70B cung cấp khả năng lập luận hàng đầu, và WizardLM-2 7B nhanh nhất trong khi vẫn đạt hiệu suất tương đương các mô hình lớn gấp 10 lần.

- Trọng số mô hình WizardLM-2 8x22B và 7B đã có sẵn trên Hugging Face nhưng sau đó bị gỡ xuống do phát hành sớm.

- Mô hình Mixture of Experts đa ngôn ngữ có tổng kích thước tham số 141 tỷ. Nó được cấp phép Apache 2.0, tương tự như Llama 2, giúp nó cạnh tranh mạnh mẽ.

- WizardLM tin rằng dữ liệu do AI tạo ra một cách cẩn thận và mô hình được giám sát từng bước bởi AI sẽ là con đường duy nhất dẫn đến AI mạnh mẽ hơn.

- Trong khi Llama 3 sắp ra mắt, các mô hình khác như Gemma của Google, Phi-2 và Orca của Microsoft cũng đang cạnh tranh gay gắt. Amazon vẫn im lặng về việc tạo ra các mô hình nhỏ hơn và dựa vào các mô hình mã nguồn mở.

 

📌 WizardLM-2 nổi lên như một đối thủ đáng gờm của các mô hình ngôn ngữ lớn đóng như GPT-4 và Claude 3 Opus với 3 phiên bản mạnh mẽ 8x22B, 70B và 7B. Mô hình 141B tham số này sử dụng cấp phép mã nguồn mở Apache 2.0 và được đào tạo trên dữ liệu tổng hợp do AI tạo ra, hứa hẹn mở ra con đường mới cho các AI mạnh mẽ hơn trong tương lai.

 

Citations:

[1] The Dumbledore of LLMs https://analyticsindiamag.com/the-dumbledore-of-llms/

 

Kết thúc cuộc đua tìm mô hình ngôn ngữ lớn mã nguồn mở tốt nhất

- Tác giả đã 3 lần công bố mô hình ngôn ngữ lớn mã nguồn mở tốt nhất: Llama 2, Mixtral và DBRX. Mỗi phiên bản là bước tiến đáng kể về hiệu suất trên mỗi tham số (với ngân sách tính toán cố định).
- Mô hình 70 tỷ tham số nắm bắt nhiều chi tiết hơn hẳn mô hình 7 tỷ tham số được huấn luyện tương tự. Biểu đồ từ Maxime Labonne cho thấy sự dịch chuyển từ Llama 2 sang Mixtral chủ yếu là về nén hiệu suất.
- Các mô hình Yi và Qwen không được áp dụng rộng rãi do thiên kiến trong tường thuật về mô hình mã nguồn mở. Chúng đáng lẽ có thể được gọi là mô hình ngôn ngữ lớn tiên tiến nhất.
- Khi chuẩn hóa theo tính toán, hầu hết lợi ích từ Llama 2 đến từ việc mở rộng quy mô tính toán. MMLU chỉ là một phép đo, nhưng nó cho thấy tính toán đơn giản có thể mang lại hiệu suất như thế nào.
- Sự khác biệt cốt lõi giữa các mô hình ngôn ngữ lớn mở và đóng là lượng dữ liệu huấn luyện. DBRX là mô hình mở duy nhất được xác nhận huấn luyện trên lượng lớn token, khoảng 2-3 nghìn tỷ, thay đổi lớn so với các nhà cung cấp mô hình công nghiệp.

📌 Cuộc đua tìm ra mô hình ngôn ngữ lớn mã nguồn mở tốt nhất đã kết thúc với Llama 2, Mixtral và DBRX. Tuy nhiên, xu hướng hiện nay là tập trung vào các mô hình hiệu quả tính toán. Sự khác biệt chính giữa mô hình mở và đóng nằm ở lượng dữ liệu huấn luyện, với DBRX là mô hình mở duy nhất sử dụng tới hàng nghìn tỷ token.

Citations:
[1] https://www.interconnects.ai/p/compute-efficient-open-llms

Trợ lý lập trình AI mã nguồn mở aiXcoder 7B vượt trội hơn Code Llama

- aiXcoder 7B là một mô hình ngôn ngữ lớn lập trình mã nguồn mở mới với 7 tỷ tham số, thể hiện hiệu suất vượt trội so với các mô hình khác như Code Llama 34B và Star Coder 15B trong các tác vụ tạo mã.

 

- Nó hỗ trợ nhiều ngôn ngữ lập trình, bao gồm Python, JavaScript, C++ và các ngôn ngữ khác, đồng thời tích hợp với các IDE phổ biến như VS Code và JetBrains thông qua các plugin.

 

- aiXcoder 7B đã được huấn luyện trên 1.2 nghìn tỷ token duy nhất và xuất sắc trong việc hoàn thành mã, hiểu và tạo mã.

 

- Một trong những tính năng nổi bật của aiXcoder 7B là khả năng hỗ trợ đa ngôn ngữ toàn diện, đáp ứng nhu cầu của các nhà phát triển làm việc với Python, JavaScript và C++.

 

- Tính linh hoạt của nó cho phép tích hợp liền mạch vào các IDE phổ biến như Visual Studio Code và JetBrains thông qua các plugin thân thiện với người dùng.

 

- Hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở sôi động giúp củng cố vị trí của aiXcoder 7B như một công cụ không thể thiếu cho bất kỳ nhà phát triển nào muốn nâng cao trải nghiệm lập trình.

 

📌 aiXcoder 7B, một trợ lý lập trình AI mã nguồn mở mới với 7 tỷ tham số, đã thể hiện hiệu suất vượt trội so với các mô hình như Code Llama và Star Coder trong việc tạo mã. Nó hỗ trợ nhiều ngôn ngữ lập trình, tích hợp liền mạch với các IDE phổ biến, và xuất sắc trong hoàn thành, hiểu và tạo mã. Với hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở, aiXcoder 7B hứa hẹn sẽ là công cụ không thể thiếu cho các nhà phát triển.

 

Citations:

[1] aiXcoder 7B open source AI coding assistant outperforms Code Llama https://www.geeky-gadgets.com/ai-coding-assistant-aixcoder/

 

Mistral - niềm hy vọng AI của châu Âu trong cuộc đua công nghệ toàn cầu

- Arthur Mensch, 31 tuổi, là CEO và đồng sáng lập Mistral, một công ty AI của Pháp được kỳ vọng sẽ cạnh tranh với OpenAI và Google.
- Chỉ sau một năm thành lập tại Paris, Mistral đã thu hút sự chú ý đáng kể và được chính phủ Pháp xác định là niềm hy vọng tốt nhất của châu Âu trong cuộc đua AI.
- Chính phủ Pháp đã vận động hành lang các nhà hoạch định chính sách EU để hỗ trợ sự phát triển của Mistral.
- Các nhà hoạch định chính sách và lãnh đạo doanh nghiệp châu Âu lo ngại rằng tăng trưởng và khả năng cạnh tranh của khu vực sẽ bị ảnh hưởng nếu không bắt kịp cuộc cách mạng AI.
- Họ cũng e ngại việc để các gã khổng lồ công nghệ như Microsoft và Google định hình các tiêu chuẩn AI toàn cầu, vốn có thể không phù hợp với các giá trị văn hóa và chính trị của các quốc gia khác.
- Câu hỏi lớn hơn là mô hình AI nào sẽ định hình thế giới và chúng nên được quản lý như thế nào.
- Arthur Mensch, từng là kỹ sư tại phòng thí nghiệm DeepMind của Google ở Paris, cho rằng sự vắng mặt của một nhà vô địch châu Âu đồng nghĩa với việc lộ trình sẽ do Mỹ định đoạt.

📌 Mistral, công ty khởi nghiệp AI của Pháp do Arthur Mensch đồng sáng lập, đang được kỳ vọng trở thành đối trọng của châu Âu trong cuộc đua AI toàn cầu. Chính phủ Pháp đã xác định Mistral là niềm hy vọng tốt nhất để thiết lập một đại diện và vận động hành lang EU hỗ trợ sự phát triển của công ty. Châu Âu đang lo ngại về hậu quả nếu tụt hậu trong cuộc cách mạng AI và để các gã khổng lồ công nghệ Mỹ định hình các tiêu chuẩn AI toàn cầu.

Citations:
[1] https://www.nytimes.com/2024/04/12/business/artificial-intelligence-mistral-france-europe.html

Meta AI phát hành OpenEQA: bước tiến mới trong nghiên cứu trí thông minh thể hiện cho tác tử AI

- Meta AI vừa giới thiệu OpenEQA, một framework mã nguồn mở và tập dữ liệu để thúc đẩy nghiên cứu về trí thông minh thể hiện (embodied intelligence) trong các tác tử nhân tạo.
- OpenEQA cho phép các tác tử AI tương tác với môi trường 3D, trả lời các câu hỏi và thực hiện các tác vụ phức tạp dựa trên thông tin đa phương thức như thị giác, ngôn ngữ và hành động.
- Mục tiêu của OpenEQA là tạo ra các hệ thống AI có khả năng lập luận, học hỏi và thích ứng linh hoạt như con người trong thế giới thực.
- OpenEQA bao gồm hơn 1 triệu câu hỏi đa dạng trên 10.000 ngữ cảnh 3D khác nhau, giúp đánh giá khả năng của các tác tử AI trong việc trả lời câu hỏi và hoàn thành nhiệm vụ.
- Các tác tử AI trong OpenEQA có thể di chuyển, quan sát môi trường từ nhiều góc độ, tương tác với các vật thể và sử dụng ngôn ngữ tự nhiên để trả lời câu hỏi.
- OpenEQA tích hợp với nền tảng Habitat của Meta AI, cho phép mô phỏng các môi trường 3D thực tế và đào tạo các mô hình AI trên quy mô lớn.
- Bộ dữ liệu của OpenEQA được chia thành 3 loại câu hỏi: câu hỏi quan sát (chỉ cần quan sát môi trường), câu hỏi hành động (cần thực hiện hành động để trả lời) và câu hỏi dẫn đường (tìm đường đến đích).
- OpenEQA cũng cung cấp các công cụ để đánh giá và so sánh hiệu suất của các mô hình AI khác nhau trên tập dữ liệu.
- Theo Meta AI, OpenEQA sẽ thúc đẩy sự phát triển của các hệ thống AI đa phương thức, có khả năng học hỏi, lập luận và hoạt động hiệu quả trong thế giới thực, mở ra nhiều ứng dụng tiềm năng trong tương lai.

📌 OpenEQA của Meta AI là một bước tiến quan trọng trong nghiên cứu trí thông minh thể hiện cho các tác tử nhân tạo. Với hơn 1 triệu câu hỏi đa dạng trên 10.000 bối cảnh 3D, OpenEQA tạo điều kiện để phát triển các hệ thống AI đa phương thức, có khả năng tương tác, lập luận và thích ứng linh hoạt như con người, hứa hẹn nhiều ứng dụng thực tế trong tương lai.

Citations:
[1] https://venturebeat.com/ai/meta-ai-releases-openeqa-to-spur-embodied-intelligence-in-artificial-agents/

Tương lai của AI doanh nghiệp: mã nguồn mở và triển khai tại chỗ

- Hiện nay, sự quan tâm về AI tập trung vào các dịch vụ AI tạo sinh quy mô lớn dựa trên đám mây như ChatGPT của OpenAI hay Microsoft Copilot.
- Tuy nhiên, các chuyên gia cho rằng trong tương lai gần, nhiều tổ chức có thể tự chạy dịch vụ AI tùy chỉnh trên phần cứng sở hữu hoặc thuê một cách dễ dàng và khả thi.
- Các yếu tố chi phí ban đầu đắt đỏ nhất của AI là dữ liệu huấn luyện và học sâu. Khi đã có cả hai, trọng tâm chuyển sang làm cho quá trình suy luận (đầu ra thực tế của AI) rẻ hơn và hiệu quả hơn.
- Nếu có dữ liệu riêng và xây dựng mô hình tùy chỉnh, nó sẽ rất hiệu quả về chi phí và mang lại nhiều giá trị hơn cho lĩnh vực vấn đề mà nó giải quyết.
- Các AI mã nguồn mở như Llama 2 hay Gemma có thể chạy tại chỗ đang tiệm cận về hiệu suất với các AI độc quyền phổ biến hơn và có thể sớm không thể phân biệt được từ góc nhìn của người dùng trung bình.
- Dell lạc quan rằng triển khai tại chỗ là tương lai của AI doanh nghiệp, mặc dù họ không thiên vị về kiến trúc bán dẫn cụ thể sẽ chạy nó.
- IBM đang xây dựng các mạch tích hợp chuyên dụng tập trung vào AI, và PC/laptop với chip AI chuyên dụng cuối cùng có thể tự xử lý một số tính toán AI.
- Khi chi phí đào tạo giảm, các công ty khởi nghiệp AI có thể cạnh tranh sòng phẳng hơn với các ông lớn công nghệ.

📌 Các yếu tố chi phí ban đầu đắt đỏ nhất của AI là dữ liệu huấn luyện và học sâu. Khi đã có cả hai, trọng tâm chuyển sang làm cho quá trình suy luận (đầu ra thực tế của AI) rẻ hơn và hiệu quả hơn. Trong tương lai gần, AI doanh nghiệp có thể chuyển dịch mạnh sang hướng mã nguồn mở và triển khai tại chỗ nhờ giảm chi phí đào tạo, sự tiệm cận về hiệu suất giữa AI mã nguồn mở và độc quyền, cũng như sự phát triển của phần cứng chuyên dụng cho AI. Điều này mở ra cơ hội cho các tổ chức tự triển khai dịch vụ AI tùy chỉnh hiệu quả.

Citations:
[1] https://www.itbrew.com/stories/2024/04/11/the-future-of-enterprise-ai-could-be-open-source-and-on-prem

Mistral AI ra mắt Mixtral 8x22B - Mô hình AI mã nguồn mở mạnh mẽ với kiến trúc MoE thưa

- Mistral AI, một công ty khởi nghiệp AI mã nguồn mở có trụ sở tại Paris, đã ra mắt mô hình ngôn ngữ lớn mới nhất của mình, Mixtral 8x22B. Mô hình này được kỳ vọng sẽ vượt trội hơn mô hình trước đó của công ty, Mixtral 8x7B, vốn đã được đánh giá cao so với các đối thủ nổi tiếng như GPT-3.5 của OpenAI và Llama 2 của Meta Platforms Inc.

- Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, cho phép xử lý và tham chiếu một lượng lớn văn bản cùng lúc. Mô hình này cũng có kích thước tham số lên tới 176 tỷ, tức số lượng biến nội bộ mà nó sử dụng để đưa ra quyết định và dự đoán.

- Mistral AI được thành lập bởi các nhà nghiên cứu AI từ Google và Meta. Công ty đã huy động được 415 triệu đô la vào tháng 12 và được định giá hơn 2 tỷ đô la. Mixtral 8x22B được phát hành thông qua liên kết torrent trên nền tảng truyền thông xã hội X và sau đó có sẵn trên các nền tảng Hugging Face và Together AI.

- Mixtral 8x22B sử dụng kiến trúc "mixture-of-experts" (MoE) thưa, cho phép nó thực hiện tính toán hiệu quả và mang lại hiệu suất cao trên nhiều tác vụ khác nhau. Mặc dù có kích thước rất lớn, mô hình này chỉ yêu cầu khoảng 44 tỷ tham số hoạt động cho mỗi lần truyền tiến, giúp nó nhanh hơn và tiết kiệm chi phí hơn so với các mô hình có kích thước tương tự.

Kết luận: Việc ra mắt Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, kích thước tham số lên tới 176 tỷ là một cột mốc quan trọng cho AI tạo sinh mã nguồn mở. Tuy nhiên, Mistral AI cũng nhận một số chỉ trích vì không thể ngăn chặn việc sử dụng công nghệ của mình vào mục đích có hại.

 

https://siliconangle.com/2024/04/10/mistralai-debuts-mixtral-8x22b-one-powerful-open-source-ai-models-yet/

Google ra mắt loạt công cụ mã nguồn mở hỗ trợ phát triển AI tạo sinh

- Google ra mắt nhiều công cụ mã nguồn mở hỗ trợ các dự án và cơ sở hạ tầng AI tạo sinh tại hội nghị Cloud Next.
- MaxDiffusion là bộ sưu tập các triển khai tham chiếu của các mô hình khuếch tán chạy trên các thiết bị XLA như TPU của Google và GPU mới của Nvidia.
- JetStream là một công cụ mới để chạy các mô hình AI tạo sinh văn bản, hiện hỗ trợ TPU và sẽ tương thích với GPU trong tương lai, mang lại hiệu suất cao gấp 3 lần trên mỗi đô la chi phí.
- MaxText bổ sung thêm các mô hình tạo sinh văn bản như Gemma 7B, GPT-3, Llama 2 và các mô hình từ Mistral, được tối ưu hóa hiệu suất trên TPU và GPU.
- Google hợp tác với Hugging Face tạo ra Optimum TPU, cung cấp công cụ để đưa các tác vụ AI nhất định lên phần cứng TPU, hiện mới chỉ hỗ trợ mô hình Gemma 7B và chạy mô hình chứ chưa hỗ trợ huấn luyện.
- Các cải tiến này tối đa hóa việc sử dụng GPU và TPU, dẫn đến hiệu quả năng lượng cao hơn và tối ưu hóa chi phí.
- Google hứa hẹn sẽ cải thiện các công cụ này trong tương lai.

📌 Google đã ra mắt hàng loạt công cụ mã nguồn mở như MaxDiffusion, JetStream, MaxText và Optimum TPU nhằm hỗ trợ phát triển các dự án AI tạo sinh. Các công cụ này giúp tối ưu hóa hiệu suất lên đến 3 lần và giảm chi phí triển khai trên phần cứng TPU và GPU, mặc dù vẫn còn một số hạn chế cần được cải thiện trong tương lai.

https://techcrunch.com/2024/04/09/google-open-sources-tools-to-support-ai-model-development/

bộ mô hình ngôn ngữ mở đa dạng cho các ngôn ngữ Đông Nam Á, từ 0.5B đến 7B tham số

- Sailor là một họ các mô hình ngôn ngữ mở với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho sự đa dạng ngôn ngữ của khu vực Đông Nam Á (SEA).
- Các mô hình Sailor dựa trên mô hình ngôn ngữ linh hoạt Qwen1.5 và được tiền huấn luyện liên tục trên một kho ngữ liệu lớn gồm 200B đến 400B token.
- Phần lớn kho ngữ liệu bao gồm tiếng Anh, tiếng Trung, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai và tiếng Lào.
- Quy trình huấn luyện sử dụng nhiều chiến lược như BPE dropout để tăng cường khả năng tổng quát hóa của mô hình và giảm thiểu vấn đề quá khớp.
- Các quy trình khử trùng lặp và làm sạch dữ liệu nghiêm ngặt được áp dụng để đảm bảo chất lượng của tập huấn luyện, từ đó cải thiện hiệu suất tổng thể của các mô hình Sailor.
- Tỷ lệ kết hợp dữ liệu huấn luyện được tối ưu hóa bằng cách sử dụng các mô hình proxy nhỏ, cho phép điều chỉnh siêu tham số và nâng cao hiệu quả của quá trình huấn luyện.
- Các thử nghiệm trên nhiều tác vụ như kiểm tra, trả lời câu hỏi, đọc hiểu và suy luận thông thường đã chứng minh tính mạnh mẽ và hữu ích của các mô hình Sailor so với các tiêu chuẩn đa dạng.
- Nghiên cứu trình bày một phương pháp toàn diện để phát triển các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả trong sự đa dạng ngôn ngữ của khu vực SEA.

📌 Sailor là một bộ mô hình ngôn ngữ mở đầy hứa hẹn với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho các ngôn ngữ Đông Nam Á. Dựa trên Qwen1.5 và được tiền huấn luyện trên kho ngữ liệu 200B-400B token, Sailor đạt hiệu suất vượt trội trên nhiều tác vụ nhờ các kỹ thuật như BPE dropout, làm sạch dữ liệu và tối ưu hóa tỷ lệ kết hợp dữ liệu huấn luyện.

https://www.marktechpost.com/2024/04/09/meet-sailor-a-family-of-open-language-models-ranging-from-0-5b-to-7b-parameters-for-southeast-asian-sea-languages/

https://arxiv.org/abs/2404.03608

Tinh chỉnh mô hình ngôn ngữ nguồn mở Mistral 7B-V0.2 với Hugging Face

- Mistral AI, một trong những công ty nghiên cứu AI hàng đầu thế giới, đã phát hành mô hình cơ sở cho Mistral 7B v0.2 - mô hình ngôn ngữ nguồn mở mới nhất.
- Mô hình Mistral 7B có 7.3 tỷ tham số, vượt trội hơn Llama 2 13B và Llama 1 34B trên hầu hết các bài kiểm tra đánh giá.
- Phiên bản V0.2 giới thiệu cửa sổ ngữ cảnh 32k cùng với các cải tiến khác, nâng cao khả năng xử lý và tạo văn bản.
- Bài hướng dẫn chi tiết cách truy cập và tinh chỉnh mô hình ngôn ngữ này trên nền tảng Hugging Face.
- Sử dụng tính năng AutoTrain của Hugging Face để tự động hóa quá trình đào tạo mô hình, giúp người dùng thông thường có thể phát triển các giải pháp AI tiên tiến.
- Hướng dẫn cụ thể các bước cần thiết để tinh chỉnh mô hình Mistral 7B-V0.2 trên tập dữ liệu tùy chỉnh, bao gồm tạo kho lưu trữ mô hình, chuẩn bị tập dữ liệu, cấu hình tham số và khởi chạy quá trình đào tạo.

📌 Mistral 7B-V0.2 là mô hình ngôn ngữ nguồn mở mạnh mẽ với 7,3 tỷ tham số, vượt trội hơn nhiều mô hình khác. Bài hướng dẫn chi tiết cách tinh chỉnh mô hình này trên nền tảng Hugging Face, giúp người dùng tạo ra các giải pháp AI tiên tiến dựa trên tập dữ liệu tùy chỉnh.

Citations:
[1] https://www.kdnuggets.com/mistral-7b-v02-fine-tuning-mistral-new-open-source-llm-with-hugging-face

 

aurora-m: mô hình ai nguồn mở đa ngôn ngữ 15 tỷ tham số được huấn luyện bằng 6 ngôn ngữ, có tiếng Việt

- AURORA-M là một mô hình ngôn ngữ lớn (LLM) nguồn mở đa ngôn ngữ mới với 15 tỷ tham số, được điều chỉnh cho 6 ngôn ngữ đa dạng: tiếng Anh, Phần Lan, Hindi, Nhật Bản, Việt Nam và mã lập trình.
- Bắt đầu từ mô hình StarCoderPlus, AURORA-M trải qua quá trình tiền huấn luyện liên tục trên tập dữ liệu lớn gồm 435 tỷ token, dẫn đến tổng số token huấn luyện ấn tượng là 2 nghìn tỷ.
- An toàn là nguyên tắc thiết kế cơ bản, biến AURORA-M trở thành LLM nguồn mở đa ngôn ngữ đầu tiên được tinh chỉnh trên tập hợp các hướng dẫn an toàn do con người đánh giá, giải quyết các mối quan tâm được nêu trong Lệnh hành pháp của Biden-Harris về Phát triển và Sử dụng AI An toàn, Bảo mật và Đáng tin cậy.
- Các nhà nghiên cứu đã tạo ra một tập dữ liệu lớn gồm các cặp hướng dẫn-phản hồi để tăng cường tính an toàn và khả năng phục hồi của AURORA-M, giải quyết các lĩnh vực như ngăn ngừa tổn hại, tấn công mạng, hoạt động bất hợp pháp, xâm phạm quyền riêng tư và phá vỡ các biện pháp kiểm soát an toàn.
- Kết quả đánh giá cho thấy AURORA-M thành công trong việc tránh quên thảm khốc trong các tác vụ tiếng Anh và mã hóa, đồng thời đạt được hiệu suất cạnh tranh trên các tiêu chuẩn đa ngôn ngữ.
- Đánh giá an toàn khẳng định cam kết của AURORA-M về an toàn và tuân thủ các thực tiễn phát triển AI có trách nhiệm.

📌 AURORA-M đánh dấu bước tiến đáng kể trong việc dân chủ hóa quyền truy cập vào các LLM đa ngôn ngữ và an toàn. Mô hình 15 tỷ tham số này được tinh chỉnh trên 6 ngôn ngữ (có tiếng Việt) và tập dữ liệu 2 nghìn tỷ token, đạt hiệu suất cao trên nhiều tác vụ, đồng thời tuân thủ các tiêu chuẩn pháp lý và thực tiễn phát triển AI có trách nhiệm.

https://www.marktechpost.com/2024/04/07/aurora-m-a-15b-parameter-multilingual-open-source-ai-model-trained-in-english-finnish-hindi-japanese-vietnamese-and-code/

AnythingLLM: Ứng dụng AI nguồn mở tích hợp chatbot tài liệu và mô hình ngôn ngữ lớn

- AnythingLLM là ứng dụng nguồn mở toàn diện giúp doanh nghiệp tương tác với tài liệu thông qua công nghệ chatbot.
- Ứng dụng cho phép triển khai các phiên bản ChatGPT riêng tư, tích hợp với các mô hình ngôn ngữ lớn thương mại hoặc nguồn mở phổ biến.
- Người dùng có thể tạo và quản lý các không gian làm việc riêng biệt, mỗi không gian chứa một tập hợp tài liệu.
- AnythingLLM hỗ trợ đa người dùng với quyền truy cập chi tiết, đảm bảo an toàn thông tin.
- Tích hợp widget chat tùy chỉnh trên website, tăng tương tác người dùng.
- Hỗ trợ nhiều định dạng tài liệu như PDF, DOCX.
- Giao diện thân thiện giúp quản lý tài liệu hiệu quả, tích hợp với cơ sở dữ liệu vector.
- Hai chế độ hội thoại và truy vấn phù hợp với nhu cầu sử dụng.
- Trích dẫn trong hội thoại tăng độ tin cậy và minh bạch.
- Sẵn sàng triển khai trên đám mây, đảm bảo khả năng mở rộng.
- Hỗ trợ nhiều mô hình ngôn ngữ lớn, cho phép người dùng tùy chỉnh trải nghiệm hội thoại.
- Tối ưu hóa chi phí xử lý tài liệu.
- API thân thiện với nhà phát triển, mở ra nhiều khả năng tùy chỉnh.

📌 AnythingLLM là giải pháp chatbot tài liệu đa năng, hiệu quả và thân thiện với nhà phát triển. Với nhiều tính năng, hỗ trợ đa dạng mô hình ngôn ngữ lớn và khả năng tích hợp liền mạch, AnythingLLM giúp doanh nghiệp khai thác tối đa tiềm năng của tài liệu thông qua hội thoại dựa trên AI.

https://www.marktechpost.com/2024/04/07/meet-anythingllm-an-open-source-all-in-one-ai-desktop-app-for-local-llms-rag/

OpenDevin: Một giải pháp thay thế mã nguồn mở cho Devin - một kỹ sư phần mềm AI tự trị

- OpenDevin là một dự án mã nguồn mở đại diện cho bước tiến đáng kể trong việc tích hợp trí tuệ nhân tạo vào kỹ thuật phần mềm.
- Nó cho phép người dùng tương tác với một AI có khả năng tạo các tập lệnh bash, chạy thử nghiệm và thực hiện các lệnh khác cần thiết cho quy trình phát triển.
- OpenDevin được xây dựng trên nền tảng Docker, Python và NodeJS, hứa hẹn một tương lai mà AI đóng vai trò tích cực hơn trong các nhiệm vụ lập trình.
- Thông qua sức mạnh của cộng đồng nguồn mở, OpenDevin nhằm đẩy ranh giới của những gì có thể với AI trong phát triển phần mềm.
- Nó tìm cách giải quyết các thách thức thực tế của việc tích hợp AI vào quá trình lập trình bằng cách hợp nhất các nhà phát triển, nhà nghiên cứu và những người đam mê AI.
- OpenDevin tượng trưng cho một bước đi táo bạo hướng tới tương lai nơi các nhà phát triển và AI hợp tác liền mạch.
- Với sự hỗ trợ và đổi mới của cộng đồng nguồn mở, OpenDevin đang sẵn sàng thay đổi bối cảnh kỹ thuật số, biến hành trình phát triển được cung cấp bởi AI trở thành hiện thực.

📌 OpenDevin là một dự án mã nguồn mở tiên phong tích hợp AI vào quy trình phát triển phần mềm, cho phép các nhà phát triển tập trung vào sáng tạo hơn là công việc tẻ nhạt. Được xây dựng trên Docker, Python, NodeJS và sức mạnh của cộng đồng, OpenDevin hứa hẹn một tương lai nơi AI và con người cộng tác liền mạch để cách mạng hóa ngành phần mềm.

https://www.marktechpost.com/2024/04/01/meet-opendevin-an-open-source-alternative-to-devin-an-autonomous-ai-software-engineer/

OpenFoundry: Startup nghiên cứu AI xây dựng cơ sở hạ tầng cho AI nguồn mở

- OpenFoundry.ai là một nền tảng trí tuệ nhân tạo nguồn mở giúp các nhà phát triển tìm ra các mô hình tối ưu, nhanh chóng tạo mẫu thử, tinh chỉnh và triển khai chúng lên đám mây.
- OpenFoundry giải quyết các thách thức mà các nhà phát triển gặp phải khi sử dụng AI nguồn mở thông qua chiến lược hai mũi nhọn: nền tảng dành cho nhà phát triển và cộng đồng năng động.
- Nền tảng của OpenFoundry giúp việc tạo và triển khai các mô hình AI nguồn mở trở nên dễ dàng hơn. Sản phẩm đầu tiên cho phép các nhà phát triển nhanh chóng cài đặt các mô hình trên cơ sở hạ tầng đám mây của họ bằng công cụ dòng lệnh.
- Theo các nhà sáng lập Tyler Lehman và Arthur Chi, AI nguồn mở có nhiều lợi ích so với các lựa chọn nguồn đóng như: phát triển nhanh hơn và rẻ hơn, giảm rủi ro phụ thuộc vào nền tảng, và khả năng tự lưu trữ mô hình trên cơ sở hạ tầng riêng.
- OpenFoundry được hậu thuẫn bởi Y Combinator.

📌OpenFoundry.ai là một nền tảng trí tuệ nhân tạo nguồn mở giúp các nhà phát triển tìm ra các mô hình tối ưu, nhanh chóng tạo mẫu thử, tinh chỉnh và triển khai chúng lên đám mây. Sản phẩm đầu tiên cho phép các nhà phát triển nhanh chóng cài đặt các mô hình trên cơ sở hạ tầng đám mây của họ bằng công cụ dòng lệnh.

https://www.marktechpost.com/2024/03/29/meet-openfoundry-an-ai-research-startup-building-a-developer-infrastructure-for-open-source-ai/

Mistral 7B v0.2, một bước tiến đáng kể trong các mô hình ngôn ngữ nguồn mở

- Mistral AI giới thiệu Mistral 7B v0.2, một bước tiến quan trọng trong các mô hình ngôn ngữ nguồn mở, với nhiều cải tiến kỹ thuật như mở rộng cửa sổ ngữ cảnh từ 8k lên 32k token, tinh chỉnh tham số Rope Theta và loại bỏ cơ chế sliding window attention.
- Những cải tiến này giúp Mistral 7B v0.2 xử lý và hiểu các chuỗi văn bản dài hơn với tính liên kết và liên quan cao hơn, rất quan trọng cho các ứng dụng từ tóm tắt tài liệu đến trả lời câu hỏi dạng dài.
- Mistral 7B v0.2 vượt trội hơn Llama-2 13B trong tất cả các tác vụ và cạnh tranh với các mô hình lớn hơn như Llama-1 34B mặc dù có ít tham số hơn. Khả năng của nó trong các tác vụ lập trình tiếp cận với các mô hình chuyên biệt như CodeLlama 7B.
- Phiên bản instruction-tuned, Mistral 7B Instruct v0.2, vượt trội hơn các mô hình instruction khác trên bộ dữ liệu MT-Bench, cho thấy tiềm năng trong phát triển các ứng dụng AI hội thoại.
- Kiến trúc của Mistral 7B v0.2, với 7.3 tỷ tham số và các đổi mới như Grouped-Query Attention (GQA) và Byte-fallback BPE tokenizer, là nền tảng cho hiệu suất vượt trội của nó, cải thiện tốc độ, chất lượng và khả năng tiếp cận với đối tượng rộng hơn.
- Bằng cách áp dụng cách tiếp cận nguồn mở theo giấy phép Apache 2.0, Mistral AI đảm bảo Mistral 7B v0.2 không chỉ là công cụ cho các nhà nghiên cứu và nhà phát triển mà còn là tài nguyên thúc đẩy đổi mới trên nhiều lĩnh vực.
- Việc cung cấp các tài nguyên toàn diện và các tùy chọn triển khai linh hoạt tạo điều kiện cho việc áp dụng và tích hợp Mistral 7B v0.2 vào các dự án và ứng dụng đa dạng.

📌 Mistral 7B v0.2 đánh dấu bước ngoặt trong lĩnh vực AI với hiệu suất vượt trội, kiến trúc hiệu quả và khả năng thích ứng trong nhiều tác vụ. Mô hình 7,3 tỷ tham số này minh chứng sức mạnh của các sáng kiến nguồn mở trong việc đẩy ranh giới công nghệ và làm cho các công cụ AI tiên tiến trở nên dễ tiếp cận hơn, thúc đẩy đổi mới và hợp tác trong cộng đồng AI.

https://www.marktechpost.com/2024/03/31/mistral-ai-releases-mistral-7b-v0-2-a-groundbreaking-open-source-language-model/

Chúng ta nên định nghĩa "open" AI như thế nào?

- Thuật ngữ "open" trong bối cảnh AI chưa có định nghĩa thống nhất, được áp dụng cho nhiều sản phẩm khác nhau mà ít liên quan đến ý nghĩa ổn định.
- Thomas Padilla cho rằng AI mở nên có 5 đặc điểm: có thể tái sử dụng, minh bạch, có trách nhiệm giải trình, được áp dụng bền vững, có tác động tích cực.
- Llama 2 của Meta tuyên bố là mã nguồn mở nhưng có các điều khoản hạn chế như cấm sử dụng để cải thiện các mô hình ngôn ngữ lớn khác. Điều này không đúng tinh thần mã nguồn mở.
- Các mô hình như OLMo phù hợp hơn với tinh thần mã nguồn mở khi công bố mã, trọng số dưới giấy phép Apache 2.0.
- OpenAI được coi là mở nhưng thiếu tính minh bạch khi không ghi công tác giả, nguồn dữ liệu huấn luyện.
- Hugging Face đề xuất "model cards" để cung cấp thông tin về thông số mô hình, bộ dữ liệu, mục đích sử dụng, hạn chế tiềm ẩn.
- AI mở cần có trách nhiệm giải trình, được phát triển và sử dụng theo nhu cầu cụ thể của cộng đồng.
- Tính bền vững của AI mở thể hiện qua nhận thức về sự phụ thuộc lẫn nhau, các mối đe dọa và cơ hội.

📌Thuật ngữ "open" và "open source" đang được sử dụng một cách gây nhầm lẫn trong bối cảnh AI, thường mang tính nguyện vọng hoặc tiếp thị hơn là mô tả kỹ thuật. Để đánh giá một AI có thực sự mở hay không, cần xem xét 5 khía cạnh như khả năng tái sử dụng, tính minh bạch, trách nhiệm giải trình, có tác động tích cực và tính bền vững.

Citations:
[1] https://thenewstack.io/how-should-we-define-open-ai/

SambaNova tung ra siêu mô hình AI Samba-CoE v0.2 đánh bại DBRX chỉ trong 1 ngày

- SambaNova Systems công bố mô hình ngôn ngữ lớn Samba-CoE v0.2 mới đạt tốc độ ấn tượng 330 token/giây, vượt qua nhiều mô hình đáng chú ý của đối thủ như DBRX mới ra mắt của Databricks, Mixtral-8x7B của MistralAI, Grok-1 của xAI.

- Samba-CoE v0.2 đạt tốc độ cao mà không ảnh hưởng đến độ chính xác, chỉ cần 8 socket thay vì 576 socket và hoạt động ở tốc độ bit thấp hơn so với các mô hình khác. 

- Trong các bài kiểm tra, Samba-CoE v0.2 đưa ra câu trả lời 425 từ về thiên hà Milky Way chỉ trong 330.42 giây. Câu hỏi về điện toán lượng tử cũng nhận được câu trả lời nhanh chóng tương tự với 332.56 token chỉ trong 1 giây.

- SambaNova nhấn mạnh việc sử dụng ít socket hơn đồng thời duy trì tốc độ bit cao, cho thấy sự tiến bộ đáng kể về hiệu quả tính toán và hiệu suất mô hình. 

- Công ty cũng úp mở về việc sắp ra mắt Samba-CoE v0.3 hợp tác với LeptonAI, cho thấy sự tiến bộ và đổi mới liên tục.

- Nền tảng của những tiến bộ này dựa trên các mô hình mã nguồn mở từ Samba-1 và Sambaverse, sử dụng cách tiếp cận độc đáo để kết hợp và hợp nhất mô hình, không chỉ là cơ sở cho phiên bản hiện tại mà còn gợi ý cách tiếp cận có thể mở rộng và sáng tạo cho sự phát triển trong tương lai.

- So sánh với các mô hình khác như Gemma-7B của GoogleAI, Mixtral-8x7B của MistralAI, llama2-70B của Meta, Qwen-72B của Alibaba Group, Falcon-180B của TIIuae và BLOOM-176B của BigScience cho thấy lợi thế cạnh tranh của Samba-CoE v0.2.

📌 SambaNova Systems đã đạt được bước tiến quan trọng với mô hình ngôn ngữ lớn Samba-CoE v0.2, vượt trội hơn nhiều đối thủ về tốc độ xử lý (330 token/giây) và hiệu quả tính toán (chỉ cần 8 socket). Điều này cho thấy tiềm năng to lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, mở ra hướng đi mới cho tương lai của lĩnh vực trí tuệ nhân tạo.

https://venturebeat.com/ai/sambanova-announces-new-ai-samba-coe-v0-2-that-already-beats-databricks-dbrx/

Cổng AI nguồn mở mới giúp kiểm soát tốt hơn việc sử dụng AI cho công việc

- Các tổ chức quan ngại về rò rỉ dữ liệu, hiện tượng AI ảo giác và chi phí sử dụng API AI đám mây khi triển khai mô hình ngôn ngữ lớn (LLM) cho ứng dụng AI tạo sinh.

- Kong đã tạo ra một cổng AI, tích hợp vào nền tảng quản lý API của họ, để giúp tổ chức giải quyết các thách thức này.

- Cổng AI hỗ trợ kết nối với các nhà cung cấp LLM đám mây như OpenAI, Azure AI, Anthropic, Cohere, Mistral và Meta's Llama.

- Nó cung cấp quản trị tập trung cho thông tin đăng nhập AI, phân tích AI, bảo mật AI và tường lửa để kiểm soát các loại nhắc nhở được phép.

- Cổng AI cũng quản lý lưu lượng giữa LLM tự hostđể cải thiện hiệu suất và giảm chi phí sử dụng AI.

- Xu hướng là các tổ chức lớn kết hợp sử dụng LLM tự host rẻ hơn với LLM đám mây làm phương án dự phòng.

📌 Các tổ chức quan ngại về rò rỉ dữ liệu, hiện tượng AI ảo giác và chi phí sử dụng API AI đám mây khi triển khai mô hình ngôn ngữ lớn (LLM) cho ứng dụng AI tạo sinh. Cổng AI mới của Kong hỗ trợ kết nối với 6 nhà cung cấp LLM đám mây, quản lý tập trung thông tin đăng nhập, phân tích, bảo mật và kiểm soát nhắc nhở, cũng như điều phối giữa LLM tự host và đám mây để tối ưu hiệu suất và chi phí.

https://thenewstack.io/using-ai-for-work-new-open-source-gateway-promises-better-control/

Databricks phát hành mô hình AI mã nguồn mở mạnh nhất thế giới DBRX

- Startup Databricks đã phát hành DBRX, mô hình ngôn ngữ lớn mã nguồn mở mạnh nhất hiện nay, vượt qua Llama 2 của Meta.
- Databricks đã đầu tư khoảng 10 triệu USD và mất nhiều tháng để huấn luyện DBRX.
- DBRX vượt trội hơn các mô hình mã nguồn mở khác như Llama 2, Mixtral và Grok AI của Elon Musk trên nhiều bài kiểm tra.
- Trên một số điểm số, DBRX gần bằng GPT-4 của OpenAI, mô hình đóng được coi là đỉnh cao của trí tuệ máy.
- Databricks muốn minh bạch về quá trình tạo ra DBRX, không như Meta với Llama 2.
- Databricks hy vọng giúp các công ty trong tài chính, y tế sử dụng công nghệ AI trên dữ liệu riêng.
- DBRX sử dụng kiến trúc "mixture of experts", chỉ kích hoạt một phần mô hình để xử lý truy vấn, giúp huấn luyện và vận hành hiệu quả hơn.
- Trong 2 tuần cuối, Databricks đã tập trung cải thiện hiệu suất của DBRX trên một tập hợp khả năng cụ thể thay vì tiếp tục mở rộng quy mô.
- DBRX cũng đạt kết quả tốt trong việc tạo mã máy tính mặc dù không tập trung vào khía cạnh này.
- Databricks cho rằng việc công khai mã nguồn giúp thúc đẩy đổi mới và nghiên cứu khoa học.

📌 DBRX của Databricks đã trở thành mô hình AI mã nguồn mở mạnh nhất hiện nay với 136 tỷ tham số, vượt qua Llama 2, Mixtral và Grok. Mô hình này đạt điểm số gần bằng GPT-4 trên nhiều bài kiểm tra và hứa hẹn mang AI đến với nhiều doanh nghiệp hơn. Databricks cũng muốn minh bạch hơn về quá trình xây dựng DBRX để thúc đẩy nghiên cứu và đổi mới trong lĩnh vực AI.

Citations:
[1] https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

Databricks tạo lịch sử với mô hình mã nguồn mở DBRX 132B tiệm cận với GPT-4 nhưng có chi phí thấp hơn 20 lần

- Databricks ra mắt mô hình mã nguồn mở DBRX 132B, vượt trội hơn các mô hình SOTA như Llama 2 70B, Mixtral-8x7B và Grok-1 trên nhiều bài kiểm tra như MMLU, Human Eval và GSM 8K.
- DBRX 132B tiệm cận với GPT-4 của OpenAI nhưng có chi phí thấp hơn 20 lần, chỉ 6,2 USD cho 1 triệu token đầu ra so với 120 USD của GPT-4.
- Kiến trúc MoE của DBRX 132B cho phép tốc độ nhanh, 100 token/giây, gấp 3 lần Llama, giảm rào cản chi phí, quyền riêng tư và độ phức tạp cho doanh nghiệp.
- Naveen Rao, Phó Chủ tịch Databricks, tin rằng mô hình mã nguồn mở sẽ vượt qua các mô hình đóng như GPT-4 trong 5 năm tới.
- Rao đánh giá thấp mô hình Grok-1 314B của XAI, cho rằng chất lượng không tương xứng với quy mô. Ông tự tin DBRX vượt trội hơn về chất lượng, chi phí và tốc độ.
- Databricks gặp khó khăn trong việc có được tài nguyên tính toán cần thiết và đảm bảo sự ổn định khi phát triển DBRX, chậm hơn 1-2 tháng so với kế hoạch.
- Thách thức kỹ thuật lớn nhất là mở rộng quy mô lên hơn 3072 GPU H100 và tối ưu hóa hiệu quả của kiến trúc MoE.
- Databricks cam kết với mã nguồn mở, tích hợp công nghệ MosaicML, cho phép các công ty tạo sự khác biệt trong AI và tận dụng dữ liệu độc quyền.

📌 Mô hình DBRX 132B của Databricks đánh dấu bước ngoặt cho AI mã nguồn mở, với chất lượng tiệm cận GPT-4 nhưng chi phí chỉ bằng 1/20, mở ra cơ hội cho doanh nghiệp áp dụng AI hiệu quả với tốc độ 100 token/giây, gấp 3 lần các mô hình khác.

https://analyticsindiamag.com/databricks-creates-history-with-gpt-4-level-open-source-model/

Fireworks.ai mang AI tạo sinh đến với mọi nhà phát triển thông qua API nguồn mở

- Fireworks.ai là một startup cung cấp API AI tạo sinh nguồn mở lớn nhất với hơn 12.000 người dùng.
- Công ty không đào tạo các mô hình nền tảng từ đầu mà giúp tinh chỉnh các mô hình khác theo nhu cầu cụ thể của doanh nghiệp.
- API cho phép các nhà phát triển tích hợp nhanh chóng khả năng AI tạo sinh như đặt câu hỏi vào ứng dụng của họ.
- Fireworks.ai cho phép các công ty thử nghiệm với nhiều mô hình khác nhau, điều quan trọng trong thị trường đang thay đổi nhanh chóng.
- Công ty giữ chi phí thấp bằng cách giới hạn kích thước mô hình từ 7 tỷ đến 13 tỷ token, so với hơn 1 nghìn tỷ token trong ChatGPT4.
- Điều này cho phép các nhà phát triển tập trung vào các tập dữ liệu nhỏ hơn, tập trung hơn được thiết kế để hoạt động với các trường hợp sử dụng kinh doanh hạn chế hơn.
- CEO Lin Qiao trước đây đã làm việc tại Meta, lãnh đạo nhóm phát triển nền tảng AI với mục tiêu xây dựng một công cụ phát triển nhanh, có thể mở rộng quy mô để cung cấp năng lượng cho AI trên tất cả các sản phẩm và dịch vụ của Meta.
- Fireworks.ai đã huy động được 25 triệu USD vào năm 2022 do Benchmark dẫn đầu với sự tham gia của Sequoia Capital và các nhà đầu tư thiên thần bao gồm Databricks và Snowflake.

📌 Fireworks.ai cung cấp API AI tạo sinh nguồn mở lớn nhất với hơn 12.000 người dùng, cho phép các nhà phát triển dễ dàng tích hợp khả năng AI vào ứng dụng. Công ty tập trung vào việc tinh chỉnh các mô hình theo nhu cầu cụ thể, giữ chi phí thấp bằng cách giới hạn kích thước mô hình. Fireworks.ai đã huy động được 25 triệu USD từ các nhà đầu tư hàng đầu trong ngành.

https://techcrunch.com/2024/03/26/fireworks-ai-open-source-api-puts-generative-ai-in-reach-of-any-developer/

Ngành công nghệ lúng túng với khái niệm AI mã nguồn mở

- Nhiều công ty công nghệ lớn như Meta, Google, Amazon đang tự xưng là những nhà tiên phong về AI mã nguồn mở. Tuy nhiên, chưa có sự đồng thuận về định nghĩa "AI mã nguồn mở" thực sự là gì.

- Open Source Initiative (OSI) đang tập hợp các nhà nghiên cứu, luật sư, nhà hoạch định chính sách và đại diện từ các công ty công nghệ lớn để đưa ra định nghĩa về AI mã nguồn mở. 

- Các tiêu chí để một mô hình AI được coi là mã nguồn mở còn mơ hồ. Nhiều mô hình được chia sẻ công khai nhưng kèm theo các giấy phép hạn chế việc sử dụng.

- Vấn đề gây tranh cãi lớn nhất là liệu dữ liệu huấn luyện có cần được chia sẻ hay không. Các công ty công nghệ lớn chỉ công bố mô hình đã huấn luyện mà không chia sẻ dữ liệu gốc.

- Việc thiếu rõ ràng về định nghĩa AI mã nguồn mở có thể giúp các công ty lớn tận dụng thuật ngữ này theo cách có lợi cho họ, củng cố vị thế thống trị của họ trong lĩnh vực AI.

- Cộng đồng cần thống nhất một định nghĩa chung, nếu không các công ty lớn sẽ tự đưa ra định nghĩa theo nhu cầu riêng của họ.

📌 Các tiêu chí để một mô hình AI được coi là mã nguồn mở còn mơ hồ. Nhiều mô hình được chia sẻ công khai nhưng kèm theo các giấy phép hạn chế việc sử dụng.Vấn đề gây tranh cãi lớn nhất là liệu dữ liệu huấn luyện có cần được chia sẻ hay không. Các công ty công nghệ lớn chỉ công bố mô hình đã huấn luyện mà không chia sẻ dữ liệu gốc. Điều này giúp các công ty lớn tận dụng thuật ngữ AI nguồn mở theo cách có lợi cho họ, củng cố vị thế thống trị của họ trong lĩnh vực AI.

Citations:
[1]https://www.technologyreview.com/2024/03/25/1090111/tech-industry-open-source-ai-definition-problem/

#MIT

Devika - đối thủ mã nguồn mở của Devin trong vai trò kỹ sư phần mềm AI

- Devika là phần mềm kỹ sư AI mã nguồn mở, có khả năng hiểu hướng dẫn của con người, chia nhỏ thành các nhiệm vụ, nghiên cứu và tự động viết mã để đạt mục tiêu
- Devika sử dụng các mô hình ngôn ngữ lớn như Claude 3, GPT-4, GPT-3.5 và Local LLMs, thuật toán lập kế hoạch và lập luận AI tiên tiến, trích xuất từ khóa ngữ cảnh, duyệt web và viết mã trong nhiều ngôn ngữ lập trình
- Một trong những điểm mạnh của Devika là khả năng đóng vai trò lập trình viên AI, giảm sự can thiệp của con người trong các nhiệm vụ mã hóa phức tạp
- Devika có thể tạo tính năng mới, gỡ lỗi mã hoặc phát triển toàn bộ dự án từ đầu, nhằm hợp lý hóa quy trình phát triển phần mềm và nâng cao hiệu quả
- Công cụ lập kế hoạch và lập luận AI của Devika cho phép nó chia nhỏ mục tiêu thành các bước khả thi, tinh chỉnh kế hoạch dựa trên ngữ cảnh và tự động thực hiện nhiệm vụ
- Người dùng có thể nhanh chóng bắt đầu với Devika bằng cách làm theo các bước cài đặt đơn giản, truy cập giao diện web, tạo dự án mới, chọn ngôn ngữ lập trình và cấu hình mô hình, đưa ra mục tiêu cấp cao cho Devika

📌 Devika hứa hẹn cách mạng hóa cách chúng ta xây dựng phần mềm với vai trò lập trình viên AI có thể đảm nhận các nhiệm vụ mã hóa phức tạp chỉ với sự hướng dẫn tối thiểu của con người. Với khả năng tạo tính năng mới, sửa lỗi hay phát triển toàn bộ dự án từ đầu, Devika đang nỗ lực trở thành một đối thủ mã nguồn mở đáng gờm của Devin.

https://analyticsindiamag.com/meet-devika-an-open-source-alternative-to-devin/

các công ty mã nguồn mở chia sẻ AI miễn phí, liệu có thể phá vỡ sự thống trị của OpenAI?

- OpenAI chiếm gần 80% thị trường AI tạo sinh toàn cầu năm 2023 (theo Valuates Reports).
- Các công ty lớn như xAI của Elon Musk, Meta, Google đều phát hành mô hình AI mã nguồn mở để cạnh tranh.
- Các startup AI mã nguồn mở nổi bật gồm Mistral AI, Hugging Face, Runway ML, Together AI, Writer, Cerebras và Databricks.
- Mô hình AI mã nguồn mở hấp dẫn doanh nghiệp vì không mất phí, không phải chia sẻ dữ liệu và có thể tùy chỉnh.
- Các công ty AI mã nguồn mở kiếm tiền bằng cách bán dịch vụ, ứng dụng và hỗ trợ doanh nghiệp trên nền tảng mô hình miễn phí.
- Mistral AI hợp tác với Microsoft, cung cấp cả mô hình miễn phí và mô hình độc quyền trả phí.
- Stability AI bắt đầu tính phí đăng ký sử dụng thương mại cho một số mô hình tiên tiến từ tháng 12/2023.
- Wayfair sử dụng phiên bản miễn phí của Stable Diffusion cho công cụ thiết kế nội thất AI.
- Vốn đầu tư toàn cầu cho các startup AI mã nguồn mở tăng từ 900 triệu USD năm 2022 lên 2,9 tỷ USD năm 2023 (theo PitchBook).
- Together AI huy động được 106 triệu USD, định giá 1,25 tỷ USD, chủ yếu bán công cụ giúp doanh nghiệp sử dụng mô hình mã nguồn mở rẻ và nhanh hơn.
- Hugging Face huy động gần 400 triệu USD, bán sức mạnh tính toán và hỗ trợ doanh nghiệp cho các mô hình mã nguồn mở khác.
- Thương mại hóa AI mã nguồn mở là "lãnh thổ chưa được khám phá", đối mặt nhiều thách thức như chi phí đào tạo mô hình, cấp phép công nghệ.
- Chưa có định nghĩa chuẩn hoặc bộ giấy phép cho AI mã nguồn mở, một số công ty chỉ phát hành một phần mô hình, hạn chế tính hữu dụng.

📌 OpenAI chiếm gần 80% thị trường AI tạo sinh toàn cầu năm 2023. Vốn đầu tư toàn cầu cho các startup AI mã nguồn mở tăng từ 900 triệu USD năm 2022 lên 2,9 tỷ USD năm 2023. Hiện nay chưa có định nghĩa chuẩn hoặc bộ giấy phép cho AI mã nguồn mở, một số công ty chỉ phát hành một phần mô hình, hạn chế tính hữu dụng. Mặc dù đang thu hút nhiều sự chú ý và đầu tư, các công ty AI mã nguồn mở vẫn phải đối mặt với nhiều thách thức trong việc thương mại hóa công nghệ, cạnh tranh với các đại gia công nghệ. 

Citations:
[1]https://www.wsj.com/articles/open-source-companies-are-sharing-their-ai-free-can-they-crack-openais-dominance-26149e9c

Grok AI của Elon Musk chính thức mở mã nguồn, cạnh tranh với ChatGPT

- Startup xAI của Elon Musk đã mở mã nguồn mô hình ngôn ngữ lớn Grok-1 với 314 tỷ tham số, cho phép bất kỳ ai sử dụng và phát triển mô hình này.
- Grok được phát hành dưới giấy phép Apache License 2.0, cho phép sử dụng thương mại, sửa đổi và phân phối.
- Kiến trúc của Grok sử dụng 25% trọng số cho một token nhất định, giúp tăng hiệu quả và hiệu suất của mô hình.
- Grok ban đầu được phát hành dưới dạng mô hình đóng vào tháng 11/2023 và chỉ có thể truy cập thông qua dịch vụ đăng ký trả phí X Premium+ trên mạng xã hội X (trước đây là Twitter).
- Việc mở mã nguồn Grok không bao gồm toàn bộ dữ liệu huấn luyện và kết nối với thông tin thời gian thực trên X.
- Grok được định vị là phiên bản hài hước và không kiểm duyệt hơn so với ChatGPT và các LLM hàng đầu khác.
- Việc mở mã nguồn Grok là một lập trường hữu ích cho Musk trong vụ kiện và chỉ trích chung đối với OpenAI.
- Cộng đồng AI trên X đã phản ứng với sự tò mò và phấn khích trước việc phát hành Grok.
- Việc phát hành Grok có khả năng gây áp lực lên tất cả các nhà cung cấp LLM khác, đặc biệt là các đối thủ mã nguồn mở, để chứng minh sự vượt trội của họ.

📌 Grok, mô hình ngôn ngữ lớn 314 tỷ tham số của xAI, đã chính thức mở mã nguồn. Động thái này cho phép bất kỳ ai sử dụng và phát triển Grok, tạo áp lực cạnh tranh lên các đối thủ như ChatGPT. Đây cũng là lập trường hữu ích cho Elon Musk trong vụ kiện với OpenAI.

https://venturebeat.com/ai/musks-grok-ai-goes-open-source/

Huyền Chip: Bức tranh toàn cảnh về 900 công cụ AI mã nguồn mở phổ biến nhất năm 2023

- Tác giả Huyền Chip đã phân tích 845 repo phần mềm AI mã nguồn mở trên GitHub có từ 500 sao trở lên, tập trung vào stack xung quanh các mô hình nền tảng (foundation models).

- Stack AI mới bao gồm 4 lớp: cơ sở hạ tầng, phát triển mô hình, phát triển ứng dụng và ứng dụng. Năm 2023 chứng kiến sự bùng nổ của các công cụ mới, đặc biệt ở lớp ứng dụng và phát triển ứng dụng.

- Các ứng dụng AI phổ biến nhất là lập trình, chatbot và tổng hợp thông tin. Kỹ sư AI đang phát triển mạnh với các công cụ prompt engineering, giao diện AI, agent và framework.

- Phát triển mô hình tập trung vào tối ưu hóa suy luận, đánh giá mô hình và tinh chỉnh hiệu quả tham số. Cơ sở hạ tầng ít thay đổi hơn.

- 20 tài khoản GitHub hàng đầu kiểm soát 23% repo. Các cá nhân có thể tạo ra các ứng dụng AI có giá trị cao. Hơn 20.000 lập trình viên đã đóng góp gần 1 triệu commit.

- Hệ sinh thái mã nguồn mở của Trung Quốc đang phát triển mạnh trên GitHub với nhiều mô hình và công cụ hướng tới khán giả Trung Quốc.

- Nhiều repo nhanh chóng thu hút sự chú ý rồi lại nhanh chóng tụt dốc ("đường cong hype"). 18,8% repo không có sao mới trong 24 giờ qua.

📌 Huyền Chíp phân tích 900 công cụ AI mã nguồn mở cho thấy sự bùng nổ của hệ sinh thái AI trong năm 2023, đặc biệt ở lớp ứng dụng và phát triển ứng dụng. Hơn 20.000 lập trình viên đã đóng góp gần 1 triệu commit. Các cá nhân có thể tạo ra ứng dụng AI giá trị cao. Hệ sinh thái mã nguồn mở của Trung Quốc cũng đang phát triển mạnh.

Citations:
[1] https://huyenchip.com/2024/03/14/ai-oss.html

Lý do Ấn Độ sẽ trở thành quốc gia dẫn đầu về AI nguồn mở.

- Ấn Độ đang nỗ lực phát triển các mô hình ngôn ngữ lớn (LLM) hỗ trợ các ngôn ngữ Ấn Độ như Hindi, Tamil, Kannada và Marathi dựa trên các mô hình nguồn mở như Llama2-7B.
- Phát triển các mô hình tiên tiến như GPT-4 đòi hỏi chi phí và nguồn lực lớn. Cách tiếp cận hợp tác dựa trên nguyên tắc nguồn mở sẽ giúp Ấn Độ tận dụng năng lực sẵn có, chia sẻ chi phí và đẩy nhanh quá trình phát triển LLM phù hợp với nhu cầu của Ấn Độ.
- Ấn Độ có sự đa dạng về ngôn ngữ, văn hóa và con người. Mô hình nguồn mở mang lại sự linh hoạt để tạo ra nhiều phiên bản theo nhu cầu người dùng, vị trí, khu vực, tôn giáo mà không cần phát minh lại từ đầu.
- Ấn Độ đã chứng tỏ năng lực xây dựng các mạng lưới và kiến trúc nguồn mở thông qua các Sản phẩm Công Kỹ thuật số (DPG) như UPI, DigiLocker và Aadhaar. 
- Cộng đồng nhà phát triển của Ấn Độ đang phát triển mạnh mẽ với mức tăng trưởng 36% vào năm 2023 và đóng góp tích cực vào các dự án nguồn mở toàn cầu.
- Hầu hết các nỗ lực của Ấn Độ với AI tập trung vào việc nâng cao cộng đồng thiệt thòi và phá vỡ rào cản ngôn ngữ hiện có trong nước thông qua các ứng dụng sáng tạo giải quyết các thách thức kinh tế xã hội.

📌 Ấn Độ có tiềm năng lớn trở thành quốc gia dẫn đầu về AI nguồn mở nhờ sự hợp tác giữa chính phủ, doanh nghiệp, viện nghiên cứu và hệ sinh thái nhà phát triển đang lớn mạnh. Với trọng tâm vào cải thiện xã hội, Ấn Độ sẽ thể hiện cho thế giới tác động chuyển đổi của AI thông qua các ứng dụng sáng tạo giải quyết các thách thức cấp bách.

https://analyticsindiamag.com/why-will-india-champion-open-source-ai/

Sự trỗi dậy của AI mã nguồn mở: Thực tiễn tốt nhất

- 76% mã trong cơ sở mã được quét là mã nguồn mở, tỷ lệ trong AI có thể cao hơn.

- Kỹ sư Google cho rằng mã nguồn mở sẽ vượt Google và OpenAI vì cộng đồng đã giải quyết các vấn đề cốt lõi.

- Lợi ích của mô hình ngôn ngữ lớn mã nguồn mở: bảo mật, minh bạch, giá rẻ, dễ tùy chỉnh. Rủi ro: tốn thời gian, hỗ trợ hạn chế, thiếu kiểm thử.

- Nhiều tổ chức phát hành mô hình mã nguồn mở: Meta (Llama 2), Mistral AI (Mistral 7B, Mixtral 8x7B), Google (FLAN-T5),...

- Doanh nghiệp nên tham gia hệ sinh thái AI mã nguồn mở, đồng thời giải quyết các vấn đề về bảo mật, khả năng sử dụng, ổn định và quản trị hiệu quả.

📌 AI mã nguồn mở đang phát triển mạnh mẽ với sự đóng góp của cộng đồng và các tổ chức lớn. Lợi ích của mô hình ngôn ngữ lớn mã nguồn mở: bảo mật, minh bạch, giá rẻ, dễ tùy chỉnh. Rủi ro: tốn thời gian, hỗ trợ hạn chế, thiếu kiểm thử. Tham gia vào hệ sinh thái này sẽ giúp doanh nghiệp thành công trong tương lai, đồng thời cần quản lý tốt rủi ro và mối đe dọa.

https://www.forbes.com/sites/forbesbusinesscouncil/2024/03/08/the-rise-of-open-artificial-intelligence-open-source-best-practices/

elon musk: xai sẽ mã nguồn mở chatbot grok trong tuần này để đối đầu chatgpt

- Công ty xAI của Elon Musk sẽ mã nguồn mở chatbot Grok trong tuần này để cạnh tranh với ChatGPT.
- Grok được trang bị các tính năng như truy cập thông tin "thời gian thực" và quan điểm không bị ràng buộc bởi các chuẩn mực "chính trị đúng đắn". 
- Musk trước đó đã kiện OpenAI, cáo buộc startup này đã trở nên đóng mã nguồn và chuyển hướng tập trung vào tối đa hóa lợi nhuận cho Microsoft.
- Vụ kiện đã châm ngòi tranh luận về ưu điểm của AI mã nguồn mở. Vinod Khosla cho rằng vụ kiện là sự xao nhãng, trong khi Marc Andreessen ủng hộ nghiên cứu AI nguồn mở.
- Việc hứa mã nguồn mở Grok sẽ giúp xAI gia nhập danh sách các công ty như Meta và Mistral đã công bố mã của chatbot ra công chúng.
- Musk vốn ủng hộ mã nguồn mở, Tesla đã mở mã nguồn nhiều bằng sáng chế, X (trước đây là Twitter) cũng mở mã nguồn một số thuật toán năm ngoái.

📌 Elon Musk tuyên bố xAI sẽ mã nguồn mở chatbot Grok để cạnh tranh với ChatGPT, sau khi kiện OpenAI vì cho rằng startup này đã đi chệch hướng từ triết lý nguồn mở. Động thái này châm ngòi tranh luận về AI mã nguồn mở, với Musk vốn ủng hộ mở mã nguồn tại Tesla và X (Twitter cũ).

https://techcrunch.com/2024/03/11/elon-musk-says-xai-will-open-source-grok-this-week/

AI tạo sinh: nên đóng hay mở?

- Cuộc tranh luận về AI tạo sinh được khơi mào bởi vụ kiện của Elon Musk chống lại OpenAI và CEO Sam Altman.
- Marc Andreessen ủng hộ công nghệ AI nguồn mở, nhấn mạnh vào việc chia sẻ khoa học mở, tăng cường minh bạch và ngăn chặn Big Tech độc quyền công nghệ mạnh mẽ.
- Vinod Khosla ủng hộ AI đóng, cho rằng các công ty và thực thể tư nhân có thể bảo vệ chống lại nguy cơ và lạm dụng của AI.
- Meta đã ủng hộ AI nguồn mở và phát hành mô hình Llama 2 cho công chúng tải về và chỉnh sửa. Mistral AI, một công ty có trụ sở tại Paris, cũng đã phát hành các mô hình với "trọng số" mở.
- Andreessen cáo buộc Khosla đang vận động cấm nguồn mở sau khi Khosla bày tỏ sự ủng hộ đối với Altman và OpenAI trong bối cảnh vụ kiện của Musk.
- Khosla so sánh AI với vũ khí hạt nhân và cho rằng việc mở nguồn AI đe dọa an ninh quốc gia, đồng thời nhấn mạnh AI là lợi thế về "an ninh quốc gia và công nghệ" cần được bảo vệ chặt chẽ.
- Cả hai phe đều đồng ý rằng các mô hình ngôn ngữ lớn chưa phải là công nghệ hoàn thiện, có thể tạo ra kết quả sai lệch, thiên vị và tốn kém về chi phí sử dụng và đào tạo.

📌 Cuộc tranh luận giữa Marc Andreessen và Vinod Khosla trên Twitter đã làm sáng tỏ sự chia rẽ sâu sắc trong cộng đồng Silicon Valley về việc phát triển và phân phối AI tạo sinh. Andreessen ủng hộ mô hình nguồn mở để tăng cường minh bạch và ngăn chặn sự độc quyền, trong khi Khosla nhấn mạnh tầm quan trọng của việc bảo vệ AI như một biện pháp an ninh quốc gia. Cuộc tranh luận này không chỉ phản ánh quan điểm đối lập về cách tiếp cận phát triển AI mà còn làm nổi bật những thách thức trong việc tìm kiếm câu trả lời cho sự phát triển và an toàn của AI.

https://www.wsj.com/articles/should-ai-be-open-source-behind-the-tweetstorm-over-its-dangers-65aa5c97

Khám phá Mistral AI: Đối thủ lớn của ChatGPT từ Pháp với các gói AI trả phí và miễn phí "Le Chat"

- Mistral AI, startup AI của Pháp, ra mắt ba gói AI trả phí - Mistral Large, Mistral Small, và Mistral Embedded - cùng với tùy chọn chatbot miễn phí "Le Chat".
- Mistral Large được quảng cáo là mạnh mẽ thứ hai chỉ sau ChatGPT 4 Turbo, với khả năng đáp ứng nhanh chóng và tùy biến cao.
- "Le Chat" miễn phí cho phép người dùng đăng ký và sử dụng chỉ với email và mật khẩu, cung cấp câu trả lời nhanh chóng cho mọi câu hỏi.
- Mistral Large hướng đến doanh nghiệp và người tiêu dùng sẵn sàng trả thêm cho trải nghiệm tốt hơn, với khả năng chống thiên vị và tùy chỉnh theo nhu cầu công ty.
- Mistral AI được sáng lập bởi Arthur Mensch, Timothée Lacroix, và Guillaume Lample, nhận đầu tư 15 triệu euro từ Microsoft để đưa Mistral Large lên nền tảng đám mây Azure.
- Mistral Large có giá $8/1M tokens (đầu vào) và $24/1M tokens (đầu ra), trong khi ChatGPT 4 Turbo có giá khởi điểm cao hơn.
- Mistral AI cung cấp các tính năng điều chỉnh và kiểm soát nâng cao, khác biệt so với ChatGPT, và có khả năng học và phản hồi bằng nhiều ngôn ngữ.

📌 Mistral AI, với ba gói dịch vụ AI và tùy chọn chatbot "Le Chat" miễn phí, đang tạo ra sự chú ý trong cuộc chiến giành vị thế trong lĩnh vực AI. Mistral Large nổi bật với khả năng tùy chỉnh cao và hiệu suất mạnh mẽ, trong khi "Le Chat" cung cấp một lựa chọn miễn phí cho người dùng muốn trải nghiệm AI mà không cần chi trả. Sự hợp tác với Microsoft cũng làm tăng cơ hội và tiềm năng của Mistral AI trên thị trường toàn cầu.

https://tech.co/news/what-is-mistral-ai-le-chat

Elon Musk và mọi người: Cuộc chiến mới trong AI

• Elon Musk đã khởi kiện OpenAI và Sam Altman, cáo buộc họ phản bội cam kết ban đầu khiến OpenAI từ một tổ chức phi lợi nhuận chuyển sang mục tiêu kiếm lời với Microsoft.
• Musk mô tả Google là "woke", Microsoft là quá mức vươn xa và Sam Altman là người hai mặt.
• Musk, qua xAI, đang cố gắng tạo ra một lựa chọn thay thế cho các đối thủ, mà ông cáo buộc có định kiến tự do, và mô tả nỗ lực của mình như là tìm kiếm điều tốt và "tò mò tối đa".
• Musk đã chỉ trích Google và Microsoft trên nền tảng truyền thông xã hội X, đặc biệt là về cách Google xử lý các câu hỏi liên quan đến chủng tộc và dân tộc qua chatbot AI của mình, Gemini.
• Trong khi đó, Sam Altman và OpenAI, qua việc hợp tác với Microsoft, bị cáo buộc sử dụng công nghệ AI không phải vì lợi ích của nhân loại mà để tối đa hóa lợi nhuận.
• Musk cũng đã thừa nhận cuộc chiến tài chính để phát triển công ty AI, nói rằng sẽ cần "ít nhất hàng tỷ đô la về phần cứng" để có một vị trí vững chắc trong lĩnh vực này.
• OpenAI đã chuyển từ một tổ chức phi lợi nhuận sang một cơ cấu có lợi nhuận để đáp ứng nhu cầu tài chính cho việc phát triển công nghệ, với Microsoft cam kết tài trợ lên đến 13 tỷ đô la.

📌 Cuộc chiến AI giữa Elon Musk và các đối thủ lớn như OpenAI, Google, và Microsoft không chỉ là một cuộc đua công nghệ mà còn là một trận chiến về quan điểm và đạo đức kinh doanh. Musk, qua việc khởi kiện và chỉ trích công khai, đang cố gắng định hình lại cảnh quan AI bằng cách đề xuất xAI như một lựa chọn thay thế với mục tiêu tốt đẹp và tò mò. Cuộc chiến này không chỉ thách thức các đối thủ về mặt công nghệ mà còn về cách họ tiếp cận và sử dụng AI, đặt ra câu hỏi lớn về tương lai và đạo đức của AI trong xã hội.

https://www.wsj.com/tech/ai/elon-musk-vs-everyone-the-new-fight-in-ai-405becea

Những điều cần biết về Mistral AI: Công ty đứng sau đối thủ GPT-4 mới nhất

- Mistral AI là một startup AI của Pháp, được đồng sáng lập bởi các cựu nhân viên của Meta là Timothée Lacroix và Guillaume Lample, cùng với nhà nghiên cứu trước đây của DeepMind là Arthur Mensch, ra mắt vào tháng 4 năm 2023.
- Trong tuần qua, Mistral AI đã công bố mối quan hệ đối tác với Microsoft, tích hợp với Amazon Bedrock và phát hành các mô hình AI mới nhất của mình.
- Mistral AI đã phát triển và phát hành nhiều mô hình AI cho nhu cầu sử dụng khác nhau, bao gồm cả các mô hình thương mại và nguồn mở.
- Mô hình mới nhất và mạnh mẽ nhất của Mistral AI, Mistral Large, được công bố vào thứ Hai, cho thấy hiệu suất gần như tương đương với GPT-4 của OpenAI trên nhiều bài kiểm tra chuẩn và vượt trội so với các mô hình ngôn ngữ hàng đầu khác như Claude 2, Gemini Pro, GPT 3.5, và LLamA 2 70B.
- Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI.

📌 Mistral AI ra đời vào tháng 4 năm 2023 và sự đồng sáng lập bởi các chuyên gia hàng đầu trong lĩnh vực AI. Sự hợp tác với Microsoft và tích hợp với Amazon Bedrock cùng với việc phát hành mô hình Mistral Large cho thấy sự tiến bộ vượt bậc và khả năng cạnh tranh cao của Mistral AI so với các đối thủ như OpenAI. Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI. Điều này góp phần làm phong phú thêm lựa chọn cho người dùng và doanh nghiệp trong việc áp dụng công nghệ AI vào thực tiễn.

Citations:
[1] https://www.zdnet.com/article/what-to-know-about-mistral-ai-the-company-behind-the-latest-gpt-4-rival/

Công cụ tạo hình ảnh AI mới nhanh hơn 8 lần so với công cụ tốt nhất của OpenAI - và có thể chạy trên máy tính giá rẻ

- Công cụ AI mới có tên "KOALA" được phát triển bởi các nhà khoa học Hàn Quốc, có khả năng tạo hình ảnh trong vòng dưới 2 giây mà không cần phần cứng đắt tiền.
- Sử dụng kỹ thuật "knowledge distillation" để nén kích thước của mô hình tạo hình ảnh nguồn mở Stable Diffusion XL từ 2.56 tỷ tham số xuống còn 700 triệu tham số.
- KOALA có thể chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM để xử lý yêu cầu, so với các mô hình lớn hơn cần GPU công nghiệp cao cấp.
- Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đã phát triển 5 phiên bản của mô hình, bao gồm 3 phiên bản của KOALA và 2 phiên bản của "Ko-LLaVA" - có khả năng trả lời câu hỏi bằng hình ảnh hoặc video dựa trên văn bản đầu vào.
- Trong thử nghiệm, KOALA tạo ra hình ảnh từ mô tả "một bức ảnh của một phi hành gia đang đọc sách dưới ánh trăng trên sao Hỏa" chỉ trong 1.6 giây, nhanh hơn đáng kể so với DALL·E 2 và DALL·E 3 của OpenAI, lần lượt là 12.3 và 13.7 giây.
- Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.

📌Công cụ AI mới "KOALA" của Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đánh dấu một bước tiến quan trọng trong lĩnh vực tạo hình ảnh bằng AI, với khả năng tạo hình ảnh nhanh gấp 8 lần so với công cụ hàng đầu của OpenAI, chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM, làm cho công nghệ này trở nên tiếp cận được với nhiều người hơn. Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.

Citations:
[1] https://www.livescience.com/technology/artificial-intelligence/new-ai-image-generator-koala-is-8-times-faster-than-openais-best-tool-and-can-run-on-cheap-computers

Meta có kế hoạch ra mắt mô hình ngôn ngữ AI mới Llama 3 vào tháng 7

- Meta dự kiến ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, nhằm cạnh tranh với các công ty công nghệ lớn khác như OpenAI và Google.
- LLaMA 3 được thiết kế để cải thiện hiệu suất và độ chính xác trong việc xử lý ngôn ngữ tự nhiên, mở ra khả năng ứng dụng rộng rãi trong nhiều lĩnh vực.
- Meta đã công bố thông tin này thông qua một báo cáo từ The Information, nhấn mạnh sự tập trung vào việc phát triển AI và công nghệ ngôn ngữ.
- Sự ra mắt của LLaMA 3 là một phần của nỗ lực lớn hơn của Meta trong việc nắm bắt cơ hội trong lĩnh vực AI, đặc biệt là sau thành công của các mô hình như ChatGPT của OpenAI.
- Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.

📌 Meta đang chuẩn bị ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, với mục tiêu cạnh tranh trong lĩnh vực công nghệ AI ngày càng sôi động. LLaMA 3 hứa hẹn sẽ mang lại những cải tiến đáng kể về hiệu suất và độ chính xác, mở ra khả năng ứng dụng trong nhiều lĩnh vực khác nhau, từ hỗ trợ khách hàng đến phân tích dữ liệu. Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.

Citations:
[1] https://www.reuters.com/technology/meta-plans-launch-new-ai-language-model-llama-3-july-information-reports-2024-02-28/

Gặp gỡ công ty khởi nghiệp Mistral của Pháp hy vọng cạnh tranh với OpenAI

- Mistral là sự kết hợp hoàn hảo giữa giáo dục kỹ thuật Pháp và các công ty công nghệ lớn của Mỹ, với 3 trong số 6 người sáng lập là sản phẩm của các trường kỹ thuật hàng đầu của Pháp.
- Các nhà sáng lập Mistral có kinh nghiệm làm việc tại các phòng thí nghiệm nghiên cứu của Google và Meta, đặc biệt là trong việc xây dựng các mô hình ngôn ngữ lớn (LLMs) tại Paris.
- Mistral đã đặc biệt giỏi trong việc thu thập dữ liệu để huấn luyện mô hình của mình, cho phép các mô hình của họ nhỏ hơn nhiều so với các mô hình khác như GPT-4 của OpenAI.
- Sự tập trung vào việc lựa chọn dữ liệu của Mistral giúp công ty sử dụng sức mạnh tính toán một cách hiệu quả hơn, với chi phí huấn luyện mô hình mới thấp hơn nhiều so với 100 triệu USD mà OpenAI đã chi cho GPT-4.
- Mistral cũng tận dụng lợi thế của người đi sau, học hỏi từ công việc mà OpenAI và các công ty khác đã làm, và kết hợp với sự hiểu biết về chính trị, điều này rất có lợi khi nhiều chính phủ coi LLMs nội địa là lợi thế kinh tế và chiến lược.
- Cédric O, một trong những người đồng sáng lập Mistral và cựu Bộ trưởng Kỹ thuật số Pháp, giữ mối liên hệ trực tiếp với Tổng thống Emmanuel Macron, người đã quan tâm sâu sắc đến AI và đã hỗ trợ Mistral trong việc chống lại các quy định của Liên minh Châu Âu về AI.

📌 Mistral đã chứng minh sự thành công của mình thông qua việc kết hợp tài năng kỹ thuật từ các trường kỹ thuật hàng đầu của Pháp và kinh nghiệm từ các công ty công nghệ lớn như Google và Meta. Sự thông minh trong việc lựa chọn và quản lý dữ liệu đã giúp Mistral tạo ra các mô hình AI hiệu quả hơn với chi phí thấp hơn, đồng thời tận dụng lợi thế của người đi sau để phát triển nhanh chóng. Sự kết hợp giữa chuyên môn kỹ thuật và sự hiểu biết về chính trị, cùng với sự hỗ trợ từ cựu Bộ trưởng Kỹ thuật số Pháp và Tổng thống Emmanuel Macron, đã tạo nên một lợi thế cạnh tranh mạnh mẽ cho Mistral trong ngành công nghiệp AI đang phát triển nhanh chóng.

Citations:
[1] https://www.economist.com/business/2024/02/26/meet-the-french-startup-hoping-to-take-on-openai

Reliance và 9 IIT sẽ ra mắt mô hình AI BharatGPT Hanooman của Ấn Độ

- Mô hình AI BharatGPT Hanooman được phát triển bởi Reliance và 9 IIT, đánh dấu bước tiến quan trọng trong việc ứng dụng AI cho phát triển xã hội và kinh tế Ấn Độ.
- Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.
- BharatGPT Hanooman có khả năng AI đa phương tiện, cho phép tạo nội dung từ văn bản sang văn bản, văn bản sang giọng nói, văn bản sang video và ngược lại, mở ra ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, quản lý, dịch vụ tài chính và giáo dục.
- Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ.
- Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu tận dụng khả năng của nó và đóng góp vào sự phát triển tiếp theo.

📌 BharatGPT Hanooman, một sáng kiến hợp tác giữa Reliance và 9 IIT, đại diện cho một bước tiến lớn trong lĩnh vực AI tại Ấn Độ, với mục tiêu không chỉ nâng cao khả năng tiếp cận công nghệ AI trong nước mà còn thúc đẩy sự đổi mới và phát triển kỹ thuật số.Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ. Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở.

Citations:
[1] https://economictimes.indiatimes.com/news/how-to/reliance-and-9-iits-set-to-unveil-bharatgpt-hanooman-next-month-heres-your-guide-to-the-new-ai-model/articleshow/107982956.cms

Microsoft hợp tác với Mistral trong thỏa thuận AI thứ hai ngoài OpenAI

- Microsoft đã công bố một quan hệ đối tác nhiều năm với Mistral, một startup AI của Pháp có giá trị 2 tỷ euro (khoảng 2,1 tỷ đô la).

- Quan hệ đối tác bao gồm việc Microsoft nắm giữ cổ phần nhỏ trong công ty AI mới thành lập 10 tháng tuổi, sau hơn một năm Microsoft đầu tư hơn 10 tỷ đô la vào quan hệ đối tác với OpenAI.
- Thỏa thuận này sẽ cho phép các mô hình ngôn ngữ mở và thương mại của Mistral có sẵn trên nền tảng Azure AI của Microsoft, trở thành công ty thứ hai sau OpenAI cung cấp mô hình ngôn ngữ thương mại trên Azure.
- Quan hệ đối tác giữa Microsoft và Mistral cũng tập trung vào việc phát triển và triển khai các mô hình ngôn ngữ lớn thế hệ tiếp theo.
- Mistral công bố một mô hình AI mới hôm nay, có tên là Mistral Large, được thiết kế để cạnh tranh chặt chẽ hơn với mô hình GPT-4 của OpenAI. Khác với một số mô hình trước đây của Mistral, mô hình này sẽ không được nguồn mở.
- Mistral Large đạt được kết quả mạnh mẽ trên các chuẩn mực thường được sử dụng, trở thành mô hình được xếp hạng thứ hai trên thế giới có sẵn thông qua API (sau GPT-4).
- Mistral cũng giới thiệu một chatbot mới, Le Chat, dựa trên các mô hình từ Mistral AI.
- Quan hệ đối tác với Microsoft giúp Mistral có thể khám phá thêm cơ hội thương mại, mặc dù trước đây các mô hình của Mistral thường là nguồn mở.

📌 Microsoft đã mở rộng ảnh hưởng của mình trong lĩnh vực AI thông qua quan hệ đối tác mới với Mistral, một startup AI Pháp, đánh dấu một bước tiến quan trọng sau quan hệ đối tác với OpenAI. Thỏa thuận này không chỉ làm tăng cơ hội thương mại cho Mistral mà còn củng cố vị thế của Microsoft trong việc phát triển và triển khai các mô hình ngôn ngữ lớn thế hệ tiếp theo. Mistral Large, mô hình mới được công bố, hứa hẹn sẽ cạnh tranh sát sao với GPT-4 của OpenAI, đồng thời Mistral cũng giới thiệu chatbot mới, Le Chat, mở ra hướng đi mới cho các ứng dụng AI trong tương lai.

Citations:
[1] https://www.theverge.com/2024/2/26/24083510/microsoft-mistral-partnership-deal-azure-ai

Mistral AI phát hành mô hình mới cạnh tranh với GPT-4 và trợ lý trò chuyện

- Mistral AI, một startup AI có trụ sở tại Paris, đã công bố ra mắt mô hình ngôn ngữ lớn mới có tên Mistral Large, nhằm cạnh tranh với các mô hình hàng đầu khác như GPT-4 và Claude 2.
- Mistral Large được thiết kế với khả năng suy luận nhằm đối đầu với các mô hình AI hàng đầu khác, và Mistral AI cũng giới thiệu dịch vụ trợ lý chat mới có tên Le Chat, hiện đang ở phiên bản beta.
- Mistral AI được thành lập vào tháng 5 năm 2023 và đã nhanh chóng gây quỹ được một lượng tiền lớn, bao gồm vòng gọi vốn hạt giống 113 triệu USD và một vòng gọi vốn khác vào tháng 12 với 415 triệu USD do Andreessen Horowitz (a16z) dẫn dắt.
- Công ty tuyên bố rằng Mistral Large xếp thứ hai sau GPT-4 dựa trên một số tiêu chuẩn đánh giá, mặc dù có thể có sự chọn lọc tiêu chuẩn và sự khác biệt trong việc sử dụng thực tế.
- Le Chat, dịch vụ trợ lý chat mới của Mistral AI, cho phép người dùng chọn giữa ba mô hình khác nhau: Mistral Small, Mistral Large và một mô hình nguyên mẫu được thiết kế để ngắn gọn và xúc tích có tên Mistral Next.
- Dịch vụ này hiện miễn phí nhưng công ty cũng có kế hoạch ra mắt phiên bản trả phí dành cho khách hàng doanh nghiệp với các tính năng như thanh toán trung tâm.

📌 Mistral AI đang nổi lên như một đối thủ đáng gờm trong lĩnh vực AI với việc ra mắt Mistral Large và Le Chat, nhằm cạnh tranh trực tiếp với GPT-4 và các mô hình AI hàng đầu khác. Sự ra đời của Mistral Large, với khả năng suy luận mạnh mẽ, và Le Chat, một dịch vụ trợ lý chat linh hoạt, cho thấy Mistral AI không chỉ tập trung vào việc phát triển công nghệ mà còn hướng tới việc tạo ra các sản phẩm thực tế có giá trị cho người dùng. Với sự hỗ trợ tài chính mạnh mẽ từ các vòng gọi vốn và sự dẫn dắt của Andreessen Horowitz, Mistral AI có tiềm năng lớn để trở thành một trong những người chơi chính trong cuộc đua phát triển AI.

Citations:
[1] https://techcrunch.com/2024/02/26/mistral-ai-releases-new-model-to-rival-gpt-4-and-its-own-chat-assistant/

Cuộc tranh luận lớn về AI: Mô hình mã nguồn mở và đóng trong cuộc đối đầu toàn cầu

- Không có cơ quan nào đang điều chỉnh AI trên toàn thế giới, các quốc gia phương Tây cẩn trọng với công nghệ của mình vì lo ngại bị đánh cắp, trong khi Trung Quốc mở cửa mô hình AI của họ cho sự phát triển cộng tác.
- Mô hình ngôn ngữ lớn nguồn mở (LLM) từ Trung Quốc đang dẫn đầu với số lượng token lớn, cho thấy chúng không chỉ bắt kịp mà còn vượt qua các mô hình sở hữu.
- Mỗi tuần, cộng đồng AI nguồn mở ở Trung Quốc đều có những đột phá mới. Ví dụ, Deepseek của Trung Quốc đã phát hành một LLM mạnh 67 tỷ tham số được huấn luyện trên bộ dữ liệu gồm hai nghìn tỷ token.
- Các nỗ lực quy định cụ thể cho AI đang được phát triển ở Canada, Brazil, Chile và Philippines. Ở Ấn Độ, chính phủ đã xem xét một cách tiếp cận không quy định, nhấn mạnh vào việc cần phải đổi mới, thúc đẩy và thích nghi với sự tiến bộ nhanh chóng của công nghệ AI.
- Công nghệ phát triển nhanh hơn quy định, các nhà theo dõi thị trường và phân tích yêu cầu một định nghĩa tiêu chuẩn của công nghệ để theo dõi mục tiêu tăng trưởng của nó.

📌 Cuộc tranh luận về AI giữa mô hình nguồn mở và đóng đang diễn ra sôi nổi, phản ánh sự chia rẽ giữa các quốc gia phương Tây và Trung Quốc. Trong khi các quốc gia phương Tây thận trọng với công nghệ của mình, Trung Quốc đã mở cửa mô hình AI của họ, thúc đẩy sự phát triển cộng tác. Mô hình ngôn ngữ lớn nguồn mở từ Trung Quốc đang dẫn đầu, với các đột phá mới mỗi tuần, như Deepseek phát hành một LLM mạnh 67 tỷ tham số. Các nỗ lực quy định AI đang được phát triển ở nhiều quốc gia, nhưng công nghệ phát triển nhanh hơn quy định, yêu cầu một định nghĩa tiêu chuẩn của công nghệ để theo dõi mục tiêu tăng trưởng của nó.

Citations:
[1] https://economictimes.indiatimes.com/tech/technology/the-great-ai-debate-open-source-vs-proprietary-models-in-global-showdown/articleshow/107973022.cms

Google ra mắt hai LLM mở mới

- Google đã công bố ra mắt hai mô hình ngôn ngữ lớn (LLMs) mới có tên là Gemma.
- Các mô hình này không phải là nguồn mở, điều này được Jeanine Banks từ Google nhấn mạnh trong một cuộc họp báo trước khi thông báo chính thức được đưa ra.
- Google khẳng định cam kết của mình đối với nguồn mở, nhưng cũng rất cẩn trọng trong cách đặt tên và mô tả các mô hình Gemma.
- Tris Warkentin, giám đốc quản lý sản phẩm của Google DeepMind, đã nói rằng chất lượng tạo sinh của các mô hình AI đã cải thiện đáng kể trong năm qua.
- Những gì trước đây chỉ có thể thực hiện được bởi các mô hình cực lớn nay đã có thể đạt được với các mô hình nhỏ gọn hiện đại.

📌 Google đã tiến thêm một bước lớn trong lĩnh vực AI với việc giới thiệu hai mô hình ngôn ngữ lớn mới, Gemma, mặc dù chúng không được phát hành dưới dạng nguồn mở. Sự kiện này cho thấy sự tiến bộ vượt bậc trong chất lượng tạo sinh của AI, khi những công việc trước đây chỉ có thể do các mô hình lớn thực hiện nay đã trở nên khả thi với các mô hình nhỏ gọn hơn. Google, với cam kết của mình đối với nguồn mở, đã thể hiện sự thận trọng trong việc định hình và quảng bá cho các mô hình Gemma, điều này có thể phản ánh một chiến lược cân nhắc giữa việc chia sẻ công nghệ và bảo vệ sở hữu trí tuệ.

Citations:
[1] https://techcrunch.com/2024/02/21/google-launches-two-new-open-llms/

AnyGPT any-to-any open source multimodal large language model (LLM)

- AnyGPT là một mô hình ngôn ngữ lớn đa phương tiện (LLM) nguồn mở, tập trung vào việc tạo ra nội dung đa phương tiện phong phú.
- Mã nguồn của AnyGPT có sẵn dưới dạng nguồn mở, cho phép bất kỳ ai quan tâm đến AI có thể truy cập, chỉnh sửa và cải thiện chức năng của mô hình.
- Sự phát triển của AnyGPT là một nỗ lực lớn, bao gồm việc tạo ra một bộ dữ liệu đa dạng bao gồm các hình thức nói, văn bản, hình ảnh và âm nhạc.
- Bộ dữ liệu rộng lớn này giúp AnyGPT hiểu được sắc thái của các loại dữ liệu khác nhau và cách chúng có thể được kết hợp hoặc biến đổi.
- AnyGPT không chỉ là một công cụ dịch thuật mà còn là một người tạo ra, có khả năng tạo ra các đầu ra có thể kích thích giác quan của chúng ta theo nhiều cách.
- Mô hình sử dụng một bộ dữ liệu toàn diện chứa thông tin hỗn hợp (nói, văn bản, hình ảnh, âm nhạc) để đào tạo mô hình xử lý đầu vào đa phương tiện.
- Quy trình tạo bộ dữ liệu hai giai đoạn: bao gồm việc tạo ra các cuộc đối thoại đa phương tiện từ các cuộc trò chuyện văn bản và kết hợp các chế độ khác nhau như hình ảnh và âm thanh để làm giàu bộ dữ liệu đào tạo.

📌AnyGPT là mô hình ngôn ngữ lớn đa phương tiện nguồn mở, tập trung vào việc tạo ra nội dung đa phương tiện phong phú, nâng cao khả năng hiểu và tạo ra các phản hồi phức tạp, đa phương tiện. Sự mở mã nguồn và sự đa dạng của bộ dữ liệu làm cho AnyGPT trở thành một nền tảng tiên tiến, mở rộng khả năng của tương tác AI đa phương tiện. Điều này không chỉ thúc đẩy sự sáng tạo trong cộng đồng AI mà còn mở ra cơ hội cho việc ứng dụng AI trong nhiều lĩnh vực mới một cách tự nhiên và trực quan hơn.

Citations:
[1] https://www.geeky-gadgets.com/anygpt-multimodal-large-language-model/

Build LLM-Powered Data Agent for Data Analysis

- Bài viết giới thiệu cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM (Large Language Models) cho mục đích phân tích dữ liệu.
- Khuyến khích khám phá hệ sinh thái nguồn mở để chọn khung đại lý phù hợp nhất cho ứng dụng của bạn.
- Đề xuất sử dụng Mixtral 8x7B LLM có sẵn trong danh mục NVIDIA NGC, hỗ trợ tăng tốc các mô hình và cung cấp chúng dưới dạng API.
- Các lời gọi API đầu tiên cho mỗi mô hình được miễn phí để thử nghiệm.
- Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.

📌 Bài viết trên blog kỹ thuật của NVIDIA cung cấp một hướng dẫn chi tiết về cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM cho phân tích dữ liệu, nhấn mạnh vào việc khám phá hệ sinh thái nguồn mở để tìm kiếm khung agent tốt nhất. Sử dụng Mixtral 8x7B LLM từ danh mục NVIDIA NGC là một lựa chọn được đề xuất, với ưu điểm là hỗ trợ tăng tốc các mô hình và cung cấp API miễn phí cho các lời gọi đầu tiên. Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.

Citations:
[1] https://developer.nvidia.com/blog/build-an-llm-powered-data-agent-for-data-analysis/

AI nguồn mở và AI nguồn đóng: Sự khác biệt là gì và tại sao nó lại quan trọng?

- Các nhà quản lý, start-up và Big Tech chia thành hai phe trong cuộc tranh luận về AI nguồn mở và nguồn đóng, nơi an toàn và lợi nhuận được ưu tiên.
- Cuộc chiến giữa các công ty AI tạo sinh đang diễn ra với hai phe cạnh tranh: phần mềm nguồn mở so với nguồn đóng.
- Trong cuộc tranh luận, việc công nghệ được dân chủ hóa là chìa khóa, nhưng an toàn và lợi nhuận được ưu tiên hàng đầu.
- Phần mềm nguồn mở cho phép mã nguồn được công khai, khuyến khích sự sáng tạo và đổi mới khi các nhà phát triển có thể xây dựng và chỉnh sửa các thuật toán AI và mô hình đã được đào tạo trước.
- AI nguồn đóng hạn chế việc sử dụng và chỉnh sửa mã nguồn cho riêng công ty sở hữu, không cho phép người dùng xây dựng hoặc chỉnh sửa.
- Các công ty AI nguồn mở dễ dàng huy động vốn hơn, có nhiều nguồn lực hơn để đổi mới.
- Mistral, một công ty AI của Pháp, mở mã nguồn cho trọng số mô hình nhưng không cho dữ liệu hoặc quy trình đào tạo.
- Các công ty tuyên bố là nguồn mở cho rằng họ đang làm cho công nghệ dễ tiếp cận hơn cho mọi người và cân bằng lĩnh vực chính trị, cho phép kiểm toán mã nguồn.
- Các công ty AI nguồn đóng như OpenAI (tạo ra ChatGPT) cho rằng nguồn mở đe dọa an toàn của chúng ta.

📌 Trong cuộc tranh luận giữa AI nguồn mở và nguồn đóng, mỗi bên đều có những lập luận về an toàn và lợi nhuận. AI nguồn mở khuyến khích sự sáng tạo và đổi mới thông qua việc chia sẻ mã nguồn, trong khi AI nguồn đóng giữ mã nguồn riêng tư, hạn chế sự chỉnh sửa. Các công ty nguồn mở có lợi thế trong việc huy động vốn và đổi mới, nhưng cũng phải đối mặt với thách thức về việc chia sẻ dữ liệu và quy trình đào tạo. Cuộc tranh luận cũng nêu bật tầm quan trọng của việc làm cho công nghệ dễ tiếp cận và minh bạch, đồng thời đề cập đến mối quan tâm về an toàn khi mã nguồn được mở.

Citations:
[1] https://www.euronews.com/next/2024/02/20/open-source-vs-closed-source-ai-whats-the-difference-and-why-does-it-matter

Generative AI Startup Mistral phát hành LLM tham số 7.3B 'mã nguồn mở' miễn phí

- Mistral, một startup về AI tạo sinh, đã phát hành một mô hình ngôn ngữ lớn (LLM) với 7.3 tỷ tham số dưới dạng nguồn mở và miễn phí.
- Mô hình này và các sản phẩm tương tự khác của Mistral đều được cấp phép dưới Apache 2.0, nhằm mục đích chứng minh khả năng của các LLM nguồn mở kích thước vừa phải trong các dự án AI tạo sinh.
- Trình duyệt web Brave đã chọn Mixtral 8x7B, một mô hình của Mistral, làm mô hình mặc định cho trợ lý AI tạo sinh của mình, Leo.

📌 Mistral, một startup trong lĩnh vực AI tạo sinh, đã đạt được bước tiến quan trọng bằng việc phát hành một mô hình ngôn ngữ lớn với 7,3 tỷ tham số dưới dạng nguồn mở và miễn phí. Sự kiện này không chỉ làm nổi bật khả năng và tiềm năng của các LLM nguồn mở kích thước vừa phải trong việc hỗ trợ các dự án AI tạo sinh, mà còn cho thấy sự chấp nhận và ứng dụng rộng rãi của công nghệ này trong ngành công nghiệp. Việc trình duyệt Brave chọn Mixtral 8x7B làm mô hình mặc định cho trợ lý AI của mình cũng là một minh chứng cho tiềm năng và sự tin tưởng vào công nghệ AI tạo sinh của Mistral.

Citations:
[1] https://voicebot.ai/2024/02/19/generative-ai-startup-mistral-releases-free-open-source-7-3b-parameter-llm-2/

Luật AI cứng rắn của EU có ý nghĩa gì đối với nghiên cứu và ChatGPT

- Các quốc gia Liên minh Châu Âu (EU) đang chuẩn bị áp dụng bộ luật đầu tiên trên thế giới để quản lý trí tuệ nhân tạo (AI), với mục tiêu đảm bảo an toàn và tôn trọng quyền cơ bản và giá trị của EU.

- Luật AI của EU áp dụng các quy tắc nghiêm ngặt nhất cho các mô hình AI có rủi ro cao và được thiết kế để đảm bảo các hệ thống AI an toàn, minh bạch và không phân biệt đối xử.
- Các chính phủ của các quốc gia EU đã phê duyệt dự luật vào ngày 2 tháng 2, và bây giờ chỉ cần sự chấp thuận cuối cùng từ Nghị viện Châu Âu, dự kiến sẽ diễn ra vào tháng 4. Nếu văn bản không thay đổi, luật sẽ có hiệu lực vào năm 2026.
- Một số nhà nghiên cứu hoan nghênh đạo luật vì tiềm năng khuyến khích khoa học mở, trong khi những người khác lo ngại rằng nó có thể làm chậm sự đổi mới.
- EU chọn cách quản lý các mô hình AI dựa trên rủi ro tiềm ẩn của chúng, áp dụng quy tắc nghiêm ngặt hơn cho các ứng dụng rủi ro cao và đề ra quy định riêng biệt cho các mô hình AI đa dụng như GPT.
- Các mô hình AI mạnh mẽ như GPT sẽ được quản lý trong hai hạng mục riêng biệt, với yêu cầu về minh bạch, phương pháp đào tạo, tiêu thụ năng lượng và tuân thủ luật bản quyền.
- Đạo luật cũng khuyến khích AI nguồn mở, làm cho thông tin AI có thể truy cập, sao chép và minh bạch, điều này phản ánh tinh thần của phong trào nguồn mở.
- Ủy ban Châu Âu sẽ tạo ra một Văn phòng AI để giám sát các mô hình đa dụng, với sự tư vấn từ các chuyên gia độc lập, phát triển cách đánh giá năng lực của các mô hình này và giám sát rủi ro liên quan.

📌 Luật AI của EU áp dụng các quy tắc nghiêm ngặt nhất cho các mô hình AI có rủi ro cao và được thiết kế để đảm bảo các hệ thống AI an toàn, minh bạch và không phân biệt đối xử. Các mô hình AI mạnh mẽ như GPT sẽ được quản lý trong hai hạng mục riêng biệt, với yêu cầu về minh bạch, phương pháp đào tạo, tiêu thụ năng lượng và tuân thủ luật bản quyền. Đạo luật cũng khuyến khích AI nguồn mở, làm cho thông tin AI có thể truy cập, sao chép và minh bạch, điều này phản ánh tinh thần của phong trào nguồn mở. Ủy ban Châu Âu sẽ tạo ra một Văn phòng AI để giám sát các mô hình đa dụng, với sự tư vấn từ các chuyên gia độc lập, phát triển cách đánh giá năng lực của các mô hình này và giám sát rủi ro liên quan.

https://www.nature.com/articles/d41586-024-00497-8

Yann LeCun về cách tiếp cận nguồn mở có thể định hình AI

- Yann LeCun, từ những năm 1980, đã tin tưởng vào sức mạnh của mạng nơ-ron, thiết kế mạng nơ-ron đầu tiên có khả năng nhận diện số viết tay với độ chính xác cao.
- LeCun, cùng với Geoffrey Hinton và Yoshua Bengio, được mệnh danh là "Ba Ông Bố Đỡ Đầu của AI", đã nhận Giải Turing vào năm 2018 từ Hiệp hội Máy tính ACM vì những đột phá về khái niệm và kỹ thuật đã làm cho mạng nơ-ron sâu trở thành một thành phần quan trọng trong tính toán.
- Hiện tại, LeCun là giáo sư tại Đại học New York và là chủ nhiệm khoa học AI tại Meta, nơi đang tiên phong trong nghiên cứu AI. Mark Zuckerberg, CEO của Meta, đã công bố mục tiêu mới của công ty là tạo ra "trí tuệ nhân tạo tổng quát".
- LeCun là một nhân vật gây tranh cãi trong lĩnh vực AI, không ngần ngại bày tỏ quan điểm trên Twitter và công khai. Ông đã dự đoán rằng AI sẽ mở ra "một kỷ nguyên phục hưng mới cho nhân loại" và bác bỏ ý kiến cho rằng AI đặt ra rủi ro tồn vong cho loài người là "vô lý".
- LeCun cũng là một người ủng hộ mạnh mẽ cho nghiên cứu mở, dưới sự lãnh đạo tinh thần của ông, bộ phận AI của Meta đã mở mã nguồn cho các mô hình mạnh mẽ nhất của mình, gần đây nhất là Llama-2. Chiến lược này đặt Meta vào một vị trí khác biệt so với các đối thủ chính (bao gồm Google DeepMind, OpenAI được Microsoft hỗ trợ, và Anthropic được Amazon hỗ trợ) những người từ chối công bố trọng số hoặc chi tiết nội bộ của mạng nơ-ron của họ vì lý do kinh doanh và mối quan ngại về an toàn.
- LeCun coi việc tiếp cận mở của Meta không chỉ là một chiến lược kinh doanh thông minh mà còn là một nhu cầu đạo đức. Ông nhấn mạnh tầm quan trọng của việc đóng góp vào một nền tảng mở rộng lớn, vì lý do đa dạng văn hóa, dân chủ, đa dạng. LeCun tin rằng tương lai phải là nguồn mở, không chỉ vì lý do đa dạng văn hóa mà còn vì dân chủ và đa dạng.

📌 Yann LeCun, với niềm tin sâu sắc vào sức mạnh của mạng nơ-ron từ những năm 1980, đã góp phần quan trọng vào sự phát triển của AI thông qua việc thiết kế mạng nơ-ron đầu tiên có khả năng nhận diện số viết tay. Nhận Giải Turing vào năm 2018 cùng với Geoffrey Hinton và Yoshua Bengio, LeCun hiện là một nhân vật quan trọng tại Meta, nơi ông và đội ngũ của mình đang hướng tới mục tiêu tạo ra trí tuệ nhân tạo tổng quát. Với quan điểm mạnh mẽ về nghiên cứu mở và sự phản đối đối với quan điểm cho rằng AI là mối đe dọa tồn vong, LeCun đã trở thành một nhân vật gây tranh cãi nhưng cũng rất được ngưỡng mộ trong cộng đồng AI. Sự lãnh đạo của ông tại Meta, đặc biệt qua việc mở mã nguồn cho các mô hình AI mạnh mẽ như Llama-2, không chỉ thể hiện chiến lược kinh doanh mà còn phản ánh một quan điểm đạo đức về tầm quan trọng của việc chia sẻ kiến thức và công nghệ mở rộng, hướng tới một tương lai đa dạng và dân chủ hơn trong lĩnh vực AI.

AI nguồn mở tốt cho chúng ta Nhưng xu hướng quản lý hiện tại có nguy cơ làm mất đi tính minh bạch và cạnh tranh trong AI

- Tháng trước, một nhà bình luận đã đưa ra quan điểm rằng "AI nguồn mở đặc biệt nguy hiểm", phản ánh lời kêu gọi đăng ký và cấp phép cho các mô hình AI.
- Cuộc tranh luận này đang nổi lên trong những nỗ lực gần đây để quản lý AI. Đầu tiên, Liên minh châu Âu đã hoàn thiện AI Act của mình để quản lý việc phát triển và triển khai các hệ thống AI.
- Một trong những điều khoản gây tranh cãi nhất là liệu có nên áp dụng các quy tắc này cho các mô hình "miễn phí và nguồn mở" hay không.
- Thứ hai, theo lệnh hành pháp của Tổng thống Biden về AI, chính phủ Hoa Kỳ đã bắt đầu yêu cầu các nhà phát triển của một số mô hình AI báo cáo, và sẽ sớm khởi xướng một cuộc điều tra công cộng về việc quản lý các mô hình AI "rộng rãi".
- Dù chính phủ chúng ta lựa chọn quản lý AI như thế nào, chúng ta cần thúc đẩy một hệ sinh thái AI đa dạng: từ các công ty lớn xây dựng siêu trí tuệ sở hữu đến những người thích tinker hàng ngày thử nghiệm với công nghệ mở.
- Các mô hình mở là nền tảng cho sự đổi mới từ cội rễ trong AI.

📌 Trong bối cảnh cuộc tranh luận về việc quản lý AI đang trở nên gay gắt, bài viết trên IEEE Spectrum đã thảo luận về việc liệu AI nguồn mở có tốt cho chúng ta hay không. Một số điểm quan trọng được đề cập bao gồm việc Liên minh châu Âu đã hoàn thiện AI Act của mình để quản lý việc phát triển và triển khai các hệ thống AI, và chính phủ Hoa Kỳ đã bắt đầu yêu cầu các nhà phát triển của một số mô hình AI báo cáo. Dù chính phủ chúng ta lựa chọn quản lý AI như thế nào, chúng ta cần thúc đẩy một hệ sinh thái AI đa dạng, từ các công ty lớn xây dựng siêu trí tuệ sở hữu đến những người thích tinker hàng ngày thử nghiệm với công nghệ mở.

Citations:
[1] https://spectrum.ieee.org/open-source-ai-good

Apple phát hành trình chỉnh sửa hình ảnh AI mã nguồn mở MGIE

- Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California, nhằm cung cấp một công cụ chỉnh sửa ảnh tiên tiến nhưng thân thiện với người dùng.
- MGIE sử dụng các mô hình ngôn ngữ lớn đa phương tiện (MLLMs) để chính xác giải thích các yêu cầu từ người dùng, cho phép thực hiện nhiều loại chỉnh sửa từ cải thiện ảnh tổng thể như điều chỉnh độ sáng, tương phản, đến các chỉnh sửa cục bộ và thay đổi kiểu Photoshop như cắt, thay đổi kích thước và thêm bộ lọc.
- MGIE không chỉ hỗ trợ chỉnh sửa ảnh cơ bản mà còn có khả năng hiểu và thực hiện các lệnh phức tạp như làm cho pizza trông khỏe mạnh hơn hoặc thay đổi điểm nhấn trong ảnh, nhờ vào khả năng suy luận thông thường và kỹ năng thao tác pixel cấp độ cao.
- Công cụ này đặc biệt nổi bật với khả năng suy luận thông thường, cho phép nó thực hiện các nhiệm vụ như thêm topping rau củ vào pizza để làm cho nó trông khỏe mạnh hơn hoặc tăng cường độ tương phản của ảnh để mô phỏng thêm ánh sáng.

📌 Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California. MGIE đánh dấu một bước tiến quan trọng trong việc kết hợp giữa công nghệ AI và công cụ sáng tạo, mở ra những khả năng mới trong chỉnh sửa ảnh. Với việc sử dụng MLLMs để giải thích chính xác các yêu cầu từ người dùng, MGIE cho phép thực hiện từ các chỉnh sửa ảnh tổng thể như điều chỉnh độ sáng, tương phản đến các chỉnh sửa cụ thể và phức tạp như thêm bộ lọc, cắt, thay đổi kích thước. Khả năng suy luận thông thường và thao tác pixel cấp độ cao của MGIE mở ra cánh cửa cho việc chỉnh sửa ảnh sáng tạo và cá nhân hóa hơn, đẩy mạnh giới hạn của những gì có thể đạt được với công nghệ AI trong lĩnh vực này.

Citations:
[1] https://www.geeky-gadgets.com/apple-mgie-ai-image-editor/

Cuộc đua video tạo sinh của Trung Quốc nóng lên

- Video tạo sinh được kỳ vọng trở thành điểm nhấn tiếp theo trong cuộc đua AI sau sự bùng nổ của văn bản và hình ảnh tạo sinh.
- Các công ty khởi nghiệp và công ty công nghệ lớn ở Trung Quốc đang đầu tư mạnh mẽ vào lĩnh vực này, bao gồm Tencent, ByteDance (công ty mẹ của TikTok), Baidu và Alibaba.
- Cả ByteDance với MagicVideo và Baidu với UniVG đã đăng demo trên GitHub, tuy nhiên, hiện tại chưa có sản phẩm nào được công bố rộng rãi cho công chúng.
- Alibaba đã làm cho mô hình tạo video của mình, VGen, trở thành nguồn mở, một chiến lược ngày càng phổ biến giữa các công ty công nghệ Trung Quốc nhằm mục đích tiếp cận cộng đồng nhà phát triển toàn cầu.

📌 Cuộc đua phát triển video tạo sinh ở Trung Quốc đang trở nên sôi động với sự tham gia của các tên tuổi lớn trong ngành công nghệ như Tencent, ByteDance, Baidu và Alibaba. Mỗi công ty đều đã phát triển và giới thiệu mô hình phân tán video của riêng mình, với ByteDance và Baidu chia sẻ demo trên GitHub và Alibaba quyết định mở nguồn cho mô hình VGen của mình. Điều này không chỉ cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI tạo sinh tại Trung Quốc mà còn phản ánh xu hướng mở cửa và chia sẻ công nghệ với cộng đồng toàn cầu. Sự đầu tư mạnh mẽ vào video tạo sinh hứa hẹn sẽ mở ra những cơ hội mới và thúc đẩy sự phát triển của công nghệ AI tạo sinh trên toàn thế giới.

Citations:
[1] https://techcrunch.com/2024/02/05/chinas-generative-video-race-heats-up/

'Smaug-72B': Vua mới của AI nguồn mở

- Smaug-72B, một mô hình AI nguồn mở mới, đã đạt được điểm trung bình 80 trên bảng xếp hạng Hugging Face Open LLM, một thành tựu đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI nguồn mở[1].
- Sự ra đời của Smaug-72B có thể thay đổi cách tiến trình AI diễn ra, khai thác sự sáng tạo của nhiều người hơn so với chỉ một số ít công ty giàu có[1].
- Sự xuất hiện của Smaug-72B và Qwen 1.5 đã tạo ra nhiều sự hào hứng và tranh luận trong cộng đồng AI và hơn thế nữa[1].
- Nhiều chuyên gia và người ảnh hưởng đã khen ngợi thành tựu của Abacus AI và Qwen và bày tỏ sự ngưỡng mộ của họ đối với đóng góp của họ cho AI nguồn mở[1].
- Abacus AI và Qwen cũng đã gợi ý về các dự án và mục tiêu tương lai của họ, bao gồm việc tạo ra nhiều mô hình nguồn mở hơn và áp dụng chúng vào các lĩnh vực và ứng dụng khác nhau[1].
- Smaug-72B và Qwen 1.5 chỉ là những ví dụ mới nhất về sự tiến hóa nhanh chóng và đáng kể của AI nguồn mở trong năm nay[1].

📌 Smaug-72B, một mô hình AI nguồn mở mới, đã đạt được điểm trung bình 80 trên bảng xếp hạng Hugging Face Open LLM, một thành tựu đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI nguồn mở. Sự xuất hiện của Smaug-72B và Qwen 1.5 đã tạo ra nhiều sự hào hứng và tranh luận trong cộng đồng AI và hơn thế nữa. Nhiều chuyên gia và người ảnh hưởng đã khen ngợi thành tựu của Abacus AI và Qwen và bày tỏ sự ngưỡng mộ của họ đối với đóng góp của họ cho AI nguồn mở[1].

Citations:
[1] https://venturebeat.com/ai/meet-smaug-72b-the-new-king-of-open-source-ai/

Giới thiệu Qwen1.5

- Qwen1.5 giờ đây có thể được sử dụng cho các ứng dụng như RAG, tool use, agent.
- Người dùng có thể xây dựng API tương thích với OpenAI-API hoặc chạy các mô hình cục bộ cho các framework nổi tiếng như LlamaIndex, LangChain, CrewAI.
- Sự khác biệt lớn nhất của Qwen1.5 là việc tích hợp vào Hugging Face transformers.
- Từ phiên bản 4.37.0, người dùng có thể sử dụng Qwen1.5 mà không cần mã nguồn tùy chỉnh.
- Điều này có nghĩa là người dùng có thể tải mô hình theo cách mới được cung cấp.

📌 Qwen1.5 đã được tích hợp vào Hugging Face transformers, cho phép người dùng sử dụng mô hình này mà không cần mã nguồn tùy chỉnh từ phiên bản 4.37.0. Điều này mở ra khả năng xây dựng API tương thích với OpenAI-API hoặc chạy các mô hình cục bộ cho các framework nổi tiếng, đáp ứng nhu cầu đa dạng của người dùng trong việc phát triển các ứng dụng như RAG, tool use, agent.

1. Meta description: Qwen1.5 giờ đây có thể được tích hợp vào Hugging Face transformers, cho phép người dùng sử dụng mô hình mà không cần mã nguồn tùy chỉnh từ phiên bản 4.37.0.
2. Meta keywords: Qwen1.5, Hugging Face transformers, OpenAI-API, LlamaIndex, LangChain, CrewAI, RAG, tool use, agent, phiên bản 4.37.0.
3. SEO title: Qwen1.5 Tích Hợp vào Hugging Face Transformers: Sử Dụng Mô Hình Mà Không Cần Mã Người Dùng Tùy Chỉnh.

Citations:
[1] https://qwenlm.github.io/blog/qwen1.5/

Hugging Face ra mắt trợ lý AI nguồn mở để cạnh tranh với GPT tùy chỉnh của OpenAI

  • Hugging Face ra mắt Hugging Chat Assistants, công cụ tạo trợ lý AI nguồn mở để cạnh tranh với GPT tùy chỉnh của OpenAI.
  • Hugging Chat Assistants miễn phí và cho phép người dùng tùy chỉnh trợ lý AI của riêng họ với các khả năng cụ thể.
  • Người dùng có thể chọn từ nhiều mô hình ngôn ngữ lớn (LLM) nguồn mở khác nhau để cung cấp năng lượng cho trợ lý AI của họ.
  • Hugging Face cũng đã tạo ra một kho lưu trữ trung tâm các Trợ lý trò chuyện Hugging do bên thứ ba tùy chỉnh mà người dùng có thể lựa chọn.

📌 Hugging Chat Assistants là một công cụ mạnh mẽ và dễ sử dụng cho phép người dùng tạo các trợ lý AI tùy chỉnh miễn phí, sử dụng nhiều mô hình ngôn ngữ lớn nguồn mở khác nhau. Hugging Chat Assistants cũng là một bước tiến quan trọng đối với cộng đồng AI nguồn mở. Bằng cách cung cấp một nền tảng để người dùng tạo và chia sẻ các trợ lý AI tùy chỉnh cạnh tranh với GPT tùy chỉnh của OpenAI, Hugging Face đang giúp thúc đẩy sự phát triển của AI và làm cho AI dễ tiếp cận hơn với mọi người.

Tại sao các mô hình AI tạo sinh nguồn mở vẫn chậm một bước so với GPT-4

  • Các mô hình AI nguồn mở như Meta's Llama 2 không đạt hiệu suất cao như GPT-4 của OpenAI trong các kiểm tra chuyên ngành.
  • Một nghiên cứu từ Pepperdine University, UCLA và UC Riverside đã sử dụng Llama 2 để trả lời câu hỏi về nephrology nhưng không đạt kết quả khả quan.
  • Trong khi đó, GPT-4 đạt tỷ lệ đúng 73,3% trong các bài kiểm tra tương tự, rất gần với ngưỡng đậu là 75%.
  • Các mô hình nguồn mở khác như Vicuña và Falcon cũng không thể hiệu quả hơn nhiều so với cách đoán mò.
  • Sự chênh lệch này là minh chứng rõ ràng về khoảng cách chất lượng giữa các mô hình AI nguồn mở so với mô hình thương mại, đặc biệt trong lĩnh vực đòi hỏi kiến thức chuyên sâu.

📌 GPT-4 đã cho thấy khả năng tiếp cận ngưỡng hiệu suất của con người với tỷ lệ đúng 73,3% trong các bài kiểm tra chuyên ngành, trong khi các mô hình AI nguồn mở như Llama 2 vẫn còn nhiều hạn chế, không hiệu quả hơn việc đoán mò.

Có nên biến các mô hình AI mạnh mẽ nhất của mình thành nguồn mở cho tất cả mọi người không?

  • Sử dụng hệ thống AI hiện đại, từ tạo hình ảnh như DALL-E hay Midjourney đến mô hình ngôn ngữ như Llama 2 hay ChatGPT, bạn sẽ nhận thấy các biện pháp bảo vệ được tích hợp để ngăn chặn việc sử dụng không được chấp thuận bởi người tạo mô hình.
  • Các công cụ tạo hình ảnh lớn sẽ ngăn bạn tạo nội dung khiêu dâm hoặc vi phạm bản quyền. Mô hình ngôn ngữ từ chối giúp giải CAPTCHA, viết virus máy tính, hoặc hỗ trợ âm mưu khủng bố.
  • Một ngành công nghiệp nhỏ đã phát triển với lời khuyên về cách lừa AI bỏ qua các biện pháp bảo vệ. Điều này đã dẫn đến cuộc đua vũ trang giữa các nhà phát triển cố gắng đóng các lỗ hổng ngay khi chúng được phát hiện.
  • Một cách dễ dàng để vượt qua tất cả các biện pháp bảo vệ này là lấy một mô hình có trọng số được công bố công khai, như Llama 2, và tự đào tạo nó để không phản đối nội dung có hại hoặc bất hợp pháp.
  • Tổ chức phi lợi nhuận Palisade Research đã thử nghiệm xem việc này khó đến mức nào như một phần của nỗ lực hiểu rõ hơn về rủi ro từ các hệ thống AI. Họ phát hiện ra rằng việc này không hề khó khăn.
  • Việc mở cửa nghiên cứu AI đã là một trụ cột của tiến bộ và hợp tác trong cộng đồng lập trình từ khi internet ra đời. Phương pháp mã nguồn mở dân chủ hóa AI, hạn chế quyền lực của các chính phủ kiểm duyệt, và cho phép nghiên cứu quan trọng tiếp tục mà không bị can thiệp của doanh nghiệp.
  • Tuy nhiên, việc mở cửa cũng khiến việc ngăn chặn sử dụng mô hình AI cho việc tạo deepfake khiêu dâm, quấy rối mục tiêu, giả mạo, khủng bố và nhiều thứ khác bạn muốn ngăn chặn trở nên hoàn toàn không thể.
  • Các nhà nghiên cứu AI đang phân vân về cách xử lý vấn đề này - nhưng tất cả đều đồng ý rằng đây là một cuộc trò chuyện sẽ ngày càng khó tránh khỏi khi các mô hình AI trở nên mạnh mẽ hơn.

📌Việc mở cửa nghiên cứu AI đã là một trụ cột của tiến bộ và hợp tác trong cộng đồng lập trình từ khi internet ra đời. Mã nguồn mở dân chủ hóa AI, hạn chế quyền lực của các chính phủ kiểm duyệt, và cho phép nghiên cứu quan trọng tiếp tục mà không bị can thiệp của doanh nghiệp. Tuy nhiên, nguồn mở cũng khiến việc ngăn chặn sử dụng mô hình AI cho việc tạo deepfake khiêu dâm, quấy rối mục tiêu, giả mạo, khủng bố và nhiều thứ khác bạn muốn ngăn chặn trở nên hoàn toàn không thể. Các nhà nghiên cứu AI đang phân vân về cách xử lý vấn đề này

LLM nguồn mở 'thực sự' đầu tiên từ AI2 để thúc đẩy 'sự thay đổi quan trọng' trong phát triển AI

  • Viện Nghiên cứu AI Allen (AI2), do đồng sáng lập Microsoft, Paul Allen, thành lập, đã giới thiệu OLMo, mô hình ngôn ngữ lớn và framework mã nguồn mở đầu tiên, như một lựa chọn thay thế cho các mô hình hiện hành hạn chế và đóng, góp phần vào sự chuyển biến quan trọng trong phát triển AI.
  • OLMo không chỉ bao gồm mã mô hình và trọng số mà còn cung cấp mã đào tạo, dữ liệu đào tạo và các bộ công cụ đánh giá, phát hành dưới giấy phép được chấp nhận bởi sáng kiến mã nguồn mở (OSI) và tất cả mã, trọng số, và checkpoint trung gian được phát hành dưới Giấy phép Apache 2.0.
  • Sự ra đời của OLMo diễn ra trong bối cảnh AI mã nguồn mở/khoa học mở đang đạt được tiến bộ đáng kể so với các LLM độc quyền như GPT-4 của OpenAI và Claude của Anthropic, nhưng vẫn đối mặt với chỉ trích từ một số nhà nghiên cứu và nhà hoạch định chính sách.
  • Framework OLMo cung cấp một bộ công cụ phát triển AI "hoàn toàn mở" cho công chúng, bao gồm dữ liệu đào tạo đầy đủ, mã đào tạo, trọng số mô hình và đánh giá, nhằm mục đích cho phép các nhà nghiên cứu nghiên cứu khoa học của LLM một cách đầy đủ và khoa học.
  • Cộng đồng AI mã nguồn mở hoan nghênh sự ra mắt của OLMo, với Jonathan Frankle từ MosaicML và Databricks mô tả sự kiện này là "Bước nhảy vọt lớn cho khoa học mở" và Yann LeCun từ Meta nhấn mạnh tầm quan trọng của mô hình nền tảng mở trong việc thúc đẩy đổi mới và phát triển trong lĩnh vực AI tạo sinh.

📌 Sự giới thiệu OLMo bởi Viện Nghiên cứu AI Allen (AI2) là một bước ngoặt quan trọng trong lĩnh vực AI, mở ra hướng đi mới cho sự phát triển AI mã nguồn mở, tạo điều kiện cho việc nghiên cứu và phát triển AI một cách minh bạch và toàn diện. Với việc cung cấp không chỉ mã mô hình và trọng số mà còn bao gồm mã đào tạo, dữ liệu đào tạo và bộ công cụ đánh giá, đánh dấu sự khác biệt so với các mô hình đóng như GPT-4 của OpenAI và Claude của Anthropic. OLMo mở ra cơ hội cho các nhà nghiên cứu nghiên cứu khoa học của LLM một cách đầy đủ và khoa học, hướng tới mục tiêu tạo ra thế hệ AI tiếp theo an toàn và đáng tin cậy.

Sea-Lion: Sáng kiến AI đa ngôn ngữ của Singapore dành cho ASEAN

  • AI Singapore (AISG) nhấn mạnh tầm quan trọng của việc phát triển các mô hình ngôn ngữ lớn (LLMs) địa phương để giảm thiểu định kiến từ dữ liệu đào tạo và bối cảnh văn hóa của phương Tây.
  • Mô hình Sea-Lion của AISG, tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto.
  • Singapore đã cam kết 70 triệu đô la Singapore (khoảng 52 triệu đô la Mỹ) để phát triển Sea-Lion, nhưng một số người trong ngành đặt câu hỏi về tính khả thi và thời điểm của dự án so với sự tiến bộ nhanh chóng của OpenAI và các công ty công nghệ lớn.
  • Sea-Lion, được quảng cáo là LLM mã nguồn mở đầu tiên tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã được đào tạo trên 1 nghìn tỷ token và có hai phiên bản với 3 tỷ và 7 tỷ tham số.
  • AISG tiết lộ rằng 73% LLMs hiện tại có nguồn gốc từ Mỹ và Trung Quốc, với 95% mô hình được đào tạo chủ yếu bằng tiếng Anh hoặc kết hợp tiếng Anh với một trong các ngôn ngữ Trung Quốc, Ả Rập, hoặc Nhật Bản.
  • Đối với việc xây dựng Sea-Lion, AISG phải vượt qua thách thức là thiếu dữ liệu công khai chất lượng cao bằng ngôn ngữ Đông Nam Á và chỉ sử dụng dữ liệu không vi phạm bản quyền.
  • Sea-Lion đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn.
  • AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.

📌 Mô hình ngôn ngữ lớn Sea-Lion của Singapore tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto. Sea-Lion, với sự đầu tư 52 triệu đô la Mỹ từ chính phủ Singapore đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn. AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.

 

Prompt Engineering is Different for Open Source LLMs

  • Meta AI giới thiệu 'Prompt Engineering with Llama 2', nguồn tài nguyên mới dành cho cộng đồng mã nguồn mở, tập trung vào các phương pháp tốt nhất cho kỹ thuật xử lý lệnh (prompt engineering).
  • DeepLearning.AI của Andrew Ng cũng ra mắt khóa học về kỹ thuật xử lý lệnh cho các Mô Hình Ngôn Ngữ Lớn mã nguồn mở.
  • Các công ty như IBM, Amazon, Google, và Microsoft cung cấp khóa học tương tự cho mô hình mã nguồn mở.
  • Xu hướng tuyển dụng chuyên gia xử lý lệnh tăng cao do nhu cầu sử dụng ChatGPT của OpenAI trong doanh nghiệp.
  • Sharon Zhou phân tích sự khác biệt trong kỹ thuật xử lý lệnh giữa mô hình AI mã nguồn mở và mã nguồn đóng, nhấn mạnh rằng cách đóng gói mô hình mã nguồn mở khác với mô hình mã nguồn đóng. Điều này ảnh hưởng đến API và cuối cùng là cơ chế xử lý lệnh. Zhou cho rằng việc chuyển đổi giữa các mô hình LLM khác nhau đòi hỏi việc điều chỉnh lệnh một cách cẩn thận.
  • Zhou nhấn mạnh sự đơn giản của kỹ thuật xử lý lệnh, chỉ ra rằng đó là kỹ năng cơ bản không cần framework phức tạp.

📌 Meta AI giới thiệu 'Prompt Engineering with Llama 2', nguồn tài nguyên mới dành cho cộng đồng mã nguồn mở, tập trung vào các phương pháp tốt nhất cho prompt engineering. Sự phát triển của prompt engineering trong AI, đặc biệt là với các mô hình mã nguồn mở như LLaMA của Meta, cho thấy sự cần thiết của việc hiểu biết và thích nghi với các phương pháp tối ưu hóa hiệu suất của các mô hình AI. 

Tầm quan trọng và đề xuất chiến lược của mô hình ngôn ngữ lớn Xingchen AI nguồn mở hoàn toàn của China Telecom

  • Bài viết trên Sina Finance đề cập đến việc China Telecom's Xingchen AI mở mã nguồn mở cho mô hình AI lớn của mình.
  • Trong năm 2023, sự phát triển của ngành công nghiệp mô hình lớn ở Trung Quốc được thúc đẩy mạnh mẽ bởi sự nổi tiếng của ChatGPT và việc Meta mở mã nguồn mở mô hình LLaMA.
  • Đến nay, đã có 15 mô hình AI lớn ở Trung Quốc được công bố mã nguồn mở, chủ yếu là mô hình ngôn ngữ lớn và mô hình đa phương tiện.
  • Các mô hình mở mã nguồn mở ở Trung Quốc thường có quy mô tham số từ 60-70 tỷ, với mô hình lớn nhất là "Yuan 2.0" của Inspur Information với 102 tỷ tham số.
  • Việc mở mã nguồn mở những mô hình lớn này có tác động tích cực đến việc phát triển cơ sở hạ tầng, đổi mới công nghệ, và xây dựng hệ sinh thái mở.
  • Xingchen AI của China Telecom mở mã nguồn mở với mục tiêu thúc đẩy ứng dụng trong các tình huống cụ thể và bảo vệ quyền riêng tư dữ liệu.
  • Xingchen AI định hướng phát triển dựa trên việc mở mã nguồn mở, cải thiện khả năng của mô hình, và xây dựng hệ thống hỗ trợ mở mã nguồn mở.

📌 Việc China Telecom's Xingchen AI mở mã nguồn mở cho mô hình AI lớn của mình đánh dấu một bước tiến quan trọng trong ngành công nghiệp AI ở Trung Quốc. Sự kiện này không chỉ thúc đẩy đổi mới và phát triển công nghệ mà còn mở ra cơ hội mới cho các doanh nghiệp và nhà phát triển trong việc tùy chỉnh và bảo vệ dữ liệu. Với hơn 15 mô hình AI lớn đã được mở mã nguồn mở, Trung Quốc đang chứng tỏ vị thế của mình trong cuộc đua phát triển AI toàn cầu.

Orion-14B: Mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới được đào tạo trên Token 2,5T bao gồm tiếng Trung, tiếng Anh, tiếng Nhật và tiếng Hàn

  • Orion-14B là mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới được huấn luyện trên 2.5 nghìn tỷ tokens, bao gồm tiếng Trung, Anh, Nhật và Hàn.
  • Mô hình cơ sở của Orion-14B có 14 tỷ tham số và dữ liệu huấn luyện khổng lồ 2.5 ngàn tỷ tokens, với chiều dài ngữ cảnh lên đến 200.000 tokens.
  • Orion-14B bao gồm nhiều mô hình với đặc điểm và ứng dụng riêng biệt. Mô hình Orion-14B-Chat-RAG được tinh chỉnh trên tập dữ liệu tăng cường truy xuất, còn Orion-14B-Chat-Plugin được thiết kế cho các tình huống liên quan đến agent.
  • Phiên bản long-chat của Orion-14B có khả năng xử lý văn bản dài lên đến 320.000 tokens. Phiên bản quantized của Orion-14B giảm kích thước mô hình 70%, tăng tốc độ suy luận lên 30% và chỉ giảm hiệu suất dưới 1%.
  • Dữ liệu huấn luyện bao gồm văn bản đa ngôn ngữ, tập trung chủ yếu vào tiếng Anh và tiếng Trung, chiếm 90% toàn bộ dữ liệu. Nội dung tiếng Nhật và tiếng Hàn chiếm hơn 5%.
  • Mặc dù đối mặt với nhiều thách thức, nhóm nghiên cứu đã phát triển Orion-14B thành công, với hiệu suất vượt trội so với các mô hình nguồn mở khác.

📌 Orion-14B đánh dấu một cột mốc quan trọng trong lĩnh vực nghiên cứu AI, đặc biệt là trong việc xây dựng mô hình ngôn ngữ đa ngôn ngữ với khả năng xử lý dữ liệu đa dạng. Sự kết hợp của dữ liệu huấn luyện khổng lồ 2,5 ngàn tỷ tokens và chiều dài ngữ cảnh 200.000 tokens cùng các phiên bản tối ưu hóa cho các tác vụ cụ thể như Chat RAG và Chat Plugin, cùng với phiên bản long-chat và quantized cho thấy Orion-14B không chỉ mạnh mẽ về quy mô mà còn linh hoạt và hiệu quả. Với việc chiếm ưu thế trong các bài kiểm tra tiếng Nhật và tiếng Hàn, mô hình này mở ra hướng tiếp cận mới cho NLP đa ngôn ngữ và có tiềm năng ứng dụng rộng rãi trong ngành công nghiệp AI.

Xu hướng công nghệ năm 2024: Các mô hình AI tạo sinh sẽ nhỏ hơn, hiệu quả chi phí hơn

  • Xu hướng công nghệ của năm 2024 dự báo sẽ có sự chuyển dịch của AI tạo sinh từ các mô hình ngôn ngữ lớn (LLMs) sang các mô hình nhỏ hơn, tiết kiệm chi phí và nguồn mở.
  • AI tạo sinh sẽ trở nên linh hoạt hơn, có thể hoạt động trên phần cứng có khả năng xử lý hạn chế như laptop hay smartphone, theo Capgemini.
  • Sự kết hợp giữa mô hình nhỏ hơn và đồ thị kiến thức sẽ cải thiện độ chính xác, theo Robert Engels từ phòng thí nghiệm AI tạo sinh của Capgemini.
  • AI tạo sinh sẽ giúp doanh nghiệp phần mềm tăng doanh thu thêm 10 tỷ USD vào cuối năm 2024, nhờ việc tích hợp AI vào sản phẩm.
  • AI cũng được dự đoán sẽ hỗ trợ lập trình viên học hỏi kỹ năng mới, nâng cao hiệu suất và cải thiện quyết định.
  • Tuổi thọ trung bình của iPhone dự kiến sẽ đạt 8 năm, và hơn một nửa trong số 1,3 tỷ iPhone đang được sử dụng sẽ là thiết bị đã qua sử dụng.
  • Sự xuất hiện của các loại vệ tinh mới sẽ cung cấp dịch vụ cho thiết bị IoT và người dùng smartphone, với dự đoán rằng 200 triệu smartphone có khả năng kết nối với dịch vụ vệ tinh sẽ được bán ra trong năm 2024.
  • Các hệ thống vệ tinh sẽ trở nên phổ biến sau khi đạt được số lượng vệ tinh tối thiểu cần thiết để hoạt động hiệu quả trên quỹ đạo.

📌 Năm 2024, ngành công nghệ sẽ chứng kiến sự thay đổi lớn trong lĩnh vực AI tạo sinh với sự chuyển hướng sang các mô hình nhỏ hơn, nguồn mở, dễ tiếp cận và tiết kiệm chi phí. Doanh nghiệp phần mềm dự kiến sẽ thấy sự gia tăng doanh thu khoảng 10 tỷ USD từ việc tích hợp AI, trong khi người dùng iPhone có thể sẽ sử dụng thiết bị của họ lâu hơn, trung bình 8 năm. Sự phát triển của các hệ thống vệ tinh sẽ mang lại lợi ích cho người dùng IoT và smartphone, với dự đoán sự tăng trưởng trong việc bán ra smartphone có khả năng kết nối với vệ tinh lên đến 200 triệu thiết bị vào năm 2024.

Fireworks AI Mã nguồn mở FireLLaVA

  • Fireworks AI công bố mã nguồn mở FireLLaVA, phiên bản có thể sử dụng thương mại của LLaVA Model, chỉ sử dụng các mô hình nguồn mở (OSS) cho việc tạo dữ liệu và đào tạo.
  • FireLLaVA là mô hình đa phương tiện (multimodal) đầu tiên được phát hành dưới Llama 2 Community Licence, cho phép sử dụng thương mại.
  • Mô hình có khả năng hiểu cả văn bản và nội dung hình ảnh, hứa hẹn sự linh hoạt hơn trong ứng dụng tạo chatbot và mô tả marketing dựa trên ảnh sản phẩm.
  • FireLLaVA vượt trội hơn mô hình LLaVA gốc trên 4 trong số 7 điểm chuẩn, sử dụng mô hình chỉ ngôn ngữ OSS CodeLlama 34B Instruct để tái tạo dữ liệu đào tạo.
  • Mô hình được phát triển để xử lý các ứng dụng thực tế như trả lời câu hỏi dựa trên hình ảnh và giải mã nguồn dữ liệu phức tạp, cải thiện độ chính xác và độ rộng của thông tin do AI cung cấp.
  • FireLLaVA cho phép các nhà phát triển tích hợp tính năng nhìn thông qua API hoàn thiện và chat hoàn thiện, tương thích với các mô hình Vision của OpenAI.

📌 Fireworks AI đã mở ra một chương mới cho AI đa phương tiện với việc công bố mã nguồn mở FireLLaVA, một bước tiến đáng kể trong việc tạo ra các mô hình ngôn ngữ-hình ảnh linh hoạt và có lợi nhuận. Với khả năng đánh bại mô hình LLaVA gốc trên một số điểm chuẩn và việc sử dụng OSS để tạo dữ liệu đào tạo, FireLLaVA không chỉ mở rộng khả năng của các ứng dụng AI mà còn tạo cơ hội cho việc tích hợp AI vào nhiều lĩnh vực thương mại.

Công ty khởi nghiệp Trung Quốc này đang chiến thắng trong cuộc đua AI nguồn mở

  • Startup Trung Quốc 01.AI nổi bật trong cuộc đua AI nguồn mở với mô hình Yi-34B và phiên bản mới Yi-VL-34B có khả năng xử lý hình ảnh.
  • 01.AI, được thành lập vào tháng 6 năm trước, đã huy động được 200 triệu USD từ Alibaba và được định giá hơn 1 tỷ USD.
  • Người sáng lập là Kai-Fu Lee, từng là nhà nghiên cứu AI tiên phong, lãnh đạo lab của Microsoft tại Bắc Kinh và sau đó là Google Trung Quốc.
  • Mục tiêu của 01.AI là tạo ra các ứng dụng "killer" đầu tiên dựa trên công nghệ AI, đặc biệt là trong lĩnh vực sản xuất, sáng tạo và mạng xã hội.
  • 01.AI đã tạo được sự chú ý tại phương Tây khi mô hình ngôn ngữ nguồn mở của họ nhanh chóng được nhận xét cao trên bảng xếp hạng của Hugging Face và các tiêu chuẩn khác.

📌 01.AI, với sự dẫn dắt của Kai-Fu Lee, đang tạo nên bước đột phá trong cuộc đua AI nguồn mở, không chỉ qua việc phát triển mô hình Yi-34B, mà còn mở rộng sang mô hình multimodal mới. Việc thu hút đầu tư lớn và xây dựng cơ sở nhà phát triển trung thành qua việc chia sẻ công nghệ có thể sẽ giúp 01.AI dẫn đầu trong việc tạo ra các ứng dụng AI tiếp theo, với kỳ vọng tạo ra doanh thu đáng kể và tác động toàn cầu.

Tại sao các tổ chức đang chuyển đổi từ OpenAI sang các mô hình nguồn mở được tinh chỉnh

  • Tổ chức đang chuyển từ OpenAI sang mô hình nguồn mở được tinh chỉnh vì hiệu quả và tránh phụ thuộc vào nhà cung cấp đồng thời bảo vệ tài sản trí tuệ.
  • Mô hình nguồn mở như Llama2 và Mistral giờ đây có hiệu năng ngang hoặc hơn các mô hình thương mại, với kích thước đáng kể nhỏ hơn.
  • Ba phần tư người trả lời khảo sát từ công ty không thoải mái khi sử dụng mô hình LLM thương mại trong sản xuất, lo ngại về sở hữu, quyền riêng tư và chi phí.
  • Các mô hình nguồn mở được tinh chỉnh giờ đây đạt được hiệu suất tương đương hoặc vượt trội so với các mô hình thương mại, giảm đáng kể chi phí và tăng tốc độ.
  • Các thách thức hiện tại bao gồm việc đơn giản hóa quá trình tinh chỉnh, thiết lập cơ sở hạ tầng sản xuất vững chắc và đảm bảo chất lượng, độ tin cậy, an toàn và đạo đức của các ứng dụng AI.

📌 Chuyển đổi từ OpenAI sang mô hình nguồn mở là bước tiếp theo cho các doanh nghiệp muốn duy trì quyền sở hữu thông tin và mô hình của mình, đảm bảo quyền riêng tư và tránh phụ thuộc vào nhà cung cấp.Trong kỷ nguyên AI tùy chỉnh, các mô hình chuyên biệt không chỉ cung cấp hiệu suất tối ưu mà còn giảm thiểu chi phí đáng kể. Các thách thức như quản lý quá trình tinh chỉnh, xây dựng cơ sở hạ tầng sản xuất mạnh mẽ và đảm bảo chất lượng, độ tin cậy, an toàn và đạo đức của AI vẫn còn, nhưng các nền tảng sáng tạo đang cung cấp giải pháp khai thác tiềm năng lớn của mô hình nguồn mở với hiệu suất tối ưu và kiểm soát tốt nhất.

Microsoft đang sử dụng Llama, giảm sự phụ thuộc vào OpenAI

- Microsoft đang sử dụng Llama, giảm sự phụ thuộc vào OpenAI.
- Tại Diễn đàn Kinh tế Thế giới, Satya Nadella, CEO của Microsoft, cho biết công ty không chỉ dựa vào một mô hình AI duy nhất và đang đa dạng hóa với nhiều mô hình khác nhau như Mixtral và Phi của Microsoft, bên cạnh việc sử dụng Llama của Meta trong một số ứng dụng.
- Microsoft đầu tư vào OpenAI từ năm 2019, giúp OpenAI chuyển đổi từ một phòng thí nghiệm nghiên cứu thành công ty AI với doanh thu trên 1 tỷ USD và giá trị định giá khoảng 100 tỷ USD.
- Quan hệ đối tác giữa Microsoft và OpenAI mang lại lợi ích lớn cho cả hai bên, giúp Microsoft dẫn đầu trong các sản phẩm AI mới nhờ quyền truy cập độc quyền vào mô hình tiên tiến của OpenAI và đóng góp vào sự tăng giá cổ phiếu của Microsoft.
- Các mô hình ngôn ngữ lớn (LLMs) không còn chỉ là những mô hình lớn cần nguồn lực tính toán khổng lồ và chỉ chạy trên đám mây, nhờ vào tiến bộ của các mô hình nguồn mở, đang có LLMs kích thước khác nhau có thể chạy trên GPU dành cho người tiêu dùng và thậm chí cả trên thiết bị di động.
- Sự thay đổi này làm giảm lợi thế của OpenAI và các công ty chỉ bán quyền truy cập dựa trên API đến các mô hình của họ. Cuộc cạnh tranh sẽ dần chuyển từ hiệu suất sang giá cả.
- Microsoft đang chuẩn bị cho tương lai bằng cách tách rời các sản phẩm của mình khỏi mô hình của OpenAI và khám phá các mô hình ngôn ngữ trên thiết bị với mô hình Phi.
- OpenAI cũng đang chuẩn bị cho tương lai nhưng vẫn cực kỳ phụ thuộc vào Microsoft cho sự thành công và kinh doanh tiếp tục của mình.

📌 Microsoft đang tiếp tục đa dạng hóa và giảm sự phụ thuộc vào OpenAI bằng cách sử dụng các mô hình AI khác như Llama của Meta và phát triển các mô hình của riêng mình như Mixtral và Phi. Với sự thay đổi trong thị trường LLMs, từ việc cạnh tranh dựa trên hiệu suất sang giá cả và sự phát triển của các mô hình nguồn mở, Microsoft đang chuẩn bị cho một tương lai mà việc sở hữu quyền truy cập độc quyền tới GPT-4 và các mô hình kế nhiệm có thể không còn là lợi thế cạnh tranh. OpenAI vẫn cần Microsoft cho sự phát triển kinh doanh của mình, dù đã có những chuẩn bị cho các thay đổi trong thị trường.

Jan: An Open-Source ChatGPT Alternative that Runs 100% Offline on Your Computer

  • Jan là một phần mềm chatbot nguồn mở và hoạt động hoàn toàn ngoại tuyến, được giới thiệu như một lựa chọn thay thế cho ChatGPT.
  • Chatbot này có thể được cài đặt và sử dụng trực tiếp trên máy tính cá nhân mà không cần kết nối internet.
  • Jan được phát triển nhằm mục đích tăng cường quyền riêng tư và kiểm soát dữ liệu cho người dùng, đồng thời giảm phụ thuộc vào các dịch vụ đám mây.
  • Các nhà phát triển Jan nhấn mạnh sự quan trọng của việc có khả năng tùy chỉnh và kiểm soát hoàn toàn dữ liệu, điều này thường không thể với các dịch vụ dựa trên cloud.
  • Jan hỗ trợ nhiều ngôn ngữ lập trình và hệ điều hành khác nhau, cho phép tích hợp linh hoạt vào các hệ thống sẵn có.
  • Tuy nhiên, mô hình nguồn mở này có thể chưa đạt được độ chính xác và hiệu năng ngang bằng với các phiên bản thương mại như ChatGPT do OpenAI.

📌 Jan không chỉ cung cấp một giải pháp nguồn mở cho những ai quan tâm đến quyền riêng tư và kiểm soát dữ liệu mà còn đánh dấu sự phát triển của cộng đồng AI nguồn mở. Sự ra đời của Jan thể hiện rõ nhu cầu tăng cường sự độc lập về công nghệ và khả năng tự chủ, đồng thời cũng mở ra cánh cửa cho việc phát triển các công cụ tương tự, dựa trên cộng đồng và hướng đến việc tối ưu hóa dữ liệu nội bộ mà không phụ thuộc vào các dịch vụ đám mây. Khả năng chạy hoàn toàn ngoại tuyến của Jan cung cấp một lựa chọn quan trọng cho người dùng và doanh nghiệp đang tìm kiếm sự linh hoạt và độc lập trong việc triển khai AI.

More than an OpenAI Wrapper: Perplexity Pivots to Open Source

- Perplexity, một dự án phần mềm liên quan đến AI, đã quyết định chuyển hướng sang nguồn mở.
- Việc này cho phép cộng đồng phát triển công nghệ AI có thể tự do sử dụng và cải tiến dự án.
- Động thái này nhằm tạo điều kiện cho sự hợp tác và đổi mới, phá vỡ rào cản sở hữu độc quyền.
- Mục tiêu của Perplexity là không chỉ làm một "OpenAI Wrapper" mà còn mở rộng khả năng tiếp cận công nghệ AI.
- Quyết định này được đánh giá cao trong cộng đồng phần mềm nguồn mở và được kỳ vọng sẽ thúc đẩy sự phát triển của ngành công nghiệp AI.
- Chuyển đổi sang nguồn mở cũng giúp Perplexity tăng cường tính minh bạch và đáng tin cậy của sản phẩm.
- Công bố này nhấn mạnh sự cam kết của Perplexity đối với việc tạo ra một nền tảng AI mạnh mẽ, dễ dàng tích hợp và mở rộng.

📌 Perplexity đã chính thức trở thành một dự án nguồn mở, mở ra cơ hội cho cộng đồng phát triển mở rộng và cải tiến công nghệ AI. Việc này không chỉ thể hiện tinh thần hợp tác mà còn tạo điều kiện cho sự đổi mới không giới hạn. Sự kiện này được kỳ vọng sẽ có ảnh hưởng đáng kể đến tương lai của ngành công nghiệp AI, tăng cường tính minh bạch và mở rộng tầm ảnh hưởng của AI trong các ứng dụng thực tế.

AI nguồn mở đặc biệt nguy hiểm

  • AI ứng dụng hiện nay thường được biết đến là "AI mã nguồn đóng" như ChatGPT của OpenAI, với phần mềm được bảo mật bởi nhà sản xuất và một số đối tác đã được xác minh.
  • Người dùng tương tác với các hệ thống này thông qua giao diện web như chatbot, và người dùng doanh nghiệp có thể truy cập API để tích hợp hệ thống AI vào ứng dụng hoặc quy trình làm việc của họ.
  • Công chúng ít hiểu về việc phát hành nhanh chóng và không kiểm soát các hệ thống AI mã nguồn mở mạnh mẽ.
  • OpenAI ban đầu được thành lập để sản xuất hệ thống AI mã nguồn mở, nhưng đã quyết định ngừng phát hành mã nguồn và trọng số mô hình GPT vào năm 2019 vì lo ngại rủi ro.
  • Các công ty như Meta, Stability AI, Hugging Face, Mistral, EleutherAI, và Technology Innovation Institute đã chọn phát hành các hệ thống AI mã nguồn mở mạnh mẽ để dân chủ hóa việc truy cập AI.
  • Các nhóm ủng hộ đã đạt được tiến bộ hạn chế trong việc nhận được miễn trừ cho một số mô hình AI không an toàn trong Đạo luật AI của Liên minh Châu Âu.

📌 AI mã nguồn mở đặt ra rủi ro lớn chưa thể kiểm soát được. Các mô hình không an toàn như Llama 2 của Meta có thể bị lạm dụng dễ dàng bởi các tác nhân đe dọa. Các hệ thống AI này có thể được sử dụng để phân phối thông tin sai lệch và lừa đảo trên quy mô lớn, gây ảnh hưởng nghiêm trọng đến hệ thống thông tin và bầu cử. AI không an toàn cũng có thể hỗ trợ sản xuất vật liệu nguy hiểm như vũ khí hóa học và sinh học. Cần có các biện pháp quản lý và kiểm soát chặt chẽ để giảm thiểu rủi ro từ AI mã nguồn mở.

LLaMA Pro AI LLaMA sử dụng kỹ thuật mới

  • LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới.
  • LLaMA Pro bổ sung thêm các lớp cho phép học tác vụ mới mà không mất kiến thức đã có.
  • Kỹ thuật block expansion giúp tối ưu hóa việc học của AI, tiết kiệm tài nguyên tính toán.
  • LLaMA Pro-8.3B, khởi đầu từ LLaMA2-7B, thể hiện khả năng xuất sắc trong các tác vụ chung, lập trình và toán học.
  • LLaMA Pro chứng minh tiềm năng trong việc xử lý nhiều tác vụ đa dạng và hội tụ ngôn ngữ tự nhiên và lập trình​

📌 LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới. Sự cải tiến này không chỉ nâng cao khả năng của AI trong việc xử lý nhiều tác vụ cùng lúc mà còn giúp tiết kiệm tài nguyên tính toán. LLaMA Pro đặt nền móng cho việc phát triển các hệ thống AI hiệu quả hơn, mở ra cánh cửa cho các ứng dụng AI phức tạp và đa dạng trong tương lai.

Mã nguồn mở hoặc OpenAI: Con đường tốt nhất tới AI nâng cao là gì?

  • Một cựu nhà nghiên cứu AI của Google đã tham gia cuộc tranh luận trên Twitter về việc liệu mô hình AI nguồn mở có thể cạnh tranh với mô hình độc quyền được tài trợ tốt như GPT-4 của OpenAI hay không.
  • Arnaud Benard, đồng sáng lập của Galileo AI, khẳng định rằng mô hình nguồn mở không thể đánh bại GPT-4 trong năm nay, nhấn mạnh vào tài năng, tài nguyên của OpenAI và tính chất vượt trội của GPT-4.
  • Ryan Casey, một người hâm mộ AI, lại lạc quan rằng nguồn mở có thể sánh ngang hoặc vượt qua mô hình tư nhân trong năm nay nếu có nhu cầu và đổi mới.
  • Jeremi Traguna, chiến lược gia AI, cho rằng mô hình nguồn mở khó theo kịp tốc độ của OpenAI khi mục tiêu liên tục di chuyển.
  • Jon Howells, một nhà phân tích công nghệ, tin rằng Mistral AI có thể phát hành mô hình nguồn mở cấp độ GPT-4 vào cuối năm nay.
  • Mistral AI, một startup Pháp, đã nhận được sự chú ý sau khi phát hành Mixtral LLM, vượt trội hơn GPT-3.5 trong nhiều trường hợp sử dụng.
  • Santiago Pino của ML School nhấn mạnh open-source AI cung cấp khả năng tùy chỉnh và kiểm soát, rất hữu ích cho người dùng doanh nghiệp.
  • Sciumo Inc., một công ty phát triển phần mềm, nhấn mạnh khả năng cạnh tranh của mô hình nguồn mở trong các vấn đề cụ thể của ngành.
  • Yan Lecun của Meta và Google đều ủng hộ mô hình nguồn mở với khả năng tùy chỉnh cao và bảo mật tốt hơn.

📌 Mặc dù các mô hình nguồn mở AI có thể chưa sẵn sàng để vượt qua GPT-4 của OpenAI trong năm nay, nhưng sự tiến bộ không ngừng và khả năng tùy chỉnh đã đặt nền móng cho một cuộc cạnh tranh sôi nổi. Với sự hỗ trợ tài chính và đội ngũ mạnh mẽ, các công ty như Mistral AI đang phát triển các mô hình có thể cạnh tranh và thậm chí vượt trội so với GPT-3.5. Các chuyên gia từ cả hai phía đều thừa nhận rằng mô hình nguồn mở phát triển nhanh chóng, cung cấp khả năng vĩnh viễn và khả năng tùy chỉnh, mặc dù mô hình đóng có lợi thế về nguồn lực và sự lặp đi lặp lại nhanh chóng.

Apple gây bất ngờ cho cộng đồng AI khi phát hành Mustelid nguồn mở

  • Bài viết trên PED30 thông báo Apple đang phát triển Ferret, một Mô hình Ngôn ngữ Lớn (LLM) mới, dự kiến sẽ mở ra.
  • Ferret được thiết kế để cải thiện khả năng hiểu ngôn ngữ tự nhiên và xử lý thông tin, hỗ trợ trong các ứng dụng và dịch vụ của Apple.
  • Mô hình này hứa hẹn sẽ tăng cường khả năng tương tác giữa người dùng và thiết bị của Apple, cung cấp trải nghiệm người dùng mượt mà và tự nhiên hơn.
  • Apple có kế hoạch tích hợp Ferret vào các dịch vụ hiện có như Siri, Apple Maps và iMessage, nhằm nâng cao chất lượng và hiệu quả của các dịch vụ này.
  • Ferret cũng được kỳ vọng sẽ đóng vai trò quan trọng trong việc phát triển các sản phẩm và dịch vụ tương lai của Apple, bao gồm cả trong lĩnh vực AI và máy học.
  • Bài viết nhấn mạnh rằng việc phát triển Ferret là một phần trong chiến lược lâu dài của Apple nhằm tận dụng tối đa tiềm năng của AI và công nghệ tiên tiến.
  • Kết luận là Ferret có thể là một bước tiến quan trọng trong việc nâng cao khả năng tương tác và hiểu biết AI của Apple, mang lại trải nghiệm người dùng thông minh và tiện lợi hơn.

📌 Sự phát triển của Ferret bởi Apple, một mô hình ngôn ngữ lớn mới, đánh dấu một bước tiến trong việc tích hợp AI vào các sản phẩm và dịch vụ, hướng tới việc cung cấp trải nghiệm người dùng thông minh và tối ưu hơn.

Nvidia: LLM nhỏ, vấn đề lớn hơn

  • Nvidia đang đối mặt với thách thức do xu hướng AI hiện nay chuyển dịch về LLM nhỏ gọn và hiệu quả hơn.
  • Doanh thu quý III FY 2023 của Nvidia tăng 206%, đạt 18.12 tỷ USD, nhưng sự phát triển của các mô hình LLM nhỏ gọn có thể làm giảm nhu cầu về GPU cao cấp của hãng.
  • Intel với bộ vi xử lý Intel Xeon Scalable thế hệ thứ 5 cho phép xử lý tác vụ AI hiệu quả hơn, cạnh tranh trực tiếp với GPU của Nvidia.
  • Mô hình nguồn mở Mistral 7B và các lựa chọn thay thế khác từ đối thủ cung cấp công nghệ AI dễ tiếp cận và giá cả phải chăng hơn, đe dọa tăng trưởng EPS của Nvidia.
  • Nvidia nắm giữ 70% thị phần trong thị trường chip AI, nhưng sự phát triển của Intel và các LLM nhỏ gọn có thể hạn chế tăng trưởng thị phần này.
  • Nvidia đã phát triển nền tảng CUDA và các sản phẩm như CPU Grace, DPU BlueField và supercomputer DGX SuperPOD để củng cố vị thế.
  • Các LLM nhỏ giúp giảm chi phí phát triển AI, mở rộng cơ hội cho SMEs và đáp ứng đặc thù doanh nghiệp.
  • Mistral 7B vượt trội so với Llama 2 13B và cạnh tranh sát sao với Llama 1 34B trong nhiều tiêu chí, đồng thời làm giảm chi phí API và nhu cầu về phần cứng.
  • Giá API giảm từ Anthropic và OpenAI trong hai tháng qua, tạo áp lực về giá lên Nvidia khi chi phí chip H100 cao gấp đôi so với các mô hình nhỏ.

📌 Nvidia, dẫn đầu thị trường chip AI, đang đối mặt với sự cạnh tranh từ các mô hình LLM nhỏ gọn và tiết kiệm chi phí, cũng như từ các sản phẩm của Intel. Sự phát triển của công nghệ nguồn mở như Mistral 7B làm giảm nhu cầu về GPU cao cấp của Nvidia, đe dọa đến dự báo tăng trưởng của công ty. Với tăng trưởng doanh thu 206% trong quý gần nhất, Nvidia cần đánh giá lại chiến lược để duy trì vị thế trong bối cảnh thị trường AI đang thay đổi.

Chiến lược AI: Doanh nghiệp của tôi nên chọn “nguồn mở” hay “nguồn đóng”?

  • Bài viết từ Big Think đề cập đến việc lựa chọn giữa nguồn mở và nguồn đóng cho AI tạo sinh trong doanh nghiệp.
  • Kent Keirsey, CEO của Invoke AI, phân tích ưu nhược điểm của cả hai hướng tiếp cận.
  • Các công cụ AI tạo sinh như ChatGPT, DALL-E, và Midjourney thu hút sự chú ý rộng rãi, với mô hình nguồn mở như Llama-2 và SDXL của Hugging Face đang nổi lên.
  • Người dùng có thể tùy chỉnh, kiểm soát và sở hữu cơ sở mô hình, mô hình chuyên biệt và ứng dụng cuối cùng trong hệ thống nguồn mở.
  • Trong khi đó, mô hình nguồn đóng cung cấp một trải nghiệm "ngay lập tức" với ít cơ hội tùy chỉnh, nhưng có thể phù hợp với các doanh nghiệp không xem AI là chức năng cốt lõi.
  • Cả hai loại hình đều chịu sự giám sát của nhà quản lý và chuyên gia an toàn AI.
  • Lựa chọn giữa nguồn mở và nguồn đóng không phải lúc nào cũng rõ ràng, và các doanh nghiệp cần đánh giá kỹ lưỡng để phù hợp với nhu cầu hiện tại và tương lai.

📌 Bài viết từ Big Think đưa ra cái nhìn sâu sắc về lựa chọn giữa nguồn mở và nguồn đóng cho AI tạo sinh, với nhấn mạnh vào khả năng tùy chỉnh và kiểm soát trong nguồn mở, so với sự tiện lợi và ít rắc rối từ nguồn đóng, đồng thời cảnh báo về sự cần thiết của việc cân nhắc an toàn khi triển khai các giải pháp AI.

Mistral AI chuyển sang Mô hình cấp độ GPT-4 mã nguồn mở vào năm 2024

  • Bài viết trên Analytics India Magazine thông báo về kế hoạch của Mistral AI phát hành một mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024.
  • Mistral AI nhấn mạnh sự cần thiết của việc cung cấp công nghệ AI tiên tiến cho cộng đồng.
  • Mô hình nguồn mở này hứa hẹn mang lại lợi ích cho các nhà nghiên cứu và phát triển, cho phép họ tùy chỉnh và cải tiến mô hình.
  • Sự kiện này đánh dấu một bước tiến quan trọng trong lĩnh vực AI, với việc chia sẻ công nghệ mạnh mẽ với cộng đồng rộng lớn.
  • Mistral AI hy vọng mô hình của họ sẽ thúc đẩy đổi mới và sự sáng tạo trong nhiều lĩnh vực khác nhau.
  • Có những lo ngại về việc sử dụng không kiểm soát của công nghệ AI nguồn mở này, đặc biệt là về an toàn và đạo đức.
  • Mistral AI dự định triển khai các biện pháp để đảm bảo an toàn và tuân thủ đạo đức trong sử dụng mô hình của họ.

Bài viết từ Analytics India Magazine giới thiệu kế hoạch của Mistral AI về việc phát hành mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024, một sự kiện đánh dấu bước tiến quan trọng trong việc chia sẻ công nghệ AI với cộng đồng, mặc dù vẫn còn lo ngại về các vấn đề an toàn và đạo đức.

Mixtral 8X7B AI Agent đã được thử nghiệm hiệu năng đáng kinh ngạc

- Mixtral 8X7B là AI tạo sinh với công nghệ tiên tiến, cạnh tranh với các mô hình như GPT3.5.

- Mô hình dựa trên SMoE, hỗ trợ hiểu biết sâu sắc về ngữ cảnh với khả năng xử lý 32k token.

- Hỗ trợ đa ngôn ngữ: tiếng Anh, Pháp, Ý, Đức, và Tây Ban Nha.

- Nổi bật với khả năng tạo mã code, tăng năng suất và giảm lỗi cho lập trình viên.

- Inference speed nhanh gấp sáu lần, thúc đẩy tích hợp AI vào công việc đòi hỏi thời gian thực.

- Có tỷ lệ hiệu suất chi phí ấn tượng, giúp đầu tư vào AI hiệu quả mà không làm tăng chi phí.

- Mô hình nguồn mở dưới giấy phép Apache 2.0, thúc đẩy sự đổi mới và ứng dụng đa dạng.

 

Mixtral 8X7B không chỉ là một bước tiến trong lĩnh vực AI tạo sinh mà còn là một lựa chọn kinh tế cho các doanh nghiệp và nhà phát triển. Với khả năng xử lý ngôn ngữ mạnh mẽ, tốc độ nhanh chóng và mô hình nguồn mở, Mixtral 8X7B hứa hẹn sẽ có vai trò quan trọng trong việc chuyển đổi các ngành công nghiệp bằng AI.

 

Mixtral 8X7B - AI tạo sinh tiên tiến cho lập trình viên và ngành công nghiệp đa ngôn ngữ.

 

"Mixtral 8X7B, AI tạo sinh, mô hình SMoE, ngôn ngữ đa dạng, tạo mã code, inference speed nhanh, nguồn mở Apache 2.0"

 

AI tạo sinh Mixtral 8X7B: Hiệu suất vượt trội, nguồn mở và đa ngôn ngữ

Sourcegraph ra mắt công cụ AI tạo Cody để viết mã

- Tóm tắt nội dung bài viết về công cụ AI sinh mã Cody của Sourcegraph:

 

- Sourcegraph cho ra mắt công cụ mã nguồn mở Cody sử dụng AI sinh mã để viết và sửa mã.

 

- Phiên bản 1.0 của Cody sử dụng các mô hình ngôn ngữ lớn như StarCoder, GPT-4 Turbo, Claude 2.

 

- Cody được tích hợp với công cụ tìm kiếm mã nguồn của Sourcegraph để cung cấp ngữ cảnh cho mã.

 

- Cody có thể tìm kiếm mã và tài liệu để đề xuất kế hoạch triển khai tính năng mới.

 

- Phiên bản sau sẽ tích hợp chặt chẽ hơn với đồ thị mã nguồn phổ quát của Sourcegraph.

 

- Cody giúp lập trình viên viết mã nhanh hơn, nhưng vẫn cần đánh giá mã trước khi triển khai.

 

 

Mô hình Microsoft AI dưới dạng dịch vụ có sẵn trong Azure AI – Phi-2, Orca 2, Llama 2

- Microsoft giới thiệu dịch vụ AI model-as-a-service trong Azure AI, bao gồm Meta's Llama 2 và GPT-4 Turbo với Vision.

- Llama 2 là một công cụ hỗ trợ phát triển ứng dụng AI với khả năng xử lý ngôn ngữ mạnh mẽ.

- GPT-4 Turbo kết hợp xử lý ngôn ngữ tự nhiên với computer vision, mở rộng khả năng của các ứng dụng multimodal.

- Phi-2 là một mô hình ngôn ngữ nhỏ (SLM) với 2,7 tỉ tham số, cải thiện về khả năng suy luận và an toàn so với Phi-1-5.

- DeciLM-7B, một mô hình sinh văn bản chỉ với bộ giải mã, có 7,04 tỉ tham số.

- DeciDiffusion 1.0 là mô hình sinh ảnh từ văn bản dựa trên kỹ thuật diffusion.

- DeciCoder 1B là mô hình hoàn thiện code với 1 tỉ tham số, huấn luyện trên dữ liệu Python, Java và JavaScript.

- Orca 2 cải thiện từ mô hình ngôn ngữ nhỏ, với hiệu suất tương đương hoặc tốt hơn các mô hình lớn hơn 5-10 lần.

- Mixtral 8x7b sử dụng kỹ thuật Mixture of Experts, có hiệu suất tương đương mô hình 12 tỉ tham số.

- Azure AI Studio hỗ trợ benchmarking và đánh giá mô hình, giúp lựa chọn mô hình phù hợp dễ dàng hơn.

 

Cùng với việc mở rộng danh mục mô hình AI, Microsoft cũng hỗ trợ cho các công ty như Dentons áp dụng các mô hình AI vào thực tiễn, chẳng hạn như tổng hợp hợp đồng pháp lý, giảm thiểu thời gian làm việc từ 4 giờ xuống còn 5 phút. Điều này không chỉ thúc đẩy hiệu suất mà còn chứng tỏ tiềm năng lớn của AI trong việc cải tiến công nghệ và phát triển ứng dụng.

 

Microsoft Azure AI nâng cấp với AI tạo sinh và multimodal: Llama 2 và GPT-4 Turbo.

Microsoft Azure AI, Llama 2, GPT-4 Turbo, AI tạo sinh, multimodal, Phi-2, DeciLM-7B, DeciDiffusion, DeciCoder, Orca 2, Mixtral 8x7b.

Microsoft Azure AI mở rộng với các mô hình AI đột phá: Phi-2, Orca 2, Llama 2.

MISTRAL AI HỢP TÁC VỚI GOOGLE CLOUD VÀ PHÁT HÀNH LLM MÃ NGUỒN MỞ MỚI

- Tóm tắt nội dung bài viết:

 

- Mistral AI hợp tác với Google Cloud, phát hành mô hình ngôn ngữ lớn mở Mixtral-8x7B.

 

- Mixtral-8x7B có hiệu năng tốt hơn các mô hình khác, giấy phép sử dụng rộng rãi. 

 

- Hợp tác đưa mô hình của Mistral lên cơ sở hạ tầng AI của Google Cloud.

 

- Tích hợp mô hình Mistral-7B vào Google Vertex AI Model Garden.

 

- Các mô hình Mistral sẽ có sẵn trên Google Cloud Marketplace.

 

- Đối tác mang lại giải pháp AI an toàn, bảo mật cho các tổ chức.

 

- Sự kết hợp giữa đổi mới của Mistral và cơ sở hạ tầng của Google Cloud.

 

Mozilla ra mắt Solo AI được thiết kế cho những người làm việc tự do và 'người làm việc độc lập'

- Tóm tắt nội dung bài viết:

 

- Mozilla giới thiệu Solo AI - công cụ xây dựng website dành cho freelancer và doanh nhân độc lập. 

 

- Solo AI sử dụng AI để tạo nội dung và hình ảnh cho website mà người dùng có thể chỉnh sửa sau đó.

 

- Người dùng chỉ cần cung cấp thông tin cơ bản về dự án, Solo AI sẽ xây dựng website trong vài phút.

 

- Động thái này nằm trong chiến lược của Mozilla hướng đến xây dựng hệ sinh thái AI mở và đáng tin cậy. 

 

- Mozilla muốn trở thành nền tảng AI đáng tin cậy, thay thế cho các công ty công nghệ lớn.

 

- Việc Mozilla có thể cạnh tranh với các ông lớn công nghệ về AI vẫn còn phải chứng minh.

 

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo