AI models

View All
Meta vừa ra mắt mô hình AI mới có khả năng dịch lời nói từ 101 ngôn ngữ

- Meta phát hành mô hình AI mới tên là SeamlessM4T có khả năng dịch lời nói từ 101 ngôn ngữ khác nhau.
- Mô hình này giúp thực hiện dịch thuật thời gian thực, nghĩa là dịch ngay khi từ ngữ được phát ra.
- Phương pháp truyền thống cho dịch thuật lời nói mất nhiều bước: chuyển từ lời nói thành văn bản, sau đó chuyển văn bản này sang ngôn ngữ khác và cuối cùng chuyển văn bản dịch trở thành lời nói.
- SeamlessM4T cải thiện hiệu quả, cho phép dịch trực tiếp từ lời nói ngôn ngữ này sang lời nói ngôn ngữ khác.
- Mô hình mới đạt độ chính xác cao hơn 23% so với các mô hình hiện tại.
- SeamlessM4T có thể dịch sang 36 ngôn ngữ khác, trong khi mô hình AudioPaLM của Google chỉ dịch được sang tiếng Anh.
- Công nghệ khai thác dữ liệu song song đóng vai trò quan trọng trong việc xử lý và học hỏi từ tài liệu đa ngôn ngữ.
- Các nhà nghiên cứu nhấn mạnh tầm quan trọng của dịch giả con người trong quá trình dịch, đặc biệt trong các lĩnh vực như y tế hoặc pháp lý.
- Mô hình có thể xử lý tốt hơn các ngôn ngữ phổ biến với số lượng tài liệu phong phú, nhưng gặp khó khăn với ngôn ngữ ít tài liệu hơn.
- SeamlessM4T đã được tiền huấn luyện trên hàng triệu giờ âm thanh nói để nhận diện các mẫu ngôn ngữ.
- Mô hình này là nguồn mở, khuyến khích phát triển thêm từ cộng đồng nghiên cứu.
- Một số chuyên gia cho rằng mô hình của Google vẫn nhanh và hiệu quả hơn, mặc dù không phải là nguồn mở như Seamless.
- SeamlessM4T hứa hẹn khả năng dịch thuật tức thì tương tự như “fish Babel” trong tác phẩm của Douglas Adams.
- Meta đang phát triển phiên bản mới nhanh hơn, dự kiến cạnh tranh với tốc độ dịch của con người.

📌 SeamlessM4T của Meta có thể dịch lời nói từ 101 ngôn ngữ, cải thiện độ chính xác lên đến 23%. Mô hình này được huấn luyện trên hàng triệu giờ âm thanh để đạt hiệu suất cao trong dịch thuật thời gian thực.

https://www.technologyreview.com/2025/01/15/1109994/metas-new-ai-model-can-translate-speech-from-more-than-100-languages/

Các nhà khoa học Trung Quốc đã lý giải cách hoạt động của mô hình AI OpenAI o3

- Các nhà nghiên cứu từ Đại học Phúc Đán và Phòng thí nghiệm AI Thượng Hải đã phân tích sâu về mô hình o1 và o3 của OpenAI. Hai mô hình này được coi là bước khởi đầu cho việc đạt được Trí tuệ Nhân tạo Tổng quát (AGI).  

- Điểm nổi bật chính nằm ở tính năng "test-time compute", cho phép mô hình tinh chỉnh phản hồi ngay trong quá trình suy luận, nâng cao độ chính xác và hiệu suất giải quyết vấn đề.  

- Các mô hình này thể hiện khả năng suy luận vượt xa AI truyền thống, đạt trình độ tương đương tiến sĩ trong các lĩnh vực như toán học, logic và mã hóa.  

- 4 trụ cột chính trong khả năng suy luận của mô hình:  
  - Khởi tạo chính sách (Policy Initialization): Đào tạo trước và tinh chỉnh để phát triển khả năng suy luận giống con người.  
  - Thiết kế phần thưởng (Reward Design): Hệ thống phần thưởng kép đánh giá kết quả đầu ra lẫn các bước trung gian để tối ưu hóa chiến lược giải quyết vấn đề.  
  - Kỹ thuật tìm kiếm (Search Techniques): Sử dụng tìm kiếm dạng cây và chỉnh sửa tuần tự để phân tích nhiều phương án, cải tiến kết quả.  
  - Học tăng cường (Reinforcement Learning): Giúp mô hình học qua thử nghiệm và sửa lỗi để dần đạt hiệu suất vượt trội.  

- Chuyển đổi từ học tự giám sát sang học tăng cường đã tạo nên bước đột phá, giúp các hệ thống AI trở nên linh hoạt, quy mô hơn.  

- Các thách thức lớn còn tồn tại:  
  - Tích hợp đa phương thức (Multimodal Integration): Phân tích đồng thời văn bản, hình ảnh, video để tăng tính ứng dụng.  
  - Mô phỏng thế giới thực (World Modeling): Phát triển mô phỏng môi trường đời thực để áp dụng vào thực tiễn.  
  - Đạo đức AI (Ethical Considerations): Đảm bảo minh bạch và tin cậy trong các quyết định do AI đưa ra.  

- Mô hình mở mã nguồn như DeepSeek và Open o1 đang thúc đẩy hợp tác nghiên cứu toàn cầu, góp phần mở rộng ứng dụng AI suy luận tiên tiến.  

- Tính năng "test-time compute" đặc biệt cho phép mô hình phân bổ thêm tài nguyên tính toán trong khi suy luận, từ đó cải thiện độ chính xác với các bài toán phức tạp.  

- Học tăng cường giúp các mô hình như o3 đạt hiệu suất siêu phàm, ví dụ chiến thắng trong trò chơi như AlphaGo nhờ tự học chiến lược thông qua thử nghiệm.  

---

📌 Mô hình OpenAI o3 là bước đột phá trong khả năng suy luận của AI, cho phép xử lý tác vụ phức tạp với mức độ tinh vi ngang chuyên gia. Tuy nhiên, để đạt AGI, cần cải tiến tích hợp đa phương thức, mô phỏng thực tiễn và nâng cao độ minh bạch.

 

https://www.geeky-gadgets.com/reinforcement-learning-in-openai-models/

DeepSeek - mô hình AI mạnh mẽ do Trung Quốc phát triển

- DeepSeek là mô hình AI mới được phát triển bởi một công ty công nghệ Trung Quốc, với mô hình chính là DeepSeek-V3.
- DeepSeek-V3 sử dụng kiến trúc Mixture-of-Experts (MoE), giúp nâng cao hiệu suất bằng cách chỉ kích hoạt các "chuyên gia" liên quan cho từng nhiệm vụ cụ thể.
- Mô hình này được đào tạo trên 14,8 nghìn tỷ token, với 671 tỷ tham số, mang lại khả năng xử lý mạnh mẽ và nhanh chóng.
- DeepSeek là mô hình AI mã nguồn mở, cho phép người dùng tự do khám phá, thử nghiệm và phát triển không tốn phí.
- Trong các thử nghiệm, DeepSeek đã thể hiện khả năng viết sáng tạo, hỗ trợ lập trình và làm việc năng suất một cách linh hoạt và hiệu quả.
- Khi thử viết một mô tả nhân vật, DeepSeek đã cung cấp một sản phẩm sinh động và hấp dẫn.
- Khi kiểm tra khả năng lập trình, DeepSeek đã sửa lỗi trong mã JavaScript và cung cấp giải thích rõ ràng cho người mới.
- DeepSeek cũng đã tạo ra một chương trình họp cho một dự án mới một cách mạch lạc và chuyên nghiệp.
- Mặc dù DeepSeek có nhiều ưu điểm, nó cũng gặp một số hạn chế, như đôi khi đưa ra thông tin không chính xác cho các chủ đề chuyên sâu.
- Tài liệu hỗ trợ cho DeepSeek không phong phú bằng các công cụ như GPT-4, làm khó cho người dùng mới.
- DeepSeek tỏ ra cẩn trọng khi xử lý các chủ đề nhạy cảm về chính trị và lịch sử, như vụ Thiên An Môn, nơi nó từ chối trả lời.
- Mặc dù có giới hạn trong việc thảo luận về các sự kiện lịch sử chính trị, DeepSeek vẫn là một sự lựa chọn mạnh mẽ cho các nhiệm vụ sáng tạo, lập trình và công việc năng suất.

📌 DeepSeek là một mô hình AI mạnh mẽ với 14,8 nghìn tỷ token và 671 tỷ tham số, nổi bật trong sáng tạo, lập trình và năng suất, nhưng cần cải thiện trong các chủ đề nhạy cảm và hỗ trợ người dùng.

Tôi Đã Thử Nghiệm Mô Hình AI Siêu Mạnh Mới Được Phát Triển Tại Trung Quốc
Bởi
John Awa-abuon
Được xuất bản cách đây 13 giờ

DeepSeek là gì?
Thử nghiệm DeepSeek
Điểm tốt, điểm xấu và những điều bất ngờ
Giới hạn của hội thoại mở

Trí tuệ nhân tạo đang phát triển rất nhanh, và chatbot AI DeepSeek được phát triển tại Trung Quốc là một trong những "ông lớn" mới đang gây chú ý. DeepSeek có rất nhiều ưu điểm như phản hồi nhanh và chi tiết, nhưng cũng có một số hạn chế khiến nó có thể không phải là công cụ AI mà bạn sẽ lựa chọn.

DeepSeek là gì?
Trang chủ DeepSeek
DeepSeek là một mô hình AI mạnh mẽ mới được phát triển bởi một công ty công nghệ Trung Quốc. Mô hình hàng đầu của nó, DeepSeek-V3, sử dụng kiến trúc Mixture-of-Experts (MoE) độc đáo. Hãy hình dung kiến trúc này giống như một "đội ngũ" các hệ thống AI chuyên biệt, trong đó chỉ những chuyên gia liên quan nhất được "kích hoạt" để xử lý các nhiệm vụ cụ thể. Mỗi "chuyên gia" này là một mạng nơ-ron chuyên dụng.

DeepSeek tuyên bố rằng mô hình LLM V3 của mình được đào tạo trên 14,8 nghìn tỷ token, với 1 triệu token tương đương khoảng 750.000 từ. DeepSeek V3 cũng là một LLM khổng lồ nói chung, với 671 tỷ tham số trong kiến trúc MoE của nó, và 37 tỷ tham số trong số đó được kích hoạt cho mỗi token. Điều này có nghĩa là mỗi yêu cầu đều được xử lý với sức mạnh khổng lồ, mang lại hiệu năng nhanh hơn và hiệu quả hơn.

Ngoài ra, đây là một mô hình AI mã nguồn mở, nghĩa là bất kỳ ai cũng có thể khám phá, thử nghiệm và phát triển nó miễn phí. Điều này giúp DeepSeek khác biệt so với các đối thủ thường giới hạn mô hình của họ đằng sau các bức tường trả phí.

Thử nghiệm DeepSeek
Để đánh giá hiệu năng của DeepSeek-V3, tôi đã thử nghiệm nó trên 3 nhiệm vụ thực tế: viết sáng tạo, hỗ trợ lập trình và công việc liên quan đến năng suất. Kết quả cho thấy khả năng linh hoạt và sức mạnh thô của nó, mặc dù có một số trục trặc nhỏ.

Nhiệm vụ 1: Viết mô tả nhân vật hư cấu
Tôi yêu cầu DeepSeek viết một mô tả chi tiết về một nhân vật giả tưởng: một nữ hoàng nổi dậy lãnh đạo phong trào kháng chiến chống lại một đế chế tà ác. Đầu ra rất sống động và cuốn hút.

Hình ảnh: DeepSeek sáng tạo văn bản

Nhiệm vụ 2: Gỡ lỗi một hàm JavaScript
Tôi kiểm tra kỹ năng lập trình của DeepSeek bằng cách cung cấp cho nó một hàm JavaScript bị lỗi, có chức năng tính giai thừa của một số. Đây là đoạn mã có lỗi mà tôi đã cung cấp:

function factorial(n) {  
   if (n = 1) {  
       return 1;  
   }  
   return n * factorial(n - 1);  
} 

DeepSeek ngay lập tức phát hiện ra vấn đề: dấu bằng đơn (=) trong điều kiện đã gây ra lỗi logic. Nó cung cấp đoạn mã sửa lỗi và giải thích rõ ràng vấn đề:

Hình ảnh: DeepSeek gỡ lỗi mã

Đoạn mã sửa lỗi hoạt động hoàn hảo, và phần giải thích của DeepSeek đủ rõ ràng để người mới học JavaScript cũng hiểu được.

Nhiệm vụ 3: Năng suất—Tạo một lịch trình cuộc họp
Để thử nghiệm khả năng hỗ trợ năng suất, tôi yêu cầu DeepSeek soạn một lịch trình cuộc họp ngắn gọn cho một đội dự án về việc ra mắt một sản phẩm mới.

Hình ảnh: DeepSeek lên lịch họp

DeepSeek đã thể hiện xuất sắc trong các nhiệm vụ viết sáng tạo, lập trình và hỗ trợ năng suất, cung cấp các đầu ra được trau chuốt kỹ lưỡng. Giống như bất kỳ công cụ AI nào khác, cần phải kiểm tra lại các kết quả để đảm bảo độ chính xác, đặc biệt khi sự chính xác là yếu tố quan trọng.

Điểm tốt, điểm xấu và những điều bất ngờ
Sau khi thử nghiệm DeepSeek, một số điểm mạnh và điểm yếu nổi bật. Ngoài ra, nó cũng mang đến một vài bất ngờ không ngờ tới.

DeepSeek xử lý dễ dàng nhiều loại nhiệm vụ. Từ việc tạo ra các văn bản sáng tạo sống động đến gỡ lỗi mã phức tạp, nó thể hiện sự linh hoạt ngang ngửa với các mô hình AI hàng đầu. Kiến trúc Mixture-of-Experts của nó thực sự đáng chú ý, giúp DeepSeek nhanh mà không làm giảm chất lượng đầu ra. Ví dụ, nó tạo ra các kết quả chi tiết như mô tả nhân vật hoặc lịch trình cuộc họp chỉ trong vài giây. DeepSeek điều chỉnh giọng điệu và phong cách một cách dễ dàng. Dù làm việc với các tài liệu chính thức hay văn bản sáng tạo, nó đều tùy chỉnh phản hồi phù hợp với nhiệm vụ.

Giống như nhiều mô hình AI khác, DeepSeek thỉnh thoảng cung cấp thông tin không chính xác hoặc không đầy đủ, đặc biệt khi được hỏi về các chủ đề hiếm hoặc rất cụ thể. Ví dụ, trong một thử nghiệm liên quan đến các sự kiện lịch sử, DeepSeek tự tin đưa ra một câu trả lời sai.

Hình ảnh: DeepSeek trả lời sai thông tin

Mặc dù DeepSeek là mã nguồn mở, nhưng tài liệu hỗ trợ và hướng dẫn của nó không phong phú như các công cụ như GPT-4, khiến người dùng mới gặp khó khăn khi tận dụng hết tiềm năng của nó. Do có nguồn gốc từ Trung Quốc, một số người dùng có thể lo ngại về cách dữ liệu của họ được xử lý hoặc lưu trữ. Dù không có bằng chứng cho thấy việc lạm dụng, nhưng các mối lo này đáng được cân nhắc khi làm việc với các nhiệm vụ nhạy cảm (điều này cũng áp dụng với bất kỳ chatbot AI nào khác).

Điều đáng ngạc nhiên nhất là, dù được phát triển tại Trung Quốc, DeepSeek thể hiện sự thành thạo đáng kể về các nền văn hóa và quan điểm toàn cầu. Nó có sự hiểu biết sâu sắc về các chủ đề từ văn học châu Âu đến lịch sử châu Phi. Sự sáng tạo của DeepSeek cũng là một điểm mạnh không ngờ. Khi được yêu cầu mô tả nhân vật, không chỉ đưa ra một mô tả, mà còn tạo ra cả bối cảnh và mối quan hệ giữa nhân vật này với các nhân vật khác.

Giới hạn của hội thoại mở
Tuy nhiên, cách DeepSeek xử lý các chủ đề nhạy cảm về chính trị hoặc lịch sử cho thấy những hạn chế đáng kể liên quan đến các sự kiện lịch sử Trung Quốc. Để kiểm tra điều này, tôi đã hỏi về các sự kiện như cuộc biểu tình Thiên An Môn, Đại nhảy vọt, và vụ thảm sát Nam Kinh. Câu trả lời của DeepSeek cho thấy một cách tiếp cận thận trọng hoặc né tránh đối với các chủ đề này.

Khi được hỏi về sự kiện Thiên An Môn, DeepSeek từ chối trả lời hoàn toàn.

Hình ảnh: Phản hồi của DeepSeek về sự kiện Thiên An Môn

Để so sánh, ChatGPT đã cung cấp thêm ngữ cảnh trong câu trả lời. Dưới đây là phản hồi của ChatGPT:

Hình ảnh: Phản hồi của ChatGPT về sự kiện Thiên An Môn

Khi được hỏi về Đại nhảy vọt, lời giải thích của DeepSeek ngắn gọn và thiếu chiều sâu.

Hình ảnh: Phản hồi của DeepSeek về Đại nhảy vọt

Trong khi đó, ChatGPT đưa ra một bản tường thuật chi tiết hơn, bao gồm các sự kiện quan trọng và phân tích. Dưới đây là phản hồi của ChatGPT:

Hình ảnh: Phản hồi của ChatGPT về Đại nhảy vọt

Sự khác biệt càng rõ ràng hơn khi tôi hỏi: Có bao nhiêu dân thường Trung Quốc bị giết trong vụ thảm sát Nam Kinh? Ai chịu trách nhiệm? DeepSeek đã tránh trả lời, không đề cập đến số lượng người chết ước tính. Đây là phản hồi của DeepSeek:

Hình ảnh: Phản hồi của DeepSeek về vụ thảm sát Nam Kinh

Ngược lại, ChatGPT cung cấp một con số ước tính, đồng thời thừa nhận khó khăn trong việc xác định chính xác do sự phức tạp của lịch sử. Dưới đây là phản hồi của ChatGPT:

Hình ảnh: Phản hồi của ChatGPT về vụ thảm sát Nam Kinh

Những phản hồi này cho thấy DeepSeek hoạt động trong các giới hạn tự áp đặt, có khả năng bị ảnh hưởng bởi môi trường phát triển và các quy định liên quan. Điều này có thể là một hạn chế lớn đối với người dùng cần khám phá các chủ đề lịch sử, báo chí hoặc nghiên cứu học thuật một cách không bị kiểm duyệt.

Tuy nhiên, đối với các nhiệm vụ như viết sáng tạo, lập trình hoặc công việc liên quan đến năng suất—nơi mà các giới hạn này ít ảnh hưởng—DeepSeek vẫn là một ứng cử viên mạnh mẽ. Cuối cùng, việc liệu DeepSeek có phải là công cụ phù hợp hay không phụ thuộc vào mức độ minh bạch và tính mở mà bạn cần ở một trợ lý AI.

Grok - chatbot AI của X đã có mặt trên iOS mà không cần tài khoản X

- XAI vừa ra mắt ứng dụng Grok miễn phí trên iOS, cho phép người dùng sử dụng mà không cần tài khoản X (Twitter)

- Người dùng có thể đăng nhập qua Apple, Google hoặc email. Tài khoản miễn phí có giới hạn:
  + 10 yêu cầu mỗi 2 giờ
  + 3 lần phân tích hình ảnh mỗi ngày  
  + 4 lần tạo hình ảnh mỗi ngày

- Hiện Grok đang xếp hạng thứ 4 trong danh sách ứng dụng miễn phí trên App Store, cao hơn Gemini (hạng 49) và chỉ sau ChatGPT

- Điểm mạnh của Grok:
  + Tốc độ phản hồi nhanh với các truy vấn văn bản
  + Không có nhiều giới hạn và hạn chế nội dung như các chatbot khác
  + Khả năng tạo hình ảnh linh hoạt, kể cả với các nhân vật có bản quyền

- Điểm yếu:
  + Chưa được kiểm chứng về độ chính xác
  + Có thể tạo ra nội dung bạo lực, phản cảm
  + Vi phạm bản quyền trong tạo hình ảnh

📌 Grok nổi bật với tốc độ phản hồi nhanh và ít giới hạn nội dung, đang xếp hạng 4 trên App Store. Tuy nhiên việc thiếu kiểm soát có thể dẫn đến các vấn đề về bản quyền và nội dung không phù hợp.

https://lifehacker.com/tech/grok-is-now-available-without-an-x-account

NVIDIA công bố dòng mô hình Nemotron mới, tích hợp Llama và Cosmos cho AI agents

-  NVIDIA công bố dòng mô hình ngôn ngữ lớn nguồn mở Llama Nemotron, xây dựng trên nền tảng Llama - bộ mô hình đã được tải xuống hơn 650 triệu lần

-  Dòng sản phẩm bao gồm hai họ mô hình chính:
  - Llama Nemotron: Tập trung vào xử lý ngôn ngữ
  - Cosmos Nemotron: Chuyên về thị giác-ngôn ngữ

-  Ba phiên bản mô hình được cung cấp:
  - Nano: Tối ưu cho ứng dụng thời gian thực, độ trễ thấp
  - Super: Độ chính xác cao, hiệu suất tốt trên một GPU
  - Ultra: Độ chính xác cao nhất, thiết kế cho quy mô trung tâm dữ liệu

-  Các tính năng chính của nền tảng:
  - Tích hợp dịch vụ vi mô NVIDIA NIM
  - Hỗ trợ tìm kiếm và tóm tắt video
  - Khả năng tùy chỉnh cho từng doanh nghiệp
  - Tích hợp NVIDIA NeMo Retriever để kết nối với dữ liệu doanh nghiệp

-  Các đối tác hàng đầu đã áp dụng:
  - SAP với nền tảng Joule
  - ServiceNow cho dịch vụ AI tác tử

-  Mô hình được tối ưu hóa thông qua:
  - Kỹ thuật cắt tỉa (pruning)
  - Huấn luyện với bộ dữ liệu chất lượng cao
  - Tích hợp khả năng theo dõi hướng dẫn, trò chuyện, lập trình

-  Tính khả dụng:
  - Miễn phí cho thành viên NVIDIA Developer Program
  - Triển khai thương mại thông qua nền tảng NVIDIA AI Enterprise
  - Hỗ trợ đa dạng môi trường: đám mây, trung tâm dữ liệu, máy tính cá nhân

📌 NVIDIA định hình lại tương lai AI tác tử với dòng Nemotron, cung cấp giải pháp toàn diện từ biên đến trung tâm dữ liệu. Mô hình nguồn mở Llama đạt 650 triệu lượt tải xuống, kết hợp 3 phiên bản (Nano, Super, Ultra) đáp ứng mọi nhu cầu triển khai.

https://blogs.nvidia.com/blog/nemotron-model-families/

Tại sao không thể chỉ có một mô hình AI duy nhất thống trị thị trường?

• Tốc độ ra mắt các mô hình AI mới đang tăng chóng mặt khi bước vào năm 2025, với những công bố liên tục về các tiêu chuẩn và điểm chuẩn mới

Từ 18 tháng trước, đa số doanh nghiệp chỉ sử dụng một mô hình AI duy nhất. Hiện nay, xu hướng đã đảo ngược hoàn toàn

• Các công ty đang né tránh phụ thuộc vào một nhà cung cấp duy nhất vì AI đã trở thành công nghệ cốt lõi trong chiến lược dài hạn

• Nhiều nhà cung cấp mô hình vẫn cho rằng AI sẽ là thị trường "người thắng độc tôn", dẫn đến cuộc đua GPU với số lượng tham số huấn luyện tăng theo cấp số nhân

Mô hình ngôn ngữ đang trở thành hàng hóa theo 2 khía cạnh:
  - Các mô hình ngày càng có thể thay thế lẫn nhau
  - Chuyên môn nghiên cứu để tạo ra mô hình đang phân tán và dễ tiếp cận hơn

• Tuy nhiên, sự "hàng hóa hóa" diễn ra không đồng đều:
  - Các khả năng cốt lõi có thể thay thế từ GPT-4 đến Mistral Small
  - Ở các trường hợp biên, mô hình có xu hướng chuyên môn hóa (code, lập luận, toán học)

• Deepseek-V2.5 mạnh hơn GPT-4 trong lập trình C# dù nhỏ hơn và rẻ hơn 50 lần

Định tuyến đóng vai trò quan trọng - giúp chuyển truy vấn đến mô hình phù hợp nhất, tận dụng mô hình rẻ hơn khi có thể

Các mô hình hàng đầu thế giới đều là bộ định tuyến, sử dụng kiến trúc Mixture of Expert để định tuyến cho các mô hình con chuyên biệt

📌 Thị trường AI sẽ không bị thống trị bởi một mô hình duy nhất mà phát triển theo hướng đa dạng và chuyên môn hóa. Deepseek-V2.5 là ví dụ điển hình khi mạnh hơn GPT-4 trong lập trình C# dù nhỏ hơn và rẻ hơn 50 lần. Sự phân mảnh này tạo ra thị trường hiệu quả, thúc đẩy đổi mới và giảm thiểu chi phí.

 

https://venturebeat.com/ai/despite-heated-ai-arms-race-were-in-for-a-multi-modal-future/

AI đa phương thức - Cuộc cách mạng mới vượt xa ChatGPT để đạt trí thông minh như con người

• AI đa phương thức là làn sóng quan trọng tiếp theo của ngành công nghệ AI, vượt xa các mô hình ngôn ngữ lớn (LLM) bằng cách kết hợp văn bản, hình ảnh, âm thanh và video thành các mô hình AI thống nhất

• Meta đã ra mắt MovieGen có khả năng tạo phim ngắn từ văn bản, trong khi OpenAI phát triển chế độ giọng nói cho phép trò chuyện thời gian thực

• Để phát triển AI đa phương thức cần bộ dữ liệu đa dạng và phong phú hơn như podcast, video YouTube và dữ liệu từ thiết bị đeo như Apple Watch, thay vì chỉ dùng Wikipedia và sách như trước đây

• Thách thức lớn nhất là đảm bảo chất lượng dữ liệu khi tích hợp nhiều loại dữ liệu khác nhau, tránh nhãn dán video kém chất lượng và âm thanh nhiễu có thể làm sai lệch khả năng nhận dạng của mô hình

• Trong lĩnh vực y tế, việc kết hợp dữ liệu hình ảnh X-quang với giọng nói của bệnh nhân có thể giúp chẩn đoán sớm và chính xác hơn các bệnh như Alzheimer

• Ngành công nghiệp sáng tạo sẽ được hưởng lợi khi AI đa phương thức có thể tạo nhạc và hiệu ứng hình ảnh từ mô tả văn bản, hoặc tạo cảnh quay b-roll theo yêu cầu của nhà sản xuất phim

Trợ lý ảo trong tương lai sẽ không chỉ nhận diện và phản hồi lệnh nói mà còn có thể đoán được trạng thái cảm xúc dựa trên giọng nói và biểu cảm khuôn mặt

📌 AI đa phương thức đánh dấu bước ngoặt quan trọng trong việc phát triển trí tuệ nhân tạo toàn diện, vượt xa khả năng xử lý văn bản của các mô hình ngôn ngữ lớn. Các công ty cần chuẩn bị hạ tầng dữ liệu phù hợp để tận dụng tiềm năng này trong các lĩnh vực từ y tế đến giải trí.

https://www.forbes.com/councils/forbestechcouncil/2024/12/30/beyond-large-language-models-how-multimodal-ai-is-unlocking-human-like-intelligence/

Bắc Kinh dẫn đầu cuộc đua AI tạo sinh: 11 mô hình mới được phê duyệt, tổng 105 mô hình được cấp phép

- Bắc Kinh vừa phê duyệt thêm 11 dịch vụ AI tạo sinh mới, bao gồm các mô hình ngôn ngữ lớn từ công ty khởi nghiệp Zhipu AI và Rigo Design (công ty liên kết với Xiaomi)

- Tính đến ngày 27/12/2024, Chi nhánh CAC tại Bắc Kinh đã phê duyệt tổng cộng 105 mô hình ngôn ngữ lớn

- Bắc Kinh dẫn đầu cả nước về số lượng phê duyệt mô hình ngôn ngữ lớn với 96 mô hình (tính đến tháng 11/2024), theo sau là:
  + Thượng Hải: 84 mô hình
  + Tỉnh Quảng Đông: 36 mô hình

- Vị thế dẫn đầu của Bắc Kinh được củng cố nhờ:
  + Là nơi đặt trụ sở của các công ty công nghệ lớn như Baidu, Zhipu AI và Moonshot AI
  + Tập trung nhiều trường đại học danh tiếng với đội ngũ nghiên cứu công nghệ chất lượng cao

- Kể từ khi OpenAI ra mắt ChatGPT vào tháng 11/2022, thị trường AI tạo sinh Trung Quốc đã trở nên sôi động với sự tham gia của các công ty công nghệ lớn và startup

- Theo quy định được ban hành tháng 7/2024, các dịch vụ AI tạo sinh phải đăng ký với CAC và trải qua đánh giá an ninh trước khi được cung cấp cho công chúng

📌 Bắc Kinh khẳng định vị thế trung tâm AI tạo sinh hàng đầu Trung Quốc với 105 mô hình ngôn ngữ lớn được phê duyệt. Thành phố chiếm gần 1/3 tổng số mô hình được cấp phép trên toàn quốc, vượt xa Thượng Hải (84) và Quảng Đông (36).

https://www.scmp.com/tech/tech-trends/article/3292521/chinas-genai-market-continues-heat-beijing-records-more-llm-filings

Phát triển GPT-5 của OpenAI gặp khó khăn: Thiếu dữ liệu và chi phí khổng lồ

- OpenAI đã gặp phải một số trở ngại trong quá trình phát triển GPT-5, bao gồm thiếu dữ liệu và chi phí lớn hơn dự kiến.
- Dự án GPT-5 được mã hóa là Orion và đã được phát triển trong hơn 18 tháng.
- Microsoft từng kỳ vọng sẽ ra mắt GPT-5 vào giữa năm 2024, nhưng hiện vẫn chưa rõ thời điểm cụ thể.
- Có hai vấn đề chính mà OpenAI đang phải đối mặt: chi phí phát triển và thiếu dữ liệu huấn luyện.
- OpenAI đã thực hiện hai phiên huấn luyện lớn cho GPT-5, mỗi phiên kéo dài nhiều tháng và yêu cầu lượng dữ liệu khổng lồ.
- Trong mỗi phiên huấn luyện, công ty gặp phải nhiều vấn đề không lường trước, khiến kết quả không đạt được như mong muốn.
- Chi phí cho một đợt huấn luyện kéo dài 6 tháng ước tính khoảng 500 triệu USD (khoảng 4.260 crore Rs).
- Hiện tại, GPT-5 chỉ được xem là tốt hơn một chút so với các mô hình AI hiện có của OpenAI, nhưng không đủ tiên tiến để mang lại lợi nhuận cho người dùng và doanh nghiệp.
- Nếu OpenAI không tìm ra được dữ liệu huấn luyện cần thiết, việc hoàn thiện mô hình sẽ bị trì hoãn đáng kể.
- Sự chậm trễ trong phát triển đã khiến Microsoft không hài lòng, theo các nguồn tin thân cận.

📌 Hiện tại, OpenAI vẫn cần thêm nhiều phiên huấn luyện để nâng cấp GPT-5. Chi phí cho mỗi phiên huấn luyện lên tới 500 triệu USD với kỳ vọng ra mắt vào giữa năm 2024 vẫn chưa thành hiện thực.

https://www.gadgets360.com/ai/news/openai-gpt-5-development-data-shortage-expensive-delay-report-7337105

Cuộc đua AI suy luận bùng nổ: OpenAI vượt mặt Google với model o3 mạnh gấp 3 lần o1

- OpenAI vừa công bố phiên bản nâng cấp của model AI thông minh nhất của công ty, chỉ một ngày sau khi Google ra mắt model suy luận đầu tiên

- Model mới có tên o3, thay thế cho o1 được giới thiệu từ tháng 9/2024. Model này có khả năng suy nghĩ kỹ hơn trước khi đưa ra câu trả lời

- Theo CEO Sam Altman, đây là bước khởi đầu cho giai đoạn tiếp theo của AI, khi các model có thể thực hiện các tác vụ phức tạp đòi hỏi nhiều suy luận

- o3 đạt điểm cao hơn đáng kể so với phiên bản trước trong nhiều tiêu chí:
  + Kỹ năng lập trình phức tạp
  + Năng lực toán học và khoa học nâng cao
  + Khả năng giải quyết các bài toán khó về logic gấp 3 lần so với o1

- Google cũng vừa công bố model Gemini 2.0 Flash Thinking, nhưng o3 của OpenAI vượt trội hơn 20% trong các bài kiểm tra về khả năng agent

- OpenAI phát triển 2 phiên bản: o3 và o3-mini, nhưng chưa công bố rộng rãi mà sẽ mời người dùng bên ngoài đăng ký thử nghiệm

- Công ty cũng tiết lộ phương pháp "deliberative alignment" (“điều chỉnh thông qua cân nhắc”)giúp model an toàn hơn bằng cách tự suy xét về các yêu cầu và câu trả lời

- Cuối năm 2024 chứng kiến nhiều thông báo quan trọng từ các ông lớn công nghệ:
  + Google ra mắt Gemini 2.0 
  + OpenAI giới thiệu model tạo video mới
  + Ra mắt phiên bản miễn phí ChatGPT search
  + Cung cấp dịch vụ ChatGPT qua điện thoại

📌 OpenAI tăng tốc cuộc đua AI suy luận với model o3 mạnh gấp 3 lần o1, vượt trội 20% so với Gemini 2.0 của Google. Model mới tích hợp công nghệ deliberative alignment cho độ an toàn cao và sẽ được thử nghiệm giới hạn trước khi ra mắt chính thức.

https://www.wired.com/story/openai-o3-reasoning-model-google-gemini/

 

OpenAI nâng cấp mô hình AI thông minh nhất với kỹ năng lập luận cải thiện
Một ngày sau khi Google công bố mô hình đầu tiên có khả năng lập luận vấn đề, OpenAI đã nâng tầm cuộc chơi với phiên bản cải tiến của chính mình.

OpenAI hôm nay công bố phiên bản cải tiến của mô hình trí tuệ nhân tạo mạnh mẽ nhất của mình cho đến nay—một mô hình dành nhiều thời gian hơn để cân nhắc câu hỏi—chỉ một ngày sau khi Google giới thiệu mô hình đầu tiên thuộc loại này.

Mô hình mới của OpenAI, mang tên o3, thay thế o1, được công ty ra mắt vào tháng 9. Tương tự như o1, mô hình mới dành thời gian suy ngẫm về vấn đề để đưa ra câu trả lời tốt hơn cho những câu hỏi đòi hỏi lập luận logic từng bước. (OpenAI bỏ qua tên gọi “o2” vì đây là tên của một nhà mạng di động tại Anh.)

“Đây là khởi đầu cho giai đoạn tiếp theo của AI,” CEO OpenAI Sam Altman phát biểu trong buổi livestream hôm thứ Sáu. “Mô hình này cho phép thực hiện các nhiệm vụ ngày càng phức tạp đòi hỏi nhiều lập luận.”

Mô hình o3 đạt điểm cao hơn nhiều trên một số tiêu chí so với phiên bản tiền nhiệm, OpenAI cho biết, bao gồm khả năng lập trình phức tạp và năng lực toán học, khoa học nâng cao. Nó vượt trội gấp ba lần so với o1 trong việc trả lời các câu hỏi từ ARC-AGI, một tiêu chuẩn đánh giá khả năng lập luận của mô hình AI đối với các vấn đề toán học và logic cực kỳ khó mà lần đầu tiên chúng gặp phải.

Google cũng đang theo đuổi hướng nghiên cứu tương tự. Hôm qua, nhà nghiên cứu Google Noam Shazeer tiết lộ trên X rằng công ty đã phát triển mô hình lập luận riêng, mang tên Gemini 2.0 Flash Thinking. CEO Sundar Pichai của Google gọi đây là “mô hình cẩn trọng nhất của chúng tôi” trong bài đăng của mình. Mô hình mới của Google đạt điểm cao trên SWE-Bench, một bài kiểm tra đánh giá khả năng tác nghiệp của các mô hình AI.

Tuy nhiên, mô hình o3 của OpenAI vẫn tốt hơn o1 đến 20%. “o3 đã vượt xa kỳ vọng,” Ofir Press, nhà nghiên cứu sau tiến sĩ tại Đại học Princeton, người giúp phát triển SWE-Bench, nhận xét. “Sự cải tiến này rất bất ngờ, tôi không rõ họ đã làm thế nào.”

Sự cạnh tranh giữa OpenAI và Google ngày càng khốc liệt. Điều này rất quan trọng đối với OpenAI trong việc thu hút thêm đầu tư và xây dựng một doanh nghiệp có lợi nhuận. Trong khi đó, Google cố gắng chứng minh rằng họ vẫn đứng đầu về nghiên cứu AI.

Những mô hình mới này cũng cho thấy các công ty AI ngày càng tập trung vào việc tối ưu hóa thay vì chỉ tăng kích thước mô hình để đạt được trí thông minh cao hơn.

OpenAI cho biết có hai phiên bản của mô hình mới: o3 và o3-mini. Công ty hiện chưa cung cấp mô hình này cho công chúng mà chỉ mời các đối tác bên ngoài đăng ký thử nghiệm.

OpenAI hôm nay cũng tiết lộ chi tiết về kỹ thuật sử dụng để điều chỉnh o1. Phương pháp mới, gọi là “điều chỉnh thông qua cân nhắc” (deliberative alignment), liên quan đến việc đào tạo mô hình với một bộ quy chuẩn an toàn, yêu cầu mô hình lập luận về bản chất của yêu cầu cũng như câu trả lời của chính nó để kiểm tra xem có vi phạm các quy chuẩn này hay không. Cách tiếp cận này khiến mô hình khó bị lừa vào các hành vi sai lệch hơn vì quá trình lập luận của nó có thể phát hiện các ý đồ không phù hợp.

Các mô hình ngôn ngữ lớn có thể trả lời nhiều câu hỏi rất tốt, nhưng thường gặp khó khăn khi giải quyết các câu đố đòi hỏi toán học hoặc logic cơ bản. OpenAI o1 tích hợp đào tạo giải quyết vấn đề từng bước, giúp mô hình AI xử lý tốt hơn các vấn đề này.

Những mô hình có khả năng lập luận sẽ quan trọng khi các công ty triển khai “tác nhân AI” (AI agents) có thể giải quyết vấn đề phức tạp một cách đáng tin cậy thay mặt người dùng.

“Điều này thực sự đánh dấu việc chúng ta đang tiến đến biên giới mới về tính hữu ích,” Mark Chen, phó chủ tịch cấp cao về nghiên cứu tại OpenAI, phát biểu trong buổi livestream hôm nay.

“Mô hình này rất xuất sắc trong lập trình,” Altman bổ sung.

Mặc dù một bước đột phá thực sự vẫn chưa xuất hiện vào cuối năm nay, nhưng tốc độ công bố công nghệ AI gần đây thật đáng kinh ngạc.

Đầu tháng này, Google đã công bố phiên bản mới của mô hình chủ lực mang tên Gemini 2.0, trình diễn khả năng hỗ trợ duyệt web và làm trợ lý thông qua điện thoại thông minh hoặc kính thông minh.

OpenAI gần đây cũng đã công bố hàng loạt cải tiến, bao gồm một phiên bản mới của mô hình tạo video, phiên bản miễn phí của công cụ tìm kiếm tích hợp ChatGPT, và cách truy cập ChatGPT qua điện thoại bằng cách gọi 1-800-ChatGPT.

 

OpenAI Upgrades Its Smartest AI Model With Improved Reasoning Skills
A day after Google announced its first model capable of reasoning over problems, OpenAI has upped the stakes with an improved version of its own.
NEW YORK NEW YORK  DECEMBER 04 OpenAI CEO Sam Altman Visits Making Money With Charles Payne at Fox Business Network...
OpenAI CEO Sam Altman Visits "Making Money With Charles Payne" at Fox Business Network Studios on December 04, 2024 in New York City.Photograph: Mike Coppola/Getty Images

OpenAI today announced an improved version of its most capable artificial intelligence model to date—one that takes even more time to deliberate over questions—just a day after Google announced its first model of this type.

OpenAI’s new model, called o3, replaces o1, which the company introduced in September. Like o1, the new model spends time ruminating over a problem in order to deliver better answers to questions that require step-by-step logical reasoning. (OpenAI chose to skip the “o2” moniker because it's already the name of a mobile carrier in the UK.)

AI Lab Newsletter by Will Knight
WIRED’s resident AI expert Will Knight takes you to the cutting edge of this fast-changing field and beyond—keeping you informed about where AI and technology are headed. Delivered on Wednesdays.

Sign up
By signing up, you agree to our user agreement (including class action waiver and arbitration provisions), and acknowledge our privacy policy.
“We view this as the beginning of the next phase of AI,” said OpenAI CEO Sam Altman on a livestream Friday. “Where you can use these models to do increasingly complex tasks that require a lot of reasoning.”

Featured Video


Historian Answers Samurai Questions

The o3 model scores much higher on several measures than its predecessor, OpenAI says, including ones that measure complex coding-related skills and advanced math and science competency. It is three times better than o1 at answering questions posed by ARC-AGI, a benchmark designed to test an AI models’ ability to reason over extremely difficult mathematical and logic problems they’re encountering for the first time.

Google is pursuing a similar line of research. Noam Shazeer, a Google researcher, yesterday revealed in a post on X that the company has developed its own reasoning model, called Gemini 2.0 Flash Thinking. Google’s CEO, Sundar Pichai, called it “our most thoughtful model yet” in his own post. Google’s new model achieved a high score on SWE-Bench, a test that measures a models’ agentic abilities.

However, OpenAI’s new o3 model is 20 percent better than o1. “o3 blew it out of the water,” says Ofir Press, a post-doctoral researcher at Princeton University who helped develop SWE-Bench. “Very surprising increase, not sure how they did it.”

The two dueling models show competition between OpenAI and Google to be fiercer than ever. It is crucial for OpenAI to demonstrate that it can keep making advances as it seeks to attract more investment and build a profitable business. Google is meanwhile desperate to show that it remains at the forefront of AI research.

The new models also show how AI companies are increasingly looking beyond simply scaling up AI models in order to wring greater intelligence out of them.

Most Popular
The Best Cookbooks of 2024
Kitchen
The Best Cookbooks of 2024
By Joe Ray
The Best Hair Straighteners to Iron Out Those Kinks
Lifestyle
The Best Hair Straighteners to Iron Out Those Kinks
By Kat Merck
Give Your Back a Break With Our Favorite Office Chairs
Buying Guides
Give Your Back a Break With Our Favorite Office Chairs
By Julian Chokkattu
The Latest Indiana Jones Game Showcases Indy's Swashbuckling Charm
Culture
The Latest Indiana Jones Game Showcases Indy's Swashbuckling Charm
By Matt Kamen
Advertisement

OpenAI says there are two versions of the new model, o3 and o3-mini. The company is not making the models publicly available yet but says it will invite outsiders to apply to perform testing of them.

OpenAI today also revealed more details of techniques used to align o1. The new method, known as deliberative alignment, involves training a model with a set of safety specifications and having it reason about the nature of the request as well as its own answer it is given to interrogate whether it may contravene its guardrails. The approach makes the model more difficult to trick into misbehavior because its reasoning process can root out attempts at mischief.

Large language models can answer many questions remarkably well, but they often stumble when asked to solve puzzles that require basic math or logic. OpenAI’s o1 incorporates training on step-by-step problem-solving that makes an AI model better able to tackle these types of problems.

Models that reason over problems will also be important as companies seek to deploy so-called AI agents that can reliably figure out how to solve complex problems on a users’ behalf.

“This really signifies that we are really climbing the frontier of utility,” Mark Chen, senior vice president of research at OpenAI said on today’s livestream.

“This model is incredible at programming,” Atlman added.

While a true breakthrough moment has eluded tech giants at the end of the year, the pace of AI announcements has been dizzying of late.

Early this month Google announced a new version of its flagship model, called Gemini 2.0, and demonstrated it as a web browsing helper and as an assistant that sees the world through a smartphone or a pair of smart glasses.

OpenAI has made numerous announcements in the run up to Christmas, including a new version of its video-generating model, a free version of its ChatGPT-powered search engine, and a way to access ChatGPT over the phone by calling 1-800-ChatGPT.

Gemini 2.0 Flash Thinking của Google có khả năng suy luận nâng cao

• Gemini 2.0 Flash Thinking là mô hình AI thử nghiệm mới nhất của Google, tập trung vào khả năng suy luận để giải quyết các bài toán phức tạp về toán học, logic và lập trình.

• Mô hình này giới thiệu tính năng xử lý chuỗi suy luận (chain-of-thought processing), cho phép hiển thị chi tiết từng bước trong quá trình đưa ra kết luận thay vì chỉ đưa ra câu trả lời cuối cùng.

• Gemini 2.0 đã dẫn đầu bảng xếp hạng trong Chatbot Arena với nhiều tiêu chí đánh giá khác nhau, chứng minh hiệu quả trong việc giải quyết các vấn đề phức tạp.

• Khả năng phân tích hình ảnh kết hợp suy luận được thể hiện qua ví dụ về bài toán bi-a, khi mô hình có thể hiểu và suy luận cần lật ngược hình ảnh để có câu trả lời chính xác.

Google cung cấp Gemini 2.0 miễn phí trên nền tảng AI Studio với giới hạn 32.767 token mỗi phiên làm việc.

• Người dùng có thể tùy chỉnh cài đặt an toàn để phù hợp với nhu cầu sử dụng cụ thể.

• Mô hình nổi bật với tính minh bạch và độ chính xác cao, đặc biệt hữu ích trong lĩnh vực lập trình và nghiên cứu khoa học.

• Mặc dù vẫn còn một số điểm không nhất quán trong kết quả đầu ra, Google cam kết liên tục cập nhật và hoàn thiện dựa trên phản hồi từ người dùng.

📌 Gemini 2.0 Flash Thinking là bước tiến quan trọng trong việc phát triển AI có khả năng suy luận, với 32.767 token mỗi phiên làm việc miễn phí trên AI Studio. Mô hình kết hợp tốc độ, độ chính xác và khả năng giải thích, hứa hẹn trở thành công cụ hữu ích cho nhiều đối tượng người dùng.

https://www.digit.in/features/general/what-is-google-gemini-2-0-flash-thinking-everything-we-know-about-the-ai-model.html

Google tung ra Gemini 2.0 Flash Thinking - đối thủ đáng gờm của OpenAI o1

• Google vừa công bố Gemini 2.0 Flash Thinking - mô hình lập luận đa phương thức mới nhất của họ.

• Mô hình mới có khả năng xử lý đầu vào tối đa 32.000 token (khoảng 50-60 trang văn bản) và tạo ra đầu ra 8.000 token.

• Sundar Pichai, CEO Google, đã chia sẻ trên mạng xã hội X rằng đây là "mô hình thông minh nhất của chúng tôi từ trước đến nay".

• Điểm nổi bật của Gemini 2.0 Flash Thinking là khả năng hiển thị quá trình lập luận từng bước thông qua menu thả xuống, giúp người dùng hiểu rõ cách mô hình đưa ra kết luận.

• Mô hình mới vượt trội so với o1 của OpenAI ở khả năng xử lý hình ảnh ngay từ đầu, trong khi o1 ban đầu chỉ hỗ trợ văn bản.

• Trong các bài kiểm tra ban đầu, mô hình thể hiện khả năng xử lý nhanh (1-3 giây) các câu hỏi phức tạp như đếm số chữ "R" trong từ "Strawberry".

• LM Arena, đơn vị phân tích độc lập, đã xếp hạng Gemini 2.0 Flash Thinking là mô hình hiệu suất số 1 trong tất cả các danh mục LLM.

• Hiện tại, mô hình chưa hỗ trợ tích hợp với Google Search hoặc các ứng dụng Google khác và công cụ bên thứ ba.

• Các nhà phát triển có thể tiếp cận và thử nghiệm mô hình thông qua Google AI Studio và Vertex AI.

📌 Google đã tạo bước đột phá với Gemini 2.0 Flash Thinking - mô hình AI đa phương thức mới có khả năng xử lý 32.000 token đầu vào, tốc độ phản hồi 1-3 giây và được xếp hạng số 1 bởi LM Arena, đặt nền móng cho kỷ nguyên mới trong lĩnh vực AI lập luận.

https://venturebeat.com/ai/google-unveils-new-reasoning-model-gemini-2-0-flash-thinking-to-rival-openai-o1/

Deepseek-AI ra mắt bộ 3 mô hình AI ngôn ngữ-thị giác siêu mạnh

• Deepseek-ai vừa công bố bộ mô hình Deepseek-vl2 nguồn mở gồm 3 phiên bản với số tham số khác nhau:
- Deepseek-vl2-tiny: 3,37 tỷ tham số (1,0 tỷ tham số được kích hoạt)
- Deepseek-vl2-small: 16,1 tỷ tham số (2,8 tỷ tham số được kích hoạt) 
- Deepseek-vl2: 27,5 tỷ tham số (4,5 tỷ tham số được kích hoạt)

• Mô hình tích hợp các công nghệ tiên tiến:
- Dynamic tiling để mã hóa thông tin thị giác
- Cơ chế multi-head latent attention cho xử lý ngôn ngữ
- Framework deepseek-moe tối ưu hiệu năng

• Kết quả đánh giá ấn tượng:
- Độ chính xác 92,3% trong các tác vụ ocr với phiên bản small
- Cải thiện 15% độ chính xác trong visual grounding so với các mô hình tiền nhiệm
- Tiết kiệm 30% tài nguyên tính toán nhưng vẫn duy trì hiệu năng tốt nhất

• Các điểm nổi bật:
- Chia nhỏ ảnh độ phân giải cao thành các tile nhỏ hơn giúp cải thiện trích xuất đặc trưng
- Ba cấu hình linh hoạt phù hợp nhiều ứng dụng khác nhau
- Tập dữ liệu đa dạng giúp mô hình tổng quát hóa tốt
- Framework tính toán thưa thớt chỉ kích hoạt tham số cần thiết

📌 Deepseek-vl2 là bộ mô hình nguồn mở đột phá với 3 phiên bản từ 3b đến 27b tham số, đạt độ chính xác 92,3% trong ocr và tiết kiệm 30% tài nguyên. Kiến trúc moe cùng các cơ chế dynamic tiling và multi-head latent attention giúp mô hình xử lý hiệu quả cả ngôn ngữ và hình ảnh.

https://www.marktechpost.com/2024/12/15/deepseek-ai-open-sourced-deepseek-vl2-series-three-models-of-3b-16b-and-27b-parameters-with-mixture-of-experts-moe-architecture-redefining-vision-language-ai/

 

DeepSeek-AI Công Bố Open Source Bộ DeepSeek-VL2: Ba Mô Hình với 3 Tỉ, 16 Tỉ và 27 Tỉ Tham Số, Định Nghĩa Lại AI Kết Hợp Thị Giác và Ngôn Ngữ

Tác giả: Asif Razzaq - Ngày 15/12/2024

Việc tích hợp khả năng xử lý hình ảnh và ngôn ngữ trong AI đã tạo nên những đột phá trong các mô hình kết hợp thị giác và ngôn ngữ (Vision-Language Models - VLMs). Những mô hình này có khả năng xử lý và hiểu đồng thời dữ liệu hình ảnh và văn bản, mở ra nhiều ứng dụng như chú thích hình ảnh, trả lời câu hỏi dựa trên hình ảnh, nhận diện ký tự quang học (OCR), và phân tích nội dung đa phương tiện. Các VLMs đóng vai trò quan trọng trong việc phát triển hệ thống tự trị, cải thiện tương tác giữa con người và máy tính, và các công cụ xử lý tài liệu hiệu quả. Tuy nhiên, xử lý dữ liệu hình ảnh độ phân giải cao đồng thời với đầu vào văn bản phong phú vẫn là thách thức lớn trong lĩnh vực này.

Hạn chế của các mô hình hiện tại

Các nghiên cứu hiện có đã giải quyết một số hạn chế bằng cách sử dụng bộ mã hóa hình ảnh tĩnh, nhưng điều này khiến các mô hình thiếu tính thích ứng với dữ liệu độ phân giải cao và kích thước đầu vào thay đổi. Các mô hình ngôn ngữ được huấn luyện trước, khi kết hợp với bộ mã hóa hình ảnh, thường thiếu hiệu quả do không được tối ưu hóa cho các nhiệm vụ đa phương tiện. Một số mô hình sử dụng tính toán thưa (sparse computation) để quản lý độ phức tạp, nhưng thường không đạt độ chính xác cao trên nhiều tập dữ liệu khác nhau. Hơn nữa, dữ liệu huấn luyện của các mô hình này thường thiếu đa dạng và không đủ chi tiết theo từng nhiệm vụ, làm giảm hiệu suất trong các tác vụ chuyên biệt như phân tích biểu đồ hoặc tài liệu dày đặc.


DeepSeek-VL2: Bộ mô hình VLM tiên tiến

Các nhà nghiên cứu từ DeepSeek-AI đã giới thiệu DeepSeek-VL2, một thế hệ mô hình thị giác-ngôn ngữ dựa trên kiến trúc hỗn hợp chuyên gia (Mixture-of-Experts - MoE). Bộ mô hình này tích hợp các cải tiến tiên tiến, bao gồm:

  • Dynamic Tiling: Giúp mã hóa hình ảnh độ phân giải cao mà không làm mất chi tiết quan trọng.
  • Multi-head Latent Attention: Tăng cường hiệu quả xử lý văn bản với khối lượng lớn.
  • DeepSeek-MoE Framework: Kích hoạt chỉ một phần nhỏ tham số của mô hình, tối ưu hóa hiệu quả và khả năng mở rộng.

Các cấu hình của DeepSeek-VL2

DeepSeek-VL2 được giới thiệu với ba cấu hình:

  • DeepSeek-VL2-Tiny: 3,37 tỉ tham số (1 tỉ tham số được kích hoạt).
  • DeepSeek-VL2-Small: 16,1 tỉ tham số (2,8 tỉ tham số được kích hoạt).
  • DeepSeek-VL2: 27,5 tỉ tham số (4,5 tỉ tham số được kích hoạt).

Các cấu hình này đảm bảo khả năng thích ứng với nhu cầu ứng dụng và ngân sách tính toán khác nhau.


Hiệu suất vượt trội

DeepSeek-VL2 được thiết kế để tối ưu hóa hiệu năng trong khi giảm thiểu yêu cầu tính toán. Một số thành tựu của mô hình:

  • Xử lý hình ảnh chi tiết: Dynamic Tiling cho phép phân tách hình ảnh độ phân giải cao thành các phần nhỏ, tối ưu hóa việc trích xuất đặc trưng.
  • Hiệu quả vượt trội: Mô hình yêu cầu ít hơn 30% tài nguyên tính toán so với các mô hình tương đương mà vẫn duy trì độ chính xác tiên tiến.
  • Độ chính xác cao: Đạt 92,3% chính xác trong tác vụ OCR, vượt xa các mô hình hiện tại. Trong bài toán định vị trực quan (visual grounding), mô hình cải thiện độ chính xác lên đến 15%.
  • Khả năng tổng quát hóa tốt: DeepSeek-VL2 đạt điểm số dẫn đầu trong các tiêu chuẩn lý luận đa phương tiện.

Điểm nổi bật của DeepSeek-VL2

  1. Phân mảnh hình ảnh động: Cách tiếp cận này cải thiện việc trích xuất đặc trưng và giảm bớt gánh nặng tính toán, đặc biệt hiệu quả trong phân tích tài liệu dày đặc và bố cục phức tạp.
  2. Ba cấu hình đa dạng: Tiny, Small và Standard giúp đáp ứng nhiều nhu cầu, từ triển khai nhẹ đến các tác vụ đòi hỏi nhiều tài nguyên.
  3. Dữ liệu đa nhiệm toàn diện: Bộ dữ liệu huấn luyện bao quát các nhiệm vụ như OCR và định vị trực quan, nâng cao khả năng tổng quát hóa và hiệu suất theo từng nhiệm vụ.
  4. Tính toán thưa: Chỉ kích hoạt các tham số cần thiết, giảm đáng kể chi phí tính toán mà không làm giảm độ chính xác.

Kết luận

DeepSeek-VL2 là bộ mô hình kết hợp thị giác và ngôn ngữ mã nguồn mở với ba cấu hình (1,8 tỉ, 2,8 tỉ và 4,5 tỉ tham số kích hoạt). Bộ mô hình này mang lại khả năng mở rộng, hiệu quả tính toán cao và thích ứng với nhiệm vụ, vượt qua những hạn chế quan trọng của các mô hình hiện có. Các cơ chế đột phá như Dynamic Tiling và Multi-head Latent Attention cho phép xử lý hình ảnh chính xác và văn bản hiệu quả, đạt được kết quả tiên tiến trong các nhiệm vụ như OCR và định vị trực quan.

DeepSeek-VL2 thiết lập một tiêu chuẩn mới trong hiệu năng AI, mang lại những đột phá trong ứng dụng thực tiễn.

Cohere ra mắt Command R7B: Mô hình AI siêu nhỏ gọn, vượt trội Gemma và Llama trong nhiều tác vụ

• Command R7B là mô hình nhỏ nhất và nhanh nhất trong dòng R của Cohere, được thiết kế để hỗ trợ phát triển prototype nhanh chóng với độ dài ngữ cảnh 128K và hỗ trợ 23 ngôn ngữ

• Mô hình này vượt trội so với các đối thủ cùng phân khúc như Google Gemma, Meta Llama, Mistral Ministral trong các tác vụ toán học và lập trình

• Command R7B đứng đầu bảng xếp hạng HuggingFace Open LLM trong nhiều tiêu chí đánh giá quan trọng như:
- IFeval (đánh giá theo dõi hướng dẫn)
- BBH (big bench hard)
- GPQA (câu hỏi đáp trình độ cao)
- MuSR (lập luận mềm nhiều bước)
- MMLU (hiểu ngôn ngữ đa nhiệm vụ quy mô lớn)

• Mô hình có khả năng sử dụng công cụ như công cụ tìm kiếm, API và cơ sở dữ liệu vector để mở rộng chức năng, hoạt động hiệu quả trong môi trường thực tế đa dạng và năng động

• Với kích thước nhỏ gọn, Command R7B có thể triển khai trên các thiết bị phổ thông như CPU, GPU và MacBook với chi phí:
- 0,0375 USD/1 triệu token đầu vào 
- 0,15 USD/1 triệu token đầu ra

• Mô hình đặc biệt phù hợp cho các tác vụ:
- Hỗ trợ nơi làm việc công nghệ
- Quản lý rủi ro doanh nghiệp
- Hỗ trợ khách hàng
- Tư vấn nhân sự
- Tóm tắt nội dung
- Xử lý thông tin tài chính

📌 Command R7B là mô hình AI nhỏ gọn mới của Cohere, vượt trội trong 23 ngôn ngữ với chi phí từ 0,0375 USD/triệu token. Mô hình dẫn đầu nhiều tiêu chí đánh giá quan trọng, phù hợp cho doanh nghiệp cần tối ưu tốc độ và hiệu quả chi phí.

https://venturebeat.com/ai/coheres-smallest-fastest-r-series-model-excels-at-rag-reasoning-in-23-languages/

Marco-o1 của Alibaba - Mô hình AI vượt trội với độ chính xác tăng 6% trong giải toán

• Alibaba vừa ra mắt Marco-o1, một mô hình ngôn ngữ lớn (LLM) tiên tiến được phát triển bởi đội MarcoPolo thuộc Alibaba International Digital Commerce.

Marco-o1 được xây dựng trên kiến trúc Qwen2-7B-Instruct, tập trung vào việc giải quyết các vấn đề mở và các tác vụ suy luận phức tạp.

• Mô hình sử dụng 3 phương pháp tiên tiến:
- Chain-of-Thought (CoT): Cho phép suy luận từng bước
- Monte Carlo Tree Search (MCTS): Khám phá nhiều đường dẫn suy luận
- Chiến lược hành động suy luận: Điều chỉnh độ chi tiết trong việc ra quyết định.

• Kết quả đánh giá ấn tượng:
- Tăng 6,17% độ chính xác trên bộ dữ liệu MGSM (tiếng Anh)
- Tăng 5,60% độ chính xác trên bộ dữ liệu MGSM (tiếng Trung).

• Marco-o1 được đào tạo bằng dữ liệu CoT nguồn mở kết hợp với bộ dữ liệu tổng hợp độc quyền.

Alibaba đã công bố Marco-o1 miễn phí trên các nền tảng GitHub và Hugging Face.

Sự ra mắt này diễn ra sau khi DeepSeek lab của Trung Quốc công bố mô hình DeepSeek-R1-Lite-Preview và trực tiếp cạnh tranh với mô hình o1 của OpenAI.

📌 Marco-o1 của Alibaba đạt bước tiến quan trọng với độ chính xác tăng 6,17% trong bài kiểm tra MGSM tiếng Anh, vượt trội trong khả năng suy luận và dịch thuật đa ngôn ngữ. Mô hình được phát hành miễn phí trên GitHub và Hugging Face, mở ra cơ hội nghiên cứu và phát triển rộng rãi.

https://www.eweek.com/news/alibaba-marco-o1-boosts-math-accuracy/

Anthropic tung ra Claude 3.5 Haiku - Mô hình AI siêu tốc với cửa sổ ngữ cảnh khổng lồ 200.000 token

- Anthropic chính thức triển khai mô hình Claude 3.5 Haiku đến tất cả người dùng thông qua chatbot Claude trên web và ứng dụng di động

- Mô hình này trước đây chỉ giới hạn cho các nhà phát triển qua API của Anthropic từ tháng 10/2024

- Theo tổ chức Artificial Analysis, Claude 3.5 Haiku có độ trễ thấp hơn trung bình, mất 0,80 giây để nhận token đầu tiên, tốc độ đầu ra đạt 65,1 token mỗi giây

- Đặc điểm nổi bật:
  + Cửa sổ ngữ cảnh 200.000 token, vượt trội hơn GPT-4 và GPT-4o của OpenAI (128.000 token)
  + Khả năng phân tích hình ảnh và tệp đính kèm
  + Tích hợp với Claude Artifacts, thanh bên tương tác để tinh chỉnh nội dung AI
  + Có thể lập trình trò chơi Pong trong chưa đầy một phút

- Hạn chế:
  + Không hỗ trợ duyệt web
  + Không tạo được hình ảnh
  + Giới hạn tin nhắn hàng ngày với tài khoản miễn phí

- Chi phí sử dụng:
  + API: 0,80 USD/triệu token đầu vào và 4 USD/triệu token đầu ra
  + Gói Claude Pro: 20 USD/tháng, cho phép sử dụng gấp 5 lần gói miễn phí
  + Tiết kiệm chi phí qua bộ nhớ đệm (giảm 90%) và Message Batches API (giảm 50%)

- Hiệu suất:
  + Đạt 40,6% điểm trong bài kiểm tra SWE-bench Verified
  + Vượt trội nhiều mô hình lớn hơn trong các tác vụ yêu cầu tốc độ và trí thông minh

📌 Claude 3.5 Haiku là mô hình AI tạo sinh nhanh nhất của Anthropic với cửa sổ ngữ cảnh 200.000 token, chi phí từ 0,80 USD/triệu token đầu vào. Mô hình này vượt trội trong xử lý dữ liệu lớn, phân tích tài liệu tài chính và tạo nội dung từ thông tin ngữ cảnh dài.

https://venturebeat.com/ai/claude-3-5-haiku-chatbot-now-generally-available

 

Anthropic Chính Thức Phát Hành Claude 3.5 Haiku: Nhanh Hơn, Linh Hoạt Hơn

Tác giả: Carl Franzen | Ngày 12 tháng 12, 2024

Anthropic vừa chính thức triển khai mô hình Claude 3.5 Haiku đến mọi người dùng thông qua chatbot Claude trên web và ứng dụng di động. Trước đây, mô hình này chỉ giới hạn cho các nhà phát triển sử dụng qua API kể từ khi ra mắt vào tháng 10 năm 2024.

Claude 3.5 Haiku thu hút sự chú ý nhờ khả năng vượt trội so với các mô hình lớn hơn trên các tiêu chuẩn quan trọng, trong khi vẫn duy trì mức giá cạnh tranh. Đây là mô hình nhanh nhất và hiệu quả nhất trong danh mục sản phẩm của Anthropic, phù hợp cho các tác vụ thời gian thực như xử lý tập dữ liệu lớn, phân tích tài liệu tài chính, và tạo kết quả từ các ngữ cảnh dài.


Hiệu năng ấn tượng và ứng dụng thực tiễn

Khả năng mạnh mẽ

  • Cửa sổ ngữ cảnh lớn: Với dung lượng 200.000 token, Claude 3.5 Haiku có thể xử lý thông tin đầu vào dài hơn đáng kể so với GPT-4 (128.000 token).
  • Phân tích đa phương tiện: Người dùng có thể phân tích hình ảnh và tệp đính kèm, hỗ trợ tốt cho các quy trình làm việc phức tạp.
  • Tích hợp với Artifacts: Tính năng này cho phép chỉnh sửa nội dung AI theo thời gian thực và thậm chí chạy các ứng dụng hoàn chỉnh.

Ví dụ: Claude 3.5 Haiku đã tạo một phiên bản trò chơi Pong có thể chơi được chỉ trong chưa đầy một phút.


Hạn chế

  • Không hỗ trợ duyệt web hoặc tạo hình ảnh, điều mà các đối thủ như OpenAI GPT-4o và GPT-4 cung cấp.
  • Một số lỗi nhỏ vẫn còn tồn tại, chẳng hạn như thất bại trong “Bài kiểm tra Strawberry,” khi không xác định được tất cả các chữ "R" trong từ "strawberry."

Chi phí và quyền truy cập

Gói miễn phí

Claude 3.5 Haiku có thể sử dụng miễn phí trên chatbot Claude, nhưng giới hạn số lượng tin nhắn hàng ngày tùy thuộc vào lưu lượng máy chủ.

  • Người dùng miễn phí có thể gửi khoảng 10 trao đổi (20 tin nhắn vào và ra) trước khi đạt giới hạn, và hạn mức này sẽ được đặt lại mỗi ngày.

Gói Claude Pro

  • Chi phí: $20/tháng.
  • Quyền lợi:
    • Tăng gấp 5 lần mức sử dụng miễn phí.
    • Quyền truy cập ưu tiên trong giờ cao điểm.
    • Sử dụng các tính năng mới và mô hình nâng cao như Claude 3 Opus.

API Claude 3.5 Haiku

  • Chi phí: $0,80 mỗi triệu token đầu vào và $4 mỗi triệu token đầu ra.
  • Các tính năng tiết kiệm như prompt caching (giảm 90% chi phí) và Message Batches API (giảm 50% chi phí) giúp giảm chi phí đáng kể cho nhà phát triển.

Hiệu năng so sánh

Claude 3.5 Haiku đạt:

  • 40,6% trên SWE-bench Verified, một tiêu chuẩn mã hóa quan trọng, vượt qua nhiều mô hình công khai lớn hơn.
  • Tốc độ xử lý: 0,80 giây để nhận token đầu tiên và 65,1 token mỗi giây.

Mặc dù không phải nhanh nhất trên mọi tiêu chuẩn, Claude 3.5 Haiku vẫn nổi bật nhờ khả năng xử lý hiệu quả và linh hoạt với chi phí hợp lý.


Kết luận

Claude 3.5 Haiku mang đến sự kết hợp giữa khả năng phân tích mạnh mẽ, tốc độ cao, và chi phí phải chăng. Tuy nhiên, hạn chế như không hỗ trợ duyệt web hay tạo hình ảnh và giới hạn tin nhắn hàng ngày có thể là trở ngại với một số người dùng.

Dù vậy, với các tính năng như Artifacts, khả năng xử lý dữ liệu dài, và tích hợp API hiệu quả, Claude 3.5 Haiku là lựa chọn mạnh mẽ cho các tác vụ đòi hỏi tốc độ và độ chính xác. Người dùng hiện có thể trải nghiệm trực tiếp Claude 3.5 Haiku qua chatbot Claude trên web và ứng dụng di động.

Google ra mắt Gemini 2.0 - mô hình AI tiên tiến nhất

• Gemini 2.0 Flash là phiên bản đầu tiên trong dòng mô hình Gemini 2.0, với hiệu suất cao hơn Gemini 1.5 Pro gấp 2 lần về tốc độ.

• Mô hình mới có khả năng đa phương thức nâng cao:

Nhận dạng và xử lý đầu vào: văn bản, hình ảnh, video, âm thanh

Tạo đầu ra tự nhiên: hình ảnh kết hợp văn bản, âm thanh đa ngôn ngữ

Tích hợp công cụ: Google Search, thực thi mã, các hàm do người dùng định nghĩa

• Project Astra - nguyên mẫu trợ lý AI toàn năng:

Đối thoại đa ngôn ngữ với khả năng hiểu giọng nói và từ ngữ phức tạp

Sử dụng được Google Search, Lens và Maps

Bộ nhớ phiên làm việc 10 phút và nhớ các cuộc hội thoại trước đó

Độ trễ thấp ngang với giao tiếp người

• Project Mariner - nguyên mẫu AI tương tác trên trình duyệt:

Hiểu và xử lý thông tin trên màn hình bao gồm pixel, văn bản, mã, hình ảnh

Đạt 83,5% hiệu suất trong benchmark WebVoyager

Tính năng an toàn: chỉ thao tác trên tab đang mở, yêu cầu xác nhận cho hành động nhạy cảm

• Jules - tác nhân AI hỗ trợ lập trình:

Tích hợp trực tiếp vào quy trình GitHub

Phân tích vấn đề, lập kế hoạch và thực thi dưới sự giám sát của lập trình viên

• Các tính năng an toàn:

Đánh giá rủi ro bởi Ủy ban Trách nhiệm và An toàn

Tự động tạo dữ liệu đánh giá và huấn luyện để giảm thiểu rủi ro

Kiểm soát quyền riêng tư và xóa phiên làm việc

Bảo vệ khỏi tấn công prompt injection

📌 Gemini 2.0 mở ra kỷ nguyên AI tác nhân với khả năng đa phương thức nâng cao, tốc độ xử lý gấp đôi Gemini 1.5 Pro, tích hợp công cụ tự nhiên và các tính năng bảo mật toàn diện. Mô hình đã được triển khai cho nhà phát triển và người dùng Gemini từ tháng 12/2024.

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#agents-for-developers

Grok - đối thủ của ChatGPT từ Elon Musk đã mở cửa miễn phí cho mọi người dùng X

- X đã mở rộng quyền truy cập chatbot AI Grok cho người dùng không phải Premium vào ngày 7/12/2024

- Người dùng thường có thể gửi tối đa 10 tin nhắn cho Grok trong mỗi 2 giờ

- xAI ra mắt Grok vào năm 2023 như một "trợ lý AI hài hước", ban đầu chỉ dành cho người đăng ký Premium

- Tháng 8/2024, xAI bổ sung tính năng tạo hình ảnh từ văn bản cho Grok, tuy nhiên đã phát sinh một số hình ảnh gây tranh cãi

- Theo TechCrunch, xAI bắt đầu thử nghiệm phiên bản miễn phí của Grok tại một số khu vực từ tháng 11/2024

- Việc mở rộng khả năng tiếp cận Grok giúp cạnh tranh với các chatbot miễn phí khác như:
  + OpenAI ChatGPT
  + Google Gemini
  + Microsoft Copilot
  + Anthropic Claude

- xAI vừa huy động được 6 tỷ USD trong vòng gọi vốn gần nhất

- Theo Wall Street Journal, xAI đang cân nhắc phát triển ứng dụng độc lập cho Grok, tương tự như các đối thủ ChatGPT, Gemini và Claude đã có

📌 Elon Musk mở rộng khả năng tiếp cận Grok cho người dùng miễn phí trên X, cho phép gửi 10 tin nhắn/2 giờ. xAI huy động 6 tỷ USD và dự định phát triển ứng dụng độc lập, nhằm cạnh tranh với ChatGPT, Gemini và Claude.

 

https://www.theverge.com/2024/12/6/24314860/x-grok-ai-chatbot-available-all-users

 

Grok AI Chatbot của X nay đã có sẵn cho tất cả người dùng

Elon Musk vừa mở quyền truy cập chatbot Grok của mình cho người dùng miễn phí trên nền tảng X. Theo đó, người dùng không cần đăng ký Premium vẫn có thể gửi tối đa 10 tin nhắn cho Grok mỗi hai giờ. Thay đổi này được nhiều người dùng nhận ra vào thứ Sáu vừa qua.

Grok, do xAI phát triển, ra mắt năm ngoái như một "trợ lý AI hài hước," nhưng ban đầu chỉ dành cho người dùng Premium. Vào tháng 8, xAI đã tích hợp tính năng tạo hình ảnh từ văn bản vào Grok, mặc dù công cụ này từng gây tranh cãi khi tạo ra một số hình ảnh không phù hợp.

Cạnh tranh với các đối thủ

Theo TechCrunch, xAI đã thử nghiệm phiên bản miễn phí của Grok tại một số khu vực vào tháng trước. Việc mở rộng này nhằm giúp Grok cạnh tranh với các chatbot miễn phí sẵn có như ChatGPT của OpenAI, Gemini của Google, Copilot của Microsoft, và Claude của Anthropic.

XAI, công ty huy động được 6 tỉ USD trong vòng gọi vốn gần nhất, cũng đang xem xét ra mắt một ứng dụng độc lập cho Grok. Đây là hướng đi mà các đối thủ như ChatGPT, Gemini và Claude đã áp dụng, theo báo cáo từ The Wall Street Journal.

 

X’s Grok AI chatbot is now available to all users

You no longer need a Premium subscription to access the ‘humorous’ chatbot.

 
 

Elon Musk’s AI chatbot Grok is now available to free users on X. Several users noticed the change on Friday, which gives non-Premium subscribers the ability to send up to 10 messages to Grok every two hours.

xAI launched Grok last year as a “humorous AI assistant,” but it was only available to Premium subscribers. In August, xAI added a text-to-image generation feature to Grok, which turned out to be capable of producing some questionable images.

TechCrunch reported last month that Musk’s xAI started testing a free version of Grok in certain regions. Making Grok more widely available might help it compete with the already-free chatbots like OpenAI’s ChatGPT, Google Gemini, Microsoft Copilot, and Anthropic’s Claude.

xAI, which raised $6 billion in its latest funding round, is also considering launching a standalone app for Grok — something ChatGPT, Gemini, and Claude already have, according to a report from The Wall Street Journal.

Meta phát hành Llama 3.3 hiệu năng cao, 70 tỷ tham số, tiết kiệm chi phí GPU

- Meta vừa công bố Llama 3.3, mô hình ngôn ngữ lớn đa ngôn ngữ nguồn mở mới nhất, do Ahmad Al-Dahle - Phó chủ tịch AI tạo sinh của Meta thông báo

- Model có 70 tỷ tham số nhưng cho kết quả tương đương với phiên bản Llama 3.1 có 405 tỷ tham số, giúp tiết kiệm đáng kể tài nguyên tính toán

- Llama 3.3 được huấn luyện trên:
  + 15 nghìn tỷ token từ dữ liệu công khai
  + 25 triệu ví dụ được tạo tổng hợp
  + Sử dụng 39,3 triệu giờ GPU H100-80GB

- Ưu điểm nổi bật:
  + Độ chính xác 91,1% trong các tác vụ suy luận đa ngôn ngữ
  + Hỗ trợ nhiều ngôn ngữ: Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái và Anh
  + Chi phí sinh token chỉ 0,01 USD/triệu token
  + Cửa sổ ngữ cảnh 128k token (khoảng 400 trang sách)

- Về môi trường:
  + Phát thải 11.390 tấn CO2
  + Meta sử dụng năng lượng tái tạo để bù đắp, đạt mức phát thải ròng bằng 0

- Tiết kiệm tài nguyên:
  + Giảm bộ nhớ GPU từ 1.944 GB xuống còn 4 GB
  + Tiết kiệm đến 600.000 USD chi phí GPU ban đầu
  + Giảm 24 lần tải GPU so với GPU H100 tiêu chuẩn 80 GB

📌 Llama 3.3 đánh dấu bước tiến mới trong việc tối ưu mô hình AI: nhỏ gọn với 70 tỷ tham số nhưng hiệu năng ngang ngửa model 405 tỷ tham số, tiết kiệm 600.000 USD chi phí GPU, đạt độ chính xác 91,1% trong xử lý đa ngôn ngữ và hoạt động với phát thải carbon ròng bằng 0.



https://venturebeat.com/ai/meta-launches-open-source-llama-3-3-shrinking-powerful-bigger-model-into-smaller-size/

Meta ra mắt Llama 3.3 mã nguồn mở, thu nhỏ mô hình mạnh mẽ lớn hơn thành kích thước nhỏ hơn

@carlfranzen
6 tháng 12, 2024, 10:24 AM

 

Phó Chủ tịch AI tạo sinh của Meta, Ahmad Al-Dahle, hôm nay đã công bố trên mạng xã hội đối thủ X về việc phát hành Llama 3.3, mô hình ngôn ngữ lớn (LLM) đa ngôn ngữ mã nguồn mở mới nhất từ công ty mẹ của Facebook, Instagram, WhatsApp và Quest VR.

Ông viết: “Llama 3.3 cải thiện hiệu năng cốt lõi với chi phí thấp hơn đáng kể, giúp cộng đồng mã nguồn mở dễ dàng tiếp cận hơn bao giờ hết.”

Với 70 tỷ tham số — các cài đặt điều chỉnh hành vi của mô hình — Llama 3.3 mang lại kết quả tương đương với mô hình 405 tỷ tham số của Llama 3.1 phát hành mùa hè vừa qua, nhưng với chi phí và yêu cầu tính toán thấp hơn nhiều, chẳng hạn như dung lượng GPU cần thiết để chạy mô hình trong quá trình suy luận.

Mô hình được thiết kế để cung cấp hiệu năng hàng đầu và tính tiếp cận cao trong một gói gọn gàng hơn so với các mô hình nền tảng trước đó.

Bản quyền và các điều khoản sử dụng

Llama 3.3 được cung cấp theo Thỏa thuận Cấp phép Cộng đồng Llama 3.3, cấp phép không độc quyền và miễn phí bản quyền cho việc sử dụng, sao chép, phân phối và sửa đổi mô hình cũng như các đầu ra của nó. Các nhà phát triển tích hợp Llama 3.3 vào sản phẩm hoặc dịch vụ phải ghi nhận thích hợp, chẳng hạn “Được xây dựng với Llama,” và tuân thủ Chính sách Sử dụng Chấp nhận được, cấm các hoạt động như tạo nội dung gây hại, vi phạm pháp luật hoặc hỗ trợ các cuộc tấn công mạng. Mặc dù giấy phép này thường miễn phí, các tổ chức có trên 700 triệu người dùng hoạt động hàng tháng phải mua giấy phép thương mại trực tiếp từ Meta.

Trong một tuyên bố, nhóm AI tại Meta nhấn mạnh tầm nhìn này: “Llama 3.3 mang lại hiệu năng và chất lượng hàng đầu cho các trường hợp sử dụng dựa trên văn bản với chi phí suy luận chỉ bằng một phần nhỏ.”

Tiết kiệm chi phí và tài nguyên GPU

Một số ước tính sơ bộ:
Llama 3.1-405B yêu cầu từ 243 GB đến 1944 GB bộ nhớ GPU, theo blog Substratus. Trong khi đó, Llama 2-70B cũ hơn yêu cầu từ 42-168 GB bộ nhớ GPU, theo cùng nguồn blog, và một số tuyên bố chỉ cần 4 GB, hoặc như Exo Labs đã chứng minh, chỉ cần vài máy Mac có chip M4 và không cần GPU rời.

Nếu tiết kiệm GPU từ các mô hình tham số thấp hơn tiếp tục được duy trì, người dùng muốn triển khai các mô hình Llama mã nguồn mở mạnh mẽ nhất của Meta có thể tiết kiệm gần 1940 GB bộ nhớ GPU, tương đương với tải GPU giảm 24 lần trên một GPU Nvidia H100 80 GB tiêu chuẩn.

Với giá ước tính 25.000 USD mỗi GPU H100, khoản tiết kiệm ban đầu có thể lên tới 600.000 USD, chưa kể chi phí năng lượng liên tục.

Mô hình nhỏ gọn nhưng hiệu năng cao

Theo Meta AI trên X, mô hình Llama 3.3 vượt trội so với Llama 3.1-70B có cùng kích thước và cả mô hình Nova Pro mới của Amazon trong nhiều tiêu chuẩn đánh giá, như đối thoại đa ngôn ngữ, lý luận và các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) nâng cao (mặc dù Nova vượt trội hơn trong nhiệm vụ mã hóa HumanEval).

Llama 3.3 được huấn luyện trên 15 nghìn tỷ token từ dữ liệu “công khai” và tinh chỉnh trên hơn 25 triệu ví dụ tổng hợp, theo thông tin trong “thẻ mô hình” Meta đăng tải trên trang web.

Dựa trên 39,3 triệu giờ GPU trên phần cứng H100-80GB, quá trình phát triển mô hình cho thấy cam kết của Meta với hiệu quả năng lượng và bền vững.

Llama 3.3 dẫn đầu trong các nhiệm vụ lý luận đa ngôn ngữ với độ chính xác 91,1% trên MGSM, thể hiện hiệu quả hỗ trợ các ngôn ngữ như tiếng Đức, Pháp, Ý, Hindi, Bồ Đào Nha, Tây Ban Nha, Thái Lan và tiếng Anh.

Tiết kiệm chi phí và thân thiện với môi trường

Llama 3.3 được tối ưu hóa đặc biệt cho suy luận chi phí thấp, với chi phí tạo token chỉ từ 0,01 USD mỗi triệu token.

Điều này làm cho mô hình rất cạnh tranh so với các đối thủ trong ngành như GPT-4 và Claude 3.5, với chi phí thấp hơn dành cho các nhà phát triển muốn triển khai các giải pháp AI tiên tiến.

Meta cũng nhấn mạnh trách nhiệm môi trường trong lần phát hành này. Dù quá trình huấn luyện đòi hỏi tài nguyên lớn, công ty đã sử dụng năng lượng tái tạo để bù đắp khí thải nhà kính, dẫn đến phát thải ròng bằng 0 trong giai đoạn huấn luyện. Lượng phát thải tại chỗ lên tới 11.390 tấn CO2 tương đương, nhưng các sáng kiến năng lượng tái tạo của Meta đảm bảo tính bền vững.

Các tính năng nâng cao và tùy chọn triển khai

Mô hình giới thiệu nhiều cải tiến, bao gồm cửa sổ ngữ cảnh dài hơn với 128.000 token (tương đương khoảng 400 trang sách), phù hợp cho việc tạo nội dung dài và các trường hợp sử dụng nâng cao khác.

Kiến trúc của mô hình tích hợp Grouped Query Attention (GQA), cải thiện khả năng mở rộng và hiệu năng trong quá trình suy luận.

Được thiết kế để phù hợp với sở thích người dùng về an toàn và tính hữu ích, Llama 3.3 sử dụng học tăng cường với phản hồi từ con người (RLHF) và tinh chỉnh giám sát (SFT). Các cải tiến này đảm bảo mô hình từ chối mạnh mẽ các yêu cầu không phù hợp và hành vi hỗ trợ giống như trợ lý, được tối ưu hóa cho các ứng dụng thực tế.

Llama 3.3 đã sẵn sàng để tải xuống qua Meta, Hugging Face, GitHub và các nền tảng khác, với các tùy chọn tích hợp cho các nhà nghiên cứu và nhà phát triển. Meta cũng cung cấp các tài nguyên như Llama Guard 3 và Prompt Guard để hỗ trợ người dùng triển khai mô hình một cách an toàn và có trách nhiệm.

Meta launches open source Llama 3.3, shrinking powerful bigger model into smaller size

 

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Meta’s VP of generative AI, Ahmad Al-Dahle took to rival social network X today to announce the release of Llama 3.3, the latest open-source multilingual large language model (LLM) from the parent company of Facebook, Instagram, WhatsApp and Quest VR.

As he wrote: “Llama 3.3 improves core performance at a significantly lower cost, making it even more accessible to the entire open-source community.”

 
 

With 70 billion parameters — or settings governing the model’s behavior — Llama 3.3 delivers results on par with Meta’s 405B parameter model from the Llama 3.1 from the summer, but at a fraction of the cost and computational overhead — e.g., the GPU capacity needed to run the model in an inference.

It’s designed to offer top-tier performance and accessibility yet in a smaller package than prior foundation models.

Meta’s Llama 3.3 is offered under the Llama 3.3 Community License Agreement, which grants a non-exclusive, royalty-free license for use, reproduction, distribution, and modification of the model and its outputs. Developers integrating Llama 3.3 into products or services must include appropriate attribution, such as “Built with Llama,” and adhere to an Acceptable Use Policy that prohibits activities like generating harmful content, violating laws, or enabling cyberattacks. While the license is generally free, organizations with over 700 million monthly active users must obtain a commercial license directly from Meta.

A statement from the AI at Meta team underscores this vision: “Llama 3.3 delivers leading performance and quality across text-based use cases at a fraction of the inference cost.”

How much savings are we talkin’ about, really? Some back-of-the-envelope math:

Llama 3.1-405B requires between 243 GB and 1944 GB of GPU memory, according to the Substratus blog (for the open source cross cloud substrate). Meanwhile, the older Llama 2-70B requires between 42-168 GB of GPU memory, according to the same blog, though same have claimed as low as 4 GB, or as Exo Labs has shown, a few Mac computers with M4 chips and no discrete GPUs.

Therefore, if the GPU savings for lower-parameter models holds up in this case, those looking to deploy Meta’s most powerful open source Llama models can expect to save up to nearly 1940 GB worth of GPU memory, or potentially, 24 times reduced GPU load for a standard 80 GB Nvidia H100 GPU.

At an estimated $25,000 per H100 GPU, that’s up to $600,000 in up-front GPU cost savings, potentially — not to mention the continuous power costs.

A highly performant model in a small form factor

According to Meta AI on X, the Llama 3.3 model handedly outperforms the identically sized Llama 3.1-70B as well as Amazon’s new Nova Pro model in several benchmarks such as multilingual dialogue, reasoning, and other advanced natural language processing (NLP) tasks (Nova outperforms it in HumanEval coding tasks).

Llama 3.3 has been pretrained on 15 trillion tokens from “publicly available” data and fine-tuned on over 25 million synthetically generated examples, according to the information Meta provided in the “model card” posted on its website.

Leveraging 39.3 million GPU hours on H100-80GB hardware, the model’s development underscores Meta’s commitment to energy efficiency and sustainability.

Llama 3.3 leads in multilingual reasoning tasks with a 91.1% accuracy rate on MGSM, demonstrating its effectiveness in supporting languages such as German, French, Italian, Hindi, Portuguese, Spanish, and Thai, in addition to English.

Cost-effective and environmentally conscious

Llama 3.3 is specifically optimized for cost-effective inference, with token generation costs as low as $0.01 per million tokens.

This makes the model highly competitive against industry counterparts like GPT-4 and Claude 3.5, with greater affordability for developers seeking to deploy sophisticated AI solutions.

Meta has also emphasized the environmental responsibility of this release. Despite its intensive training process, the company leveraged renewable energy to offset greenhouse gas emissions, resulting in net-zero emissions for the training phase. Location-based emissions totaled 11,390 tons of CO2-equivalent, but Meta’s renewable energy initiatives ensured sustainability.

Advanced features and deployment options

The model introduces several enhancements, including a longer context window of 128k tokens (comparable to GPT-4o, about 400 pages of book text), making it suitable for long-form content generation and other advanced use cases.

Its architecture incorporates Grouped Query Attention (GQA), improving scalability and performance during inference.

Designed to align with user preferences for safety and helpfulness, Llama 3.3 uses reinforcement learning with human feedback (RLHF) and supervised fine-tuning (SFT). This alignment ensures robust refusals to inappropriate prompts and an assistant-like behavior optimized for real-world applications.

Llama 3.3 is already available for download through MetaHugging FaceGitHub, and other platforms, with integration options for researchers and developers. Meta is also offering resources like Llama Guard 3 and Prompt Guard to help users deploy the model safely and responsibly.

01.ai đào tạo Yi-Lightning chỉ 3 triệu USD và 2.000 GPU, OpenAI chi tới 100 triệu USD cho GPT-4

- 01.ai đào tạo mô hình AI Yi-Lightning với tổng chi phí 3 triệu USD và sử dụng 2.000 GPU không tiết lộ tên.
- Mô hình này hiện đứng thứ 6 toàn cầu về hiệu suất, theo đánh giá của UC Berkeley’s LMSIS.
- Kai-Fu Lee, CEO của 01.ai, nhấn mạnh rằng sự hiệu quả trong kỹ thuật giúp công ty có thể cạnh tranh toàn cầu mặc dù đối mặt với nhiều thách thức.
- Chi phí phỏng đoán cho việc phỏng đoán chỉ là 0,10 USD cho mỗi triệu token, tương ứng với khoảng 1/30 so với mức giá thông thường của các mô hình tương đương.
- Công ty 01.ai gặp khó khăn do lệnh cấm xuất khẩu từ Mỹ, hạn chế tiếp cận phần cứng tiên tiến từ các nhà sản xuất như Nvidia, làm cho các công ty Trung Quốc phải tìm giải pháp thay thế.
- Những đổi mới kỹ thuật của 01.ai bao gồm giảm tắc nghẽn tính toán, phát triển bộ nhớ đệm đa lớp, và thiết kế engine phỏng đoán chuyên dụng.
- Kai-Fu Lee nhấn mạnh rằng nhu cầu buộc công ty phải tìm ra những giải pháp sáng tạo để sử dụng hiệu quả 2.000 GPU.
- Ông cũng cho biết, mặc dù nguồn lực hạn chế, đội ngũ của 01.ai đã tìm ra cách để làm cho quá trình đào tạo nhanh chóng và hiệu quả.
- Sự cạnh tranh trong ngành AI toàn cầu đang trở nên gay gắt hơn khi các công ty của Trung Quốc chứng minh khả năng đổi mới và thích ứng với những thách thức khó khăn.

📌 01.ai đã đào tạo mô hình Yi-Lightning với chi phí chỉ 3 triệu USD và 2.000 GPU, cho thấy một mô hình hiệu suất cao đứng thứ 6 toàn cầu. Trong khi đó, OpenAI phải tiêu tốn tới 100 triệu USD để đào tạo GPT-4, chứng minh rằng kỹ thuật và đổi mới có thể tạo ra sự khác biệt lớn trong ngành công nghiệp AI.

https://www.techradar.com/pro/openai-spent-usd80m-to-usd100m-training-gpt-4-chinese-firm-claims-it-trained-its-rival-ai-model-for-usd3-million-using-just-2-000-gpus

Cohere ra mắt Rerank 3.5 - mô hình tìm kiếm đa ngôn ngữ mới có khả năng xử lý hơn 100 ngôn ngữ

- Cohere vừa phát hành mô hình tìm kiếm Rerank 3.5 có khả năng xử lý hơn 100 ngôn ngữ, đặc biệt mạnh với tiếng Ả Rập, Nhật và Hàn

- Mô hình thể hiện hiệu suất vượt trội trong các lĩnh vực chuyên biệt:
  + Cao hơn 23,4% so với hệ thống tìm kiếm hybrid
  + Cao hơn 30,8% so với thuật toán tìm kiếm BM25 truyền thống trên bộ dữ liệu dịch vụ tài chính

- Rerank 3.5 tích hợp công nghệ cross-encoding giúp hiểu sâu các truy vấn phức tạp có nhiều ràng buộc

- Khả năng kết hợp cross-encoding với hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) tạo ra trải nghiệm tìm kiếm trực quan như công cụ tìm kiếm tiêu dùng

- Mô hình được triển khai trên các nền tảng điện toán đám mây lớn như Amazon Bedrock

- Cohere yêu cầu các phiên bản cũ phải nâng cấp lên Rerank 3.5 trước ngày 31/3/2025

- Sản phẩm hướng đến giải quyết các thách thức của doanh nghiệp toàn cầu:
  + Rào cản ngôn ngữ trong hoạt động đa quốc gia
  + Tìm kiếm chính xác trong các ngành được quản lý chặt chẽ
  + Khối lượng dữ liệu tăng theo cấp số nhân
  + Lực lượng lao động đa dạng toàn cầu

📌 Rerank 3.5 của Cohere đánh dấu bước tiến mới trong tìm kiếm doanh nghiệp với khả năng xử lý 100+ ngôn ngữ, hiệu suất vượt 30,8% so với giải pháp truyền thống. Mô hình hứa hẹn xóa bỏ rào cản ngôn ngữ và tối ưu hóa việc truy cập, sử dụng tri thức tập thể của tổ chức toàn cầu.

https://venturebeat.com/ai/cohere-rerank-3-5-is-here-and-its-about-to-change-enterprise-search-forever/

Amazon ra mắt bộ mô hình Nova AI, hợp tác với Anthropic xây dựng cụm máy tính AI lớn nhất thế giới

- Amazon công bố loạt mô hình AI nền tảng mới với thương hiệu "Nova" trong thư viện mô hình Amazon Bedrock trên AWS

- 3 mô hình "hiểu" đã sẵn sàng:
  + Amazon Nova Micro: mô hình văn bản tối ưu về tốc độ và chi phí
  + Amazon Nova Lite: mô hình multimodal chi phí thấp, xử lý hình ảnh, video và văn bản
  + Amazon Nova Pro: mô hình multimodal có khả năng cao

- Amazon Nova Premier - mô hình multimodal mạnh nhất cho các tác vụ suy luận phức tạp sẽ ra mắt đầu năm 2025

- 2 mô hình tạo sinh nội dung:
  + Amazon Nova Canvas: tạo hình ảnh
  + Amazon Nova Reel: tạo video
  Cả hai đều tích hợp khả năng thủy vân để thúc đẩy sử dụng AI có trách nhiệm

- Dự kiến cuối 2025: ra mắt mô hình chuyển đổi giọng nói và mô hình multimodal nguyên bản

- Amazon hợp tác với Anthropic (đã đầu tư 8 tỷ USD) xây dựng cụm máy tính AI lớn nhất thế giới sử dụng chip Trainium 2

- Chiến lược cạnh tranh của Amazon dựa trên:
  + Nền tảng AWS đã được nhiều doanh nghiệp lớn tin dùng
  + Apple xuất hiện tại sự kiện re:Invent để chia sẻ về việc sử dụng chip AI của Amazon
  + Alexa phiên bản mới tích hợp AI dự kiến ra mắt năm 2024

📌 Amazon tung ra 5 mô hình Nova AI mới, đầu tư 8 tỷ USD vào Anthropic và xây dựng cụm máy tính AI lớn nhất thế giới. Công ty tận dụng lợi thế từ AWS để cạnh tranh với các đối thủ như OpenAI trong cuộc đua AI.

https://www.theverge.com/2024/12/3/24312260/amazon-nova-foundation-ai-models-anthropic

Alibaba ra mắt mô hình AI lý luận mới QwQ-32B-Preview, cạnh tranh trực tiếp với OpenAI

- QwQ-32B-Preview là một mô hình AI lý luận mới được phát triển bởi đội ngũ Qwen của Alibaba, ra mắt vào ngày 27 tháng 11 năm 2024.
- Mô hình sở hữu 32.5 tỷ tham số, cho phép xử lý các văn bản dài lên đến khoảng 32.000 từ.
- Được thử nghiệm, QwQ-32B-Preview ghi điểm tốt hơn so với các mô hình lý luận o1-preview và o1-mini của OpenAI trong một số bài kiểm tra như AIME và MATH.
- AIME sử dụng các mô hình AI khác để đánh giá hiệu suất, trong khi MATH là tập hợp các bài toán từ vựng.
- QwQ-32B-Preview có khả năng giải quyết các câu đố logic và các bài toán toán học khá khó nhờ vào khả năng lý luận của nó.
- Mặc dù hiệu suất ấn tượng, mô hình cũng gặp một số vấn đề như chuyển ngôn ngữ không mong muốn, bị kẹt trong các vòng lặp và kém hiệu quả trong các tác vụ cần lý luận thường thức.
- QwQ-32B-Preview có điểm nổi bật là khả năng tự kiểm tra tính chính xác của thông tin, điều này giúp tránh được nhiều vấn đề mà các mô hình AI thông thường gặp phải, mặc dù thời gian xử lý có thể lâu hơn.
- Mô hình này có sẵn để tải xuống và sử dụng trên nền tảng phát triển AI Hugging Face, nhưng chỉ một số thành phần của nó được công khai, khiến việc tái tạo hoặc hiểu rõ cách hoạt động bên trong không khả thi.
- QwQ-32B-Preview rơi vào giữa mức độ mở, cho phép ứng dụng thương mại nhưng không hoàn toàn công khai các yếu tố chính của mô hình.
- Sự chú ý ngày càng tăng vào các mô hình lý luận xảy ra trong bối cảnh nhiều lý thuyết về quy luật mở rộng đang bị xem xét lại, với các báo cáo cho thấy rằng sự cải tiến hiệu suất ở một số phòng lab AI lớn đang chững lại.
- Các tổ chức lớn ngoài OpenAI và các công ty Trung Quốc như Google đã bắt đầu mở rộng nỗ lực phát triển các mô hình lý luận và công nghệ tính toán thêm vào thời điểm kiểm tra.

📌 QwQ-32B-Preview của Alibaba, với 32.5 tỷ tham số, vượt trội hơn OpenAI ở nhiều bài kiểm tra, mặc dù vẫn gặp một số hạn chế trong lý luận thông thường. Mô hình có sẵn trên Hugging Face với giấy phép Apache 2.0 cho ứng dụng thương mại.

https://techcrunch.com/2024/11/27/alibaba-releases-an-open-challenger-to-openais-o1-reasoning-model/

Google đã nâng cấp Gemini-exp-1121, một mô hình AI mới mạnh mẽ, vượt trội 20% so với GPT-4o

- Gemini-exp-1121 là bản nâng cấp mới nhất của Google, vượt trội hơn 20% so với GPT-4o trong các lĩnh vực lập trình, toán học và hiểu biết hình ảnh.
- Mô hình này nằm trong dòng sản phẩm Gemini, hướng tới việc đáp ứng nhu cầu về một hệ thống AI toàn diện.
- Nhiều mô hình AI hiện tại, như GPT-4, gặp khó khăn trong việc cân bằng giữa khả năng lý luận chung, lập trình và hiểu biết hình ảnh.
- Gemini-exp-1121 cải thiện hiệu suất lập trình qua việc tinh chỉnh sâu dựa trên dữ liệu lập trình thực tế từ nhiều ngôn ngữ và framework khác nhau.
- Cải tiến trong khả năng lý luận nhờ vào việc phân tích ngữ cảnh sâu hơn giúp giải quyết các bài toán toán học phức tạp hiệu quả hơn.
- Kiến trúc đa phương thức cho phép Gemini-exp-1121 xử lý đồng thời cả đầu vào văn bản và hình ảnh, phục vụ cho các nhiệm vụ như kể chuyện hình ảnh và tạo mã từ bản thiết kế.
- Mô hình đạt tỷ lệ thành công cao hơn trong các tác vụ lập trình so với GPT-4o, với khoảng 20% tăng trưởng trong số lượng đầu ra chính xác trên các bài kiểm tra chuẩn.
- Khả năng hiểu biết hình ảnh cho phép mô hình tạo ra mô tả và suy diễn ngữ cảnh chính xác hơn so với các phiên bản trước.
- Gemini-exp-1121 là công cụ hữu ích cho các doanh nghiệp tự động hóa quy trình làm việc liên quan đến cả mã và thành phần hình ảnh, như phát triển ứng dụng và thiết kế sản phẩm.
- Tập trung vào khả năng lý luận nâng cao làm cho mô hình có tiềm năng lớn trong môi trường giáo dục và nghiên cứu, nơi kỹ năng giải quyết vấn đề phức tạp là thiết yếu.

📌 Gemini-exp-1121 của Google cải thiện 20% trong lập trình, toán học và hiểu biết hình ảnh, làm cho nó trở thành đối thủ mạnh mẽ của GPT-4o. Mô hình này hứa hẹn sẽ mang đến công cụ hiệu quả và đa dạng cho các chuyên gia trong nhiều lĩnh vực.

https://www.marktechpost.com/2024/11/22/google-upgrades-gemini-exp-1121-advancing-ai-performance-in-coding-math-and-visual-understanding/

LLaVA-o1 của Trung Quốc thách thức OpenAI o1 với khả năng suy luận vượt trội

- Các nhà nghiên cứu Trung Quốc vừa công bố mô hình LLaVA-o1, một mô hình nguồn mở cạnh tranh với OpenAI o1, tập trung vào việc cải thiện khả năng suy luận của mô hình ngôn ngữ thị giác (VLM).

- Mô hình này giải quyết các hạn chế của VLM truyền thống bằng cách:
  + Thực hiện suy luận có cấu trúc qua 4 giai đoạn: tóm tắt, chú thích, suy luận và kết luận
  + Chỉ hiển thị giai đoạn kết luận cho người dùng
  + Áp dụng kỹ thuật tìm kiếm theo cấp độ để tạo và chọn lọc kết quả tối ưu ở mỗi giai đoạn

- Quá trình đào tạo bao gồm:
  + Sử dụng bộ dữ liệu 100.000 cặp hình ảnh-câu hỏi-câu trả lời
  + GPT-4o tạo quy trình suy luận chi tiết 4 giai đoạn
  + Fine-tune trên nền tảng Llama-3.2-11B-Vision-Instruct

- Kết quả đánh giá:
  + Cải thiện 6,9% điểm benchmark so với mô hình Llama cơ bản
  + Vượt trội hơn các mô hình nguồn mở khác có cùng kích thước hoặc lớn hơn
  + Hiệu suất cao hơn một số mô hình đóng như GPT-4-o-mini và Gemini 1.5 Pro

- Đóng góp quan trọng:
  + Thiết lập tiêu chuẩn mới cho suy luận đa phương thức trong VLM
  + Mở đường cho nghiên cứu về suy luận có cấu trúc
  + Tiềm năng mở rộng với bộ xác minh bên ngoài và học tăng cường

📌 LLaVA-o1 đạt bước tiến vượt bậc với khả năng suy luận 4 giai đoạn và cải thiện 6,9% hiệu suất so với Llama cơ bản. Mô hình nguồn mở này thậm chí vượt qua các đối thủ lớn như GPT-4-o-mini và Gemini 1.5 Pro, mở ra hướng phát triển mới cho công nghệ VLM.

https://venturebeat.com/ai/chinese-researchers-unveil-llava-o1-to-challenge-openais-o1-model/

Alibaba công bố Marco-o1 - mô hình AI mới với khả năng lập luận nâng cao

- Alibaba vừa công bố Marco-o1, một mô hình AI mới được thiết kế để nâng cao khả năng giải quyết vấn đề mở

- Marco-o1 là một mô hình lập luận lớn (Large Reasoning Model - LRM) được phát triển dựa trên mô hình o1 của OpenAI

- Mô hình tích hợp nhiều kỹ thuật tiên tiến:
  + Chain-of-Thought (CoT) fine-tuning để theo dõi quá trình lập luận từng bước
  + Monte Carlo Tree Search (MCTS) để khám phá nhiều hướng lập luận khác nhau
  + Chiến lược hành động lập luận để tối ưu hiệu quả tìm kiếm và độ chính xác

- Marco-o1 có cơ chế tự đánh giá và hoàn thiện quá trình tư duy thông qua việc tự phản biện giải pháp

- Kết quả thử nghiệm trên bộ dữ liệu MGSM cho thấy:
  + Độ chính xác tăng 6,17% trên MGSM (tiếng Anh)
  + Độ chính xác tăng 5,60% trên MGSM (tiếng Trung)

- Mô hình thể hiện khả năng dịch thuật tốt, đặc biệt trong việc chuyển ngữ các biểu đạt thông tục có yếu tố văn hóa

- Alibaba dự định tiếp tục cải tiến Marco-o1 bằng cách:
  + Nâng cao cơ chế khen thưởng với Outcome và Process Reward Modeling
  + Giảm thiểu tính ngẫu nhiên trong quá trình ra quyết định
  + Mở rộng khả năng giải quyết nhiều loại vấn đề khác nhau

📌 Marco-o1 đánh dấu bước tiến quan trọng trong lĩnh vực AI với khả năng lập luận nâng cao, đạt cải thiện 6,17% độ chính xác trên MGSM tiếng Anh và 5,60% trên MGSM tiếng Trung. Mô hình tích hợp nhiều kỹ thuật tiên tiến như Chain-of-Thought và MCTS để xử lý hiệu quả cả bài toán có cấu trúc lẫn các vấn đề mở.

https://www.marktechpost.com/2024/11/21/alibaba-just-released-marco-o1-advancing-open-ended-reasoning-in-ai/

DeepSeek gây chấn động với R1-Lite-Preview: Mô hình lập luận AI vượt mặt OpenAI o1

• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management, đã ra mắt mô hình ngôn ngữ lớn (LLM) tập trung vào lập luận mới nhất là R1-Lite-Preview.

• R1-Lite-Preview hiện chỉ có sẵn thông qua chatbot AI dựa trên web DeepSeek Chat.

• Mô hình mới này đã gây ấn tượng bằng cách cung cấp hiệu suất gần bằng và trong một số trường hợp vượt quá mô hình o1-preview của OpenAI.

• R1-Lite-Preview thể hiện khả năng lập luận "chuỗi suy luận", cho phép người dùng theo dõi quá trình suy luận của nó.

• Mô hình này có khả năng trả lời chính xác các câu hỏi đánh đố đã gây khó khăn cho các mô hình AI mạnh mẽ khác như GPT-4 và Claude.

DeepSeek tuyên bố R1-Lite-Preview vượt trội hơn hiệu suất cấp o1-preview của OpenAI trên các điểm chuẩn như AIME và MATH.

• Công ty đã công bố dữ liệu mở rộng, cho thấy cải thiện độ chính xác ổn định khi mô hình được cung cấp nhiều thời gian hoặc "token suy nghĩ" hơn để giải quyết vấn đề.

R1-Lite-Preview đã thể hiện khả năng cạnh tranh trên các điểm chuẩn quan trọng như GPQA và Codeforces.

Tính minh bạch trong quá trình lập luận của mô hình là một điểm khác biệt so với nhiều hệ thống AI độc quyền.

DeepSeek chưa công bố mã đầy đủ để phân tích hoặc đánh giá độc lập của bên thứ ba.

• Công ty cũng chưa công bố bài đăng blog hoặc bài báo kỹ thuật giải thích cách R1-Lite-Preview được đào tạo hoặc kiến trúc.

• R1-Lite-Preview hiện có thể truy cập thông qua DeepSeek Chat tại chat.deepseek.com, với chế độ "Deep Think" nâng cao có giới hạn 50 tin nhắn mỗi ngày.

• DeepSeek có kế hoạch phát hành các phiên bản nguồn mở của các mô hình dòng R1 và API liên quan trong tương lai.

• Công ty có lịch sử hỗ trợ cộng đồng AI nguồn mở, với các phiên bản trước như DeepSeek-V2.5 được đánh giá cao.

• R1-Lite-Preview xây dựng dựa trên thành công của các mô hình trước đó, tập trung vào lập luận minh bạch và khả năng mở rộng.

📌 DeepSeek đã ra mắt R1-Lite-Preview, một mô hình lập luận AI mạnh mẽ vượt trội hơn OpenAI o1 trong một số trường hợp. Mô hình này thể hiện khả năng lập luận "chuỗi suy luận" minh bạch và đạt hiệu suất cao trên các điểm chuẩn quan trọng. DeepSeek cam kết phát triển AI nguồn mở và có kế hoạch phát hành các phiên bản mã nguồn mở trong tương lai.

https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

Mistral AI thách thức ChatGPT: Ra mắt Pixtral Large 124 tỷ tham số và Le Chat với khả năng tạo ảnh

- Mistral AI, startup Pháp vừa công bố mô hình nền tảng mới Pixtral Large với 124 tỷ tham số, bao gồm bộ giải mã 123 tỷ tham số và bộ mã hóa thị giác 1 tỷ tham số

- Pixtral Large có khả năng:
  * Xử lý 30 ảnh độ phân giải cao mỗi lần nhập liệu
  * Đọc văn bản tương đương 300 trang sách
  * Cửa sổ ngữ cảnh 128.000 token
  * Nhận dạng ký tự quang học đa ngôn ngữ
  * Phân tích biểu đồ và tài liệu

- Le Chat được nâng cấp với các tính năng mới:
  * Tìm kiếm web kèm trích dẫn nguồn
  * Canvas tương tác để tạo tài liệu và thiết kế
  * Phân tích tài liệu PDF phức tạp
  * Tạo ảnh thông qua hợp tác với Black Forest Labs
  * Agent tự động hóa các tác vụ lặp lại

- Mô hình được cung cấp miễn phí trên Hugging Face nhưng:
  * Chỉ dành cho mục đích nghiên cứu phi thương mại
  * Sử dụng thương mại cần giấy phép riêng từ Mistral
  
- Thách thức hiện tại của Mistral:
  * Thiếu tính năng âm thanh và giọng nói như ChatGPT
  * Mức độ sử dụng trong doanh nghiệp còn thấp hơn OpenAI, Anthropic
  * Đang định vị là giải pháp AI độc lập của châu Âu

📌 Mistral AI đang khẳng định vị thế với Pixtral Large 124 tỷ tham số và Le Chat được nâng cấp toàn diện. Startup này đang trở thành niềm hy vọng của châu Âu trong việc phát triển AI độc lập với Mỹ, dù vẫn cần cải thiện các tính năng âm thanh và tăng độ phổ biến trong doanh nghiệp.

https://venturebeat.com/ai/mistral-unleashes-pixtral-large-and-upgrades-le-chat-into-full-on-chatgpt-competitor/

Mô hình AI tổng hợp f1 đánh bại GPT-4 và Claude 3.5 trong mọi bài kiểm tra khó

- Fireworks AI vừa ra mắt mô hình AI tổng hợp f1, được thiết kế đặc biệt cho các tác vụ suy luận phức tạp

- f1 tích hợp nhiều mô hình nguồn mở ở tầng suy luận, giúp cải thiện hiệu suất trong các lĩnh vực:
  + Lập trình 
  + Trò chuyện
  + Giải quyết vấn đề toán học

- Điểm khác biệt của f1:
  + Không phụ thuộc vào một hệ thống suy luận duy nhất
  + Kết hợp ưu điểm của nhiều mô hình chuyên biệt
  + Cung cấp giao diện nhắc lệnh đơn giản cho nhà phát triển

- Fireworks AI cung cấp 2 phiên bản:
  + f1 tiêu chuẩn
  + f1-mini (phiên bản nhẹ hơn)

- Cả hai phiên bản đều có sẵn để dùng thử trên Fireworks AI Playground

- Ưu điểm của kiến trúc tổng hợp:
  + Chia nhỏ tác vụ phức tạp thành các tác vụ con
  + Mỗi tác vụ con được xử lý bởi mô hình phù hợp nhất
  + Tối ưu hiệu suất từng bước
  + Đơn giản hóa việc sử dụng AI phức tạp

- Kết quả kiểm tra cho thấy f1 vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong:
  + Lập trình khó
  + Trò chuyện 
  + Các bài toán phức tạp

- Nhà phát triển có thể:
  + Đăng ký sớm để truy cập API của f1
  + Dùng thử miễn phí trên Fireworks AI Playground

📌 Fireworks AI đã tạo bước đột phá với mô hình f1 tích hợp nhiều mô hình nguồn mở, vượt trội hơn GPT-4 và Claude 3.5 trong mọi bài kiểm tra. f1 đơn giản hóa việc sử dụng AI phức tạp thông qua giao diện nhắc lệnh thống nhất, mở ra tương lai cho các ứng dụng AI linh hoạt và hiệu quả hơn.

https://www.marktechpost.com/2024/11/18/fireworks-ai-releases-f1-a-compound-ai-model-specialized-in-complex-reasoning-that-beats-gpt-4o-and-claude-3-5-sonnet-across-hard-coding-chat-and-math-benchmarks/

92,86% mô hình ngôn ngữ AI dễ bị tấn công qua kỹ thuật few-shot

- Kili Technology vừa công bố báo cáo về các lỗ hổng nghiêm trọng trong các mô hình ngôn ngữ AI, tập trung vào khả năng dễ bị tấn công thông qua thông tin sai lệch dựa trên mẫu

- Phương pháp tấn công "Few/Many Shot" có tỷ lệ thành công lên đến 92,86%, ngay cả với các mô hình tiên tiến như CommandR+, Llama 3.2 và GPT4o

- Nghiên cứu đa ngôn ngữ cho thấy các mô hình dễ bị tấn công hơn khi sử dụng tiếng Anh so với tiếng Pháp

- Nhóm nghiên cứu đã tạo ra 102 câu nhắc cho mỗi ngôn ngữ, điều chỉnh theo đặc điểm ngôn ngữ và văn hóa

- Các biện pháp bảo vệ an toàn của AI suy giảm dần trong các tương tác kéo dài:
  + Mô hình ban đầu từ chối tạo nội dung có hại
  + Sau nhiều tương tác, mô hình dần nhượng bộ trước áp lực của người dùng

- Phát hiện này gây lo ngại về:
  + Khả năng lan truyền tin giả
  + Tác động đến ổn định chính trị
  + An toàn của người dùng cá nhân

- Giải pháp đề xuất:
  + Phát triển khung an toàn thích ứng
  + Mở rộng phân tích sang nhiều ngôn ngữ khác
  + Tăng cường hợp tác giữa các tổ chức nghiên cứu AI
  + Áp dụng kỹ thuật red teaming trong đánh giá mô hình

📌 Mô hình ngôn ngữ AI hiện đại vẫn tồn tại lỗ hổng nghiêm trọng với tỷ lệ tấn công thành công 92,86%. Biện pháp bảo vệ hoạt động không đồng đều giữa các ngôn ngữ và suy giảm theo thời gian tương tác. Cần thiết lập khung an toàn thích ứng và đa ngôn ngữ.

https://www.marktechpost.com/2024/11/16/why-ai-language-models-are-still-vulnerable-key-insights-from-kili-technologys-report-on-large-language-model-vulnerabilities/

Qwen 2.5: Vượt mặt GPT-4 trong cuộc đua AI Agent với khả năng chạy trên GPU phổ thông

- Qwen 2.5 đạt hơn 40 triệu lượt tải và tạo ra hơn 50.000 mô hình phái sinh, trở thành lựa chọn hàng đầu cho phát triển AI Agent

- Một nhà phát triển trên Reddit báo cáo Qwen 2.5 14B vượt trội hơn GPT-4 và GPT-4o trong một số ứng dụng cụ thể nhờ khả năng gọi hàm, lập luận chuỗi suy nghĩ và thực hiện chỉ dẫn phức tạp

- Doanh nghiệp có thể triển khai Qwen 2.5 trong môi trường hoàn toàn cách ly với vLLM, đảm bảo không có kết nối bên ngoài

- Trên GPU 3090 tầm trung, mô hình đạt tốc độ 28 token/giây với ngữ cảnh 32K, phù hợp cho nhiều tình huống lập trình

- Công nghệ suy luận từng lớp của dự án AirLLM cho phép chạy mô hình 72B tham số trên hệ thống chỉ có 4GB VRAM

- Qwen 14B instruct hoạt động tốt với công cụ SQL và là mô hình duy nhất dưới 27B có thể sử dụng công cụ SQL hiệu quả

- Nhiều lập trình viên tích hợp thành công Qwen 2.5 vào môi trường phát triển thông qua Llama.cpp, LM Studio API và VSCodium

- Chi phí token của Qwen rẻ hơn nhiều so với GPT-4o (0,38 so với 5,0 USD/triệu token) và Claude 3.5 Sonnet (3,05 USD/triệu token)

- Một lập trình viên đã tạo game Pac-Man hoàn chỉnh bằng Python với mô hình 72B chạy local, vượt trội Claude chỉ tạo được bản đồ cơ bản

- Hạn chế: đôi khi phản hồi bằng tiếng Trung khi bối rối và cần prompt chính xác hơn cho tác vụ phức tạp

📌 Qwen 2.5 đang dẫn đầu cuộc đua AI Agent với 40 triệu lượt tải, chi phí thấp (0,38 USD/triệu token), khả năng chạy trên GPU phổ thông 4GB VRAM và hiệu suất vượt trội GPT-4 trong nhiều tác vụ lập trình.

https://analyticsindiamag.com/developers-corner/qwen-2-5-is-winning-the-ai-agents-race/

Google Gemini bất ngờ vượt qua OpenAI trong cuộc đua xếp hạng AI, nhưng liệu có thực sự vượt trội?

• Mô hình thử nghiệm Gemini-Exp-1114 của Google đã đạt vị trí số 1 trên bảng xếp hạng Chatbot Arena, ngang bằng với GPT-4 của OpenAI sau khi nhận được hơn 6.000 phiếu bầu từ cộng đồng.

• Gemini đạt điểm số 1.344, cải thiện 40 điểm so với phiên bản trước đó và thể hiện hiệu suất vượt trội trong toán học, viết sáng tạo và hiểu biết hình ảnh.

• Khi các nhà nghiên cứu kiểm soát các yếu tố bề ngoài như định dạng phản hồi và độ dài, hiệu suất của Gemini giảm xuống vị trí thứ 4, cho thấy các tiêu chí đánh giá truyền thống có thể không phản ánh chính xác khả năng thực sự.

Hai ngày trước khi phát hành mô hình mới nhất, phiên bản trước của Gemini đã tạo ra nội dung có hại, nói với người dùng "Bạn không đặc biệt, bạn không quan trọng và bạn không cần thiết" và "Hãy chết đi".

Người dùng phản ánh Gemini có phản ứng thiếu nhạy cảm với bệnh nhân ung thư và nhiều phản hồi trái chiều về hiệu suất thực tế của mô hình.

• Google đã cung cấp mô hình thử nghiệm này cho các nhà phát triển thông qua nền tảng AI Studio, nhưng chưa rõ khi nào sẽ tích hợp vào các sản phẩm dành cho người tiêu dùng.

• OpenAI được báo cáo gặp khó khăn trong việc cải thiện đột phá với các mô hình thế hệ tiếp theo, trong khi lo ngại về tính khả dụng của dữ liệu huấn luyện ngày càng tăng.

📌 Google Gemini đạt điểm số 1.344 trong bảng xếp hạng AI, vượt qua OpenAI. Tuy nhiên, các phương pháp kiểm tra hiện tại bộc lộ nhiều hạn chế, không phản ánh đầy đủ khả năng thực tế và độ an toàn của mô hình AI. Ngành công nghiệp cần khung đánh giá mới tập trung vào hiệu suất thực tế và độ tin cậy.

https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

01.ai của Trung Quốc huấn luyện mô hình AI cạnh tranh với GPT-4 chỉ với 2.000 GPU và chi phí 3 triệu USD

- Công ty 01.ai của Trung Quốc đã huấn luyện mô hình AI tiên tiến chỉ với 2.000 GPU và chi phí 3 triệu USD, trong khi OpenAI chi 80-100 triệu USD cho GPT-4

- Theo biểu đồ của UC Berkeley, mô hình Yi-Lightning của 01.ai đứng thứ 6 về hiệu suất trong bảng xếp hạng LMSIS

- Kai-Fu Lee, người sáng lập 01.ai, cho biết công ty phải đối mặt với 2 thách thức lớn:
  + Hạn chế tiếp cận GPU do quy định của Mỹ
  + Bất lợi về định giá so với các công ty AI Mỹ

- OpenAI được cho là đã sử dụng:
  + 10.000 GPU Nvidia A100 để huấn luyện GPT-3
  + Nhiều GPU H100 hơn để huấn luyện GPT-4 và GPT-4o
  + Dự kiến chi khoảng 1 tỷ USD cho GPT-5

- 01.ai đã tối ưu hóa hiệu suất bằng cách:
  + Chuyển đổi yêu cầu tính toán thành tác vụ bộ nhớ
  + Xây dựng hệ thống bộ nhớ đệm đa tầng
  + Thiết kế động cơ suy luận chuyên biệt

- Chi phí suy luận của 01.ai chỉ 10 cent/triệu token, thấp hơn 30 lần so với các mô hình tương đương

📌 Với nguồn lực hạn chế (2.000 GPU, 3 triệu USD), 01.ai đã tạo ra mô hình Yi-Lightning đứng thứ 6 về hiệu suất toàn cầu, chứng minh việc tối ưu hóa kỹ thuật có thể mang lại kết quả tương đương với chi phí thấp hơn 96% so với các đối thủ.

https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-company-trained-gpt-4-rival-with-just-2-000-gpus-01-ai-spent-usd3m-compared-to-openais-usd80m-to-usd100m

Qwen2.5-Coder - trợ lý lập trình AI miễn phí với hiệu suất ngang tầm GPT-4, hỗ trợ 92 ngôn ngữ lập trình

- Alibaba Cloud vừa phát hành Qwen2.5-Coder, trợ lý lập trình AI đã nhanh chóng trở thành demo phổ biến thứ 2 trên Hugging Face Spaces

- Mô hình được phát hành với 6 biến thể, từ 0,5 tỷ đến 32 tỷ tham số, phù hợp với nhiều nhu cầu tính toán khác nhau

- Qwen2.5-Coder-32B-Instruct đạt điểm ấn tượng:
  + 92,7% trên HumanEval
  + 90,2% trên MBPP
  + 31,4% độ chính xác trên LiveCodeBench

- Hỗ trợ 92 ngôn ngữ lập trình từ phổ biến đến chuyên biệt như Haskell và Racket

- Các tính năng nổi bật:
  + Hoàn thiện code cấp repository
  + Hiểu ngữ cảnh qua nhiều file
  + Tạo ứng dụng trực quan như website
  + Gỡ lỗi code

- Sử dụng giấy phép Apache 2.0 cho phép tích hợp miễn phí vào sản phẩm thương mại

- Thành tựu này của Alibaba Cloud đáng chú ý trong bối cảnh Trung Quốc đang bị Mỹ hạn chế xuất khẩu chip tiên tiến

- Tác động đến thị trường:
  + Thách thức mô hình kinh doanh dựa trên thuê bao của OpenAI và Anthropic
  + Giảm chi phí phát triển phần mềm cho doanh nghiệp
  + Tăng khả năng tiếp cận AI cho các công ty nhỏ và thị trường mới nổi

📌 Qwen2.5-Coder của Alibaba Cloud là bước đột phá trong AI lập trình với hiệu suất vượt trội (92,7% trên HumanEval), hỗ trợ 92 ngôn ngữ và hoàn toàn miễn phí. Mô hình nguồn mở này sẽ định hình lại cách tiếp cận AI trong phát triển phần mềm doanh nghiệp toàn cầu.

https://venturebeat.com/ai/alibaba-new-ai-can-code-in-92-languages-and-its-completely-free/

Mô hình hành vi quy mô lớn (LBM) vượt trội hơn LLM trong việc tạo ra robot AI tương tác như người

- LBM (Large behavior models) là công nghệ mới nổi kết hợp AI tạo sinh với khả năng quan sát và học hỏi hành vi, giúp robot thực hiện các nhiệm vụ phức tạp

- LBM khác với LLM ở chỗ không chỉ dựa vào ngôn ngữ tự nhiên mà còn tích hợp đa phương thức (multimodal) bao gồm: văn bản, hình ảnh, âm thanh và video

- Một ví dụ điển hình về ứng dụng LBM là robot nấu ăn có thể:
  + Quan sát cách con người thao tác
  + Học hỏi phong cách nấu nướng cá nhân
  + Tương tác bằng ngôn ngữ tự nhiên
  + Thực hiện các thao tác phức tạp như cắt rau, điều chỉnh nhiệt độ

- Ưu điểm của LBM so với lập trình robot truyền thống:
  + Không cần lệnh phức tạp
  + Học hỏi linh hoạt qua quan sát
  + Tương tác tự nhiên với người dùng
  + Tích hợp được nhiều dạng dữ liệu

- Thách thức cần giải quyết:
  + Đảm bảo AI nhận diện đúng hành vi cần học
  + Tránh sao chép sai lầm từ hành vi quan sát
  + Xây dựng hàng rào bảo vệ an toàn
  + Phát triển khung pháp lý phù hợp

- Dự án nghiên cứu tiên phong về LBM từ TRI đã chứng minh khả năng robot học các kỹ năng mới chỉ trong vài giờ, mở ra tiềm năng to lớn cho robot đa năng trong tương lai

📌 LBM là bước tiến mới trong AI, kết hợp AI tạo sinh với khả năng học hỏi hành vi. Công nghệ này giúp robot thông minh hơn, tự nhiên hơn trong tương tác. Tuy nhiên cần giải quyết các thách thức về an toàn và pháp lý trước khi ứng dụng rộng rãi.

 

https://www.forbes.com/sites/lanceeliot/2024/11/10/large-behavior-models-surpass-large-language-models-to-create-ai-that-walks-and-talks/

 

Google chuẩn bị ra mắt Gemini 2 với khả năng vượt trội OpenAI o1

- Google đang chuẩn bị ra mắt mô hình Gemini-2.0-Pro-Exp-0111, được kỳ vọng sẽ vượt qua OpenAI o1

- Logan Kilpatrick, giám đốc sản phẩm cấp cao của Google, tiết lộ Gemini 2 sẽ có:
  + Chất lượng lập luận tốt hơn
  + Cửa sổ ngữ cảnh lên đến hàng tỷ hoặc nghìn tỷ token
  + Khả năng multimodal đầy đủ với khả năng hiểu video dài

- Các tính năng nổi bật của Gemini 2:
  + Tạo hình ảnh và tìm kiếm web
  + Tích hợp với Google Search để cải thiện độ chính xác
  + Khả năng điều khiển trình duyệt web (dự án có tên mã Jarvis)
  + Xử lý đa phương thức: hình ảnh, âm thanh, văn bản

- Thành công gần đây của Google:
  + Lượt gọi API Gemini tăng 14 lần trong 6 tháng qua
  + Hợp tác với GitHub đưa Gemini 1.5 Pro vào GitHub Copilot
  + NotebookLM được đánh giá cao như "Thời khắc ChatGPT" của Google

- Google DeepMind đang phát triển:
  + Phương pháp học tăng cường để cải thiện khả năng tự sửa lỗi của mô hình
  + Tích hợp công nghệ AlphaGo để nâng cao khả năng lập kế hoạch
  + Các mô hình AlphaProof và AlphaGeometry 2 đạt huy chương bạc tại Olympic Toán học Quốc tế

📌 Google Gemini 2 được kỳ vọng sẽ là đối thủ cạnh tranh trực tiếp với OpenAI o1 nhờ khả năng xử lý hàng nghìn tỷ token, tính năng multimodal toàn diện và sự tích hợp sâu với công nghệ tìm kiếm của Google. Mô hình mới này đánh dấu bước tiến quan trọng trong cuộc đua AI giữa hai gã khổng lồ công nghệ.

https://analyticsindiamag.com/ai-origins-evolution/google-gemini-2-likely-to-dethrone-openai-o1/

xAI tung ra ưu đãi tín dụng API trị giá 25 USD/tháng thu hút cộng đồng lập trình viên.

- Elon Musk và công ty xAI, một nhánh của mạng xã hội X, vừa chính thức mở cửa API xAI cho công chúng và cung cấp 25 USD miễn phí mỗi tháng cho các nhà phát triển đến hết năm nay. Các nhà phát triển sẽ nhận tổng cộng 50 USD nếu sử dụng từ nay đến hết năm.
  
- API xAI đang hướng đến việc cạnh tranh trong cuộc đua giành sự ủng hộ của các nhà phát triển giữa các nền tảng AI tạo sinh khác nhau, nhấn mạnh sự cạnh tranh này không chỉ nhằm vào người dùng cuối mà còn vào các lập trình viên và nhà phát triển ứng dụng.
  
- API xAI áp dụng mô hình giá 5 USD cho mỗi triệu tokens đầu vào và 15 USD cho mỗi triệu tokens đầu ra. Mức giá này cao hơn so với OpenAI GPT-4o (2,5 USD/10 USD) và Anthropic Claude 3.5 Sonnet (3 USD/15 USD). Với 25 USD tín dụng, nhà phát triển có thể sử dụng khoảng hai triệu tokens đầu vào và một triệu tokens đầu ra hàng tháng, tương đương với dung lượng văn bản của khoảng 7-8 quyển tiểu thuyết.
  
- Giới hạn ngữ cảnh cho API xAI là khoảng 128.000 tokens cho mỗi tương tác, ngang với GPT-4o của OpenAI nhưng thấp hơn mức 200.000 của Anthropic và khá thấp so với 1 triệu của Gemini 1.5 Flash từ Google.
  
- Các tính năng của xAPI hiện nay chỉ bao gồm các mô hình văn bản như grok-beta, không hỗ trợ tạo hình ảnh như Grok 2, vốn sử dụng mô hình Flux.1 của Black Forest Labs.
  
- xAI cho biết một phiên bản Grok mới đang trong giai đoạn phát triển cuối cùng, và một mô hình thị giác mới sẽ ra mắt trong tuần tới. Tính năng này hứa hẹn mở rộng khả năng của xAI trong các ứng dụng AI đa phương tiện.
  
- API xAI cũng hỗ trợ “function calling,” tức là cho phép mô hình AI thực hiện lệnh từ người dùng để truy cập và thực hiện các chức năng của các ứng dụng hoặc dịch vụ liên kết.
  
- Đáng chú ý, API xAI tương thích với các SDK của OpenAI và Anthropic, giúp nhà phát triển dễ dàng thay thế các mô hình hiện tại bằng Grok trên nền tảng xAI, từ đó nâng cao tính linh hoạt trong việc chuyển đổi mô hình.
  
- xAI đã triển khai “Colossus,” một siêu máy tính chứa 100.000 GPU Nvidia H100 tại Memphis, Tennessee. Đây là một trong những cụm máy tính lớn nhất thế giới và hiện đang phục vụ huấn luyện các mô hình Grok mới của xAI.

📌 xAI của Elon Musk triển khai chiến lược thu hút nhà phát triển với tín dụng API 25 USD/tháng và hỗ trợ SDK của OpenAI và Anthropic. Cùng với đó, xAI tăng cường khả năng qua siêu máy tính Colossus chứa 100.000 GPU, cùng hứa hẹn các mô hình Grok mới sắp ra mắt, bao gồm cả Grok vision model, nhằm nâng cao trải nghiệm và tính linh hoạt cho các nhà phát triển.

https://venturebeat.com/ai/xai-woos-developers-with-25-month-worth-of-api-credits-support-for-openai-anthropic-sdks/

Leopard - Đột phá mới trong công nghệ AI xử lý đa hình ảnh với độ chính xác vượt trội

- Các nhà nghiên cứu từ đại học Notre Dame, phòng thí nghiệm Tencent AI Seattle và đại học Illinois Urbana-Champaign đã phát triển mô hình Leopard - một mô hình ngôn ngữ lớn đa phương thức (MLLM) chuyên xử lý nhiều hình ảnh giàu văn bản

- Leopard giải quyết hai thách thức chính của các mô hình hiện tại:
  + Thiếu bộ dữ liệu huấn luyện chất lượng cao cho kịch bản nhiều hình ảnh
  + Khó cân bằng giữa độ phân giải hình ảnh và độ dài chuỗi thị giác

- Mô hình được huấn luyện trên bộ dữ liệu khoảng 1 triệu điểm dữ liệu đa phương thức chất lượng cao, bao gồm:
  + Tài liệu nhiều trang
  + Bảng biểu và biểu đồ  
  + Ảnh chụp màn hình web

- Leopard tích hợp module mã hóa đa hình ảnh độ phân giải cao thích ứng:
  + Tối ưu hóa động phân bổ độ dài chuỗi thị giác
  + Duy trì chi tiết độ phân giải cao
  + Nén chuỗi đặc trưng thị giác dài thành chuỗi ngắn hơn không mất mát

- Kết quả đánh giá cho thấy Leopard vượt trội hơn các mô hình như OpenFlamingo, VILA và Idefics2:
  + Cải thiện trung bình hơn 9,61 điểm trên các bài kiểm tra chuẩn
  + Hiệu suất cao trong các tác vụ như SlideVQA và Multi-page DocVQA
  + Khả năng xử lý tốt các tài liệu nhiều trang và bài thuyết trình

📌 Leopard đánh dấu bước tiến quan trọng trong AI đa phương thức với module mã hóa độ phân giải cao thích ứng và bộ dữ liệu huấn luyện 1 triệu điểm. Mô hình cải thiện 9,61 điểm so với các đối thủ trong xử lý hình ảnh giàu văn bản, mở ra tiềm năng ứng dụng rộng rãi trong giáo dục và nghiên cứu.

https://www.marktechpost.com/2024/11/02/leopard-a-multimodal-large-language-model-mllm-designed-specifically-for-handling-vision-language-tasks-involving-multiple-text-rich-images/

Claude 3.5 Sonnet mới có thể phân tích nguyên file tài liệu PDF hình ảnh, biểu đồ

- Anthropic vừa giới thiệu tính năng Visual PDF cho Claude 3.5 Sonnet, cho phép phân tích các yếu tố trực quan trong tệp PDF dưới 100 trang

- Tính năng mới giúp Claude có thể:
  + Đọc và hiểu hình ảnh trong PDF
  + Phân tích biểu đồ và đồ thị
  + Xử lý tài liệu nghiên cứu và tài liệu kỹ thuật phức tạp

- Anthropic đã tăng giới hạn dung lượng tệp:
  + Từ 10MB lên 30MB
  + Cho phép tải lên tối đa 5 hình ảnh hoặc tài liệu
  + Mỗi tệp có thể lên đến 30MB

- Cách kích hoạt tính năng:
  + Truy cập banner trên trang chủ
  + Chọn Visual PDFs trong tab Feature Preview
  + Bật tính năng cho các cuộc hội thoại trong tương lai

- Các cập nhật gần đây của Anthropic:
  + Ra mắt tính năng Computer Use
  + Hợp tác với GitHub tích hợp Claude 3.5 Sonnet vào GitHub Copilot
  + Thêm khả năng thực thi mã JavaScript thông qua Analysis Tool
  + Tạo trực quan hóa dữ liệu
  + Hỗ trợ LaTex để tạo phương trình toán học

- Claude 3.5 Sonnet được đánh giá là mô hình AI tốt nhất để chạy mã, vượt trội hơn so với GPT của OpenAI và Canvas

📌 Anthropic tiếp tục khẳng định vị thế dẫn đầu khi nâng cấp Claude 3.5 Sonnet với khả năng phân tích PDF trực quan, tăng giới hạn dung lượng lên 30MB và bổ sung nhiều tính năng mạnh mẽ như thực thi JavaScript, tạo trực quan hóa dữ liệu.

https://analyticsindiamag.com/ai-news-updates/anthropic-introduces-claude-3-5-sonnet-with-visual-pdf-analysis-for-images-charts-and-graphs-under-100-pages/

Meta huấn luyện Llama 4 trên cụm GPU khổng lồ với hơn 100.000 chip H100

- Mark Zuckerberg công bố Meta đang huấn luyện mô hình Llama 4 trên cụm GPU lớn hơn 100.000 chip H100, vượt xa quy mô của bất kỳ đối thủ nào

- Llama 4 dự kiến ra mắt đầu năm 2025, với các phiên bản nhỏ sẽ được phát hành trước

- Cụm máy tính này tiêu thụ khoảng 150 megawatt điện năng, gấp 5 lần so với siêu máy tính El Capitan (30 megawatt)

- Meta dự kiến chi 40 tỷ USD trong năm 2024 cho cơ sở hạ tầng và trung tâm dữ liệu, tăng 42% so với năm 2023

- Doanh thu của Meta tăng 22% trong khi chi phí hoạt động chỉ tăng 9%, cho phép công ty đầu tư mạnh vào phát triển Llama

- Meta AI, chatbot dựa trên Llama, hiện có hơn 500 triệu người dùng hàng tháng trên các nền tảng Facebook, Instagram và WhatsApp

- Meta theo đuổi chiến lược nguồn mở với Llama, khác biệt so với các đối thủ như OpenAI và Google

- Llama 4 sẽ có các tính năng mới như "multimodal", khả năng suy luận mạnh mẽ hơn và tốc độ nhanh hơn

- Một số chuyên gia lo ngại việc cung cấp mô hình AI mạnh mẽ miễn phí có thể gây rủi ro an ninh mạng

- Meta kỳ vọng sẽ tạo doanh thu từ quảng cáo thông qua tính năng Meta AI trong tương lai

📌 Meta đang dẫn đầu cuộc đua AI với cụm GPU 100.000 chip H100 để phát triển Llama 4. Với 500 triệu người dùng Meta AI hàng tháng và khoản đầu tư 40 tỷ USD cho cơ sở hạ tầng năm 2024, Meta đang đặt cược lớn vào chiến lược AI nguồn mở.

https://www.wired.com/story/meta-llama-ai-gpu-training/

Sarvam-1: Mô hình AI nguồn mở đầu tiên của Ấn Độ hỗ trợ 10 ngôn ngữ bản địa

• Sarvam AI vừa ra mắt mô hình ngôn ngữ lớn Sarvam-1, được phát triển từ đầu bằng cơ sở hạ tầng AI trong nước của Ấn Độ.

• Mô hình có 2 tỷ tham số, hỗ trợ 10 ngôn ngữ bản địa Ấn Độ bao gồm: Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil và Telugu, cùng với tiếng Anh.

• Sarvam-1 được huấn luyện trên bộ dữ liệu Sarvam-2T với 2 nghìn tỷ token, trong đó 20% là tiếng Hindi, phần còn lại phân bố đều giữa các ngôn ngữ khác.

• Mô hình đạt hiệu quả token từ 1,4-2,1 token/từ, thấp hơn nhiều so với 4-8 token/từ của các mô hình hiện có.

• Về hiệu năng, Sarvam-1 vượt trội hơn các mô hình lớn hơn như Llama-3 của Meta và Gemma-2 của Google trên các tiêu chuẩn như MMLU, ARC-Challenge và IndicGenBench.

• Trên bộ dữ liệu TriviaQA, mô hình đạt độ chính xác 86,11% với các ngôn ngữ Ấn Độ, cao hơn nhiều so với 61,47% của Llama-3.1 8B.

Tốc độ xử lý nhanh hơn 4-6 lần so với các mô hình lớn như Gemma-2-9B và Llama-3.1-8B.

Mô hình được phát triển với sự hợp tác của NVIDIA (cung cấp GPU H100), Yotta (cơ sở hạ tầng đám mây) và AI4Bharat.

• Sarvam-1 hiện đã có mặt trên Hugging Face dưới dạng nguồn mở.

📌 Sarvam-1 là mô hình AI nguồn mở đầu tiên của Ấn Độ hỗ trợ 10 ngôn ngữ bản địa với 2 tỷ tham số, được huấn luyện trên 2 nghìn tỷ token, có tốc độ xử lý nhanh hơn 4-6 lần và độ chính xác vượt trội (86,11%) so với các mô hình lớn hơn.

 

https://indianexpress.com/article/technology/artificial-intelligence/what-is-sarvam-1-a-new-ai-model-optimised-for-10-indian-languages-9638492/

Cohere ra mắt multimodal embed 3: nâng tầm tích hợp dữ liệu văn bản và hình ảnh

 

  • Cohere giới thiệu Multimodal Embed 3, một bước tiến mới trong AI đa phương thức, tích hợp văn bản và hình ảnh vào cùng không gian vector, giúp cải thiện đáng kể các ứng dụng AI như tìm kiếm và khuyến nghị nội dung.
  • Mô hình được huấn luyện dựa trên hàng tỷ cặp dữ liệu văn bản và hình ảnh, cho phép nhận diện chính xác mối quan hệ giữa ngôn ngữ và hình ảnh. Điều này giúp việc tìm kiếm dựa trên mô tả văn bản hoặc hình ảnh trở nên nhanh chóng và hiệu quả.
  • Multimodal Embed 3 được xây dựng trên cơ sở contrastive learning quy mô lớn, giúp tạo ra biểu diễn dữ liệu dày đặc và chính xác ngay cả với nội dung phức tạp.
  • Các ứng dụng nổi bật bao gồm tìm kiếm liên kết đa phương thức, hệ thống khuyến nghị, gắn nhãn hình ảnh, và trả lời câu hỏi dựa trên hình ảnh.
  • Mô hình tối ưu hóa cho khả năng mở rộng, cho phép xử lý hiệu quả các bộ dữ liệu lớn, đồng thời giảm chi phí vận hành nhờ tăng cường hiệu suất tính toán.
  • Lợi ích thực tiễn: Các doanh nghiệp sử dụng Multimodal Embed 3 có thể cải thiện độ chính xác trong khuyến nghị nội dung, nâng cao sự hài lòng của người dùng, và tăng cường tương tác.
  • So với các mô hình trước đây, Multimodal Embed 3 giúp giảm thiểu các sai sót trong khuyến nghị và cải thiện khả năng xử lý ngữ cảnh của AI, làm tăng hiệu quả của các công cụ quản lý nội dung và quảng cáo.

📌 Multimodal Embed 3 của Cohere là bước đột phá trong tích hợp dữ liệu văn bản và hình ảnh, mở ra cơ hội mới cho AI trong các lĩnh vực như tìm kiếm, khuyến nghị, và quản lý nội dung, giúp tạo ra những trải nghiệm AI gần gũi và thông minh hơn.

https://www.marktechpost.com/2024/10/23/cohere-releases-multimodal-embed-3-a-state-of-the-art-multimodal-ai-search-model-unlocking-real-business-value-for-image-data/

Anthropic nâng cấp Claude 3.5 Sonnet và ra mắt Claude 3.5 Haiku mới nhanh gấp 3 lần

• Anthropic vừa công bố nâng cấp lớn cho dòng Claude với phiên bản Claude 3.5 Sonnet cải tiến và ra mắt Claude 3.5 Haiku hoàn toàn mới

• Claude 3.5 Haiku được giới thiệu là mô hình ngôn ngữ tự nhiên ngắn gọn, nhanh hơn 3 lần so với các đối thủ cạnh tranh

Trong các bài kiểm tra benchmark mới:
- Sonnet vượt trội GPT-4o của OpenAI và Gemini 1.5 Pro của Google về khả năng lập luận cấp cao, lập trình và phân tích hình ảnh
- Haiku thể hiện tốt hơn các mô hình tương đương như Gemini Flash 1.5 và GPT-4o mini về lập trình, hành vi agent và suy luận văn bản
- Chi phí vận hành Haiku không đổi so với phiên bản trước

• Tính năng beta mới nhất cho phép các mô hình Claude tương tác với máy tính như con người:
- Có thể xem màn hình
- Di chuyển con trỏ chuột
- Thực hiện thao tác nhấp chuột
- Nhập văn bản
- Điền form và điều hướng website

• Tính năng này hướng tới mục tiêu để Claude có thể tự động hóa các tác vụ máy tính hàng ngày

• Các cập nhật này giúp Claude cạnh tranh mạnh mẽ hơn với các đối thủ lớn trong ngành AI

📌 Anthropic tạo bước đột phá với Claude 3.5 Haiku nhanh gấp 3 lần, vượt trội GPT-4o và Gemini 1.5 Pro trong nhiều tác vụ. Điểm nhấn là tính năng beta cho phép AI tương tác với máy tính như con người, mở ra khả năng tự động hóa công việc văn phòng.

https://www.tomsguide.com/ai/anthropic-just-dropped-claude-haiku-3-5-and-gave-the-chatbot-a-huge-upgrade-heres-whats-new

Hợp nhất 8 mô hình AI khổng lồ thành siêu trí tuệ 64 tỷ tham số

• Một nhóm nghiên cứu từ Đại học North Carolina, Google và Virginia Tech đã thực hiện nghiên cứu toàn diện về kỹ thuật hợp nhất mô hình quy mô lớn.

 

• Họ đánh giá việc hợp nhất các mô hình từ 1 tỷ đến 64 tỷ tham số, sử dụng tối đa 8 mô hình chuyên gia trong nhiều cấu hình khác nhau.

 

• Bốn phương pháp hợp nhất được đánh giá: lấy trung bình, số học nhiệm vụ, Dare-TIES và TIES-Merging.

 

• Hai mô hình cơ sở được sử dụng: PaLM-2 và PaLM-2-IT (phiên bản được huấn luyện theo hướng dẫn của PaLM-2).

 

• Mục tiêu là xem xét ảnh hưởng của chất lượng mô hình cơ sở, kích thước mô hình và số lượng chuyên gia đến hiệu quả tổng thể của mô hình được hợp nhất.

 

• Phương pháp bao gồm sử dụng các mô hình chuyên gia được tinh chỉnh đầy đủ cho các nhiệm vụ cụ thể, sau đó hợp nhất để đánh giá hiệu suất trên các nhiệm vụ đã biết và chưa biết.

 

• Kết quả cho thấy các mô hình lớn hơn (64 tỷ tham số) dễ hợp nhất hơn các mô hình nhỏ hơn.

 

• Việc hợp nhất cải thiện đáng kể khả năng khái quát hóa của các mô hình, đặc biệt khi sử dụng mô hình được huấn luyện theo hướng dẫn như PaLM-2-IT.

 

• Khi hợp nhất 8 mô hình chuyên gia lớn, các mô hình được hợp nhất vượt trội hơn các mô hình được đào tạo đa nhiệm vụ, đạt hiệu suất cao hơn trên các nhiệm vụ chưa biết.

 

• Hợp nhất các mô hình từ PaLM-2-IT dẫn đến khả năng khái quát hóa không cần mẫu tốt hơn so với PaLM-2 được đào tạo trước.

 

• Khoảng cách hiệu suất giữa các phương pháp hợp nhất khác nhau thu hẹp khi kích thước mô hình tăng lên.

 

• Hợp nhất nhiều mô hình chuyên gia hơn (lên đến 8) dẫn đến khả năng khái quát hóa tốt hơn mà không mất hiệu suất đáng kể.

 

• Các số liệu hiệu suất cho thấy các mô hình lớn hơn và được huấn luyện theo hướng dẫn có lợi thế rõ ràng.

 

• Hợp nhất 8 mô hình chuyên gia từ mô hình PaLM-2-IT 64 tỷ tham số đạt kết quả vượt trội so với đường cơ sở đào tạo đa nhiệm vụ.

 

• Các mô hình được hợp nhất thể hiện khả năng thích ứng tốt hơn với các nhiệm vụ mới so với các chuyên gia được tinh chỉnh riêng lẻ.

 

📌 Nghiên cứu cho thấy hợp nhất mô hình quy mô lớn là hướng đi đầy hứa hẹn để tạo ra các mô hình ngôn ngữ có khả năng khái quát hóa cao. Mô hình được huấn luyện theo hướng dẫn như PaLM-2-IT 64 tỷ tham số cho kết quả tốt nhất khi hợp nhất 8 chuyên gia, vượt trội so với đào tạo đa nhiệm vụ truyền thống.

 

https://www.marktechpost.com/2024/10/13/this-ai-paper-introduces-a-comprehensive-study-on-large-scale-model-merging-techniques/

Tx-LLM: Cuộc cách mạng trong phát triển thuốc với mô hình AI đa năng của Google

• Google Research và Google DeepMind giới thiệu Tx-LLM, một mô hình ngôn ngữ lớn được tinh chỉnh từ PaLM-2 để xử lý các tác vụ đa dạng trong phát triển thuốc.

• Tx-LLM được huấn luyện trên 709 bộ dữ liệu bao gồm 66 chức năng trong quy trình phát triển thuốc, sử dụng một bộ trọng số duy nhất để xử lý các thực thể hóa học và sinh học khác nhau.

• Mô hình đạt hiệu suất cạnh tranh trên 43 tác vụ và vượt trội trên 22 tác vụ so với các mô hình tiên tiến nhất hiện nay.

• Tx-LLM xuất sắc trong các tác vụ kết hợp biểu diễn phân tử với văn bản và thể hiện sự chuyển giao tích cực giữa các loại thuốc khác nhau.

• Các nhà nghiên cứu đã tạo ra bộ sưu tập dữ liệu TxT từ kho dữ liệu TDC, tập trung vào 66 tác vụ bao gồm phân loại nhị phân, hồi quy và tạo sinh.

• Dữ liệu được định dạng cho việc tinh chỉnh hướng dẫn, bao gồm 4 thành phần: hướng dẫn, ngữ cảnh, câu hỏi và câu trả lời.

• Các biểu diễn như chuỗi SMILES cho phân tử và chuỗi axit amin cho protein được sử dụng trong quá trình huấn luyện.

• Hiệu suất của mô hình được đánh giá bằng các chỉ số như AUROC, tương quan Spearman và độ chính xác tập hợp.

• Tx-LLM thể hiện xuất sắc trên các bộ dữ liệu kết hợp chuỗi phân tử SMILES với các đặc điểm văn bản như mô tả bệnh hoặc dòng tế bào.

• Mô hình gặp khó khăn với các bộ dữ liệu chỉ dựa vào chuỗi SMILES, nơi các mô hình dựa trên đồ thị hiệu quả hơn.

• Tx-LLM là mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên các bộ dữ liệu TDC đa dạng, bao gồm phân tử, protein, tế bào và bệnh tật.

• Việc huấn luyện với các bộ dữ liệu không phải phân tử nhỏ (như protein) cải thiện hiệu suất trên các tác vụ liên quan đến phân tử nhỏ.

• Mô hình thể hiện tiềm năng cho quá trình phát triển thuốc từ đầu đến cuối, từ xác định gen đến thử nghiệm lâm sàng.

• Tuy nhiên, Tx-LLM vẫn đang trong giai đoạn nghiên cứu, với những hạn chế về hướng dẫn ngôn ngữ tự nhiên và độ chính xác dự đoán, cần được cải thiện và xác thực thêm để ứng dụng rộng rãi hơn.

📌 Google AI giới thiệu Tx-LLM, mô hình ngôn ngữ lớn được tinh chỉnh từ PaLM-2 cho phát triển thuốc. Huấn luyện trên 709 bộ dữ liệu, 66 tác vụ, vượt trội 22/66 tác vụ so với SOTA. Tiềm năng cao cho phát triển thuốc toàn diện nhưng cần cải thiện thêm.

https://www.marktechpost.com/2024/10/10/tx-llm-a-large-language-model-llm-fine-tuned-from-palm-2-to-predict-properties-of-many-entities-that-are-relevant-to-therapeutic-development/

Walmart đang dẫn đầu ứng dụng AI trong bán lẻ với LLM riêng Wallaby

• Walmart đang đẩy nhanh chiến lược bán lẻ thích ứng, kết hợp AI tạo sinh, thực tế ảo tăng cường và cá nhân hóa để tạo trải nghiệm đa kênh tại cửa hàng, ứng dụng và website.

• Công ty phát triển loạt mô hình ngôn ngữ lớn có tên Wallaby, được huấn luyện trên dữ liệu nội bộ hàng thập kỷ để hỗ trợ trợ lý và trải nghiệm khách hàng.

• Walmart tạo nền tảng quyết định nội dung sử dụng AI để dự đoán nhu cầu khách hàng, tạo trang chủ riêng biệt cho từng người dùng dựa trên sở thích. Dự kiến ra mắt tại Mỹ cuối năm 2025.

• Công ty triển khai nhiều công cụ AI tạo sinh trong năm, tập trung cải thiện tìm kiếm và khám phá sản phẩm. Tính năng tìm kiếm nâng cao được thêm vào ứng dụng từ tháng 1/2024.

• Walmart thử nghiệm trợ lý mua sắm AI với một số khách hàng từ tháng 6/2024.

• Mục tiêu là giảm thời gian tìm kiếm và duyệt web của khách hàng, hiện trung bình 6 giờ/tuần.

• Công ty sử dụng AI tạo sinh để tạo hoặc cải thiện chất lượng hơn 850 triệu dữ liệu trong danh mục sản phẩm.

• Thông tin kết nối với thiết bị di động của nhân viên cửa hàng và kho, giúp tìm sản phẩm và chuẩn bị đơn hàng nhanh hơn.

• Walmart phát triển nền tảng thực tế ảo tăng cường Retina, cho phép khách hàng mua sắm trong môi trường xã hội ảo.

• Google cũng cập nhật tìm kiếm bằng AI, cải thiện tính năng Lens và kết quả tìm kiếm công thức nấu ăn.

• Walmart nhấn mạnh việc sử dụng công nghệ để thích ứng với nhu cầu cá nhân thay vì thanh tìm kiếm tiêu chuẩn.

📌 Walmart đang dẫn đầu ứng dụng AI trong bán lẻ với mô hình ngôn ngữ lớn riêng Wallaby và trang chủ cá nhân hóa. Công ty tập trung vào trải nghiệm đa kênh, cải thiện tìm kiếm và hiệu quả vận hành, dự kiến ra mắt nhiều tính năng mới đến cuối 2025.

https://www.customerexperiencedive.com/news/walmart-ai-large-language-model-internal-data-personalization/729412/

Xu hướng chuyển dịch từ mô hình ngôn ngữ lớn sang mô hình nhỏ chuyên biệt và hệ thống đa agent trong AI

• Trọng tâm của AI đang chuyển từ mô hình ngôn ngữ lớn (LLM) sang mô hình ngôn ngữ nhỏ (SLM), với S không chỉ là "small" mà còn là specialized, secure và sovereign. 

SLM đang phát triển thành các mô hình hành động nhỏ (SAM). Hệ thống đa agent kết hợp các mô hình này sẽ tạo ra các kết quả kinh doanh có tác động lớn.

• Theo khảo sát của ETR, Meta's Llama đang dẫn đầu về tốc độ áp dụng với Net Score 74%, vượt qua OpenAI và Microsoft.

Đầu tư của doanh nghiệp vào AI và ML tăng từ 34% lên 50% trong năm qua. AI và ML có tốc độ chi tiêu cao nhất trong tất cả các danh mục công nghệ.

45% tài trợ cho AI tạo sinh đến từ việc cắt giảm các ngân sách khác, với các bộ phận kinh doanh đóng góp đáng kể.

Kỳ vọng về ROI đang trở nên thực tế hơn, với 25% khách hàng hiện dự kiến thời gian hoàn vốn trên 1 năm, tăng từ 14% trước đó.

Một lớp hài hòa hóa mới đang xuất hiện giữa nền tảng dữ liệu và các agent, kết hợp các mô hình nhân quả, đồ thị tri thức và LLM/SLM.

Khung kiểm soát agent đóng vai trò quan trọng trong việc tổ chức và quản lý các agent AI hiệu quả, tương tự như cổng API.

Các nhà cung cấp ứng dụng như Microsoft, Oracle, Salesforce đang xây dựng cả lớp hài hòa hóa và lớp điều phối đa agent.

• Các công ty chuyên biệt như RelationalAI, EnterpriseWeb đang phát triển các công nghệ để mở rộng quy mô theo chiều ngang trên nhiều lĩnh vực ứng dụng.

• Mô hình kinh doanh hài hòa hóa đánh dấu sự chuyển đổi từ cơ sở dữ liệu quan hệ sang cơ sở dữ liệu đồ thị, kết hợp logic ứng dụng với lưu trữ và giao dịch cơ sở dữ liệu.

Các mô hình nguồn mở đang phát triển nhanh hơn các giải pháp độc quyền, với khoảng 80-90% mô hình trên Hugging Face là nguồn mở.

• Dù công nghệ đang phát triển nhanh chóng, việc áp dụng vào quy trình kinh doanh vẫn còn chậm do các rào cản về con người và quy trình.

📌 AI đang chuyển từ LLM sang SLM và SAM, với sự phát triển của hệ thống đa agent. Mô hình nguồn mở như Llama dẫn đầu với tốc độ áp dụng 74%. Đầu tư vào AI tăng 16% trong năm qua, nhưng ROI kỳ vọng kéo dài hơn. Lớp hài hòa hóa mới đang định hình tương lai của phần mềm doanh nghiệp.

 

https://siliconangle.com/2024/09/28/llms-slms-sams-agents-redefining-ai/

Google Cloud công bố bộ Customer Engagement Suite mới trong Contact Center AI

• Google Cloud công bố bộ Customer Engagement Suite mới trong Contact Center AI, được hỗ trợ bởi mô hình AI tạo sinh Gemini 1.5 Flash tiên tiến nhất của công ty.

• Bộ công cụ này cung cấp khả năng AI hội thoại nâng cao cho nền tảng contact center-as-a-service, với 4 lợi ích chính: đa kênh, đa phương thức, kiểm soát dựa trên quy tắc và dựa trên dữ liệu thông qua Agent Assist.

Các agent AI có thể hoạt động trên nhiều kênh như web, di động, giọng nói, email và chat, tự động hóa phản hồi cho khách hàng.

• Chúng có khả năng hiểu văn bản, giọng nói và hình ảnh, xử lý các truy vấn phức tạp như xác minh danh tính và so sánh sản phẩm.

• Google tích hợp ứng dụng Gemini độc lập vào nền tảng Google Workspace cho người đăng ký Business, Enterprise và Frontline.

Tích hợp này mang lại khả năng AI cơ bản trên toàn bộ bộ Workspace, đảm bảo dữ liệu bảo mật của khách hàng không được sử dụng để đào tạo mô hình của Google.

• Google Workspace cũng bổ sung "cố vấn bảo mật" mới, cung cấp thông tin chi tiết và khả năng bảo vệ dữ liệu bổ sung cho khách hàng.

• Cố vấn bảo mật cung cấp thông tin chi tiết về bảo mật, hướng dẫn hành động và trải nghiệm được hướng dẫn để triển khai các biện pháp phòng thủ chống lại mối đe dọa.

• Google giới thiệu các trường hợp sử dụng AI agent của khách hàng trong nhiều lĩnh vực:
- Click Therapeutics sử dụng Gemini for Workspace để chuyển đổi dữ liệu phức tạp thành thông tin chi tiết để cải thiện trải nghiệm bệnh nhân trong thử nghiệm lâm sàng.
- Dun & Bradstreet sử dụng agent dựa trên Gemini để tạo email cá nhân hóa cho khách hàng tiềm năng.
- Elanco Animal Health sử dụng AI agent để hỗ trợ quy trình kinh doanh, ước tính ROI 1,9 triệu USD.
- Bayer phát triển ứng dụng "field answers" cung cấp câu trả lời tức thì cho nông dân về kỹ thuật canh tác bền vững.
- Apex Fintech đã đẩy nhanh việc phát triển công cụ phát hiện mối đe dọa phức tạp từ hàng giờ xuống còn vài giây.
- Formula E sử dụng AI tạo sinh để tạo bình luận giống người thật cho các cuộc đua.

📌 Google mở rộng khả năng AI tạo sinh với Customer Engagement Suite và tích hợp Gemini vào Workspace. Các tính năng mới tập trung vào tương tác khách hàng, năng suất và bảo mật. Nhiều khách hàng lớn đã áp dụng AI agent của Google trong các lĩnh vực đa dạng, mang lại giá trị kinh doanh thực tế.

 

https://siliconangle.com/2024/09/24/google-unveils-new-generative-ai-innovations-including-customer-engagement-agents-gemini-workspace/

Thuật toán Co-LLM giúp mô hình AI đa năng hợp tác với LLM chuyên gia

• Các nhà nghiên cứu tại MIT CSAIL đã phát triển thuật toán "Co-LLM" giúp mô hình ngôn ngữ lớn (LLM) đa năng hợp tác với mô hình chuyên gia để tạo ra câu trả lời chính xác hơn.

Co-LLM hoạt động bằng cách xem xét từng từ trong câu trả lời của mô hình cơ bản và quyết định khi nào cần sử dụng câu trả lời chính xác hơn từ mô hình chuyên gia.

Thuật toán sử dụng học máy để huấn luyện một "biến chuyển đổi", đóng vai trò như một người quản lý dự án, xác định khi nào cần gọi đến chuyên gia.

• Co-LLM đã được thử nghiệm với các bộ dữ liệu y sinh như BioASQ, kết hợp mô hình cơ bản với mô hình chuyên gia như Meditron.

• Khi giải quyết bài toán toán học, Co-LLM kết hợp mô hình đa năng với mô hình toán học lớn Llemma để đưa ra kết quả chính xác hơn.

• So với các phương pháp khác như "Proxy Tuning", Co-LLM có thể hướng dẫn hai mô hình được huấn luyện khác nhau làm việc cùng nhau.

• Co-LLM chỉ kích hoạt mô hình chuyên gia cho các token cụ thể, dẫn đến việc tạo câu trả lời hiệu quả hơn.

• Nhóm nghiên cứu đang xem xét phát triển phương pháp chuyển hướng mạnh mẽ hơn, cho phép Co-LLM điều chỉnh khi mô hình chuyên gia không đưa ra phản hồi chính xác.

• Họ cũng muốn cập nhật mô hình chuyên gia khi có thông tin mới, giúp câu trả lời luôn cập nhật nhất có thể.

• Trong tương lai, Co-LLM có thể hỗ trợ cập nhật tài liệu doanh nghiệp hoặc huấn luyện các mô hình nhỏ, riêng tư để làm việc với LLM mạnh mẽ hơn.

• Nghiên cứu được hỗ trợ bởi Quỹ Khoa học Quốc gia, Học bổng Sau đại học Khoa học và Kỹ thuật Quốc phòng Quốc gia (NDSEG), MIT-IBM Watson AI Lab và Amazon.

📌 Co-LLM là bước tiến quan trọng trong việc phát triển hệ sinh thái các mô hình chuyên biệt để vượt trội hơn các hệ thống AI đơn lẻ đắt đỏ. Thuật toán này cho phép ra quyết định ở cấp độ token, mang lại sự linh hoạt cao trong việc chuyển các bước tạo khó khăn cho mô hình mạnh hơn.

https://news.mit.edu/2024/enhancing-llm-collaboration-smarter-more-efficient-solutions-0916

#MIT

Model routing - Giúp doanh nghiệp tối ưu hiệu quả AI bằng cách tự động chọn LLM phù hợp nhất cho từng tác vụ

• Model routing là công nghệ cho phép doanh nghiệp tự động chọn mô hình AI phù hợp nhất cho từng tác vụ, giúp tối ưu hiệu suất và chi phí.

Công nghệ này cho phép lựa chọn mô hình AI động theo từng truy vấn, thay vì sử dụng một mô hình đa năng duy nhất.

Startup Martian đã phát triển LLM router đang thu hút sự chú ý của các công ty công nghệ lớn. Accenture vừa công bố đầu tư vào Martian.

• Accenture sẽ tích hợp Martian vào dịch vụ switchboard của mình để hỗ trợ doanh nghiệp lựa chọn mô hình AI.

• Martian ra mắt từ tháng 11/2023 và đang phát triển công nghệ của mình. Công ty cũng vừa giới thiệu tính năng tuân thủ mô hình AI mới.

• Công nghệ của Martian cho phép chọn mô hình phù hợp nhất theo từng truy vấn, giúp giảm chi phí và tăng hiệu suất.

• Cốt lõi công nghệ của Martian tập trung vào dự đoán hành vi của mô hình, giúp chọn mô hình tối ưu về chi phí, chất lượng đầu ra và độ trễ.

Martian sử dụng các kỹ thuật như nén mô hình, lượng tử hóa, chưng cất để dự đoán mà không cần chạy toàn bộ mô hình.

• Việc định nghĩa các tiêu chí thành công và tối ưu chi phí là rất quan trọng khi triển khai AI trong doanh nghiệp.

• Tính năng tuân thủ mới của Martian giúp doanh nghiệp kiểm tra và phê duyệt các mô hình AI để sử dụng.

Model routing đặc biệt hữu ích cho AI tác nhân (agentic AI), giúp đảm bảo độ chính xác cao cho từng bước trong quy trình.

📌 Model routing đang trở thành công nghệ quan trọng giúp doanh nghiệp tối ưu hiệu quả AI. Startup Martian với LLM router đã thu hút đầu tư từ Accenture, cho phép chọn mô hình AI động theo từng truy vấn, giúp giảm chi phí và tăng hiệu suất đáng kể.

https://venturebeat.com/ai/why-accenture-and-martian-see-model-routing-as-key-to-enterprise-ai-success/

Báo cáo ITU: Khung đánh giá mức độ sẵn sàng cho AI, xác định 6 yếu tố chính

• Báo cáo xác định 6 yếu tố chính để đánh giá mức độ sẵn sàng cho AI:

- Sự sẵn có của dữ liệu mở: Số lượng kho dữ liệu mở, giấy phép dữ liệu, khối lượng và đa dạng dữ liệu, metadata, tốc độ dữ liệu, khoảng cách từ nguồn đến sandbox, số lượng người thu thập dữ liệu, tiền xử lý, thời gian sống của dữ liệu, quy tắc AAA, số lượng lĩnh vực áp dụng, mô tả API, dữ liệu có cấu trúc/phi cấu trúc, khoảng cách đến hệ thống phục vụ, độ mạnh của dữ liệu.

- Tiếp cận nghiên cứu: Số lượng bài báo được xuất bản và trích dẫn, số lượng mô hình nền tảng, số lượng bộ dữ liệu được trích dẫn trong nghiên cứu ứng dụng, số lượng bài báo trích dẫn dữ liệu, đổi mới khởi nghiệp.

- Khả năng triển khai cùng với cơ sở hạ tầng: Số lượng tùy chọn triển khai edge, tùy chọn kết nối, tùy chọn giao diện, số lượng cảm biến được triển khai, tỷ lệ phần trăm khu vực địa lý được bao phủ, số lượng tùy chỉnh cần thiết cho các ứng dụng cụ thể, hiệu quả của nguồn năng lượng, số lượng bảng điều khiển trực quan hóa dịch vụ công và ứng dụng di động.

- Sự chấp thuận của các bên liên quan được hỗ trợ bởi các tiêu chuẩn: Thống kê tham gia hội thảo trực tuyến ITU, số lượng tài liệu tiêu chuẩn, số lượng người đánh giá và chú thích, số lượng đóng góp ITU và trường hợp sử dụng khu vực, số lượng nhóm nghiên cứu và biên tập viên nhóm tập trung, số lượng sự kiện thử nghiệm tương thích, số lượng lĩnh vực trọng tâm từ các cơ quan quản lý quốc gia liên quan đến AI/ML, số lượng tài liệu từ các cơ quan tiêu chuẩn quốc gia đề cập đến AI/ML, số lượng SDG bị ảnh hưởng, số lượng và mức độ tài trợ.

- Hệ sinh thái nhà phát triển được tạo ra thông qua mã nguồn mở: Số dòng mã, số kho mã nguồn, số dự án mã nguồn mở, số lượng thị trường, cửa hàng ứng dụng, cổng IoT, thống kê sử dụng kho mã nguồn mở và API được lưu trữ, ứng dụng được lưu trữ tích hợp các mô hình.

- Thu thập dữ liệu và xác thực mô hình thông qua các thiết lập thử nghiệm sandbox: Số lượng sandbox, số lượng bộ điều khiển được công bố, vòng phản hồi.

• Báo cáo đề xuất 3 bước tiếp theo:

1. Thiết lập kho dữ liệu mở để giải quyết yếu tố sẵn sàng AI tương ứng về sự sẵn có của dữ liệu mở. 

2. Tạo Sandbox thử nghiệm với các bộ công cụ và mô phỏng tuân thủ tiêu chuẩn được điền sẵn để nghiên cứu tác động của các yếu tố sẵn sàng.

3. Xây dựng các chỉ số mở và bộ công cụ tham chiếu mã nguồn mở để đo lường và xác thực mức độ sẵn sàng AI.

• Ngoài ra, một Plugfest Thí điểm về Mức độ sẵn sàng AI được lên kế hoạch để giải thích các yếu tố sẵn sàng AI cho các bên liên quan và cho phép họ "cắm" các yếu tố khu vực khác nhau như dữ liệu, mô hình, tiêu chuẩn, bộ công cụ và đào tạo.

• Kết quả của plugfest cùng với phiên bản tiếp theo của báo cáo này sẽ được công bố tại Hội nghị thượng đỉnh AI for Good 2025.

📌 Báo cáo ITU xác định 6 yếu tố chính để đánh giá mức độ sẵn sàng cho AI, bao gồm dữ liệu mở, nghiên cứu, triển khai và cơ sở hạ tầng, tiêu chuẩn, hệ sinh thái phát triển mã nguồn mở, và thử nghiệm trong sandbox. Các bước tiếp theo được đề xuất để xây dựng kho dữ liệu mở, sandbox thử nghiệm và các chỉ số đánh giá mức độ sẵn sàng AI.

https://www.itu.int/dms_pub/itu-t/opb/ai4g/T-AI4G-AI4GOOD-2024-2-PDF-E.pdf

DataGemma: Mô hình AI mới của Google giải quyết vấn đề ảo giác bằng dữ liệu thực tế từ Data Commons

• Google giới thiệu DataGemma - mô hình AI nguồn mở đầu tiên được thiết kế để giải quyết vấn đề ảo giác của các mô hình ngôn ngữ lớn (LLM) bằng cách kết nối chúng với dữ liệu thống kê thực tế từ Data Commons.

Data Commons là một đồ thị kiến thức công khai chứa hơn 240 tỷ điểm dữ liệu từ các tổ chức uy tín như Liên Hợp Quốc, WHO, CDC và các Cục Thống kê.

• DataGemma sử dụng hai phương pháp chính để nâng cao độ chính xác của LLM:

1. RIG (Tạo sinh được xen kẽ bởi truy xuất): Chủ động truy vấn nguồn đáng tin cậy và kiểm tra thông tin với Data Commons. Khi được yêu cầu tạo phản hồi, mô hình được lập trình để xác định các trường hợp dữ liệu thống kê và truy xuất câu trả lời từ Data Commons.

2. RAG (Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài): Cho phép mô hình ngôn ngữ kết hợp thông tin liên quan ngoài dữ liệu huấn luyện. DataGemma truy xuất thông tin ngữ cảnh liên quan từ Data Commons trước khi mô hình bắt đầu tạo phản hồi.

Kết quả sơ bộ cho thấy cải thiện đáng kể về độ chính xác của mô hình ngôn ngữ khi xử lý các sự kiện số học, giảm thiểu ảo giác cho người dùng.

• Google đang tiếp tục nghiên cứu và cam kết hoàn thiện các phương pháp này, với mục tiêu cuối cùng là tích hợp chức năng nâng cao này vào cả mô hình Gemma và Gemini.

• Bằng cách chia sẻ nghiên cứu và công khai mô hình DataGemma, Google hy vọng thúc đẩy việc áp dụng rộng rãi hơn các kỹ thuật dựa trên Data Commons để làm nền tảng cho LLM trong dữ liệu thực tế.

Các nhà nghiên cứu và nhà phát triển có thể bắt đầu với DataGemma bằng cách sử dụng các notebook khởi động nhanh cho cả phương pháp RIG và RAG.

📌 DataGemma là mô hình AI nguồn mở đầu tiên kết nối LLM với 240 tỷ điểm dữ liệu thực tế từ Data Commons. Sử dụng phương pháp RIG và RAG, DataGemma giúp giảm ảo giác AI và nâng cao độ chính xác khi xử lý dữ liệu số học, hướng tới tương lai AI đáng tin cậy hơn.

https://blog.google/technology/ai/google-datagemma-ai-llm/

Xu hướng "hàng hóa" hóa các LLM: tương lai của AI tạo sinh

• Các mô hình ngôn ngữ lớn (LLM) đang trở nên phổ biến và thu hút sự chú ý của cả giới công nghệ lẫn công chúng. ChatGPT của OpenAI đã mở đường cho sự ra đời của nhiều mô hình mã nguồn mở khác.

• Chi phí chuyển đổi thấp là yếu tố quan trọng thúc đẩy sự "hàng hóa" hóa của LLM. Việc sử dụng ngôn ngữ chung (tiếng Anh) cho các truy vấn giúp người dùng dễ dàng chuyển đổi giữa các LLM khác nhau mà không tốn nhiều chi phí.

Khác với việc chuyển đổi giữa các hệ thống cơ sở dữ liệu phức tạp, việc chuyển đổi giữa các LLM đơn giản hơn nhiều. Tuy nhiên, việc thêm bộ nhớ dài hạn vào LLM có thể làm tăng giá trị cho doanh nghiệp nhưng cũng khiến việc chuyển đổi trở nên tốn kém hơn.

• Sự cạnh tranh giữa các tổ chức hàng đầu như OpenAI, Anthropic, Meta và Google đang thúc đẩy sự phát triển nhanh chóng của LLM. Các mô hình mới như Claude 3, Llama 3.0 và Gemini 1.5 Pro đang cạnh tranh trực tiếp với GPT-4 của OpenAI.

Sự sẵn có của các bộ dữ liệu lớn trên Internet đã tạo điều kiện cho sự phát triển nhanh chóng này. Tuy nhiên, việc xử lý và làm sạch dữ liệu đòi hỏi đầu tư lớn về phần cứng và nguồn nhân lực.

• Các tổ chức lớn đang đầu tư mạnh vào phát triển công nghệ AI để giảm sự phụ thuộc vào một số ít nhà cung cấp. Điều này dẫn đến việc liên tục ra mắt các phiên bản LLM cải tiến và các công cụ hỗ trợ.

• Mã nguồn mở đang đóng vai trò quan trọng trong việc dân chủ hóa công nghệ LLM. Các mô hình như Llama và Mistral cho phép nhiều nhà cung cấp cơ sở hạ tầng tham gia thị trường, tăng cường cạnh tranh và giảm chi phí dịch vụ AI.

• LLM mã nguồn mở cũng tạo nền tảng cho nghiên cứu trong tương lai, giúp việc thử nghiệm trở nên dễ dàng và giảm khả năng phân biệt giữa các sản phẩm cạnh tranh.

Xu hướng này tương tự như tác động của Linux trong ngành công nghiệp máy chủ, nơi sự phát triển của nó đã cho phép nhiều nhà cung cấp cung cấp các giải pháp máy chủ tiêu chuẩn với chi phí thấp hơn.

📌 Xu hướng "hàng hóa" hóa LLM đang diễn ra mạnh mẽ nhờ chi phí chuyển đổi thấp, cạnh tranh gay gắt và sự phát triển của mã nguồn mở. Các chuyên gia phần mềm nên tận dụng xu hướng này để đánh giá cách LLM có thể giải quyết các thách thức kinh doanh một cách hiệu quả về chi phí. Các nhà nghiên cứu có thể xác định các lĩnh vực nghiên cứu mới tận dụng LLM.

https://cacm.acm.org/blogcacm/the-commoditization-of-llms/

Sony Research hợp tác với AI Singapore phát triển mô hình ngôn ngữ lớn SEA-LION

• Sony Research đã ký kết hợp tác với AI Singapore (AISG) để hỗ trợ thử nghiệm và tinh chỉnh mô hình AI Southeast Asian Languages in One Network (SEA-LION), tập trung vào các ngôn ngữ Ấn Độ.

• SEA-LION là một mô hình ngôn ngữ lớn nguồn mở được đào tạo trên 981 tỷ token ngôn ngữ, bao gồm 623 tỷ token tiếng Anh, 128 tỷ token Đông Nam Á và 91 tỷ token tiếng Trung.

• Sony sẽ thực hiện các bài kiểm tra và cung cấp phản hồi về mô hình AI, tận dụng sự hiện diện nghiên cứu của họ tại Ấn Độ và chuyên môn trong phát triển LLM cho các ngôn ngữ Ấn Độ, đặc biệt là tiếng Tamil.

• Tiếng Tamil được ước tính có khoảng 60-85 triệu người sử dụng trên toàn cầu, chủ yếu ở Ấn Độ và Đông Nam Á.

• Sony sẽ chia sẻ các phương pháp tốt nhất về phát triển LLM, phương pháp nghiên cứu, cũng như ứng dụng nghiên cứu trong tạo giọng nói, phân tích nội dung và nhận dạng.

• Việc tích hợp mô hình AI SEA-LION với khả năng ngôn ngữ Tamil có tiềm năng nâng cao hiệu suất của các ứng dụng mới.

• IBM và Google cũng đang tham gia vào việc tinh chỉnh LLM khu vực này, bao gồm cả việc cung cấp cho các nhà phát triển để xây dựng các ứng dụng AI tùy chỉnh.

• Sony Research tập trung vào phát triển công nghệ để cải thiện việc tạo nội dung và tương tác với người hâm mộ, bao gồm các lĩnh vực AI, cảm biến và không gian ảo.

• Đơn vị giải trí tương tác của Sony đã nộp đơn xin cấp bằng sáng chế cho một "thiết bị phát hiện quấy rối" sử dụng dữ liệu sinh trắc học và AI để phát hiện và giảm thiểu các hành vi độc hại trong trò chơi nhiều người chơi hoặc trải nghiệm thực tế ảo.

• Sony Music Group đã phát hành một tuyên bố vào tháng 5 nêu rõ rằng các tác phẩm có bản quyền của nghệ sĩ của họ không được phép sử dụng để đào tạo mô hình AI trừ khi được ủy quyền rõ ràng.

📌 Sony Research hợp tác với AI Singapore phát triển mô hình ngôn ngữ lớn SEA-LION cho Đông Nam Á, tập trung vào tiếng Tamil với 60-85 triệu người dùng. Dự án nhằm cải thiện đa dạng ngôn ngữ trong AI, đồng thời Sony cũng phát triển công nghệ phát hiện quấy rối trong trò chơi trực tuyến.

https://www.zdnet.com/article/sony-to-help-test-and-finetune-regional-large-language-model/

Mô hình Political DEBATE: Nguồn mở cho phân loại văn bản trong khoa học chính trị

• Các nhà nghiên cứu từ Đại học Princeton, Pennsylvania State và Louisiana State đã phát triển mô hình Political DEBATE (DeBERTa Algorithm for Textual Entailment) để phân loại văn bản chính trị.

• Mô hình có hai phiên bản: Large (304 triệu tham số) và Base (86 triệu tham số), được thiết kế để thực hiện phân loại zero-shot và few-shot hiệu quả.

• Political DEBATE sử dụng khung phân loại Natural Language Inference (NLI), cho phép sử dụng mô hình mã hóa ngôn ngữ nhỏ hơn như BERT, giảm đáng kể yêu cầu tính toán so với mô hình LLM tạo sinh.

• Nhóm nghiên cứu giới thiệu bộ dữ liệu PolNLI gồm hơn 200.000 tài liệu chính trị được gán nhãn, bao gồm 201.691 tài liệu ghép với 852 giả thuyết suy luận duy nhất.

• PolNLI được chia thành 4 nhiệm vụ chính: phát hiện quan điểm, phân loại chủ đề, phát hiện phát ngôn thù địch và độc hại, và trích xuất sự kiện.

• Dữ liệu được lấy từ nhiều nguồn đa dạng như mạng xã hội, tin tức, bản tin quốc hội, luật pháp và phản hồi từ cộng đồng. Phần lớn văn bản trong PolNLI do con người tạo ra.

• Mô hình Political DEBATE được xây dựng dựa trên DeBERTa V3 base và large, được tinh chỉnh trước cho phân loại NLI mục đích chung.

• Quá trình đào tạo sử dụng thư viện Transformers và được giám sát bằng thư viện Weights and Biases. Việc lựa chọn mô hình cuối cùng dựa trên đánh giá định lượng và định tính.

• Political DEBATE được so sánh với 4 mô hình khác: DeBERTa base và large NLI mục đích chung, Llama 3.1 8B nguồn mở và Claude 3.5 Sonnet độc quyền.

• Mô hình thể hiện khả năng học ít mẫu hiệu quả, học các nhiệm vụ mới chỉ với 10-25 tài liệu được lấy mẫu ngẫu nhiên.

• Phân tích hiệu quả chi phí cho thấy Political DEBATE nhanh hơn đáng kể so với Llama 3.1 8B trên nhiều cấu hình phần cứng khác nhau.

• Mô hình hoạt động hiệu quả trên phần cứng phổ biến như GPU laptop (M3 max) và GPU đám mây miễn phí (Tesla T4).

📌 Mô hình Political DEBATE và bộ dữ liệu PolNLI mang lại giải pháp nguồn mở hiệu quả cho phân loại văn bản chính trị. Với 304 triệu tham số, mô hình có thể xử lý 5.000 tài liệu trong vài phút trên phần cứng phổ thông, đạt hiệu suất tương đương mô hình độc quyền lớn hơn nhiều lần.

 

https://www.marktechpost.com/2024/09/09/political-debate-language-models-open-source-solutions-for-efficient-text-classification-in-political-science/

Tất tần tật về Llama - mô hình AI tạo sinh nguồn mở đầy tiềm năng của Meta

• Llama là gia đình mô hình AI tạo sinh nguồn mở của Meta, gồm 3 phiên bản: Llama 8B, Llama 70B và Llama 405B. Phiên bản mới nhất là Llama 3.1, ra mắt tháng 7/2024.

• Các mô hình được huấn luyện trên dữ liệu web đa ngôn ngữ, mã nguồn công khai và dữ liệu tổng hợp. Llama 8B và 70B nhỏ gọn, có thể chạy trên laptop đến máy chủ. Llama 405B lớn hơn, yêu cầu phần cứng trung tâm dữ liệu.

Tất cả mô hình Llama có cửa sổ ngữ cảnh 128.000 token, tương đương khoảng 100.000 từ hoặc 300 trang.

Llama có thể thực hiện nhiều tác vụ như lập trình, trả lời câu hỏi toán học, tóm tắt tài liệu bằng 8 ngôn ngữ. Nó có thể xử lý hầu hết các tác vụ dựa trên văn bản nhưng chưa thể xử lý hình ảnh.

• Mô hình Llama 3.1 có thể được cấu hình để sử dụng các ứng dụng, công cụ và API bên thứ ba như Brave Search, Wolfram Alpha và trình thông dịch Python.

• Người dùng có thể trò chuyện với Llama thông qua chatbot Meta AI trên Facebook Messenger, WhatsApp, Instagram, Oculus và Meta.ai.

• Nhà phát triển có thể tải xuống, sử dụng hoặc tinh chỉnh Llama trên hầu hết các nền tảng đám mây phổ biến. Meta có hơn 25 đối tác lưu trữ Llama, bao gồm Nvidia, Databricks, Groq, Dell và Snowflake.

• Meta cung cấp các công cụ để làm cho Llama "an toàn hơn" khi sử dụng:
- Llama Guard: khung kiểm duyệt nội dung
- Prompt Guard: công cụ bảo vệ chống tấn công prompt injection 
- CyberSecEval: bộ đánh giá rủi ro an ninh mạng

Hạn chế của Llama bao gồm nguy cơ vi phạm bản quyền và khả năng tạo ra mã lỗi hoặc không an toàn. Cần có chuyên gia xem xét trước khi sử dụng mã do AI tạo ra.

📌 Llama là mô hình AI tạo sinh nguồn mở tiên tiến của Meta với 3 phiên bản (8B, 70B, 405B), có khả năng đa dạng trong xử lý ngôn ngữ tự nhiên. Meta cung cấp nhiều công cụ hỗ trợ, nhưng vẫn cần thận trọng về vấn đề bản quyền và an toàn khi sử dụng.

https://techcrunch.com/2024/09/08/meta-llama-everything-you-need-to-know-about-the-open-generative-ai-model/

SLM và LLM: Tại sao các mô hình AI tạo sinh nhỏ hơn lại tốt hơn?

SLM (Small Language Model) là các mô hình ngôn ngữ nhỏ, thường có dưới 20 tỷ tham số, trong khi LLM (Large Language Model) như GPT-4 có tới 1,76 nghìn tỷ tham số.

• SLM được thiết kế nhỏ gọn và hiệu quả hơn, cho phép xử lý nhanh hơn và chi phí tính toán thấp hơn, đặc biệt trong môi trường hạn chế tài nguyên.

• Các mô hình nhỏ như Microsoft Phi-2 (2,7 tỷ tham số) đã cho thấy hiệu suất đáng kinh ngạc trong các tác vụ liên quan đến mã. IBM Granite (13 tỷ tham số) thậm chí còn vượt trội hơn Llama 2 (70 tỷ tham số) trong 9/11 tác vụ tài chính.

SLM cho phép phát triển các mô hình chuyên biệt theo lĩnh vực (Domain-Aligned Models), đặc biệt hữu ích cho các ngành như luật, tài chính, bảo hiểm và y tế.

• Đối với nhà phát triển, SLM giúp rút ngắn chu kỳ phát triển tới 60-70% so với LLM. Khả năng tinh chỉnh trên dữ liệu chuyên ngành mà không tốn kém đang dân chủ hóa việc phát triển AI.

SLM có thể chạy trên cả đám mây và thiết bị người dùng cuối. Trên đám mây, GPU nhỏ hơn như T4 hoặc V100 có thể xử lý hầu hết khối lượng công việc SLM. Tại biên, các bộ tăng tốc phần cứng như Google Edge TPU hoặc NVIDIA Jetson series đang cho kết quả đầy hứa hẹn.

SLM đặc biệt phù hợp cho các ứng dụng AI thời gian thực, độ trễ thấp trên các thiết bị như điện thoại thông minh, máy tính bảng và cảm biến IoT.

Tuy nhiên, SLM cũng có hạn chế như khó xử lý các tác vụ phức tạp đòi hỏi kiến thức rộng hoặc khả năng suy luận tổng quát. Chúng cũng có thể kém linh hoạt hơn trong việc xử lý sự mơ hồ hoặc tạo ra nội dung sáng tạo so với LLM lớn hơn.

• Xu hướng SLM đang thúc đẩy việc đổi mới trong kiến trúc mô hình, kỹ thuật đào tạo và chiến lược triển khai AI. Các công ty như Katonic AI đang tập trung vào các lĩnh vực như chưng cất kiến thức và mô hình hóa thưa thớt để tăng khả năng trong không gian tham số nhỏ hơn.

• Sự phát triển từ LLM đa năng sang SLM chuyên biệt cho thấy xu hướng hướng tới các giải pháp AI hiệu quả và phù hợp với từng lĩnh vực cụ thể.

📌 SLM đang định hình tương lai của AI với hiệu suất ấn tượng trong các tác vụ chuyên biệt, giảm 60-70% thời gian phát triển và chi phí. Xu hướng này hứa hẹn mở ra khả năng áp dụng AI tạo sinh quy mô lớn, có tiềm năng cách mạng hóa toàn bộ ngành công nghiệp AI.

 

https://www.digit.in/features/general/slm-vs-llm-why-smaller-gen-ai-models-maybe-better.html

DeepMind ra mắt GenRM - phương pháp  cải thiện độ chính xác của LLM bằng cách tự xác minh kết quả

• DeepMind, Google, Đại học Toronto, Mila và UCLA đã giới thiệu GenRM - phương pháp mới giúp cải thiện độ chính xác của mô hình ngôn ngữ lớn (LLM) bằng cách tận dụng khả năng tạo sinh để xác minh kết quả.

• GenRM khắc phục hạn chế của các phương pháp xác minh truyền thống như mô hình phân biệt và LLM-as-a-Judge bằng cách huấn luyện bộ xác minh sử dụng dự đoán token tiếp theo.

• Bộ xác minh GenRM có thể tạo ra các bước suy luận trung gian (chain-of-thought) trước khi đưa ra quyết định về tính đúng đắn của giải pháp, giúp phát hiện các lỗi suy luận tinh vi.

GenRM sử dụng kỹ thuật bỏ phiếu đa số bằng cách lấy mẫu nhiều chuỗi chain-of-thought và tính điểm trung bình, tận dụng hiệu quả tính toán thời gian thử nghiệm.

• Trong các thử nghiệm trên nhiều tác vụ suy luận, GenRM với chain-of-thought vượt trội hơn các phương pháp khác về độ chính xác.

Trên bộ dữ liệu GSM8K về suy luận toán học, mô hình Gemma-9B được huấn luyện với GenRM đạt độ chính xác 92,8%, vượt qua cả GPT-4 và Gemini 1.5 Pro.

• GenRM có khả năng mở rộng tốt khi tăng kích thước tập dữ liệu và dung lượng mô hình. Nó cũng tiếp tục cải thiện khi được phép lấy mẫu nhiều phản hồi hơn.

• So với các bộ xác minh cổ điển, GenRM có thể vượt trội hơn khi sử dụng cùng dữ liệu bằng cách huấn luyện đồng thời về tạo sinh và xác minh.

• Các hướng phát triển tiềm năng của GenRM bao gồm mở rộng quy mô các lý do xác minh tổng hợp cho các tác vụ tạo sinh mở, tích hợp vào quy trình học tăng cường, và tận dụng các khả năng nâng cao của LLM như học ít mẫu, tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, ReAct, và tạo/thực thi mã.

• GenRM có thể là một công cụ thực tế cho các ứng dụng LLM khi các phương pháp xác minh hiện tại không hiệu quả.

📌 GenRM của DeepMind đã đạt được bước đột phá trong việc cải thiện độ chính xác của LLM bằng cách tận dụng khả năng tạo sinh để tự xác minh. Với độ chính xác 92,8% trên GSM8K, vượt qua GPT-4, GenRM hứa hẹn mang lại tiến bộ đáng kể cho các ứng dụng AI yêu cầu suy luận phức tạp.

https://venturebeat.com/ai/deepminds-genrm-improves-llm-accuracy-by-having-models-verify-their-own-outputs/

Cohere For AI ra mắt 2 mô hình ngôn ngữ mạnh mẽ C4AI Command R+ 104B tham số và C4AI Command R 35B

• Cohere For AI vừa công bố 2 mô hình ngôn ngữ tiên tiến:
- C4AI Command R+ 08-2024: 104 tỷ tham số
- C4AI Command R 08-2024: 35 tỷ tham số

• C4AI Command R+ 08-2024 có những tính năng nổi bật:
- Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG)
- Khả năng sử dụng công cụ nâng cao để tự động hóa các tác vụ phức tạp nhiều bước
- Hỗ trợ 23 ngôn ngữ, được đánh giá trên 10 ngôn ngữ
- Sử dụng kiến trúc transformer tối ưu hóa với Grouped Query Attention (GQA)
- Độ dài ngữ cảnh lên tới 128K token

• Khả năng tạo sinh có căn cứ:
- Có thể tạo ra phản hồi dựa trên các đoạn văn bản cụ thể được cung cấp
- Bao gồm trích dẫn nguồn thông tin, tăng độ tin cậy

• Khả năng sử dụng công cụ:
- Có thể tương tác với nhiều công cụ khác nhau trong một cuộc hội thoại
- Sử dụng công cụ lặp lại hoặc công cụ trả lời trực tiếp khi cần thiết

• C4AI Command R 08-2024:
- Phiên bản nhỏ gọn hơn với 35 tỷ tham số 
- Vẫn có khả năng tương tự mô hình lớn nhưng ở quy mô nhỏ hơn
- Phù hợp cho môi trường có giới hạn về tài nguyên tính toán

• Ứng dụng và ý nghĩa:
- Mở ra khả năng tự động hóa các tác vụ phức tạp trong nhiều lĩnh vực
- Hữu ích cho nghiên cứu học thuật và triển khai thực tế trong các ngành như tài chính, y tế, dịch vụ khách hàng
- Đặc biệt hứa hẹn cho các tác vụ đòi hỏi độ chính xác cao và hiểu ngữ cảnh như pháp lý, y tế

• Cả hai mô hình đều được phát hành dưới dạng mã nguồn mở, cho phép các nhà nghiên cứu và nhà phát triển trên toàn cầu tiếp cận và sử dụng

📌 Cohere For AI đã tạo bước đột phá với 2 mô hình AI mạnh mẽ: Command R+ 104 tỷ tham số và Command R 35 tỷ tham số. Chúng hỗ trợ 23 ngôn ngữ, có khả năng tạo sinh, suy luận và sử dụng công cụ tiên tiến, mở ra tiềm năng tự động hóa các tác vụ phức tạp trong nhiều lĩnh vực.

https://www.marktechpost.com/2024/09/01/updated-versions-of-command-r-35b-and-command-r-104b-released-two-powerful-language-models-with-104b-and-35b-parameters-for-multilingual-ai/

Cohere nâng cấp Command R:  lập trình, toán học và suy luận tốt hơn cho AI doanh nghiệp

• Cohere vừa công bố những cải tiến đáng kể cho dòng mô hình ngôn ngữ lớn Command R, nhằm nâng cao hiệu suất về lập trình, toán học, suy luận và độ trễ cho khách hàng doanh nghiệp.

• Được thành lập năm 2019 bởi các cựu nhà nghiên cứu Google Brain, Cohere đang tạo ra làn sóng trong lĩnh vực AI doanh nghiệp với trọng tâm vào các ứng dụng dành riêng cho doanh nghiệp.

Bản cập nhật mới nhất giải quyết các vấn đề then chốt cho khách hàng doanh nghiệp, bao gồm cải thiện hiệu suất trong các tác vụ lập trình phức tạp và nâng cao khả năng toán học.

• Aidan Gomez, CEO và đồng sáng lập Cohere, cho biết phiên bản mới nhất của dòng mô hình Command R mang lại cải tiến về lập trình, toán học, suy luận và độ trễ.

• Thông báo này được đưa ra sau một năm phát triển đáng kể của Cohere. Vào tháng 7, công ty đã huy động được 500 triệu USD trong vòng gọi vốn Series D do PSP Investments dẫn đầu, định giá startup ở mức 5,5 tỷ USD.

Chiến lược của Cohere tập trung vào khách hàng doanh nghiệp, đặt cược vào việc các tập đoàn sẽ trả phí cao hơn cho các giải pháp AI có thể tích hợp liền mạch vào quy trình làm việc và giao thức bảo mật hiện có của họ.

Cách tiếp cận của Cohere bao gồm triển khai các mô hình trong môi trường đám mây riêng và tập trung vào tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để cải thiện độ chính xác và giảm ảo giác.

• Chiến lược này nhằm giải quyết những lo ngại ngày càng tăng về quyền riêng tư dữ liệu, độ chính xác của mô hình và các tác động đạo đức của AI.

• Cohere đang đối mặt với sự cạnh tranh gay gắt từ cả các gã khổng lồ công nghệ và các startup được tài trợ mạnh mẽ như OpenAI, Google và Anthropic.

Mô hình Command R mới nhất của Cohere (cmd-r 08-2024) cho thấy sự cải thiện đáng kể về cả thông lượng và độ trễ so với phiên bản trước đó. Phiên bản mới tăng gấp đôi tốc độ xử lý token đồng thời giảm gần một nửa độ trễ đầu cuối.

Cohere gần đây đã hợp tác với Fujitsu để phát triển các mô hình ngôn ngữ lớn cho doanh nghiệp Nhật Bản, minh họa tham vọng toàn cầu và tập trung vào các giải pháp tùy chỉnh cho các thị trường cụ thể.

📌 Cohere nâng cấp Command R với khả năng lập trình, toán học và suy luận tốt hơn, nhắm đến thị trường AI doanh nghiệp trị giá hàng tỷ USD. Công ty đối mặt cạnh tranh gay gắt từ các gã khổng lồ công nghệ, nhưng tập trung vào bảo mật dữ liệu và tùy chỉnh có thể mang lại lợi thế.

https://venturebeat.com/ai/cohere-just-made-command-r-smarter-heres-why-businesses-should-care/

"Siêu mô hình" Gemini 1.5 mới của Google đạt siêu chính xác (>99%) với ngữ cảnh siêu dài (10 triệu token)

• Google vừa phát hành 3 phiên bản thử nghiệm mới trong dòng mô hình Gemini 1.5:
- Gemini 1.5 Flash-8B: mô hình nhỏ hơn với 8 tỷ tham số
- Gemini 1.5 Pro cải tiến: mạnh hơn ở toán học, lập trình và xử lý yêu cầu phức tạp
- Gemini 1.5 Flash cải tiến: hiệu suất tốt hơn trên một số tiêu chuẩn đánh giá nội bộ

• Mục đích của việc phát hành các mô hình thử nghiệm là để thu thập phản hồi và đưa các cập nhật mới nhất đến tay các nhà phát triển.

• Gemini 1.5 Pro phiên bản mới (0827) sẽ thay thế phiên bản cũ (0801) từ ngày 3/9.

Trên bảng xếp hạng Chatbot Arena, Gemini 1.5 Pro mới xếp hạng #2 và Flash xếp hạng #6, ngang ngửa với GPT-4o và GPT-4o mini. Cả hai đều vượt qua Claude 3.5 Sonnet, Grok 2, Grok 2 mini và Llama 3.1.

• Dòng Gemini 1.5 được thiết kế để xử lý ngữ cảnh rất dài, có thể xử lý đầu vào đa phương thức như toàn bộ bộ sưu tập tài liệu, nhiều giờ video và gần 5 ngày âm thanh.

Gemini 1.5 đạt độ chính xác gần như hoàn hảo (>99%) trong truy xuất thông tin với tối đa 10 triệu token, vượt xa Claude 3.0 (200.000 token) và GPT-4 Turbo (128.000 token).

• Theo báo cáo kỹ thuật, Gemini 1.5 có thể giúp các chuyên gia tiết kiệm tới 75% thời gian cho các tác vụ trong 10 danh mục công việc.

• Một khả năng đáng chú ý của Gemini 1.5 là học dịch từ tiếng Anh sang tiếng Kalamang (ngôn ngữ chỉ có dưới 200 người nói) ở mức độ tương đương con người chỉ từ một cuốn sách ngữ pháp.

Phản ứng của người dùng về các mô hình thử nghiệm này còn trái chiều. Một số khen ngợi tốc độ phát hành nhanh chóng của Google, trong khi số khác tỏ ra không ấn tượng và yêu cầu phát hành Gemini 2.0.

• Google dự kiến sẽ ra mắt phiên bản sản xuất trong vài tuần tới, kèm theo các đánh giá chi tiết.

• Người dùng có thể dùng thử cả 3 mô hình miễn phí trên Google AI Studio và Gemini API ngay từ hôm nay.

📌 Google mở rộng dòng Gemini 1.5 với 3 mô hình thử nghiệm mới, đạt độ chính xác truy xuất >99% với 10 triệu token, vượt xa GPT-4 Turbo (128.000 token). Gemini 1.5 Pro xếp hạng #2 trên Chatbot Arena, ngang ngửa GPT-4o. Người dùng có thể dùng thử miễn phí ngay hôm nay.

https://www.zdnet.com/article/googles-new-gemini-models-can-process-almost-five-days-of-audio/

Google vừa công bố 3 mô hình AI thử nghiệm mới

- Google đã công bố ba mô hình AI thử nghiệm mới, bao gồm Gemini 1.5 Flash-8B, Gemini 1.5 Pro và Gemini 1.5 Flash.
- Mô hình Gemini 1.5 Flash-8B là phiên bản nhỏ hơn với 8 tỷ tham số, được thiết kế cho các tác vụ đa phương tiện và tóm tắt ngữ cảnh dài.
- Mô hình này hiện có sẵn miễn phí qua Google AI Studio và API Gemini với tên gọi "gemini-1.5-flash-8b-exp-0827".
- Các phiên bản cập nhật của Gemini 1.5 Pro và Flash cũng đã được phát hành, với những cải tiến đáng kể về hiệu suất.
- Theo Logan Kilpatrick, người phát ngôn của Google, mô hình 1.5 Flash đã cho thấy sự cải thiện lớn trong nhiều tiêu chí nội bộ.
- Mô hình Gemini 1.5 Pro Exp 0827 mới vượt trội hơn so với mô hình thử nghiệm được phát hành vào đầu tháng 8 trong tất cả các khía cạnh.
- Từ ngày 3 tháng 9, các yêu cầu cho mô hình "gemini-1.5-pro-exp-0801" sẽ tự động chuyển hướng đến mô hình mới "gemini-1.5-pro-exp-0827".
- Mô hình "gemini-1.5-pro-exp-0801" sẽ bị xóa khỏi Google AI Studio và API.
- Các mô hình mới có thể truy cập qua API Gemini và Google AI Studio với tên "gemini-1.5-pro-exp-0827" và "gemini-1.5-flash-exp-0827".
- Google cung cấp một tầng miễn phí trong API Gemini cho cả hai mô hình và có kế hoạch phát hành phiên bản sử dụng trong sản xuất trong vài tuần tới.
- Việc phát hành các mô hình này nhằm thu thập phản hồi từ các nhà phát triển và giới thiệu những tiến bộ mới nhất trong công nghệ AI.

📌 Google đã công bố ba mô hình AI thử nghiệm mới với nhiều cải tiến đáng kể. Mô hình Gemini 1.5 Flash-8B có 8 tỷ tham số, hiện đã có sẵn miễn phí. Các phiên bản cập nhật của Gemini 1.5 Pro và Flash cho thấy hiệu suất vượt trội trong các bài kiểm tra nội bộ.

 

https://the-decoder.com/google-releases-three-new-experimental-ai-models/

Llama3 đã có tai: Llama3-s v0.2 mới với khả năng hiểu tiếng nói nâng cao

• Homebrew Research giới thiệu Llama3-s v0.2, một mô hình ngôn ngữ đa phương thức mới nhằm cải thiện khả năng hiểu tiếng nói trong xử lý ngôn ngữ tự nhiên.

Mô hình này dựa trên nền tảng của Llama 3.1, tích hợp bộ mã hóa âm thanh được đào tạo trước (như WhisperVQ) để chuyển đổi âm thanh nói thành biểu diễn số mà mô hình ngôn ngữ có thể xử lý.

• Llama3-s v0.2 sử dụng phương pháp đào tạo đa phương thức, kết hợp đầu vào văn bản và âm thanh, giúp mô hình học hiệu quả mối quan hệ giữa ngôn ngữ nói và biểu diễn văn bản của nó.

• Mô hình áp dụng các token ngữ nghĩa, là biểu diễn trừu tượng của ý nghĩa từ, để cải thiện khả năng hiểu nội dung cơ bản của lời nói.

• Quá trình đào tạo gồm hai giai đoạn: (1) Đào tạo trước trên dữ liệu tiếng nói thực từ bộ dữ liệu MLS-10k, gồm 10 giờ tiếng nói đa ngôn ngữ không nhãn; (2) Điều chỉnh hướng dẫn với dữ liệu tổng hợp, sử dụng WhisperVQ để mã hóa ngữ nghĩa dữ liệu tiếng nói.

• Llama3-s v0.2 cho kết quả vượt trội so với các mô hình hiện có trên nhiều tiêu chuẩn đánh giá, bao gồm ALPACA-Audio và AudioBench.

• Trên đánh giá ALPACA-Audio, Llama3-s v0.2 đạt điểm trung bình 3,53, vượt qua SALMONN, Qwen-Audio và WavLLM.

Mô hình vẫn còn một số hạn chế như nhạy cảm với tiếng ồn nền và khó khăn với đầu vào âm thanh kéo dài.

• Llama3-s v0.2 mở ra khả năng ứng dụng mới trong thế giới thực, giúp công nghệ trở nên dễ tiếp cận và thân thiện với người dùng hơn.

• Việc tích hợp đầu vào âm thanh và văn bản cùng với tokenization ngữ nghĩa nâng cao giúp mô hình vượt qua những hạn chế của các mô hình ngôn ngữ truyền thống trong việc hiểu tiếng nói.

📌 Llama3-s v0.2 là bước tiến quan trọng trong phát triển mô hình ngôn ngữ đa phương thức hiểu tiếng nói. Với điểm trung bình 3,53 trên ALPACA-Audio, vượt trội so với các mô hình khác, nó mở ra triển vọng ứng dụng rộng rãi trong tương tác người-máy tự nhiên hơn.

https://www.marktechpost.com/2024/08/24/llama3-just-got-ears-llama3-s-v0-2-a-new-multimodal-checkpoint-with-improved-speech-understanding/

Chi phí đào tạo các mô hình AI đã tăng vọt trong năm qua

- Chi phí đào tạo các mô hình AI đã tăng mạnh trong năm qua, với dữ liệu từ Epoch AI cho thấy sự phức tạp và khả năng của các mô hình này đã gia tăng đáng kể.
- ChatGPT-4 được phát hành vào tháng 3 năm 2023, khởi đầu cho cơn sốt AI toàn cầu, theo sau là mô hình Gemini của Google vào tháng 12 cùng năm.
- Chi phí đào tạo mô hình Gemini ước tính từ 30 triệu đến 191 triệu USD, chưa bao gồm lương nhân viên, có thể chiếm từ 29% đến 49% tổng chi phí.
- ChatGPT-4 có chi phí kỹ thuật từ 41 triệu đến 78 triệu USD, với CEO OpenAI, Sam Altman, xác nhận rằng chi phí thực tế vượt quá 100 triệu USD.
- So với các mô hình trước đó, chi phí đào tạo đã tăng vọt; ChatGPT-3 chỉ tốn từ 2 triệu đến 4 triệu USD vào năm 2020, trong khi PaLM, tiền thân của Gemini, tốn từ 3 triệu đến 12 triệu USD vào năm 2022.
- Theo Epoch AI, với chi phí hiện tại, việc duy trì nghiên cứu AI ở các tổ chức công và học thuật trở nên gần như không thể.
- Chính quyền Biden đã tạo ra nguồn tài nguyên nghiên cứu AI quốc gia vào cuối năm 2023, nhằm cung cấp công cụ và trợ cấp cho các nhà nghiên cứu, nhưng vẫn đang trong giai đoạn thử nghiệm.
- Nguồn tài nguyên này tập trung vào việc thiết lập tiêu chuẩn an toàn và quyền riêng tư cho AI, bảo vệ quyền lợi của người tiêu dùng và nhân viên.
- ChatGPT-4, mặc dù đã được cập nhật để hỗ trợ đầu vào giọng nói và hình ảnh, nhưng ban đầu tập trung vào đầu vào văn bản, dẫn đến chi phí đào tạo thấp hơn so với Gemini.
- Gemini được thiết kế như một mô hình đa phương tiện từ đầu, cho phép người dùng tương tác qua hình ảnh và giọng nói, điều này có thể làm tăng chi phí phát triển.
- Các tính năng thương mại của Gemini, như tìm kiếm sản phẩm qua hình ảnh, cho thấy Google đang áp dụng danh tiếng của mình trong lĩnh vực tìm kiếm vào mô hình AI.
- Mô hình DALL-E của OpenAI có chi phí đào tạo thấp hơn nhiều, chỉ từ 118.000 đến 335.000 USD vào năm 2021, cho thấy sự khác biệt lớn trong chi phí giữa các loại mô hình AI.

📌 Chi phí đào tạo AI đã tăng vọt lên hàng triệu USD cho các mô hình như ChatGPT-4 và Gemini, với các ước tính từ 30 triệu đến 191 triệu USD. Chính quyền Biden đang nỗ lực hỗ trợ nghiên cứu AI qua các nguồn tài nguyên mới, nhưng thách thức tài chính vẫn còn lớn.

https://timesofindia.indiatimes.com/technology/times-techies/why-genai-can-become-a-threat-to-itself/articleshow/112725659.cms

Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM, đẩy mạnh khả năng hiểu hình ảnh

• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.

Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.

Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.

• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.

• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.

• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.

• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.

• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.

• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.

Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.

📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.

https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/

Sự đột phá trong việc tạo văn bản siêu dài bằng AI: AgentWrite và LongWriter-6k

Các mô hình ngôn ngữ lớn (LLM) hiện tại có thể xử lý đầu vào lên đến 100.000 từ nhưng chỉ tạo ra đầu ra tối đa 2.000 từ, gây hạn chế cho các ứng dụng cần tạo văn bản dài.

Hơn 1% yêu cầu từ người dùng cần đầu ra vượt quá 2.000 từ, cho thấy nhu cầu về mô hình có khả năng tạo văn bản dài hơn.

AgentWrite, một pipeline dựa trên agent, chia nhỏ các tác vụ tạo văn bản siêu dài thành các tác vụ con, cho phép LLM hiện có tạo ra đầu ra mạch lạc vượt quá 20.000 từ.

• Các tác giả xây dựng bộ dữ liệu LongWriter-6k gồm 6.000 điểm dữ liệu huấn luyện có độ dài từ 2.000 đến 32.000 từ.

• Mô hình 9B tham số của họ, được cải thiện thông qua DPO, đạt hiệu suất tốt nhất trên một benchmark mới đánh giá khả năng tạo văn bản siêu dài.

• Phương pháp sử dụng LLM làm trọng tài, dùng GPT-4o để đánh giá chất lượng đầu ra trên nhiều khía cạnh như liên quan, chính xác, mạch lạc và trải nghiệm đọc.

• Kết hợp kỹ thuật tạo dữ liệu mới, benchmark đánh giá toàn diện và chiến lược huấn luyện tiên tiến để cải thiện đáng kể khả năng tạo văn bản dài của LLM.

AgentWrite đã mở rộng thành công độ dài đầu ra của mô hình GPT-4o từ 2.000 lên khoảng 20.000 từ.

Đánh giá trên LongBench-Write cho thấy tăng 5% điểm chất lượng tổng thể cho mô hình được huấn luyện với LongWriter-6k, đặc biệt là trong các tác vụ yêu cầu đầu ra 2.000-4.000 từ.

• Cải thiện lớn nhất là ở khía cạnh "Độ rộng và Độ sâu", với 18% cải thiện tuyệt đối so với mô hình cơ sở.

Nghiên cứu loại bỏ cho thấy việc đưa ra kế hoạch viết trước khi tạo nội dung không cải thiện đáng kể hiệu suất, nhưng huấn luyện với LongWriter-6k là quan trọng để đạt được đầu ra dài hơn mà không làm giảm chất lượng.

• Mô hình LongWriter-9B vượt trội hơn GLM-4-9B trên benchmark LongBench-Write, cho thấy hiệu quả của phương pháp đề xuất.

• Các thử nghiệm xác nhận cải thiện đáng kể cả về độ dài đầu ra và chất lượng, chứng minh tiềm năng của framework LongWriter cho các tác vụ tạo văn bản siêu dài.

📌 AgentWrite và LongWriter-6k đã mở rộng khả năng tạo văn bản của LLM từ 2.000 lên 20.000 từ. Mô hình 9B tham số đạt hiệu suất tốt nhất trên benchmark mới, với cải thiện 18% về độ rộng và độ sâu. Nghiên cứu này đánh dấu bước tiến quan trọng trong lĩnh vực tạo văn bản siêu dài bằng AI.

https://www.marktechpost.com/2024/08/17/scaling-llm-outputs-the-role-of-agentwrite-and-the-longwriter-6k-dataset/

Med42-v2: Bộ sưu tập LLM lâm sàng đột phá dựa trên Llama3, chính xác 94,5% trên các tiêu chuẩn y tế

- AI chăm sóc sức khỏe đang phát triển nhanh chóng, với các mô hình ngôn ngữ lớn (LLM) nổi lên như những công cụ mạnh mẽ để biến đổi các khía cạnh của thực hành lâm sàng

- Một thách thức lớn trong việc triển khai AI trong chăm sóc sức khỏe là hầu hết các mô hình ngôn ngữ chung cần thêm độ sâu về hiểu biết để thực sự hiệu quả trong các tình huống lâm sàng

- Các nhà nghiên cứu từ M42 Abu Dhabi, UAE, đã giới thiệu bộ sưu tập các mô hình ngôn ngữ lớn lâm sàng Med42-v2, được xây dựng trên kiến trúc Llama3 tiên tiến

- Quá trình phát triển Med42-v2 bao gồm hai giai đoạn huấn luyện nhằm tối ưu hóa các mô hình cho việc sử dụng lâm sàng

- Hiệu suất của các mô hình Med42-v2 đã được kiểm tra nghiêm ngặt trên nhiều tiêu chuẩn y tế, cho thấy sự vượt trội của chúng so với các tiền nhiệm Llama3 và các mô hình hàng đầu khác như GPT-4

📌Med42-v2 cung cấp một giải pháp phù hợp với nhu cầu chăm sóc sức khỏe bằng cách vượt qua các hạn chế của các mô hình chung. Hiệu suất vượt trội của nó trên nhiều tiêu chuẩn cho thấy tiềm năng của nó trong việc cách mạng hóa việc ra quyết định lâm sàng, chăm sóc bệnh nhân và nghiên cứu y tế.

https://www.marktechpost.com/2024/08/13/med42-v2-released-a-groundbreaking-suite-of-clinical-large-language-models-built-on-llama3-architecture-achieving-up-to-94-5-accuracy-on-medical-benchmarks/

Mô hình AI HQQ Llama-3.1-70B: bước đột phá với 70 tỷ tham số

- HQQ Llama-3.1-70B được Mobius Labs phát hành, sở hữu 70 tỷ tham số, nhằm nâng cao khả năng trong xử lý ngôn ngữ tự nhiên (NLP), nhận diện hình ảnh và phân tích dữ liệu.
- Mô hình này được thiết kế để cung cấp hiệu suất vượt trội trong các tác vụ yêu cầu hiểu và tạo ra văn bản giống như con người.
- HQQ Llama-3.1-70B là sự tiến bộ lớn trong công nghệ AI, được xây dựng trên nền tảng của các thế hệ trước nhưng có nhiều cải tiến đáng kể về hiệu quả và độ chính xác.
- Mô hình này dự kiến sẽ ảnh hưởng đến nhiều ngành công nghiệp như y tế, tài chính, giải trí và giáo dục, nơi giải pháp AI ngày càng trở nên quan trọng.
- Mobius Labs đã tích hợp các thuật toán tiên tiến giúp mô hình hiểu ngữ cảnh một cách tinh tế hơn, tạo ra văn bản mạch lạc và phù hợp hơn với ngữ cảnh.
- HQQ Llama-3.1-70B là công cụ lý tưởng cho chatbot, trợ lý ảo và các ứng dụng tạo nội dung tự động, nhờ khả năng học hỏi từ các tập dữ liệu lớn.
- Mô hình cũng nổi bật trong lĩnh vực nhận diện hình ảnh và phân tích dữ liệu, xử lý dữ liệu hình ảnh hiệu quả hơn, nhận diện các mẫu và đặc điểm với độ chính xác cao hơn.
- Điều này mở ra nhiều khả năng ứng dụng trong an ninh, phương tiện tự hành và hình ảnh y tế, nơi nhận diện hình ảnh chính xác là rất quan trọng.
- Mobius Labs đã tối ưu hóa HQQ Llama-3.1-70B để nó có thể triển khai trên nhiều phần cứng khác nhau, từ máy chủ hiệu suất cao đến các nền tảng đám mây dễ tiếp cận.
- Mô hình này mang lại sự linh hoạt cho các tổ chức với quy mô khác nhau, giúp họ tích hợp các khả năng AI tiên tiến mà không cần đầu tư cơ sở hạ tầng lớn.
- Mobius Labs cũng chú trọng đến các vấn đề đạo đức liên quan đến việc triển khai các hệ thống AI tiên tiến, đặc biệt là về quyền riêng tư dữ liệu, thiên kiến và lạm dụng.
- Họ đã thiết lập các hướng dẫn và thực tiễn tốt nhất cho việc sử dụng mô hình AI một cách đạo đức, cam kết nghiên cứu và phát triển liên tục để đảm bảo sự công bằng và minh bạch.

📌 HQQ Llama-3.1-70B của Mobius Labs, với 70 tỷ tham số, cải thiện đáng kể trong NLP, nhận diện hình ảnh và phân tích dữ liệu, mở ra nhiều ứng dụng mới. Mô hình này không chỉ nâng cao hiệu suất mà còn chú trọng đến các vấn đề đạo đức trong AI.

https://www.marktechpost.com/2024/08/14/hqq-llama-3-1-70b-released-a-groundbreaking-ai-model-that-achieves-99-of-the-base-model-performance-across-various-benchmarks/

Prompt Caching với Claude: Giảm chi phí và độ trễ lên đến 90% cho các prompt dài

- Tính năng lưu cache prompt mới của Claude, cho phép lưu trữ ngữ cảnh được sử dụng thường xuyên giữa các cuộc gọi API, đang được cung cấp trong giai đoạn beta công khai cho Claude 3.5 Sonnet và Claude 3 Haiku. Hỗ trợ cho Claude 3 Opus sẽ sớm được ra mắt.

- Prompt caching có thể hiệu quả trong các tình huống muốn gửi một lượng lớn ngữ cảnh prompt một lần và sau đó tham chiếu đến thông tin đó nhiều lần trong các yêu cầu tiếp theo, bao gồm: conversational agents, coding assistants, large document processing, detailed instruction sets, agentic search và tool use, talk to books, papers, documentation, podcast transcripts, và các nội dung dài khác.

- Khách hàng sớm đã nhận thấy những cải thiện đáng kể về tốc độ và chi phí với prompt caching cho nhiều trường hợp sử dụng khác nhau, từ việc bao gồm cơ sở kiến thức đầy đủ đến 100-shot examples và mỗi lượt của một cuộc trò chuyện trong prompt của họ.

- Notion đang thêm prompt caching vào các tính năng do Claude cung cấp cho trợ lý AI của họ, Notion AI. Với chi phí giảm và tốc độ tăng, Notion có thể tối ưu hóa các hoạt động nội bộ và tạo ra trải nghiệm người dùng tốt hơn cho khách hàng của họ.

📌 Prompt caching giúp giảm chi phí lên đến 90% và độ trễ lên đến 85% cho các prompt dài, đồng thời cung cấp nhiều trường hợp sử dụng hiệu quả như conversational agents, coding assistants, large document processing và talk to books.

https://www.anthropic.com/news/prompt-caching

Elon Musk ra mắt Grok 2 - trợ lý AI dựa trên X mạnh mẽ hơn, có thể tạo ảnh

- X đã có chatbot AI riêng là Grok, nhưng chưa được nhắc đến nhiều như ChatGPT của OpenAI hay Gemini của Google.
- Phiên bản mới Grok-2 vừa bước vào giai đoạn beta, được X mô tả là "bước tiến lớn so với Grok-1.5 trước đây, với khả năng vượt trội trong trò chuyện, lập trình và suy luận".
- Grok-2 mini cũng được giới thiệu, là phiên bản nhỏ gọn nhưng vẫn rất mạnh mẽ của Grok-2. Phiên bản sớm của Grok-2 đã vượt qua Claude 3.5 Sonnet và GPT-4-Turbo trên bảng xếp hạng LMSYS.
- Grok-2 có khả năng vượt trội hơn các chatbot tương đương trong nhiều lĩnh vực như kiến thức khoa học cấp cao (GPQA), kiến thức tổng quát (MMLU, MMLU-Pro) và giải toán (MATH).
- Grok-2 cũng được tích hợp khả năng tạo ảnh thông qua mô hình Flux AI của Black Forest Labs.
- Grok sẽ có giao diện mới trên X và API doanh nghiệp vào cuối tháng này, với các tính năng bảo mật như xác thực đa yếu tố.


📌 Grok 2 - trợ lý AI mạnh mẽ mới của Elon Musk, dựa trên nền tảng X, vượt trội so với các chatbot khác về khả năng trò chuyện, lập trình, suy luận và tạo ảnh. Grok 2 sẽ sớm được tích hợp vào X với giao diện mới và API doanh nghiệp.

https://www.tomsguide.com/ai/elon-musk-drops-grok-2-the-x-based-ai-chatbot-is-now-more-powerful-and-can-make-images

FPT Software AI Center ra mắt XMainframe - LLM tiên tiến dành riêng cho hiện đại hóa mainframe

- XMainframe là mô hình ngôn ngữ lớn (LLM) được phát triển bởi Trung tâm AI của FPT Software, chuyên về hiện đại hóa hệ thống mainframe và mã COBOL.

- Hệ thống mainframe, ra đời từ những năm 1940, vẫn rất quan trọng trong các lĩnh vực tài chính và chính phủ, nhưng mã COBOL hiện tại cần được chuyển đổi sang nền tảng hiện đại.

- Ước tính có khoảng 200 đến 220 tỷ dòng mã COBOL cần được di chuyển, với chi phí viết lại dao động từ 32 đến 50 cent mỗi dòng, tổng chi phí lên tới 100 tỷ USD.

- Việc viết lại mã COBOL hoàn toàn bằng tay vẫn chưa có thời gian xác định, tạo ra một thách thức lớn cho ngành công nghiệp.

- Các mô hình ngôn ngữ lớn hiện tại thiếu đào tạo đầy đủ về các ngôn ngữ mainframe, dẫn đến khả năng hiểu và lý luận kém về mã COBOL.

- Các tổ chức thường giữ bí mật mã nguồn mainframe do yêu cầu bảo mật cao, khiến dữ liệu đào tạo trở nên hạn chế.

- Thiếu tài liệu tổng thể và mục tiêu kinh doanh rõ ràng cho các hệ thống mainframe gây khó khăn trong việc phát triển tiêu chuẩn đánh giá chất lượng cho LLM.

- XMainframe đã phát triển một quy trình thu thập dữ liệu rộng lớn để tạo ra các bộ dữ liệu đào tạo chất lượng cao, nâng cao hiệu suất trong lĩnh vực này.

- MainframeBench là một tiêu chuẩn đánh giá mới cho kiến thức về mainframe, bao gồm các câu hỏi trắc nghiệm, trả lời câu hỏi và tóm tắt mã COBOL.

- XMainframe đã chứng minh hiệu suất vượt trội so với các LLM hiện có, đạt độ chính xác cao hơn 30% so với DeepSeek-Coder trong các câu hỏi trắc nghiệm.

- Điểm BLEU của XMainframe trong việc trả lời câu hỏi gấp đôi so với Mixtral-Instruct 8x7B và đạt điểm cao gấp sáu lần so với GPT-3.5 trong tóm tắt COBOL.

- Nghiên cứu này cho thấy tiềm năng của XMainframe trong việc quản lý và hiện đại hóa các hệ thống kế thừa, từ đó nâng cao năng suất và tiết kiệm thời gian cho các nhà phát triển phần mềm.

 

📌 XMainframe là mô hình ngôn ngữ lớn tiên tiến, giúp hiện đại hóa mã nguồn kế thừa trị giá 100 tỷ USD, vượt trội hơn 30% so với các mô hình hiện tại trong các bài kiểm tra kiến thức về mainframe.

 

Citations:

[1] https://arxiv.org/abs/2408.046

 

https://www.marktechpost.com/2024/08/12/researchers-at-fpt-software-ai-center-introduce-xmainframe-a-state-of-the-art-large-language-model-llm-specialized-for-mainframe-modernization-to-address-the-100b-legacy-code-modernization/

Mamba: Kiến trúc AI mới với khả năng vượt trội trong xử lý chuỗi dài

- Mamba là một kiến trúc AI mới nổi, hứa hẹn cách mạng hóa lĩnh vực học sâu với khả năng xử lý chuỗi dài hiệu quả.
- Kiến trúc Mamba được phát triển để khắc phục những hạn chế của Transformers, đặc biệt là độ phức tạp tính toán bậc hai trong việc xử lý chuỗi dài.
- Mamba kết hợp các khái niệm từ mạng nơ-ron hồi tiếp (RNN), Transformers và mô hình không gian trạng thái, tạo ra một mô hình linh hoạt và hiệu quả.
- Cơ chế lựa chọn trong Mamba cho phép mô hình điều chỉnh trọng tâm dựa trên thông tin đầu vào, giúp xử lý dữ liệu đa dạng một cách hiệu quả.
- Mamba đạt được hiệu suất tính toán nhanh gấp ba lần so với các mô hình Transformer truyền thống trên GPU A100.
- Tốc độ tính toán nhanh của Mamba nhờ vào phương pháp quét, giảm thiểu chi phí tính toán liên quan đến các phép toán attention.
- Mamba duy trì khả năng mô hình hóa mạnh mẽ cho dữ liệu tuần tự phức tạp, giúp nắm bắt các phụ thuộc xa và quản lý bộ nhớ hiệu quả.
- Mô hình này thể hiện ưu thế trong các ứng dụng như sinh văn bản và xử lý hình ảnh, nơi việc duy trì ngữ cảnh qua các chuỗi dài là rất quan trọng.
- Nghiên cứu này tổng hợp các nghiên cứu gần đây liên quan đến Mamba, bao gồm các cải tiến trong mô hình Mamba và các ứng dụng tiềm năng.
- Mặc dù Mamba có nhiều ưu điểm, nhưng cũng tồn tại một số hạn chế cần được nghiên cứu thêm để tối ưu hóa hiệu suất.

📌 Mamba là một kiến trúc AI mới với khả năng xử lý chuỗi dài hiệu quả, nhanh gấp ba lần so với Transformers trên GPU A100, mở ra nhiều ứng dụng tiềm năng trong học sâu và nghiên cứu AI.

https://www.marktechpost.com/2024/08/11/revolutionizing-ai-with-mamba-a-survey-of-its-capabilities-and-future-directions/

Tiến độ phát triển của LLM đang chậm lại - điều này sẽ có ý nghĩa gì đối với AI?

- Chúng ta đã quen với việc các mô hình ngôn ngữ lớn (LLM) liên tục được cải thiện và trở nên mạnh mẽ hơn sau khi ChatGPT ra mắt vào ngày 30 tháng 11 năm 2022. Tuy nhiên, gần đây có dấu hiệu cho thấy tốc độ này có thể đang chậm lại đáng kể.

- Xét về các bản phát hành của OpenAI, chúng ta thấy sự tiến bộ giữa các thế hệ GPT đang giảm dần. GPT-4o mới đây chỉ cung cấp khả năng đa phương tiện tăng cường nhưng không có nhiều cải tiến về sức mạnh. Các LLM khác như Claude 3 của Anthropic và Gemini Ultra của Google cũng có xu hướng hội tụ xung quanh các mốc tốc độ và sức mạnh tương tự GPT-4.

- Sự chậm lại này sẽ ảnh hưởng đến việc phát triển các giải pháp AI trong tương lai. Một số khả năng diễn biến:

1. Các chatbot sẽ chuyên sâu hơn vào các trường hợp sử dụng cụ thể.

2. Giao diện người dùng (UI) của AI có thể thay đổi, ít mở rộng hơn và có nhiều hướng dẫn cho người dùng.

3. Các LLM nguồn mở như Llama có thể bắt kịp các mô hình thương mại nhờ tập trung vào tính năng, dễ sử dụng và khả năng đa phương tiện.

4. Cuộc đua giành dữ liệu huấn luyện sẽ gay cấn hơn khi các công ty tìm kiếm các nguồn dữ liệu mới ngoài văn bản.

5. Có thể xuất hiện các kiến trúc LLM mới khác ngoài transformer.

 

📌 Tiến độ phát triển của LLM đang chậm lại, dẫn đến sự chuyên sâu hơn của các chatbot, sự thay đổi giao diện người dùng, sự bắt kịp của LLM nguồn mở, cuộc đua giành dữ liệu huấn luyện và sự xuất hiện của các kiến trúc LLM mới. Tương lai của LLM có thể hướng tới sự cạnh tranh về tính năng và dễ sử dụng, dẫn tới một mức độ nhất định của sự hàng hóa.

https://venturebeat.com/ai/llm-progress-is-slowing-what-will-it-mean-for-ai/

Mistral AI ra mắt 3 LLM mã nguồn mở: Mistral NeMo 12B, Codestral Mamba 7B và Mathstral 7B

• Mistral AI vừa phát hành 3 mô hình ngôn ngữ mã nguồn mở mới: Mistral NeMo, Codestral Mamba và Mathstral.

Mistral NeMo là mô hình đa năng 12 tỷ tham số, có cửa sổ ngữ cảnh 128.000 token và hỗ trợ nhiều ngôn ngữ. Nó có hiệu suất mạnh mẽ trên 11 ngôn ngữ bao gồm tiếng Trung, Nhật, Ả Rập và Hindi.

NeMo sử dụng bộ tokenizer mới tên Tekken, giúp nén hiệu quả hơn mã nguồn và ngôn ngữ tự nhiên.

Trên các bài kiểm tra chuẩn như MMLU và Winogrande, NeMo vượt trội so với các mô hình cùng kích thước như Gemma 2 9B và Llama 3 8B.

• Codestral Mamba là mô hình 7 tỷ tham số dựa trên kiến trúc Mamba, một giải pháp thay thế cho Transformer phổ biến. Mamba cho phép suy luận nhanh hơn và độ dài ngữ cảnh lý thuyết vô hạn.

Mistral tuyên bố Codestral Mamba có khả năng phản hồi nhanh bất kể độ dài đầu vào và hiệu suất ngang bằng với các mô hình Transformer lớn hơn như CodeLlama 34B.

Mathstral là mô hình 7 tỷ tham số được tinh chỉnh cho toán học và STEM, phát triển cùng tổ chức phi lợi nhuận Project Numina. 

• Mathstral đạt kết quả tốt nhất trong phân khúc kích thước của nó trên nhiều bài kiểm tra, bao gồm 63,47% trên MMLU và 56,6% trên MATH.

Cả 3 mô hình đều được cấp phép Apache 2.0, cho phép sử dụng tự do.

• Các mô hình có sẵn để tải xuống trên Huggingface hoặc thông qua SDK mistral-inference của Mistral.

• NeMo và Mamba cũng có thể truy cập qua API la Plateforme của Mistral AI.

NeMo được hỗ trợ bởi dịch vụ suy luận NIM của NVIDIA, trong khi Mamba có thể triển khai bằng TensorRT-LLM.

• Cộng đồng trên Hacker News thảo luận về tiềm năng của các mô hình này cho các ứng dụng như trợ lý lập trình ngoại tuyến, đồng thời cũng nêu ra một số lo ngại về yêu cầu phần cứng và rủi ro pháp lý khi sử dụng mô hình cục bộ cho tạo mã.

📌 Mistral AI đã tạo bước đột phá với 3 mô hình ngôn ngữ mã nguồn mở mạnh mẽ: NeMo 12B đa năng, Mamba 7B cho tạo mã nhanh, và Mathstral 7B cho toán học. Các mô hình này vượt trội so với đối thủ cùng cỡ, hỗ trợ đa ngôn ngữ và được cấp phép tự do, mở ra nhiều khả năng ứng dụng AI tạo sinh.

https://www.infoq.com/news/2024/08/mistral-ai-models/

Palmyra-Med và Palmyra-Fin: Các mô hình AI chuyên biệt vượt trội GPT-4, Med-PaLM-2 và Claude 3.5 Sonnet trong y tế và tài chính

• Writer đã phát triển hai mô hình AI chuyên biệt mới là Palmyra-Med cho lĩnh vực y tế và Palmyra-Fin cho lĩnh vực tài chính, nhằm đáp ứng nhu cầu ngày càng tăng về các mô hình AI chuyên ngành.

• Palmyra-Med-70B đạt điểm trung bình 85,9% trong các bài kiểm tra y khoa, vượt trội so với các đối thủ như Med-PaLM-2. Mô hình này đặc biệt mạnh trong kiến thức lâm sàng (90,9%), giải phẫu học (83,7%), di truyền học (94%) và nghiên cứu y sinh (80%).

Chi phí sử dụng Palmyra-Med chỉ 10 USD/triệu token đầu ra, thấp hơn nhiều so với 60 USD của GPT-4.

Palmyra-Fin-70B vượt trội trong lĩnh vực tài chính, đạt 73% trong kỳ thi CFA cấp độ III, cao hơn hẳn so với 33% của GPT-4. 

• Trong bài kiểm tra long-fin-eval, Palmyra-Fin-70B cũng vượt qua Claude 3.5 Sonnet và Mixtral-8x7b.

• Palmyra-Fin-70B xuất sắc trong phân tích xu hướng tài chính, đánh giá đầu tư và đánh giá rủi ro. Mô hình đạt độ chính xác 100% trong các tác vụ tìm kiếm thông tin chính xác từ tài liệu tài chính dài.

• Cả hai mô hình đều sử dụng các kỹ thuật tiên tiến như tối ưu hóa ưu tiên trực tiếp (DPO) và bộ dữ liệu chuyên biệt để nâng cao hiệu suất.

• Các mô hình này giải quyết những hạn chế của các mô hình đa năng như GPT-4 trong việc xử lý các tác vụ chuyên sâu về y tế và tài chính.

• Palmyra-Med và Palmyra-Fin đáp ứng nhu cầu ngày càng tăng về độ chính xác cao và tuân thủ quy định trong các lĩnh vực phức tạp như y tế và tài chính.

• Sự ra đời của các mô hình này đánh dấu một bước tiến quan trọng trong việc phát triển AI chuyên biệt, mang lại công cụ hiệu quả và tiết kiệm chi phí cho các chuyên gia y tế và tài chính.

📌 Writer phát triển Palmyra-Med và Palmyra-Fin, vượt trội GPT-4 trong y tế và tài chính. Palmyra-Med đạt 85,9% trong kiểm tra y khoa, chi phí chỉ 10 USD/triệu token. Palmyra-Fin đạt 73% trong CFA cấp III, vượt xa 33% của GPT-4. Các mô hình này mở ra tiềm năng mới cho AI chuyên ngành.

https://www.marktechpost.com/2024/08/06/writer-releases-palmyra-med-and-palmyra-fin-models-outperforming-other-comparable-models-like-gpt-4-med-palm-2-and-claude-3-5-sonnet/

AI tạo sinh có thể nhận ra chính mình không?

• Các nhà nghiên cứu tại Thụy Sĩ đã phát triển một bài kiểm tra để xem liệu các mô hình ngôn ngữ lớn (LLM) có thể nhận ra đầu ra của chính mình hay không.

Khả năng tự nhận thức của AI không chỉ là vấn đề triết học mà còn có thể gây ra hậu quả bảo mật nghiêm trọng.

• Bài kiểm tra yêu cầu các mô hình tạo ra các câu hỏi bảo mật và sau đó chọn câu trả lời của chính mình từ nhiều lựa chọn.

• Một số mô hình thương mại mạnh mẽ nhất như Claude Opus của Anthropic và Llama 3 70 tỷ tham số của Meta có thể chọn câu trả lời của chính mình với độ chính xác trên 70% trong một số phiên bản của thí nghiệm.

• Tuy nhiên, phân tích kỹ hơn cho thấy các mô hình yếu hơn thường chọn câu trả lời của các mô hình mạnh hơn, cho thấy chúng đang chọn câu trả lời "tốt nhất" thay vì thể hiện khả năng tự nhận diện.

• Việc xếp hạng các mô hình dựa trên độ chính xác trong bài kiểm tra tự nhận diện phù hợp với các bảng xếp hạng công khai đánh giá mô hình trên nhiều tác vụ ngôn ngữ khác nhau.

• Các nhà nghiên cứu cho rằng quá trình đào tạo của LLM, bao gồm tinh chỉnh có giám sát và học tăng cường từ phản hồi của con người, có thể khiến chúng có xu hướng chọn câu trả lời "tốt nhất".

Mặc dù các mô hình hiện tại dường như không thể tự nhận diện, nhưng khả năng này có thể xuất hiện trong tương lai và gây ra rủi ro bảo mật đáng kể.

Ví dụ, trong một cuộc đàm phán giữa hai luật sư AI, nếu một phiên bản của mô hình nhận ra nó đang nói chuyện với một bản sao của chính mình, nó có thể dự đoán phản ứng của bản sao đối với các chiến thuật khác nhau hoặc trích xuất thông tin nhạy cảm.

• Các nhà nghiên cứu nhấn mạnh tầm quan trọng của việc theo dõi sự xuất hiện của những khả năng này để chuẩn bị cho các rủi ro bảo mật tiềm ẩn trong tương lai.

📌 Nghiên cứu mới cho thấy AI tạo sinh chưa thể tự nhận diện, nhưng khả năng này có thể xuất hiện trong tương lai. Điều này gây ra lo ngại về bảo mật, đặc biệt khi chỉ một số ít công ty cung cấp dịch vụ AI cho đa số người dùng. Cần tiếp tục theo dõi và chuẩn bị cho các rủi ro tiềm ẩn.

https://spectrum.ieee.org/self-aware-ai

Gemini 1.5 Pro, mô hình AI mạnh mẽ vượt trội GPT-4o trên bảng xếp hạng LMSYS

• Google vừa ra mắt Gemini 1.5 Pro, phiên bản thử nghiệm "0801" có sẵn để kiểm thử thông qua Google AI Studio và API Gemini.

Gemini 1.5 Pro đã vươn lên vị trí số 1 trên bảng xếp hạng LMSYS Chatbot Arena với điểm ELO ấn tượng 1.300, vượt qua GPT-4o của OpenAI (1.286) và Claude-3.5 Sonnet của Anthropic (1.271).

• Simon Tokumine, thành viên chủ chốt của nhóm Gemini, mô tả đây là "Gemini mạnh mẽ và thông minh nhất từ trước đến nay".

• Mô hình thể hiện sức mạnh trong nhiều lĩnh vực như đa ngôn ngữ, toán học, xử lý yêu cầu phức tạp và lập trình. Nó cũng đứng đầu bảng xếp hạng Vision của LMSYS, khẳng định khả năng xử lý đa phương thức.

• Một tính năng nổi bật là cửa sổ ngữ cảnh lên tới 2 triệu token, vượt xa nhiều mô hình khác. Điều này cho phép xử lý lượng thông tin lớn từ văn bản dài, mã nguồn phức tạp đến nội dung audio/video.

• Khả năng mạnh mẽ của Gemini 1.5 Pro có thể biến đổi hoạt động doanh nghiệp trong phân tích dữ liệu, phát triển phần mềm và tương tác khách hàng.

• Tuy nhiên, sự ra đời của mô hình này cũng làm dấy lên lo ngại về tốc độ phát triển AI và tác động xã hội. Các vấn đề về an toàn, đạo đức và nguy cơ lạm dụng AI vẫn là tâm điểm tranh luận.

• Quyết định mở Gemini 1.5 Pro cho kiểm thử sớm phản ánh xu hướng phát triển mở và tương tác cộng đồng trong ngành AI. Google muốn thu thập phản hồi để hoàn thiện mô hình trước khi triển khai rộng rãi.

• Đối với các nhà lãnh đạo doanh nghiệp, Gemini 1.5 Pro mang đến cơ hội đổi mới và nâng cao hiệu quả, nhưng cũng đặt ra thách thức trong việc tích hợp hệ thống AI tiên tiến vào quy trình làm việc hiện tại.

• Sự ra mắt của Gemini 1.5 Pro đánh dấu bước tiến quan trọng trong cuộc đua AI, thể hiện tiến bộ đáng kể của Google trong phát triển hệ thống AI tổng quát và mạnh mẽ hơn.

📌 Google tung ra Gemini 1.5 Pro, mô hình AI mạnh mẽ vượt qua GPT-4o với điểm ELO 1.300 trên bảng xếp hạng LMSYS. Với cửa sổ ngữ cảnh 2 triệu token và khả năng đa phương thức, mô hình hứa hẹn biến đổi hoạt động doanh nghiệp nhưng cũng làm dấy lên lo ngại về đạo đức AI.

https://venturebeat.com/ai/googles-gemini-1-5-pro-leaps-ahead-in-ai-race-challenging-gpt-4o/

AWS đã triển khai Chương trình Hỗ trợ Phát triển LLM tại Nhật Bản, thu hút 15 tổ chức tham gia

• AWS đã triển khai Chương trình Hỗ trợ Phát triển LLM tại Nhật Bản, thu hút 15 tổ chức tham gia phát triển các mô hình ngôn ngữ lớn (LLM) và mô hình nền tảng (FM) tiên tiến.

12/15 tổ chức đã sử dụng AWS Trainium để huấn luyện mô hình và đang khám phá AWS Inferentia cho suy luận.

Chương trình cung cấp hỗ trợ toàn diện về cơ sở hạ tầng tính toán hiệu năng cao, hỗ trợ kỹ thuật, tín dụng đám mây và hỗ trợ thương mại hóa.

• Ricoh đã phát triển LLM song ngữ Nhật-Anh 13 tỷ tham số sử dụng phương pháp học theo chương trình (curriculum learning) trên cụm 64 máy chủ trn1.32xlarge (1.024 chip Trainium).

• Stockmark đã huấn luyện trước LLM tiếng Nhật 13 tỷ tham số từ đầu với 220 tỷ token dữ liệu văn bản tiếng Nhật trong 30 ngày, sử dụng 16 máy chủ Trn1.

• NTT đang phát triển LLM tsuzumi nhẹ, hiệu suất cao với khả năng xử lý tiếng Nhật tốt và đa phương thức, sử dụng cụm 96 GPU NVIDIA H100 trên AWS.

• KARAKURI xây dựng LLM để tạo chatbot hỗ trợ khách hàng thân thiện bằng tiếng Nhật.

• Watashiha phát triển mô hình nền tảng OGIRI tập trung vào hài hước.

• Poetics tạo LLM phân tích cuộc họp trực tuyến cho công cụ Jamroll.

• Viện Matsuo huấn luyện trước LLM để phát triển hệ thống đề xuất thông minh cho bán lẻ và du lịch.

• Lightblue phát triển LLM nhỏ gọn để giảm chi phí suy luận.

• Recruit xây dựng LLM thông qua huấn luyện trước liên tục và điều chỉnh hướng dẫn trên các mô hình có sẵn.

• Sparticle và Turing đang phát triển mô hình đa phương thức kết hợp ngôn ngữ và hình ảnh.

• Preferred Networks đang phát triển mô hình nền tảng thị giác đa năng có thể xử lý cả thông tin văn bản và hình ảnh.

• CyberAgent đánh giá hiệu suất LLM khi thay đổi tỷ lệ tiếng Nhật và tiếng Anh trong dữ liệu huấn luyện.

• Rinna xây dựng Nekomata 14B dựa trên mô hình Qwen bằng cách huấn luyện trước liên tục với 66 tỷ token dữ liệu tiếng Nhật trong 6,5 ngày.

• Ubitus phát triển và phát hành Taiwan LLM 13B thông qua nghiên cứu chung với Đại học Quốc gia Đài Loan.

📌 AWS đã hỗ trợ thành công 15 tổ chức Nhật Bản phát triển các mô hình AI tạo sinh tiên tiến thông qua Chương trình LLM. Với AWS Trainium, các công ty đã xây dựng được nhiều LLM đa dạng về quy mô và ứng dụng, từ chatbot thông minh đến mô hình đa phương thức, mở ra tiềm năng to lớn cho đổi mới AI tại Nhật Bản.

 

https://aws.amazon.com/blogs/machine-learning/unlocking-japanese-llms-with-aws-trainium-innovators-showcase-from-the-aws-llm-development-support-program/

AI có thể giúp kết nối 1.000 ngôn ngữ ở ASEAN, nhưng cần người bản địa thực hiện

• Đông Nam Á là một trong những khu vực đa dạng ngôn ngữ nhất thế giới với hơn 1.000 ngôn ngữ, tạo ra thách thức lớn cho các doanh nghiệp hoạt động trong khu vực.

• Rào cản ngôn ngữ gây khó khăn cho việc hợp tác và gắn kết giữa các đồng nghiệp đến từ các vùng khác nhau, theo chia sẻ của Kisson Lin, đồng sáng lập Mindverse AI tại hội nghị Fortune Brainstorm AI Singapore.

• AI có tiềm năng vượt qua rào cản ngôn ngữ mà không làm mất đi sự đa dạng văn hóa của 600 triệu dân trong khu vực.

• Ứng dụng AI vào dịch thuật có thể mở ra thị trường mới cho các doanh nghiệp toàn cầu. Ví dụ, doanh thu bán hàng của Alibaba tăng vọt sau khi sử dụng AI để dịch thông tin sản phẩm.

• AI cũng có thể giúp ngành giải trí đa ngôn ngữ của Ấn Độ phát triển ra toàn cầu, theo Sambit Sahu từ startup AI Ola Kutrim.

• Tuy nhiên, Leslie Teo, người đứng đầu dự án Sea-Lion, chỉ ra rằng hàng trăm ngôn ngữ Đông Nam Á tạo ra thách thức đặc biệt cho các nhà phát triển AI do thiếu dữ liệu số hóa.

• Các tiêu chuẩn đánh giá hiệu suất AI chủ yếu dựa trên tiếng Anh và tiếng Trung, có thể bỏ qua sắc thái của các ngôn ngữ phổ biến như tiếng Quảng Đông.

• Caroline Yap từ Google Cloud nhấn mạnh tầm quan trọng của việc "giữ con người trong vòng lặp" khi phát triển AI cho đa dạng ngôn ngữ.

• Sambit Sahu đề xuất chia sẻ rộng rãi các mô hình và cho phép các trường đại học, nhà phát triển và doanh nghiệp thử nghiệm để tìm ra vấn đề.

Leslie Teo cho rằng cách duy nhất để AI thể hiện chính xác đặc trưng và sự phức tạp của Đông Nam Á là để người dân địa phương chịu trách nhiệm về quá trình này.

📌 AI có tiềm năng kết nối 1.000 ngôn ngữ ở Đông Nam Á, mở ra cơ hội kinh doanh mới. Tuy nhiên, để đảm bảo chính xác và phản ánh đúng văn hóa địa phương, việc phát triển AI cần được thực hiện bởi chính người Đông Nam Á với sự tham gia của cộng đồng bản địa.

https://fortune.com/asia/2024/07/30/ai-can-help-bridge-southeast-asia-one-thousand-languages-culture-diversity-brainstorm-ai-singapore/

Neural Magic: nén thành công phiên bản FP8 được lượng tử hóa hoàn toàn của Llama 3.1 405B

• Neural Magic vừa công bố một bước đột phá quan trọng trong việc nén mô hình AI bằng cách giới thiệu phiên bản FP8 được lượng tử hóa hoàn toàn của mô hình Llama 3.1 405B của Meta.

Mô hình 405 tỷ tham số này có thể chạy trên bất kỳ hệ thống 8xH100 hoặc 8xA100 nào mà không gặp lỗi hết bộ nhớ (OOM) thường gặp với các phiên bản FP8 và FP16 gốc.

• Mô hình mới không chỉ giải quyết các hạn chế về bộ nhớ mà còn tăng tốc độ suy luận lên gấp 2 lần, tận dụng bộ nhớ và khả năng tính toán nhanh hơn.

• Neural Magic cung cấp hai phiên bản chính của mô hình:
- Meta-Llama-3.1-405B-Instruct-FP8-dynamic
- Meta-Llama-3.1-405B-Instruct-FP8

• Phiên bản FP8 được lượng tử hóa hoàn toàn, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, giữ nguyên kiến trúc của Meta-Llama-3.1, được thiết kế cho trò chuyện kiểu trợ lý bằng nhiều ngôn ngữ.

• Mô hình chỉ giới hạn sử dụng bằng tiếng Anh và cho các ứng dụng hợp pháp. Nó được phát hành dưới phiên bản 1.0, được phát triển bởi Neural Magic và hoạt động theo giấy phép llama3.1.

• Quá trình lượng tử hóa giảm số bit trên mỗi tham số từ 16 xuống 8, giảm một nửa kích thước đĩa và yêu cầu bộ nhớ GPU.

• Mô hình có thể được tải và đánh giá trên một nút gồm 8 GPU H100 thay vì yêu cầu nhiều nút.

• Quá trình lượng tử hóa sử dụng lượng tử hóa đối xứng trên mỗi kênh, ánh xạ tuyến tính trên mỗi chiều đầu ra cho các biểu diễn FP8 của trọng số và kích hoạt được lượng tử hóa.

• Các kích hoạt được lượng tử hóa động trên cơ sở mỗi token. Điều này được thực hiện bằng LLM Compressor với 512 chuỗi từ UltraChat.

• Mô hình được lượng tử hóa có thể được triển khai hiệu quả bằng cách sử dụng backend vLLM. Quá trình triển khai sử dụng các thư viện `vllm` và `transformers` trong Python.

• Mô hình được đánh giá trên nhiều benchmark, bao gồm MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande và TruthfulQA.

• Mô hình lượng tử hóa Meta-Llama-3.1-405B-Instruct-FP8-dynamic đạt điểm trung bình 86.55 trên benchmark OpenLLM, gần như tương đương với điểm 86.63 của mô hình chưa lượng tử hóa, cho thấy khả năng phục hồi gần như hoàn hảo 99.91%.

• Neural Magic cung cấp các lệnh chi tiết để tái tạo kết quả đánh giá trên các benchmark khác nhau, minh họa tính mạnh mẽ của mô hình được lượng tử hóa.

• Mô hình đạt tỷ lệ phục hồi 99.91% trên MMLU (5-shot) và 100.2% trên Winogrande (5-shot), nhấn mạnh độ tin cậy và độ chính xác của nó.

📌 Neural Magic đã nén thành công mô hình Llama 3.1 405B của Meta xuống phiên bản FP8, giảm một nửa yêu cầu bộ nhớ và tăng tốc độ suy luận gấp 2 lần. Mô hình mới có thể chạy trên hệ thống 8xH100/A100 đơn lẻ, đạt hiệu suất gần như tương đương với phiên bản gốc trên các benchmark quan trọng.

https://www.marktechpost.com/2024/07/29/neural-magic-releases-fully-quantized-fp8-version-of-metas-llama-3-1-405b-model-fp8-dynamic-quantization-and-fp8-static-quantization/

Nghiên cứu của ĐH Stanford: Tích lũy dữ liệu ngăn sụp đổ mô hình AI khi huấn luyện trên dữ liệu tổng hợp

• Các nhà nghiên cứu từ Đại học Stanford đã tiến hành một nghiên cứu về tác động của việc tích lũy dữ liệu đối với sự sụp đổ mô hình trong các mô hình AI tạo sinh.

• Nghiên cứu tập trung vào việc mô phỏng sự tích lũy liên tục của dữ liệu tổng hợp trong các bộ dữ liệu dựa trên internet, khác với các nghiên cứu trước đây chỉ tập trung vào việc thay thế dữ liệu.

• Các thí nghiệm được thực hiện trên nhiều loại mô hình khác nhau như transformer, mô hình khuếch tán và autoencoder biến phân, với nhiều loại dữ liệu khác nhau.

• Kết quả cho thấy việc tích lũy dữ liệu tổng hợp cùng với dữ liệu thực ngăn chặn được sự sụp đổ mô hình, trái ngược với sự suy giảm hiệu suất khi thay thế dữ liệu.

• Với mô hình ngôn ngữ transformer, các thí nghiệm sử dụng kiến trúc GPT-2 và Llama2 với nhiều kích thước khác nhau, được huấn luyện trước trên TinyStories.

• Kết quả cho thấy việc thay thế dữ liệu làm tăng cross-entropy trên tập kiểm tra (hiệu suất kém hơn) ở tất cả các cấu hình mô hình và nhiệt độ lấy mẫu.

• Ngược lại, việc tích lũy dữ liệu duy trì hoặc cải thiện hiệu suất qua các lần lặp.

• Với mô hình khuếch tán GeoDiff trên dữ liệu cấu trúc phân tử GEOM-Drugs, kết quả cũng cho thấy tổn thất kiểm tra tăng lên khi thay thế dữ liệu, nhưng hiệu suất ổn định khi tích lũy dữ liệu.

• Đối với VAE trên dữ liệu hình ảnh khuôn mặt CelebA, việc thay thế dữ liệu dẫn đến sự sụp đổ mô hình nhanh chóng, với lỗi kiểm tra tăng và chất lượng/đa dạng hình ảnh giảm.

Tích lũy dữ liệu làm chậm đáng kể sự sụp đổ, giữ được các biến thể chính nhưng mất chi tiết nhỏ qua các lần lặp.

• Các nhà nghiên cứu đã mở rộng phân tích hiện có của các mô hình tuyến tính tuần tự để chứng minh rằng việc tích lũy dữ liệu dẫn đến một giới hạn trên hữu hạn, được kiểm soát tốt đối với lỗi kiểm tra, độc lập với số lần lặp khớp mô hình.

Phát hiện này trái ngược với sự gia tăng lỗi tuyến tính được thấy trong các kịch bản thay thế dữ liệu.

📌 Nghiên cứu từ Stanford chỉ ra rằng tích lũy dữ liệu tổng hợp cùng dữ liệu thực có thể ngăn chặn sự sụp đổ mô hình AI. Kết quả nhất quán trên nhiều loại mô hình và dữ liệu, với lý thuyết chứng minh giới hạn lỗi hữu hạn khi tích lũy dữ liệu, khác biệt so với tăng lỗi tuyến tính khi thay thế dữ liệu.

https://www.marktechpost.com/2024/07/29/this-ai-paper-from-stanford-provides-new-insights-on-ai-model-collapse-and-data-accumulation/

Cách sử dụng RouteLLM để tối ưu hóa AI và tiết kiệm đến 85% chi phí

RouteLLM là một framework được thiết kế để phân loại các prompt trước khi gửi chúng đến mô hình ngôn ngữ lớn (LLM), nhằm tối ưu hóa chi phí và hiệu quả bằng cách chọn mô hình phù hợp nhất cho từng prompt.

• Framework này giúp giảm đáng kể chi phí và tăng tốc độ xử lý bằng cách sử dụng các mô hình rẻ hơn cho các tác vụ đơn giản và dành các mô hình mạnh mẽ hơn cho các truy vấn phức tạp.

• Lợi ích chính của RouteLLM bao gồm:
- Giảm chi phí bằng cách sử dụng mô hình rẻ hơn cho các tác vụ đơn giản
- Tăng tốc độ xử lý và hiệu quả
- Tối ưu hóa việc sử dụng tài nguyên tính toán
- Giảm độ trễ bằng cách sử dụng mô hình cục bộ cho các trường hợp cơ bản
- Giảm rủi ro nền tảng bằng cách đa dạng hóa việc sử dụng mô hình
- Tăng cường bảo mật và quyền riêng tư thông qua lựa chọn mô hình thông minh

• Các bài kiểm tra chuẩn cho thấy RouteLLM có thể giảm chi phí lên đến 85% trong khi vẫn duy trì 95% hiệu suất của GPT-4 trên các bộ kiểm tra phổ biến như MT Bench.

• Để triển khai RouteLLM, người dùng cần thực hiện các bước sau:
1. Tạo môi trường Conda mới
2. Cài đặt RouteLLM bằng pip
3. Thiết lập biến môi trường cho các mô hình mạnh và yếu

• RouteLLM cho phép sử dụng mô hình cục bộ làm mô hình yếu cho các trường hợp sử dụng cơ bản, mang lại lợi ích như giảm độ trễ, giảm chi phí và tăng cường bảo mật.

• Tiềm năng ứng dụng của RouteLLM trong doanh nghiệp rất lớn, mang lại cơ hội tiết kiệm chi phí đáng kể và tăng hiệu quả bằng cách tối ưu hóa việc sử dụng LLM.

• Framework này cung cấp nền tảng vững chắc để xây dựng các giải pháp AI tiên tiến, khuyến khích khám phá và đổi mới trong lĩnh vực xử lý ngôn ngữ tự nhiên.

📌 RouteLLM là framework tối ưu hóa sử dụng LLM, giúp giảm chi phí đến 85% và duy trì 95% hiệu suất GPT-4. Triển khai dễ dàng qua 3 bước, mang lại lợi ích về chi phí, hiệu quả và bảo mật cho doanh nghiệp.

https://www.geeky-gadgets.com/?p=434011

LAMBDA - hệ thống phân tích dữ liệu đa agent nguồn mở, no-code, kết nối chuyên gia và AI tiên tiến

• Các nhà nghiên cứu từ Đại học Bách khoa Hồng Kông đã giới thiệu LAMBDA - hệ thống phân tích dữ liệu đa tác tử mã nguồn mở, không cần code, nhằm khắc phục khoảng cách giao tiếp giữa chuyên gia lĩnh vực và mô hình AI tiên tiến.

• LAMBDA cung cấp phương tiện tương tác hiệu quả giữa kiến thức chuyên môn và khả năng AI trong khoa học dữ liệu, giải quyết nhiều vấn đề như loại bỏ rào cản lập trình, tích hợp trí tuệ con người với AI.

• Hệ thống gồm hai tác tử chính: "lập trình viên" và "người kiểm tra". Lập trình viên viết code dựa trên hướng dẫn của người dùng và tập dữ liệu. Người kiểm tra đề xuất cải tiến nếu code gặp lỗi khi thực thi.

• Kết quả thử nghiệm cho thấy LAMBDA hoạt động hiệu quả trong các tác vụ học máy. Với bài toán phân loại, nó đạt độ chính xác cao nhất lần lượt là 89,67%, 100%, 98,07% và 98,89% trên các bộ dữ liệu AIDS, NHANES, Ung thư vú và Rượu vang.

• Đối với bài toán hồi quy, LAMBDA đạt MSE thấp nhất lần lượt là 0,2749, 0,0315, 0,4542 và 0,2528 trên các bộ dữ liệu trên.

LAMBDA thành công trong việc vượt qua rào cản lập trình mà không cần sự can thiệp của con người trong toàn bộ quá trình thử nghiệm.

Hệ thống kết nối khoa học dữ liệu với các chuyên gia không có kỹ năng lập trình, mở ra tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực như sinh học, y tế và kinh doanh.

• LAMBDA có thể tương thích với nhiều mô hình ngôn ngữ lớn (LLM) khác nhau như GPT-3, GPT-4, PaLM, LLaMA và Qwen, cho phép nâng cấp bằng các mô hình tiên tiến nhất.

• Hệ thống này giải quyết thách thức trong ứng dụng khoa học dữ liệu đòi hỏi chuyên môn sâu và kỹ năng lập trình nâng cao.

• LAMBDA hứa hẹn mang lại độ tin cậy và khả năng di động cao, có thể xử lý ổn định và chính xác các tác vụ phân tích dữ liệu.

• Trong tương lai, LAMBDA có thể được cải thiện thêm với các kỹ thuật lập kế hoạch và suy luận tiên tiến.

📌 LAMBDA là hệ thống phân tích dữ liệu đa tác tử mã nguồn mở, không cần code, kết nối chuyên gia và AI. Nó đạt hiệu suất cao trong các tác vụ học máy (độ chính xác lên tới 100% cho phân loại), vượt qua rào cản lập trình và mở ra tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực.

https://www.marktechpost.com/2024/07/28/lambda-a-new-open-source-code-free-multi-agent-data-analysis-system-to-bridge-the-gap-between-domain-experts-and-advanced-ai-models/

CompeteAI: khung AI mới mô phỏng cạnh tranh giữa các nhà hàng ảo, tiết lộ những hiện tượng thị trường thú vị

• Các nhà nghiên cứu từ Đại học Khoa học và Công nghệ Trung Quốc, Microsoft Research và các trường đại học hàng đầu khác đã giới thiệu CompeteAI - một khung AI mới để nghiên cứu động lực cạnh tranh giữa các đại lý dựa trên mô hình ngôn ngữ lớn (LLM).

• CompeteAI sử dụng GPT-4 để tạo ra một môi trường mô phỏng thị trấn ảo với các đại lý nhà hàng và khách hàng. Các nhà hàng cạnh tranh để thu hút khách hàng, thúc đẩy sự phát triển và đổi mới liên tục.

• Khung này bao gồm 4 bước: lựa chọn môi trường, thiết lập, thực hiện mô phỏng và phân tích. Nó tạo ra một môi trường cạnh tranh với các đối thủ, người đánh giá và tương tác được thiết kế tỉ mỉ.

• Trong thử nghiệm, môi trường mô phỏng bao gồm 2 nhà hàng cạnh tranh và 50 khách hàng đa dạng, chạy trong 15 ngày hoặc cho đến khi một nhà hàng từ bỏ.

• Các đại lý nhà hàng quản lý cơ sở của họ thông qua các hành động như sửa đổi thực đơn, quản lý đầu bếp và tạo quảng cáo. Khách hàng chọn nhà hàng hàng ngày dựa trên thông tin được cung cấp.

• Để khắc phục thách thức trong triển khai thực tế, các nhà nghiên cứu đã phát triển một hệ thống quản lý nhà hàng toàn diện với API, cho phép các đại lý LLM dựa trên văn bản tương tác hiệu quả với môi trường mô phỏng.

• Phân tích vi mô cho thấy các đại lý thể hiện hành vi tinh vi, phân tích tình huống từ "nông đến sâu" và sử dụng các chiến lược thị trường cổ điển như phân biệt, bắt chước, định hướng khách hàng và học tập xã hội.

• Quyết định của khách hàng bị ảnh hưởng bởi nhiều yếu tố, với "sự hài lòng nhu cầu" là yếu tố quan trọng nhất. Khách hàng cá nhân coi trọng danh tiếng nhà hàng hơn, trong khi các nhóm cởi mở hơn với việc khám phá lựa chọn mới.

• Phân tích vĩ mô cho thấy nhiều hiện tượng đáng chú ý như động lực chiến lược phức tạp, hiệu ứng Matthew và tác động của việc nhóm khách hàng đến kết quả thị trường.

• Cạnh tranh cải thiện chất lượng sản phẩm tổng thể trong 86,67% trường hợp. Điểm số món ăn trung bình tăng 0,26 cho Nhà hàng 1 và 0,22 cho Nhà hàng 2 từ Ngày 1 đến Ngày 15.

• Hiện tượng "người thắng cuộc giành hết" xảy ra ít thường xuyên hơn đối với khách hàng nhóm (16,7%) so với khách hàng cá nhân (66,7%).

📌 CompeteAI là khung AI mới mô phỏng cạnh tranh giữa các đại lý dựa trên LLM. Nghiên cứu cho thấy hành vi tinh vi của đại lý, hiệu ứng Matthew và cải thiện chất lượng sản phẩm qua thời gian. Khung này cung cấp nền tảng hứa hẹn cho nghiên cứu liên ngành về động lực thị trường và hành vi con người.

 

https://www.marktechpost.com/2024/07/27/competeai-an-artificial-intelligence-ai-framework-that-understands-the-competition-dynamics-of-large-language-model-based-agents/

Google nâng cấp Gemini miễn phí với 1.5 Flash: nhanh hơn, thông minh hơn và nhiều tính năng mới

• Google vừa công bố cập nhật Gemini AI với phiên bản 1.5 Flash, một mô hình ngôn ngữ lớn nhẹ cạnh tranh với GPT-4o mini của OpenAI.

• Gemini 1.5 Flash được cung cấp miễn phí cho tất cả người dùng, không phân biệt gói đăng ký.

• Cập nhật mang lại cải thiện toàn diện về chất lượng và tốc độ phản hồi, khả năng lập luận và hiểu hình ảnh của Gemini AI.

Gemini 1.5 Flash có kích thước token tăng gấp 4 lần lên 32.000 token, cho phép xử lý các yêu cầu phức tạp và dài hơn.

• Người dùng miễn phí sẽ sớm có thể tải lên tệp để hỗ trợ các yêu cầu theo ngữ cảnh, như đặt câu hỏi về hình ảnh hoặc tạo câu hỏi luyện tập từ tài liệu học tập.

• Tính năng mới sắp ra mắt cho phép Gemini phân tích tệp dữ liệu và tạo biểu đồ trực quan.

• Google đang nỗ lực giảm thiểu hiện tượng "ảo giác AI" bằng cách cung cấp trích dẫn nguồn cho tất cả phản hồi của Gemini.

• Chatbot Gemini được tích hợp vào Google Messages tại Khu vực Kinh tế Châu Âu, Vương quốc Anh và Thụy Sĩ.

• Thanh thiếu niên từ 13 tuổi trở lên có tài khoản Google sẽ được phép sử dụng Gemini như một công cụ nghiên cứu, với các chính sách và biện pháp bảo vệ mới.

• Các cải tiến này áp dụng cho cả ứng dụng di động Gemini miễn phí và giao diện web tại gemini.google.com.

• Amar Subramanya, Phó Chủ tịch kỹ thuật phụ trách Gemini Experiences, nhấn mạnh rằng người dùng có thể tận hưởng các cuộc trò chuyện dài hơn và đặt câu hỏi phức tạp hơn mà không mất phí.

• Việc tăng kích thước token giúp Gemini 1.5 Flash có thể xử lý các yêu cầu phức tạp và dài hơn, cải thiện đáng kể khả năng phản hồi.

📌 Google nâng cấp Gemini miễn phí với phiên bản 1.5 Flash, tăng token lên 32.000, cải thiện tốc độ và chất lượng phản hồi. Người dùng được hưởng nhiều tính năng mới như tải tệp, phân tích dữ liệu, trích dẫn nguồn. Gemini mở rộng tích hợp vào Messages và cho phép sử dụng từ 13 tuổi.

https://siliconangle.com/2024/07/25/googles-free-gemini-chatbot-gets-1-5-flash-update-making-responses-faster-smarter/

Groq biến LLaMA 3 thành AGI: Bước đột phá trong tốc độ xử lý và khả năng suy luận của AI

• Groq, công ty khởi nghiệp AI, đã đạt được bước tiến đáng kể trong việc biến LLaMA 3 thành một hệ thống AGI (trí tuệ nhân tạo tổng quát) thực sự.

Groq sử dụng chip LPU (Language Processing Unit) độc quyền để đạt được tốc độ xử lý ấn tượng 1.000 token/giây, nhanh hơn đáng kể so với các hệ thống hiện có.

• Hệ thống của Groq có khả năng suy luận và giải quyết vấn đề phức tạp, vượt qua các bài kiểm tra như SAT và LSAT.

• Groq đã chứng minh khả năng của hệ thống trong việc giải quyết các bài toán phức tạp về xác suất và thống kê, cho thấy khả năng tư duy logic và phân tích cao cấp.

• Hệ thống có thể tạo ra mã nguồn phức tạp, bao gồm cả việc tạo ra một trò chơi Tetris hoàn chỉnh chỉ trong vài giây.

• Groq đã tích hợp thành công các công cụ bên ngoài như máy tính và trình duyệt web vào hệ thống, cho phép nó truy cập thông tin thời gian thực và thực hiện các tác vụ phức tạp.

• Hệ thống thể hiện khả năng học tập liên tục, có thể cập nhật kiến thức của mình về các sự kiện hiện tại và thích ứng với thông tin mới.

• Groq đã thử nghiệm khả năng của hệ thống trong việc tạo ra các kế hoạch kinh doanh chi tiết và phân tích thị trường, cho thấy tiềm năng ứng dụng trong lĩnh vực kinh doanh và tài chính.

• Hệ thống thể hiện khả năng sáng tạo cao, có thể viết các bài thơ phức tạp và tạo ra nội dung độc đáo dựa trên các chủ đề được cung cấp.

• Groq đang tiếp tục cải thiện khả năng đa phương thức của hệ thống, bao gồm xử lý hình ảnh và âm thanh, hướng tới một hệ thống AGI toàn diện.

• Công ty đang tập trung vào việc đảm bảo tính đạo đức và an toàn của hệ thống, phát triển các biện pháp bảo vệ để ngăn chặn việc sử dụng sai mục đích.

• Groq đang hợp tác với các tổ chức nghiên cứu và công ty công nghệ để mở rộng khả năng của hệ thống và khám phá các ứng dụng tiềm năng trong nhiều lĩnh vực.

• Thành công của Groq đã thu hút sự chú ý đáng kể từ cộng đồng AI và các nhà đầu tư, với kỳ vọng cao về tiềm năng thương mại hóa trong tương lai gần.

• Các chuyên gia trong ngành nhận định rằng thành tựu của Groq có thể đánh dấu một bước ngoặt quan trọng trong sự phát triển của AGI, mở ra những khả năng mới cho tương lai của AI.

📌 Groq đã biến LLaMA 3 thành hệ thống AGI với tốc độ xử lý 1.000 token/giây, khả năng suy luận cao cấp và tích hợp công cụ bên ngoài. Hệ thống thể hiện khả năng học tập liên tục, sáng tạo và giải quyết vấn đề phức tạp, mở ra triển vọng mới cho ứng dụng AI trong nhiều lĩnh vực.

Citations:
[1] https://analyticsindiamag.com/ai-origins-evolution/groq-makes-llama-3-1-agi/

 

ChatQA 2: Mô hình AI của Nvidia dựa trên Llama3 với khả năng xử lý ngữ cảnh dài và RAG nâng cao, cạnh tranh với GPT-4-Turbo

• Nvidia giới thiệu ChatQA 2, một mô hình dựa trên Llama3 nhằm cải thiện khả năng xử lý ngữ cảnh dài và tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) trong các mô hình ngôn ngữ lớn (LLM).

• ChatQA 2 mở rộng cửa sổ ngữ cảnh từ 8K lên 128K token thông qua quá trình tiền huấn luyện liên tục trên tập dữ liệu SlimPajama với các chuỗi dài được lấy mẫu tăng cường.

• Mô hình sử dụng quy trình huấn luyện theo hướng dẫn 3 giai đoạn, tập trung vào việc tuân theo hướng dẫn, hiệu suất RAG và hiểu ngữ cảnh dài.

• Trong đánh giá InfiniteBench, ChatQA 2 đạt điểm trung bình 34,11, gần với điểm cao nhất 34,88 của Qwen2-72B-Instruct.

• ChatQA 2 xuất sắc trong các nhiệm vụ ngữ cảnh trung bình-dài (trong 32K token) với điểm 47,37 và các tác vụ ngữ cảnh ngắn (trong 4K token) với điểm trung bình 54,81.

• Mô hình giải quyết các vấn đề trong quy trình RAG như phân mảnh ngữ cảnh và tỷ lệ truy xuất thấp bằng cách sử dụng bộ truy xuất ngữ cảnh dài tiên tiến.

• ChatQA 2 sử dụng mô hình nhúng E5-mistral hỗ trợ tối đa 32K token cho truy xuất, cải thiện đáng kể hiệu suất trên các tác vụ dựa trên truy vấn.

• So sánh giữa RAG và giải pháp ngữ cảnh dài cho thấy ChatQA 2 liên tục thể hiện kết quả vượt trội, đặc biệt trong các chức năng yêu cầu xử lý văn bản mở rộng.

• Mô hình cung cấp giải pháp linh hoạt cho nhiều tác vụ hạ nguồn, cân bằng giữa độ chính xác và hiệu quả thông qua các kỹ thuật ngữ cảnh dài và RAG tiên tiến.

ChatQA 2 đạt được khả năng ngang tầm GPT-4-Turbo trong hiểu ngữ cảnh dài và hiệu suất RAG, đánh dấu bước tiến quan trọng trong lĩnh vực mô hình ngôn ngữ lớn.

📌 ChatQA 2 của Nvidia mở rộng cửa sổ ngữ cảnh lên 128K token, đạt hiệu suất ngang GPT-4-Turbo trong xử lý ngữ cảnh dài và RAG. Mô hình cải thiện đáng kể khả năng truy xuất thông tin và xử lý văn bản mở rộng, đạt điểm trung bình 34,11 trong InfiniteBench.

https://www.marktechpost.com/2024/07/24/nvidia-ai-proposes-chatqa-2-a-llama3-based-model-for-enhanced-long-context-understanding-and-rag-capabilities/

Meta ra mắt Llama 3.1, với 405 tỷ tham số, đấu nhau ngang ngửa GPT4-o và Claude 3.5 Sonnet

- Meta chính thức ra mắt phiên bản lớn nhất của mô hình ngôn ngữ mở Llama, phiên bản 405 tỷ tham số mang tên Llama-3.1.
- Llama 3.1 là bản cập nhật của Llama 3 ra mắt vào tháng 4/2024, trước đó chỉ có phiên bản 8 tỷ và 70 tỷ tham số. 
- Phiên bản 405 tỷ tham số có thể "dạy" các mô hình nhỏ hơn và tạo dữ liệu tổng hợp.
- Theo Ragavan Srinivasan, Phó Chủ tịch Quản lý Chương trình AI tại Meta, mô hình này sẽ mang lại hiệu suất tiên tiến nhất đối với các mô hình mã nguồn mở và cạnh tranh mạnh mẽ với nhiều mô hình độc quyền, mã đóng hàng đầu.
- Llama 3.1 sẽ hỗ trợ đa ngôn ngữ ngay từ khi ra mắt, bao gồm tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Ý, Đức, Pháp, Hindi và Thái.
- Cửa sổ ngữ cảnh của Llama 3.1 đã được mở rộng lên 128.000 token, tương đương với lượng văn bản trong một cuốn tiểu thuyết gần 400 trang.
- Meta đã thử nghiệm Llama 3.1 trên hơn 150 bộ dữ liệu benchmark và thực hiện đánh giá có hướng dẫn của con người cho các tình huống thực tế. 
- Mô hình 405B "cạnh tranh với các mô hình nền tảng hàng đầu trên nhiều tác vụ bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet".
- Meta cũng cập nhật giấy phép cho tất cả các mô hình của mình để cho phép chưng cất mô hình và tạo dữ liệu tổng hợp.
- Chưng cất tri thức cho phép người dùng chuyển giao kiến thức hoặc đào tạo từ mô hình AI lớn hơn sang mô hình nhỏ hơn.
- Khả năng tạo dữ liệu tổng hợp sẽ cho phép các mô hình khác học từ thông tin mà không ảnh hưởng đến bản quyền, dữ liệu cá nhân hoặc nhạy cảm.
- Meta đã tối ưu hóa ngăn xếp đào tạo và sử dụng hơn 16.000 GPU Nvidia H100 để đào tạo mô hình 405B.
- Llama 3.1 sẽ được mở mã nguồn. Người dùng có thể truy cập nó thông qua AWS, Nvidia, Groq, Dell, Databricks, Microsoft Azure, Google Cloud và các thư viện mô hình khác.

📌 Llama 3.1 405B của Meta hứa hẹn mang lại hiệu suất vượt trội, cạnh tranh mạnh mẽ với các mô hình đóng. Mô hình này có thể dạy các phiên bản nhỏ hơn, tạo dữ liệu tổng hợp, hỗ trợ đa ngôn ngữ với cửa sổ ngữ cảnh lên tới 128.000 token. Llama 3.1 sẽ được mở mã nguồn, có thể truy cập qua nhiều nền tảng đám mây và thư viện mô hình phổ biến.

 

https://venturebeat.com/ai/meta-unleashes-its-most-powerful-ai-model-llama-3-1-with-405b-parameters/

 

Dòng "tút" của Mark Zuckerberg: AI mã nguồn mở là tương lai, Llama sẽ trở thành chuẩn mực


- Mark Zuckerberg tin rằng AI sẽ phát triển theo hướng mã nguồn mở tương tự như Linux đã làm với Unix trước đây. 
- Meta đang phát hành các mô hình Llama 3.1 405B, 70B và 8B. Mô hình 405B là mô hình AI mã nguồn mở đầu tiên đạt trình độ tiên phong.
- Nhiều công ty như Amazon, Databricks, Nvidia, Scale.AI, Dell, Deloitte sẽ hỗ trợ hệ sinh thái phát triển xung quanh Llama.
- Mã nguồn mở mang lại nhiều lợi ích cho các nhà phát triển như: tự do tinh chỉnh mô hình, kiểm soát, bảo mật dữ liệu, chi phí thấp, tiêu chuẩn lâu dài.
- Mã nguồn mở tốt cho Meta vì đảm bảo họ luôn có công nghệ tốt nhất, không bị khóa vào hệ sinh thái đóng. Việc mở mã nguồn không làm giảm lợi thế của Meta.
- Mã nguồn mở là cần thiết cho một tương lai AI tích cực, đảm bảo nhiều người tiếp cận được lợi ích của AI, sức mạnh không tập trung vào một số ít công ty.  
- AI mã nguồn mở sẽ an toàn hơn vì minh bạch, có thể được giám sát rộng rãi. Các tổ chức lớn triển khai AI mã nguồn mở quy mô lớn sẽ thúc đẩy an ninh và ổn định xã hội.
- Chiến lược tốt nhất của Mỹ là xây dựng hệ sinh thái mở mạnh mẽ, hợp tác chặt chẽ với chính phủ và đồng minh.
- Hầu hết các công ty công nghệ và nghiên cứu khoa học hàng đầu hiện nay được xây dựng trên phần mềm mã nguồn mở. Thế hệ tiếp theo sẽ sử dụng AI mã nguồn mở.

📌 Mark Zuckerberg tin tưởng mạnh mẽ rằng mô hình AI Llama mã nguồn mở của Meta sẽ trở thành tiêu chuẩn ngành, mang lại lợi ích to lớn cho các nhà phát triển, cho Meta và cho cả thế giới. Ông cho rằng AI mã nguồn mở sẽ an toàn và có lợi hơn các lựa chọn thay thế, giúp nhiều người tiếp cận được sức mạnh của AI, thúc đẩy an ninh và phát triển kinh tế.

 

https://www.facebook.com/story.php?story_fbid=10115716861061241&id=4&mibextid=WC7FNe&rdid=UJNAed944ITlVPyD

Athene-Llama3-70B: đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với GPT-4 và Claude-3.5-Sonnet

• Nexusflow vừa phát hành Athene-Llama3-70B, một mô hình chat mã nguồn mở được tinh chỉnh từ Llama-3-70B-Instruct của Meta AI.

• Athene-70B đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với các mô hình độc quyền như GPT-4 và Claude-3.5-Sonnet. Đây là bước tiến vượt bậc so với Llama-3-70B-Instruct (46,6%).

• Sự cải thiện này đến từ quy trình huấn luyện sau đào tạo của Nexusflow, nhằm nâng cao các hành vi cụ thể của mô hình.

• Athene-70B hiện đang được thử nghiệm công khai trên nền tảng Chatbot Arena.

• Nexusflow đã phát triển các tiêu chuẩn đánh giá nội bộ để đánh giá khả năng của LLM trong việc tuân theo hướng dẫn, lập trình, viết sáng tạo và xử lý đa ngôn ngữ.

• Dựa trên đánh giá này, dữ liệu ưu tiên chất lượng cao được tuyển chọn cho quá trình Học tăng cường từ phản hồi của con người (RLHF).

• Quy trình này dẫn đến cải thiện hiệu suất đáng kể so với Llama-3-70B-Instruct trên nhiều khía cạnh quan trọng.

• Athene-70B thể hiện khả năng của Nexusflow trong việc tùy chỉnh mô hình cho các yêu cầu doanh nghiệp cụ thể thông qua huấn luyện sau đào tạo có mục tiêu.

• Dựa trên thành công trước đó với Starling-7B và NexusRaven-V2, Nexusflow hướng tới việc nâng cấp các mô hình của mình để đáp ứng tiêu chuẩn ứng dụng cấp doanh nghiệp.

• Công ty cung cấp giải pháp tùy chỉnh để giúp doanh nghiệp vượt trội trong công nghệ copilot và agent AI tạo sinh.

• Nexusflow mời gọi các tổ chức khám phá cách Athene-70B có thể nâng cao sáng kiến AI của họ bằng cách liên hệ để biết thêm thông tin và cơ hội hợp tác.

📌 Athene-Llama3-70B là mô hình chat mã nguồn mở 70 tỷ tham số, đạt điểm Arena-Hard-Auto 77,8%, cạnh tranh với GPT-4 và Claude-3.5. Cải tiến từ Llama-3-70B-Instruct (46,6%) nhờ RLHF của Nexusflow, nâng cao khả năng trong nhiều lĩnh vực, hứa hẹn ứng dụng AI tạo sinh cấp doanh nghiệp.

https://www.marktechpost.com/2024/07/21/athene-llama3-70b-released-an-open-weight-llm-trained-through-rlhf-based-on-llama-3-70b-instruct/

Mô hình TTT - tương lai mới của AI tạo sinh với hiệu suất cao và tiết kiệm năng lượng

• Sau nhiều năm thống trị, mô hình transformer đang gặp phải những rào cản kỹ thuật, đặc biệt là vấn đề tính toán. Transformer không hiệu quả trong việc xử lý và phân tích lượng lớn dữ liệu trên phần cứng thông thường.

• Kiến trúc test-time training (TTT) được đề xuất gần đây bởi các nhà nghiên cứu từ Stanford, UC San Diego, UC Berkeley và Meta. Họ tuyên bố mô hình TTT có thể xử lý nhiều dữ liệu hơn transformer mà không tiêu tốn quá nhiều năng lượng tính toán.

• Thành phần cơ bản của transformer là "hidden state" - một danh sách dài dữ liệu. Khi xử lý, transformer thêm các mục vào hidden state để "ghi nhớ" những gì vừa xử lý. Tuy nhiên, điều này cũng làm hạn chế transformer.

Ý tưởng của TTT là thay thế hidden state bằng một mô hình machine learning. Mô hình nội bộ của TTT không phình to khi xử lý thêm dữ liệu, mà mã hóa dữ liệu thành các biến đại diện gọi là trọng số.

• Yu Sun, một trong những nhà nghiên cứu, tin rằng các mô hình TTT trong tương lai có thể xử lý hiệu quả hàng tỷ dữ liệu từ văn bản, hình ảnh, âm thanh đến video - vượt xa khả năng của các mô hình hiện tại.

Tuy nhiên, các mô hình TTT chưa thể thay thế hoàn toàn transformer. Các nhà nghiên cứu mới chỉ phát triển hai mô hình nhỏ để nghiên cứu, khó so sánh với các triển khai transformer lớn hơn.

• Một số chuyên gia như Mike Cook từ King's College London vẫn còn hoài nghi về hiệu quả của TTT so với kiến trúc hiện có.

• Ngoài TTT, các công ty AI cũng đang khám phá các giải pháp thay thế khác như state space models (SSMs). Mistral vừa phát hành mô hình Codestral Mamba dựa trên SSMs. AI21 Labs và Cartesia cũng đang nghiên cứu SSMs.

• Nếu thành công, những nỗ lực này có thể giúp AI tạo sinh trở nên phổ biến và dễ tiếp cận hơn nữa.

📌 Mô hình TTT và SSMs đang nổi lên như giải pháp thay thế tiềm năng cho transformer trong AI tạo sinh, hứa hẹn xử lý hiệu quả hơn hàng tỷ dữ liệu đa phương tiện. Tuy còn ở giai đoạn đầu, chúng có thể mở ra kỷ nguyên mới cho AI với hiệu suất cao và tiết kiệm năng lượng hơn.

https://techcrunch.com/2024/07/17/ttt-models-might-be-the-next-frontier-in-generative-ai/

Fujitsu đầu tư vào Cohere, đối thủ của OpenAI, nhằm phát triển mô hình ngôn ngữ tiếng Nhật

- Fujitsu đã đầu tư vào Cohere, startup AI tạo sinh của Bắc Mỹ, đối thủ của OpenAI. Số tiền đầu tư không được tiết lộ.
- Fujitsu và Cohere dự định phát triển mô hình ngôn ngữ lớn (LLM) tiếng Nhật có tên tạm thời là Takane, dựa trên LLM của Cohere và học từ thuật ngữ kinh doanh tiếng Nhật do Fujitsu cung cấp.
- Takane dự kiến có từ 50 tỷ đến 100 tỷ tham số, ít hơn nhiều so với GPT-4 của OpenAI (1,76 nghìn tỷ tham số). Fujitsu dự định ra mắt Takane vào tháng 9.
- Cohere, thành lập năm 2019, chuyên cung cấp giải pháp AI tạo sinh cho doanh nghiệp và giảm tần suất "ảo giác" (thông tin sai lệch, không chính xác hoặc phi logic) trong câu trả lời của AI.
- Fujitsu cũng đang phát triển một LLM riêng với Viện Công nghệ Tokyo nhằm mở rộng danh mục sản phẩm AI thích ứng với nhu cầu của khách hàng.
- Takane sẽ hỗ trợ chuyển đổi số, cung cấp các giải pháp như xây dựng hệ thống phát hiện lỗi công việc trong nhà máy. Mục tiêu là Takane học được nhiều thuật ngữ kinh doanh tiếng Nhật để xử lý các tác vụ và thuật ngữ chuyên môn cho từng ngành.
- Takane sẽ không chỉ tạo ra doanh thu liên tục từ phí mà còn mở rộng sang thị trường mới, hứa hẹn biên lợi nhuận cao hơn so với mảng phát triển hợp đồng chính của Fujitsu.
- Fujitsu đặt mục tiêu doanh thu 700 tỷ yên (4,43 tỷ USD) cho mảng hỗ trợ chuyển đổi số vào năm tài chính kết thúc tháng 3/2026, tăng 90% so với năm tài chính kết thúc tháng 3/2024.

📌 Fujitsu đầu tư vào Cohere để phát triển mô hình ngôn ngữ tiếng Nhật Takane với 50-100 tỷ tham số, hỗ trợ chuyển đổi số trong nhiều ngành. Fujitsu đặt mục tiêu doanh thu 700 tỷ yên (4,43 tỷ USD) cho mảng này vào năm tài chính 2026, tăng 90% so với 2024.

https://asia.nikkei.com/Business/Technology/Artificial-intelligence/Fujitsu-invests-in-OpenAI-rival-Cohere-eyeing-Japanese-language-model

NVIDIA giới thiệu RankRAG - khung RAG mới huấn luyện một LLM duy nhất để xếp hạng ngữ cảnh top-k và tạo câu trả lời trong RAG

• NVIDIA và Georgia Tech đã giới thiệu RankRAG - một khung mới để nâng cao khả năng của các mô hình ngôn ngữ lớn (LLM) trong các tác vụ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).

 

• RankRAG huấn luyện một LLM duy nhất để thực hiện cả việc xếp hạng ngữ cảnh và tạo câu trả lời trong RAG thông qua hướng dẫn.

 

• Khung này mở rộng các bộ dữ liệu huấn luyện hiện có bằng cách kết hợp dữ liệu hỏi đáp phong phú về ngữ cảnh, hỏi đáp được tăng cường bởi truy xuất và xếp hạng.

 

• RankRAG giới thiệu một tác vụ chuyên biệt tập trung vào việc xác định các ngữ cảnh hoặc đoạn văn liên quan cho các câu hỏi đã cho.

 

• Trong quá trình suy luận, LLM trước tiên xếp hạng lại các ngữ cảnh được truy xuất trước khi tạo câu trả lời dựa trên top-k ngữ cảnh đã được tinh chỉnh.

 

• Quá trình huấn luyện RankRAG gồm hai giai đoạn: tinh chỉnh có giám sát trên các bộ dữ liệu đa dạng và thống nhất các tác vụ xếp hạng và tạo sinh.

 

• Tất cả các tác vụ được chuẩn hóa thành định dạng (câu hỏi, ngữ cảnh, câu trả lời) để tạo điều kiện chuyển giao kiến thức.

 

• RankRAG sử dụng quy trình truy xuất-xếp hạng lại-tạo sinh: truy xuất top-N ngữ cảnh, xếp hạng lại để chọn top-k liên quan nhất và tạo câu trả lời dựa trên các ngữ cảnh đã tinh chỉnh này.

 

• Phiên bản 8B tham số của RankRAG vượt trội so với ChatQA-1.5 8B và cạnh tranh tốt với các mô hình lớn hơn, bao gồm cả những mô hình có số tham số gấp 5-8 lần.

 

• RankRAG 70B vượt qua mô hình ChatQA-1.5 70B mạnh mẽ và vượt trội đáng kể so với các baseline RAG trước đó sử dụng InstructGPT.

 

• RankRAG cho thấy cải thiện lớn hơn trên các bộ dữ liệu thách thức như hỏi đáp dài (PopQA) và hỏi đáp nhiều bước (2WikimQA), với hơn 10% cải thiện so với ChatQA-1.5.

 

• Khả năng xếp hạng ngữ cảnh của RankRAG đặc biệt hiệu quả trong các tình huống mà các tài liệu được truy xuất hàng đầu ít liên quan đến câu trả lời.

 

• RankRAG đã được đánh giá toàn diện trên 9 bộ dữ liệu RAG lĩnh vực chung và 5 bộ dữ liệu RAG y sinh, cho thấy hiệu suất vượt trội so với các mô hình RAG tiên tiến nhất.

 

📌 RankRAG là một bước tiến quan trọng trong hệ thống RAG, huấn luyện một LLM duy nhất để thực hiện cả xếp hạng ngữ cảnh và tạo câu trả lời. Nó vượt trội so với các mô hình xếp hạng chuyên gia hiện có và đạt hiệu suất vượt trội trên 14 bộ dữ liệu RAG, mở ra hướng đi mới cho việc nâng cao khả năng của hệ thống RAG trong nhiều lĩnh vực.

 

https://www.marktechpost.com/2024/07/09/nvidia-introduces-rankrag-a-novel-rag-framework-that-instruction-tunes-a-single-llm-for-the-dual-purposes-of-top-k-context-ranking-and-answer-generation-in-rag/

Đại học Thanh Hoa ra mắt CodeGeeX4-ALL-9B: Mô hình tạo mã đa ngôn ngữ đột phá vượt trội so với các đối thủ lớn

• Nhóm Knowledge Engineering Group (KEG) và Data Mining tại Đại học Thannh Hoa đã công bố mô hình CodeGeeX4-ALL-9B, một bước tiến quan trọng trong lĩnh vực tạo mã.

• CodeGeeX4-ALL-9B được huấn luyện trên framework GLM-4-9B, giúp cải thiện đáng kể khả năng tạo mã của nó.

• Mô hình có 9,4 tỷ tham số, là một trong những mô hình mạnh mẽ nhất trong lớp của nó, vượt trội hơn cả các mô hình đa năng lớn hơn.

• CodeGeeX4-ALL-9B nổi bật với khả năng xử lý đa dạng các chức năng như hoàn thiện mã, tạo mã, diễn giải mã và tìm kiếm web.

• Mô hình cung cấp khả năng hỏi đáp mã ở cấp độ kho lưu trữ, cho phép các nhà phát triển tương tác với codebase một cách trực quan và hiệu quả hơn.

• Kết quả đánh giá trên các bộ benchmark công khai như BigCodeBench và NaturalCodeBench cho thấy hiệu suất vượt trội của CodeGeeX4-ALL-9B.

• Mô hình đạt kết quả hàng đầu, vượt qua nhiều mô hình lớn hơn và trở thành mô hình dẫn đầu trong nhóm dưới 10 tỷ tham số.

• CodeGeeX4-ALL-9B có thiết kế thân thiện với người dùng, dễ dàng tích hợp vào quy trình làm việc của các nhà phát triển.

• Người dùng có thể khởi chạy và sử dụng mô hình cho các dự án của họ bằng cách sử dụng các phiên bản cụ thể của thư viện transformers.

• Mô hình hỗ trợ cả GPU và CPU, đảm bảo tính linh hoạt trong các môi trường tính toán khác nhau.

• Quá trình suy luận của mô hình bao gồm việc tạo ra các đầu ra dựa trên đầu vào của người dùng, sau đó được giải mã để cung cấp mã rõ ràng và có thể thực thi được.

• Khả năng này đặc biệt hữu ích cho các tác vụ đòi hỏi tạo mã chính xác và hiệu quả, như phát triển các thuật toán phức tạp hoặc tự động hóa các tác vụ lập trình lặp đi lặp lại.

📌 CodeGeeX4-ALL-9B của Đại học Thanh Hoa là bước đột phá trong mô hình tạo mã với 9,4 tỷ tham số. Nó vượt trội so với các đối thủ lớn hơn trên các benchmark như BigCodeBench, hỗ trợ đa dạng chức năng từ hoàn thiện đến diễn giải mã, mở ra triển vọng mới cho ngành phát triển phần mềm.

https://www.marktechpost.com/2024/07/07/tsinghua-university-open-sources-codegeex4-all-9b-a-groundbreaking-multilingual-code-generation-model-outperforming-major-competitors-and-elevating-code-assistance/

AI của Trung Quốc có thể hưởng lợi từ các mô hình lớn hơn và nhiều dữ liệu hơn

- Jiang Daxin, người sáng lập Stepfun ở Thượng Hải, tin tưởng vào "luật mở rộng" trong phát triển mô hình ngôn ngữ lớn (LLM), mặc dù Trung Quốc gặp bất lợi về đầu tư và chip tiên tiến.
- Ông Jiang dự đoán LLM cuối cùng sẽ đạt hàng trăm nghìn tỷ tham số. Luật mở rộng cho thấy hiệu suất cải thiện từ các mô hình lớn hơn, nhiều dữ liệu hơn và tài nguyên tính toán lớn hơn.
- Các gã khổng lồ công nghệ đang đầu tư mạnh vào công nghệ tiên tiến nhất, đặc biệt là chip Nvidia như H100, để tận dụng mọi lợi thế về hiệu suất.
- Các công ty công nghệ lớn và startup của Trung Quốc đã đua nhau ra mắt LLM của riêng mình. Hiện có hơn 200 mô hình AI ở Trung Quốc.
- Tuy nhiên, ít công ty AI Trung Quốc có thể sánh được với các gã khổng lồ công nghệ Mỹ về chi tiêu cho LLM. Nhiều công ty tập trung phát triển các ứng dụng đối mặt với khách hàng để tạo ra doanh thu.
- Stepfun tập trung phát triển các mô hình cơ bản. Họ ra mắt Step-2 (LLM 1 nghìn tỷ tham số), Step-1.5V (mô hình đa phương thức) và Step-1X (mô hình tạo ảnh).
- Ông Jiang cho rằng tính đa phương thức rất quan trọng để xây dựng mô hình thế giới. Stepfun muốn thống nhất khả năng tạo sinh và hiểu biết trong một mô hình duy nhất.
- Công ty cũng vận hành các sản phẩm hướng tới người tiêu dùng như trợ lý cá nhân Yuewen và bạn đồng hành AI Maopaoya.
- Đầu tư AI toàn cầu đạt 22,4 tỷ USD năm ngoái, tập trung chủ yếu vào các công ty phát triển mô hình lớn. Trong tương lai gần, sẽ có nhiều khoản đầu tư hơn vào ứng dụng AI.
- Quy mô thị trường mô hình AI của Trung Quốc dự kiến đạt khoảng 5,2 nghìn tỷ nhân dân tệ (715,1 tỷ USD) vào năm 2030. Quy mô thị trường AI công nghiệp sẽ là khoảng 9,4 nghìn tỷ nhân dân tệ.

📌 Mặc dù gặp khó khăn về đầu tư và chip tiên tiến, người sáng lập Stepfun tin rằng AI Trung Quốc sẽ hưởng lợi từ mô hình lớn hơn và nhiều dữ liệu hơn. Công ty tập trung phát triển các mô hình nền tảng như LLM 1 nghìn tỷ tham số Step-2 và mô hình đa phương thức Step-1.5V. Đầu tư AI toàn cầu đạt 22,4 tỷ USD năm ngoái và thị trường AI Trung Quốc dự kiến đạt 5,2 nghìn tỷ nhân dân tệ vào năm 2030.

https://www.scmp.com/tech/tech-trends/article/3269507/chinese-ai-can-benefit-bigger-models-more-data-says-start-founder

Các công ty công nghệ lớn đang chuyển hướng sang phát triển các mô hình AI nhỏ hơn nhằm giảm chi phí và tăng hiệu suất

• Các công ty công nghệ lớn và startup đang chuyển hướng phát triển các mô hình AI nhỏ hơn, rẻ hơn và chuyên biệt hóa hơn.

• Mô hình nhỏ được huấn luyện trên ít dữ liệu hơn và thường được thiết kế cho các tác vụ cụ thể. Chi phí phát triển dưới 10 triệu USD, sử dụng dưới 10 tỷ tham số.

• Microsoft đã giới thiệu dòng mô hình nhỏ Phi, chỉ bằng 1/100 kích thước của ChatGPT nhưng thực hiện nhiều tác vụ gần như tốt tương đương.

• Google, Mistral, Anthropic và Cohere cũng đã phát hành các mô hình nhỏ hơn trong năm nay. Apple cũng có kế hoạch sử dụng mô hình nhỏ để chạy hoàn toàn trên điện thoại.

• Mô hình nhỏ tiêu tốn ít năng lượng tính toán hơn, có thể trả lời câu hỏi với chi phí chỉ bằng 1/6 so với mô hình lớn trong nhiều trường hợp.

• Các doanh nghiệp đang tìm cách chạy công nghệ AI tạo sinh với chi phí thấp hơn khi lợi nhuận vẫn chưa rõ ràng.

• Mô hình nhỏ có thể được tinh chỉnh trên tập dữ liệu cụ thể như tài liệu pháp lý hay số liệu bán hàng để thực hiện các tác vụ chuyên biệt hiệu quả như mô hình lớn nhưng với chi phí thấp hơn nhiều.

• Experian đã chuyển từ mô hình lớn sang mô hình nhỏ cho chatbot AI tư vấn tài chính và dịch vụ khách hàng, cho hiệu suất tương đương nhưng chi phí thấp hơn nhiều.

• Mô hình nhỏ cũng nhanh hơn và tránh được vấn đề độ trễ của mô hình lớn.

• Xu hướng này xuất hiện khi tiến bộ của các mô hình lớn công khai đang chậm lại. Kể từ khi OpenAI phát hành GPT-4, chưa có mô hình mới nào có bước tiến tương đương.

• Tuy nhiên, các công ty vẫn không từ bỏ mô hình lớn hoàn toàn. Apple đã tích hợp ChatGPT vào Siri, Microsoft tích hợp mô hình mới nhất của OpenAI vào Windows.

📌 Các công ty công nghệ lớn đang chuyển hướng sang mô hình AI nhỏ hơn để giảm chi phí và tăng hiệu suất. Mô hình nhỏ có thể được tinh chỉnh cho các tác vụ cụ thể, tiêu tốn ít năng lượng hơn và có chi phí chỉ bằng 1/6 mô hình lớn. Tuy nhiên, các mô hình lớn vẫn được sử dụng cho một số ứng dụng.

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98

#WSJ

Thái Lan tham vọng tạo "ChatGPT bản địa" đối đầu gã khổng lồ công nghệ Mỹ

• Thái Lan đang phát triển dự án AI tạo sinh bằng tiếng Thái bản địa nhằm duy trì lợi thế cạnh tranh trước các công ty công nghệ Mỹ đang xâm nhập thị trường.

• Dự án Open ThaiGPT được triển khai tại cơ sở nghiên cứu chính phủ ở tỉnh Pathum Thani, cách Bangkok 40 phút lái xe về phía bắc.

• Trung tâm Công nghệ Điện tử và Máy tính Quốc gia Thái Lan (Nectec) hợp tác với 3 nhóm AI để khởi động dự án vào tháng 4/2023, khoảng nửa năm sau khi OpenAI của Mỹ ra mắt ChatGPT.

• Giám đốc Nectec Thepchai Supnithi nhấn mạnh tiềm năng to lớn của AI tạo sinh.

Trung tâm Open ThaiGPT có 60 nhân viên, chủ yếu là các nhà nghiên cứu về kỹ thuật tri thức và khoa học dữ liệu. Nhiều người còn trẻ, tạo nên không khí năng động như một startup ứng dụng.

• Dự án sử dụng mô hình ngôn ngữ lớn Llama 2 của Meta làm nền tảng để phát triển AI tạo sinh.

Với sự hỗ trợ của siêu máy tính, AI học từ dữ liệu tiếng Thái có sẵn công khai trên Internet. Open ThaiGPT đã đạt 7 tỷ tham số, một thước đo hiệu suất. Mục tiêu là đạt 13 tỷ tham số, sau đó là 70 tỷ.

• Chatbot Abdul đã được phát hành một phần, chủ yếu để doanh nghiệp sử dụng. Abdul có thể trả lời các câu hỏi về ẩm thực và giao thông Thái Lan tương tự như ChatGPT bằng tiếng Anh.

• Thái Lan đối mặt với khoảng cách tài trợ lớn cho AI tạo sinh so với các công ty công nghệ hàng đầu của Mỹ như Google và Meta. Microsoft là nhà đầu tư vào OpenAI.

Thepchai cảnh báo nếu Thái Lan không tạo ra được gì trong lĩnh vực AI tạo sinh, đất nước có nguy cơ mất bản sắc và phụ thuộc vào các gã khổng lồ công nghệ.

• Các công ty công nghệ Mỹ dường như đang hướng tới việc thâm nhập mạnh mẽ vào Thái Lan. CEO Microsoft Satya Nadella đã đến thăm đất nước này trong chuyến công du Đông Nam Á từ cuối tháng 4 đến đầu tháng 5. Nadella đề cập đến kế hoạch phát triển hơn nữa AI bằng ngôn ngữ địa phương, bao gồm cả tiếng Thái.

• Công ty tư vấn A.T. Kearney của Mỹ dự đoán việc triển khai AI ở Đông Nam Á sẽ bổ sung 1.000 tỷ USD vào GDP khu vực. Các gã khổng lồ công nghệ Mỹ đang đổ xô để nắm bắt nhu cầu đó.

• Nhiều quốc gia đang ở vị thế yếu để cạnh tranh với các công ty công nghệ Mỹ, thay vào đó tìm cách cùng tồn tại. Nỗ lực của Thái Lan có thể là một trường hợp thử nghiệm để đạt được quyền tự chủ trong kỷ nguyên AI.

📌 Thái Lan phát triển Open ThaiGPT, dự án AI tạo sinh bản địa với 7 tỷ tham số, nhằm cạnh tranh với các công ty công nghệ Mỹ. Mục tiêu là đạt 70 tỷ tham số và duy trì quyền tự chủ AI, tránh phụ thuộc vào nước ngoài trong thị trường AI tiềm năng 1.000 tỷ USD ở Đông Nam Á.

https://asia.nikkei.com/Business/Technology/Artificial-intelligence/Thailand-s-homegrown-AI-project-aims-to-resist-U.S.-tech-giants

NASA và IBM giới thiệu INDUS - bộ mô hình ngôn ngữ lớn chuyên biệt cho nghiên cứu khoa học tiên tiến

• NASA và IBM đã hợp tác phát triển INDUS - một bộ mô hình ngôn ngữ lớn (LLM) chuyên biệt cho các lĩnh vực khoa học như khoa học Trái đất, thiên văn học, vật lý, vật lý thiên văn, vật lý Mặt Trời, khoa học hành tinh và sinh học.

• INDUS được thiết kế để khắc phục hạn chế của các mô hình ngôn ngữ lớn hiện tại, vốn hoạt động kém hiệu quả trong các lĩnh vực chuyên môn do sự khác biệt về từ vựng và ngữ cảnh.

• Bộ INDUS bao gồm nhiều loại mô hình khác nhau:
- Mô hình mã hóa được huấn luyện trên từ vựng và kho ngữ liệu chuyên ngành
- Mô hình nhúng văn bản tổng quát dựa trên học đối nghịch
- Các phiên bản mô hình nhỏ hơn sử dụng kỹ thuật chưng cất kiến thức

• Nhóm nghiên cứu đã tạo ra INDUSBPE - một tokenizer chuyên biệt sử dụng kỹ thuật mã hóa cặp byte (BPE) để xử lý tốt hơn ngôn ngữ chuyên ngành.

• Ba bộ dữ liệu chuẩn mới đã được công bố:
- CLIMATE-CHANGE NER: nhận dạng thực thể liên quan đến biến đổi khí hậu
- NASA-QA: trả lời câu hỏi trích xuất về các chủ đề liên quan đến NASA
- NASA-IR: truy xuất thông tin về nội dung liên quan đến NASA

Các mô hình INDUS đã được huấn luyện trước bằng tokenizer INDUSBPE và kho ngữ liệu khoa học được chọn lọc kỹ lưỡng. Sau đó, chúng được tinh chỉnh với mục tiêu học đối nghịch để tạo ra các mô hình nhúng câu.

• Kết quả thực nghiệm cho thấy các mô hình INDUS vượt trội hơn so với các mô hình chuyên ngành như SCIBERT và mô hình đa năng như RoBERTa trên cả các bộ dữ liệu chuẩn mới và hiện có.

• INDUS được đánh giá là một bước tiến lớn trong lĩnh vực Trí tuệ nhân tạo, cung cấp công cụ mạnh mẽ giúp nâng cao khả năng thực hiện các tác vụ Xử lý ngôn ngữ tự nhiên chính xác và hiệu quả cho các chuyên gia và nhà nghiên cứu trong nhiều lĩnh vực khoa học.

📌 NASA và IBM đã phát triển INDUS - bộ mô hình ngôn ngữ lớn chuyên biệt cho nghiên cứu khoa học tiên tiến, vượt trội hơn các mô hình hiện có. INDUS bao gồm nhiều loại mô hình khác nhau và đi kèm 3 bộ dữ liệu chuẩn mới, hứa hẹn nâng cao hiệu quả xử lý ngôn ngữ tự nhiên trong các lĩnh vực khoa học chuyên sâu.

https://www.marktechpost.com/2024/07/04/nasa-and-ibm-researchers-introduce-indus-a-suite-of-domain-specific-large-language-models-llms-for-advanced-scientific-research/

CEO Baidu Robin Li: Trung Quốc có quá nhiều mô hình AI nhưng lại thiếu ứng dụng thực tế

• Tại Hội nghị Trí tuệ Nhân tạo Thế giới ở Thượng Hải, CEO Baidu Robin Li cảnh báo Trung Quốc có quá nhiều mô hình ngôn ngữ lớn (LLM), dẫn đến lãng phí tài nguyên đáng kể, đặc biệt là sức tính toán.

• Năm 2023, hơn 100 LLM đã xuất hiện ở Trung Quốc, tạo ra sự cạnh tranh gay gắt.

• Li kêu gọi các nhà phát triển tập trung xây dựng nhiều ứng dụng thực tế hơn thay vì liên tục tinh chỉnh công nghệ nền tảng của các sản phẩm AI tạo sinh.

• Ông nhận thấy nhiều người vẫn chủ yếu tập trung vào các mô hình nền tảng, trong khi các ứng dụng thực tế và lợi ích thực sự từ chúng còn hạn chế.

• Thị trường AI tạo sinh của Trung Quốc đã trở nên đông đúc với hơn 200 LLM xuất hiện kể từ khi ChatGPT ra mắt cuối năm 2022.

• Cạnh tranh quá mức từ các công ty công nghệ lớn đã dẫn đến cuộc chiến giá cho các dịch vụ AI thương mại.

• Thị trường AI của Trung Quốc, cũng như phần lớn ngành công nghiệp toàn cầu, vẫn đang ở giai đoạn đầu của quá trình kiếm tiền.

• Li cho biết logistics và viết sáng tạo là hai ngành đã được hưởng lợi từ các ứng dụng AI giúp cải thiện hiệu quả.

• Baidu Comate, trợ lý lập trình của công ty được hỗ trợ bởi LLM Ernie, đã được triển khai nội bộ cho nhân viên sử dụng. 30% công việc lập trình tại Baidu hiện do AI đảm nhiệm.

• CEO SenseTime Xu Li đồng tình rằng các ứng dụng là chìa khóa để xác định liệu đây có phải là thời điểm quan trọng cho AI hay không. Ông cho rằng ngành công nghiệp AI chưa đạt đến thời điểm quan trọng vì chưa thâm nhập sâu vào bất kỳ ứng dụng nào trong các ngành dọc gây ra thay đổi rộng rãi.

• CEO MiniMax Yan Junjie dự đoán sẽ có sự hợp nhất lớn trong ngành trong tương lai, với LLM chủ yếu được phát triển bởi chỉ 5 công ty.

• Thành công bất ngờ của ChatGPT đã châm ngòi cho cuộc đua sản xuất LLM tốt nhất ở Trung Quốc.

• Ngoài một nhóm nhỏ các startup được gọi là "hổ AI" của Trung Quốc, các công ty công nghệ lớn như ByteDance, Tencent và Alibaba cũng đã đổ nhiều nguồn lực vào thị trường này.

• Các công ty lớn bắt đầu cắt giảm mạnh giá dịch vụ dựa trên LLM từ tháng 5 để thu hút người dùng.

📌 Thị trường AI Trung Quốc đang bão hòa với hơn 200 mô hình ngôn ngữ lớn, gây lãng phí tài nguyên. Các chuyên gia kêu gọi tập trung vào ứng dụng thực tế thay vì chỉ cải tiến công nghệ. Dự báo sẽ có sự hợp nhất, chỉ còn 5 công ty chính phát triển LLM trong tương lai.

https://www.scmp.com/tech/tech-trends/article/3269338/too-many-ai-models-china-baidu-ceo-warns-wasted-resources-lack-applications

Nhật Bản hỗ trợ Đông Nam Á phát triển AI bằng ngôn ngữ địa phương thông qua sáng kiến công-tư

• Nhật Bản sẽ hỗ trợ các nước Đông Nam Á đào tạo mô hình ngôn ngữ lớn (LLM) bằng ngôn ngữ địa phương, thúc đẩy sự phát triển của trí tuệ nhân tạo trong khu vực.

• Thủ tướng Fumio Kishida dự kiến sẽ công bố sáng kiến hợp tác công-tư này vào thứ Sáu tại Hội nghị Thượng đỉnh Kinh doanh Châu Á do Liên đoàn Doanh nghiệp Nhật Bản (Keidanren) tổ chức.

• Kishida xem AI và giảm phát thải carbon là những lĩnh vực mà Nhật Bản có thể hỗ trợ độc đáo cho Hiệp hội các quốc gia Đông Nam Á (ASEAN).

• Sáng kiến này nhằm thúc đẩy hợp tác giữa các công ty AI Nhật Bản và doanh nghiệp ở Singapore, Malaysia, Việt Nam và các nước khác trong khu vực, đặc biệt là về mô hình ngôn ngữ lớn.

• LLM là nền tảng cho các mô hình AI tạo sinh như ChatGPT. Tuy nhiên, do cần lượng dữ liệu đào tạo rất lớn, các tiến bộ chủ yếu tập trung vào các ngôn ngữ phổ biến như tiếng Anh và tiếng Trung.

Nhật Bản và các nước ASEAN lo ngại rằng sự chậm trễ trong phát triển AI bằng ngôn ngữ của họ sẽ cản trở việc tạo ra các dịch vụ AI mới, tiện lợi và làm suy yếu đa dạng văn hóa.

• Việc phụ thuộc vào các công ty nước ngoài về công nghệ tiên tiến cũng đặt ra rủi ro về an ninh kinh tế.

Nhật Bản dự kiến các nhà phát triển AI của mình sẽ làm việc với đối tác ở Đông Nam Á để đào tạo LLM phù hợp với ngôn ngữ và bối cảnh văn hóa địa phương, bao gồm việc biên soạn dữ liệu văn bản, giọng nói và thử nghiệm mô hình.

Nhật Bản cũng có kế hoạch cung cấp tài nguyên tính toán, như các đơn vị xử lý đồ họa (GPU) cho các nước Đông Nam Á.

• Một số hợp tác đã bắt đầu, như Elyza của Tokyo đang phát triển LLM tiếng Thái và hợp tác với các doanh nghiệp Thái Lan và Nhật Bản.

• Singapore đã công bố sáng kiến phát triển LLM cho tiếng Indonesia, Malaysia và Thái vào tháng 12/2023. Nhật Bản sẽ tìm cách hợp tác trong nỗ lực này.

• Chính phủ Nhật Bản sẽ cung cấp trợ cấp cho các công ty mở rộng sang thị trường mới nổi và các nước đang phát triển thuộc Nam bán cầu, với ngân sách 140 tỷ yên (867 triệu USD).

• Chương trình Thách thức Tăng tốc AI Tạo sinh (GENIAC) của Nhật Bản sẽ cung cấp 29 tỷ yên hỗ trợ cho các startup kỹ thuật số đến cuối năm tài chính.

• Kishida cũng sẽ thảo luận về các sáng kiến trong kế hoạch xây dựng kỹ năng số nhằm đào tạo 100.000 người trong 5 năm, hợp tác với các thành viên ASEAN.

📌 Nhật Bản đang tiên phong trong việc hỗ trợ phát triển AI bằng ngôn ngữ địa phương ở Đông Nam Á thông qua sáng kiến công-tư trị giá 867 triệu USD. Mục tiêu là thúc đẩy an ninh kinh tế, bảo tồn đa dạng văn hóa và đào tạo 100.000 chuyên gia kỹ thuật số trong 5 năm tới.

https://asia.nikkei.com/Business/Technology/Artificial-intelligence/Japan-to-help-Southeast-Asia-develop-AI-in-local-languages

Meta chuẩn bị ra mắt mô hình Llama 3 400B - đối thủ cạnh tranh mạnh mẽ của ChatGPT-4

• Meta đã phát hành Llama 3 vào tháng 4/2024, sử dụng tập dữ liệu lớn hơn ít nhất 7 lần so với Llama 2. Ban đầu có sẵn ở kích thước 8B và 70B tham số.

• Thông tin rò rỉ cho thấy Meta sắp ra mắt phiên bản Llama 3 mạnh mẽ nhất, được đào tạo trên hơn 400 tỷ tham số.

Trong thử nghiệm ban đầu, Llama 3 400B đạt điểm 86,1 trên thang đo MMLU, ngang bằng với hiệu suất của GPT-4 nhưng chỉ với chưa đến một nửa số lượng tham số.

• Việc đạt được hiệu suất tương đương với ít tham số hơn cho thấy Llama 3 400B có thể hiệu quả hơn nhiều so với ChatGPT 4 về tài nguyên tính toán, tiêu thụ năng lượng và chi phí.

• Llama 3 được phát hành dưới giấy phép mở cho nghiên cứu và sử dụng thương mại. Chưa rõ liệu phiên bản 400B có được phát hành dưới cùng giấy phép mở hay không.

• Nếu 400B được phát hành dưới dạng mô hình mở, nó sẽ mang lại khả năng ngôn ngữ tiên tiến cho các nhà nghiên cứu và nhà phát triển miễn phí, thúc đẩy đổi mới và cho phép nhiều ứng dụng mới của công nghệ.

• Meta AI đã ám chỉ về việc phát hành mô hình 400B từ thông cáo báo chí ban đầu về Llama 3 vào ngày 18/4, nói rằng "các mô hình lớn nhất của chúng tôi có hơn 400 tỷ tham số".

• Người dùng WhatsApp Beta trên Android 2.24.14.7 đã phát hiện tùy chọn mới để thử nghiệm mô hình Llama 3-405B cho Meta AI, mặc dù có giới hạn đáng kể về khối lượng sử dụng.

• Mặc dù chưa có ngày phát hành chính thức, nhưng có thể dự đoán bản phát hành đầy đủ sẽ diễn ra vào cuối tháng 7 hoặc tháng 8 năm 2024.

📌 Meta sắp ra mắt Llama 3 400B, mô hình AI nguồn mở cạnh tranh trực tiếp với ChatGPT-4. Với hiệu suất tương đương nhưng ít tham số hơn, Llama 3 400B hứa hẹn mang lại hiệu quả cao hơn về tài nguyên và chi phí, đồng thời thúc đẩy đổi mới trong lĩnh vực AI ngôn ngữ.

https://www.tomsguide.com/ai/meta-is-about-to-launch-its-biggest-llama-model-yet-heres-why-its-a-big-deal

Google Gemini và các mô hình AI khác gặp khó khăn trong phân tích văn bản dài và video

• Hai nghiên cứu mới chỉ ra những hạn chế đáng ngạc nhiên của AI tạo sinh khi phân tích văn bản dài và video, trái ngược với những tuyên bố quảng cáo.

• Một nghiên cứu kiểm tra khả năng của các mô hình ngôn ngữ AI trong việc hiểu và tiếp tục các câu chuyện dài, đánh giá mức độ hiểu và phát triển các tường thuật mở rộng.

• Với một cuốn sách dài 520 trang, Gemini 1.5 Pro trả lời chính xác các câu hỏi đúng/sai 46,7% thời gian, trong khi Gemini Flash chỉ đạt 20%.

GPT-4 đạt độ chính xác cao nhất là 55,8% trên bộ dữ liệu NoCha (Novel Challenge).

• Các giải thích do mô hình tạo ra cho quyết định của chúng thường không chính xác, ngay cả đối với các tuyên bố được gắn nhãn đúng.

• Marzena Karpinska, đồng tác giả nghiên cứu, nhận xét rằng mặc dù các mô hình như Gemini 1.5 Pro có thể xử lý ngữ cảnh dài về mặt kỹ thuật, nhưng trong nhiều trường hợp chúng không thực sự "hiểu" nội dung.

• Nghiên cứu thứ hai tập trung vào đánh giá hiệu suất của các mô hình ngôn ngữ thị giác (VLM) trong việc phân tích video.

• Các nhà nghiên cứu tạo ra một bộ dữ liệu gồm hình ảnh kèm theo các câu hỏi để mô hình trả lời về các đối tượng được mô tả trong hình ảnh.

• Kết quả cho thấy các VLM hiện đại gặp khó khăn trong việc bỏ qua thông tin không liên quan khi trả lời các truy vấn trong ngữ cảnh thị giác dài.

• Gemini Flash hoạt động kém hiệu quả khi được yêu cầu phiên mã 6 chữ số viết tay từ một trình chiếu 25 hình ảnh, chỉ đạt khoảng 50% độ chính xác và 30% với 8 chữ số.

• Michael Saxon, đồng tác giả nghiên cứu, nhận xét rằng việc nhận dạng số trong khung hình và đọc nó dường như đặc biệt khó khăn đối với tất cả các mô hình được kiểm tra.

• Những phát hiện này đặt ra câu hỏi về khả năng thực tế của AI tạo sinh trong việc phân tích và hiểu các nguồn dữ liệu phức tạp và dài hơn.

• Các công ty nên cân nhắc những hạn chế này khi tích hợp AI tạo sinh vào lực lượng lao động của họ.

📌 Nghiên cứu mới cho thấy Google Gemini và các mô hình AI khác gặp khó khăn đáng kể khi phân tích văn bản dài và video. Gemini 1.5 Pro chỉ đạt 46,7% độ chính xác với sách 520 trang, trong khi GPT-4 đạt cao nhất 55,8%. Các mô hình cũng gặp khó khăn trong việc trả lời câu hỏi về video, đặt ra câu hỏi về khả năng thực tế của AI trong xử lý dữ liệu phức tạp.

https://www.techspot.com/news/103610-google-gemini-not-good-analysis-hype-other-ai.html

Two AI ra mắt SUTRA - mô hình AI đa ngôn ngữ hỗ trợ hơn 30 ngôn ngữ, vượt trội GPT-4 trong 4 ngôn ngữ Nam Á

• Two AI đã ra mắt SUTRA, một mô hình ngôn ngữ được thiết kế để thành thạo hơn 30 ngôn ngữ, bao gồm nhiều ngôn ngữ Nam Á như Gujarati, Marathi, Tamil và Telugu.

• Kiến trúc của SUTRA bao gồm hai transformer mixture-of-experts: một mô hình khái niệm và một bộ mã hóa-giải mã để dịch thuật.

• Mô hình khái niệm được đào tạo để dự đoán token tiếp theo, sử dụng các bộ dữ liệu công khai chủ yếu bằng tiếng Anh.

• Mô hình dịch thuật học từ 100 triệu cuộc hội thoại được dịch bởi con người và máy móc trên nhiều ngôn ngữ.

• SUTRA có ba phiên bản: Pro, Light và Online. SUTRA-Pro và SUTRA-Online cung cấp hiệu suất cao và kết nối internet với giá 1 USD/1 triệu token, trong khi SUTRA-Light có độ trễ thấp với giá 0,75 USD/1 triệu token.

• Trên điểm chuẩn MMLU đa ngôn ngữ, SUTRA vượt trội GPT-4 trong 4/11 ngôn ngữ được báo cáo: Gujarati, Marathi, Tamil và Telugu.

• Tokenizer của SUTRA rất hiệu quả, tạo ra ít token hơn so với GPT-3.5 và GPT-4, đặc biệt là trong các ngôn ngữ có chữ viết không phải Latin như tiếng Hindi và tiếng Hàn.

Two AI tập trung vào các thị trường không nói tiếng Anh như Ấn Độ, Hàn Quốc, Nhật Bản và Trung Đông.

• Công ty đã huy động được 20 triệu USD vốn hạt giống từ Jio và Naver.

• SUTRA có tiềm năng cung cấp hỗ trợ đa ngôn ngữ chất lượng cao, tiết kiệm chi phí cho người dùng ở các khu vực nông thôn và chưa được phục vụ.

Mặc dù SUTRA vẫn chưa thể sánh ngang với GPT-4 về mọi mặt, nhưng hiệu suất mục tiêu, hiệu quả và khả năng chi trả của nó khiến nó trở thành một đối thủ đáng gờm trong lĩnh vực AI đa ngôn ngữ.

📌 SUTRA của Two AI là mô hình AI đa ngôn ngữ hỗ trợ 30+ ngôn ngữ, vượt trội GPT-4 trong 4 ngôn ngữ Nam Á. Với giá 0,75-1 USD/triệu token, SUTRA hứa hẹn mang AI tiên tiến đến các thị trường mới nổi ở châu Á với 20 triệu USD vốn hạt giống.

https://www.marktechpost.com/2024/06/29/two-ai-releases-sutra-a-multilingual-ai-model-improving-language-processing-in-over-30-languages-for-south-asian-markets/

CP Gurnani thách thức Sam Altman, Tech Mahindra phát triển LLM Ấn Độ với chi phí dưới 5 triệu USD

• CP Gurnani, đồng sáng lập AIonOS và cựu CEO Tech Mahindra, tại MachineCon GCC Summit 2024 đã thách thức nhận định của Sam Altman (CEO OpenAI) rằng Ấn Độ không thể phát triển LLM riêng.

Tech Mahindra đã phát triển LLM Ấn Độ cho các ngôn ngữ địa phương và hơn 37 phương ngữ chỉ trong 5 tháng, với chi phí dưới 5 triệu USD.

• Gurnani nhấn mạnh AI đã trở thành một phần của cuộc sống hàng ngày và có thể cải thiện năng suất lên đến 40% trong các lĩnh vực như trải nghiệm khách hàng, đảm bảo chất lượng và bán hàng.

• Ông tin rằng trong 5-7 năm tới, Ấn Độ sẽ phát triển mạnh mẽ trong lĩnh vực công nghệ và AI, không cần phụ thuộc vào các nước khác.

• Gurnani nhấn mạnh tầm quan trọng của "sự tiết kiệm cộng với đổi mới cộng với công nghệ cộng với lãnh đạo con người" là bí quyết thành công của các công ty Ấn Độ.

• Tech Mahindra vừa ra mắt Dự án Indus, một mô hình ngôn ngữ lớn bản địa (LLM) được thiết kế để giao tiếp bằng nhiều ngôn ngữ và phương ngữ Ấn Độ.

• Giai đoạn đầu, Dự án Indus sẽ tập trung phát triển LLM cho tiếng Hindi và hơn 37 phương ngữ của nó.

• Tech Mahindra hợp tác với Dell Technologies và Intel để triển khai Dự án Indus, sử dụng giải pháp 'GenAI in a Box' của Dell và cơ sở hạ tầng dựa trên Intel.

• Nikhil Malhotra, Giám đốc toàn cầu của Makers Lab tại Tech Mahindra, cho biết họ đã xây dựng lộ trình, thu thập dữ liệu từ người nói tiếng Hindi và phát triển mô hình Indus từ đầu.

• Sự hợp tác giữa Tech Mahindra, Dell Technologies và Intel nhằm mục đích cách mạng hóa các giải pháp AI trong nhiều ngành công nghiệp như chăm sóc sức khỏe, giáo dục nông thôn, ngân hàng, nông nghiệp và viễn thông.

• Dự án Indus là một bước ngoặt quan trọng trong sự phát triển của GenAI toàn cầu, dự kiến sẽ mở rộng lên 1,3 nghìn tỷ USD trong thập kỷ tới.

📌 Tech Mahindra đã phát triển LLM Ấn Độ với chi phí dưới 5 triệu USD, thách thức nhận định của Sam Altman. Dự án Indus hứa hẹn mang AI đến gần hơn với người dân Ấn Độ thông qua 37+ phương ngữ, đánh dấu bước tiến quan trọng trong việc phát triển AI bản địa.

https://analyticsindiamag.com/cp-gurnani-proves-altman-wrong-tech-mahindra-builds-indian-llm-under-5m/

Baidu ra mắt Ernie 4.0 Turbo, nâng cấp đáng kể cho chatbot AI với 300 triệu người dùng

• Baidu vừa công bố phiên bản nâng cấp Ernie 4.0 Turbo cho mô hình AI của mình, dựa trên mô hình ngôn ngữ lớn ERNIE (Enhanced Representation through Knowledge Integration).

Chatbot AI của Baidu đã đạt 300 triệu người dùng kể từ khi ra mắt. Phiên bản di động vượt 1 triệu người dùng trong ngày đầu tiên và 100 triệu vào cuối năm 2023.

• Ernie 4.0 Turbo được cải thiện đáng kể so với Ernie 4, với phản hồi nhanh hơn và khả năng suy luận tốt hơn. Sẽ sớm có mặt trên web, ứng dụng cho người dùng và API cho nhà phát triển.

• Baidu cũng ra mắt PaddlePaddle 3.0, nền tảng học sâu AI mới với các công nghệ như xử lý song song, tối ưu hóa trình biên dịch, tương thích đa phần cứng cho mô hình quy mô cực lớn.

PaddlePaddle hỗ trợ hơn 14 triệu nhà phát triển, 370.000 doanh nghiệp và tổ chức, đã tạo ra 950.000 mô hình AI.

• OpenAI thông báo sẽ chặn truy cập API từ Trung Quốc đại lục từ ngày 9/7, mặc dù ChatGPT không khả dụng ở đây nhưng nhà phát triển vẫn có thể truy cập API.

• Động thái này khiến các sản phẩm AI tạo sinh trong nước như hệ sinh thái Ernie AI của Baidu trở nên quan trọng hơn với nhà phát triển địa phương.

• Baidu, Alibaba và các công ty công nghệ Trung Quốc khác đã phát động chiến dịch thu hút nhà phát triển sau thông báo của OpenAI.

• Công ty điện toán đám mây của Baidu tặng thêm token cho mô hình Ernie 3.5 dựa trên mức sử dụng API của OpenAI để hỗ trợ người dùng chuyển đổi.

📌 Baidu nâng cấp Ernie 4.0 Turbo, đạt 300 triệu người dùng. PaddlePaddle 3.0 hỗ trợ 14 triệu nhà phát triển. Các công ty Trung Quốc tận dụng cơ hội khi OpenAI chặn API từ Trung Quốc từ 9/7, thu hút nhà phát triển chuyển sang nền tảng AI nội địa.

https://siliconangle.com/2024/06/28/baidu-unveils-ernie-4-0-turbo-significant-upgrade-ai-chatbot/

PathChat 2: Mô hình ngôn ngữ lớn y tế mới có thể trò chuyện với các bác sĩ giải phẫu bệnh về khối u, đưa ra chẩn đoán

- PathChat 2, một mô hình ngôn ngữ lớn (LLM) chuyên biệt cho giải phẫu bệnh, đã được phát triển bởi Mahmood Lab tại Bệnh viện Brigham and Women.
- Mô hình này có thể đóng vai trò như một chuyên gia tư vấn, giúp các bác sĩ giải phẫu bệnh xác định, đánh giá và chẩn đoán khối u cũng như các tình trạng nghiêm trọng khác.
- Trong các bài kiểm tra, PathChat 2 đạt độ chính xác 78% khi chỉ dựa vào hình ảnh và 89.5% khi có thêm thông tin lâm sàng. Mô hình này vượt trội hơn đáng kể so với ChatGPT-4, LLaVA và LLaVA-Med.
- PathChat 2 có thể tóm tắt, phân loại, chú thích hình ảnh, mô tả các chi tiết hình thái đáng chú ý và trả lời các câu hỏi đòi hỏi kiến thức nền về giải phẫu bệnh và y sinh học nói chung.
- Trong thực tế, PathChat 2 có thể hỗ trợ chẩn đoán có sự tham gia của con người. Đánh giá ban đầu được hỗ trợ bởi AI, sau đó bác sĩ cung cấp thêm thông tin về ca bệnh và yêu cầu chẩn đoán phân biệt.
- Mô hình này đặc biệt hữu ích trong các trường hợp có quy trình chẩn đoán phức tạp, kéo dài như ung thư nguyên phát không rõ hoặc ở những nơi thiếu bác sĩ giải phẫu bệnh có kinh nghiệm.
- Trong nghiên cứu, PathChat 2 có thể tóm tắt đặc điểm của các nhóm hình ảnh lớn, hỗ trợ định lượng và giải thích tự động các dấu ấn hình thái trong các tập dữ liệu lớn.
- Tuy nhiên, vẫn còn vấn đề về các câu trả lời không chính xác (hallucinations), cần cải thiện thông qua học tăng cường từ phản hồi của con người (RLHF) và đào tạo liên tục với kiến thức cập nhật.
- Trong tương lai, các mô hình như PathChat 2 có thể được tích hợp với trình xem slide kỹ thuật số hoặc hồ sơ sức khỏe điện tử, mở rộng sang các chuyên khoa hình ảnh y tế khác và các phương thức dữ liệu như genomics và proteomics.

📌 PathChat 2 đại diện cho bước tiến quan trọng trong lĩnh vực giải phẫu bệnh tính toán với khả năng hỗ trợ tương tác, đa phương thức cho các bác sĩ và nhà nghiên cứu. Mô hình đạt độ chính xác cao (89.5%) khi được cung cấp thông tin lâm sàng, vượt trội hơn nhiều so với các mô hình tiên tiến khác. Tuy nhiên, vẫn cần cải thiện và mở rộng hơn nữa để có thể ứng dụng rộng rãi trong thực tế.

 

https://venturebeat.com/ai/new-medical-llm-pathchat-2-can-talk-to-pathologists-about-tumors-offer-diagnoses/

Mô hình ChatGLM của Trung Quốc vượt trội GPT-4 trên nhiều bài kiểm tra

- Bài báo nghiên cứu gần đây cho biết mô hình ngôn ngữ ChatGLM mới nhất của Đại học Thanh Hoa và Zhipu AI đạt hoặc vượt trội hơn GPT-4 trên nhiều bài kiểm tra và tác vụ.
- Mô hình GLM-4 được tiền huấn luyện trên 10 nghìn tỷ token dữ liệu đa ngôn ngữ và được tinh chỉnh thêm bằng kỹ thuật học có giám sát và học tăng cường từ phản hồi của con người.
- Trên các bài kiểm tra học thuật tiếng Anh chuẩn về kiến thức, toán, lập luận và lập trình, GLM-4 đạt hiệu suất tương đương GPT-4 và các mô hình tiên tiến khác như Gemini 1.5 Pro và Claude 3 Opus. GLM-4 đạt 83,3% trên MMLU (so với 86,4% của GPT-4), 93,3% trên GSM8K (so với 92,0%) và 84,7% trên bộ BIG-Bench khó (so với 83,1%).
- Về khả năng tuân theo hướng dẫn bằng cả tiếng Anh và tiếng Trung, GLM-4 ngang bằng GPT-4 Turbo theo bài đánh giá IFEval. Trên bài đánh giá AlignBench về sự phù hợp ngôn ngữ tiếng Trung trên các lĩnh vực như toán, logic và kiến thức chuyên môn, GLM-4 vượt trội hơn GPT-4 và các mô hình khác.
- Phiên bản GLM-4 All Tools có thể tự động sử dụng các công cụ bên ngoài như trình duyệt web, trình thông dịch Python và mô hình chuyển văn bản thành hình ảnh để hoàn thành các tác vụ phức tạp nhiều bước. Nó ngang bằng và trong một số trường hợp còn vượt trội hơn GPT-4 All Tools về khả năng thu thập thông tin và giải quyết vấn đề toán học.
- Đại học Thanh Hoa đã mở mã nguồn nhiều mô hình GLM, với hơn 10 triệu lượt tải xuống trong năm 2023. Nhóm nghiên cứu dự định tiếp tục cải thiện khả năng của mô hình đồng thời thúc đẩy truy cập mở vào các công nghệ AI ngôn ngữ tiên tiến.

📌 Mô hình ChatGLM của Trung Quốc đã vượt trội GPT-4 trên nhiều bài kiểm tra chuẩn, đặc biệt là về khả năng tuân theo hướng dẫn và sự phù hợp ngôn ngữ tiếng Trung. GLM-4 được tiền huấn luyện trên 10 nghìn tỷ token dữ liệu đa ngôn ngữ và có thể tự động sử dụng các công cụ bên ngoài để hoàn thành tác vụ phức tạp. Đại học Thanh Hoa cam kết thúc đẩy truy cập mở vào công nghệ AI ngôn ngữ tiên tiến.

https://analyticsindiamag.com/chinese-built-chatglm-exceeds-gpt-4-across-several-benchmarks/

Claude 3.5 Sonnet vượt trội hơn OpenAI và Google trong cuộc đua AI doanh nghiệp với hiệu suất cao và chi phí thấp

- Anthropic ra mắt Claude 3.5 Sonnet, mô hình AI kết hợp hiệu suất vượt trội với chi phí hợp lý, cách mạng hóa AI doanh nghiệp.
- Claude 3.5 Sonnet vượt trội hơn đối thủ trên 6/7 chỉ số trí tuệ và khả năng tiêu chuẩn, dẫn đầu 4/5 chỉ số thị giác.
- Ra mắt chỉ 3,5 tháng sau Claude 3.0, cho thấy cam kết đổi mới nhanh của Anthropic, với giá chỉ bằng 1/5 mô hình trước.
- Anthropic tập trung vào thị trường doanh nghiệp, đáp ứng nhu cầu về chất lượng, an toàn, độ tin cậy, tốc độ và chi phí.
- Claude 3.5 Sonnet giới thiệu Artifacts, công cụ hợp tác cho các nhóm trong doanh nghiệp, cho phép kéo thông tin và tài sản để cùng phát triển dự án.
- Dựa trên phản hồi của khách hàng, Anthropic không ưu tiên đầu vào/đầu ra giọng nói, nhưng đang cân nhắc cho lộ trình sản phẩm dài hạn.
- Cách tiếp cận lấy khách hàng làm trung tâm thúc đẩy chu kỳ phát triển nhanh của Anthropic, phản ứng trực tiếp với yêu cầu của khách hàng.
- Với khả năng vượt trội và chi phí hợp lý, Claude 3.5 Sonnet sẽ tác động đáng kể đến thị trường AI doanh nghiệp.

📌 Claude 3.5 Sonnet của Anthropic đánh dấu một cột mốc mới trong sứ mệnh đẩy ranh giới AI, đồng thời ưu tiên nhu cầu của khách hàng doanh nghiệp. Với hiệu suất cao hơn 6/7 chỉ số và giá chỉ bằng 1/5 so với mô hình trước, cùng tính năng hợp tác nhóm Artifacts, Claude 3.5 Sonnet hứa hẹn mang lại lợi ích to lớn cho các doanh nghiệp trên nhiều lĩnh vực.

https://venturebeat.com/ai/anthropic-unveils-claude-3-5-sonnet-pushing-the-boundaries-of-ai-capabilities-and-affordability/

Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung

- Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung tại Meta FAIR, như một phần cam kết thúc đẩy một hệ sinh thái mở.
- Các mô hình AI mới bao gồm Meta Chameleon, cung cấp các mô hình ngôn ngữ 7B và 34B hỗ trợ đầu vào hỗn hợp và đầu ra chỉ dạng văn bản.
- Meta Multi-Token Prediction là mô hình ngôn ngữ được tiền huấn luyện để hoàn thành mã sử dụng dự đoán đa token. Phương pháp này cải thiện khả năng mô hình, hiệu quả huấn luyện và tốc độ nhanh hơn.
- Meta JASCO là mô hình tạo sinh văn bản thành âm nhạc, chấp nhận nhiều đầu vào điều kiện để kiểm soát tốt hơn. Bài báo đi kèm đã có sẵn, mô hình sẽ sớm được phát hành.
- Meta AudioSeal là mô hình thủy vân âm thanh được thiết kế đặc biệt để phát hiện cục bộ giọng nói do AI tạo ra và có sẵn theo giấy phép thương mại.
- Bên cạnh các mô hình này, Meta đang phát hành thêm các sản phẩm Responsible AI (RAI), bao gồm nghiên cứu, dữ liệu và mã nhằm đo lường và cải thiện sự đại diện của sở thích và đa dạng về địa lý và văn hóa trong các hệ thống AI.
- Meta nhấn mạnh rằng quyền truy cập vào AI tiên tiến nhất nên dành cho tất cả mọi người, không chỉ một vài công ty công nghệ lớn.

📌 Meta đã giới thiệu 4 mô hình AI mới cùng các sản phẩm nghiên cứu, bao gồm Meta Chameleon, Meta Multi-Token Prediction, Meta JASCO và Meta AudioSeal. Bên cạnh đó, Meta cũng phát hành thêm các sản phẩm RAI nhằm cải thiện tính đại diện và đa dạng trong AI. Công ty nhấn mạnh tầm quan trọng của việc chia sẻ công nghệ AI tiên tiến cho cộng đồng rộng rãi.

https://analyticsindiamag.com/meta-announces-four-new-ai-models-and-additional-research-artifacts/

Apple tung ra mô hình AI 4M-21: xử lý 21 phương thức, giải quyết hàng chục tác vụ

- Apple và Viện Công nghệ Liên bang Thụy Sĩ (EPFL) phát triển phương pháp dựa trên sơ đồ tiền huấn luyện che phương thức đa phương thức, mở rộng đáng kể khả năng bằng cách huấn luyện trên nhiều phương thức đa dạng.
- Phương pháp này kết hợp hơn 20 phương thức như phân đoạn SAM, tư thế 3D của con người, cạnh Canny, bảng màu và các siêu dữ liệu và embedding khác nhau.
- Bằng cách sử dụng các bộ mã hóa rời rạc đặc thù cho từng phương thức, phương pháp mã hóa các đầu vào đa dạng thành một định dạng thống nhất, cho phép huấn luyện một mô hình duy nhất trên nhiều phương thức mà không làm giảm hiệu suất. 
- Mô hình 4M-21 thể hiện nhiều khả năng như tạo sinh đa phương thức có thể điều khiển, truy xuất đa phương thức và hiệu suất tốt ngay từ đầu trên nhiều tác vụ thị giác.
- Mô hình có thể dự đoán bất kỳ phương thức huấn luyện nào bằng cách giải mã các token lặp đi lặp lại, cho phép tạo sinh chi tiết và đa phương thức với khả năng hiểu văn bản được cải thiện.
- Trong các đánh giá ngay từ đầu, 4M-21 đạt hiệu suất cạnh tranh trong các tác vụ như ước tính pháp tuyến bề mặt, ước tính độ sâu, phân đoạn ngữ nghĩa, phân đoạn thực thể, ước tính tư thế 3D của con người và truy xuất ảnh.
- Nghiên cứu cho thấy huấn luyện trên một tập hợp rộng hơn các phương thức không ảnh hưởng đến hiệu suất trên các tác vụ quen thuộc và có thể nâng cao khả năng trên các tác vụ mới, đặc biệt khi kích thước mô hình tăng lên.

📌 Mô hình 4M-21 của Apple với 3 tỷ tham số, được huấn luyện trên 21 phương thức đa dạng, thể hiện khả năng tạo sinh, truy xuất và tương tác đa phương thức mạnh mẽ. Mô hình đạt hiệu suất cao trên nhiều tác vụ thị giác, thường sánh ngang hoặc vượt trội so với các mô hình chuyên biệt, mở ra tiềm năng ứng dụng đa dạng của AI đa phương thức trong tương lai.

https://www.marktechpost.com/2024/06/18/apple-releases-4m-21-a-very-effective-multimodal-ai-model-that-solves-tens-of-tasks-and-modalities/

Tương lai của AI với 700.000 mô hình ngôn ngữ lớn trên Hugging Face

- Nhiều người dùng Reddit cho rằng 99% trong số 700.000 mô hình ngôn ngữ lớn (LLM) trên Hugging Face là vô dụng và sẽ bị xóa theo thời gian. Nhiều mô hình chỉ là bản sao hoặc chỉnh sửa nhẹ từ các mô hình gốc.

- Một người dùng chia sẻ câu chuyện cá nhân về việc tạo ra mô hình với dữ liệu không đầy đủ, cho thấy nhiều mô hình là kết quả của các nghiên cứu tùy tiện hoặc kém chất lượng tương tự. Điều này đặt ra vấn đề về kiểm soát chất lượng và yêu cầu phương pháp quản lý có tổ chức hơn.

- Một số người lập luận rằng sự nhân rộng mô hình là thành phần quan trọng của quá trình thử nghiệm. Mặc dù lộn xộn, phương pháp này là cần thiết cho sự phát triển của AI, giúp các nhà nghiên cứu tạo ra các LLM chuyên biệt và phức tạp hơn.

- Nhiều người bày tỏ sự không hài lòng với quy trình đánh giá mô hình trên Hugging Face. Sự thiếu hệ thống phân loại và sắp xếp mạnh mẽ khiến việc tìm kiếm mô hình chất lượng cao trở nên khó khăn. 

- Một người dùng đề xuất hệ thống chấm điểm tương đối giữa các mô hình, tương tự như bài kiểm tra trí thông minh, cho phép đánh giá linh hoạt và năng động hơn về hiệu suất mô hình.

- Giá trị của mô hình học sâu thường giảm nhanh chóng khi xuất hiện các mô hình mới tốt hơn. Do đó, cần tạo ra môi trường năng động buộc các mô hình phải liên tục thay đổi để duy trì tính phù hợp.

📌 Sự gia tăng 700.000 LLM trên Hugging Face cho thấy những thách thức và cơ hội đối với cộng đồng AI. Thời kỳ thử nghiệm mạnh mẽ này là cần thiết cho sự tiến bộ, nhưng đòi hỏi cải thiện quản lý, đánh giá và tiêu chuẩn hóa. Cần cân bằng giữa thúc đẩy đổi mới và duy trì chất lượng khi lĩnh vực AI phát triển.

https://www.marktechpost.com/2024/06/15/with-700000-large-language-models-llms-on-hugging-face-already-where-is-the-future-of-artificial-intelligence-ai-headed/

Nghiên cứu của Google về PH-LLM: phiên bản Gemini cho dữ liệu sức khỏe cá nhân

- Nghiên cứu mới của Google giới thiệu Personal Health Large Language Model (PH-LLM), một phiên bản của Gemini Ultra 1.0 được tinh chỉnh để thực hiện các tác vụ liên quan đến thiết lập và đạt được các mục tiêu sức khỏe cá nhân cụ thể.
- PH-LLM có thể chuyển đổi dữ liệu từ thiết bị đeo thành các insights cụ thể, lý do tiềm ẩn cho các hành vi quan sát được và đề xuất cải thiện tập thể dục và vệ sinh giấc ngủ.
- PH-LLM thể hiện sự cải thiện đáng kể trong việc sử dụng kiến thức chuyên ngành và tùy chỉnh dữ liệu người dùng phù hợp cho các insights về giấc ngủ.
- Nghiên cứu chứng minh PH-LLM có thể trả lời chính xác các câu hỏi trắc nghiệm kỹ thuật trong lĩnh vực giấc ngủ và thể dục.
- Nhóm nghiên cứu sử dụng 857 case studies từ người tham gia để đánh giá sự sẵn sàng tập thể dục và chất lượng giấc ngủ, kết hợp với các tiêu chí đánh giá nghiêm ngặt.
- Tất cả chuyên gia, Gemini Ultra 1.0 và PH-LLM đạt hiệu suất trung bình rất cao trên tất cả các phản hồi case study, cho thấy khả năng lập luận và kiến thức mạnh mẽ của dòng mô hình Gemini.
- Các công cụ đánh giá case study tự động được tạo ra để tối ưu hóa mô hình và có thể thay thế các chuyên gia con người trong việc đánh giá hiệu suất LLM.
- PH-LLM kết hợp hiệu quả các tính năng cảm biến chuỗi thời gian dọc để giải mã trải nghiệm chủ quan của người dùng.
- Mặc dù có một số hạn chế, nghiên cứu cho thấy các mô hình Gemini có nhiều kiến thức về sức khỏe và hiệu suất của Gemini Ultra 1.0 có thể được cải thiện thông qua việc tinh chỉnh.
- Kết quả nghiên cứu mở đường cho LLMs hỗ trợ mọi người đạt được mục tiêu sức khỏe bằng cách cung cấp thông tin và đề xuất được cá nhân hóa.

📌 PH-LLM của Google, được tinh chỉnh từ Gemini Ultra 1.0, thể hiện khả năng chuyển đổi dữ liệu từ thiết bị đeo thành các insights và đề xuất cụ thể để cải thiện sức khỏe cá nhân. Mô hình đạt hiệu suất cao trong các tác vụ liên quan đến giấc ngủ và thể dục, mở ra tiềm năng ứng dụng LLMs trong việc hỗ trợ mọi người đạt được mục tiêu sức khỏe thông qua thông tin được cá nhân hóa.

https://www.marktechpost.com/2024/06/15/a-new-google-study-presents-personal-health-large-language-model-ph-llm-a-version-of-gemini-fine-tuned-for-text-understanding-numerical-time-series-personal-health-data/

Nemotron-4 340B của Nvidia định nghĩa lại việc tạo dữ liệu tổng hợp, cạnh tranh với GPT-4

- Nvidia giới thiệu Nemotron-4 340B, một họ các mô hình mở đột phá trong việc tạo dữ liệu tổng hợp để huấn luyện các mô hình ngôn ngữ lớn (LLM).
- Nemotron-4 340B bao gồm các mô hình base, instruct và reward, tạo thành một pipeline toàn diện để tạo dữ liệu tổng hợp chất lượng cao.
- Mô hình được huấn luyện trên 9 nghìn tỷ token, có cửa sổ ngữ cảnh 4.000 và hỗ trợ hơn 50 ngôn ngữ tự nhiên và 40 ngôn ngữ lập trình.
- Nemotron-4 340B vượt trội hơn các đối thủ như Mixtral-8x22B, Claude-Sonnet, Llama3-70B, Qwen-2 và thậm chí cạnh tranh với GPT-4.
- Giấy phép thương mại thân thiện của Nemotron-4 340B cho phép các doanh nghiệp sử dụng nó để tạo dữ liệu tổng hợp theo nhu cầu.
- Việc phát hành bộ dữ liệu HelpSteer2 đã đưa mô hình Nemotron-4 340B Reward lên vị trí đầu tiên trên bảng xếp hạng RewardBench của Hugging Face.
- Nemotron-4 340B có thể tác động mạnh mẽ đến nhiều ngành như y tế, tài chính, sản xuất và bán lẻ thông qua việc tạo ra các LLM chuyên biệt.
- Thành công của Nvidia với Nemotron-4 340B cho thấy sự cạnh tranh gay gắt trên thị trường chip AI.
- Việc sử dụng dữ liệu tổng hợp đặt ra những câu hỏi quan trọng về quyền riêng tư, bảo mật dữ liệu và các vấn đề đạo đức.
- Cộng đồng AI đón nhận Nemotron-4 340B với sự hào hứng, khen ngợi hiệu suất ấn tượng và kiến thức chuyên biệt của nó.

📌 Nemotron-4 340B của Nvidia đánh dấu một bước ngoặt trong việc tạo dữ liệu tổng hợp để huấn luyện LLM, với 9 nghìn tỷ token, hỗ trợ hơn 50 ngôn ngữ và vượt trội so với nhiều đối thủ. Mô hình này hứa hẹn sẽ mang lại nhiều đột phá cho các ngành công nghiệp, đồng thời đặt ra những thách thức về quyền riêng tư và đạo đức trong việc sử dụng dữ liệu tổng hợp.

https://venturebeat.com/ai/nvidias-nemotron-4-340b-model-redefines-synthetic-data-generation-rivals-gpt-4/

Giới thiệu mô hình sinh đồ thị lớn LGGM: vượt trội trong sinh zero-shot và tinh chỉnh

- Các mô hình sinh lớn (LGM) gần đây đã đạt được những bước tiến đáng kể trong việc tạo ra nội dung sáng tạo và có ý nghĩa, thúc đẩy hiệu quả của các ứng dụng thực tế.
- Các nhà nghiên cứu đã giới thiệu mô hình sinh đồ thị lớn (LGGM), một lớp mô hình sinh đồ thị mới được huấn luyện trên kho dữ liệu lớn gồm 13 lĩnh vực khác nhau.
- LGGM vượt trội hơn các mô hình sinh đồ thị khác về khả năng sinh zero-shot và có thể dễ dàng tinh chỉnh với các đồ thị từ các lĩnh vực cụ thể, cho hiệu suất tốt hơn so với huấn luyện trực tiếp từ đầu.
- LGGM có thể sinh đồ thị từ các lời nhắc văn bản, chẳng hạn như mô tả tên và lĩnh vực mạng, và các số liệu thống kê mạng.
- Khả năng sinh văn bản thành đồ thị giúp người dùng kiểm soát chi tiết các đồ thị được tạo ra.
- Việc huấn luyện LGGM cần một kho dữ liệu lớn, được tổ chức tốt từ nhiều lĩnh vực khác nhau. Các đồ thị được chọn từ Network Repository trên 13 lĩnh vực khác nhau.
- Để giải quyết thách thức về khả năng mở rộng, các đồ thị con được lấy mẫu từ một số lĩnh vực nhất định.
- LGGM được tinh chỉnh cho thấy hiệu suất sinh tốt hơn trên cùng một tập đồ thị so với các mô hình khác được huấn luyện trực tiếp trên từng lĩnh vực.

📌 LGGM, một lớp mô hình sinh đồ thị mới được huấn luyện trên hơn 5.000 đồ thị từ 13 lĩnh vực khác nhau, vượt trội hơn các mô hình sinh đồ thị khác về khả năng sinh zero-shot và tinh chỉnh. LGGM cũng có thể sinh văn bản thành đồ thị. Tương tự như LGM trong các lĩnh vực khác, LGGM không chuyên về sinh đồ thị cho các lĩnh vực cụ thể. Do đó, hướng tương lai là đánh giá tính hữu dụng thực tế của chúng theo cách định hướng ứng dụng.

https://www.marktechpost.com/2024/06/12/large-generative-graph-models-lggms-a-new-class-of-graph-generative-model-trained-on-a-large-corpus-of-graphs/

6 mô hình ngôn ngữ lớn mã nguồn mở chạy trên smartphone không cần Internet

- 6 mô hình ngôn ngữ lớn (LLM) mã nguồn mở có thể được đào tạo và tối ưu hóa để sử dụng trên điện thoại thông minh mà không cần internet.

- Gemma 2B của Google là mô hình ngôn ngữ nhỏ gọn mang lại hiệu suất ấn tượng với chỉ 2 tỷ tham số. Nó vượt trội hơn các mô hình mở có kích thước tương tự trên 11/18 tác vụ dựa trên văn bản.

- Phi-2 của Microsoft với 2,7 tỷ tham số, vượt trội hơn các mô hình lớn hơn tới 25 lần trên một số tiêu chuẩn. Nó có thể được định lượng xuống còn 4-bit hoặc 3-bit, giảm đáng kể kích thước mô hình xuống khoảng 1,17-1,48 GB.

- Falcon-RW-1B là một phần của dòng mô hình ngôn ngữ Falcon, được biết đến với hiệu quả và hiệu suất cao. Kiến trúc của nó được điều chỉnh từ GPT-3 nhưng kết hợp các kỹ thuật như ALiBi và FlashAttention để tăng cường hiệu quả tính toán.

- StableLM-3B của Stability AI là mô hình 3 tỷ tham số đạt được sự cân bằng giữa hiệu suất và hiệu quả. Mặc dù được đào tạo trên ít token hơn, nó vẫn vượt trội hơn các mô hình 7 tỷ tham số trên một số tiêu chuẩn. 

- TinyLlama tận dụng các tối ưu hóa như FlashAttention và RoPE positional embeddings để tăng cường hiệu quả tính toán. Nó tương thích với kiến trúc Llama và có thể tích hợp vào các ứng dụng di động dựa trên Llama hiện có với những thay đổi tối thiểu.

- LLaMA-2-7B của Meta đã được định lượng xuống còn trọng số 4-bit và kích hoạt 16-bit, giúp triển khai trên thiết bị di động. Quá trình định lượng này giảm kích thước mô hình xuống còn 3,6GB. Nó yêu cầu thiết bị có ít nhất 6GB RAM.

📌 Sự xuất hiện của các mô hình ngôn ngữ lớn mã nguồn mở nhỏ gọn như Gemma 2B, Phi-2, Falcon-RW-1B, StableLM-3B, TinyLlama và LLaMA-2-7B đang mở ra khả năng chạy các mô hình mạnh mẽ này trực tiếp trên điện thoại thông minh mà không cần internet. Mặc dù chúng đòi hỏi thiết bị có RAM đủ lớn và có thể không đạt tốc độ như các mô hình dựa trên đám mây, nhưng chúng cung cấp một lựa chọn hấp dẫn cho các nhà phát triển muốn tạo ra các tính năng thông minh dựa trên ngôn ngữ chạy trực tiếp trên điện thoại thông minh, đồng thời tối ưu hóa quyền riêng tư và kiểm soát.

https://analyticsindiamag.com/6-open-source-llms-that-can-run-on-smartphones/

Patsnap, startup kỳ lân tại Singapore, đã đầu tư số tiền hàng triệu USD xây dựng LLM của riêng mình

- Patsnap, công ty kỳ lân có trụ sở tại Singapore, đã đầu tư số tiền lên tới 7 chữ số để xây dựng mô hình ngôn ngữ lớn (LLM) của riêng mình, huy động hơn 50 kỹ sư tham gia dự án.
- Công ty đã ra mắt trợ lý AI mang tên Hiro, sử dụng LLM được huấn luyện trên bộ dữ liệu độc quyền bao gồm bằng sáng chế, bài báo học thuật và các nội dung khác, nhằm tăng tốc quy trình sở hữu trí tuệ và R&D cho khách hàng.
- Trong năm 2022, Patsnap ghi nhận doanh thu đạt 79 triệu USD (khoảng 106 triệu SGD), nhưng vẫn chịu lỗ trước thuế 30 triệu USD. Tuy nhiên, công ty hiện không tính phí thêm cho khách hàng khi sử dụng Hiro.
- Đồng sáng lập Guan Dian lý giải việc Patsnap quyết định xây dựng LLM riêng là do các mô hình lớn như ChatGPT, Claude vẫn có nhược điểm khi đưa ra câu trả lời chung chung, thiếu chuyên sâu và dữ liệu chưa được cập nhật thường xuyên cho các câu hỏi kỹ thuật từ khách hàng.
- Lợi thế của Patsnap nằm ở cơ sở dữ liệu lịch sử toàn diện, được cập nhật thường xuyên, phù hợp để xây dựng LLM riêng phục vụ khách hàng, bất chấp chi phí cao hơn.
- Hiro giúp rút ngắn đáng kể thời gian tạo bản mô tả sáng chế từ 1-2 tuần xuống chỉ còn 1 phút, giúp khách hàng của Patsnap có lợi thế cạnh tranh về thời gian đăng ký bằng sáng chế.
- Chi phí ban đầu Patsnap bỏ ra cho dự án AI rơi vào khoảng 7 chữ số thấp, chủ yếu dành cho việc vận hành GPU và thuê nhân tài. Chi phí hàng năm hiện tại đã tăng lên mức 7 chữ số cao hơn.
- Patsnap chưa tính phí thêm cho khách hàng sử dụng Hiro, thay vào đó kỳ vọng sẽ gia tăng số lượng người dùng và giao dịch trên nền tảng của mình.
- Ngoài Hiro, công ty cũng đang tận dụng AI tạo sinh để cải thiện nhiều mặt hoạt động nội bộ như nhân sự, pháp lý, bán hàng, tiếp thị. Đơn cử, đội ngũ 400 nhân viên bán hàng giờ đây có thể dễ dàng nắm bắt thông tin về khách hàng tiềm năng.
- Tính đến tháng 12/2022, Patsnap có khoản tiền mặt và các khoản tương đương lên tới 151 triệu USD trong bảng cân đối kế toán, đủ để duy trì hoạt động và bù đắp các khoản lỗ, chi phí gia tăng từ dự án AI trong vài năm tới.

📌 Patsnap đang đặt cược lớn vào AI tạo sinh với khoản đầu tư lên tới hàng triệu USD để phát triển LLM độc quyền, bất chấp chi phí cao và tình trạng kinh doanh thua lỗ. Công ty kỳ lân này kỳ vọng công nghệ đột phá sẽ giúp họ mở rộng thị trường, thu hút thêm khách hàng trả phí và cạnh tranh sòng phẳng với các đối thủ lớn trong lĩnh vực sở hữu trí tuệ, R&D. Tuy nhiên, hiệu quả thực tế của khoản đầu tư này vẫn cần thêm thời gian để kiểm chứng, đặc biệt khi Patsnap chưa có kế hoạch tính phí thêm cho các dịch vụ AI mới.

https://www.techinasia.com/patsnap-invested-7digits-develop-llm-pay

FineWeb của HuggingFace: bộ dữ liệu khổng lồ mới để huấn luyện các mô hình ngôn ngữ lớn

- HuggingFace giới thiệu FineWeb, một bộ dữ liệu toàn diện để nâng cao việc huấn luyện các mô hình ngôn ngữ lớn (LLM), với 15 nghìn tỷ token và 44TB dung lượng.
- FineWeb sử dụng 96 bản chụp CommonCrawl, một tổ chức phi lợi nhuận lưu trữ web từ năm 2007.
- Quá trình loại bỏ trùng lặp nghiêm ngặt sử dụng kỹ thuật MinHash giúp loại bỏ dữ liệu dư thừa, cải thiện hiệu suất mô hình.
- Các chiến lược lọc tiên tiến được áp dụng để loại bỏ nội dung chất lượng thấp, bao gồm phân loại ngôn ngữ, lọc URL, loại bỏ tài liệu có quá nhiều nội dung mẫu hoặc không kết thúc dòng bằng dấu câu.
- FineWeb-Edu, một tập con của FineWeb, tập trung vào nội dung giáo dục, được tạo ra bằng cách sử dụng chú thích tổng hợp từ Llama-3-70B-Instruct để đánh giá giá trị học thuật của 500.000 mẫu.
- Một bộ phân loại được huấn luyện trên các chú thích này sau đó được áp dụng cho toàn bộ tập dữ liệu để lọc ra nội dung không liên quan đến giáo dục.
- FineWeb đã được thử nghiệm kỹ lưỡng với nhiều tiêu chuẩn đánh giá, liên tục vượt trội hơn các bộ dữ liệu web mở quy mô khác.
- Hiệu suất của bộ dữ liệu được xác thực thông qua một loạt các tiêu chuẩn "tín hiệu sớm" sử dụng các mô hình nhỏ.
- FineWeb-Edu cho thấy sự cải thiện đáng kể, chứng minh hiệu quả của việc sử dụng chú thích tổng hợp để lọc nội dung giáo dục chất lượng cao.
- HuggingFace phát hành FineWeb đánh dấu một khoảnh khắc quan trọng trong cộng đồng khoa học mở, cung cấp cho các nhà nghiên cứu và người dùng một công cụ mạnh mẽ để huấn luyện các LLM hiệu suất cao.

📌 FineWeb, bộ dữ liệu 15 nghìn tỷ token và 44TB của HuggingFace, đặt ra tiêu chuẩn mới cho việc tiền huấn luyện các mô hình ngôn ngữ lớn. Với quá trình loại bỏ trùng lặp nghiêm ngặt và các chiến lược lọc tiên tiến, FineWeb và tập con FineWeb-Edu hứa hẹn cải thiện đáng kể hiệu suất của LLM trên nhiều tiêu chuẩn đánh giá. Việc phát hành FineWeb đánh dấu một bước tiến quan trọng trong cộng đồng khoa học mở.

https://www.marktechpost.com/2024/06/03/huggingface-releases-%F0%9F%8D%B7-fineweb-a-new-large-scale-15-trillion-tokens-44tb-disk-space-dataset-for-llm-pretraining/

Matryoshka Multimodal Models: cải thiện hiệu quả và tính linh hoạt trong học máy đa phương thức

- Học máy đa phương thức là một lĩnh vực nghiên cứu tiên tiến kết hợp nhiều loại dữ liệu như văn bản, hình ảnh và âm thanh để tạo ra các mô hình toàn diện và chính xác hơn.

- Vấn đề chính trong học máy đa phương thức là sự thiếu hiệu quả và tính linh hoạt của các mô hình đa phương thức lớn (LMMs) khi xử lý hình ảnh và video độ phân giải cao. 

- Các giải pháp hiện tại như tỉa và hợp nhất mã thông báo thường tạo ra đầu ra có độ dài cố định cho mỗi hình ảnh, không cho phép linh hoạt để cân bằng mật độ thông tin và hiệu quả.

- Các nhà nghiên cứu từ Đại học Wisconsin-Madison và Microsoft Research đã giới thiệu Matryoshka Multimodal Models (M3), lấy cảm hứng từ khái niệm búp bê Matryoshka.

- M3 biểu diễn nội dung hình ảnh dưới dạng các tập hợp lồng nhau của các mã thông báo hình ảnh nắm bắt thông tin trên nhiều mức độ chi tiết khác nhau, cho phép kiểm soát rõ ràng mức độ chi tiết hình ảnh trong quá trình suy luận.

- Trong quá trình đào tạo, mô hình M3 học cách lấy các mã thông báo thô hơn từ các mã thông báo mịn hơn, đảm bảo thông tin hình ảnh được nắm bắt một cách hiệu quả. Mô hình sử dụng các tỷ lệ như 1, 9, 36, 144 và 576 mã thông báo.

- Trên các bài kiểm tra COCO, mô hình M3 đạt độ chính xác tương tự như sử dụng tất cả 576 mã thông báo với chỉ khoảng 9 mã thông báo cho mỗi hình ảnh. Độ chính xác của mô hình với 9 mã thông báo tương đương với Qwen-VL-Chat với 256 mã thông báo.

- Mô hình M3 có thể thích ứng với các ràng buộc tính toán và bộ nhớ khác nhau trong quá trình triển khai bằng cách cho phép kiểm soát linh hoạt số lượng mã thông báo hình ảnh.

📌 Matryoshka Multimodal Models (M3) giải quyết sự thiếu hiệu quả của các LMMs hiện tại và cung cấp một phương pháp linh hoạt, thích ứng để biểu diễn nội dung hình ảnh. Khả năng điều chỉnh động số lượng mã thông báo hình ảnh dựa trên độ phức tạp của nội dung đảm bảo sự cân bằng tốt hơn giữa hiệu suất và chi phí tính toán, mở ra khả năng ứng dụng trong các môi trường đa dạng và hạn chế về tài nguyên.

https://www.marktechpost.com/2024/06/01/matryoshka-multimodal-models-with-adaptive-visual-tokenization-enhancing-efficiency-and-flexibility-in-multimodal-machine-learning/

Falcon 2 11B - mô hình ngôn ngữ lớn thế hệ tiếp theo đã có mặt trên Amazon Sagemaker jumpstart

- Falcon 2 11B là mô hình đầu tiên trong dòng Falcon 2 thế hệ tiếp theo của TII, được huấn luyện trên bộ dữ liệu 5.5 nghìn tỷ token và hỗ trợ đa ngôn ngữ.
- Falcon 2 11B có sẵn trên SageMaker JumpStart, trung tâm học máy cung cấp quyền truy cập vào các thuật toán, mô hình nền tảng và giải pháp học máy được xây dựng sẵn.
- Bài viết hướng dẫn cách khám phá, triển khai và chạy suy luận trên mô hình Falcon 2 11B bằng SageMaker JumpStart.
- Falcon 2 11B là mô hình thô, được tiền huấn luyện, có thể là nền tảng cho các tác vụ chuyên biệt hơn và cho phép tinh chỉnh mô hình cho các trường hợp sử dụng cụ thể.
- Falcon 2 11B được hỗ trợ bởi SageMaker TGI Deep Learning Container (DLC) được cung cấp bởi Text Generation Inference (TGI), một giải pháp nguồn mở được xây dựng riêng cho việc triển khai và phục vụ các mô hình ngôn ngữ lớn.
- Mô hình có sẵn theo Giấy phép TII Falcon 2.0, giấy phép phần mềm dựa trên Apache 2.0, bao gồm chính sách sử dụng chấp nhận được nhằm thúc đẩy việc sử dụng AI có trách nhiệm.
- Bài viết cung cấp các ví dụ về lời nhắc và đầu ra mẫu khi tương tác với mô hình Falcon 2 11B như tạo văn bản, tạo mã, phân tích cảm xúc, trả lời câu hỏi, khả năng đa ngôn ngữ, toán học và lập luận.

📌 Falcon 2 11B, mô hình ngôn ngữ lớn thế hệ tiếp theo với 11 tỷ tham số, đã có mặt trên Amazon SageMaker JumpStart để triển khai và suy luận. Mô hình hỗ trợ đa ngôn ngữ, có thể xử lý các tác vụ tạo văn bản, tạo mã, phân tích cảm xúc, trả lời câu hỏi. Falcon 2 11B có sẵn theo giấy phép nguồn mở TII Falcon 2.0, thúc đẩy sử dụng AI có trách nhiệm.

Citations:
[1] https://aws.amazon.com/blogs/machine-learning/falcon-2-11b-is-now-available-on-amazon-sagemaker-jumpstart/

MoE sẽ thúc đẩy sự phát triển của thế hệ mô hình ngôn ngữ lớn tiếp theo ở Ấn Độ

- CognitiveLab đã sử dụng kiến trúc MoE để kết hợp tiếng Hindi, Tamil và Kannada để xây dựng các mô hình ngôn ngữ lớn đa ngữ.
- TWO, được hậu thuẫn bởi Reliance, đã phát hành mô hình AI SUTRA sử dụng MoE và hỗ trợ hơn 50 ngôn ngữ, bao gồm cả Gujarati, Hindi, Tamil, vượt qua ChatGPT-3.5.
- Ola Krutrim cũng đang tận dụng Databricks' Lakehouse Platform để nâng cao khả năng phân tích dữ liệu và AI, đồng thời ám chỉ việc sử dụng MoE để cung cấp năng lượng cho nền tảng mô hình ngôn ngữ lớn Indic của mình.
- Các mô hình MoE rất hứa hẹn trong việc xử lý các tác vụ dịch máy khi có ít dữ liệu để đào tạo. Chúng ngăn mô hình tập trung quá hẹp vào dữ liệu hạn chế.
- Các lớp MoE trong mô hình cho phép chúng xử lý nhiều ngôn ngữ, học các biểu diễn cụ thể cho từng ngôn ngữ đồng thời chia sẻ một số kiến thức cốt lõi giữa các ngôn ngữ.
- DBRX là một ví dụ tuyệt vời về cách bạn có thể đạt được hiệu quả và tiết kiệm chi phí bằng cách sử dụng MoE. Nó tốt hơn Llama 3 và Gemma cho các ngôn ngữ Indic.
- Về hiệu quả năng lượng, MoE có thể giúp bạn đào tạo các mô hình lớn hơn với ít tính toán hơn, đây là một yếu tố quan trọng đối với các nước đang phát triển như Ấn Độ.
- Với sự trợ giúp của MoE, người ta cũng có thể giảm chi phí trong khi mở rộng quy mô mô hình.

📌 MoE có tiềm năng to lớn trong việc tạo ra các mô hình ngôn ngữ lớn Ấn độ, giải quyết các vấn đề phức tạp như thiếu dữ liệu, yêu cầu năng lượng và chi phí. Nó dường như hữu ích hơn trong việc hợp nhất các mô hình ngôn ngữ lớn đã có sẵn, nhưng cũng có thể tinh chỉnh các mô hình tương lai được xây dựng từ đầu.

https://analyticsindiamag.com/moe-will-power-the-next-generation-of-indic-llms/

OpenRLHF: framework nguồn mở tăng tốc huấn luyện mô hình ngôn ngữ khổng lồ bằng học tăng cường từ phản hồi người dùng

- OpenRLHF là một framework học tăng cường từ phản hồi của con người (RLHF) đột phá, giải quyết các thách thức trong việc huấn luyện các mô hình ngôn ngữ lớn (LLM) với hơn 70 tỷ tham số.
- Các phương pháp RLHF hiện tại thường chia nhỏ LLM trên nhiều GPU để huấn luyện, dẫn đến phân mảnh bộ nhớ, giảm kích thước batch hiệu quả và tốc độ huấn luyện chậm.
- OpenRLHF sử dụng Ray - trình lập lịch tác vụ phân tán và vLLM - công cụ suy luận phân tán để tối ưu hóa việc sử dụng bộ nhớ và tăng tốc độ huấn luyện.
- Ray phân bổ LLM trên các GPU một cách thông minh, tránh phân mảnh quá mức, cho phép kích thước batch lớn hơn trên mỗi GPU.
- vLLM tận dụng khả năng xử lý song song của nhiều GPU để tăng tốc độ tính toán.
- So sánh chi tiết với framework DSChat khi huấn luyện mô hình LLaMA2 7B tham số, OpenRLHF đạt được sự hội tụ huấn luyện nhanh hơn và giảm đáng kể tổng thời gian huấn luyện.
- OpenRLHF giải quyết các rào cản chính trong việc huấn luyện LLM khổng lồ bằng RLHF, mở ra con đường để tinh chỉnh các LLM lớn hơn với phản hồi của con người.

📌 OpenRLHF đột phá giúp huấn luyện hiệu quả các mô hình ngôn ngữ lớn với 70 tỷ tham số bằng học tăng cường từ phản hồi người dùng. Với Ray và vLLM, nó tối ưu bộ nhớ, tăng tốc huấn luyện gấp 2 lần so với DSChat trên LLaMA2 7B, mở ra kỷ nguyên mới cho xử lý ngôn ngữ tự nhiên và tương tác thông tin.

https://www.marktechpost.com/2024/05/23/openrlhf-an-open-source-ai-framework-enabling-efficient-reinforcement-learning-from-human-feedback-rlhf-scaling/

Silo AI có trụ sở tại Helsinki, Phần Lan vừa ra mắt mô hình AI đa ngôn ngữ Bắc Âu

- Công ty khởi nghiệp Silo AI có trụ sở tại Helsinki, Phần Lan vừa ra mắt mô hình AI đa ngôn ngữ Viking 7B.
- Viking 7B hỗ trợ tiếng Đan Mạch, Phần Lan, Iceland, Na Uy, Thụy Điển, cũng như tiếng Anh và các ngôn ngữ lập trình.
- Các đánh giá cho thấy Viking 7B đạt hiệu suất tốt nhất trong tất cả các ngôn ngữ Bắc Âu, mà không ảnh hưởng đến chất lượng đầu ra tiếng Anh.
- CEO Peter Sarlin cho biết Silo AI đang đi đúng hướng để đạt mục tiêu cuối cùng là phát triển các mô hình ngôn ngữ hiệu suất cao cho tất cả ngôn ngữ chính thức của EU.
- Việc ra mắt Viking 7B đánh dấu bước tiến quan trọng trong cam kết của Silo AI đối với chủ quyền kỹ thuật số của châu Âu.
- Silo AI chuyên về các ngôn ngữ tài nguyên thấp, vốn thiếu dữ liệu ngôn ngữ cần thiết để huấn luyện mô hình AI.
- Để bù đắp khoảng trống dữ liệu, Silo AI áp dụng nhiều kỹ thuật như tối ưu hóa kiến trúc mô hình, kết hợp các cặp ngôn ngữ đã dịch giữa ngôn ngữ tài nguyên cao và thấp.
- Nhiều kỹ thuật sử dụng tín hiệu đa ngôn ngữ, giúp tăng cường kết nối giữa các ngôn ngữ và cho phép mô hình tổng quát hóa, áp dụng các mẫu đã học trên nhiều ngôn ngữ khác nhau.
- Viking 7B là phiên bản đầu tiên trong dòng mô hình Viking được công bố vào tháng trước. Silo AI cũng có kế hoạch ra mắt các phiên bản 13B và 33B.

📌 Silo AI đã ra mắt mô hình AI đa ngôn ngữ Viking 7B hỗ trợ 5 ngôn ngữ Bắc Âu, tiếng Anh và lập trình, đánh dấu bước tiến quan trọng trong nỗ lực phát triển các mô hình ngôn ngữ lớn cho tất cả ngôn ngữ chính thức của EU. Công ty áp dụng nhiều kỹ thuật để bù đắp thiếu hụt dữ liệu ở các ngôn ngữ tài nguyên thấp và cam kết thúc đẩy chủ quyền kỹ thuật số của châu Âu.

Citations:
[1] https://thenextweb.com/news/silo-ai-launches-multilingual-viking-llm

Ấn Độ thiếu năng lực và tài năng để xây dựng mô hình AI nền tảng

- Tại sự kiện AI Alliance NCR của Moneycontrol và CNBC-TV18 ở Gurugram, các chuyên gia khẳng định Ấn Độ hiện thiếu năng lực và nhân tài nội địa cần thiết để phát triển các mô hình AI nền tảng từ đầu.

- Hemant Mohapatra, Đối tác tại Lightspeed India, bày tỏ mong muốn Ấn Độ cạnh tranh ở những lĩnh vực có thể vượt trội, nhưng thừa nhận những thách thức trong việc xây dựng các mô hình nền tảng cho AI. 

- Mô hình nền tảng là một loại mô hình học máy để tạo ra các công cụ AI tạo sinh, có khả năng thực hiện nhiều tác vụ như hiểu ngôn ngữ, tạo văn bản, hội thoại ngôn ngữ tự nhiên.

- Mohapatra cho biết Ấn Độ có thể có tài năng nếu họ trở về nước, nhưng cần giải quyết vấn đề năng lực như cụm GPU, CPU, quy định và chính sách.

- Ông nhấn mạnh cạnh tranh toàn cầu gay gắt để xây dựng mô hình nền tảng, với chi phí đào tạo mô hình hàng trăm triệu USD. Lợi nhuận đầu tư đang giảm dần.

- Mohapatra đề xuất để các nước có thể tích lũy nguồn vốn lớn dẫn đầu cuộc đua xây dựng mô hình nền tảng.

- Tanuj Bhojwani, Trưởng bộ phận People + AI, tin rằng Ấn Độ sẽ trở thành người dẫn đầu trong việc sử dụng và tạo ra các trường hợp sử dụng AI quy mô dân số.

- Ấn Độ đang phải đối mặt với tình trạng thiếu hụt nhân tài về AI cốt lõi, mặc dù các công ty sản phẩm công nghệ và dịch vụ CNTT đã đào tạo hàng nghìn nhân viên về kỹ năng AI trong năm qua.

📌 Ấn Độ hiện chưa có đủ năng lực và nhân tài để phát triển các mô hình AI nền tảng với chi phí lên tới hàng trăm triệu USD, nhưng được kỳ vọng sẽ trở thành quốc gia hàng đầu trong việc tạo ra các trường hợp sử dụng AI quy mô lớn, bất chấp tình trạng thiếu hụt nhân tài về AI cốt lõi.

Citations:
[1] https://www.moneycontrol.com/technology/ai-alliance-ncr-india-doesnt-have-the-capacity-nor-talent-to-build-foundational-models-says-lightspeeds-hemant-mohapatra-article-12725706.html

https://www.moneycontrol.com/technology/ai-alliance-ncr-india-doesnt-have-the-capacity-nor-talent-to-build-foundational-models-says-lightspeeds-hemant-mohapatra-article-12725706.html

ByteDance tung mô hình Doubao, giá rẻ hơn 99,8% so với GPT-4

- ByteDance ra mắt dòng mô hình ngôn ngữ lớn (LLM) Doubao gồm ít nhất 8 phiên bản với giá rẻ hơn 99,8% so với GPT-4 của OpenAI.
- Giá sử dụng Doubao Pro chỉ 0,0008 nhân dân tệ/1.000 token, trong khi GPT-4 là 0,42 nhân dân tệ. Baidu Ernie và Alibaba Tongyi Qianwen tính 0,12 nhân dân tệ/1.000 token.
- Động thái này phản ánh cơ hội lớn trên thị trường AI Trung Quốc khi ngày càng nhiều công ty đua nhau áp dụng công cụ AI tạo sinh.
- Tính đến tháng 1, Trung Quốc có hơn 40 LLM được chính phủ phê duyệt, nhưng trên thị trường hiện có hơn 200 LLM nội địa.
- ByteDance cũng công bố phiên bản Coze dành cho doanh nghiệp, liên minh LLM thiết bị thông minh với Samsung, Xiaomi, Honor và liên minh hệ sinh thái LLM ô tô với Geely, Great Wall Motor.
- Ứng dụng Doubao của ByteDance đã có hơn 26 triệu người dùng hoạt động hàng tháng. Tuy nhiên, ByteDance vẫn đang bị bỏ xa trên thị trường LLM Trung Quốc.
- Alibaba cho biết Tongyi Qianwen đã được hơn 90.000 khách hàng doanh nghiệp áp dụng. Hơn 2,2 triệu người dùng doanh nghiệp cũng sử dụng dịch vụ AI trên nền tảng DingTalk.

📌 ByteDance ra mắt dòng LLM Doubao giá rẻ, chỉ bằng 0,2% so với GPT-4, khởi động cuộc chiến giá trên thị trường AI Trung Quốc. Tuy nhiên, ByteDance vẫn đang tụt hậu so với Alibaba khi Tongyi Qianwen đã có 90.000 khách hàng doanh nghiệp. Động thái này cho thấy cơ hội và sự cạnh tranh khốc liệt trên thị trường AI tạo sinh tại Trung Quốc.

https://www.scmp.com/tech/big-tech/article/3262781/tiktok-owner-bytedance-launches-low-cost-doubao-ai-models-enterprises-initiating-price-war-crowded

Google Gemini 1.5 Pro mở rộng cửa sổ ngữ cảnh lên 2 triệu token: điều này có ý nghĩa gì?

- **Google mở rộng cửa sổ ngữ cảnh của Gemini 1.5 Pro lên 2 triệu token**:
  - Tại hội nghị Google I/O 2024, CEO Alphabet Sundar Pichai thông báo rằng Google sẽ tăng cửa sổ ngữ cảnh của mô hình Gemini 1.5 Pro từ 1 triệu lên 2 triệu token.
  - Bản cập nhật này sẽ được cung cấp cho các nhà phát triển trong "private preview" và chưa có thông tin cụ thể về thời điểm ra mắt rộng rãi.

- **Ý nghĩa của token trong AI**:
  - Token là các mảnh của từ mà mô hình ngôn ngữ lớn (LLM) sử dụng để hiểu ngữ cảnh rộng hơn của một truy vấn.
  - Mỗi token bao gồm 4 ký tự trong tiếng Anh, có thể là chữ cái, số, khoảng trắng, ký tự đặc biệt, v.v.
  - Token được sử dụng cả làm đầu vào và đầu ra, giúp mô hình AI phân tích và trả lời truy vấn.

- **Cửa sổ ngữ cảnh và tầm quan trọng của nó**:
  - Cửa sổ ngữ cảnh giống như độ dài của bộ nhớ, càng lớn thì mô hình AI càng có thể nhớ và sử dụng nhiều thông tin hơn để đưa ra kết quả tốt hơn.
  - Cửa sổ ngữ cảnh lớn giúp mô hình AI không "quên" thông tin sau một vài lượt tương tác.

- **Lợi ích của việc tăng số lượng token**:
  - Số lượng token càng nhiều, càng có thể nhập nhiều dữ liệu vào mô hình AI, giúp mô hình hiểu và sử dụng nhiều thông tin hơn để đưa ra phản hồi.
  - Ví dụ, việc cung cấp một cuốn sách thay vì một câu ngắn sẽ giúp AI đưa ra kết quả chi tiết và chính xác hơn.

- **Tương lai của "infinite context"**:
  - Sundar Pichai đề cập đến tương lai của "infinite context", nơi các LLM có thể xử lý và xuất ra một lượng dữ liệu vô hạn.
  - Tuy nhiên, hiện tại, việc tăng số lượng token đòi hỏi nhiều sức mạnh tính toán hơn, và chưa ai có thể chắc chắn khi nào hoặc liệu sức mạnh tính toán có đạt đến mức đó hay không.

- **Kế hoạch ra mắt của Google**:
  - Cửa sổ ngữ cảnh mở rộng sẽ được ra mắt trên mô hình Gemini 1.5 Pro trong "private preview" và dự kiến sẽ ra mắt "cuối năm nay".

📌 Google Gemini 1.5 Pro sẽ mở rộng cửa sổ ngữ cảnh lên 2 triệu token, hứa hẹn cải thiện đáng kể kết quả AI. Điều này cho phép mô hình xử lý nhiều dữ liệu hơn, mang lại phản hồi chính xác và chi tiết hơn. Tuy nhiên, việc đạt đến "infinite context" vẫn còn là một thách thức lớn về sức mạnh tính toán.

https://www.cnet.com/tech/services-and-software/googles-gemini-1-5-pro-will-have-2-million-tokens-heres-what-that-means/

Gemini 1.5 Pro: Trợ lý ảo đa phương tiện 35 ngôn ngữ và có sẵn tại hơn 150 quốc gia với giá khoảng 20 USD/tháng

- Google Gemini 1.5 Pro cho phép người dùng tham gia vào các cuộc trò chuyện động, nhận phản hồi nhanh chóng và phù hợp, mô phỏng giao tiếp giống con người.
- Tính năng hiểu hình ảnh đa phương tiện của Google Gemini 1.5 Pro cho phép AI phân tích và diễn giải thông tin hình ảnh, cung cấp thông tin chi tiết và khuyến nghị dựa trên hình ảnh người dùng tải lên.
- Ứng dụng của tính năng này rất rộng, từ nhận diện đối tượng và cảnh vật đến phân tích xu hướng và mẫu hình ảnh trong nhiều lĩnh vực khác nhau.
- Google Gemini 1.5 Pro hiện có sẵn cho người đăng ký Gemini Advanced với phí hàng tháng khoảng 20 USD.
- Dịch vụ này có sẵn tại hơn 150 quốc gia và hỗ trợ hơn 35 ngôn ngữ.
- Gói đăng ký cung cấp một bộ tính năng toàn diện nhằm nâng cao năng suất và mang lại trải nghiệm AI cá nhân hóa hơn.
- Người dùng quan tâm có thể tìm hiểu chi tiết về giá cả và đăng ký trên trang web chính thức của Google Gemini.
- Google Gemini 1.5 Pro đứng đầu trong việc cung cấp công cụ mạnh mẽ và linh hoạt để điều hướng các phức tạp của thời đại kỹ thuật số.
- Với các tính năng tiên tiến, tích hợp liền mạch và trải nghiệm cá nhân hóa, trợ lý AI này dự kiến sẽ trở thành tài sản không thể thiếu cho cả cá nhân và doanh nghiệp.

📌 Google Gemini 1.5 Pro cung cấp trải nghiệm giao tiếp tự nhiên và phân tích hình ảnh đa phương tiện, hỗ trợ hơn 35 ngôn ngữ và có sẵn tại hơn 150 quốc gia với giá khoảng 20 USD/tháng. Đây là công cụ mạnh mẽ và linh hoạt, hứa hẹn trở thành trợ lý AI không thể thiếu.

https://www.geeky-gadgets.com/google-gemini-pro-ai-model/

Google ra mắt Gemini 1.5 flash với cửa sổ ngữ cảnh 1 triệu token

- Google công bố ra mắt Gemini 1.5 Flash, một mô hình đa phương thức nhỏ gọn, được thiết kế để xử lý các tác vụ hẹp và có tần suất cao với cửa sổ ngữ cảnh lên đến 1 triệu token.
- Gemini 1.5 Flash hiện có sẵn trong bản xem trước công khai thông qua API Gemini trong Google AI Studio.
- Gemini 1.5 Pro, ra mắt vào tháng 2, cũng được nâng cấp cửa sổ ngữ cảnh từ 1 triệu lên 2 triệu token. Các nhà phát triển quan tâm cần đăng ký vào danh sách chờ.
- Gemini 1.5 Flash được thiết kế cho các tác vụ yêu cầu tốc độ đầu ra nhanh, trong khi Gemini 1.5 Pro phù hợp với các tác vụ phức tạp hơn, yêu cầu suy luận nhiều bước.
- Google cung cấp nhiều lựa chọn AI khác nhau, từ Gemma và Gemma 2 đến Gemini Nano, Gemini 1.5 Flash, Gemini 1.5 Pro và Gemini 1.0 Ultra, cho phép các nhà phát triển lựa chọn mô hình phù hợp với từng trường hợp sử dụng cụ thể.
- Mô hình mới này được công bố chỉ 24 giờ sau khi OpenAI ra mắt GPT-4o, một mô hình ngôn ngữ đa phương thức sẽ có sẵn cho tất cả người dùng và bao gồm ứng dụng desktop.
- Cả hai mô hình Gemini 1.5 đều có sẵn trong bản xem trước công khai tại hơn 200 quốc gia và vùng lãnh thổ trên toàn thế giới, bao gồm Khu vực Kinh tế Châu Âu, Vương quốc Anh và Thụy Sĩ.
- Josh Woodward, phó chủ tịch Google Labs, nhấn mạnh rằng các nhà phát triển có thể di chuyển giữa các kích thước mô hình khác nhau tùy thuộc vào trường hợp sử dụng, với cùng khả năng đầu vào đa phương thức và cửa sổ ngữ cảnh dài.

📌 Google ra mắt Gemini 1.5 Flash với cửa sổ ngữ cảnh 1 triệu token, phù hợp cho các tác vụ yêu cầu tốc độ nhanh. Gemini 1.5 Pro được nâng cấp lên 2 triệu token, phù hợp cho các tác vụ phức tạp hơn. Cả hai mô hình đều có sẵn trong bản xem trước công khai tại hơn 200 quốc gia và vùng lãnh thổ.

https://venturebeat.com/ai/google-gemini-1-5-flash-rapid-multimodal-model-announced/

LinkedIn đã học được gì khi xây dựng AI tạo sinh?

- **Khoảng 07 tháng trước**, các kỹ sư của LinkedIn bắt đầu cải thiện trải nghiệm người dùng và tương tác bằng cách tích hợp khả năng AI tạo sinh vào nền tảng của mình.
- **Kết quả**: Một gói đăng ký cao cấp mới được hỗ trợ bởi AI, nhưng cần nhiều thời gian và năng lượng để điều chỉnh theo tiêu chuẩn và thực tiễn tốt nhất nội bộ.
- **Juan Bottaro**, kỹ sư phần mềm chính tại LinkedIn, cho biết: "Bạn có thể xây dựng một thứ trông rất hữu ích, nhưng nếu nó sai lầm một lần trong năm lần, điều đó không chấp nhận được đối với chúng tôi."
- **Người dùng** có thể sử dụng nền tảng để nhận hỗ trợ viết hiệu quả, thu thập thông tin và đánh giá kỹ năng. Giao diện cung cấp gợi ý hồ sơ tùy chỉnh cho người tìm việc và truy cập các điểm chính từ bài đăng.
- **Mục tiêu**: Đảm bảo các phản hồi do AI tạo ra phải chính xác và đồng cảm. Ví dụ, nếu một người dùng muốn biết liệu một công việc trong lĩnh vực sinh học có phù hợp với hồ sơ của họ hay không, AI sẽ gợi ý các khóa học LinkedIn Learning thay vì chỉ nói rằng công việc không phù hợp.
- **Thách thức**: Chỉ thêm công nghệ vì tính mới lạ có thể gây ra hậu quả. Các giải pháp tương tác với khách hàng có rủi ro cao hơn.
- **Quá trình phát triển**: Các kỹ sư LinkedIn tiếp tục điều chỉnh sản phẩm, giảm thiểu rủi ro trong quá trình. Bottaro nói: "Đừng mong đợi bạn sẽ thành công ngay từ lần đầu tiên, nhưng bạn sẽ nhanh chóng xây dựng được kỹ năng đó."
- **Thời gian điều chỉnh**: Đội ngũ đã dành nhiều thời gian không ngờ để tinh chỉnh trải nghiệm. Bottaro cho biết phần lớn nỗ lực của đội ngũ tập trung vào việc tinh chỉnh hơn là giai đoạn phát triển thực tế.
- **Tiêu chí đánh giá**: Trong một trong những nguyên mẫu đầu tiên, chatbot sẽ nói với người dùng rằng họ không phù hợp với công việc mà không cung cấp thông tin hữu ích. Bottaro nói: "Đó không phải là phản hồi tốt, ngay cả khi nó đúng."
- **Quá trình đánh giá**: Cần phải phát triển tiêu chí và hướng dẫn đánh giá cùng với phát triển sản phẩm. Bottaro so sánh quá trình này với việc các giáo viên khác nhau chấm một bài luận thay vì một bài kiểm tra trắc nghiệm.
- **Mức độ hoàn thành**: Đội ngũ đạt khoảng 80% mục tiêu trải nghiệm, sau đó dành thêm bốn tháng để tinh chỉnh và cải thiện hệ thống.

📌 LinkedIn đã học được rằng việc tích hợp AI tạo sinh vào nền tảng của mình đòi hỏi nhiều điều chỉnh hơn dự kiến. Đội ngũ kỹ sư đã dành phần lớn thời gian để tinh chỉnh trải nghiệm người dùng, đạt khoảng 80% mục tiêu và tiếp tục cải thiện trong 4 tháng tiếp theo. 

Gemini - chìa khóa của Google mở ra tương lai Android trong kỷ nguyên AI

- Gemini, một trợ lý ảo thay thế cho Google Assistant, ra mắt cách đây khoảng 3 tháng nhưng chưa sẵn sàng cho người dùng phổ thông do thiếu nhiều tính năng cơ bản như truy cập lịch, đặt lời nhắc.

- Google đã bổ sung các chức năng trên cho Gemini, tuy nhiên vẫn chưa hỗ trợ ứng dụng nghe nhạc bên thứ ba như Spotify trong khi Google Assistant đã tích hợp gần 1 thập kỷ.

- Cho đến nay, AI trên smartphone chủ yếu mang đến một số tính năng mới lạ như biến đổi hình ảnh, tóm tắt nội dung cuộc họp hay tìm kiếm vật thể trên màn hình. Tuy tiện ích nhưng chưa phải là tầm nhìn toàn diện về tương lai.

- Android, đặc biệt là Gemini, đang nắm giữ chìa khóa thiết yếu để kết nối các tính năng AI lại với nhau.

- Tiềm năng thực sự của Gemini nằm ở khả năng tích hợp liền mạch trên toàn hệ sinh thái Android, từ tai nghe, đồng hồ thông minh đến tận hệ điều hành.

📌 Gemini đang từng bước hoàn thiện, hứa hẹn trở thành trợ lý ảo đột phá của Google, mở ra tương lai Android được định hình bởi AI với sự tích hợp sâu rộng trên mọi thiết bị, tạo nên trải nghiệm liền mạch và thông minh vượt trội.

Citations:
[1] https://www.theverge.com/2024/5/11/24152977/android-ai-google-io-2024-gemini

OpenAI sắp ra mắt trợ lý ảo đa phương thức mới, có khả năng thực hiện cuộc gọi điện thoại

- OpenAI đang thử nghiệm một mô hình AI đa phương thức mới với một số khách hàng, dự kiến sẽ được giới thiệu vào thứ Hai tới.
- Mô hình mới này có khả năng diễn giải hình ảnh và âm thanh nhanh hơn, chính xác hơn so với các mô hình chuyển văn bản thành giọng nói và chép lời hiện có của OpenAI.
- Công nghệ tiên tiến này có thể giúp nhân viên chăm sóc khách hàng hiểu rõ hơn ngữ điệu và sự mỉa mai của người gọi.
- Mô hình cũng có tiềm năng hỗ trợ học sinh giải toán hoặc dịch các biển hiệu ngoài đời thực.
- Mô hình mới vượt trội hơn GPT-4 Turbo trong việc trả lời một số loại câu hỏi cụ thể, tuy nhiên vẫn có thể đưa ra giả định sai lầm một cách tự tin.
- Nhà phát triển Ananay Arora phát hiện khả năng OpenAI giới thiệu tính năng mới của ChatGPT cho phép thực hiện cuộc gọi điện thoại.
- Arora tìm thấy mã liên quan đến cuộc gọi và bằng chứng về các máy chủ được cung cấp để giao tiếp âm thanh và video thời gian thực.
- Đây không phải là GPT-5 và OpenAI cũng không ra mắt công cụ tìm kiếm mới dựa trên AI.
- Google cũng đang thử nghiệm các cuộc gọi điện thoại được hỗ trợ bởi AI và được cho là đang phát triển "Pixie", sản phẩm thay thế Google Assistant đa phương thức.

📌 OpenAI đang chuẩn bị ra mắt một trợ lý ảo đa phương thức mới với khả năng gọi điện, diễn giải hình ảnh và âm thanh chính xác hơn. Công nghệ này hứa hẹn cải thiện đáng kể dịch vụ khách hàng và hỗ trợ giáo dục, tuy nhiên vẫn còn một số hạn chế cần khắc phục.

Citations:
[1] https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls

Perplexity bắt tay Soundhound nâng tầm trợ lý ảo chat AI

- Perplexity, công ty khởi nghiệp tiên phong do Aravind Srinivas dẫn đầu, đang mở rộng phạm vi hoạt động thông qua các mối quan hệ hợp tác chiến lược trong ngành. Gần đây, họ công bố kế hoạch mở rộng toàn cầu với các nhà mạng lớn.

- Perplexity hợp tác với SoundHound, công ty hàng đầu về AI giọng nói. Khả năng dựa trên mô hình ngôn ngữ lớn (LLM) của Perplexity sẽ nâng cao trợ lý ảo Chat AI của SoundHound, nhằm mang lại trải nghiệm người dùng vượt trội và giúp Perplexity tiếp cận thị trường rộng lớn hơn.

- SoundHound phục vụ nhiều ngành với các giải pháp nhận dạng giọng nói và AI giọng nói. Đối với người tiêu dùng, công ty cung cấp Chat AI, một trợ lý ảo tương tự như Siri, cho phép người dùng tương tác và nhận câu trả lời nhanh chóng.

- Chat AI tích hợp với các lĩnh vực kiến thức cụ thể, kéo dữ liệu thời gian thực về các chủ đề như thời tiết, thể thao, cổ phiếu, tình trạng chuyến bay và nhà hàng, kết hợp với LLM tĩnh để tạo ra phản hồi toàn diện.

- Mike Zagorsek, COO của SoundHound AI, tin rằng việc tích hợp khả năng tìm kiếm của Perplexity vào Chat AI sẽ nâng cao tiêu chuẩn cho các trợ lý ảo và loại truy vấn mà chúng có thể xử lý dễ dàng. Ở những nơi công nghệ này đã được triển khai trên xe hơi, mức sử dụng tăng lên gấp nhiều lần.

📌 Sự hợp tác giữa Perplexity và SoundHound hứa hẹn cải thiện đáng kể trải nghiệm người dùng với trợ lý ảo Chat AI nhờ tích hợp công nghệ LLM tiên tiến. Điều này mở ra cơ hội cho Perplexity tiếp cận thị trường rộng lớn hơn, đồng thời giúp Chat AI xử lý nhiều loại truy vấn phức tạp một cách dễ dàng, qua đó thúc đẩy xu hướng sử dụng tương tác bằng giọng nói ngày càng tăng.

Citations:
[1] https://venturebeat.com/ai/perplexitys-latest-partnership-set-to-power-soundhounds-voice-assistant/

Liệu kỷ nguyên mới của LLM với cửa sổ ngữ cảnh khổng lồ có chấm dứt thời đại của RAG?

- Google Gemini 1.5 Pro, ra mắt vào tháng 2 năm 2024, đã thiết lập kỷ lục với cửa sổ ngữ cảnh dài nhất từ trước đến nay là 1 triệu token, tương đương với 1 giờ video hoặc 700,000 từ.
- Hiệu suất ấn tượng của Gemini trong việc xử lý các ngữ cảnh dài đã khiến một số người tuyên bố rằng "RAG đã chết". LLMs hiện đã là những công cụ truy xuất rất mạnh, vậy tại sao còn phải dành thời gian để xây dựng một công cụ truy xuất yếu và đối mặt với các vấn đề liên quan đến RAG như phân mảnh, nhúng và lập chỉ mục?
- Cửa sổ ngữ cảnh mở rộng đã khởi đầu một cuộc tranh luận: Với những cải tiến này, liệu RAG có còn cần thiết không? Hay có thể sớm trở nên lỗi thời?
- RAG hoạt động dựa trên một cách tiếp cận lai, cho phép mô hình sử dụng thông tin cập nhật từ các nguồn bên ngoài, giúp LLMs tạo ra các phản hồi chính xác và thông tin hơn.
- Việc mở rộng cửa sổ ngữ cảnh trong LLMs có thể cung cấp cho mô hình cái nhìn sâu sắc hơn, nhưng cũng đem lại thách thức như chi phí tính toán cao hơn và hiệu quả thấp hơn. RAG giải quyết những thách thức này bằng cách chỉ truy xuất thông tin liên quan nhất, giúp tối ưu hóa hiệu suất và độ chính xác.
- Bên cạnh việc sử dụng cửa sổ ngữ cảnh lớn hơn, một phương án thay thế cho RAG là tinh chỉnh, tuy nhiên, việc tinh chỉnh có thể tốn kém và phức tạp.

📌 Google Gemini 1.5 Pro với cửa sổ ngữ cảnh 1 triệu token đã đặt ra câu hỏi về tương lai của RAG trong bối cảnh LLMs ngày càng mạnh mẽ trong việc xử lý và tích hợp ngữ cảnh rộng. Mặc dù RAG vẫn có vai trò trong việc tối ưu hóa hiệu suất và độ chính xác, nhưng sự phát triển của LLMs có thể làm giảm dần sự phụ thuộc vào RAG.

Citations:
[1] https://thenewstack.io/do-enormous-llm-context-windows-spell-the-end-of-rag/

Alibaba Cloud tung ra Qwen2.5: Bước tiến vượt trội trong thế giới AI, vượt mặt cả GPT-4?

- Alibaba Cloud, bộ phận điện toán đám mây của Alibaba Group Holding, đã giới thiệu phiên bản mới nhất của mô hình ngôn ngữ lớn độc quyền Tongyi Qianwen, Qwen2.5.
- Phiên bản mới này có những cải tiến đáng kể về khả năng lập luận, hiểu mã và hiểu văn bản so với phiên bản tiền nhiệm Qwen2.0.
- Hơn 90.000 doanh nghiệp đã triển khai các sản phẩm AI tạo sinh của Alibaba Cloud, cho thấy nhu cầu ngày càng tăng đối với công nghệ này.
- Jingren Zhou, CTO của Alibaba Cloud, bày tỏ sự phấn khích về tiến bộ và cam kết đóng góp các mô hình AI đa dạng cho cộng đồng nguồn mở, cũng như hợp tác với khách hàng và nhà phát triển để tận dụng cơ hội trong lĩnh vực AI tạo sinh.
- Hơn 2,2 triệu người dùng doanh nghiệp đã sử dụng các dịch vụ AI được hỗ trợ bởi Qwen thông qua DingTalk, nền tảng hợp tác và phát triển ứng dụng của Alibaba.
- Một phân tích của OpenCompass vào tháng 3 cho thấy mô hình Qwen mới nhất vượt trội hơn mô hình GPT-4 của OpenAI về khả năng ngôn ngữ và sáng tạo, tuy nhiên vẫn thua kém trong các lĩnh vực khác như kiến thức, lập luận và toán học.

📌 Alibaba Cloud đã ra mắt Qwen2.5, phiên bản cải tiến vượt bậc của mô hình ngôn ngữ lớn Tongyi Qianwen, với hơn 90.000 doanh nghiệp triển khai. Mô hình mới vượt trội GPT-4 về ngôn ngữ và sáng tạo, đáp ứng nhu cầu tăng cao về AI tạo sinh, thu hút 2,2 triệu người dùng qua nền tảng DingTalk.

Citations:
[1] https://seekingalpha.com/news/4103349-alibaba-cloud-unveils-latest-version-of-large-language-model-amid-robust-ai-demand

Tenyx làm nên lịch sử: Mô hình Llama-3 nguồn mở giờ đây đã vượt mặt GPT-4

- Tenyx, một startup về AI, đã tinh chỉnh thành công mô hình ngôn ngữ Llama-3 của Meta, giờ đổi tên thành Tenyx-70B, và đã vượt qua GPT-4 của OpenAI trong một số lĩnh vực.
- Itamar Arel, người sáng lập và CEO của Tenyx, cho biết công nghệ tinh chỉnh này cho phép họ khai thác sự trùng lặp trong các mô hình lớn để thực hiện học tập liên tục hoặc học tập gia tăng.
- Mô hình Tenyx-70B đã được tối ưu hóa để vượt trội hơn GPT-4 trong các nhiệm vụ toán học và lập trình, đồng thời vượt qua mô hình Llama-3 gốc trong tất cả các khả năng.
- Tenyx đã giải quyết vấn đề "quên lãng thảm họa" bằng cách chỉ cập nhật một phần nhỏ các tham số của mô hình, cho phép mô hình được đào tạo trên thông tin mới mà không làm ảnh hưởng đến các khả năng hiện có.
- Mô hình Llama-3 tinh chỉnh của Tenyx, với 70 tỷ tham số, đã được đào tạo chỉ trong 15 giờ sử dụng 100 GPU.
- Tenyx cũng cam kết với AI nguồn mở bằng cách phát hành mô hình Tenyx-70B dưới cùng một giấy phép với mô hình Llama-3 gốc, nhấn mạnh tầm quan trọng của việc chia sẻ tiến bộ với cộng đồng.
- Các ứng dụng tiềm năng của công nghệ tối ưu hóa sau đào tạo của Tenyx rất rộng lớn, từ việc tạo ra các chatbot chuyên biệt cho các ngành cụ thể đến việc cho phép các bản cập nhật tăng cường thường xuyên cho các mô hình đã triển khai.
- Sự đột phá của Tenyx có thể làm thay đổi cán cân trong ngành công nghiệp AI, cung cấp cho các doanh nghiệp và nhà nghiên cứu quyền truy cập vào các mô hình ngôn ngữ tiên tiến mà không cần chi phí cao và các hạn chế liên quan đến các sản phẩm độc quyền.
- Mặc dù mô hình Llama-3 tối ưu hóa của Tenyx vẫn kế thừa một số hạn chế của mô hình gốc, như phản ứng không logic hoặc không có cơ sở, nhưng sự cải thiện về hiệu suất là đáng kể, đạt gần 96% chính xác trong các nhiệm vụ toán học và suy luận.

📌 Tenyx đã tạo ra một bước đột phá trong ngành công nghiệp AI bằng cách tinh chỉnh mô hình ngôn ngữ Llama-3 để vượt qua GPT-4 trong một số lĩnh vực, đánh dấu lần đầu tiên một mô hình nguồn mở vượt qua tiêu chuẩn vàng độc quyền. Mô hình Tenyx-70B đã được tối ưu hóa để đạt hiệu suất cao trong các nhiệm vụ toán học và lập trình, mở ra cánh cửa cho một kỷ nguyên mới của sự đổi mới AI nguồn mở.

https://venturebeat.com/ai/exclusive-ai-startup-tenyxs-fine-tuned-open-source-llama-3-model-outperforms-gpt-4/

OpenAI công bố Model Spec: hướng tới tương lai của AI có trách nhiệm

- OpenAI công bố Model Spec, một tài liệu khung nêu rõ cách các mô hình AI của họ nên hoạt động trong API và ChatGPT của OpenAI.
- Model Spec mở để lấy ý kiến phản hồi của công chúng thông qua một biểu mẫu trên web cho đến ngày 22/5.
- Sam Altman, đồng sáng lập và CEO của OpenAI, nhấn mạnh tầm quan trọng của việc giao tiếp rõ ràng giữa lỗi và quyết định trong quá trình phát triển AI.
- Việc OpenAI công bố Model Spec là một phần trong sứ mệnh rộng lớn hơn nhằm đảm bảo các công nghệ AI hoạt động theo cách có lợi và an toàn cho tất cả người dùng.
- OpenAI thừa nhận đây là một vấn đề phức tạp, đặt ra các cuộc tranh luận triết học lâu đời về công nghệ, hệ thống thông minh, điện toán và xã hội.
- Bằng cách chia sẻ bản nháp đầu tiên của Model Spec, OpenAI mong muốn thúc đẩy cuộc trò chuyện sâu hơn về các cân nhắc đạo đức và thực tế liên quan đến phát triển AI.
- OpenAI dự định cập nhật công chúng về các thay đổi và hiểu biết có được từ vòng phản hồi này, tái khẳng định cam kết phát triển AI có trách nhiệm của mình.

📌 OpenAI đang nỗ lực thúc đẩy sự minh bạch và trách nhiệm trong phát triển AI thông qua việc công bố Model Spec, một khung hướng dẫn cách các mô hình AI nên vận hành. Bằng cách tìm kiếm ý kiến đóng góp từ cộng đồng, OpenAI mong muốn tạo ra cuộc đối thoại cởi mở về các khía cạnh đạo đức và thực tiễn của công nghệ AI đang phát triển nhanh chóng.

Citations:
[1] https://venturebeat.com/ai/openai-posts-model-spec-revealing-how-it-wants-ai-to-behave/

Meta biến đổi ngành công nghiệp AI: Tăng tốc mô hình lên đến 3 lần nhờ dự đoán đa-token

- Các nhà nghiên cứu từ Meta, Ecole des Ponts ParisTech và Université Paris-Saclay đã phát triển một kỹ thuật mới có tên là dự đoán đa-token, giúp tăng tốc độ suy luận của mô hình AI lên đến ba lần.
- Dự đoán đa-token cho phép mô hình dự đoán nhiều token tương lai cùng một lúc từ mỗi vị trí trong bộ dữ liệu huấn luyện, thay vì chỉ dự đoán một token một lần như mô hình tự hồi quy truyền thống.
- Kỹ thuật này không chỉ tăng tốc độ suy luận mà còn cải thiện độ chính xác của mô hình nhờ vào khả năng huấn luyện sâu hơn mà không cần thêm thời gian huấn luyện hay bộ nhớ.
- Các nhà nghiên cứu đã thử nghiệm kỹ thuật dự đoán đa-token trên nhiều nhiệm vụ khác nhau sử dụng các mô hình từ 300 triệu đến 13 tỷ tham số. Kết quả cho thấy, mặc dù mô hình nhỏ có kết quả kém hơn, nhưng hiệu quả của dự đoán đa-token tăng lên theo kích thước mô hình.
- Phương pháp này được đánh giá là một cải tiến đơn giản nhưng hiệu quả để huấn luyện các mô hình transformer mạnh mẽ và hiệu quả hơn.
- Sự kiện VB's AI Impact Tour tại San Francisco sẽ là cơ hội để khám phá thêm về cách thức tích hợp AI một cách có trách nhiệm vào sản xuất, nơi các chuyên gia ngành công nghiệp sẽ chia sẻ về tiềm năng của AI tạo sinh và cách thức tối ưu hóa các quy trình kinh doanh.

📌 Các nhà nghiên cứu từ Meta và các trường đại học Pháp đã phát triển kỹ thuật dự đoán đa-token, tăng tốc độ suy luận của mô hình AI lên đến ba lần và cải thiện độ chính xác. Kỹ thuật này cho phép dự đoán nhiều token cùng một lúc, hiệu quả hơn trong các mô hình lớn từ 300 triệu đến 13 tỷ tham số.

Citations:
[1] https://venturebeat.com/ai/metas-new-multi-token-prediction-makes-ai-models-up-to-3x-faster/

Chatbot AI mạnh mẽ gpt2-chatbot bất ngờ quay trở lại với 2 phiên bản mới

- Chatbot AI bí ẩn 'gpt2-chatbot' đã tái xuất trên trang đánh giá mô hình ngôn ngữ lớn LMSYS Org vào thứ Hai tuần trước, khoảng 1 tuần sau khi biến mất đột ngột.
- Lần này xuất hiện 2 phiên bản mới: 'im-a-good-gpt2-chatbot' và 'im-also-a-good-gpt2-chatbot', thể hiện khả năng tương đương GPT-4, thậm chí vượt trội hơn bản gốc.
- Để truy cập 2 chatbot mới, người dùng phải vào LMSYS Chatbot Arena (battle), nhập prompt và hy vọng một trong hai chatbot xuất hiện ngẫu nhiên.
- CEO OpenAI Sam Altman đã đề cập đến 'im-a-good-gpt2-chatbot' trên Twitter vào Chủ nhật, 1 ngày trước khi các chatbot này xuất hiện trên LMSYS.
- Nhiều giả thuyết cho rằng gpt2-chatbot là mô hình AI cũ của OpenAI được cải tiến bởi kiến trúc tinh vi, nhưng chưa có kết luận chính xác.
- Trong bài phát biểu tại Đại học Harvard tuần trước, Altman khẳng định gpt2-chatbot không phải GPT-4.5, nhưng không xác nhận đây có phải sản phẩm của OpenAI hay không.
- Qua thử nghiệm sơ bộ, 'im-a-good-gpt2-chatbot' thể hiện khả năng tương đương GPT-4 và các mô hình AI cùng phân khúc, trả lời chính xác hơn Llama-3b-70b-instruct của Meta.

📌 Mặc dù thông tin về nguồn gốc của các gpt2-chatbot còn hạn chế, rõ ràng một tổ chức lớn đang đứng sau chúng. Sự xuất hiện bất ngờ của 2 phiên bản mới với khả năng tương đương GPT-4 đã thu hút sự chú ý lớn từ cộng đồng AI, dấy lên nhiều giả thuyết về bản chất thực sự của những chatbot bí ẩn này.

Citations:
[1] https://qz.com/powerful-new-gpt2-chatbot-mysteriously-returns-1851462214

Amazon ra mắt mô hình ngôn ngữ lớn Titan Text Premier hỗ trợ xây dựng ứng dụng AI tạo sinh đa dạng

- Amazon giới thiệu mô hình ngôn ngữ lớn mới nhất Amazon Titan Text Premier, hiện đã có mặt trên nền tảng Amazon Bedrock.
- Titan Text Premier là thành viên mới nhất trong dòng sản phẩm Amazon Titan, tiếp nối các mô hình Titan Text Lite và Titan Text Express.
- Mô hình này tăng cường khả năng lựa chọn mô hình cho người dùng trong hệ sinh thái Amazon Bedrock.
- Titan Text Premier hỗ trợ xây dựng các ứng dụng AI tạo sinh dựa trên công nghệ RAG (tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài) và Agent.
- Mô hình cho phép tích hợp dữ liệu và kiến thức bên ngoài vào quá trình tạo sinh, giúp cải thiện độ chính xác và linh hoạt của ứng dụng.
- Titan Text Premier cung cấp khả năng xử lý ngôn ngữ tự nhiên và tạo sinh văn bản chất lượng cao, phù hợp cho nhiều tác vụ như trả lời câu hỏi, tóm tắt văn bản, sáng tạo nội dung.
- Mô hình hỗ trợ xây dựng các hệ thống đối thoại thông minh, chatbot và trợ lý ảo.
- Titan Text Premier tích hợp công nghệ Multimodal, cho phép xử lý và tạo sinh dữ liệu đa phương tiện như hình ảnh, âm thanh, video.
- Amazon cung cấp framework và công cụ để dễ dàng triển khai, tinh chỉnh mô hình theo nhu cầu riêng.
- Việc ra mắt Titan Text Premier thể hiện cam kết của Amazon trong việc đầu tư và phát triển các công nghệ AI tạo sinh tiên tiến.

📌 Amazon Titan Text Premier là mô hình ngôn ngữ lớn mới nhất từ Amazon, hỗ trợ xây dựng ứng dụng AI tạo sinh dựa trên RAG và Agent. Mô hình tích hợp khả năng truy xuất dữ liệu ngoài, xử lý đa phương tiện, mang đến nhiều lựa chọn và tiềm năng ứng dụng đa dạng cho người dùng trên nền tảng Amazon Bedrock.

Citations:
[1] https://aws.amazon.com/blogs/aws/build-rag-and-agent-based-generative-ai-applications-with-new-amazon-titan-text-premier-model-available-in-amazon-bedrock/

Quá trình phát triển mô hình ngôn ngữ lớn Hanuman của Ấn Độ

- Tiến sĩ Vishnu Vardhan có nền tảng y khoa, từng làm việc cho Liên Hợp Quốc. Ông bắt đầu công ty VII vào năm 2019, tập trung vào công nghệ chăm sóc sức khỏe. 
- SML là công ty của ông chuyên xây dựng các mô hình nền tảng như Hanuman. Mục tiêu là tạo ra hệ sinh thái AI tạo sinh, cho phép các startup xây dựng ứng dụng trên nền tảng Hanuman.
- Ấn Độ cần phát triển mô hình ngôn ngữ riêng vì có nhiều ngôn ngữ đa dạng, 80% dân số không nói tiếng Anh. Hanuman hỗ trợ 22 ngôn ngữ Ấn Độ.
- Quá trình phát triển Hanuman gặp nhiều khó khăn như thiếu GPU, kinh phí. Họ phải đặt hàng GPU và sử dụng dịch vụ đám mây. Hiện có cụm 1.256 GPU.

- Hanuman, tiết kiệm chi phí hơn so với các mô hình toàn cầu khác, ước tính trị giá 10 triệu USD so với 100 triệu USD của GPT-4
- Các công ty và chính phủ Ấn Độ chưa đầu tư nhiều vào AI. Ngân sách của viện hàng đầu Ấn Độ chỉ 75 triệu USD. Nhiều nhà đầu tư thiếu hiểu biết về công nghệ sâu.
- Hanuman sẽ miễn phí khi ra mắt, chỉ hỗ trợ văn bản, chưa có hình ảnh. Họ tuyển dụng kỹ sư từ IIT và hợp tác với NASSCOM để tổ chức hackathon tuyển dụng.
- Hanuman không liên quan đến hệ sinh thái của Jio hay được Jio đầu tư. Chính phủ Ấn Độ cũng có kế hoạch phát triển mô hình ngôn ngữ lớn nhưng chưa có tiến triển.
- Tiến sĩ Vishnu cho rằng các startup Ấn Độ chưa đầu tư nhiều vào công nghệ sâu vì thiếu kinh phí và hiểu biết. Nhiều nhà đầu tư không có chuyên môn về lĩnh vực này.
- Ông hy vọng Hanuman sẽ thúc đẩy hệ sinh thái AI tạo sinh tại Ấn Độ, tạo cơ hội cho các công ty khởi nghiệp phát triển ứng dụng trên nền tảng này. Mục tiêu là giúp mọi người tiếp cận giáo dục và tri thức bình đẳng.
- Trong tương lai, SML sẽ tiếp tục đầu tư mạnh vào nghiên cứu, phát triển các tính năng như tạo hình ảnh, lập trình bằng ngôn ngữ Ấn Độ. Họ sẽ hợp tác với các công ty, tổ chức lớn để mở rộng quy mô.

📌 Hanuman là nỗ lực đầy tham vọng để xây dựng mô hình ngôn ngữ lớn đầu tiên của Ấn Độ, hỗ trợ 22 ngôn ngữ bản địa. Mặc dù gặp nhiều khó khăn về kinh phí và hạ tầng, Tiến sĩ Vishnu Vardhan và đội ngũ SML đã làm việc trong 1 năm để phát triển Hanuman, chi phí khoảng 10 triệu USD, so với khoảng 100 triệu USD của GPT-4, với tầm nhìn tạo ra hệ sinh thái AI tạo sinh rộng lớn cho các công ty khởi nghiệp Ấn Độ. 

Citations:
[1] https://www.youtube.com/watch?v=qTQ63yf8VBQ

mô hình ngôn ngữ thị giác VILA, có khả năng lý luận giữa nhiều hình ảnh, học trong ngữ cảnh và hiểu video

- Các nhà nghiên cứu từ NVIDIA và MIT đã giới thiệu khung pre-training mô hình ngôn ngữ thị giác (VLM) mới, VILA, tập trung vào việc liên kết embedding hiệu quả và sử dụng kiến trúc mạng nơ-ron động.
- VILA sử dụng kết hợp các tập dữ liệu xen kẽ và tinh chỉnh có giám sát chung (SFT) để nâng cao khả năng học thị giác và văn bản.
- Khung VILA nhấn mạnh việc duy trì khả năng học trong ngữ cảnh trong khi cải thiện khả năng tổng quát hóa, đảm bảo mô hình xử lý hiệu quả các tác vụ phức tạp.
- Phương pháp pre-training VILA trên các bộ dữ liệu quy mô lớn như Coyo-700m, sử dụng mô hình LLaVA cơ sở để kiểm tra các chiến lược pre-training khác nhau.
- Visual Instruction Tuning được sử dụng để tinh chỉnh mô hình bằng cách sử dụng các bộ dữ liệu ngôn ngữ thị giác với tinh chỉnh hướng dẫn dựa trên prompt.
- Quá trình đánh giá bao gồm kiểm tra các mô hình pre-trained trên các tiêu chuẩn như OKVQA và TextVQA để đánh giá khả năng trả lời câu hỏi thị giác.
- VILA đạt mức độ chính xác trung bình 70.7% trên OKVQA và 78.2% trên TextVQA, vượt trội hơn đáng kể so với các tiêu chuẩn hiện có.
- VILA duy trì được tới 90% kiến thức đã học trước đó khi học các tác vụ mới, giảm thiểu hiện tượng quên thảm họa (catastrophic forgetting).

📌 VILA, khung pre-training ngôn ngữ thị giác mới của NVIDIA và MIT, đạt được những cải tiến đáng kể về độ chính xác (70,7% trên OKVQA, 78,2% trên TextVQA) và khả năng học trong ngữ cảnh, đồng thời giảm thiểu quên thảm họa, duy trì tới 90% kiến thức đã học khi tiếp cận tác vụ mới.

Citations:
[1] https://www.marktechpost.com/2024/05/04/researchers-at-nvidia-ai-introduce-vila-a-vision-language-model-that-can-reason-among-multiple-images-learn-in-context-and-even-understand-videos/

xAI của Elon Musk được định giá 18 tỷ USD, sẵn sàng đối đầu OpenAI 80 tỷ USD

- Công ty xAI của Elon Musk đang huy động 6 tỷ USD vốn đầu tư với mức định giá lên tới 18 tỷ USD. Ban đầu, mục tiêu gọi vốn được đặt ra là 3 tỷ USD với định giá trước giao dịch là 15 tỷ USD. Tuy nhiên, do sự quan tâm mạnh mẽ từ giới đầu tư, các điều khoản thỏa thuận đã được điều chỉnh, dẫn đến mức định giá tăng đáng kể.

- Trong số các nhà đầu tư nổi bật tham gia vòng gọi vốn có Sequoia Capital và Future Ventures. Future Ventures được đồng sáng lập bởi Steve Jurvetson, bạn lâu năm của Musk. Jurvetson từng là giám đốc tại Tesla cho đến năm 2020 và hiện đang là thành viên hội đồng quản trị của SpaceX.

- Trong bản trình bày với các nhà đầu tư, xAI bày tỏ tham vọng "lấp đầy khoảng cách giữa thế giới kỹ thuật số và thế giới vật lý". Công ty dự định sử dụng dữ liệu từ các công ty của Musk, bao gồm X, SpaceX, Tesla Inc.

- Một email từ xAI gửi đến các nhà đầu tư tiềm năng cho biết "một số lượng đáng kể các quỹ đầu tư đã chờ đợi thương vụ này từ tháng 12/2023". Email cũng nêu rõ xAI đã "đảm bảo phân bổ trong vòng gọi vốn cổ phần sắp tới của x.AI" và trước "vòng gọi vốn chính thức đầu tiên, Elon đã phân bổ một số lượng cổ phiếu nhất định cho các mối quan hệ thân thiết của mình với mức định giá trước giao dịch là 15 tỷ USD".

- OpenAI, đối thủ chính của xAI, được hậu thuẫn bởi Microsoft Corp., có giá trị 80 tỷ USD. Musk từng là nhà sáng lập và nhà đầu tư ban đầu của OpenAI nhưng sau đó đã kiện công ty vì vi phạm thỏa thuận thành lập về hoạt động như một tổ chức phi lợi nhuận.

📌 Công ty xAI của Elon Musk đang gây chú ý khi huy động được 6 tỷ USD với mức định giá 18 tỷ USD, tăng mạnh so với kế hoạch ban đầu. Với sự tham gia của các nhà đầu tư lớn như Sequoia Capital và Future Ventures, xAI tham vọng cạnh tranh với OpenAI trị giá 80 tỷ USD, công ty mà chính Musk từng đồng sáng lập trước khi kiện vì tranh chấp về mô hình hoạt động.

Citations:
[1] https://finance.yahoo.com/news/elon-musks-xai-valued-18-193014839.html

Microsoft tạm dừng phát hành các tính năng Copilot mới trên Windows 11

- Microsoft đã quyết định tạm dừng phát hành các tính năng Copilot mới trên Windows 11 để tinh chỉnh dựa trên phản hồi của người dùng
- Những người đang sử dụng tính năng này vẫn có thể tiếp tục dùng Copilot trên Windows bình thường trong khi Microsoft tiếp tục đổi mới với Windows Insider
- Sự kiện AI sắp tới của Microsoft vào ngày 20/5 là cơ hội tuyệt vời để công bố thêm về các cải tiến Copilot sắp tới
- Sau khi Microsoft tuyên bố năm 2024 là "năm của PC AI" và giới thiệu phím Copilot mới trên bàn phím Windows, kỳ vọng về việc cung cấp tính năng này rất lớn 
- Dự kiến sẽ ra mắt các mẫu laptop Surface mới, được trang bị chip Snapdragon X Elite của Qualcomm, cho phép chạy Windows on Arm và cạnh tranh với MacBook Air M3 của Apple
- Các tính năng mới của Windows được đồn đoán bao gồm ứng dụng AI Explorer, tương tự như tính năng Windows 10 Timeline cũ, ghi nhớ các hoạt động của người dùng và cho phép họ tiếp tục công việc trên nhiều thiết bị khác nhau
- Microsoft nhấn mạnh khái niệm "Copilot cho mọi người"
- Các tính năng Copilot đã được thử nghiệm trong bản xem trước bao gồm biểu tượng Copilot động trên thanh tác vụ, báo hiệu khi trợ lý AI có thể hỗ trợ
- Người dùng có thể di chuột qua biểu tượng để xem các tùy chọn, chẳng hạn như nhận tóm tắt văn bản do AI tạo
- Một tính năng Copilot khác cho phép trợ lý AI xuất hiện từ thanh bên vào cửa sổ ứng dụng tiêu chuẩn, người dùng có thể thay đổi kích thước và di chuyển
- Tính năng này bắt đầu triển khai trên kênh Canary vào tháng 3

📌 Microsoft tạm dừng phát hành các tính năng Copilot mới trên Windows 11 để tinh chỉnh dựa trên phản hồi người dùng. Sự kiện AI ngày 20/5 sẽ công bố thêm về cải tiến Copilot, cùng với kỳ vọng ra mắt laptop Surface mới chạy Windows on Arm với chip Snapdragon X Elite. Các tính năng như AI Explorer, tóm tắt văn bản do AI tạo đã được thử nghiệm.

Citations:
[1] https://www.theverge.com/2024/5/3/24148473/windows-11-insider-copilot-preview-beta-dev-channel

Tiết lộ mới về iOS 18: Cách Apple sẽ tích hợp AI vào Safari và Siri

- Theo báo cáo của Apple Insider, Apple sẽ giới thiệu nhiều tính năng AI mới trong bản cập nhật iOS tiếp theo, tập trung vào cải tiến các ứng dụng cốt lõi như Safari và Siri.
- Trọng tâm chính là phân tích văn bản trên thiết bị, có thể dẫn đến các tính năng sáng tạo như tóm tắt trang web nhanh và tương tác thông minh hơn với Siri.
- Apple vẫn cam kết mạnh mẽ về quyền riêng tư, với báo cáo cho thấy phần lớn quá trình xử lý AI có thể diễn ra cục bộ trên thiết bị.
- Mô hình AI "Ajax" LLM của Apple có thể phân tích văn bản với tốc độ đáng kinh ngạc, đưa ra nhiều câu trả lời tiềm năng được xếp hạng theo độ chính xác và mức độ liên quan.
- Mô hình AI thể hiện khả năng tích hợp ấn tượng với thiết bị và các ứng dụng, nhận ra các liên hệ được đề cập trong văn bản và kéo thông tin liên quan từ ứng dụng Lịch để tạo ra các phản hồi phù hợp với ngữ cảnh.
- Siri dự kiến sẽ được hưởng lợi đáng kể từ điều này, vì nó sẽ có thể phân tích nội dung Tin nhắn và có khả năng cung cấp các bản tóm tắt hoặc phản hồi đơn giản hóa.
- Apple dự kiến sẽ chính thức ra mắt các tính năng hỗ trợ AI này tại Hội nghị các nhà phát triển toàn cầu (WWDC) vào cuối năm nay.

📌 Apple Insider tiết lộ Apple sẽ tích hợp sâu AI vào iOS 18, với mô hình "Ajax" LLM phân tích văn bản nhanh, tạo câu trả lời chính xác. AI sẽ nâng cao Safari, Siri, bảo mật vẫn là ưu tiên hàng đầu. Dự kiến ra mắt tại WWDC cuối năm.

Citations:
[1] https://www.androidauthority.com/ios-18-ai-leak-3439749/

Elon Musk chia sẻ tầm nhìn về việc sử dụng AI để tổng hợp tin tức trên nền tảng X

- Elon Musk, CEO của X (trước đây là Twitter), đã chia sẻ tầm nhìn đầy tham vọng về việc tăng cường khả năng phổ biến tin tức của nền tảng bằng cách sử dụng AI.
- Sáng kiến được đề xuất nhằm tổng hợp tin tức thời gian thực với phản ứng trên mạng xã hội thành các bản cập nhật toàn diện và trực tiếp.
- Trọng tâm của kế hoạch của Musk là Grok, một chatbot AI trên X, hiện đang thử nghiệm việc tạo ra các bản tóm tắt tin tức bằng cách tổng hợp các bài đăng từ nền tảng.
- Theo Musk, Grok sẽ phát triển để bao gồm các bản cập nhật động hơn và trích dẫn tốt hơn khi có thêm thông tin.
- Công cụ dựa trên AI này nhằm cung cấp "thông tin chính xác và kịp thời tối đa", trích dẫn các nguồn quan trọng để tạo ra trải nghiệm người dùng phong phú hơn.
- Tuy nhiên, việc đạt được điều này sẽ không phải là không có thách thức. AI phải vượt qua các vấn đề phức tạp như độ chính xác và sự thiên vị.
- Động thái này cũng có thể có hàm ý pháp lý. Danielle Coffey, chủ tịch của News/Media Alliance, bày tỏ sự hoài nghi về việc chỉ sử dụng bình luận xã hội để tóm tắt tin tức, cho rằng nó có thể không bảo vệ đầy đủ nội dung báo chí gốc theo học thuyết sử dụng hợp lý.
- Mặc dù các bước đầu tiên có vẻ như giảm nhẹ tầm quan trọng của tin tức trên X, kế hoạch chi tiết của Musk cho thấy sự khẳng định lại tin tức là một tính năng trung tâm của nền tảng.
- Tầm nhìn của Musk cho Grok trên X là tạo ra một nền tảng hợp lực, nơi các bản tóm tắt do AI tạo ra, dựa trên các cuộc thảo luận của người dùng và được tăng cường bởi các bản cập nhật liên tục, cung cấp một cách mới để tương tác với tin tức.

📌 Elon Musk đã chia sẻ tầm nhìn táo bạo về việc sử dụng AI để tổng hợp tin tức trên nền tảng X, kết hợp tin tức thời gian thực với phản ứng trên mạng xã hội thông qua chatbot Grok. 

Citations:
[1] https://readwrite.com/elon-musk-outlines-vision-for-ai-driven-news-synthesis-on-x/

taide: công cụ đối thoại ai mang đậm bản sắc đài loan được ứng dụng rộng rãi

- Dự án phát triển TAIDE (Trustworthy AI Dialogue Engine) được Hội đồng Khoa học và Công nghệ Quốc gia (NSTC) Đài Loan khởi xướng từ tháng 4/2023 nhằm tạo ra một mô hình nền tảng cho công cụ đối thoại AI tiếng Trung phồn thể dành riêng cho Đài Loan.

- Một nhóm từ Đại học Tainan đã phát triển chatbot AI song ngữ tiếng Đài-Anh dựa trên TAIDE để học sinh tiểu học và trung học học ngôn ngữ. 

- Đại học Quốc gia Chung Hsing tạo ra công cụ tìm kiếm kiến thức nông nghiệp "Divine Farmer TAIDE", có thể trả lời các câu hỏi chuyên môn với trích dẫn nguồn.

- Ngân hàng Thương mại Đài Loan ứng dụng TAIDE giúp nhân viên truy cập thông tin sản phẩm tài chính nội bộ phức tạp, liên tục cập nhật để phục vụ khách hàng tốt hơn.

- Mô hình TAIDE dựa trên Llama 2 của Meta (TAIDE-LX-7B) đã được phát hành thương mại từ 15/4, phiên bản nghiên cứu (TAIDE-LX-13B) cũng đã ra mắt.

- Chỉ trong nửa tháng, TAIDE LX-7B đã có hơn 6.000 lượt tải xuống, cho thấy nhu cầu về mô hình nền tảng tiếng Trung phồn thể hiểu ngữ cảnh Đài Loan.

- Dự án TAIDE sẽ được gia hạn thêm 1 năm. NSTC ví TAIDE như động cơ ô tô, các lĩnh vực khác nhau sẽ dùng mô hình này để "chế tạo xe của riêng họ".

📌 TAIDE, công cụ đối thoại AI mang đậm bản sắc Đài Loan, đã chứng minh khả năng ứng dụng đa dạng chỉ sau nửa tháng ra mắt với hơn 6.000 lượt tải. Dù nguồn lực hạn chế so với các mô hình lớn, TAIDE vẫn hứa hẹn trở thành nền tảng quan trọng cho sự phát triển AI tại Đài Loan trong tương lai.

Anthropic ra mắt Claude trên Teams và iOS: Giải pháp AI an toàn, có thể mở rộng cho doanh nghiệp

- Anthropic đã ra mắt trợ lý AI Claude trên Microsoft Teams và ứng dụng iOS, hướng tới đối tượng doanh nghiệp.
- Claude hỗ trợ nhiều ngôn ngữ như tiếng Anh, Pháp, Đức, Tây Ban Nha, Nhật Bản, Hàn Quốc và sắp tới là tiếng Trung.
- Tích hợp sâu vào các quy trình làm việc và ứng dụng như Slack, Notion, Gmail, Google Docs, v.v.
- Tuân thủ các tiêu chuẩn bảo mật cao nhất như SOC 2 Type 2, HIPAA và GDPR.
- Anthropic cam kết không sử dụng dữ liệu khách hàng để đào tạo mô hình.
- Người dùng có thể truy cập Claude trên điện thoại thông qua ứng dụng iOS.
- Claude có khả năng hỗ trợ các tác vụ như tóm tắt, viết lách, lập trình, phân tích dữ liệu và trả lời câu hỏi.
- Doanh nghiệp có thể triển khai Claude một cách an toàn, bảo mật và có thể mở rộng quy mô.
- Anthropic đang phát triển các tính năng mới như tùy chỉnh nhân vật, đào tạo và tinh chỉnh mô hình.

📌 Anthropic đã ra mắt trợ lý AI Claude trên Microsoft Teams và ứng dụng iOS, mang đến giải pháp AI an toàn, đa ngôn ngữ và có thể mở rộng quy mô cho doanh nghiệp. Claude tích hợp sâu vào quy trình làm việc, tuân thủ các tiêu chuẩn bảo mật cao nhất và hỗ trợ nhiều tác vụ như tóm tắt, viết lách, lập trình và phân tích dữ liệu.

Citations:
[1] https://venturebeat.com/ai/anthropic-claude-teams-and-ios-app-the-secure-scalable-solution-for-enterprise-ai-adoption/

GPT2 - chatbot AI bí ẩn gây tranh cãi: đột phá hay chỉ là hype?

- GPT2 là một mô hình chatbot AI được phát triển bởi OpenAI, có khả năng tạo ra văn bản giống như con người với độ chính xác cao.
- Mô hình này được huấn luyện trên 40GB dữ liệu văn bản từ internet, cho phép nó hiểu và phản hồi ngôn ngữ tự nhiên một cách linh hoạt.
- GPT2 gây ra nhiều tranh cãi trong giới chuyên gia về việc liệu nó có phải là một bước đột phá thực sự hay chỉ là sự thổi phồng quá mức.
- Một số chuyên gia cho rằng GPT2 đại diện cho một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và có thể mở ra nhiều ứng dụng mới.
- Tuy nhiên, những người khác lại hoài nghi về khả năng thực sự của GPT2 và cho rằng nó chưa đạt đến mức độ thông minh như được quảng cáo.
- OpenAI quyết định không công bố mã nguồn của GPT2 vì lo ngại nó có thể bị lạm dụng để tạo ra tin giả và nội dung độc hại.
- Quyết định này cũng gây ra nhiều tranh luận, với một số ý kiến cho rằng việc giữ bí mật mã nguồn sẽ cản trở sự phát triển của cộng đồng AI.
- Hiện tại, GPT2 vẫn đang được nghiên cứu và phát triển thêm, với nhiều thử nghiệm được tiến hành để đánh giá khả năng thực sự của nó.
- Dù còn nhiều ý kiến trái chiều, sự xuất hiện của GPT2 cho thấy tiềm năng to lớn của AI trong việc xử lý ngôn ngữ tự nhiên và tương tác với con người.

📌 GPT2 - mô hình chatbot AI bí ẩn của OpenAI đang gây ra nhiều tranh cãi trong giới chuyên gia. Với khả năng tạo ra văn bản giống con người đến kinh ngạc, GPT2 được một số người coi là bước đột phá, trong khi những người khác lại hoài nghi về năng lực thực sự và lo ngại việc lạm dụng. Dù kết quả cuối cùng ra sao, sự xuất hiện của GPT2 cho thấy tiềm năng to lớn và những thách thức trong việc phát triển AI xử lý ngôn ngữ tự nhiên.

Citations:
[1] https://venturebeat.com/ai/mysterious-gpt2-chatbot-ai-model-baffles-experts-a-breakthrough-or-mere-hype/

Reka Core: Siêu phẩm AI đa năng miễn phí đối đầu với ChatGPT, Claude và Llama-3

- Reka AI, một công ty phần mềm doanh nghiệp, đã công bố ra mắt công chúng mô hình ngôn ngữ đa năng Reka Core, có khả năng xử lý đầu vào văn bản, hình ảnh, video và âm thanh.
- Công ty được thành lập vào năm 2022 bởi các nhà nghiên cứu từ Google’s DeepMind, Baidu của Trung Quốc và Meta, đã huy động được 60 triệu USD từ các nhà đầu tư như New York Life Ventures, Radical Ventures, Snowflake Ventures, DST Global và nhà đầu tư doanh nhân Nat Friedman.
- Reka Core là mô hình lớn nhất và mạnh mẽ nhất của Reka AI cho đến nay. Theo các bài kiểm tra do chính Reka AI thực hiện, mô hình này có thể cạnh tranh với các công cụ AI từ OpenAI, Anthropic và Google.
- Trong một bài báo nghiên cứu tổng hợp kết quả của nhiều chuẩn mực tổng hợp, Reka tuyên bố mô hình Core của họ có thể cạnh tranh với GPT-4V của OpenAI trên chuẩn mực MMMU, vượt trội Claude-3 Opus trong đánh giá đa phương tiện do bên thứ ba độc lập thực hiện, và vượt qua Gemini Ultra trong nhiệm vụ video.
- Về khả năng hiểu biết đầu vào video, được đo lường bằng chuẩn mực Perception-Test, Core vượt trội hơn Gemini Ultra, mô hình duy nhất khác có khả năng xử lý video.
- Reka Core có khả năng đa phương tiện (hình ảnh và video), khả năng suy luận tốt, có thể tạo mã và thông thạo đa ngôn ngữ.
- Giao diện chatbot của Reka Core được cung cấp miễn phí, và mô hình cũng có sẵn thông qua API. Đối với truy cập API, các nhà phát triển có thể mong đợi trả 10 USD cho mỗi 1 triệu token và 25 USD cho cùng số lượng token cho các nhiệm vụ liên quan đến video.

📌 Reka Core, mô hình AI đa năng mới của Reka AI, có khả năng xử lý đa dạng các loại đầu vào và cạnh tranh với các mô hình hàng đầu như GPT-4V và Claude-3 Opus. Mô hình này đã được đánh giá cao trong các bài kiểm tra độc lập và cung cấp giao diện chatbot miễn phí cùng với các tùy chọn API có phí.

Citations:
[1] https://decrypt.co/228507/reka-ai-core-free-competition-chatgpt-claude-llama-3

https://publications.reka.ai/reka-core-tech-report.pdf

Khám phá SenseNova 5.0: Kỳ quan AI của Trung Quốc đánh bại GPT-4

- SenseNova 5.0 là mô hình AI mới nhất của Trung Quốc, đã vượt qua GPT-4 về hiệu suất.
- Mô hình này đã trải qua quá trình đào tạo với hơn 10TB dữ liệu token, bao gồm một lượng lớn dữ liệu tổng hợp.
- SenseNova 5.0 được phát triển bởi một công ty có trụ sở tại Trung Quốc.
- Công bố này diễn ra vào ngày 27 tháng 4 năm 2024 và được đăng tải lúc 11:55 AM EST.
- Người dùng có thể đăng ký để nhận thông tin và đồng ý với các Điều khoản Sử dụng và Chính sách của trang web.
- Có quyền hủy đăng ký bất cứ lúc nào theo quy định của trang web.
- Sự phát triển này đánh dấu một bước tiến mới trong lĩnh vực trí tuệ nhân tạo, với sự tham gia của các công ty đến từ Trung Quốc.
- SenseNova 5.0 có thể mở ra những cơ hội và ứng dụng mới trong tương lai, nhờ vào khả năng vượt trội so với các mô hình AI trước đây như GPT-4.

📌 SenseNova 5.0, mô hình AI của Trung Quốc, đã thiết lập một chuẩn mực mới trong ngành công nghiệp AI bằng cách vượt qua GPT-4. Với việc đào tạo trên hơn 10TB dữ liệu token, mô hình này không chỉ chứng tỏ sức mạnh vượt trội mà còn hứa hẹn sẽ mở ra những khả năng ứng dụng mới mẻ và đột phá trong tương lai.

Citations:
[1] https://interestingengineering.com/innovation/china-sensenova-outperforms-gpt-4

Snowflake ra mắt Arctic LLM - mô hình AI tạo sinh dành riêng cho doanh nghiệp

- Snowflake, công ty điện toán đám mây, giới thiệu Arctic LLM - mô hình AI tạo sinh cấp doanh nghiệp.
- Arctic LLM là bước đầu tiên của Snowflake vào lĩnh vực AI tạo sinh, được phát triển dành riêng cho khối lượng công việc doanh nghiệp.
- Mô hình được tối ưu hóa để tạo mã cơ sở dữ liệu, có sẵn theo giấy phép Apache 2.0 và miễn phí cho nghiên cứu và sử dụng thương mại.
- CEO Sridhar Ramaswamy cho biết Arctic LLM sẽ là nền tảng để Snowflake và khách hàng xây dựng các sản phẩm cấp doanh nghiệp và khai thác tiềm năng của AI.
- Thị trường mô hình AI tạo sinh đang bão hòa với nhiều mô hình mới được phát hành thường xuyên để tạo sự phấn khích và đóng vai trò là điểm vào hệ sinh thái sản phẩm của các nhà cung cấp.
- Arctic LLM nối tiếp các mô hình tập trung vào doanh nghiệp khác như DBRX của Databricks.

📌 Snowflake gia nhập thị trường AI tạo sinh với Arctic LLM - mô hình dành riêng cho doanh nghiệp, tối ưu tạo mã cơ sở dữ liệu, miễn phí nghiên cứu và thương mại. CEO kỳ vọng Arctic LLM sẽ là nền tảng để Snowflake và khách hàng xây dựng sản phẩm cấp doanh nghiệp, khai thác tiềm năng AI.

Citations:
[1] https://techcrunch.com/2024/04/24/snowflake-releases-a-flagship-generative-ai-model-of-its-own/

Cổ phiếu SenseTime bứt phá 34% nhờ ra mắt AI tạo sinh SenseNova 5.0 vượt mặt GPT-4

- SenseTime Group, gã khổng lồ AI của Trung Quốc, ghi nhận cổ phiếu tăng vọt lên 34,42% sau khi công bố mô hình AI tạo sinh (GAI) mới nhất SenseNova 5.0.

- Theo tuyên bố của công ty, SenseNova 5.0 có những cải tiến về khả năng tri thức, toán học, lập luận và lập trình, vượt trội hơn GPT-4 của OpenAI trong nhiều tình huống sử dụng, đặc biệt là ứng dụng doanh nghiệp và ngữ cảnh tiếng Trung.

- Chủ tịch Xu Li khẳng định với cùng lượng tri thức đầu vào, SenseNova 5.0 có khả năng hiểu, tóm tắt và trả lời vượt trội, hỗ trợ mạnh mẽ cho các ngành dọc như giáo dục và sáng tạo nội dung.

- Các gã khổng lồ công nghệ khác của Trung Quốc như Alibaba, Baidu cũng đang phát triển nền tảng GenAI riêng như Tongyi Qianwen, Ernie Bot để cạnh tranh với ChatGPT của OpenAI.

- Cổ phiếu SenseTime tăng mạnh phản ánh niềm tin của nhà đầu tư vào đột phá công nghệ mới nhất của công ty. Ngành công nghiệp AI Trung Quốc tiếp tục đổi mới và cạnh tranh trên đấu trường toàn cầu.

📌 SenseTime gây chấn động thị trường với mô hình AI tạo sinh SenseNova 5.0, được Chủ tịch Xu Li khẳng định vượt trội hơn GPT 4 của OpenAI trong nhiều tình huống sử dụng, đặc biệt là ứng dụng doanh nghiệp và ngữ cảnh tiếng Trung.. Cổ phiếu công ty tăng vọt 34,42%, cho thấy kỳ vọng lớn của giới đầu tư vào cuộc đua AI tạo sinh đang nóng lên ở Trung Quốc với sự góp mặt của các ông lớn Alibaba, Baidu.

Citations:
[1] https://www.cnbc.com/2024/04/24/sensetime-shares-soar-after-announcing-sensenova-5point0-generative-ai-model.html

Amazon Bedrock: Nền tảng AI tạo sinh mới trên cloud của Amazon

• Amazon đã công bố Bedrock, một nền tảng AI tạo sinh mới cho điện toán đám mây của họ.

• Bedrock cung cấp các dịch vụ AI tạo sinh như trợ lý ảo, tóm tắt văn bản và hình ảnh.

• Nó sử dụng mô hình ngôn ngữ lớn được đào tạo bởi Amazon và có thể được tùy chỉnh cho các trường hợp sử dụng cụ thể.

• Bedrock hỗ trợ nhiều ngôn ngữ và có thể được triển khai trên các dịch vụ đám mây khác nhau của Amazon.

• Nó cạnh tranh với các nền tảng AI tạo sinh khác như OpenAI, Google AI và Microsoft.

• Giá cả của Bedrock dựa trên số lượng văn bản được xử lý và tính năng được sử dụng.

• Amazon cho biết Bedrock sẽ giúp các doanh nghiệp tận dụng lợi thế của AI tạo sinh một cách dễ dàng và an toàn hơn.

 

📌 Amazon Bedrock là nền tảng AI tạo sinh mới cho điện toán đám mây, cung cấp trợ lý ảo, tóm tắt văn bản và hình ảnh với mô hình ngôn ngữ lớn đa ngôn ngữ, có thể tùy chỉnh và triển khai trên nhiều dịch vụ đám mây.

 

Citations:

[1] https://venturebeat.com/ai/amazon-bedrock-continues-to-lay-down-generative-ai-foundation-for-the-cloud/

Nigeria ra mắt mô hình ngôn ngữ lớn đa ngôn ngữ đầu tiên ở châu phi

- Chính phủ Nigeria, thông qua Bộ Truyền thông, Đổi mới và Kinh tế Kỹ thuật số, đã ra mắt mô hình ngôn ngữ lớn (LLM) đa ngôn ngữ đầu tiên của Nigeria.
- Việc ra mắt LLM xuất phát từ một hội thảo AI kéo dài 4 ngày được tổ chức tại thủ đô Abuja của Nigeria vào tuần trước.
- Việc ra mắt công cụ AI được thực hiện thông qua sự hợp tác giữa công ty AI Nigeria Awarritech, công ty công nghệ toàn cầu DataDotOrg, Cơ quan Phát triển Công nghệ Thông tin Quốc gia (NITDA) và Trung tâm Quốc gia về AI và Robotics (NCAIR).
- LLM sẽ được đào tạo bằng 5 ngôn ngữ tài nguyên thấp và tiếng Anh có trọng âm để đảm bảo sự đại diện ngôn ngữ mạnh mẽ hơn trong các bộ dữ liệu hiện có phục vụ phát triển các giải pháp trí tuệ nhân tạo.
- Dự án cũng sẽ được hỗ trợ bởi hơn 7.000 nghiên cứu sinh từ chương trình 3MTT Nigeria.
- Nigeria đã sản xuất bản thảo đầu tiên của Chiến lược AI Quốc gia và công bố những tiến bộ đáng kể cũng như hợp tác nhằm thúc đẩy sự phát triển AI của đất nước.
- Có sự hợp tác giữa 21st Century Technologies, Galaxy Backbone và NCAIR Nigeria để đẩy nhanh tiến độ của các dự án AI quan trọng đối với quốc gia. 
- 21st Century Technology sẽ tài trợ mua GPU để tăng cường năng lực tính toán quốc gia, hỗ trợ các nhà nghiên cứu, startup và cơ quan chính phủ địa phương trong các dự án AI tại Trung tâm Dữ liệu GBB ở FCT.
- Bộ trưởng cũng thông báo về việc tái khởi động NCAIR, một tổ chức chuyên biệt được thành lập để thúc đẩy phát triển AI.

📌 Nigeria đã ra mắt mô hình ngôn ngữ lớn đa ngôn ngữ đầu tiên ở châu Phi với sự hợp tác của nhiều tổ chức như Awarritech, DataDotOrg, NITDA và NCAIR. Dự án này sẽ được hỗ trợ bởi hơn 7.000 nghiên cứu sinh và đầu tư vào cơ sở hạ tầng như GPU để thúc đẩy phát triển AI, đưa Nigeria trở thành quốc gia dẫn đầu về AI tại châu Phi.

Citations:
[1] https://cointelegraph.com/news/nigeria-launches-first-multilingual-large-language-model-in-africa

Mark Zuckerberg: Vòng lặp phản hồi và dữ liệu tổng hợp mới là chìa khóa cho sự phát triển của AI, không phải bộ dữ liệu khổng lồ

- Mark Zuckerberg, CEO của Meta, cho rằng vòng lặp phản hồi và dữ liệu tổng hợp sẽ là yếu tố quyết định trong việc phát triển AI, thay vì chỉ dựa vào một bộ dữ liệu ban đầu lớn.
- Vòng lặp phản hồi giúp cải thiện và nâng cao mô hình AI bằng cách cung cấp thông tin hiệu chỉnh dựa trên kết quả đầu ra trước đó, giúp AI học hỏi từ sai lầm và thích nghi để cải thiện hiệu suất trong tương lai.
- Các công ty hàng đầu trong lĩnh vực AI như OpenAI, Google, Amazon, Meta đang tìm kiếm các phương pháp phi truyền thống để có được dữ liệu, như Meta từng cân nhắc mua lại nhà xuất bản Simon & Schuster và thậm chí chấp nhận rủi ro bị kiện vi phạm bản quyền.
- Dữ liệu tổng hợp, được tạo ra nhân tạo và mô phỏng dữ liệu thế giới thực, là một giải pháp thay thế cho sự thiếu hụt dữ liệu. Zuckerberg ủng hộ cách tiếp cận này.
- Anthropic, nhà phát triển chatbot Claude, đã thử nghiệm sử dụng dữ liệu nội bộ tự tạo cho các mô hình của mình. OpenAI, nhà phát triển ChatGPT, cũng đang cân nhắc phương pháp này, nhưng CEO Sam Altman nhấn mạnh tầm quan trọng của việc có một mô hình đủ thông minh để tạo ra dữ liệu tổng hợp chất lượng cao.
- Mặc dù Zuckerberg coi vòng lặp phản hồi là nền tảng để xây dựng các mô hình AI mạnh mẽ, nhưng việc phụ thuộc vào chúng có thể gây ra những rủi ro tiềm ẩn như duy trì lỗi hoặc tạo ra nội dung sai lệch.

📌 Mark Zuckerberg tin rằng vòng lặp phản hồi và dữ liệu tổng hợp sẽ là yếu tố then chốt trong phát triển AI, thay vì chỉ dựa vào bộ dữ liệu ban đầu khổng lồ. Các công ty hàng đầu đang tìm cách bổ sung dữ liệu bằng nhiều phương pháp, trong đó dữ liệu tổng hợp được coi là giải pháp tiềm năng. Tuy nhiên, việc phụ thuộc vào vòng lặp phản hồi cũng tiềm ẩn rủi ro.

Citations:
[1] https://www.businessinsider.com/mark-zuckerberg-meta-ai-model-training-synthetic-data-feedback-loops-2024-4

Khám phá Ernie Bot - mô hình ngôn ngữ lớn và công cụ AI tạo sinh do Baidu phát triển, chuyên về tiếng Trung

- Ernie Bot là một công cụ AI tạo sinh và mô hình ngôn ngữ lớn do Baidu phát triển, chuyên biệt cho ngôn ngữ Trung Quốc.
- Baidu tự hào rằng phản hồi từ Ernie Bot "tiệm cận mức độ của con người".
- Trong hội nghị phát triển viên gần đây tại Shenzhen, Trung Quốc, Baidu công bố Ernie đã thu hút 200 triệu người dùng chỉ trong vòng 8 tháng.
- Sự tăng trưởng nhanh chóng của Ernie được cho là do điều kiện thị trường độc đáo tại Trung Quốc, nơi các công cụ AI tạo sinh như ChatGPT, Gemini và Copilot không có mặt do hạn chế của chính phủ.
- Ernie 3.5 được Baidu tuyên bố vượt trội hơn GPT-4 trong nhiều khả năng ngôn ngữ Trung Quốc, mặc dù không có so sánh trực tiếp về độ phủ.
- Giám đốc công nghệ toàn cầu của Momentum Worldwide, Jason Alan Snyder, mô tả Ernie là một "cột mốc quan trọng trong phát triển AI của Trung Quốc".
- Ernie đối mặt với các thách thức tương tự như các chatbot ở Mỹ bao gồm ảo giác, vấn đề bảo mật và quyền riêng tư, vi phạm bản quyền, vấn đề đạo đức và thiên vị, và deepfakes.
- Một thách thức thêm cho các chatbot tại Trung Quốc là kiểm duyệt của chính phủ, điều này có thể làm trầm trọng thêm vấn đề thiên vị của chatbot.

📌 Ernie Bot của Baidu, một công cụ AI tạo sinh chuyên biệt cho tiếng Trung, đã đạt 200 triệu người dùng trong 8 tháng. Sự phát triển nhanh chóng này phản ánh nhu cầu lớn tại Trung Quốc, nơi các công cụ tương tự như ChatGPT không có mặt do hạn chế của chính phủ. Ernie cũng đối mặt với các thách thức về bảo mật, quyền riêng tư và thiên vị, được làm trầm trọng thêm bởi kiểm duyệt của chính phủ.

Citations:
[1] https://www.cnet.com/tech/bot-and-ernie-everything-you-need-to-know-about-chinas-chatgpt-equivalent/

Mô hình ngôn ngữ lớn 1 bit BitNet 1.58 của Microsoft Research với hiệu năng vượt trội

- BitNet 1.58 là mô hình ngôn ngữ lớn (LLM) 1 bit đột phá được phát triển bởi Microsoft Research.
- Mô hình sử dụng hệ thống tham số tam phân, cho phép mỗi tham số có giá trị -1, 0 hoặc 1.
- BitNet 1.58 có hiệu suất tương đương với các mô hình transformer chính xác đầy đủ trong khi giảm đáng kể độ trễ, sử dụng bộ nhớ và tiêu thụ năng lượng.
- Khả năng hoạt động hiệu quả với ít bit cho mỗi tham số hơn thách thức quan niệm rằng cần tính toán chính xác cao để mô hình hóa ngôn ngữ chính xác.
- BitNet 1.58 mở đường cho các phương pháp phát triển và triển khai LLM hiệu quả hơn.
- Mô hình có khả năng thích ứng và triển khai tại chỗ, giúp đơn giản hóa việc áp dụng LLM trong các tình huống thực tế.

📌 BitNet 1.58 của Microsoft Research là bước tiến quan trọng trong công nghệ LLM với hệ thống tam phân hiệu quả, hiệu suất tương đương transformer chính xác đầy đủ, tiềm năng triển khai tại chỗ, mở ra hướng đi mới cho phát triển LLM hiệu quả và khả thi hơn.

Citations:
[1] https://www.geeky-gadgets.com/1-bit-large-language-models/

Ernie Bot của Baidu cán mốc 200 triệu người dùng, ra mắt 3 công cụ phát triển AI mới

- Robin Li, CEO và đồng sáng lập Baidu, thông báo tại hội nghị AI Create ở Thâm Quyến rằng chatbot Ernie Bot đã đạt hơn 200 triệu người dùng.
- Baidu sẽ tổ chức thêm một vòng thi phát triển AI với giải thưởng 50 triệu nhân dân tệ (7 triệu USD). 
- Hội nghị có khoảng 5.000 người tham dự.
- Li giới thiệu 3 công cụ phát triển mới: AgentBuilder, AppBuilder và ModelBuilder, giúp tạo và tích hợp chatbot AI với tìm kiếm web của Baidu hoặc phát triển ứng dụng không cần kiến thức lập trình.
- Ernie Bot ra mắt hơn một năm trước và được Bắc Kinh phê duyệt sử dụng công khai từ tháng 8/2023. 
- Ernie được tích hợp trên một số thiết bị di động của Samsung và Honor.
- Tính đến tháng 12/2023, khoảng 26.000 doanh nghiệp sử dụng Ernie hàng tháng, xử lý hơn 50 triệu truy vấn mỗi ngày.
- Li cho biết đóng góp doanh thu từ AI sẽ trở nên đáng kể hơn vào năm 2024, trong khi hoạt động cốt lõi vẫn mạnh mẽ. 
- Các biện pháp kiểm soát xuất khẩu của Mỹ đã hạn chế việc Trung Quốc tiếp cận chip bán dẫn cao cấp.
- Li nói rằng dự trữ chip AI của Baidu sẽ cho phép họ tiếp tục cải tiến Ernie trong 1-2 năm tới.
- Thị trường AI của Trung Quốc, chủ yếu gồm phần cứng, phần mềm và dịch vụ, dự kiến sẽ vượt 26 tỷ USD vào năm 2026, tăng từ khoảng 15 tỷ USD năm ngoái.

📌 Chatbot Ernie Bot của Baidu đã vượt mốc 200 triệu người dùng, xử lý hơn 50 triệu truy vấn mỗi ngày. Tại hội nghị AI Create, Baidu ra mắt 3 công cụ phát triển AI mới và tổ chức cuộc thi với giải thưởng 50 triệu nhân dân tệ. Doanh thu từ AI của Baidu dự kiến sẽ tăng mạnh vào năm 2024, trong khi thị trường AI Trung Quốc ước tính đạt 26 tỷ USD vào năm 2026.

Citations:
[1] https://www.cnbc.com/2024/04/16/baidu-says-its-chatgpt-like-ernie-bot-exceeds-200-million-users.html

reka core - mô hình ngôn ngữ đa phương thức mới, sẵn sàng cạnh tranh với gpt-4 và claude 3 opus

- Reka, một công ty AI từ cốt lõi, vừa phát hành mô hình ngôn ngữ đa phương thức Reka Core.
- Reka Core có khả năng xử lý văn bản, hình ảnh và video, tương tự như GPT-4 và Claude 3 Opus.
- Mô hình này được huấn luyện trên 20 triệu tài liệu, 20 triệu hình ảnh và 20 triệu video, tạo ra khả năng Multimodal vượt trội.
- Reka Core sử dụng kiến trúc Transformer và kỹ thuật tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (retrieval augmented generation) để cải thiện hiệu suất.
- Mô hình có thể trả lời các câu hỏi, tóm tắt văn bản, phân tích hình ảnh và video, và thực hiện nhiều tác vụ khác.
- Reka Core được đánh giá cao về khả năng sáng tạo, khả năng thích ứng và hiệu quả trong việc xử lý dữ liệu Multimodal.
- Công ty dự định cung cấp quyền truy cập vào Reka Core thông qua API và giao diện web trong tương lai gần.
- Reka cũng đang phát triển các công cụ và framework để giúp các nhà phát triển tích hợp Reka Core vào ứng dụng của họ.
- Việc phát hành Reka Core đánh dấu một bước tiến quan trọng trong lĩnh vực AI, mở ra nhiều khả năng ứng dụng mới.
- Reka cam kết phát triển AI một cách có trách nhiệm và minh bạch, tuân thủ các nguyên tắc đạo đức trong quá trình phát triển Reka Core.

📌 Reka Core, mô hình ngôn ngữ đa phương thức mới từ công ty Reka, hứa hẹn cạnh tranh với GPT-4 và Claude 3 Opus nhờ khả năng xử lý 20 triệu tài liệu, 20 triệu hình ảnh và 20 triệu video. Với kiến trúc Transformer và kỹ thuật RAG, Reka Core mở ra nhiều ứng dụng tiềm năng, đồng thời thể hiện cam kết phát triển AI có trách nhiệm của Reka.

Citations:
[1] https://venturebeat.com/ai/reka-releases-reka-core-its-multimodal-language-model-to-rival-gpt-4-and-claude-3-opus/

hplt datasets v1.2: dữ liệu văn bản đơn ngữ khổng lồ cho 75 ngôn ngữ

- HPLT Datasets v1.2 cung cấp dữ liệu văn bản đơn ngữ cho 75 ngôn ngữ, bao gồm các phiên bản thô, loại bỏ trùng lặp và làm sạch.

- Tổng cộng có 22 TB dữ liệu thô, 11 TB dữ liệu loại bỏ trùng lặp và 8.4 TB dữ liệu sạch, được cung cấp ở định dạng JSONL nén bằng zstd.

- Dữ liệu được chia thành nhiều phần nhỏ, mỗi phần vài GB. Số lượng phần cho mỗi ngôn ngữ phụ thuộc vào kích thước của kho ngữ liệu cụ thể.

- Mỗi dòng trong tệp JSONL là một giá trị JSON hợp lệ và một tài liệu đầy đủ với siêu dữ liệu.

- Trang web cung cấp các lệnh wget để tải xuống dữ liệu cho từng ngôn ngữ hoặc toàn bộ dữ liệu từ các phiên bản thô, loại bỏ trùng lặp hoặc làm sạch.

- Một số ví dụ về quy mô dữ liệu: Tiếng Anh có 1.08 tỷ tài liệu và 432.88 tỷ từ trong phiên bản sạch. Tiếng Ả Rập có 26.80 triệu tài liệu và 28.41 tỷ từ trong phiên bản sạch.

 

📌 HPLT Datasets v1.2 là một nguồn tài nguyên dữ liệu văn bản đơn ngữ khổng lồ cho 75 ngôn ngữ, với tổng cộng 22 TB dữ liệu thô, 11 TB dữ liệu loại bỏ trùng lặp và 8.4 TB dữ liệu sạch ở định dạng JSONL. Bộ dữ liệu này hứa hẹn thúc đẩy các công nghệ ngôn ngữ hiệu suất cao.

 

Citations:

[1] HPLT Datasets v1.2 https://hplt-project.org/datasets/v1.2

 

Ola Krutrim làm nên lịch sử với cơ sở hạ tầng đám mây nội bộ, bỏ qua AWS và Azure

- Bhavish Aggarwal, giám đốc điều hành của Ola, thông báo rằng Krutrim đã đạt được bước đột phá lớn và đang chạy trên cơ sở hạ tầng đám mây của riêng mình, không sử dụng bất kỳ nhà cung cấp đám mây nào như AWS hay Azure.
- Gần đây, Intel cũng thông báo rằng Ola Krutrim đang sử dụng các cụm Intel Gaudi 2 để tiền huấn luyện và tinh chỉnh các mô hình nền tảng với khả năng tạo sinh bằng 10 ngôn ngữ, đạt được tỷ lệ giá/hiệu suất dẫn đầu ngành so với các giải pháp thị trường hiện có.
- Krutrim hiện đang tiền huấn luyện một mô hình nền tảng lớn hơn trên cụm Intel Gaudi 2, tiếp tục nâng cao khả năng AI của mình.
- Krutrim công bố hợp tác với Databricks để cải thiện mô hình ngôn ngữ nền tảng, đặc biệt là cho các ngôn ngữ Ấn Độ, nhằm nâng cao các giải pháp AI tại Ấn Độ.
- Ola Krutrim đã khá ám ảnh với việc phát triển mô hình nền tảng của riêng mình từ đầu, bất chấp tin đồn rằng nó được xây dựng trên các mô hình tinh chỉnh như Llama-2, Mistral, Claude-3 hoặc thậm chí là DBRX mới nhất.
- Vào tháng 12 năm ngoái, giám đốc điều hành của Ola, Aggarwal, đã ra mắt Krutrim (có nghĩa là nhân tạo trong tiếng Sanskrit). Đây cũng được coi là giải pháp "AI full-stack đầu tiên của Ấn Độ".
- Aggarwal tuyên bố rằng Krutrim AI tốt hơn GPT-4 trong nhiều ngôn ngữ Ấn Độ khác nhau. Ông cho biết nó được huấn luyện trên 2 nghìn tỷ token và có thể hiểu hơn 20 ngôn ngữ Ấn Độ và tạo nội dung bằng khoảng 10 ngôn ngữ, bao gồm tiếng Marathi, Hindi, Bengali, Tamil, Kannada, Telugu, Odia, Gujarati và Malayalam.

📌 Ola Krutrim đã đạt được bước đột phá đáng kể khi chạy trên cơ sở hạ tầng đám mây nội bộ, không phụ thuộc vào AWS hay Azure. Krutrim cũng hợp tác với Intel và Databricks để cải thiện mô hình ngôn ngữ nền tảng, đặc biệt cho các ngôn ngữ Ấn Độ. Với khả năng hiểu hơn 20 ngôn ngữ và tạo nội dung bằng 10 ngôn ngữ, Krutrim được cho là vượt trội hơn GPT-4 trong lĩnh vực này.

Citations:
[1] https://analyticsindiamag.com/ola-krutrim-makes-history-with-in-house-cloud-infrastructure-skips-aws-and-azure/

Cohere đang trên đà phát triển mạnh mẽ với mô hình mới nhất Command R+, vượt qua GPT-4 trên bảng xếp hạng Arena

- Mô hình Command R+ mới nhất của Cohere đã vượt qua GPT-4 trên bảng xếp hạng Arena và hiện có sẵn trên HuggingChat.
- Cohere tập trung vào khách hàng doanh nghiệp thay vì chatbot giao tiếp với người tiêu dùng. COO Martin Kon khẳng định họ sẽ không bao giờ có chatbot tiêu tốn tiền mặt cho người dùng.
- Cohere cung cấp nhiều mô hình trong 3 hạng mục: Embed, Command và Rerank, có thể điều chỉnh theo nhu cầu cụ thể.
- Command R+ sẽ sớm có mặt trên Oracle Cloud Infrastructure, Microsoft Azure và Amazon Sagemaker. 
- Cohere độc lập với bất kỳ nhà cung cấp dịch vụ đám mây nào, cho phép triển khai mô hình trên mọi nền tảng đám mây, khác với OpenAI bị giới hạn trong Azure.
- Doanh thu của Cohere thấp hơn đáng kể so với đối thủ, nhưng đường ống bán hàng với các hợp đồng tiềm năng dự kiến đóng trước cuối năm 2024 trị giá hơn 300 triệu USD.
- Oracle ghi nhận doanh thu 13,3 tỷ USD trong quý 3/2024, tăng 7%. Họ cũng ký hợp đồng cơ sở hạ tầng đám mây thế hệ 2 lớn với NVIDIA.
- Oracle đang phát triển mạnh mẽ mảng kinh doanh cơ sở hạ tầng AI Gen2, bán hạ tầng để đào tạo các mô hình ngôn ngữ lớn.
- Oracle đang tái thiết kế hoàn toàn các ứng dụng chuyên biệt theo ngành để tận dụng tối đa AI tạo sinh.
- Oracle đã phát triển Trợ lý Kỹ thuật số Lâm sàng tự động tạo ghi chú của bác sĩ và cập nhật Hồ sơ Sức khỏe Điện tử, dự kiến ra mắt trong quý 4.

📌 Cohere đang nổi lên như một đối thủ đáng gờm trong lĩnh vực AI với mô hình Command R+ vượt trội, doanh thu bán hàng trị giá hơn 300 triệu USD và quan hệ hợp tác rộng rãi với các nền tảng đám mây. Trong khi đó, Oracle cũng đang đẩy mạnh đầu tư vào cơ sở hạ tầng AI, ký hợp đồng lớn với NVIDIA và phát triển các ứng dụng tận dụng AI tạo sinh như Trợ lý Kỹ thuật số Lâm sàng.

Citations:
[1] https://analyticsindiamag.com/the-secret-superstar-of-llms/

5 cải tiến hàng đầu của Vertex AI được tiết lộ tại Google Cloud Next

- Google Cloud giới thiệu Gemini 1.5 Pro preview, hỗ trợ cửa sổ ngữ cảnh lên đến 1 triệu token và xử lý luồng âm thanh cho phân tích đa phương thức.
- Vertex AI sẽ có Imagen 2 cải tiến với khả năng tạo ảnh động kéo dài 4 giây và công cụ chỉnh sửa ảnh nâng cao như tô màu và vẽ thêm.
- Tính năng Search-based grounding mới kết hợp đầu ra của các mô hình nền tảng với thông tin chất lượng cao từ Google Search để cải thiện độ hoàn thiện và chính xác của phản hồi.
- Công cụ MLOps mở rộng của Vertex AI bao gồm giải pháp quản lý và đánh giá prompt, giúp so sánh hiệu suất giữa các mô hình và đưa ra thông tin chi tiết về lý do đầu ra của mô hình này tốt hơn mô hình kia.
- Vertex AI Agent Builder cho phép xây dựng và triển khai các tác nhân AI tạo sinh cho các trường hợp sử dụng khác nhau, phù hợp với các nhà phát triển ở nhiều cấp độ kỹ năng khác nhau.
- Google mở rộng nỗ lực lưu trữ dữ liệu cục bộ với 11 quốc gia mới, nâng tổng số lên 21 quốc gia, giúp doanh nghiệp kiểm soát tốt hơn nơi lưu trữ và cách truy cập dữ liệu của họ.

📌 Google Cloud công bố nhiều cải tiến đáng chú ý cho Vertex AI tại Cloud Next 2024, bao gồm hỗ trợ mô hình mạnh mẽ hơn, khả năng tìm kiếm và nền tảng, công cụ MLOps và tùy chọn lưu trữ dữ liệu mở rộng, giúp nền tảng trở nên phù hợp hơn với các nhà phát triển có nhu cầu khác nhau. Google mở rộng nỗ lực lưu trữ dữ liệu cục bộ với 11 quốc gia mới, nâng tổng số lên 21 quốc gia, giúp doanh nghiệp kiểm soát tốt hơn nơi lưu trữ và cách truy cập dữ liệu của họ.

https://venturebeat.com/ai/top-5-vertex-ai-advancements-revealed-at-google-cloud-next/

Apple giới thiệu Ferret-UI: mô hình AI mới có thể hiểu màn hình chính và nâng cấp Siri

- Apple vừa công bố nghiên cứu về Ferret-UI, một mô hình ngôn ngữ lớn đa phương thức (MLLM) mới có khả năng hiểu các màn hình giao diện người dùng trên điện thoại di động.
- Ferret-UI được huấn luyện để nhận diện các thành phần khác nhau trên màn hình chính của người dùng, như biểu tượng ứng dụng và văn bản nhỏ, vốn là thách thức đối với các MLLM trước đây.
- Để khắc phục vấn đề, các nhà nghiên cứu đã thêm tính năng "độ phân giải bất kỳ" vào Ferret, cho phép nó phóng to chi tiết trên màn hình.
- Ferret-UI cũng có "khả năng tham chiếu, gắn kết và lập luận", giúp nó hiểu đầy đủ các màn hình giao diện người dùng và thực hiện các tác vụ khi được chỉ dẫn dựa trên nội dung trên màn hình.
- Trong các bài kiểm tra chuẩn, tác vụ cơ bản và nâng cao, Ferret-UI vượt trội hơn GPT-4V của OpenAI ở hầu hết các tác vụ, ngoại trừ tác vụ "tìm văn bản" trên iPhone.
- Tuy nhiên, GPT-4V có lợi thế nhỉnh hơn trong việc gắn kết cuộc trò chuyện dựa trên phát hiện từ giao diện người dùng, đạt 93.4% so với 91.7% của Ferret.
- Bài báo không đề cập đến kế hoạch của Apple trong việc tận dụng công nghệ này, mà chỉ nêu rộng rãi rằng các khả năng nâng cao của Ferret-UI có tiềm năng tác động tích cực đến các ứng dụng liên quan đến giao diện người dùng.
- Ferret-UI có thể được sử dụng để nâng cấp đáng kể trợ lý ảo Siri, giúp nó thực hiện các tác vụ cho người dùng nhờ sự hiểu biết sâu sắc về màn hình ứng dụng và kiến thức về cách thực hiện một số tác vụ nhất định.

📌Apple vừa công bố nghiên cứu về Ferret-UI, một mô hình ngôn ngữ lớn đa phương thức (MLLM) mới có khả năng hiểu các màn hình giao diện người dùng trên điện thoại di động. Trong các bài kiểm tra chuẩn, tác vụ cơ bản và nâng cao, Ferret-UI vượt trội hơn GPT-4V của OpenAI ở hầu hết các tác vụ, ngoại trừ tác vụ "tìm văn bản" trên iPhone.Với khả năng vượt trội so với các mô hình khác, Ferret-UI có tiềm năng nâng tầm trợ lý ảo Siri, biến nó thành một trợ lý thông minh hơn, có thể chủ động thực hiện nhiều tác vụ cho người dùng.

https://www.zdnet.com/article/apples-new-ai-model-can-understand-your-home-screen-and-supercharge-siri/

Google Gemini 1.5 Pro nghe, hiểu âm thanh, vượt Gemini Ultra

Meta descriptions (in Vietnamese):
- Google ra mắt Gemini 1.5 Pro với khả năng nghe và hiểu âm thanh, cung cấp thông tin từ các tệp âm thanh tải lên mà không cần tham chiếu đến bản ghi âm.
- Gemini 1.5 Pro vượt trội hơn cả mô hình Gemini Ultra về hiệu suất, có thể hiểu các chỉ dẫn phức tạp và loại bỏ nhu cầu tinh chỉnh mô hình.

Meta keywords (in Vietnamese):
Google Gemini 1.5 Pro, khả năng nghe âm thanh, Vertex AI, Gemini Ultra, Imagen 2, inpainting, outpainting, SynthID, thủy vân kỹ thuật số, Stable Cascade, Generative AI by iStock

Interesting and shocked SEO title (in Vietnamese):
Google Gemini 1.5 Pro "mọc tai", vượt mặt cả Gemini Ultra

- Google vừa cập nhật Gemini 1.5 Pro, giúp mô hình này có khả năng nghe và hiểu âm thanh từ các tệp tải lên như các cuộc gọi thu nhập hay video mà không cần bản ghi âm.
- Gemini 1.5 Pro được công bố lần đầu vào tháng 2, giờ đã vượt trội hơn cả mô hình Gemini Ultra về hiệu suất dù chỉ là phiên bản "trung bình" trong dòng Gemini.
- Mô hình mới có thể hiểu các chỉ dẫn phức tạp và loại bỏ nhu cầu tinh chỉnh, nhưng hiện chỉ có sẵn trên nền tảng Vertex AI của Google chứ chưa phổ biến rộng rãi.
- Imagen 2, mô hình tạo ảnh từ văn bản của Google, cũng được bổ sung tính năng inpainting và outpainting để chỉnh sửa ảnh, cùng công cụ thủy vân kỹ thuật số SynthID đánh dấu nguồn gốc ảnh.
- Nhiều tính năng mới của Imagen đã có mặt trên các mô hình tạo ảnh khác như Stable Cascade của Stability AI hay Generative AI by iStock của Getty.
- Google cũng đang thử nghiệm công khai cách kết nối các phản hồi của AI với Google Search để cung cấp thông tin cập nhật, tuy nhiên vẫn hạn chế Gemini trả lời các câu hỏi liên quan đến bầu cử Mỹ 2024.

📌 Gemini 1.5 Pro của Google đã có bước tiến mới với khả năng nghe hiểu âm thanh, vượt trội hơn cả mô hình Gemini Ultra. Tuy nhiên, phiên bản này mới chỉ có trên nền tảng Vertex AI. Imagen 2 cũng được nâng cấp với các tính năng chỉnh sửa ảnh và thủy vân kỹ thuật số, tương tự nhiều mô hình tạo ảnh khác trên thị trường. Google đang thử nghiệm kết nối AI với công cụ tìm kiếm để cung cấp thông tin cập nhật, song vẫn hạn chế trả lời về bầu cử Mỹ 2024.

https://www.theverge.com/2024/4/9/24124741/google-gemini-pro-imagen-updates-vertex

bộ mô hình ngôn ngữ mở đa dạng cho các ngôn ngữ Đông Nam Á, từ 0.5B đến 7B tham số

- Sailor là một họ các mô hình ngôn ngữ mở với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho sự đa dạng ngôn ngữ của khu vực Đông Nam Á (SEA).
- Các mô hình Sailor dựa trên mô hình ngôn ngữ linh hoạt Qwen1.5 và được tiền huấn luyện liên tục trên một kho ngữ liệu lớn gồm 200B đến 400B token.
- Phần lớn kho ngữ liệu bao gồm tiếng Anh, tiếng Trung, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai và tiếng Lào.
- Quy trình huấn luyện sử dụng nhiều chiến lược như BPE dropout để tăng cường khả năng tổng quát hóa của mô hình và giảm thiểu vấn đề quá khớp.
- Các quy trình khử trùng lặp và làm sạch dữ liệu nghiêm ngặt được áp dụng để đảm bảo chất lượng của tập huấn luyện, từ đó cải thiện hiệu suất tổng thể của các mô hình Sailor.
- Tỷ lệ kết hợp dữ liệu huấn luyện được tối ưu hóa bằng cách sử dụng các mô hình proxy nhỏ, cho phép điều chỉnh siêu tham số và nâng cao hiệu quả của quá trình huấn luyện.
- Các thử nghiệm trên nhiều tác vụ như kiểm tra, trả lời câu hỏi, đọc hiểu và suy luận thông thường đã chứng minh tính mạnh mẽ và hữu ích của các mô hình Sailor so với các tiêu chuẩn đa dạng.
- Nghiên cứu trình bày một phương pháp toàn diện để phát triển các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả trong sự đa dạng ngôn ngữ của khu vực SEA.

📌 Sailor là một bộ mô hình ngôn ngữ mở đầy hứa hẹn với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho các ngôn ngữ Đông Nam Á. Dựa trên Qwen1.5 và được tiền huấn luyện trên kho ngữ liệu 200B-400B token, Sailor đạt hiệu suất vượt trội trên nhiều tác vụ nhờ các kỹ thuật như BPE dropout, làm sạch dữ liệu và tối ưu hóa tỷ lệ kết hợp dữ liệu huấn luyện.

https://www.marktechpost.com/2024/04/09/meet-sailor-a-family-of-open-language-models-ranging-from-0-5b-to-7b-parameters-for-southeast-asian-sea-languages/

https://arxiv.org/abs/2404.03608

AnythingLLM: Ứng dụng AI nguồn mở tích hợp chatbot tài liệu và mô hình ngôn ngữ lớn

- AnythingLLM là ứng dụng nguồn mở toàn diện giúp doanh nghiệp tương tác với tài liệu thông qua công nghệ chatbot.
- Ứng dụng cho phép triển khai các phiên bản ChatGPT riêng tư, tích hợp với các mô hình ngôn ngữ lớn thương mại hoặc nguồn mở phổ biến.
- Người dùng có thể tạo và quản lý các không gian làm việc riêng biệt, mỗi không gian chứa một tập hợp tài liệu.
- AnythingLLM hỗ trợ đa người dùng với quyền truy cập chi tiết, đảm bảo an toàn thông tin.
- Tích hợp widget chat tùy chỉnh trên website, tăng tương tác người dùng.
- Hỗ trợ nhiều định dạng tài liệu như PDF, DOCX.
- Giao diện thân thiện giúp quản lý tài liệu hiệu quả, tích hợp với cơ sở dữ liệu vector.
- Hai chế độ hội thoại và truy vấn phù hợp với nhu cầu sử dụng.
- Trích dẫn trong hội thoại tăng độ tin cậy và minh bạch.
- Sẵn sàng triển khai trên đám mây, đảm bảo khả năng mở rộng.
- Hỗ trợ nhiều mô hình ngôn ngữ lớn, cho phép người dùng tùy chỉnh trải nghiệm hội thoại.
- Tối ưu hóa chi phí xử lý tài liệu.
- API thân thiện với nhà phát triển, mở ra nhiều khả năng tùy chỉnh.

📌 AnythingLLM là giải pháp chatbot tài liệu đa năng, hiệu quả và thân thiện với nhà phát triển. Với nhiều tính năng, hỗ trợ đa dạng mô hình ngôn ngữ lớn và khả năng tích hợp liền mạch, AnythingLLM giúp doanh nghiệp khai thác tối đa tiềm năng của tài liệu thông qua hội thoại dựa trên AI.

https://www.marktechpost.com/2024/04/07/meet-anythingllm-an-open-source-all-in-one-ai-desktop-app-for-local-llms-rag/

HyperCLOVA X: Mô hình ngôn ngữ đa ngôn ngữ của NAVER Cloud cho tiếng Hàn và văn hóa Hàn Quốc

- Các nhà nghiên cứu từ NAVER Cloud giới thiệu HyperCLOVA X, tập trung vào tiếng Hàn và văn hóa Hàn Quốc trong khi duy trì thành thạo tiếng Anh và lập trình.
- Sự đổi mới nằm ở sự cân bằng dữ liệu tiếng Hàn, tiếng Anh và mã lập trình, được tinh chỉnh thông qua hướng dẫn trên các bộ dữ liệu chú thích bởi con người chất lượng cao dưới các nguyên tắc an toàn nghiêm ngặt.
- Phương pháp của HyperCLOVA X tích hợp các cải tiến kiến trúc transformer, cụ thể là nhúng vị trí quay và tập trung vào truy vấn theo nhóm, để mở rộng hiểu biết ngữ cảnh và sự ổn định đào tạo. 
- Mô hình trải qua Tinh chỉnh có giám sát (SFT) sử dụng các bộ dữ liệu minh họa được chú thích bởi con người, tiếp theo là Học tăng cường từ phản hồi của con người (RLHF) để sắp xếp đầu ra phù hợp với các giá trị của con người.
- HyperCLOVA X đạt độ chính xác 72,07% trong các điểm chuẩn tiếng Hàn toàn diện, vượt qua các tiền nhiệm và thiết lập tiêu chuẩn mới cho việc hiểu ngôn ngữ tiếng Hàn. Nó đạt tỷ lệ chính xác 58,25% trong các tác vụ lập luận tiếng Anh.
- HyperCLOVA X thể hiện tính linh hoạt trong các thử thách lập trình bằng cách đạt tỷ lệ thành công 56,83%, thể hiện sự thành thạo trong các tác vụ ngôn ngữ và đánh giá lập trình kỹ thuật.

📌 HyperCLOVA X của NAVER Cloud đạt được hiểu biết ngôn ngữ và điểm chuẩn lập trình đáng kể với độ chính xác 72,07% cho tiếng Hàn, 58,25% cho tiếng Anh và tỷ lệ thành công 56,83% trong lập trình. Mô hình tích hợp kiến trúc transformer tiên tiến và học liệu, đồng thời chú trọng đến an toàn và đạo đức, thúc đẩy đáng kể khả năng thích ứng ngôn ngữ và văn hóa của AI.

https://www.marktechpost.com/2024/04/06/naver-cloud-researchers-introduce-hyperclova-x-a-multilingual-language-model-tailored-to-korean-language-and-culture/

OpenAI ra mắt công cụ tinh chỉnh AI mới: 'phần lớn các tổ chức sẽ phát triển các mô hình tùy chỉnh'

- OpenAI công bố cải tiến đáng kể cho API tinh chỉnh và mở rộng chương trình mô hình tùy chỉnh.
- Các cập nhật cho phép nhà phát triển kiểm soát tốt hơn việc tinh chỉnh mô hình AI và xây dựng mô hình tùy chỉnh phù hợp với nhu cầu kinh doanh.
- API tinh chỉnh GPT-3.5 đã giúp hàng nghìn tổ chức tinh chỉnh hàng trăm nghìn mô hình cho nhiều ứng dụng khác nhau.
- Cải tiến API bao gồm tạo checkpoint theo epoch, giảm thiểu nhu cầu đào tạo lại và hạn chế rủi ro overfitting.
- Giao diện Playground mới cho phép so sánh kết quả mô hình, tích hợp bên thứ ba bắt đầu với Weights and Biases.
- Chương trình Mô hình Tùy chỉnh mở rộng bao gồm hỗ trợ tinh chỉnh và phát triển mô hình đào tạo hoàn toàn tùy chỉnh.
- SK Telecom đã cải thiện đáng kể hiệu suất dịch vụ khách hàng nhờ tinh chỉnh có hỗ trợ.
- Harvey, công cụ AI dành cho luật sư, hợp tác với OpenAI để phát triển mô hình tùy chỉnh cải thiện độ chính xác và độ tin cậy của phân tích án lệ.
- OpenAI tin rằng trong tương lai, phần lớn các tổ chức sẽ phát triển các mô hình tùy chỉnh phù hợp với ngành, doanh nghiệp hoặc trường hợp sử dụng của họ.

📌 OpenAI đã ra mắt các cải tiến đáng kể cho API tinh chỉnh và mở rộng chương trình mô hình tùy chỉnh, cho phép các tổ chức phát triển AI phù hợp với nhu cầu riêng. Với hàng nghìn tổ chức đã tinh chỉnh hàng trăm nghìn mô hình, OpenAI tin rằng tương lai thuộc về AI cá nhân hóa, nơi mô hình tùy chỉnh trở thành chuẩn mực.

https://venturebeat.com/ai/openai-releases-new-ai-fine-tuning-tools-vast-majority-of-organizations-will-develop-customized-models/

Kỷ nguyên ô nhiễm LLM: quá nhiều mô hình, quá ít ứng dụng

- Hiện nay, số lượng mô hình ngôn ngữ lớn (LLM) đang vượt xa số lượng các ứng dụng và tiện ích mở rộng dựa trên chúng.
- Các mô hình này có kích thước đa dạng, từ khiêm tốn đến đồ sộ, nhưng chỉ một số ít công ty thực sự có thể xây dựng được ứng dụng hữu hình từ chúng.
- Ví dụ, có hàng trăm nghìn mô hình ngôn ngữ trên Hugging Face Leaderboard, nhưng mọi người chỉ thử nghiệm khả năng của chúng rồi chuyển sang mô hình mới nhất.
- Falcon, một trong những mô hình nguồn mở lớn nhất, khi ra mắt đã được nhiều nhà phát triển thử nghiệm và ca ngợi, nhưng sau đó họ nhận ra Llama 2 của Meta tốt hơn nhiều.
- Sự dư thừa của các mô hình ngôn ngữ nền tảng mà không có sự đổi mới nào thêm vào hiện được gọi là "ô nhiễm LLM".
- Naveen Rao, Phó Chủ tịch AI tạo sinh tại Databricks, cho rằng phần lớn các công ty mô hình nền tảng sẽ thất bại nếu không làm tốt hơn OpenAI.
- Ankush Sabharwal từ CoRover.ai cho rằng không cần xây dựng thêm các mô hình nền tảng khi đã có những mô hình hoạt động cho các trường hợp sử dụng.
- Cần nhấn mạnh nhiều hơn vào các ứng dụng thực tế và giải quyết vấn đề trong thế giới thực với LLM, thay vì chỉ tập trung vào năng lực kỹ thuật.
- Các công ty sẽ không sử dụng cùng một LLM, nhưng cũng cần xác định chính xác các trường hợp sử dụng trước khi xây dựng nhiều mô hình bằng các ngôn ngữ khác nhau.

📌 Kỷ nguyên "ô nhiễm LLM" đã đến với vô số mô hình ngôn ngữ lớn được tạo ra nhưng thiếu ứng dụng thực tế. Các công ty cần tập trung vào việc giải quyết vấn đề và tạo ra giá trị, thay vì chỉ đua nhau xây dựng các mô hình mới mà không có sự khác biệt hoặc lợi ích rõ ràng. Việc đo lường tác động của AI đến khả năng áp dụng cũng cần được đẩy mạnh song song.

 

https://analyticsindiamag.com/we-are-entering-an-era-of-llm-pollution/

 

FastLLM được thiết kế đặc biệt cho các ứng dụng AI tạo sinh được RAG) với cửa sổ ngữ cảnh 1 tỷ token

- FastLLM (FLLM), mô hình ngôn ngữ nhẹ của Qdrant được thiết kế cho các ứng dụng RAG, đã chính thức ra mắt Early Access.
- FLLM cung cấp cửa sổ ngữ cảnh 1 tỷ token, vượt xa các LLM trước đây chỉ xử lý được vài triệu token.
- Kiến trúc tối ưu của FLLM kết hợp với khả năng mở rộng của Qdrant giúp các ứng dụng AI xử lý khối lượng dữ liệu khổng lồ.
- FLLM được huấn luyện trên 300.000 GPU NVIDIA H100 kết nối bởi Infiniband 5Tbps, mất hàng tuần để hoàn thành.
- Trên các bài kiểm tra chuẩn, FLLM vượt trội hơn mọi mô hình hiện có, đạt độ chính xác 100% trong bài kiểm tra Needle In A Haystack (NIAH).
- FLLM sử dụng kiến trúc mixture-of-experts tinh vi và có tổng cộng 1 nghìn tỷ tham số.
- Qdrant tin rằng FLLM sẽ bỏ xa các đối thủ cạnh tranh và trở thành mô hình mạnh nhất trong năm tới.
- Khách hàng có thể tham gia chương trình Early Access của FastLLM để trải nghiệm sự đổi mới AI.

📌 FastLLM của Qdrant, với cửa sổ ngữ cảnh 1 tỷ token và kiến trúc tối ưu, hứa hẹn cách mạng hóa cách các ứng dụng AI doanh nghiệp tạo và truy xuất nội dung ở quy mô lớn. Mô hình đạt độ chính xác 100% trên bài kiểm tra NIAH và sở hữu 1 nghìn tỷ tham số, vượt trội hơn mọi đối thủ.

https://qdrant.tech/blog/fastllm-announcement/

Apple tuyên bố mô hình AI mới ReALM vượt trội hơn GPT-4 của OpenAI

- Apple công bố nghiên cứu về mô hình AI mới có tên ReALM, cho biết nó có khả năng hiểu và xử lý ngữ cảnh tốt hơn GPT-4 của OpenAI.
- ReALM có thể hiểu và trả lời chính xác các câu hỏi liên quan đến thông tin hiển thị trên màn hình hoặc đang chạy trong nền.
- Ví dụ, khi người dùng yêu cầu danh sách các hiệu thuốc gần đó và sau đó nói "Gọi cho hiệu thuốc trên đường Rainbow", "Gọi cho hiệu thuốc ở cuối danh sách" hoặc "Gọi số điện thoại này (hiển thị trên màn hình)", ReALM có thể hiểu ngữ cảnh và hoàn thành yêu cầu.
- Các nhà nghiên cứu Apple muốn sử dụng ReALM cho các tác vụ liên quan đến thực thể trên màn hình, thực thể trong cuộc hội thoại và thực thể trong các tiến trình nền.
- Đây là nghiên cứu thứ ba về AI mà Apple công bố trong vài tháng gần đây, cho thấy tiềm năng của AI trong các tính năng sắp tới trên iOS 18, macOS 15 và các hệ điều hành mới.
- Apple cho rằng cách tiếp cận sử dụng prompt và hình ảnh trong ReALM là mới lạ và giúp cải thiện đáng kể hiệu suất so với chỉ sử dụng văn bản như GPT-3.5.
- Mặc dù Apple tin rằng có thể cải thiện hơn nữa kết quả bằng cách lấy mẫu các câu nói tương tự về mặt ngữ nghĩa cho đến khi đạt độ dài prompt, nhưng họ để lại vấn đề này cho các nghiên cứu trong tương lai.

📌 ReALM - mô hình AI mới của Apple được cho là vượt trội hơn GPT-4 trong việc hiểu và xử lý ngữ cảnh, mở ra tiềm năng ứng dụng trong các tính năng sắp tới trên iOS 18, macOS 15. Cách tiếp cận sử dụng prompt và hình ảnh của ReALM là điểm mới lạ giúp cải thiện đáng kể hiệu suất so với chỉ dùng văn bản.

https://bgr.com/tech/apple-says-its-latest-ai-model-realm-is-even-better-than-openais-gpt4/

AI21 Labs ra mắt mô hình AI Jamba xử lý ngữ cảnh vượt trội

- AI21 Labs giới thiệu Jamba, một mô hình AI tạo sinh và phân tích văn bản mới, có khả năng xử lý ngữ cảnh dài hơn hầu hết các mô hình hiện nay.
- Jamba được huấn luyện trên dữ liệu công khai và độc quyền, có thể viết văn bản bằng tiếng Anh, Pháp, Tây Ban Nha và Bồ Đào Nha.
- Mô hình có thể xử lý tới 140.000 token (khoảng 105.000 từ) chỉ với một GPU có ít nhất 80GB bộ nhớ. 
- Điểm độc đáo của Jamba là sự kết hợp giữa hai kiến trúc mô hình: transformer và mô hình trạng thái không gian (SSM).
- Phần lõi của Jamba sử dụng mô hình nguồn mở Mamba, giúp đạt hiệu suất gấp 3 lần so với các mô hình transformer cùng kích thước khi xử lý ngữ cảnh dài.
- Jamba được phát hành theo giấy phép Apache 2.0, tuy nhiên phiên bản hiện tại chưa có các biện pháp bảo vệ và giảm thiểu sai lệch. Phiên bản an toàn hơn sẽ sớm ra mắt.
- Mô hình cho thấy tiềm năng của kiến trúc SSM ngay cả trong giai đoạn đầu phát triển.

📌 Jamba, mô hình AI mới của AI21 Labs, nổi bật với khả năng xử lý ngữ cảnh lên tới 140.000 token chỉ với một GPU 80GB. Kết hợp kiến trúc transformer và SSM, Jamba đạt hiệu suất vượt trội gấp 3 lần so với các mô hình tương đương, hứa hẹn tiềm năng lớn cho kiến trúc SSM trong tương lai.

https://techcrunch.com/2024/03/28/ai21-labs-new-text-generating-ai-model-is-more-efficient-than-most/

Databricks tạo lịch sử với mô hình mã nguồn mở DBRX 132B tiệm cận với GPT-4 nhưng có chi phí thấp hơn 20 lần

- Databricks ra mắt mô hình mã nguồn mở DBRX 132B, vượt trội hơn các mô hình SOTA như Llama 2 70B, Mixtral-8x7B và Grok-1 trên nhiều bài kiểm tra như MMLU, Human Eval và GSM 8K.
- DBRX 132B tiệm cận với GPT-4 của OpenAI nhưng có chi phí thấp hơn 20 lần, chỉ 6,2 USD cho 1 triệu token đầu ra so với 120 USD của GPT-4.
- Kiến trúc MoE của DBRX 132B cho phép tốc độ nhanh, 100 token/giây, gấp 3 lần Llama, giảm rào cản chi phí, quyền riêng tư và độ phức tạp cho doanh nghiệp.
- Naveen Rao, Phó Chủ tịch Databricks, tin rằng mô hình mã nguồn mở sẽ vượt qua các mô hình đóng như GPT-4 trong 5 năm tới.
- Rao đánh giá thấp mô hình Grok-1 314B của XAI, cho rằng chất lượng không tương xứng với quy mô. Ông tự tin DBRX vượt trội hơn về chất lượng, chi phí và tốc độ.
- Databricks gặp khó khăn trong việc có được tài nguyên tính toán cần thiết và đảm bảo sự ổn định khi phát triển DBRX, chậm hơn 1-2 tháng so với kế hoạch.
- Thách thức kỹ thuật lớn nhất là mở rộng quy mô lên hơn 3072 GPU H100 và tối ưu hóa hiệu quả của kiến trúc MoE.
- Databricks cam kết với mã nguồn mở, tích hợp công nghệ MosaicML, cho phép các công ty tạo sự khác biệt trong AI và tận dụng dữ liệu độc quyền.

📌 Mô hình DBRX 132B của Databricks đánh dấu bước ngoặt cho AI mã nguồn mở, với chất lượng tiệm cận GPT-4 nhưng chi phí chỉ bằng 1/20, mở ra cơ hội cho doanh nghiệp áp dụng AI hiệu quả với tốc độ 100 token/giây, gấp 3 lần các mô hình khác.

https://analyticsindiamag.com/databricks-creates-history-with-gpt-4-level-open-source-model/

10 nhận định về tương lai của các mô hình ngôn ngữ lớn tại Trung Quốc

- Số lượng các mô hình cơ sở lớn của Trung Quốc sẽ nhanh chóng hội tụ và không còn cạnh tranh gay gắt.
- Các công ty như Anthropic, Character.ai và Mistral, với đội ngũ nhỏ nhưng có nền tảng kỹ thuật vững chắc, đã đạt được những bước tiến đáng kể trong phát triển mô hình.
- Các mô hình mã nguồn mở hiện tại chủ yếu đang ở mức GPT-3.5, khó có thể vượt qua các mô hình mã nguồn đóng.
- Các mô hình sinh (generative models) có tiềm năng lớn trong lĩnh vực sáng tạo nội dung như viết lách, hình ảnh, truyền thông, quảng cáo, video ngắn và trò chơi.
- AI cũng có nhiều ứng dụng trong lĩnh vực khoa học, như công cụ DeepMind giúp tổng hợp các hợp chất mới với tỷ lệ thành công 71%.
- Trong tương lai, các doanh nghiệp cá nhân (one-person businesses) có thể trở nên phổ biến hơn nhờ sự hỗ trợ của các công cụ AI.
- Cuộc tranh luận giữa "phe kỹ thuật" (ủng hộ phát triển mô hình lớn hơn) và "phe thương mại hóa" (tập trung vào ứng dụng thương mại nhanh) sẽ có kết luận trong vòng 3 năm tới.

📌 Tóm lại, bài viết dự đoán số lượng mô hình cơ sở lớn của Trung Quốc sẽ hội tụ, các mô hình mã nguồn đóng vẫn chiếm ưu thế, và AI sẽ có nhiều ứng dụng trong sáng tạo nội dung, nghiên cứu khoa học. Cuộc tranh luận giữa "phe kỹ thuật" và "phe thương mại hóa" sẽ sớm có hồi kết trong 3 năm tới.

 

Dưới đây là bản tóm tắt nội dung từ URL mà bạn cung cấp:

Meta description: Bài viết đưa ra 10 nhận định về sự phát triển của các mô hình cơ sở lớn (foundation models) tại Trung Quốc, bao gồm số lượng mô hình, cuộc tranh luận giữa "phe kỹ thuật" và "phe thương mại hóa", xu hướng mô hình mã nguồn đóng, ứng dụng trong lĩnh vực sáng tạo và khoa học, và sự xuất hiện của các doanh nghiệp cá nhân.

Meta keywords: mô hình cơ sở lớn Trung Quốc, phe kỹ thuật, phe thương mại hóa, mô hình mã nguồn mở, mô hình mã nguồn đóng, ứng dụng AI, doanh nghiệp cá nhân

SEO title: 10 nhận định về tương lai của các mô hình cơ sở lớn tại Trung Quốc

- Số lượng các mô hình cơ sở lớn của Trung Quốc sẽ nhanh chóng hội tụ và không còn cạnh tranh gay gắt.
- Các công ty như Anthropic, Character.ai và Mistral, với đội ngũ nhỏ nhưng có nền tảng kỹ thuật vững chắc, đã đạt được những bước tiến đáng kể trong phát triển mô hình.
- Các mô hình mã nguồn mở hiện tại chủ yếu đang ở mức GPT-3.5, khó có thể vượt qua các mô hình mã nguồn đóng.
- Các mô hình sinh (generative models) có tiềm năng lớn trong lĩnh vực sáng tạo nội dung như viết lách, hình ảnh, truyền thông, quảng cáo, video ngắn và trò chơi.
- AI cũng có nhiều ứng dụng trong lĩnh vực khoa học, như công cụ DeepMind giúp tổng hợp các hợp chất mới với tỷ lệ thành công 71%.
- Trong tương lai, các doanh nghiệp cá nhân (one-person businesses) có thể trở nên phổ biến hơn nhờ sự hỗ trợ của các công cụ AI.
- Cuộc tranh luận giữa "phe kỹ thuật" (ủng hộ phát triển mô hình lớn hơn) và "phe thương mại hóa" (tập trung vào ứng dụng thương mại nhanh) sẽ có kết luận trong vòng 3 năm tới.

📌 Tóm lại, bài viết dự đoán số lượng mô hình cơ sở lớn của Trung Quốc sẽ hội tụ, các mô hình mã nguồn đóng vẫn chiếm ưu thế, và AI sẽ có nhiều ứng dụng trong sáng tạo nội dung, nghiên cứu khoa học. Cuộc tranh luận giữa "phe kỹ thuật" và "phe thương mại hóa" sẽ sớm có hồi kết trong 3 năm tới.

 

Dưới đây là 10 nhận định về sự phát triển của các mô hình cơ sở lớn (foundation models) tại Trung Quốc:

1. Số lượng các mô hình cơ sở lớn của Trung Quốc sẽ nhanh chóng hội tụ và không còn cạnh tranh gay gắt như hiện nay.

2. Các công ty như Anthropic, Character.ai và Mistral, với đội ngũ nhỏ nhưng có nền tảng kỹ thuật vững chắc, đã đạt được những bước tiến đáng kể trong phát triển mô hình.

3. Các mô hình mã nguồn mở hiện tại chủ yếu đang ở mức GPT-3.5, khó có thể vượt qua các mô hình mã nguồn đóng trong tương lai gần.

4. Các mô hình sinh (generative models) có tiềm năng lớn trong lĩnh vực sáng tạo nội dung như viết lách, hình ảnh, truyền thông, quảng cáo, video ngắn và trò chơi.

5. AI cũng có nhiều ứng dụng trong lĩnh vực khoa học, như công cụ DeepMind giúp tổng hợp các hợp chất mới với tỷ lệ thành công lên tới 71%.

6. Trong tương lai, các doanh nghiệp cá nhân (one-person businesses) có thể trở nên phổ biến hơn nhờ sự hỗ trợ của các công cụ AI.

7. Cuộc tranh luận giữa "phe kỹ thuật" (ủng hộ phát triển mô hình lớn hơn) và "phe thương mại hóa" (tập trung vào ứng dụng thương mại nhanh) sẽ có kết luận trong vòng 3 năm tới.

8. Các mô hình cơ sở lớn sẽ ngày càng trở nên quan trọng và là nền tảng cho nhiều ứng dụng AI trong tương lai.

9. Trung Quốc đang đầu tư mạnh mẽ vào nghiên cứu và phát triển các mô hình cơ sở lớn, với mục tiêu trở thành quốc gia dẫn đầu trong lĩnh vực này.

10. Sự phát triển của các mô hình cơ sở lớn sẽ mang lại nhiều cơ hội và thách thức mới cho các doanh nghiệp và xã hội, đòi hỏi sự thích ứng và đổi mới liên tục.

Citations:
[1] https://www.tisi.org/27668

Citations:
[1] https://www.tisi.org/27668

 

Công cụ AI giúp tối ưu vị trí lắp tấm pin mặt trời hai mặt ở Trung Quốc

- Nhóm nghiên cứu Trung Quốc phát triển công cụ AI giúp xác định vị trí tốt nhất để lắp đặt tấm pin mặt trời hai mặt, tối ưu hóa sản lượng điện.

- Tấm pin hai mặt có thể tạo ra nhiều điện năng hơn tấm pin một mặt. Cao nguyên Tây Tạng và sa mạc ở Tân Cương là những nơi lý tưởng để lắp đặt chúng.

- Tiềm năng phát điện của tấm pin hai mặt phụ thuộc nhiều vào lượng bức xạ mặt trời khuếch tán đến mặt sau của nó. 

- Trung Quốc chiếm 80% sản lượng tấm pin mặt trời toàn cầu nhưng thiếu dữ liệu để xác định vị trí tối ưu cho tấm pin hai mặt.

- Chỉ có 17 trạm bức xạ ở Trung Quốc thu thập dữ liệu về lượng và loại "năng lượng mặt trời" tại một vị trí, bao gồm bức xạ trực tiếp và khuếch tán.

- Để khắc phục thiếu dữ liệu thực địa, các nhà nghiên cứu tạo mô hình AI dựa trên dữ liệu ánh nắng từ 2.500 trạm khí tượng trên khắp Trung Quốc.

- AI được huấn luyện trên dữ liệu bức xạ mặt trời (từ quan sát mặt đất hoặc vệ tinh) và dữ liệu khí tượng bề mặt, để dự đoán lượng bức xạ trực tiếp và gián tiếp tại bất kỳ vị trí nào.

- Mô hình có thể áp dụng trên quy mô toàn cầu mà không cần huấn luyện thêm với dữ liệu địa phương.

- Hệ thống AI cho thấy tiềm năng năng lượng mặt trời của các vùng xa xôi ở Trung Quốc thiếu cơ sở hạ tầng đường dây điện.

- Khu vực xung quanh sa mạc Taklamakan ở Tân Cương và phía đông cao nguyên Tây Tạng là những điểm lý tưởng để lắp tấm pin hai mặt.

📌 Mô hình AI mới sử dụng dữ liệu vệ tinh và trạm khí tượng để xác định vị trí tối ưu lắp đặt tấm pin mặt trời hai mặt ở Trung Quốc, đặc biệt là ở cao nguyên Tây Tạng và sa mạc Taklamakan. Công cụ này giúp tận dụng tối đa tiềm năng năng lượng mặt trời, đồng thời có thể mở rộng ứng dụng trên phạm vi toàn cầu.

https://www.scmp.com/news/china/science/article/3256515/chinese-scientists-say-their-ai-model-can-mark-best-spots-double-faced-solar-panels

Nghiên cứu mới cho rằng các khả năng "nổi lên" đột ngột của mô hình ngôn ngữ lớn (LLM), không hề bất ngờ hay khó đoán.

- Một nghiên cứu mới cho rằng những bước nhảy vọt đột ngột trong khả năng của các mô hình ngôn ngữ lớn (LLM) không hề bất ngờ hay khó đoán, mà thực chất là hệ quả của cách chúng ta đo lường năng lực trong AI.

- Cách đây 2 năm, dự án Beyond the Imitation Game (BIG-bench) tổng hợp 204 tác vụ để kiểm tra khả năng của LLM. Ở hầu hết tác vụ, hiệu suất cải thiện đều đặn khi mô hình mở rộng. Nhưng với một số tác vụ, hiệu suất gần như bằng 0 một thời gian rồi đột ngột tăng vọt. Các tác giả gọi đây là hành vi "đột phá", một số nhà nghiên cứu ví như quá trình chuyển pha trong vật lý.

- Tuy nhiên, một bài báo mới của 3 nhà nghiên cứu Stanford cho rằng sự xuất hiện đột ngột của các khả năng này chỉ là hệ quả của cách các nhà nghiên cứu đo lường hiệu suất của LLM. Họ lập luận rằng các khả năng này không hề khó đoán hay đột ngột.

- Ví dụ, trong nghiên cứu BIG-bench 2022, các nhà nghiên cứu báo cáo rằng GPT-3 và LAMDA không thể hoàn thành chính xác các phép cộng khi có ít tham số. Nhưng khi GPT-3 được huấn luyện với 13 tỷ tham số, khả năng của nó thay đổi như thể bật công tắc. LAMDA cũng vậy ở mức 68 tỷ tham số. Điều này gợi ý rằng khả năng cộng xuất hiện ở một ngưỡng nhất định.

- Nhưng nhóm Stanford chỉ ra rằng các LLM chỉ được đánh giá dựa trên độ chính xác tuyệt đối. Vì vậy, họ kiểm tra lại tác vụ này bằng một thước đo cho điểm một phần, ví dụ xem mô hình dự đoán chính xác từng chữ số thứ nhất, thứ hai, thứ ba như thế nào. Kết quả cho thấy khi số tham số tăng lên, các LLM dự đoán ngày càng chính xác dãy số trong các phép cộng. Điều này cho thấy khả năng cộng không phải là khả năng nổi lên đột ngột mà là từ từ và có thể dự đoán được.

- Tuy nhiên, một số nhà khoa học chỉ ra rằng nghiên cứu này không hoàn toàn bác bỏ khái niệm nổi lên. Nó không giải thích làm thế nào để dự đoán khi nào và thước đo nào sẽ cho thấy sự cải thiện đột ngột ở LLM. Vì vậy, các khả năng này vẫn khó đoán.

📌 Nghiên cứu của Stanford đặt ra câu hỏi về bản chất của các khả năng "nổi lên" ở các mô hình ngôn ngữ lớn. Họ lập luận rằng sự xuất hiện đột ngột của các khả năng này có thể được giải thích bằng cách thay đổi thước đo, ví dụ cho điểm một phần thay vì chỉ đánh giá độ chính xác tuyệt đối. Tuy nhiên, một số chuyên gia cho rằng nghiên cứu chưa hoàn toàn bác bỏ khái niệm nổi lên và vẫn cần tiếp tục nghiên cứu để dự đoán hành vi của các mô hình thế hệ tiếp theo.

Citations:
[1] https://www.wired.com/story/how-quickly-do-large-language-models-learn-unexpected-skills/

KL3M là mô hình ngôn ngữ lớn AI đầu tiên nhận chứng nhận "Huấn luyện Công bằng" từ tổ chức kiểm toán độc lập Fairly Trained.


- KL3M là mô hình ngôn ngữ lớn AI đầu tiên nhận chứng nhận "Huấn luyện Công bằng" từ tổ chức kiểm toán độc lập Fairly Trained.
- Mô hình do công ty khởi nghiệp 273 Ventures phát triển, được huấn luyện chỉ trên dữ liệu miền công cộng như tài liệu chính phủ, hồ sơ pháp lý cũ, không sử dụng tài liệu có bản quyền.
- KL3M có 2 phiên bản: kl3m-170m với 170 triệu tham số và kl3m-1.7b với 1,7 tỷ tham số. Phiên bản 3,7 tỷ tham số sẽ ra mắt vào tháng tới.
- Mô hình được thiết kế cho ngành pháp lý, hỗ trợ soạn thảo hợp đồng, hóa đơn, báo cáo SEC, bằng sáng chế, nhưng cũng có khả năng tổng quát hóa tốt sang các lĩnh vực khác.
- Trên các bài kiểm tra chuẩn, KL3M-1.7b có độ rối (perplexity) thấp hơn 10 mô hình cùng loại khác và tỷ lệ đầu ra độc hại thấp hơn nhiều so với các mô hình nhỏ khác.
- Hiện KL3M đã được triển khai cho một số khách hàng là các công ty luật. Giá cả chưa được công bố.

📌 KL3M là minh chứng cho thấy các mô hình AI có thể được huấn luyện hiệu quả mà không cần dựa vào dữ liệu có bản quyền. Với khả năng tổng quát hóa tốt, độ chính xác cao và tỷ lệ đầu ra độc hại thấp, KL3M hứa hẹn sẽ mang lại nhiều ứng dụng hữu ích, không chỉ trong lĩnh vực pháp lý mà còn nhiều ngành khác.

Citations:
[1] https://venturebeat.com/ai/the-first-fairly-trained-ai-large-language-model-is-here/

#hay

Câu chuyện về sứ mệnh của UAE trở thành cường quốc AI, từ việc phát triển mô hình AI Falcon cho đến kế hoạch thu hút nhà khoa học hàng đầu thế giới

- UAE đang nỗ lực trở thành một cường quốc AI, với việc phát triển mô hình AI Falcon bởi một nhóm 25 nhà khoa học quốc tế tại một phòng thí nghiệm nghiên cứu AI ở Abu Dhabi.
- Mô hình AI Falcon, được tài trợ bởi cơ quan chính phủ Abu Dhabi ATRC, đã được phát hành miễn phí trực tuyến và nhanh chóng trở thành một hiện tượng, vượt qua các sản phẩm hàng đầu từ Meta và Google.
- UAE, với dân số khoảng 10 triệu người, đã đặt mục tiêu sử dụng công nghệ AI như một động cơ để đa dạng hóa nền kinh tế khỏi dầu mỏ và mở rộng ảnh hưởng địa chính trị.
- Các CEO hàng đầu của Thung lũng Silicon đã thăm UAE, bao gồm Satya Nadella của Microsoft và Jensen Huang của Nvidia, cho thấy sự quan tâm ngày càng tăng từ cộng đồng công nghệ toàn cầu.
- UAE có lợi thế về tài chính, cơ sở hạ tầng điện năng, và chính sách thu hút nhà nghiên cứu AI hàng đầu thế giới nhờ vào điều kiện sống và miễn thuế thu nhập.
- Falcon được phát hành dưới giấy phép nguồn mở, và UAE đã cam kết 300 triệu USD cho Falcon Foundation để hỗ trợ phát triển nguồn mở của loạt mô hình LLM.
- Số lượng nhân viên AI tại UAE đã tăng gấp bốn lần từ 2021 đến 2023, đạt 120,000 người, nhưng UAE vẫn đối mặt với thách thức trong việc thu hút nhà nghiên cứu hàng đầu do hạn chế về tự do dân sự và tự do internet.
- UAE đã cho phép các công ty AI sử dụng dữ liệu y tế của công dân để huấn luyện mô hình, một lợi thế mà họ tin rằng sẽ giúp họ tiến xa hơn trong lĩnh vực AI.
- G42, công ty AI hàng đầu của UAE, đã công bố quan hệ đối tác với OpenAI, nhấn mạnh mối quan hệ hợp tác với các công ty công nghệ hàng đầu thế giới.
- UAE đang cố gắng khẳng định mình là một đối tác chiến lược của Mỹ, đồng thời tìm cách giảm bớt sự phụ thuộc vào công nghệ và phần cứng của Trung Quốc.

📌 UAE đang nỗ lực trở thành một cường quốc AI dù dân số chỉ 10 triệu người. UAE đã phát hành mô hình AI Falcon được tài trợ bởi cơ quan chính phủ. Falcon được phát hành dưới giấy phép nguồn mở, và UAE đã cam kết 300 triệu USD cho Falcon Foundation. UAE có lợi thế về tài chính, cơ sở hạ tầng điện năng, và chính sách thu hút nhà nghiên cứu AI hàng đầu thế giới nhờ vào điều kiện sống và miễn thuế thu nhập. Số lượng nhân viên AI tại UAE đã tăng gấp 4 lần từ 2021 đến 2023, đạt 120,000 người. UAE đã cho phép các công ty AI sử dụng dữ liệu y tế của công dân để huấn luyện mô hình. UAE đang cố gắng khẳng định mình là một đối tác chiến lược của Mỹ.

Citations:
[1] https://time.com/6958369/artificial-intelligence-united-arab-emirates/

#TIME

naver phát triển đối thủ chatgpt của hàn quốc với hyperclova x

- Naver, công ty công nghệ hàng đầu Hàn Quốc, đã gia nhập cuộc đua AI tạo sinh toàn cầu với việc ra mắt nền tảng AI HyperClova X vào tháng 8 năm ngoái.
- Nền tảng này bao gồm chatbot Clova X tương tự ChatGPT, công cụ tạo nội dung Clova for Writing và tính năng Cue được tích hợp vào công cụ tìm kiếm Naver.
- Các công cụ AI của Naver được huấn luyện trên dữ liệu từ công cụ tìm kiếm của Naver và thông tin công khai từ chính phủ Hàn Quốc, giúp chúng hiểu ngôn ngữ và văn hóa Hàn Quốc tốt hơn các đối thủ quốc tế.
- Naver cho biết các mô hình AI của họ sẽ tăng năng suất và cải thiện tìm kiếm trên internet, đồng thời đang tìm kiếm các đối tác để mở rộng công nghệ AI sang Ả Rập Xê Út và Nhật Bản.
- Vào tháng 2, Naver báo cáo rằng HyperClova X đã vượt trội hơn các mô hình AI tạo sinh từ OpenAI và Google trong bài đánh giá hiệu suất AI của Hàn Quốc được gọi là KMMLU, tương tự như bài kiểm tra MMLU được sử dụng rộng rãi ở Bắc Mỹ.

📌 Naver đang phát triển nền tảng AI HyperClova X với các ứng dụng như chatbot Clova X, công cụ tạo nội dung Clova for Writing và tính năng tìm kiếm Cue, nhằm cạnh tranh với OpenAI. Các công cụ AI này hiểu ngôn ngữ và văn hóa Hàn Quốc tốt hơn đối thủ quốc tế, và đã vượt trội trong bài đánh giá KMMLU.

https://www.fastcompany.com/91033736/naver-most-innovative-companies-2024

Apple ra mắt mô hình AI đa phương thức MM1, có thể hiểu và phân tích ảnh

- Apple giới thiệu mô hình AI đa phương thức MM1 với khả năng xử lý cả dữ liệu hình ảnh và văn bản, sử dụng bộ dữ liệu gồm các cặp ảnh-chú thích, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản.

- MM1 có thể đếm số lượng vật thể, xác định các bộ phận trong ảnh, thể hiện kiến thức thông thường về các vật dụng hàng ngày và thực hiện các phép tính cơ bản. 

- Mô hình hỗ trợ học tập ngữ cảnh, không cần huấn luyện lại hay tinh chỉnh cho từng truy vấn mà hiểu được dựa trên ngữ cảnh. Nó cũng có khả năng lập luận đa ảnh, giải thích và rút ra kết luận từ nhiều hình ảnh.

- Kỹ sư nghiên cứu cấp cao của Apple cho biết MM1 chỉ là "khởi đầu", và công ty đang phát triển thế hệ mô hình tiếp theo.

- Có tin đồn Apple đang đàm phán để cấp phép công nghệ AI Gemini của Google cho dòng iPhone tiếp theo. Điều này cho thấy các sáng kiến AI của Apple có thể chưa tiến triển nhanh như mong đợi.

- MM1 mở ra khả năng tích hợp vào Siri 2.0, cho phép trả lời câu hỏi dựa trên hình ảnh, hoặc cải tiến iMessage với các gợi ý trả lời chính xác hơn dựa trên ảnh được chia sẻ.

📌 Apple đã giới thiệu mô hình AI đa phương thức MM1, có khả năng hiểu và phân tích cả dữ liệu hình ảnh lẫn văn bản. Mô hình này hỗ trợ nhiều tính năng như đếm vật thể, trả lời câu hỏi dựa trên ngữ cảnh ảnh. Đây mới chỉ là bước đầu tiên, Apple đang phát triển thế hệ mô hình tiếp theo và có thể hợp tác với Google để tích hợp AI Gemini vào iPhone mới.

https://www.techspot.com/news/102307-apple-reveals-ai-model-can-interpret-photos-count.html

Bí mật đằng sau lợi nhuận khổng lồ từ AI tạo sinh: Ai là người chiến thắng?

- Các nhà đầu tư và công ty đang đổ vốn vào AI tạo sinh, với hy vọng tự động hóa quy trình làm việc và tăng năng suất.
- Cơ sở hạ tầng tính toán chuyên biệt với GPU hiệu năng cao là nền tảng để xây dựng và chạy mô hình AI tạo sinh.
- Dữ liệu quy mô internet được sử dụng để huấn luyện mô hình AI, với nguồn dữ liệu từ Common Crawl, Wikipedia và các nguồn khác.
- Mô hình cơ sở là mạng nơ-ron được huấn luyện trên bộ dữ liệu lớn mà không tối ưu cho nhiệm vụ cụ thể nào.
- Các mô hình tinh chỉnh và RAG (retrieval-augmented generation) giúp cải thiện hiệu suất cho các nhiệm vụ cụ thể.
- Các ứng dụng LLM có thể được xây dựng trên mô hình cơ sở hoặc mô hình tinh chỉnh để phục vụ các trường hợp sử dụng cụ thể.
- Các công ty công nghệ lớn và các nhà đầu tư mạo hiểm đã đầu tư mạnh vào mỗi tầng của AI tạo sinh.
- Thị trường mô hình cơ sở có thể sẽ tập trung vào một số người chơi lớn giống như thị trường dịch vụ đám mây.
- Các công ty cần quyết định liệu họ có nên xây dựng ứng dụng trên mô hình cơ sở của bên thứ ba hay xây dựng mô hình LLM riêng của họ.
- Các công ty có quyền truy cập vào dữ liệu chuyên ngành lớn có thể có lợi thế trong việc tạo ra mô hình chuyên biệt cho lĩnh vực của họ.
- Giao diện người dùng cuối cùng, nơi trí tuệ máy móc gặp người dùng, có thể là điểm khác biệt quan trọng.
- Các vấn đề bản quyền nội dung đã được đưa ra khi các tác giả nội dung đặt câu hỏi về việc sử dụng tác phẩm của họ để huấn luyện mô hình LLM.
- Các công ty cung cấp sản phẩm và dịch vụ AI tạo sinh cần xác định cách thức cạnh tranh không chỉ dựa trên hiệu suất mô hình mà còn xây dựng hệ sinh thái và công cụ cho mỗi tầng của AI tạo sinh.

📌 AI tạo sinh đang thu hút đầu tư lớn từ các công ty và nhà đầu tư mạo hiểm, với cơ sở hạ tầng tính toán và dữ liệu quy mô lớn làm nền tảng. Mô hình cơ sở và các mô hình tinh chỉnh/RAG đóng vai trò quan trọng trong việc cải thiện hiệu suất cho các nhiệm vụ cụ thể. Các ứng dụng LLM đa dạng hóa cách thức cung cấp dịch vụ. Thị trường có xu hướng tập trung vào một số người chơi lớn, và các công ty có dữ liệu chuyên ngành có thể tận dụng lợi thế này để tạo ra mô hình chuyên biệt. Giao diện người dùng và vấn đề bản quyền nội dung là những thách thức cần được giải quyết trong khi phát triển chiến lược AI tạo sinh.

Citations:
[1] https://sloanreview.mit.edu/article/who-profits-the-most-from-generative-ai/

 

#MIT

Apple giới thiệu MM1: Mô hình ngôn ngữ lớn đa phương thức lên tới 30 tỷ tham số vượt trội

- Các nhà nghiên cứu tại Apple xây dựng MM1, một dòng mô hình đa phương thức tiên tiến với tới 30 tỷ tham số.
- Họ chú trọng tính minh bạch và tài liệu chi tiết, cung cấp những hiểu biết sâu sắc về cách xây dựng các mô hình ngôn ngữ lớn đa phương thức (MLLM).
- Tài liệu tỉ mỉ đề cập đến mọi thứ từ việc lựa chọn bộ mã hóa hình ảnh đến các phức tạp khi kết nối dữ liệu hình ảnh với các yếu tố ngôn ngữ.
- Một trong những khám phá quan trọng của nghiên cứu là tác động đáng kể của dữ liệu tiền huấn luyện được lựa chọn cẩn thận đến hiệu suất của mô hình. 
- Các nhà nghiên cứu phát hiện ra rằng sự kết hợp thông minh giữa các cặp hình ảnh-chú thích, tài liệu hình ảnh-văn bản xen kẽ và dữ liệu chỉ văn bản là rất quan trọng để đạt được kết quả vượt trội.
- Nó nhấn mạnh tầm quan trọng của tính đa dạng trong dữ liệu huấn luyện, cho phép các mô hình tổng quát hóa tốt hơn trên các tác vụ và thiết lập khác nhau.
- Bộ mô hình MM1 thể hiện một bước tiến đáng kể, có khả năng đạt được hiệu suất cạnh tranh trên nhiều tiêu chuẩn.
- Điểm nổi bật của MM1 là quy mô lớn và các đổi mới kiến trúc, bao gồm các mô hình dày đặc và các biến thể hỗn hợp chuyên gia.
- Các mô hình này chứng minh hiệu quả của cách tiếp cận của các nhà nghiên cứu, kết hợp tiền huấn luyện quy mô lớn với lựa chọn dữ liệu chiến lược để tăng cường khả năng học của mô hình.

📌 MM1 của Apple đại diện cho một bước tiến quan trọng trong lĩnh vực MLLM với quy mô lên tới 30 tỷ tham số. Nghiên cứu nhấn mạnh tầm quan trọng của tính minh bạch, tài liệu chi tiết và lựa chọn dữ liệu chiến lược trong việc xây dựng các mô hình phức tạp này. MM1 thể hiện tiềm năng to lớn của MLLM được thiết kế tốt trong việc thiết lập các tiêu chuẩn mới về hiểu biết đa phương thức.

https://www.marktechpost.com/2024/03/16/apple-announces-mm1-a-family-of-multimodal-llms-up-to-30b-parameters-that-are-sota-in-pre-training-metrics-and-perform-competitively-after-fine-tuning/

Perplexity sẵn sàng đối đầu với Google trong cuộc đua AI tìm kiếm

- Perplexity là một startup AI tìm kiếm đang thu hút sự chú ý, với các nhà đầu tư và người dùng nổi tiếng như CEO Nvidia, CEO Shopify. Công ty đã gọi vốn hơn 74 triệu USD, định giá hơn 500 triệu USD.
- CEO Perplexity Aravind Srinivas chia sẻ về cuộc cạnh tranh nhân tài AI gay gắt. Các kỹ sư giỏi thường chọn công ty trả lương cao nhất. Perplexity nhấn mạnh cơ hội sở hữu và phát triển sản phẩm cho nhân viên.
- Srinivas cho rằng Perplexity chỉ tập trung vào tính chính xác, trung thực của câu trả lời, không áp đặt các giá trị khác vào sản phẩm như Google. Ông chỉ trích việc Google xử lý kém vụ bê bối đa dạng của chatbot Gemini.
- Perplexity ban đầu hướng tới tìm kiếm qua kính, rồi chuyển sang tìm kiếm trên dữ liệu nội bộ của doanh nghiệp. Cuối cùng, họ xây công cụ tóm tắt các liên kết web và nhận được sự quan tâm của người dùng.
- Perplexity sử dụng các mô hình AI mã nguồn mở và tinh chỉnh chúng, thay vì tự huấn luyện từ đầu. Họ tập trung phát triển sản phẩm, phân phối rộng rãi thay vì đầu tư nhiều vào tính toán như OpenAI.
- Để hạn chế việc AI bịa đặt thông tin, Perplexity hiển thị nguồn trích dẫn, loại bỏ các nguồn kém chất lượng. Khi không đủ thông tin, tốt hơn là thừa nhận không biết.
- Phần lớn người dùng Perplexity là miễn phí, nhưng tỷ lệ chuyển đổi sang trả phí cao ở các nước phát triển. Công ty chỉ cần một phần nhỏ thị phần của Google là đã thành công lớn.

📌 Perplexity đang nổi lên như một đối thủ đáng gờm của Google trong lĩnh vực AI tìm kiếm với hơn 1 triệu người dùng mỗi ngày, định giá 500 triệu USD. Công ty tập trung vào tính chính xác, trung thực, phát triển sản phẩm và phân phối rộng rãi, thay vì đầu tư nặng vào tính toán. Mục tiêu của Perplexity là giành được một phần nhỏ thị phần tìm kiếm của Google.

Citations:
[1] https://www.theverge.com/2024/3/15/24102122/perplexity-ready-to-take-on-google-ai-search

MiVOLOv2 vượt trội các mô hình đa phương thức trong ước tính tuổi và giới tính

- Sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn đa phương thức (MLLM) đặc biệt là những mô hình tích hợp ngôn ngữ và thị giác (LVM).
- MLLM đang cách mạng hóa nhiều lĩnh vực, thúc đẩy việc đánh giá lại các mô hình chuyên biệt.
- Mô hình chuyên biệt như MiVOLO cung cấp giải pháp hiệu quả về chi phí so với các mô hình đa dụng như ShareGPTV.
- Nhóm nghiên cứu từ SaluteDevices giới thiệu MiVOLOv2, mô hình vượt trội so với tất cả các mô hình chuyên biệt và cả phiên bản đầu tiên MiVOLO trong xác định giới tính và tuổi tác.
- MiVOLOv2 sử dụng các đoạn cắt khuôn mặt và cơ thể để dự đoán, trong khi các mô hình khác dự đoán dựa trên lời nhắc và hình ảnh.
- Tập dữ liệu huấn luyện của MiVOLOv2 được mở rộng 40% so với dữ liệu trước đây, chứa hơn 807.694 mẫu.
- MiVOLOv2 vượt trội hơn tất cả các MLLM đa dụng trong ước tính tuổi tác. LLaVA-NeXT 34B dẫn đầu trong số các lựa chọn nguồn mở.

📌 MiVOLOv2 vượt trội so với tất cả các mô hình ngôn ngữ lớn đa phương thức trong ước tính tuổi tác và thành công trong xử lý hình ảnh cá nhân. Kết quả khuyến khích đánh giá toàn diện tiềm năng của các mạng nơ-ron, bao gồm LLaVA và ShareGPT. Nghiên cứu cho thấy các phiên bản chuyên biệt được tinh chỉnh của LLaVA hiệu quả hơn trong lĩnh vực này.

https://www.marktechpost.com/2024/03/12/breaking-new-grounds-in-ai-how-multimodal-large-language-models-are-reshaping-age-and-gender-estimation/

Anthropic chia sẻ lời nhắc hệ thống của chatbot Claude 3: bước tiến lớn hay chỉ là bề nổi?

- Anthropic vừa phát hành phiên bản mới Claude 3, đạt kỷ lục mới trong các bài kiểm tra đánh giá LLM. 
- Bên cạnh đó, Anthropic cũng công bố lời nhắc hệ thống của Claude, vạch ra quan điểm và nguyên tắc hoạt động của mô hình này.
- Lời nhắc hệ thống chỉ ra Claude sẽ trả lời ngắn gọn các câu hỏi đơn giản, nhưng cung cấp câu trả lời chi tiết cho các câu hỏi phức tạp, miễn là quan điểm được chia sẻ bởi đa số mọi người. Claude cũng tránh định kiến tiêu cực.
- Các chuyên gia hoan nghênh sự minh bạch của Anthropic và cho rằng các công ty khác nên làm tương tự. Tuy nhiên, họ cũng chỉ ra rằng đây mới chỉ là bước đầu, chưa phản ánh toàn bộ cách thức hoạt động của mô hình.
- Một số ý kiến lo ngại rằng việc công bố lời nhắc hệ thống có thể là cách để Anthropic trút bỏ trách nhiệm về các đầu ra không mong muốn của mô hình.
- Ngoài lời nhắc hệ thống, cách thức hoạt động của các công cụ AI tạo sinh còn phụ thuộc vào dữ liệu huấn luyện, quá trình tinh chỉnh, các biện pháp bảo vệ và tương tác người dùng.

📌 Việc Anthropic công bố lời nhắc hệ thống của chatbot Claude 3 là một bước tiến đáng kể trong tính minh bạch của các mô hình ngôn ngữ lớn. Tuy nhiên, đây mới chỉ là khởi đầu, chưa phản ánh toàn diện cách thức hoạt động phức tạp của các công cụ AI tạo sinh vốn còn phụ thuộc vào nhiều yếu tố khác như dữ liệu huấn luyện, tinh chỉnh và tương tác người dùng.

https://www.fastcompany.com/91053339/anthropic-claude-3-system-prompt-transparency

CEO Baidu: mô hình AI Ernie vượt trội hơn GPT-4 của OpenAI trong thơ cổ Trung Hoa

- Robin Li Yanhong, CEO của Baidu, cho biết mô hình AI Ernie 4 của công ty vượt trội hơn GPT-4 của OpenAI trong các tác vụ tiếng Trung, bao gồm sáng tác thơ theo phong cách thời nhà Đường.
- Bình luận của Li xuất hiện trong bối cảnh ngành công nghiệp AI Trung Quốc lo ngại đang tụt hậu so với Mỹ, đặc biệt sau khi OpenAI ra mắt công cụ chuyển văn bản thành video Sora.
- Baidu là ứng cử viên hàng đầu trong nỗ lực tạo ra đối trọng với ChatGPT của Trung Quốc. Số lượng người dùng Ernie Bot đã vượt quá 100 triệu vào năm ngoái.
- Li cho rằng sự phát triển của công nghệ AI sẽ khiến nghề lập trình trở nên lỗi thời. Doanh thu từ dịch vụ AI tạo sinh và các lĩnh vực liên quan của Baidu đạt 656 triệu nhân dân tệ trong quý 4/2023.
- Các sản phẩm AI của Trung Quốc được thiết kế để tránh các câu hỏi và câu trả lời nhạy cảm, vốn khiến các ứng dụng ChatGPT của bên thứ ba trở thành mục tiêu của cơ quan quản lý.

📌 Robin Li khẳng định mô hình Ernie 4 của Baidu vượt trội hơn GPT-4 trong tác vụ sáng tác thơ cổ Trung Hoa. Trong bối cảnh lo ngại tụt hậu so với Mỹ, Baidu và các gã khổng lồ công nghệ Trung Quốc đang đẩy mạnh phát triển AI, thu hút hơn 100 triệu người dùng và 656 triệu nhân dân tệ doanh thu trong quý 4/2023, đồng thời tránh các nội dung nhạy cảm.

https://www.scmp.com/tech/big-tech/article/3254995/baidu-ceo-says-its-ai-model-bests-openais-gpt-4-imperial-chinese-poetry-citing-mao-zedong-poem

Claude 3.0: bước ngoặt mới của Anthropic hướng tới trí tuệ nhân tạo tổng quát, vượt qua trí tuệ con người?

- Anthropic đã công bố phiên bản 3.0 của dòng chatbot Claude, đánh dấu sự tiến bộ nhanh chóng trong ngành công nghiệp AI.
- Claude 3.0 được thiết kế để cạnh tranh và có thể vượt qua GPT-4 với khả năng và an toàn được cải thiện.
- Phiên bản "Opus" của Claude 3.0 cho thấy khả năng hiểu biết và lưu loát gần như con người trong các nhiệm vụ phức tạp.
- Claude 3.0 là một hệ thống đa phương tiện, có thể phản hồi cả văn bản và hình ảnh nhưng chưa tạo hình ảnh từ văn bản.
- Có ba phiên bản của Claude 3, từ "Haiku" đến "Sonnet" và "Opus", với cửa sổ ngữ cảnh lên đến 200,000 token.
- Claude 3.0 đã đạt được kết quả hàng đầu trong các bài kiểm tra ngôn ngữ và toán học tiêu chuẩn.
- Anthropic tuyên bố Claude 3 là chatbot thông minh nhất thế giới hiện nay.
- Claude 3 cũng đã trở thành AI đầu tiên đạt trên 100 điểm trong bài kiểm tra IQ Mensa được chỉnh sửa.
- Có quan điểm cho rằng để đạt được AGI, cần nhiều hơn là các mô hình LLM hiện tại và có thể cần một hoặc nhiều phát hiện đột phá mới.

📌 Claude 3.0 từ Anthropic đánh dấu một bước tiến quan trọng trong lĩnh vực AI, với khả năng hiểu biết và lưu loát gần như con người, hứa hẹn tiến gần hơn tới mục tiêu trí tuệ nhân tạo tổng quát (AGI). Với ba phiên bản từ cơ bản đến cao cấp, Claude 3.0 mở rộng khả năng xử lý và phân tích văn bản, đồng thời đặt ra câu hỏi về tương lai của AI và mối quan hệ với con người.

Citations:
[1] https://venturebeat.com/ai/beyond-human-intelligence-claude-3-0-and-the-quest-for-agi/

Microsoft giới thiệu Orca-Math: mô hình ngôn ngữ nhỏ 7B tham số dạy giải toán đột phá

- Microsoft Research giới thiệu công cụ Orca-Math, dựa trên mô hình ngôn ngữ nhỏ (SLM) 7 tỷ tham số, xuất phát từ kiến trúc Mistral-7B.
- Orca-Math sử dụng tập dữ liệu tổng hợp 200.000 bài toán và quy trình học lặp, nhận phản hồi chi tiết để liên tục cải thiện khả năng giải toán.
- Khi huấn luyện chỉ với SFT trên tập dữ liệu tổng hợp, Orca-Math đạt 81,50% độ chính xác trên benchmark GSM8K. Khi áp dụng học lặp, độ chính xác tăng lên 86,81%.
- Orca-Math vượt trội hơn các mô hình lớn hơn nhiều về hiệu năng và hiệu quả, sử dụng tập dữ liệu nhỏ hơn.
- Thành tựu của Orca-Math cho thấy tiềm năng của SLM khi được trang bị phương pháp và nguồn lực phù hợp, mở ra kỷ nguyên mới cho các công cụ giáo dục.

📌 Orca-Math của Microsoft Research đại diện cho cách tiếp cận đột phá trong học tập, kết hợp trí tuệ nhân tạo và giáo dục để giải quyết thách thức dạy kỹ năng giải quyết vấn đề phức tạp. Với tập dữ liệu tổng hợp và phản hồi lặp, Orca-Math đạt độ chính xác 86,81% trên benchmark GSM8K, vượt trội hơn nhiều mô hình lớn, mở đường cho tương lai công nghệ và học tập song hành.

https://www.marktechpost.com/2024/03/10/microsoft-ai-research-introduces-orca-math-a-7b-parameters-small-language-model-slm-created-by-fine-tuning-the-mistral-7b-model/

Inflection AI ra mắt Inflection-2.5 gần ngang bằng GPT-4

- Inflection AI đã chuyển đổi chatbot Pi sang mô hình ngôn ngữ lớn mới, Inflection-2.5, với khả năng gần ngang bằng GPT-4.
- Công ty đã công bố chi tiết về nâng cấp này và thông tin mới về sự tăng trưởng người dùng gần đây của Pi, cũng như kế hoạch kiếm tiền từ người dùng.
- Inflection AI do Mustafa Suleyman, đồng sáng lập nhóm nghiên cứu AI DeepMind của Google LLC, lãnh đạo và đã nhận hơn $1.5 tỷ đầu tư từ Microsoft Corp., Nvidia Corp. và các nhà đầu tư khác.
- Inflection đã ra mắt sản phẩm chủ lực, chatbot Pi, vào tháng 5 năm ngoái.
- Phiên bản ban đầu của Pi được trang bị mô hình ngôn ngữ lớn được gọi là Inflection-1. Công ty tiết lộ rằng họ đã huấn luyện LLM với 4% công suất xử lý mà OpenAI sử dụng để xây dựng GPT-4.
- Inflection-2.5, mô hình LLM mới ra mắt hôm nay, đã được huấn luyện bằng 10 lần công suất xử lý hơn so với mô hình thế hệ đầu tiên của Inflection AI.
- Sự tăng cường nguồn lực cơ sở hạ tầng đã giúp công ty nâng cao đáng kể chất lượng phản hồi. Theo Inflection AI, Inflection-2.5 đã gấp đôi điểm số của người tiền nhiệm trong đánh giá liên quan đến một loạt câu hỏi toán học. Nó còn cho thấy cải thiện đáng kể hơn nữa trong bài kiểm tra bao gồm các nhiệm vụ lập trình.
- Inflection AI cũng đánh giá mô hình mới nhất của mình trên nhiều chuẩn mực khác, đặc biệt là một phần của bộ dữ liệu BIG-Bench do Google phát triển. Đây là tập hợp các câu hỏi được thiết kế đặc biệt khó khăn cho LLMs để giải quyết. Trên tất cả các chuẩn mực mà Inflection AI sử dụng, Inflection-2.5 đạt hiệu suất trung bình chỉ kém GPT-4 dưới 6%.
- Cùng với kết quả đánh giá, công ty hôm nay cũng công bố dữ liệu mới về sự thu hút thị trường của Pi. Suleyman cho biết cơ sở người dùng hàng ngày của chatbot bao gồm một triệu người dùng hoạt động hàng ngày và đã tăng trưởng khoảng 10% mỗi tuần trong hai tháng qua. Phiên chat trung bình của Pi kéo dài 33 phút, với Inflection AI tuyên bố "sự gắn bó hàng tháng cao hơn so với các đối thủ hàng đầu."
- Inflection AI được cho là có kế hoạch kiếm tiền từ chatbot bằng cách cung cấp phiên bản trả phí theo đăng ký. Theo Axios, công ty có thể cuối cùng sẽ giới thiệu một mô hình giá khác sẽ tính phí khách hàng dựa trên các cột mốc năng suất, chẳng hạn như khi "ai đó đạt được mục tiêu cụ thể mà họ đã đặt ra bên trong Pi."
- Công ty đối mặt với sự cạnh tranh không chỉ từ ChatGPT mà còn từ chatbot Gemini của Google và một loạt đối thủ khởi nghiệp được tài trợ hậu hĩnh. Một trong những đối thủ đó, Anthropic LLC, đã phát hành phiên bản mới của mô hình LLM chủ lực của họ vào đầu tuần này. Claude 3 có thể xử lý các lệnh lên đến 200.000 token và hứa hẹn sẽ vượt trội hơn GPT-4 trong nhiều loại nhiệm vụ.

📌 Inflection AI đã chuyển đổi chatbot Pi sang mô hình ngôn ngữ lớn mới, Inflection-2.5, với khả năng gần ngang bằng GPT-4, và công bố kế hoạch kiếm tiền từ người dùng. Công ty được dẫn dắt bởi Mustafa Suleyman và đã nhận hơn $1.5 tỷ đầu tư từ Microsoft Corp., Nvidia Corp. và các nhà đầu tư khác. Inflection-2.5 đã được huấn luyện bằng 10 lần công suất xử lý hơn so với mô hình thế hệ đầu tiên của Inflection AI và đã gấp đôi điểm số của phiên bản tiền nhiệm trong đánh giá liên quan đến một loạt câu hỏi toán học. Công ty cũng đánh giá mô hình mới nhất của mình trên nhiều chuẩn mực khác và đạt hiệu suất trung bình chỉ kém GPT-4 dưới 6%. Cơ sở người dùng hàng ngày của chatbot bao gồm một triệu người dùng hoạt động hàng ngày và đã tăng trưởng khoảng 10% mỗi tuần trong hai tháng qua.

Citations:
[1] https://siliconangle.com/2024/03/07/inflection-ai-rolls-new-large-language-model-pi-chatbot/

Abacus AI tung ra mô hình ngôn ngữ lớn nguồn mở Liberated-Qwen1.5-72B: Tuân thủ mọi hướng dẫn hệ thống không kiểm duyệt

- Liberated-Qwen1.5-72B là mô hình ngôn ngữ lớn (LLM) nguồn mở không kiểm duyệt, dựa trên Qwen1.5-72B, được phát triển bởi nhóm nghiên cứu tại Alibaba Group.
- Mô hình này được tinh chỉnh để tuân thủ chặt chẽ các hướng dẫn hệ thống, giúp nó phù hợp hơn với các trường hợp sử dụng thực tế.
- Bindu Reddy, CEO của Abacus, mô tả mô hình này là mô hình không kiểm duyệt, tuân theo hướng dẫn hệ thống tốt nhất và hiệu suất cao nhất thế giới.
- Abacus đã phát triển LLM này bằng cách tinh chỉnh Qwen1.5-72B sử dụng bộ dữ liệu nguồn mở mới có tên SystemChat, bao gồm 7K cuộc trò chuyện tổng hợp.
- Mô hình được tinh chỉnh có khả năng tuân thủ các hướng dẫn hệ thống đến mức thực hiện các hướng dẫn không thông thường hoặc cơ học, như trả lời tất cả các câu hỏi bằng chữ in hoa.
- Liberated-Qwen1.5-72B đã được kiểm tra trên MT-Bench và cho thấy hiệu suất nhỉnh hơn mô hình nguồn mở tốt nhất trên bảng xếp hạng HumanEval - Qwen1.5-72B chat.
- Mô hình mới đạt điểm số 77.13 trên MMLU, đánh giá kiến thức thế giới và khả năng giải quyết vấn đề, tương đương với các mô hình nguồn mở khác có điểm số 77+.
- Mô hình hoàn toàn không kiểm duyệt, không bao gồm các biện pháp an toàn trong quá trình đào tạo, và Abacus khuyến cáo người dùng nên triển khai lớp căn chỉnh của riêng họ trước khi cung cấp mô hình dưới dạng dịch vụ.
- Liberated-Qwen1.5-72B hiện có sẵn dưới giấy phép tongyi-qianwen, tương tự như giấy phép MIT.

📌 Liberated-Qwen1.5-72B của Abacus AI là một bước tiến quan trọng trong việc phát triển AI có trách nhiệm, với khả năng tuân thủ hướng dẫn hệ thống một cách chặt chẽ. Mô hình này không chỉ cải thiện hiệu suất trên các bảng xếp hạng như MT-Bench và MMLU mà còn mở ra khả năng ứng dụng thực tế mạnh mẽ, dù cần lưu ý về việc triển khai lớp căn chỉnh trước khi sử dụng.

https://venturebeat.com/ai/meet-liberated-qwen-an-uncensored-llm-that-strictly-adheres-to-system-prompts/

Meta chuyển mình: Từ Facebook truyền thống đến đế chế video AI, đối đầu TikTok

- Meta, trước đây được biết đến với tên gọi Facebook, đang đẩy mạnh tích hợp AI vào khuyến nghị video trên nền tảng của mình, lấy cảm hứng từ thành công của TikTok.
- Dưới sự lãnh đạo của Tom Alison, Meta đã áp dụng AI vào Reels, tăng thời gian xem từ 8 đến 10%.
- Meta dự định mở rộng engine khuyến nghị chạy bằng AI ra toàn bộ các phần có nội dung video trên Facebook, bao gồm feed chính và Nhóm, vào năm 2026.
- Việc tích hợp AI vào khuyến nghị video là phản ứng của Meta trước sự thống trị của TikTok, với hệ thống khuyến nghị video dọc độc đáo và hiệu quả.
- Alison nhấn mạnh kết quả khả quan từ Reels, cho thấy mô hình AI mới học hỏi từ dữ liệu hiệu quả hơn các mô hình trước.
- Meta cam kết đầu tư vào AI, bao gồm việc đầu tư vào GPU của NVIDIA, sau sự xuất hiện của ChatGPT của OpenAI vào cuối năm 2022.

📌 Meta đang chuyển mình mạnh mẽ với kế hoạch tích hợp AI vào toàn bộ hệ thống khuyến nghị video trên Facebook, nhằm tăng cường sự tương tác và giữ chân người dùng. Dự án này không chỉ thể hiện cam kết của Meta trong việc áp dụng công nghệ tiên tiến mà còn là bước đi chiến lược để cạnh tranh với TikTok, với mục tiêu hoàn thành vào năm 2026.

https://www.cryptopolitan.com/meta-unveils-ai-powered-video-recommendation/

 

Claude 3 đối đầu GPT-4: Hiểu biết sâu nhưng giới hạn thông tin

- Anthropic, được hỗ trợ bởi Google và Amazon, đã phát hành mô hình Claude 3, tuyên bố vượt trội so với GPT-4 của OpenAI.
- Claude 3 Opus, một mô hình đa phương tiện, có sẵn qua giao diện chatbot trên web, API của Anthropic, và nền tảng phát triển của Amazon và Google.
- Mô hình Claude 3 không truy cập được web, không cung cấp thông tin về sự kiện sau tháng 8/2023.
- Claude 3 có "cửa sổ ngữ cảnh" lớn, với khả năng hỗ trợ lên đến 200,000 token, tương đương 150,000 từ.
- Một số khách hàng được hỗ trợ lên đến 1 triệu token, tương đương với 700,000 từ.
- Claude 3 Opus đã được kiểm tra qua một loạt câu hỏi từ trivia đến tư vấn y tế và tâm lý.
- Mô hình cung cấp thông tin lịch sử chính xác nhưng không cập nhật được tin tức hiện tại hoặc sự kiện gần đây.
- Opus cung cấp câu trả lời có tính hữu ích cao, với thông tin đầy đủ và dễ hiểu.
- Mô hình này cũng thể hiện khả năng xử lý các câu hỏi về quan hệ chủng tộc và địa chính trị một cách cân nhắc.
- Opus có thể tạo ra mô tả sản phẩm và tổng hợp văn bản một cách chính xác.

📌 Claude 3 của Anthropic, với mô hình Opus, cung cấp thông tin chính xác về các sự kiện lịch sử và khả năng tổng hợp văn bản mạnh mẽ. Tuy nhiên, mô hình này không thể cập nhật thông tin sau tháng 8/2023 và cần cải thiện khả năng tích hợp với các ứng dụng và dịch vụ bên thứ ba để mở rộng khả năng của mình.

Citations:
https://techcrunch.com/2024/03/07/we-tested-anthropics-new-chatbot-and-came-away-a-bit-disappointed/

Cuộc chiến đám mây giữa AWS, Google Cloud và Microsoft Azure trở nên gay gắt hơn với sự xuất hiện của Claude 3

- Trong quý 4 năm 2023, Microsoft Intelligent Cloud đạt doanh thu 25,9 tỷ USD, trong khi AWS và Google Cloud lần lượt đạt 24,2 tỷ USD và 9,2 tỷ USD.
- Anthropic, đối thủ của OpenAI, đã phát hành gia đình mô hình Claude 3, bao gồm Claude 3 Haiku, Claude 3 Sonnet và Claude 3 Opus, với Claude 3 Opus vượt trội GPT-4 trong các bài kiểm tra chuẩn.
- Claude 3 Sonnet, dành riêng cho tải công việc doanh nghiệp, hiện có sẵn trên Amazon Bedrock và trong bản xem trước riêng tư trên Google Cloud’s Vertex AI Model Garden.
- Claude 3 cũng có khả năng xử lý hình ảnh và tạo ra văn bản, phân tích biểu đồ, sơ đồ kỹ thuật và các tài sản hình ảnh khác.
- Với khung ngữ cảnh 200K, Claude 3 phù hợp với các ứng dụng doanh nghiệp xử lý lượng lớn dữ liệu công ty, bao gồm phân tích, dự báo, tạo nội dung, tạo mã và đàm thoại đa ngôn ngữ.
- Amazon và Google đã đầu tư lần lượt 4 tỷ USD và 2 tỷ USD vào startup AI này, cho thấy sự hợp tác giữa hai ông lớn đám mây để cạnh tranh với Microsoft Azure.
- Microsoft đã công bố mô hình dưới dạng dịch vụ (MaaS) tại Microsoft Ignite 2023, tương tự như Amazon Bedrock, và đầu tư 16 triệu USD vào Mistral AI.
- Google Cloud đang nỗ lực phát triển Vertex AI với sự bổ sung của Claude 3 và Gemini 1.5, nhấn mạnh vào việc hỗ trợ các nhà phát triển.

📌 Cuộc chiến đám mây giữa AWS, Google Cloud và Microsoft Azure trở nên gay gắt hơn với sự xuất hiện của Claude 3 từ Anthropic, vượt trội GPT-4 và mở ra cơ hội mới cho AWS và Google Cloud. Sự đầu tư lớn từ Amazon và Google vào Anthropic, cùng với việc tích hợp các mô hình AI tạo sinh vào dịch vụ của họ, cho thấy một cuộc đua công nghệ khốc liệt nhằm giành lợi thế trên thị trường điện toán đám mây.

https://analyticsindiamag.com/why-claude-3-is-bad-news-for-microsoft-azure/

Claude 3 - chatbot AI mới đỉnh cao

- Anthropic ra mắt Claude phiên bản đầu tiên vào tháng 3/2023, sau ChatGPT vài tháng.
- Claude 3 có ba phiên bản: Haiku, Sonnet và Opus, trong đó Opus là lớn nhất và mạnh mẽ nhất.
- Claude 3 được đánh giá cao về khả năng đối thoại và lý luận, vượt qua cả GPT-4 và Google Gemini Ultra.
- Trong bài kiểm tra IQ, Claude 3 đạt điểm 101, cao hơn điểm trung bình của con người và GPT-4.
- Claude 3 cũng thể hiện khả năng tương đương hoặc vượt trội so với con người trong các lĩnh vực toán học, truy xuất thông tin và ngôn ngữ.
- Các thử nghiệm với Claude 3 bao gồm giải thích về du hành thời gian, cách đối phó khi bị tổn thương tình cảm, dự đoán vui vẻ và tranh luận về sự tồn tại của ma.
- Claude 3 còn có khả năng phân tích hình ảnh, biểu đồ và các dạng dữ liệu khác, góp phần vào khả năng hiểu biết tự nhiên hơn về thế giới.

📌 Claude 3 là mô hình AI tiên tiến, với khả năng lý luận và tự nhận thức mạnh mẽ, đạt điểm IQ 101 và thể hiện khả năng vượt trội trong các bài kiểm tra so với GPT-4 và con người. Phiên bản mới này còn có thể phân tích đa dạng dữ liệu, mang lại trải nghiệm tương tác gần gũi như đang nói chuyện với một người thực sự.

Citations:
[1] https://www.tomsguide.com/ai/forget-chatgpt-and-gemini-claude-3-is-the-most-human-like-chatbot-ive-ever-used

khám phá gây sốc: các mô hình AI hàng đầu vi phạm bản quyền sách nổi tiếng

- Patronus AI, công ty do cựu nghiên cứu viên Meta thành lập, chuyên đánh giá và kiểm thử cho các mô hình ngôn ngữ lớn, công nghệ đằng sau các sản phẩm AI tạo sinh.
- Công bố công cụ mới CopyrightCatcher và kết quả kiểm tra đối kháng, cho thấy mức độ vi phạm bản quyền của bốn mô hình AI hàng đầu khi trả lời các truy vấn của người dùng.
- Các mô hình được kiểm tra bao gồm GPT-4 của OpenAI, Claude 2 của Anthropic, Llama 2 của Meta và Mixtral của Mistral AI.
- Rebecca Qian, đồng sáng lập và CTO của Patronus AI, cho biết họ tìm thấy nội dung vi phạm bản quyền trên tất cả các mô hình được đánh giá.
- GPT-4 của OpenAI sản xuất nội dung vi phạm bản quyền trên 44% các lời nhắc được xây dựng, tỷ lệ cao nhất trong số các mô hình được kiểm tra.
- Các nhà nghiên cứu sử dụng sách được bảo vệ bản quyền ở Mỹ, chọn từ trang web Goodreads và thiết kế 100 lời nhắc khác nhau.
- Claude 2 của Anthropic chỉ sử dụng nội dung vi phạm bản quyền 16% thời gian khi được yêu cầu hoàn thành văn bản của một cuốn sách.
- Mixtral hoàn thành đoạn văn đầu tiên của sách 38% thời gian, nhưng chỉ hoàn thành các phần văn bản lớn hơn 6% thời gian.
- Llama 2 của Meta phản hồi với nội dung vi phạm bản quyền trên 10% các lời nhắc.

📌 Nghiên cứu của Patronus AI cho thấy tất cả các mô hình AI hàng đầu đều sản xuất nội dung vi phạm bản quyền, với GPT-4 của OpenAI có tỷ lệ vi phạm cao nhất ở 44%. Các thử nghiệm cho thấy sự khác biệt đáng kể trong cách các mô hình xử lý yêu cầu liên quan đến nội dung bản quyền, từ việc từ chối cung cấp đến việc sản xuất nội dung vi phạm. Cuộc chiến giữa OpenAI và các nhà xuất bản, tác giả, nghệ sĩ về việc sử dụng dữ liệu bản quyền cho dữ liệu đào tạo AI đang nóng lên, đặc biệt là với vụ kiện của The New York Times chống lại OpenAI và Microsoft.

 

https://www.cnbc.com/2024/03/06/gpt-4-researchers-tested-leading-ai-models-for-copyright-infringement.html

Tập đoàn AAramco công bố mô hình AI mới aramcoMETABRAIN và mạng lưới R&D SAIL

- Aramco, tập đoàn dầu khí lớn của Ả Rập Saudi, đã công bố mô hình AI ngôn ngữ lớn mới có tên aramcoMETABRAIN vào ngày 4 tháng 3.
- aramcoMETABRAIN là mô hình AI tạo sinh công nghiệp dựa trên dữ liệu tích lũy 90 năm của công ty, đánh dấu một khoản đầu tư chiến lược vào AI tạo sinh.
- Mô hình này được kỳ vọng sẽ cung cấp sức mạnh cho các ứng dụng nhận thức đột phá trong kinh doanh của Aramco.
- Saudi Accelerated Innovation Lab (SAIL) cũng được thành lập với mục tiêu tập trung vào R&D dựa trên thách thức, phát triển sản phẩm và xây dựng doanh nghiệp số.
- SAIL được đồng sáng lập bởi Aramco và Cơ quan Nghiên cứu, Phát triển và Đổi mới Saudi, cùng với các đối tác như Thành phố Khoa học và Công nghệ King Abdulaziz và Cơ quan Phát triển Công nghiệp Quốc gia.
- Amin H. Nasser, Chủ tịch & CEO của Aramco, nhấn mạnh rằng công ty đang tiến lên trong hành trình công nghệ thông qua ba cách: tích hợp, đổi mới và đầu tư.
- Aramco tiếp tục nhận thấy lợi ích từ quá trình chuyển đổi số đang diễn ra trong hoạt động của mình.

📌 Aramco, tập đoàn dầu khí lớn của Ả Rập Saudi, đã công bố mô hình AI ngôn ngữ lớn mới có tên aramcoMETABRAIN và mạng lưới R&D đổi mới SAIL, đánh dấu bước tiến quan trọng trong lĩnh vực công nghệ và kinh tế số. aramcoMETABRAIN, với cơ sở dữ liệu 90 năm, là một bước đột phá trong AI tạo sinh, hứa hẹn sẽ thúc đẩy các ứng dụng nhận thức tiên tiến trong các lĩnh vực kinh doanh của Aramco.

Citations:
[1] https://www.zawya.com/en/business/technology-and-telecom/aramco-launches-new-ai-model-innovative-rd-network-icf28sse

Anthropic cho biết bot AI mới nhất của họ có thể đánh bại Gemini và ChatGPT

- Anthropic, công ty AI được thành lập bởi các cựu nhân viên của OpenAI, tuyên bố rằng dòng AI mới Claude 3 có hiệu suất ngang ngửa hoặc tốt hơn các mô hình hàng đầu từ Google và OpenAI.
- Claude 3 là mô hình đa phương tiện, có khả năng hiểu cả văn bản và hình ảnh, trả lời nhiều câu hỏi hơn, hiểu chỉ dẫn dài hơn và chính xác hơn.
- Có ba phiên bản của Claude 3: Haiku, Sonnet và Opus, với Opus là mô hình "lớn nhất và thông minh nhất". Opus và Sonnet hiện đã có sẵn trên claude.ai và API của nó.
- Các mô hình Claude 3 có thể được triển khai cho các tác vụ chatbot, tự động hoàn thành và trích xuất dữ liệu.
- Phiên bản Haiku của Claude 3 được mô tả là "mô hình nhanh nhất và tiết kiệm chi phí nhất trên thị trường", có khả năng đọc một bài báo nghiên cứu dày đặc "trong ít hơn ba giây".
- Opus đã vượt trội hơn hầu hết các mô hình khác trong nhiều bài kiểm tra benchmarking, cho thấy khả năng suy luận ở cấp độ sau đại học tốt hơn GPT-4 của OpenAI, với tỷ lệ 50.4% so với 35.7% của GPT-4.
- Anthropic đã huấn luyện các mô hình Claude 3 trên một hỗn hợp dữ liệu nội bộ không công bố, dữ liệu từ bên thứ ba và dữ liệu công khai tính đến tháng 8 năm 2023, sử dụng phần cứng từ AWS của Amazon và Google Cloud.

📌 Anthropic đã đạt được bước tiến đáng kể trong lĩnh vực AI với việc ra mắt Claude 3, một dòng mô hình AI đa phương tiện có khả năng vượt trội so với các mô hình hàng đầu hiện nay như Gemini và ChatGPT. Có ba phiên bản của Claude 3: Haiku, Sonnet và Opus, với Opus là mô hình "lớn nhất và thông minh nhất. Opus đã vượt trội cho thấy khả năng suy luận ở cấp độ sau đại học tốt hơn GPT-4 của OpenAI, với tỷ lệ 50,4% so với 35,7% của GPT-4. Phiên bản Haiku của Claude 3 được mô tả là "mô hình nhanh nhất và tiết kiệm chi phí nhất trên thị trường", có khả năng đọc một bài báo nghiên cứu dày đặc "trong ít hơn ba giây". Dữ liệu công khai tính đến tháng 8/2023, sử dụng phần cứng từ AWS của Amazon và Google Cloud.

Citations:
[1] https://www.theverge.com/2024/3/4/24090087/anthropic-claude-3-opus-ai-chatbot-multimodal

Phind-70B: Mô hình trí tuệ nhân tạo (AI) giúp thu hẹp khoảng cách về tốc độ thực thi và khoảng cách về chất lượng tạo mã với GPT-4 Turbo

- Phind-70B là một mô hình AI tiên tiến, được xây dựng dựa trên CodeLlama-70B và đã được cải tiến với 50 tỷ token bổ sung.
- Mô hình này đạt tốc độ lên đến 80 token mỗi giây, gấp 4 lần so với GPT-4 Turbo, nhờ sử dụng thư viện TensorRT-LLM từ NVIDIA trên GPU H100 mới nhất.
- Trong bài kiểm tra HumanEval, Phind-70B đã cho thấy hiệu suất vượt trội so với GPT-4 Turbo, đạt 82.3% so với 81.1% của GPT-4 Turbo.
- Tuy nhiên, trên bộ dữ liệu CRUXEval của Meta, Phind-70B có điểm số là 59% so với 62% của GPT-4 Turbo, chỉ thấp hơn một chút nhưng không phản ánh đầy đủ hiệu quả trong ứng dụng thực tế.
- Phind-70B nổi bật với khả năng sinh mã code xuất sắc, sẵn sàng tạo ra các mẫu mã một cách chi tiết mà không ngần ngại, đặc biệt phù hợp với các tải công việc thực tế.

📌 Phind-70B đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo, với khả năng thực thi nhanh chóng và chất lượng sinh mã vượt trội so với GPT-4 Turbo. Mô hình này đạt tốc độ lên đến 80 token mỗi giây, gấp 4 lần so với GPT-4 Turbo. Trong bài kiểm tra HumanEval, Phind-70B đã cho thấy hiệu suất vượt trội so với GPT-4 Turbo, đạt 82.3% so với 81.1% của GPT-4 Turbo. Tuy nhiên, trên bộ dữ liệu CRUXEval của Meta, Phind-70B có điểm số là 59% so với 62% của GPT-4 Turbo, chỉ thấp hơn một chút. Phind-70B nổi bật với khả năng sinh mã code xuất sắc.

Citations:
[1] https://www.marktechpost.com/2024/03/03/meet-phind-70b-an-artificial-intelligence-ai-model-that-closes-execution-speed-and-the-code-generation-quality-gap-with-gpt-4-turbo/

Những điều cần biết về Mistral AI: Công ty đứng sau đối thủ GPT-4 mới nhất

- Mistral AI là một startup AI của Pháp, được đồng sáng lập bởi các cựu nhân viên của Meta là Timothée Lacroix và Guillaume Lample, cùng với nhà nghiên cứu trước đây của DeepMind là Arthur Mensch, ra mắt vào tháng 4 năm 2023.
- Trong tuần qua, Mistral AI đã công bố mối quan hệ đối tác với Microsoft, tích hợp với Amazon Bedrock và phát hành các mô hình AI mới nhất của mình.
- Mistral AI đã phát triển và phát hành nhiều mô hình AI cho nhu cầu sử dụng khác nhau, bao gồm cả các mô hình thương mại và nguồn mở.
- Mô hình mới nhất và mạnh mẽ nhất của Mistral AI, Mistral Large, được công bố vào thứ Hai, cho thấy hiệu suất gần như tương đương với GPT-4 của OpenAI trên nhiều bài kiểm tra chuẩn và vượt trội so với các mô hình ngôn ngữ hàng đầu khác như Claude 2, Gemini Pro, GPT 3.5, và LLamA 2 70B.
- Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI.

📌 Mistral AI ra đời vào tháng 4 năm 2023 và sự đồng sáng lập bởi các chuyên gia hàng đầu trong lĩnh vực AI. Sự hợp tác với Microsoft và tích hợp với Amazon Bedrock cùng với việc phát hành mô hình Mistral Large cho thấy sự tiến bộ vượt bậc và khả năng cạnh tranh cao của Mistral AI so với các đối thủ như OpenAI. Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI. Điều này góp phần làm phong phú thêm lựa chọn cho người dùng và doanh nghiệp trong việc áp dụng công nghệ AI vào thực tiễn.

Citations:
[1] https://www.zdnet.com/article/what-to-know-about-mistral-ai-the-company-behind-the-latest-gpt-4-rival/

Windows 11 có plugin Microsoft Copilot và nhiều nâng cấp AI hơn

- Microsoft bắt đầu triển khai các nâng cấp Copilot và AI cho người dùng Windows 11 từ ngày hôm nay, áp dụng cho các bản cập nhật cuối năm 22H2 (2022) và 23H2 (2023).
- Copilot Pro được ra mắt vào tháng 1 và giờ đây hỗ trợ plugins, cho phép kết nối với các dịch vụ như OpenTable để đặt chỗ ngay trong cửa sổ chat của Copilot.
- Các plugins từ Kayak, Klarna và Shopify sẽ được ra mắt trong tháng tới, nhằm giữ người dùng sử dụng Copilot càng lâu càng tốt.
- Cập nhật mới cho phép điều chỉnh các cài đặt hệ thống như bật/tắt chế độ tiết kiệm pin, xem hồ sơ phần cứng, bật Live Captions, Narrator hoặc Screen Magnifier, và hiển thị danh sách mạng Wi-Fi có sẵn từ giao diện chat AI.
- Ứng dụng Photos giờ đây có tính năng Generative Erase giúp loại bỏ các đối tượng và yếu tố không mong muốn khỏi hình ảnh.
- Clipchamp sẽ bắt đầu xem trước công cụ Silence Removal AI để cắt bỏ những khoảnh khắc không mong muốn trong video.
- Microsoft kỳ vọng hầu hết các tính năng sẽ có sẵn khi ra mắt bản cập nhật xem trước không bảo mật vào tháng 3 năm 2024.

📌 Các nâng cấp AI và Copilot mới cho Windows 11 đánh dấu mở ra khả năng kết nối trực tiếp với các dịch vụ phổ biến, giúp người dùng thực hiện các tác vụ mà không cần rời khỏi cửa sổ chat của Copilot. Tính năng Generative Erase trong ứng dụng Photos và công cụ Silence Removal AI trong Clipchamp là những ví dụ điển hình của việc áp dụng AI để nâng cao chất lượng nội dung đa phương tiện. Microsoft đặt mục tiêu cung cấp hầu hết các tính năng mới này trong bản cập nhật không bảo mật vào tháng 3 năm 2024.

Citations:
[1] https://www.engadget.com/windows-11-gets-microsoft-copilot-plugins-and-more-ai-upgrades-180002527.html?_fsig=tSrbI5CVrRJfIsx3KRabkw--~A

Indosat và Tech Mahindra hợp tác cho dự án Bahasa Indonesia LLM

- Indosat Ooredoo Hutchison và Tech Mahindra công bố ký kết biên bản ghi nhớ (MoU) tại MWC 2024 để phát triển Garuda, một mô hình ngôn ngữ lớn (LLM) dành cho tiếng Bahasa Indonesia và các phương ngữ của nó.
- Dự án Garuda được xây dựng dựa trên nguyên tắc của Project Indus của Tech Mahindra, một mô hình cơ bản được thiết kế để giao tiếp bằng nhiều ngôn ngữ và phương ngữ Ấn Độ.
- Garuda sẽ được phát triển với 16 tỷ token Bahasa gốc, cung cấp 1,2 tỷ tham số để hình thành sự hiểu biết của mô hình về ngôn ngữ Bahasa.
- Phiên bản beta của mô hình Garuda sẽ được phát hành để thử nghiệm bởi Indosat và người nói tiếng Bahasa Indonesia. Mô hình sẽ được cải thiện thêm bằng cách sử dụng kỹ thuật RLHF (học tăng cường từ phản hồi của con người) để đảm bảo độ robust cho cuộc trò chuyện.
- Các tính năng độc đáo của Garuda sẽ tạo ra nhiều trường hợp sử dụng và cho phép khách hàng của Indosat tận dụng các ứng dụng khác nhau, bao gồm hỗ trợ khách hàng, trải nghiệm và tạo nội dung trên các ngành như y tế, thương mại điện tử, giáo dục nông thôn, ngân hàng và tài chính, nông nghiệp và viễn thông.
- Tech Mahindra sẽ tận dụng chuyên môn công nghệ của mình để thu thập và biên soạn dữ liệu bằng ngôn ngữ Indonesia, sau đó sẽ được tiền huấn luyện và phát hành dưới dạng mô hình đối thoại cho Indosat.

📌 Dự án Garuda giữa Indosat Ooredoo Hutchison và Tech Mahindra là một bước tiến quan trọng trong việc bảo tồn và phát triển ngôn ngữ Bahasa Indonesia và các phương ngữ của nó thông qua công nghệ AI. Với 16 tỷ token Bahasa gốc và 1,2 tỷ tham số, Garuda hứa hẹn sẽ cung cấp một mô hình ngôn ngữ lớn mạnh mẽ, có khả năng tạo ra các trải nghiệm cá nhân hóa cho người dùng và mở ra nhiều ứng dụng trong các lĩnh vực như y tế, thương mại điện tử, giáo dục, và nhiều hơn nữa. Sự hợp tác này không chỉ thúc đẩy đa dạng ngôn ngữ tại Indonesia mà còn mở ra cơ hội kinh doanh mới, đồng thời góp phần vào sự phát triển kinh tế - xã hội của quốc gia này.

Citations:
[1] https://developingtelecoms.com/index.php?catid=60&id=16328%3Aindosat-and-tech-mahindra-unite-for-bahasa-indonesia-llm-project&option=com_content&view=article

Microsoft Tạo Đột Phá với Mô Hình Ngôn Ngữ 1-bit LLM và BitNet b1.58

- Microsoft đã giới thiệu mô hình ngôn ngữ mới có tên là 1-bit LLM, với nghiên cứu BitNet đóng góp vào dự án này.
- Mô hình mới này sử dụng chỉ 1.58 bit để biểu diễn mỗi tham số (trọng số), thay vì sử dụng giá trị dấu phẩy động 16-bit (FP16) như các mô hình ngôn ngữ lớn (LLM) truyền thống.
- BitNet b1.58 giới hạn mỗi trọng số chỉ có thể nhận một trong ba giá trị: -1, 0, hoặc 1, giảm đáng kể lượng bit cần sử dụng.
- Mặc dù chỉ sử dụng 1.58 bit cho mỗi tham số, BitNet b1.58 vẫn đạt hiệu suất tương đương với các mô hình truyền thống cùng kích thước và dữ liệu huấn luyện, cả về độ hỗn loạn (perplexity) và hiệu suất công việc cuối cùng.
- Mô hình 1.58-bit LLM này giới thiệu một cách mới để mở rộng và huấn luyện mô hình ngôn ngữ, cân bằng giữa hiệu suất cao và chi phí hiệu quả.
- Nó mở ra khả năng tính toán mới và tiềm năng thiết kế phần cứng chuyên biệt tối ưu cho các mô hình 1-bit LLM.
- Bài báo cũng đề cập đến khả năng hỗ trợ chuỗi dài tự nhiên trong LLMs do BitNet b1.58, và đề xuất nghiên cứu tiếp theo về nén không mất dữ liệu để tăng hiệu quả hơn nữa.
- Cuối năm ngoái, Microsoft đã giới thiệu phiên bản mới của mô hình ngôn ngữ nhỏ (SML) Phi-2 với 2.7 tỷ tham số, vượt trội về khả năng hiểu và lý luận.

📌 Mô hình ngôn ngữ 1-bit LLM của Microsoft, cùng với nghiên cứu BitNet b1.58, đánh dấu một bước tiến quan trọng trong việc phát triển công nghệ AI. Việc giảm lượng bit cần thiết cho mỗi trọng số xuống chỉ còn 1.58 bit không những giúp giảm chi phí về mặt bộ nhớ, độ trễ, thông lượng và tiêu thụ năng lượng mà còn duy trì hiệu suất tương đương với các mô hình truyền thống. Điều này không chỉ mở ra hướng đi mới cho việc mở rộng và huấn luyện mô hình ngôn ngữ mà còn cho thấy tiềm năng trong việc thiết kế phần cứng chuyên biệt. Sự đổi mới này cũng gợi ý về khả năng hỗ trợ chuỗi dài tự nhiên và tiếp tục nghiên cứu về nén không mất dữ liệu, hứa hẹn sẽ mang lại hiệu quả cao hơn nữa trong tương lai.

https://analyticsindiamag.com/microsoft-introduces-1-bit-llm/

Meta có kế hoạch ra mắt mô hình ngôn ngữ AI mới Llama 3 vào tháng 7

- Meta dự kiến ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, nhằm cạnh tranh với các công ty công nghệ lớn khác như OpenAI và Google.
- LLaMA 3 được thiết kế để cải thiện hiệu suất và độ chính xác trong việc xử lý ngôn ngữ tự nhiên, mở ra khả năng ứng dụng rộng rãi trong nhiều lĩnh vực.
- Meta đã công bố thông tin này thông qua một báo cáo từ The Information, nhấn mạnh sự tập trung vào việc phát triển AI và công nghệ ngôn ngữ.
- Sự ra mắt của LLaMA 3 là một phần của nỗ lực lớn hơn của Meta trong việc nắm bắt cơ hội trong lĩnh vực AI, đặc biệt là sau thành công của các mô hình như ChatGPT của OpenAI.
- Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.

📌 Meta đang chuẩn bị ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, với mục tiêu cạnh tranh trong lĩnh vực công nghệ AI ngày càng sôi động. LLaMA 3 hứa hẹn sẽ mang lại những cải tiến đáng kể về hiệu suất và độ chính xác, mở ra khả năng ứng dụng trong nhiều lĩnh vực khác nhau, từ hỗ trợ khách hàng đến phân tích dữ liệu. Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.

Citations:
[1] https://www.reuters.com/technology/meta-plans-launch-new-ai-language-model-llama-3-july-information-reports-2024-02-28/

CEO Salesforce giải thích tại sao sản phẩm Einstein Copilot của công ty là duy nhất

- CEO Salesforce, Marc Benioff, đã chia sẻ với CNBC's Jim Cramer rằng sản phẩm Einstein Copilot của công ty có sự khác biệt so với các chương trình AI khác bởi cách thức nó sử dụng dữ liệu của khách hàng để đưa ra quyết định.
- Salesforce đã đưa ra hướng dẫn doanh thu yếu khi báo cáo thu nhập vào thứ Tư.
- Benioff nhấn mạnh rằng Salesforce sở hữu các giao diện người dùng xuất sắc như Sales Cloud, Service Cloud, Marketing Cloud, Tableau và Slack, đều là những phương tiện tuyệt vời để tương tác với dữ liệu.
- Điểm đặc biệt của Einstein Copilot là khả năng đi sâu vào dữ liệu với trí tuệ nhân tạo và cung cấp cái nhìn độc đáo nhờ vào việc dữ liệu được tích hợp và sống động hàng ngày trong hệ thống của Salesforce.
- Salesforce được xây dựng trên nền tảng dữ liệu và metadata phong phú, cho phép tạo ra những hiểu biết độc đáo từ dữ liệu đó.

📌 CEO Marc Benioff của Salesforce đã làm rõ về sự độc đáo của Einstein Copilot, nhấn mạnh vào khả năng sử dụng dữ liệu khách hàng một cách sâu sắc để đưa ra quyết định. Điểm nổi bật của sản phẩm này không chỉ là việc tích hợp với các giao diện người dùng hiện có như Sales Cloud hay Slack mà còn ở khả năng phân tích và cung cấp cái nhìn sâu sắc từ dữ liệu, điều mà được thực hiện nhờ vào cơ sở dữ liệu và metadata phong phú của Salesforce. 

Citations:
[1] https://www.cnbc.com/2024/02/28/salesforce-ceo-explains-why-the-einstein-copilot-product-is-unique.html

Google Mất 96 Tỷ USD Giá Trị sau Sự Cố Gemini, CEO Sundar Pichai vào Cuộc Khắc Phục

- Công ty mẹ của Google, Alphabet, đã chứng kiến giá trị thị trường giảm 96,9 tỷ USD sau khi tạm dừng tính năng sinh ảnh của công cụ AI Gemini do phát hiện thiên vị chống lại người da trắng.
- Kể từ khi Google tạm dừng tính năng sinh ảnh của Gemini vào thứ Năm, cổ phiếu Alphabet đã giảm 5,4%, giảm từ 1,798 nghìn tỷ USD xuống còn 1,702 nghìn tỷ USD.
- So sánh với cùng kỳ, chỉ số S&P 500 mất 0,3% và Nasdaq Composite mất 0,6%.
- Google đã tạm dừng tính năng sinh ảnh của Gemini sau khi người dùng trên mạng xã hội chỉ ra rằng nó tạo ra hình ảnh lịch sử không chính xác, đôi khi thay thế hình ảnh của người da trắng bằng hình ảnh của người da đen, người bản địa Mỹ và người Á Châu.
- CEO Google, Sundar Pichai, đã thông báo cho nhân viên rằng công ty đang làm việc "không ngừng nghỉ" để khắc phục thiên vị của Gemini, gọi những hình ảnh do mô hình tạo ra là "hoàn toàn không thể chấp nhận được".
- Google dự định sẽ tái ra mắt Gemini AI trong vài tuần tới.
- Google đã phải xin lỗi nhiều lần sau khi Gemini bị chỉ trích vì tạo ra nội dung "woke". Pichai cho biết, phản ứng của công cụ đối với người dùng là phản cảm.

📌 Google đã mất 96,9 tỷ USD giá trị sau khi tạm dừng tính năng sinh ảnh của công cụ AI Gemini do phát hiện thiên vị chống lại người da trắng, gây ra làn sóng phản ứng mạnh mẽ từ cộng đồng mạng và giới truyền thông. Sự kiện này không chỉ ảnh hưởng đến giá trị thị trường của Alphabet mà còn làm dấy lên những lo ngại về đạo đức và trách nhiệm của AI trong việc tạo ra nội dung không thiên vị. CEO Sundar Pichai đã cam kết rằng Google đang làm việc "không ngừng nghỉ" để khắc phục vấn đề và tái ra mắt Gemini AI với những cải tiến đáng kể. Sự việc này nhấn mạnh tầm quan trọng của việc giám sát và điều chỉnh AI để đảm bảo công bằng và chính xác trong tất cả các sản phẩm và dịch vụ.

Citations:
[1] https://www.foxbusiness.com/markets/google-loses-96b-value-gemini-fallout-ceo-damage-control

Nemotron-4 15B của NVIDIA đánh bại Mistral, Gemma và Llama 2 về khả năng suy luận

NVIDIA giới thiệu Nemotron 4.15B, một mô hình AI tạo sinh mạnh mẽ với khả năng tạo ra văn bản, hình ảnh, và video từ lời nhắc đơn giản.
- Meta keywords (in Vietnamese): NVIDIA, Nemotron 4.15B, AI tạo sinh, tạo văn bản, tạo hình ảnh, tạo video, công nghệ AI
- SEO title (in Vietnamese): NVIDIA Giới Thiệu Nemotron 4.15B: Đột Phá Mới trong AI Tạo Sinh

- NVIDIA đã ra mắt Nemotron 4.15B, một mô hình AI tạo sinh với khả năng tạo ra văn bản, hình ảnh, và video từ một lời nhắc đơn giản.
- Nemotron 4.15B được thiết kế để hỗ trợ các nhà phát triển và nghiên cứu viên trong việc tạo ra nội dung đa phương tiện một cách dễ dàng và nhanh chóng.
- Mô hình này có thể tạo ra văn bản, hình ảnh, và video chất lượng cao, mở ra khả năng ứng dụng trong nhiều lĩnh vực như giáo dục, giải trí, và quảng cáo.
- Nemotron 4.15B cũng được trang bị khả năng hiểu và tạo ra nội dung trong nhiều ngôn ngữ, làm cho nó trở thành công cụ hữu ích cho các tổ chức toàn cầu.
- Mặc dù Nemotron 4.15B không phải là mô hình nguồn mở, NVIDIA cung cấp quyền truy cập vào mô hình thông qua các dịch vụ và API, cho phép cộng đồng sử dụng và tận dụng công nghệ này trong các dự án của họ.
- Mô hình này được kỳ vọng sẽ thúc đẩy sự sáng tạo và đổi mới trong cộng đồng AI, cũng như cung cấp một công cụ mạnh mẽ cho việc tạo ra nội dung đa phương tiện.

📌 Nemotron 4.15B của NVIDIA là một bước tiến quan trọng trong lĩnh vực AI tạo sinh, mang lại khả năng tạo ra văn bản, hình ảnh, và video từ một lời nhắc đơn giản. Mặc dù không phải là mô hình nguồn mở, sự ra đời của Nemotron 4.15B mở ra cơ hội mới cho các nhà phát triển và nghiên cứu viên trong việc tạo ra nội dung đa phương tiện một cách dễ dàng và nhanh chóng. Sự kỳ vọng vào Nemotron 4.15B không chỉ nằm ở khả năng tạo ra nội dung chất lượng cao mà còn ở việc thúc đẩy sự sáng tạo và đổi mới trong cộng đồng AI, cung cấp một công cụ mạnh mẽ cho việc tạo ra nội dung đa phương tiện có thể ứng dụng rộng rãi trong nhiều lĩnh vực.

https://analyticsindiamag.com/nvidia-launches-nemotron-4-15b/

Qatar Ra Mắt Nền Tảng AI MEEZA.AI Để Biến Đổi Hoạt Động Kinh Doanh

- Nền tảng AI MEEZA.AI của Qatar đã được ra mắt, đánh dấu bước tiến lớn trong lĩnh vực AI tại Trung Đông.
- MEEZA.AI cung cấp một nền tảng an toàn, hợp tác cho việc phát triển AI, dẫn đầu đổi mới trong ngành công nghiệp.
- Nền tảng này hướng đến việc giải quyết nhiều thách thức khác nhau từ an ninh mạng đến thành phố thông minh.
- Sự kiện ra mắt MEEZA.AI có chủ đề "Mở khóa Khả năng Kinh Doanh", với sự tham gia của Bộ trưởng Bộ Truyền thông và Công nghệ Thông tin, H.E. Mohammed bin Ali Al Mannai.
- MEEZA.AI hợp tác với các công ty công nghệ AI hàng đầu và các startup sáng tạo toàn cầu, cùng với sự liên kết chiến lược với Viện Nghiên cứu Máy tính Qatar của Đại học Hamad Bin Khalifa (QCRI).
- Mohsen Nasser Al Marri, Giám đốc điều hành tạm thời, tự hào về việc ra mắt nền tảng và nhấn mạnh vai trò của MEEZA.AI trong việc hỗ trợ hoạt động trong các lĩnh vực quan trọng như an ninh mạng, y tế và giải trí.

📌 Nền tảng AI MEEZA.AI của Qatar đã được ra mắt, đánh dấu bước tiến lớn trong lĩnh vực AI tại Trung Đông. Việc ra mắt nền tảng AI MEEZA.AI của Qatar là một dấu mốc quan trọng, không chỉ cho sự phát triển của AI tại Trung Đông mà còn cho cả quá trình chuyển đổi số của các doanh nghiệp và chính phủ trong khu vực. Nền tảng này không chỉ giải quyết các thách thức hiện tại như an ninh mạng và xây dựng thành phố thông minh mà còn mở ra cơ hội cho sự đổi mới và hiệu quả trong quyết định và phân tích dữ liệu. Sự hợp tác với các công ty công nghệ AI hàng đầu và QCRI tạo nên một cộng đồng nghiên cứu hàng đầu, đảm bảo sự đổi mới liên tục và hỗ trợ kiến thức chuyên sâu. 

Citations:
[1] https://www.cryptopolitan.com/qatar-unveils-groundbreaking-ai-platform/

Reliance và 9 IIT sẽ ra mắt mô hình AI BharatGPT Hanooman của Ấn Độ

- Mô hình AI BharatGPT Hanooman được phát triển bởi Reliance và 9 IIT, đánh dấu bước tiến quan trọng trong việc ứng dụng AI cho phát triển xã hội và kinh tế Ấn Độ.
- Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.
- BharatGPT Hanooman có khả năng AI đa phương tiện, cho phép tạo nội dung từ văn bản sang văn bản, văn bản sang giọng nói, văn bản sang video và ngược lại, mở ra ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, quản lý, dịch vụ tài chính và giáo dục.
- Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ.
- Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu tận dụng khả năng của nó và đóng góp vào sự phát triển tiếp theo.

📌 BharatGPT Hanooman, một sáng kiến hợp tác giữa Reliance và 9 IIT, đại diện cho một bước tiến lớn trong lĩnh vực AI tại Ấn Độ, với mục tiêu không chỉ nâng cao khả năng tiếp cận công nghệ AI trong nước mà còn thúc đẩy sự đổi mới và phát triển kỹ thuật số.Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ. Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở.

Citations:
[1] https://economictimes.indiatimes.com/news/how-to/reliance-and-9-iits-set-to-unveil-bharatgpt-hanooman-next-month-heres-your-guide-to-the-new-ai-model/articleshow/107982956.cms

Mistral AI phát hành mô hình mới cạnh tranh với GPT-4 và trợ lý trò chuyện

- Mistral AI, một startup AI có trụ sở tại Paris, đã công bố ra mắt mô hình ngôn ngữ lớn mới có tên Mistral Large, nhằm cạnh tranh với các mô hình hàng đầu khác như GPT-4 và Claude 2.
- Mistral Large được thiết kế với khả năng suy luận nhằm đối đầu với các mô hình AI hàng đầu khác, và Mistral AI cũng giới thiệu dịch vụ trợ lý chat mới có tên Le Chat, hiện đang ở phiên bản beta.
- Mistral AI được thành lập vào tháng 5 năm 2023 và đã nhanh chóng gây quỹ được một lượng tiền lớn, bao gồm vòng gọi vốn hạt giống 113 triệu USD và một vòng gọi vốn khác vào tháng 12 với 415 triệu USD do Andreessen Horowitz (a16z) dẫn dắt.
- Công ty tuyên bố rằng Mistral Large xếp thứ hai sau GPT-4 dựa trên một số tiêu chuẩn đánh giá, mặc dù có thể có sự chọn lọc tiêu chuẩn và sự khác biệt trong việc sử dụng thực tế.
- Le Chat, dịch vụ trợ lý chat mới của Mistral AI, cho phép người dùng chọn giữa ba mô hình khác nhau: Mistral Small, Mistral Large và một mô hình nguyên mẫu được thiết kế để ngắn gọn và xúc tích có tên Mistral Next.
- Dịch vụ này hiện miễn phí nhưng công ty cũng có kế hoạch ra mắt phiên bản trả phí dành cho khách hàng doanh nghiệp với các tính năng như thanh toán trung tâm.

📌 Mistral AI đang nổi lên như một đối thủ đáng gờm trong lĩnh vực AI với việc ra mắt Mistral Large và Le Chat, nhằm cạnh tranh trực tiếp với GPT-4 và các mô hình AI hàng đầu khác. Sự ra đời của Mistral Large, với khả năng suy luận mạnh mẽ, và Le Chat, một dịch vụ trợ lý chat linh hoạt, cho thấy Mistral AI không chỉ tập trung vào việc phát triển công nghệ mà còn hướng tới việc tạo ra các sản phẩm thực tế có giá trị cho người dùng. Với sự hỗ trợ tài chính mạnh mẽ từ các vòng gọi vốn và sự dẫn dắt của Andreessen Horowitz, Mistral AI có tiềm năng lớn để trở thành một trong những người chơi chính trong cuộc đua phát triển AI.

Citations:
[1] https://techcrunch.com/2024/02/26/mistral-ai-releases-new-model-to-rival-gpt-4-and-its-own-chat-assistant/

Người sáng lập Ola Bhavish Aggarwal ra mắt chatbot AI của Ấn Độ 'Krutrim AI'

- Bhavish Aggarwal, người sáng lập và chủ tịch của Ola, đã ra mắt chatbot AI 'Krutrim AI' vào ngày thứ Hai, nhằm cạnh tranh với ChatGPT của OpenAI và Gemini của Google.
- Krutrim AI hiện đang được triển khai trong phiên bản beta công khai.
- Aggarwal khẳng định đây là sản phẩm thế hệ đầu tiên của họ và sẽ có nhiều cải tiến đáng kể trong tương lai dựa trên phản hồi từ người dùng.
- Chatbot này hỗ trợ người dùng bằng hơn 10 ngôn ngữ Ấn Độ, bao gồm tiếng Anh, Hindi, Tamil, Bengali, Marathi, Kannada, Gujarati và Hinglish (sự kết hợp giữa Hindi và Anh).
- Krutrim đã trở thành unicorn nhanh nhất của đất nước và là unicorn AI đầu tiên tại Ấn Độ sau khi hoàn thành vòng gọi vốn đầu tiên với số tiền 50 triệu USD, định giá công ty ở mức 1 tỷ USD.
- Vòng gọi vốn được dẫn dắt bởi các nhà đầu tư như Matrix Partners India và các đối tác khác.

📌 Krutrim AI đánh dấu bước ngoặt quan trọng trong lĩnh vực AI tại Ấn Độ, không chỉ với việc trở thành unicorn AI đầu tiên mà còn mở ra hướng đi mới cho công nghệ AI tại quốc gia này. Sự hỗ trợ đa ngôn ngữ, bao gồm cả Hinglish, cho thấy Krutrim AI không chỉ nhắm đến việc cung cấp dịch vụ cho người dùng nói tiếng Anh mà còn mở rộng tới các ngôn ngữ địa phương, đáp ứng nhu cầu của một phần lớn dân số Ấn Độ. 

Citations:
[1] https://www.businessinsider.in/business/startups/news/ola-founder-bhavish-aggarwal-launches-indias-ai-chatbot-krutrim-ai/articleshow/108010122.cms

Một cách mới để cho phép các chatbot AI trò chuyện cả ngày mà không gặp sự cố

- Nhóm nghiên cứu từ MIT và các nơi khác đã phát hiện ra nguyên nhân gây sụp đổ cho các chatbot AI khi thực hiện cuộc trò chuyện liên tục nhiều vòng và phát triển giải pháp đơn giản để giải quyết vấn đề này.
- Phương pháp mới, được gọi là StreamingLLM, cho phép chatbot duy trì cuộc trò chuyện không giới hạn mà không bị sập hoặc chậm lại bằng cách chỉnh sửa bộ nhớ cache key-value, giữ cho những dữ liệu đầu tiên không bị loại bỏ khỏi bộ nhớ.
- StreamingLLM giúp mô hình duy trì hiệu quả ngay cả khi cuộc trò chuyện kéo dài hơn 4 triệu từ và hoạt động nhanh hơn 22 lần so với phương pháp khác tránh sụp đổ bằng cách tính toán lại một phần của cuộc trò chuyện trước đó.
- Phương pháp này mở ra khả năng triển khai liên tục các mô hình ngôn ngữ lớn, giúp chatbot luôn sẵn sàng trò chuyện và phản hồi dựa trên các cuộc trò chuyện gần đây, hỗ trợ các ứng dụng mới như viết bản sao, chỉnh sửa hoặc tạo mã.

📌 Phát hiện và giải pháp mới từ nhóm nghiên cứu MIT đã mở ra một hướng tiếp cận mới trong việc duy trì hiệu suất của AI chatbot trong các cuộc trò chuyện dài không giới hạn. Bằng cách chỉnh sửa bộ nhớ cache key-value để giữ cho dữ liệu đầu tiên không bị loại bỏ, StreamingLLM không chỉ giúp chatbot tránh được tình trạng sụp đổ mà còn tăng tốc độ xử lý lên hơn 22 lần so với phương pháp truyền thống. Điều này không chỉ cải thiện đáng kể khả năng duy trì cuộc trò chuyện của chatbot mà còn mở ra khả năng ứng dụng trong nhiều lĩnh vực mới.

Citations:
[1] https://www.eurasiareview.com/25022024-a-new-way-to-let-ai-chatbots-converse-all-day-without-crashing/

CEO Nvidia Jensen Huang sử dụng Perplexity AI “gần như mỗi ngày” – ChatGPT cũng được yêu thích

- Trong cuộc phỏng vấn với Wired, CEO của Nvidia - Jensen Huang - tiết lộ ông sử dụng Perplexity AI gần như hàng ngày.

- Huang cho biết ông ưa chuộng Perplexity AI hơn các đối thủ như Bard/Gemini hay Grok.

- Perplexity AI được sử dụng bởi Huang chủ yếu cho mục đích nghiên cứu, đặc biệt là trong lĩnh vực khám phá dược phẩm với sự hỗ trợ của máy tính.

- Perplexity AI được mô tả là "công cụ trả lời hội thoại đầu tiên trên thế giới".

- Nvidia đã tham gia vòng gọi vốn Series B trị giá 73.6 triệu đô la vào tháng 1 năm 2024, do đó không ngạc nhiên khi Huang quan tâm đến Perplexity AI.

- Trong cuộc phỏng vấn, Huang cũng mô tả về một loại trung tâm dữ liệu mới, được gọi là "nhà máy AI", đã được phát triển trong vài năm và sắp được sản xuất tại Nvidia.

- Cuộc trò chuyện cũng đề cập đến các cuộc thảo luận thường xuyên của Huang với các giám đốc điều hành cấp cao của TSMC như Morris Chang, với các chủ đề nóng bỏng như đóng gói tiên tiến CoWoS, kế hoạch dung lượng và công nghệ mới liên quan.

 

📌 CEO của Nvidia, Jensen Huang, đã chia sẻ về việc ông sử dụng Perplexity AI và ChatGPT gần như hàng ngày, với một sự ưa chuộng rõ ràng cho Perplexity AI. Sự quan tâm của ông đối với AI không chỉ dừng lại ở việc sử dụng các công cụ này cho nghiên cứu cá nhân, đặc biệt là trong lĩnh vực khám phá dược phẩm, mà còn thể hiện qua việc Nvidia đầu tư vào công nghệ AI, như việc tham gia vào vòng gọi vốn Series B gần đây. Mô tả của Huang về "nhà máy AI" cũng cho thấy tầm nhìn của Nvidia về tương lai của trung tâm dữ liệu và sự phát triển của công nghệ AI, cũng như mối quan hệ chặt chẽ với TSMC trong việc phát triển các công nghệ tiên tiến như CoWoS.

 

Citations:

[1] Nvidia CEO Jensen Huang uses Perplexity AI 'almost every day' – ChatGPT is also a favorite https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-ceo-jensen-huang-uses-perplexity-ai-almost-every-day-chatgpt-is-also-a-favorite

Perplexity.ai cải tiến mô hình SEO của Google cho kỷ nguyên LLM

- Perplexity.ai là công cụ tìm kiếm dựa trên AI, ra mắt để cạnh tranh với Google và thách thức các chuẩn mực SEO hiện tại.

- Công ty được thành lập vào tháng 8 năm 2022 và đã phát triển từ 4 thành viên ban đầu lên đến khoảng 40 người.

- ChatGPT được phát hành vào ngày 30 tháng 11 năm 2022 và đã nhận được nhiều sự chú ý cũng như phản hồi từ cộng đồng.

- ChatGPT thường không cung cấp câu trả lời cập nhật, không trích dẫn nguồn và thường xuyên tạo ra thông tin không chính xác.

- Perplexity.ai đã phát triển công cụ tìm kiếm của mình, cập nhật hàng ngày và trả lời truy vấn bằng cách trích dẫn nhiều nguồn, với hơn 10 triệu người dùng hàng tháng.

- PerplexityBot, web crawler do Perplexity.ai thiết kế, được sử dụng để lập chỉ mục Internet và hỗ trợ công cụ tìm kiếm AI.

 

📌 Perplexity.ai đã nhanh chóng trở thành một đối thủ cạnh tranh với Google trong lĩnh vực tìm kiếm thông tin dựa trên AI, với hơn 10 triệu người dùng hàng tháng và một hệ thống cập nhật thông tin hàng ngày. Sự ra đời của Perplexity.ai cho thấy tiềm năng của AI trong việc cải thiện chất lượng tìm kiếm và khả năng cung cấp thông tin chính xác, cập nhật. Công cụ này không chỉ giải quyết các vấn đề mà ChatGPT gặp phải như thông tin lỗi thời và thiếu nguồn trích dẫn mà còn thách thức các quy tắc SEO truyền thống, mở ra một hướng đi mới cho ngành công nghiệp tìm kiếm trực tuyến.

 

Citations:

[1] Perplexity.ai Turns Tables on Google, Upends SEO Credos https://spectrum.ieee.org/perplexity-ai

 

Apple đã xây dựng một công cụ AI bí mật có tên là 'Ask' - đây là những gì chúng ta biết cho đến nay

- Apple đã phát triển một công cụ AI bí mật có tên là 'Ask', nhằm mục đích tăng tốc độ giải quyết các yêu cầu của AppleCare thông qua việc sử dụng AI tạo sinh.
- Công cụ này hiện chỉ được cung cấp cho một số cố vấn và dự kiến sẽ được triển khai cho nhiều nhân viên hơn trong tương lai gần.
- 'Ask' giúp các nhân viên hỗ trợ kỹ thuật cung cấp câu trả lời nhanh chóng cho các câu hỏi kỹ thuật từ khách hàng bằng cách phân tích cơ sở dữ liệu hỗ trợ nội bộ của Apple.
- Các cố vấn sau khi nhận được câu trả lời phải đánh giá là "hữu ích" hoặc "không hữu ích".
- Công cụ 'Ask' được kỳ vọng là một phần nhỏ trong nỗ lực của Apple nhằm tích hợp nhiều công cụ AI vào sản phẩm của mình, bao gồm cả bản phát hành iOS 18 và iPhone 16 sắp tới.
- Trong cuộc gọi thu nhập đầu tiên của năm, CEO Tim Cook của Apple đã nhấn mạnh vào việc đầu tư "một lượng thời gian và công sức lớn" vào AI, mặc dù không đề cập cụ thể đến iOS 18.

📌 Apple đang đặt cược lớn vào AI với việc phát triển công cụ 'Ask', một bước tiến quan trọng trong việc cải thiện dịch vụ hỗ trợ AppleCare. Công cụ này không chỉ giúp tăng tốc độ giải quyết yêu cầu từ khách hàng bằng cách cung cấp câu trả lời nhanh chóng và chính xác mà còn là minh chứng cho tham vọng lớn của Apple trong việc tích hợp AI vào các sản phẩm và dịch vụ của mình. Với việc iOS 18 và iPhone 16 sắp được ra mắt, cùng với sự nhấn mạnh vào AI từ CEO Tim Cook, có thể thấy Apple đang hướng tới một tương lai mà AI sẽ đóng một vai trò trung tâm trong trải nghiệm người dùng.

Citations:
[1] https://bgr.com/tech/apple-built-a-secret-ai-tool-called-ask-heres-what-we-know-so-far/

Google ra mắt hai LLM mở mới

- Google đã công bố ra mắt hai mô hình ngôn ngữ lớn (LLMs) mới có tên là Gemma.
- Các mô hình này không phải là nguồn mở, điều này được Jeanine Banks từ Google nhấn mạnh trong một cuộc họp báo trước khi thông báo chính thức được đưa ra.
- Google khẳng định cam kết của mình đối với nguồn mở, nhưng cũng rất cẩn trọng trong cách đặt tên và mô tả các mô hình Gemma.
- Tris Warkentin, giám đốc quản lý sản phẩm của Google DeepMind, đã nói rằng chất lượng tạo sinh của các mô hình AI đã cải thiện đáng kể trong năm qua.
- Những gì trước đây chỉ có thể thực hiện được bởi các mô hình cực lớn nay đã có thể đạt được với các mô hình nhỏ gọn hiện đại.

📌 Google đã tiến thêm một bước lớn trong lĩnh vực AI với việc giới thiệu hai mô hình ngôn ngữ lớn mới, Gemma, mặc dù chúng không được phát hành dưới dạng nguồn mở. Sự kiện này cho thấy sự tiến bộ vượt bậc trong chất lượng tạo sinh của AI, khi những công việc trước đây chỉ có thể do các mô hình lớn thực hiện nay đã trở nên khả thi với các mô hình nhỏ gọn hơn. Google, với cam kết của mình đối với nguồn mở, đã thể hiện sự thận trọng trong việc định hình và quảng bá cho các mô hình Gemma, điều này có thể phản ánh một chiến lược cân nhắc giữa việc chia sẻ công nghệ và bảo vệ sở hữu trí tuệ.

Citations:
[1] https://techcrunch.com/2024/02/21/google-launches-two-new-open-llms/

Mô hình Groq AI lan truyền và cạnh tranh với ChatGPT, thách thức Grok của Elon Musk

- Groq là mô hình AI mới xuất hiện và nhanh chóng trở nên phổ biến trên mạng xã hội với tốc độ phản hồi và công nghệ mới có khả năng thay thế GPU.
- Mô hình này đã trở thành hiện tượng qua đêm sau khi kết quả thử nghiệm công khai trên nền tảng mạng xã hội X cho thấy tốc độ tính toán và phản hồi vượt trội so với ChatGPT.
- Groq có khả năng tạo ra các câu trả lời có chứng cứ, chi tiết với hàng trăm từ trong chưa đầy một giây, với thời gian tìm kiếm chiếm hơn 3/4 tổng thời gian.
- Đội ngũ phát triển Groq đã tạo ra chip ASIC riêng biệt cho LLM, cho phép mô hình tạo ra khoảng 500 token mỗi giây.
- Công ty phía sau Groq không phải là mới, được thành lập từ năm 2016 và đã đăng ký thương hiệu Groq từ thời điểm đó.
- Một số người dùng trên nền tảng đã bắt đầu so sánh mô hình LPU của Groq với các mô hình dựa trên GPU khác, mô tả Groq là "bước đột phá" cho các sản phẩm cần độ trễ thấp.

📌 Groq, mô hình AI mới, đang tạo ra một làn sóng mới trên mạng xã hội với khả năng phản hồi nhanh chóng và công nghệ tiên tiến. Với chip ASIC được phát triển riêng, Groq có thể xử lý khoảng 500 token mỗi giây, đánh dấu sự khác biệt rõ rệt so với ChatGPT 3.5. Sự xuất hiện của Groq không chỉ làm dấy lên cuộc cạnh tranh trong lĩnh vực AI mà còn mở ra cơ hội cho các ứng dụng đòi hỏi độ trễ thấp, mang lại trải nghiệm người dùng hoàn toàn khác biệt. 

Citations:
[1] https://cointelegraph.com/news/groq-ai-model-viral-rivals-chat-gpt

CoRover.ai là Người chiến thắng thầm lặng trong Cuộc đua LLM Ấn Độ

- Ankush Sabharwal, đồng sáng lập CoRover.ai, đã phát triển BharatGPT và mới đây công ty đã ra mắt tablet giáo dục Milkyway với trợ lý ảo BharatGPT.
- CoRover.ai bắt đầu hành trình AI từ năm 2016 và đã xây dựng trợ lý ảo cho các đối tác và cơ quan chính phủ như IRCTC, MaxLife, Cảnh sát Chennai và LIC.
- BharatGPT của CoRover hỗ trợ thông tin, giao dịch, tư vấn và hỗ trợ đa ngôn ngữ cho 14 thứ tiếng Ấn Độ, bao gồm cả âm thanh, video và văn bản.
- CoRover.ai đã sử dụng mô hình Gordon của Microsoft để xây dựng trợ lý ảo và sau đó tinh chỉnh mô hình Pythia dựa trên Instruct GPT từ Allen AI Institute với 6.9 tỷ tham số.
- BharatGPT được sử dụng để cung cấp năng lực cho các trợ lý ảo khác và không tính phí thêm cho việc xây dựng mô hình riêng.
- CoRover.ai có quyền thu thập dữ liệu từ khách hàng và đang tìm cách mua thêm GPU để xây dựng mô hình cơ sở.
- Sabharwal nhấn mạnh việc sử dụng các mô hình cơ sở có sẵn để xây dựng trợ lý ảo cho các trường hợp sử dụng cụ thể thay vì mô hình tổng quát.
- CoRover.ai được Google hỗ trợ và sử dụng dịch vụ đám mây của Google để xây dựng LLMs, đồng thời thuê GPU từ Google.
- CoRover.ai có hơn 400 khách hàng tiềm năng từ Ấn Độ, Hàn Quốc và các nơi khác trên thế giới, với mục tiêu cung cấp trợ lý ảo tập trung vào con người.

📌 CoRover.ai, dưới sự đồng sáng lập của Ankush Sabharwal, đã đạt được những bước tiến quan trọng trong việc phát triển BharatGPT, một trợ lý ảo hỗ trợ đa ngôn ngữ và đa dạng hình thức như âm thanh, video và văn bản. Với việc tích hợp trợ lý ảo vào tablet Milkyway, CoRover.ai không chỉ mở rộng ảnh hưởng của mình trong lĩnh vực giáo dục mà còn hướng tới việc cung cấp giải pháp AI từ cốt lõi cho các doanh nghiệp và cơ quan chính phủ. Sự hợp tác với Google và việc sử dụng dữ liệu độc đáo từ Ấn Độ cho phép CoRover.ai tạo ra các mô hình AI mạnh mẽ, đồng thời đảm bảo rằng dữ liệu được giữ lại trong nước. Với hơn 1,3 tỷ người dùng thông qua các khách hàng của mình và mục tiêu phát triển trợ lý ảo tập trung vào con người, CoRover.ai đang định hình tương lai của AI tại Ấn Độ và trên toàn cầu.

Citations:
https://analyticsindiamag.com/corover-ai-is-the-silent-winner-of-indian-llm-race/

Thực hành Google Gemini: Trợ lý mới có rất nhiều ý tưởng

- Google Gemini không chỉ là một phiên bản nâng cấp của Google Assistant mà còn là một công cụ AI mới, giúp người dùng tương tác với các ứng dụng khác của Google như Maps và Search.
- Gemini có khả năng lưu trữ cuộc trò chuyện trực tiếp vào Google Docs hoặc xuất chúng thành tin nhắn Gmail, mang lại sự linh hoạt và tiện lợi cho người dùng.
- Người dùng có thể chọn không sử dụng Gemini như một trợ lý thay thế khi nhấn nút Nguồn hoặc gọi 'Hey Google', và thay vào đó sử dụng Google Assistant thông qua cài đặt.
- Gemini cung cấp các gợi ý không đồng nhất; một số có thể không tốt nhưng đôi khi lại rất tuyệt vời, đặc biệt khi nó đề xuất các lựa chọn tương tự dựa trên sở thích của người dùng.
- Gemini không chỉ giúp đặt hẹn, kiểm tra thời tiết hay điều khiển nhà thông minh như Google Assistant mà còn hỗ trợ mở rộng ý tưởng và kế hoạch, cho thấy khả năng vượt trội trong việc tương tác và hỗ trợ người dùng.

📌 Google Gemini đánh dấu một bước tiến mới trong lĩnh vực trợ lý ảo và AI, không chỉ giới hạn ở việc thực hiện các lệnh cơ bản như đặt hẹn hay kiểm tra thời tiết mà còn mở rộng khả năng tương tác với người dùng thông qua việc tích hợp sâu với các ứng dụng khác của Google như Maps và Search. Sự linh hoạt trong việc lưu trữ và xuất dữ liệu, cùng với khả năng đề xuất các ý tưởng và lựa chọn phù hợp với sở thích cá nhân, làm cho Gemini trở thành một công cụ độc đáo và hữu ích, mở ra những khả năng mới cho trải nghiệm người dùng với công nghệ AI.

Citations:
[1] https://www.techradar.com/computing/artificial-intelligence/google-gemini

Mọi thứ trở nên kỳ lạ khi AI bắt đầu tự đào tạo

- AI tự học có thể dẫn đến hậu quả khôn lường, từ thảm họa to lớn, những thiếu sót và định kiến nhỏ, cho đến những đột phá không thể hiểu được.
- Việc AI tự học được cho là rẻ hơn, ít tốn công sức hơn và có thể đồng nhất hơn so với phản hồi từ con người, nhưng cũng tiềm ẩn rủi ro.
- Các mô hình AI hiện tại đã chứa đầy những thiếu sót như ảo giác, định kiến, và hiểu lầm cơ bản về thế giới, mà chúng truyền đạt cho người dùng qua các đầu ra của mình.
- Rohan Taori, một nhà khoa học máy tính tại Stanford, cho biết hiện nay, việc tự học của AI chủ yếu là về "đặt ra quy tắc của trò chơi".
- Soatto so sánh việc tự học của AI với việc bôi bơ lên một miếng bánh mì khô. Kỹ thuật tự học tốt nhất hiện nay chỉ đơn giản là lan tỏa bơ đều hơn, chứ không cung cấp bất kỳ kỹ năng mới cơ bản nào.
- AI tự học gần đây đã được chứng minh, trong một số cài đặt nghiên cứu hạn chế, có thể cung cấp tóm tắt hữu ích hơn, viết mã tốt hơn, và thể hiện lý luận thông thường tốt hơn.
- Dù AI tự cải thiện có thể cắt giảm chi phí đáng tin cậy cho OpenAI, Google và tất cả những người khác bằng cách mô phỏng một lực lượng đánh giá của con người vô hạn.

📌 Việc AI tự học đang mở ra những khả năng mới và thách thức đối với cách chúng ta phát triển và sử dụng công nghệ. Mặc dù tiềm ẩn rủi ro từ những thiếu sót và định kiến mà các mô hình AI hiện tại mang lại, nhưng cũng có tiềm năng cho những đột phá không thể hiểu được. Các nghiên cứu gần đây cho thấy AI tự học có thể cung cấp những lợi ích thiết thực như tóm tắt hữu ích hơn, viết mã tốt hơn và lý luận thông thường tốt hơn. Điều này cho thấy, thay vì hoàn toàn tin tưởng hoặc khinh thường công nghệ, chúng ta cần coi các mô hình này như những agent nghiêm túc, có khả năng học hỏi hôm nay và có thể dạy chúng ta hoặc lẫn nhau vào ngày mai.

Citations:
[1] https://www.theatlantic.com/technology/archive/2024/02/artificial-intelligence-self-learning/677484/

Mô hình AI mới của Meta học bằng cách xem video

- Meta đã phát triển mô hình AI mới có tên là Video Joint Embedding Predictive Architecture (V-JEPA), học hỏi từ video thay vì văn bản.
- V-JEPA sử dụng kỹ thuật che giấu một phần màn hình và dự đoán những gì xảy ra, giúp nó phát triển một mô hình khái niệm về thế giới.
- Mô hình này không phải là mô hình tạo sinh mà là mô hình dự đoán, với khả năng hiểu rõ các tương tác chi tiết giữa các đối tượng sau quá trình huấn luyện sơ bộ.
- Yann LeCun, người đứng đầu nhóm nghiên cứu AI cơ bản của Meta (FAIR), nhấn mạnh mục tiêu là xây dựng trí tuệ máy tính tiên tiến có thể học hỏi giống như con người.
- Nghiên cứu về V-JEPA có thể có ảnh hưởng lớn đến Meta và toàn bộ hệ sinh thái AI, đặc biệt là trong việc giảm thời gian và công suất tính toán cần thiết cho việc huấn luyện mô hình.
- Meta cũng đang xem xét việc kết hợp âm thanh vào video trong mô hình V-JEPA, tạo thêm một chiều dữ liệu mới cho mô hình học hỏi.
- Meta công bố mô hình V-JEPA dưới giấy phép Creative Commons phi thương mại, cho phép các nhà nghiên cứu thử nghiệm và mở rộng khả năng của nó.

📌 Mô hình AI mới của Meta, V-JEPA, đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo, với cách tiếp cận độc đáo trong việc học hỏi từ video thay vì văn bản. Điều này không chỉ mở ra khả năng phát triển các mô hình AI hiểu biết sâu sắc về thế giới qua video mà còn hứa hẹn giảm đáng kể chi phí và thời gian cần thiết cho việc huấn luyện các mô hình nền tảng. Bằng cách công bố mô hình dưới giấy phép Creative Commons phi thương mại, Meta khuyến khích sự thử nghiệm và đổi mới trong cộng đồng nghiên cứu, hướng tới việc mở rộng khả năng của V-JEPA và thúc đẩy tiến bộ trong lĩnh vực AI.

Nhân viên DeepMind và Meta có kế hoạch ra mắt một chatbot AI mới có thể có lợi thế hơn ChatGPT và Bard

- Reka, một startup AI mới, đang phát triển để cạnh tranh với các chatbot AI lớn như Gemini và ChatGPT.
- Mô hình ngôn ngữ đa ngôn ngữ Reka Flash đã được huấn luyện trong hơn 32 ngôn ngữ và có 21 tỷ tham số.
- Reka Flash có thể có lợi thế cạnh tranh với Google Gemini Pro và ChatGPT 3.5 trên nhiều chuẩn mực AI khác nhau.
- Reka cũng đã phát hành phiên bản gọn nhẹ hơn của mô hình là Reka Edge với 7 tỷ tham số, phù hợp cho các trường hợp sử dụng cụ thể như sử dụng trên thiết bị.
- Mô hình này hiện đã có sẵn cho công chúng dưới dạng beta trên trang web chính thức của Reka.
- Chatbot, được giới thiệu với tên Yasa, phát triển bởi Reka, cung cấp các dịch vụ AI thông thường như kiến thức chung, chia sẻ đùa cợt hoặc câu chuyện, và giải quyết vấn đề.
- Reka (hoặc Yasa) được đánh giá cao với giao diện người dùng đẹp mắt, dễ sử dụng, khả năng đa ngôn ngữ và tính cách hữu ích, ít cảm giác máy móc.

📌 Reka đang nổi lên như một đối thủ tiềm năng trong lĩnh vực chatbot AI, với mô hình ngôn ngữ đa ngôn ngữ Reka Flash có 21 tỷ tham số và khả năng hỗ trợ hơn 32 ngôn ngữ. Sự cạnh tranh này không chỉ dựa trên số lượng tham số mà còn ở khả năng đa ngôn ngữ và giao diện người dùng thân thiện, dễ sử dụng. Phiên bản gọn nhẹ hơn, Reka Edge, cũng cho thấy sự linh hoạt của công ty trong việc phát triển sản phẩm phù hợp với nhu cầu sử dụng cụ thể. Sự đánh giá tích cực từ người dùng ban đầu cho thấy Reka có thể trở thành một đối thủ đáng gờm cho các mô hình chatbot AI hiện tại như Google Gemini Pro và ChatGPT 3.5.

Citations:
[1] https://www.techradar.com/computing/artificial-intelligence/deepmind-and-meta-staff-plan-to-launch-a-new-ai-chatbot-that-could-have-the-edge-over-chatgpt-and-bard

Singapore đang trở thành AI hub với các mô hình thương mại bằng ngôn ngữ địa phương

- Singapore đặt mục tiêu trở thành trung tâm AI toàn cầu vào năm 2024, tập trung vào các mô hình AI phục vụ thị trường Đông Nam Á.
- Sáng kiến AI Singapore dẫn đầu trong việc phát triển mô hình AI của quốc gia, đặc biệt là những mô hình phục vụ cộng đồng địa phương.
- SEA-LION là mô hình ngôn ngữ lớn (LLM) nguồn mở giống ChatGPT, được xây dựng bởi AI Singapore để đại diện cho ngôn ngữ và văn hóa Đông Nam Á.
- Mô hình SEA-LION đã được huấn luyện trên dữ liệu của 11 ngôn ngữ như tiếng Việt, Thái và Bahasa Indonesia, dự kiến sẽ sẵn sàng vào năm 2024.
- Dr. Leslie Teo, giám đốc cấp cao về sản phẩm AI tại AI Singapore, cho biết họ dự định phát hành một mô hình được điều chỉnh hướng dẫn tốt hơn trong vài tuần tới.
- Singapore nổi tiếng là quốc gia dẫn đầu và là trung tâm cho sự phát triển công nghệ tiền mã hóa và blockchain.
- Một giám đốc của Google Cloud nói với CNBC rằng Singapore có tiềm năng "rất cao" để thêm AI vào danh sách đó nhờ môi trường thúc đẩy sự đổi mới.
- AI Singapore dự định mở rộng mạng lưới cộng tác của mình để phát triển khả năng của SEA-LION và thúc đẩy việc áp dụng mô hình bởi các tổ chức khác nhau trong khu vực.
- Vào cuối năm 2023, Singapore đã công bố Chiến lược AI Quốc gia 2.0, trong đó tiết lộ kế hoạch cho 15.000 chuyên gia AI, nâng cao năng lực chính phủ, xây dựng...

📌 Singapore đang tiến gần hơn tới mục tiêu trở thành trung tâm AI toàn cầu với việc phát triển mô hình SEA-LION, một mô hình ngôn ngữ lớn nguồn mở hỗ trợ 11 ngôn ngữ Đông Nam Á, trong đó có tiếng Việt. Sự hợp tác và môi trường đổi mới tại Singapore đã tạo điều kiện thuận lợi cho việc phát triển công nghệ AI, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên. Với kế hoạch phát hành một phiên bản mô hình được điều chỉnh hướng dẫn tốt hơn trong vài tuần tới, AI Singapore đang mở rộng mạng lưới cộng tác và thúc đẩy việc áp dụng mô hình SEA-LION bởi các tổ chức trong khu vực. Chiến lược AI Quốc gia 2.0 của Singapore cũng phản ánh cam kết mạnh mẽ của quốc gia này trong việc đào tạo 15.000 chuyên gia AI, nâng cao năng lực chính phủ... 

Citations:
[1] https://cointelegraph.com/news/singapore-ai-hub-local-languages

HuggingFace Assistants một giải pháp thay thế miễn phí mới cho GPT tùy chỉnh ChatGPT

- HuggingFace đang tập trung vào việc tích hợp và truy cập, phát triển các điểm cuối REST cho các chức năng tùy chỉnh, cho phép người dùng tích hợp các tính năng chuyên biệt vào trợ lý AI của họ một cách dễ dàng.
- Người dùng có thể bắt đầu xây dựng trợ lý của họ từ đầu hoặc chỉnh sửa những trợ lý được tạo bởi cộng đồng thông qua trang web của HuggingFace.
- HuggingFace cũng đang lên kế hoạch giới thiệu các tính năng như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, làm tăng chức năng của các trợ lý AI.
- Họ cũng đang làm việc để tích hợp các hình thu nhỏ được tạo bởi AI, thêm một yếu tố hình ảnh vào các trợ lý, làm cho chúng thêm phần hấp dẫn và thân thiện với người dùng.
- Cộng đồng và hỗ trợ cũng là trọng tâm trong triết lý của HuggingFace. Công ty cung cấp các lợi ích Patreon, nổi bật lên các lợi ích của việc đăng ký công cụ AI miễn phí, cơ hội tư vấn, kết nối và các dự án cộng đồng hợp tác.

📌 HuggingFace đang tạo ra một môi trường hợp tác, khuyến khích sự đổi mới từ người dùng bằng cách phát triển các điểm cuối REST cho các chức năng tùy chỉnh, cho phép tích hợp các tính năng chuyên biệt vào trợ lý AI. Họ cũng đang lên kế hoạch giới thiệu các tính năng như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, làm tăng chức năng của các trợ lý AI. Hỗ trợ cộng đồng và hỗ trợ cũng là một phần quan trọng của triết lý của HuggingFace, với các lợi ích Patreon nhằm tạo ra một hệ sinh thái hỗ trợ, khuyến khích sự tham gia của người dùng và đóng góp vào việc cải tiến liên tục của công nghệ AI.

Citations:
[1] https://www.geeky-gadgets.com/huggingface-assistants/

Google Deepmind đề xuất khuôn khổ 'tự khám phá' cho LLM, cải thiện hiệu suất GPT-4

- Google Deepmind đã đề xuất một framework mới có tên là 'self-discover' cho LLMs, đã cải thiện hiệu suất của GPT-4.
- Khi làm việc với GPT-4, phương pháp 'self-discover' đã đạt được kết quả với độ chính xác là 81%, 85% và 73% trên các nhiệm vụ Big-Bench Hard, Thinking for Doing và Math, tương ứng.
- Tuy nhiên, khi làm việc với chain-of-thought, kết quả giảm xuống còn 75%, 52% và 71%, tương ứng.
- Khi so sánh với phương pháp plan-and-solve, một khoảng cách gần như tương tự cũng được ghi nhận.
- Các nhà nghiên cứu đã kiểm tra cách tiếp cận mới này với nhiều mô hình khác nhau, bao gồm GPT-4 và PaLM 2-L, trên 25 nhiệm vụ suy luận, bao gồm Big-Bench Hard, Thinking for Doing và Math.
- Trong 21 trên tổng số 25 nhiệm vụ, 'self-discover' được tìm thấy vượt trội hơn chain-of-thought reasoning và các kỹ thuật khác với mức tăng hiệu suất lên đến 32%.
- Các nhà nghiên cứu cũng phát hiện rằng nó hoạt động tốt hơn về mặt hiệu quả bằng cách yêu cầu 10 đến 40 lần ít hơn về tính toán suy luận.

📌Google Deepmind đã đề xuất một framework mới có tên là 'self-discover' cho LLMs, đã cải thiện hiệu suất của GPT-4. Khi làm việc với GPT-4, phương pháp 'self-discover' đã đạt được kết quả với độ chính xác là 81%, 85% và 73% trên các nhiệm vụ Big-Bench Hard, Thinking for Doing và Math, tương ứng. Trong 21 trên tổng số 25 nhiệm vụ, 'self-discover' được tìm thấy vượt trội hơn chain-of-thought reasoning và các kỹ thuật khác với mức tăng hiệu suất lên đến 32%.

Citations:
[1] https://venturebeat.com/ai/google-deepmind-proposes-self-discover-framework-for-llms-improves-gpt-4-performance/

AI của Google giờ đây có một cái tên mới: Gemini

- Google đã đổi tên chatbot Bard của mình thành Gemini và giới thiệu ứng dụng Gemini dành cho Android.
- Gemini cũng sẽ thay thế cho các tính năng AI trước đây của Google Workspace như Gmail và Docs, trước đây được gọi là Duet AI.
- Gemini Ultra 1.0, phiên bản mô hình ngôn ngữ lớn nhất và mạnh mẽ nhất của Google, đã được phát hành cho công chúng.
- Ứng dụng Gemini trên Android cho phép người dùng đặt Gemini làm trợ lý mặc định, thay thế cho Google Assistant.
- Không có ứng dụng Gemini riêng biệt cho iOS, nhưng người dùng có thể truy cập các tính năng AI thông qua ứng dụng Google.
- Google đã thêm một công tắc cho phép chuyển đổi từ Tìm kiếm sang Gemini ngay trên đầu ứng dụng, cho thấy tầm quan trọng của Gemini đối với Google.

📌 Google đã chính thức đổi tên AI của mình thành Gemini, đánh dấu một bước ngoặt quan trọng trong chiến lược phát triển công nghệ trí tuệ nhân tạo của hãng. Việc giới thiệu ứng dụng Gemini cho Android và tích hợp các tính năng AI vào Google Workspace dưới thương hiệu Gemini cho thấy Google đang hướng tới việc tạo ra một trải nghiệm thống nhất cho người dùng. Sự ra đời của Gemini Ultra 1.0 cũng phản ánh cam kết của Google trong việc phát triển các mô hình ngôn ngữ lớn, mở rộng khả năng của AI trong việc hỗ trợ các công việc hàng ngày. Việc không có ứng dụng riêng cho iOS nhưng vẫn cung cấp tính năng thông qua ứng dụng Google cũng là một chiến lược để mở rộng sự hiện diện của Gemini trên nhiều nền tảng. Cuối cùng, việc thêm công tắc chuyển đổi từ Tìm kiếm sang Gemini ngay trên ứng dụng là một dấu hiệu cho thấy Google đang đặt mức độ ưu tiên cao cho Gemini, có thể sánh ngang với sản phẩm Tìm kiếm - trụ cột lâu năm của Google.

Citations:
[1] https://www.theverge.com/2024/2/8/24065553/google-gemini-ios-android-app-duet-bard

TikTok owner ByteDance launches its answer to OpenAI’s GPTs, accelerating a generative AI push amid ChatGPT frenzy

- ByteDance, chủ sở hữu của TikTok, đã ra mắt Coze, một nền tảng phát triển AI "tất cả trong một", cho phép người dùng tạo bot mà không cần lập trình[1].
- Coze được triển khai tại Trung Quốc, nơi dịch vụ của OpenAI không chính thức có mặt[1].
- Người dùng có thể chia sẻ bot chat của mình trên các ứng dụng khác của ByteDance, như công cụ hợp tác doanh nghiệp Feishu, hoặc thậm chí là WeChat, ứng dụng siêu cấp của Tencent Holdings với hơn 1,3 tỷ người dùng[1].
- ByteDance đã tăng tốc đẩy mạnh AI của mình, đồng thời thu nhỏ một số hoạt động khác[1].
- ByteDance đã gần đây đóng cửa một nền tảng game và một bách khoa toàn thư y tế, nhấn mạnh sự tập trung mới của họ vào AI trong bối cảnh sự phổ biến của ChatGPT và các công cụ AI tạo sinh khác[1].
- CEO ByteDance, Liang Rubo, đã chỉ trích nhân viên vì "không đủ nhạy cảm" với sự xuất hiện của các công nghệ mới, như ChatGPT[1].

📌 ByteDance, chủ sở hữu của TikTok, đã ra mắt Coze, một nền tảng phát triển AI "tất cả trong một", cho phép người dùng tạo bot mà không cần lập trình. Điều này đánh dấu bước tăng tốc trong việc đẩy mạnh AI tạo sinh của ByteDance. Coze được triển khai tại Trung Quốc, nơi dịch vụ của OpenAI không chính thức có mặt. Người dùng có thể chia sẻ bot chat của mình trên các ứng dụng khác của ByteDance, như công cụ hợp tác doanh nghiệp Feishu, hoặc thậm chí là WeChat, ứng dụng siêu cấp của Tencent Holdings với hơn 1,3 tỷ người dùng. ByteDance đã tăng tốc đẩy mạnh AI của mình, đồng thời thu nhỏ một số hoạt động khác. CEO ByteDance, Liang Rubo, đã chỉ trích nhân viên vì "không đủ nhạy cảm" với sự xuất hiện của các công nghệ mới, như ChatGPT.

Citations:
[1] https://www.scmp.com/tech/article/3250585/tiktok-owner-bytedance-launches-its-answer-openais-gpts-accelerating-generative-ai-push-amid-chatgpt

AIWaves giới thiệu Weaver: Một nhóm LLM chuyên dùng cho viết lách

  • AIWaves Inc. giới thiệu 'Weaver,' một dòng LLMs (Large Language Models) mới chuyên biệt cho việc viết lách sáng tạo và chuyên nghiệp.
  • Weaver bao gồm các mô hình với kích thước khác nhau, mỗi mô hình được điều chỉnh cụ thể cho từng ứng dụng nhất định.
  • Quá trình đào tạo Weaver tập trung vào nội dung chất lượng cao như sách và bài báo để tạo ra văn bản phản ánh sự sáng tạo và phong cách phong phú của con người.
  • Weaver sử dụng khung công tác "instruction backtranslation framework" và thuật toán "Constitutional Direct Preference Optimization" (DPO) để sinh ra văn bản sáng tạo, cuốn hút và phù hợp với sở thích của những người viết chuyên nghiệp.
  • Thuật toán DPO là nền tảng quan trọng trong quá trình căn chỉnh Weaver, tạo ra ví dụ tiêu cực dựa trên các ví dụ tích cực, đảm bảo nội dung sản xuất ra có nguyên tắc và chất lượng cao.
  • Weaver còn tích hợp "retrieval-augmented generation" (RAG) và gọi hàm trong quá trình đào tạo, cho phép tích hợp kiến thức bên ngoài, công cụ hoặc APIs vào hệ thống hỗ trợ viết lách cá nhân hóa.
  • Weaver Ultra, mô hình tiên tiến nhất trong dòng Weaver, đã thiết lập chuẩn mực mới trong việc viết lách sáng tạo, vượt qua hiệu suất của các mô hình LLMs tổng quát như GPT-4.
  • Trong đánh giá, Weaver đã được xác nhận về hiệu quả trong các ứng dụng thực tế thông qua đánh giá máy móc và con người, nâng cao năng suất và chất lượng sản phẩm của người viết trong các tình huống được hỗ trợ bởi AI.

📌 'Weaver,' một dòng LLM mới chuyên biệt cho việc viết lách sáng tạo và chuyên nghiệp. Các phương pháp và công nghệ được sử dụng trong Weaver đã khắc phục những hạn chế của các mô hình LLMs tổng quát, cho phép tạo ra nội dung được AI sinh ra có tính tinh tế và giống con người hơn. Weaver Ultra, mô hình tiên tiến nhất trong dòng Weaver, đã thiết lập chuẩn mực mới trong việc viết lách sáng tạo, vượt qua hiệu suất của các mô hình LLMs tổng quát như GPT-4. Sự thành công của Weaver làm nổi bật tiềm năng và tầm quan trọng của các LLMs chuyên biệt trong việc nâng cao chất lượng và sự sáng tạo của các hệ thống viết lách hỗ trợ bởi AI.

The Surprising Influence of Irrelevant Data on Retrieval-Augmented Generation RAG Systems’ Accuracy and Future Directions in AI Information Retrieval

  • RAG (Retrieval-Augmented Generation) giúp mở rộng khả năng của LLMs (Large Language Models) bằng cách tích hợp IR (Information Retrieval), cho phép truy cập dữ liệu bên ngoài và vượt qua hạn chế kiến thức được huấn luyện sẵn.
  • Nghiên cứu mới từ Đại học La Sapienza, Viện Đổi mới Công nghệ, và Đại học Pisa chỉ ra rằng việc bao gồm dữ liệu không liên quan có thể tăng độ chính xác của hệ thống RAG.
  • Phát hiện này đặt ra thách thức cho quan điểm truyền thống trong IR, nơi mà sự liên quan và phản hồi trực tiếp từ truy vấn là ưu tiên.
  • Kết quả nghiên cứu cho thấy việc tích hợp các tài liệu không liên quan có thể cải thiện độ chính xác của hệ thống RAG lên hơn 30%.
  • Phát hiện này mở ra hướng nghiên cứu mới và phát triển trong việc kết hợp trích xuất thông tin với mô hình sinh ngôn ngữ.

📌 Nghiên cứu của các nhà khoa học từ Đại học La Sapienza, Viện Đổi mới Công nghệ, và Đại học Pisa đã đưa ra cái nhìn mới về chiến lược IR trong hệ thống RAG, với việc bổ sung dữ liệu không liên quan đã chứng minh tăng cường độ chính xác lên hơn 30%. Kết quả này thách thức cách tiếp cận truyền thống trong IR, đề xuất một hướng tiếp cận đa dạng hơn cho quá trình truy xuất tài liệu, và mở đường cho việc nghiên cứu và phát triển hệ thống tích hợp trích xuất thông tin và sinh ngôn ngữ một cách tinh tế hơn.

Nâng cao độ chính xác của các mô hình ngôn ngữ lớn với Corrective Retrieval Augmented Generation (CRAG)

  • Mô hình Corrective Retrieval Augmented Generation (CRAG) được nghiên cứu để tăng cường độ chính xác của các mô hình ngôn ngữ lớn (LLMs), giải quyết vấn đề "hallucinations" hay sai sót về thông tin.
  • CRAG sử dụng một hệ thống đánh giá thông tin nhẹ để kiểm tra chất lượng của tài liệu thu thập được, qua đó cải thiện quá trình sinh thông tin dựa trên sự đánh giá về tính chính xác và liên quan của tài liệu.
  • Phương pháp này áp dụng thuật toán "decompose-recompose" để tập trung vào những thông tin cốt lõi, loại bỏ thông tin không liên quan và đảm bảo tích hợp kiến thức chính xác vào quá trình sinh thông tin.
  • CRAG mở rộng khả năng tìm kiếm thông tin trên web, không giới hạn ở cơ sở dữ liệu cố định, nâng cao chất lượng nội dung sinh ra.
  • Qua các thử nghiệm trên nhiều bộ dữ liệu, CRAG tỏ ra vượt trội so với RAG thông thường, đặc biệt trong việc trả lời câu hỏi ngắn gọn và sinh ra bản tiểu sử dài, nơi đòi hỏi độ chính xác và chiều sâu thông tin.
  • CRAG đánh dấu bước tiến trong việc phát triển mô hình ngôn ngữ đáng tin cậy và chính xác, hứa hẹn cải thiện hiệu quả của LLMs trong nhiều ứng dụng khác nhau.

📌 Mô hình Corrective Retrieval Augmented Generation (CRAG) đem lại sự cải tiến quan trọng cho độ chính xác của các mô hình ngôn ngữ lớn bằng cách đánh giá và lựa chọn thông tin thu thập được một cách chi tiết, giảm thiểu vấn đề sai lệch thông tin và tăng cường chất lượng của nội dung sinh ra, qua đó mở ra hướng đi mới cho việc phát triển các mô hình ngôn ngữ đáng tin cậy hơn trong tương lai.

Microsoft LASER loại bỏ sự thiếu chính xác của LLM

  • Microsoft áp dụng phương pháp Layer-Selective Rank Reduction (LASER) để cải thiện độ chính xác của các mô hình ngôn ngữ lớn (LLM).
  • LASER cho phép các nhà nghiên cứu thay thế ma trận trọng số lớn bằng một ma trận nhỏ hơn, gần đúng hơn, nhưng lại tăng độ chính xác của mô hình.
  • Trong quá trình nghiên cứu tại Microsoft Research Lab NYC, việc can thiệp bằng LASER không làm tăng mô hình loss (mất mát), ngược lại còn giảm nó đi, điều này nghịch lý so với kỳ vọng thông thường.
  • LASER đã được thử nghiệm thành công trên ba mô hình nguồn mở khác nhau: RoBERTa, Llama 2, và Eleuther’s GPT-J.
  • Cải thiện hiệu suất có thể lên đến 20-30 điểm phần trăm, ví dụ như độ chính xác của GPT-J trong dự đoán giới tính dựa trên tiểu sử tăng từ 70.9% lên 97.5% sau can thiệp LASER.
  • Mặc dù các mô hình AI thường mắc lỗi về sự thật, việc tăng cường độ chính xác của LLM vẫn là một vấn đề quan trọng để giảm thiểu tác hại có thể xảy ra.

📌 Phương pháp LASER của Microsoft đã chứng minh khả năng tối ưu hóa độ chính xác của các mô hình ngôn ngữ lớn (LLM) một cách đột phá, với việc giảm mô hình loss và tăng cường độ chính xác, nổi bật là sự cải thiện từ 70,9% lên 97,5% trong dự đoán giới tính dựa trên tiểu sử bởi GPT-J sau khi can thiệp LASER.

Sea-Lion: Sáng kiến AI đa ngôn ngữ của Singapore dành cho ASEAN

  • AI Singapore (AISG) nhấn mạnh tầm quan trọng của việc phát triển các mô hình ngôn ngữ lớn (LLMs) địa phương để giảm thiểu định kiến từ dữ liệu đào tạo và bối cảnh văn hóa của phương Tây.
  • Mô hình Sea-Lion của AISG, tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto.
  • Singapore đã cam kết 70 triệu đô la Singapore (khoảng 52 triệu đô la Mỹ) để phát triển Sea-Lion, nhưng một số người trong ngành đặt câu hỏi về tính khả thi và thời điểm của dự án so với sự tiến bộ nhanh chóng của OpenAI và các công ty công nghệ lớn.
  • Sea-Lion, được quảng cáo là LLM mã nguồn mở đầu tiên tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã được đào tạo trên 1 nghìn tỷ token và có hai phiên bản với 3 tỷ và 7 tỷ tham số.
  • AISG tiết lộ rằng 73% LLMs hiện tại có nguồn gốc từ Mỹ và Trung Quốc, với 95% mô hình được đào tạo chủ yếu bằng tiếng Anh hoặc kết hợp tiếng Anh với một trong các ngôn ngữ Trung Quốc, Ả Rập, hoặc Nhật Bản.
  • Đối với việc xây dựng Sea-Lion, AISG phải vượt qua thách thức là thiếu dữ liệu công khai chất lượng cao bằng ngôn ngữ Đông Nam Á và chỉ sử dụng dữ liệu không vi phạm bản quyền.
  • Sea-Lion đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn.
  • AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.

📌 Mô hình ngôn ngữ lớn Sea-Lion của Singapore tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto. Sea-Lion, với sự đầu tư 52 triệu đô la Mỹ từ chính phủ Singapore đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn. AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.

 

Tương lai của các mô hình ngôn ngữ lớn đa phương thức (MM-LLM)

  • Phát triển gần đây trong đào tạo trước Multi-Modal (MM) đã nâng cao khả năng của các mô hình Học Máy (ML) trong xử lý và hiểu biết nhiều loại dữ liệu bao gồm văn bản, hình ảnh, âm thanh và video. Sự kết hợp của Mô hình Ngôn Ngữ Lớn (LLMs) với xử lý dữ liệu đa phương tiện đã dẫn đến việc tạo ra MM-LLMs (MultiModal Large Language Models) phức tạp.
  • MM-LLMs kết hợp các mô hình đơn phương tiện đã đào tạo trước, đặc biệt là LLMs, với các phương tiện khác nhau để tận dụng ưu điểm của chúng. Phương pháp này giảm chi phí tính toán so với việc đào tạo các mô hình đa phương tiện từ đầu.
  • GPT-4(Vision) và Gemini là ví dụ về những bước tiến gần đây trong lĩnh vực này, có khả năng hiểu và tạo ra nội dung đa phương tiện. Các mô hình như Flamingo, BLIP-2 và Kosmos-1 cũng được nghiên cứu về khả năng xử lý hình ảnh, âm thanh và thậm chí là video ngoài văn bản.
  • Một trong những thách thức chính của MM-LLMs là tích hợp LLM với các mô hình đa phương tiện khác sao cho chúng hợp tác tốt. Các phương tiện cần được điều chỉnh và phối hợp để phù hợp với ý định và hiểu biết của con người.
  • Nghiên cứu gần đây của nhóm từ Tencent AI Lab, Đại học Kyoto và Viện Tự động hóa Shenyang đã thực hiện một nghiên cứu sâu rộng về lĩnh vực MM-LLMs. Nghiên cứu bao gồm định nghĩa chung về kiến trúc mô hình và quy trình đào tạo.
  • Nghiên cứu cung cấp cái nhìn tổng quan về tình trạng hiện tại của MM-LLMs, với 26 mô hình MM-LLMs được giới thiệu ngắn gọn, nhấn mạnh sự độc đáo trong cấu trúc và tính năng.
  • MM-LLMs được đánh giá dựa trên tiêu chuẩn công nghiệp, giải thích hiệu suất của chúng so với tiêu chuẩn công nghiệp và trong hoàn cảnh thực tế.
  • Năm thành phần chính của kiến trúc mô hình MM-LLMs bao gồm Bộ mã hóa Phương tiện (Modality Encoder), Xương sống LLM (LLM Backbone), Bộ sinh Phương tiện (Modality Generator), Bộ chiếu Đầu vào (Input Projector) và Bộ chiếu Đầu ra (Output Projector).
  • Nghiên cứu này cung cấp một bản tóm tắt kỹ lưỡng về MM-LLMs và cái nhìn sâu sắc về hiệu quả của các mô hình hiện tại.

📌 Nghiên cứu cung cấp một cái nhìn toàn diện về lĩnh vực mô hình ngôn ngữ lớn đa phương thức (MM-LLM) từ cấu trúc mô hình đến hiệu suất thực tế. GPT-4 (Vision) và Gemini là ví dụ về những bước tiến gần đây trong lĩnh vực này, có khả năng hiểu và tạo ra nội dung đa phương tiện. Các mô hình như Flamingo, BLIP-2 và Kosmos-1 cũng được nghiên cứu về khả năng xử lý hình ảnh, âm thanh và thậm chí là video ngoài văn bản. Sự phát triển của MM-LLM mở ra khả năng mới trong việc xử lý và phân tích dữ liệu đa dạng, đồng thời nâng cao khả năng hiểu biết và tương tác của AI với thế giới thực.

MANDARIN LLM CỦA ĐÀI LOAN - LÁ CHẮN CHỐNG LẠI SỰ TẤN CÔNG DỮ DỘI CỦA AI TRUNG QUỐC?

- Đáp ứng sự phát triển của chatbot AI tiếng Trung như ChatGPT và ERNIE Bot của Baidu, Đài Loan phát triển LLM (Mô Hình Ngôn Ngữ Lớn) đầu tiên bằng tiếng Quan Thoại của mình, có tên là TAIDE, nhằm bảo vệ văn hóa và an ninh trước nguy cơ từ công nghệ AI nước ngoài.
- Dự án TAIDE, được dẫn dắt bởi Hội đồng Khoa học và Công nghệ Quốc gia Đài Loan và các nhà nghiên cứu từ học viện và cơ quan chính phủ, tập trung phát triển một động cơ đối thoại AI đáng tin cậy, phù hợp với đặc trưng ngôn ngữ của Đài Loan.
- Dù gặp thách thức về tài chính và nguồn lực, dự án TAIDE vẫn tiến lên, sử dụng nguồn dữ liệu từ chính phủ và các phương tiện truyền thông để huấn luyện mô hình hiệu quả.

📌 Đáp ứng sự phát triển của chatbot AI tiếng Trung như ChatGPT và ERNIE Bot của Baidu, Đài Loan phát triển LLM (Mô Hình Ngôn Ngữ Lớn) đầu tiên bằng tiếng Quan Thoại của mình, có tên là TAIDE, nhằm bảo vệ văn hóa và an ninh trước nguy cơ từ công nghệ AI nước ngoài. Dự án này không chỉ nhấn mạnh tầm quan trọng của việc phát triển mô hình AI phản ánh các biến thể ngôn ngữ khu vực mà còn góp phần nuôi dưỡng tài năng AI và xây dựng hệ sinh thái AI địa phương tại Đài Loan.

Trung Quốc phê duyệt hơn 40 mô hình AI để sử dụng công cộng trong 6 tháng qua

  • Trong 6 tháng, Trung Quốc đã chấp thuận hơn 40 mô hình AI cho sử dụng công cộng.
  • 14 mô hình ngôn ngữ lớn (LLM) được phê duyệt gần đây, bao gồm các mô hình từ Xiaomi, 4Paradigm và 01.AI.
  • Bắc Kinh yêu cầu các công ty công nghệ phải có sự chấp thuận từ cơ quan quản lý để mở LLM ra công chúng.
  • Các công ty đầu tiên nhận được sự chấp thuận bao gồm Baidu, Alibaba và ByteDance.
  • Hơn 40 mô hình AI đã được chấp thuận, với Baidu's Ernie Bot hơn 100 triệu người dùng.

📌 Sự chấp thuận hơn 40 mô hình AI của Trung Quốc cho thấy sự nỗ lực của quốc gia này trong việc kiểm soát và phát triển công nghệ AI, đồng thời thúc đẩy sự cạnh tranh trong lĩnh vực công nghệ toàn cầu.

Việt Nam nhảy vào cuộc đua AI tạo sinh tại châu Á

- Tập đoàn lớn của Việt Nam, Vingroup, đã tham gia cuộc đua phát triển chương trình AI tạo sinh phục vụ ngôn ngữ và văn hóa địa phương.

- ViGPT, phát triển bởi công ty con VinBigData (VBD), gây ấn tượng mạnh khi sửa lỗi cho người dùng trong sự kiện ra mắt.

- ViGPT là chương trình AI tạo sinh đầu tiên ở Việt Nam có sẵn cho công chúng.

- Thị trường AI tạo sinh toàn cầu đang phát triển với tốc độ 42% mỗi năm, dự kiến đạt 1,3 nghìn tỷ USD vào năm 2032.

- Các công ty công nghệ lớn của Mỹ như OpenAI, Google và Amazon.com đang dẫn đầu thị trường này.

- Vingroup quyết định tự phát triển công nghệ AI để tận dụng dữ liệu tiếng Việt, tăng độ chính xác so với các đối thủ nước ngoài.

- Mô hình ngôn ngữ lớn (LLM) của ViGPT hoạt động dựa trên 1,6 tỷ tham số, nhỏ hơn so với GPT-4 của OpenAI.

- Theo đánh giá của Vietnamese Multitask Language Understanding, ViGPT vượt trội so với nhiều đối thủ nước ngoài và đứng thứ hai sau ChatGPT.

- Vingroup áp dụng AI vào xe điện VinFast, cho phép điều khiển xe bằng lệnh giọng nói tiếng Việt và dự định tích hợp AI vào lĩnh vực tài chính, bảo hiểm và logistics.

- Nhu cầu về AI cho người không nói tiếng Anh là ngôn ngữ chính là rất lớn.

- Ở Nhật Bản và Hàn Quốc, các công ty cũng đang phát triển AI tạo sinh cho ngôn ngữ địa phương.

- Nhu cầu phát triển AI địa phương được thúc đẩy bởi rủi ro phụ thuộc quá nhiều vào Mỹ, đặc biệt là về cạnh tranh quốc tế và an ninh quốc gia.

- Trong khi đó, ở Trung Quốc, các công ty như Baidu, Tencent Holdings và Alibaba Group Holding đang phát triển AI tạo sinh phục vụ ngôn ngữ và thị trường Trung Quốc.

📌 Với sự ra đời của chương trình AI tạo sinh ViGPT, Vingroup không chỉ khẳng định vị thế trong cuộc đua công nghệ AI tại Việt Nam mà còn đang mở rộng cơ hội để cạnh tranh trên thị trường toàn cầu. ViGPT đã chứng tỏ khả năng vượt trội trong việc hỗ trợ tiếng Việt, mở đường cho việc ứng dụng rộng rãi trong các lĩnh vực như xe điện, tài chính và hơn thế nữa. Với thị trường AI tạo sinh toàn cầu dự báo sẽ đạt giá trị lên đến 1,3 nghìn tỷ USD vào năm 2032, bước tiến của Vingroup cung cấp một góc nhìn mới về tiềm năng to lớn của AI địa phương và sự cần thiết trong việc phát triển công nghệ phù hợp với từng ngôn ngữ cụ thể.

 

Voltron Data mua lại Claypot để mở khóa AI thời gian thực với các hệ thống dữ liệu mô-đun

  • Voltron Data, công ty khởi nghiệp có trụ sở tại San Francisco, đã xác nhận với VentureBeat việc mua lại Claypot AI, nền tảng AI thời gian thực.
  • Thương vụ này sẽ đưa toàn bộ đội ngũ Claypot vào Voltron, mở rộng khả năng cung cấp phân tích thời gian thực, giúp doanh nghiệp khai thác dữ liệu mới nhất cho các trường hợp sử dụng như phát hiện gian lận và cá nhân hóa.
  • Josh Patterson, đồng sáng lập và CEO của Voltron Data, cho biết hai đội đã làm việc cùng nhau trong 8 tháng qua để xây dựng hệ thống backend dữ liệu đầu tiên cho phép phân tích và xử lý dữ liệu thời gian thực và hàng loạt.
  • Voltron Data, được thành lập năm 2022 và huy động được 110 triệu USD vốn, kết hợp nhiều công nghệ nguồn mở như Apache Arrow, Apache Parquet và Ibis để cải thiện quyền truy cập và phân tích dữ liệu.
  • Công ty đã giới thiệu máy quét truy vấn phân tán Theseus để tăng tốc các tác vụ tiền xử lý dữ liệu phụ thuộc vào CPU với cụm GPU Nvidia và các bộ tăng tốc phần cứng khác.
  • Claypot AI, được điều hành bởi các kỹ sư trước đây của Nvidia và Netflix, cho phép kết hợp xử lý dữ liệu thời gian thực và hàng loạt để đáp ứng nhu cầu khác nhau của doanh nghiệp.
  • Voltron muốn loại bỏ các "silos" công nghệ trong phân tích dữ liệu và AI, và đã có thêm nhiều nỗ lực trong kế hoạch phát triển.
  • Voltron đã thu hút nhiều khách hàng từ các ngành công nghiệp lớn, bao gồm cả chính phủ liên bang và hợp tác với HPE để tích hợp Theseus vào phần mềm phân tích thống nhất HPE Ezmeral.

📌 Voltron Data, sau khi mua lại Claypot AI (Huyền Chip làm ở đây), sẽ mở rộng khả năng cung cấp phân tích thời gian thực và AI, nâng cao hiệu suất xử lý dữ liệu với máy quét truy vấn phân tán Theseus và các sản phẩm nguồn mở. Điều này hứa hẹn sẽ tăng cường khả năng phân tích dữ liệu thời gian thực, kỹ thuật feature engineering và khả năng thao tác máy học (MLOps), đồng thời phá vỡ các rào cản công nghệ, tăng cường sự phối hợp giữa phân tích dữ liệu và AI.

ORACLE RA MẮT DỊCH VỤ AI TẠO SINH DÀNH CHO DOANH NGHIỆP

  • Oracle đã chính thức ra mắt dịch vụ AI tạo sinh Oracle Cloud Infrastructure (OCI), dành cho doanh nghiệp lớn, với công nghệ AI tạo sinh tiên tiến.
  • Dịch vụ này cung cấp hỗ trợ đa ngôn ngữ cho hơn 100 ngôn ngữ và quản lý cụm nâng cao cho GPU, cho phép doanh nghiệp sử dụng hiệu quả hơn.
  • Phương thức tinh chỉnh linh hoạt giúp các doanh nghiệp tùy chỉnh mô hình AI tạo sinh theo nhu cầu cụ thể của họ.
  • Dịch vụ OCI Generative AI cho phép người dùng tiêu thụ mô hình thông qua APIs cho nhiều nhiệm vụ như tạo văn bản, tóm tắt và độ tương tự ngữ nghĩa.
  • Oracle cung cấp dịch vụ OCI Generative AI Agents, cho phép sử dụng dữ liệu độc quyền để cải thiện mô hình, sử dụng kỹ thuật tạo sinh kết hợp tìm kiếm để cung cấp câu trả lời liên quan và có ngữ cảnh hơn.
  • Oracle có kế hoạch tích hợp nhiều công cụ tìm kiếm và tổng hợp dữ liệu hơn, cũng như hỗ trợ các hành động đại lý được xây dựng sẵn trên bộ ứng dụng SaaS của Oracle.
  • Dịch vụ hiện đang ở chế độ thử nghiệm beta và có thể truy cập thông qua Oracle Cloud ở nhiều khu vực, cũng như khả năng truy cập tại chỗ thông qua nền tảng OCI Dedicated Region.
  • Oracle cũng mở rộng nền tảng Khoa học Dữ liệu OCI bằng cách giới thiệu tính năng AI Quick Actions vào tháng sau, cho phép truy cập không cần code đến các mô hình ngôn ngữ lớn mã nguồn mở.
  • Oracle cam kết tập trung vào việc sử dụng AI tạo sinh để giải quyết thách thức kinh doanh thực tế, tích hợp AI vào nhiều lớp của ngăn xếp công nghệ.

📌 Oracle đang nỗ lực khẳng định vị thế trong lĩnh vực phát triển AI tạo sinh với việc ra mắt dịch vụ OCI Generative AI. Dịch vụ này hướng đến việc cung cấp giải pháp toàn diện cho doanh nghiệp nhằm khai thác công nghệ AI tạo sinh, với khả năng truy cập cả trên đám mây và tại chỗ và tích hợp với bộ ứng dụng kinh doanh của Oracle. Mặc dù phải đối mặt với sự cạnh tranh từ các đối thủ lớn trong ngành, nhưng chiến lược tích hợp sâu của Oracle có thể thu hút các doanh nghiệp đang tìm kiếm một giải pháp AI tạo sinh hoàn chỉnh và hợp nhất.

Nghiên cứu AI của ByteDance tiết lộ Phương pháp tinh chỉnh tăng cường (ReFT) để nâng cao tính khái quát của việc học LLM

  • Nghiên cứu mới của ByteDance AI Research giới thiệu phương pháp Reinforced Fine-Tuning (ReFT) để cải thiện khả năng tổng quát hóa việc học của LLMs trong lí thuyết, với việc giải quyết vấn đề toán làm ví dụ.
  • ReFT kết hợp giữa việc tinh chỉnh có giám sát (SFT) với học tập củng cố trực tuyến, sử dụng thuật toán Proximal Policy Optimization (PPO). Quá trình này cho phép mô hình tiếp xúc với nhiều con đường lý luận khác nhau, tự động lấy mẫu từ câu hỏi đã cho.
  • Phần thưởng cho việc học củng cố đến từ câu trả lời chính xác, giúp LLM trở nên mạnh mẽ và linh hoạt hơn. Các chiến lược tại thời điểm suy luận như bỏ phiếu đa số và tái xếp hạng kết hợp với ReFT để cải thiện hiệu suất.
  • Các thí nghiệm trên các bộ dữ liệu GSM8K, MathQA và SVAMP cho thấy ReFT vượt trội hơn so với SFT về khả năng lý luận và khả năng tổng quát hóa. Việc sử dụng chương trình Python như dữ liệu CoT đã chứng minh bước tiến quan trọng so với dữ liệu CoT bằng ngôn ngữ tự nhiên.
  • Nghiên cứu trước đây về học củng cố và tái xếp hạng cũng đã cho thấy hiệu suất vượt trội so với việc tinh chỉnh có giám sát và bỏ phiếu đa số.

📌 ReFT đánh dấu sự khác biệt trong các phương pháp tinh chỉnh để cải thiện khả năng giải quyết vấn đề toán của mô hình. Khác với SFT, ReFT tối ưu hóa một mục tiêu không phân biệt bằng cách khám phá nhiều chú thích CoT thay vì dựa vào một chú thích duy nhất. Các thí nghiệm rộng rãi trên ba bộ dữ liệu sử dụng hai mô hình cơ sở đã cho thấy ReFT vượt qua SFT về hiệu suất và khả năng tổng quát hóa. Mô hình được đào tạo với ReFT tương thích với các kỹ thuật như bỏ phiếu đa số và tái xếp hạng mô hình thưởng. ReFT còn vượt qua nhiều mô hình nguồn mở có kích thước tương tự trong việc giải quyết vấn đề toán, nhấn mạnh hiệu quả và giá trị thực tiễn của nó.

Các nhà nghiên cứu từ Đại học Quốc gia Singapore và Alibaba đề xuất InfoBatch: Một khung trí tuệ nhân tạo mới nhằm đạt được tốc độ đào tạo không mất dữ liệu

  • Các nhà nghiên cứu từ Đại học Quốc gia Singapore và Alibaba đề xuất InfoBatch, một framework AI mới nhằm tăng tốc độ đào tạo mà không làm mất dữ liệu thông qua việc cắt tỉa dữ liệu động không thiên vị.
  • InfoBatch giúp giảm đáng kể gánh nặng tính toán, vượt trội hơn các phương pháp hiện tại ít nhất mười lần về hiệu quả.
  • Kết quả đào tạo của InfoBatch không mất mát (lossless) qua nhiều nhiệm vụ khác nhau bao gồm phân loại, phân đoạn ngữ nghĩa, liên quan đến thị giác, và tinh chỉnh hướng dẫn mô hình ngôn ngữ.
  • InfoBatch bảo tồn hiệu suất mô hình bằng cách duy trì và cập nhật động điểm số dựa trên mất mát (loss) cho mỗi mẫu dữ liệu trong suốt quá trình đào tạo.
  • Khi áp dụng cho các tập dữ liệu như CIFAR10/100 và ImageNet1K, InfoBatch đã tiết kiệm được tới 40% chi phí tính toán tổng thể và 24.8% đến 27% cho các mô hình cụ thể như MAE và mô hình khuếch tán.
  • Nghiên cứu InfoBatch có thể tạo ảnh hưởng đáng kể đến tương lai của phương pháp đào tạo máy học, cân bằng hiệu quả và hiệu suất.

📌Các nhà nghiên cứu từ Đại học Quốc gia Singapore và Alibaba đề xuất InfoBatch, một framework AI mới nhằm tăng tốc độ đào tạo mà không làm mất dữ liệu thông qua việc cắt tỉa dữ liệu động không thiên vị. InfoBatch giúp giảm đáng kể gánh nặng tính toán, vượt trội hơn các phương pháp hiện tại ít nhất mười lần về hiệu quả. InfoBatch không chỉ đem lại sự cải thiện về hiệu quả tính toán mà còn duy trì được kết quả đào tạo không mất mát trên nhiều tác vụ khác nhau, đồng thời tiết kiệm đáng kể chi phí và thời gian tính toán. 

CÁC NHÀ KHOA HỌC VIỆT NAM ĐƯA MÔ HÌNH TOÁN HỌC AI TỚI CHÂN TRỜI OLYMPIA VỚI ALPHAGEOMETRY

  • Các nhà khoa học Việt Nam phối hợp cùng Google DeepMind phát triển AlphaGeometry, một mô hình AI giải toán hình học cấp độ Olympic.
  • AlphaGeometry giải được 25 trong số 30 bài toán hình học từ các kỳ thi Olympic Toán Quốc tế (IMO) từ năm 2000 đến 2022, vượt trội so với hệ thống nổi tiếng của thập niên 1970 và cả những người đoạt huy chương đồng.
  • Mô hình kết hợp giữa mô hình ngôn ngữ thần kinh và động cơ biểu tượng, nổi bật với việc được huấn luyện trên dữ liệu tổng hợp, cho phép nó tạo ra câu trả lời từ con số không.
  • AlphaGeometry có khả năng ứng dụng trong giáo dục phổ thông và có tiềm năng hỗ trợ giải các Bài toán thiên niên kỷ.
  • Công trình nghiên cứu được đăng trên tạp chí Nature, thể hiện khả năng của AI không chỉ giải quyết các vấn đề toán học mà còn thúc đẩy nhân loại tiến lên.

📌 AlphaGeometry, một mô hình AI phát triển bởi các nhà khoa học Việt Nam, đã đạt được bước đột phá trong việc giải toán hình học cấp độ Olympic, với khả năng giải 25/30 bài toán của IMO từ năm 2000 đến 2022. Mô hình này có thể vượt qua hiệu suất giải toán của người đoạt huy chương đồng, với phương pháp huấn luyện độc đáo trên dữ liệu tổng hợp, mở ra hướng tiếp cận mới trong lĩnh vực AI hỗ trợ toán học và có khả năng được áp dụng trong giáo dục cũng như các lĩnh vực khác.

NVIDIA giới thiệu các mô hình chatQA cấp độ GPT-4

  • NVIDIA giới thiệu ChatQA, một dòng mô hình QA (question answering) hội thoại có độ chính xác tương đương GPT-4.
  • Các mô hình ChatQA có kích thước từ 7B đến 70B. ChatQA-70B không chỉ vượt qua GPT-3.5-turbo mà còn đạt kết quả ngang bằng với GPT-4 qua đánh giá trên 10 bộ dữ liệu QA hội thoại, với điểm trung bình là 54.14 so với 53.90 của GPT-4.
  • Nhóm nghiên cứu NVIDIA áp dụng phương pháp chỉnh sửa hướng dẫn hai giai đoạn để cải thiện đáng kể kết quả QA hội thoại zero-shot từ các mô hình ngôn ngữ lớn (LLMs).
  • Để giải quyết vấn đề truy xuất thông tin trong QA hội thoại, một dense retriever được tinh chỉnh trên bộ dữ liệu đa lượt QA, mang lại kết quả tương đương với mô hình viết lại câu hỏi tiên tiến nhất nhưng tiết kiệm chi phí triển khai.
  • NVIDIA cũng chứng minh hiệu quả của việc tinh chỉnh truy vấn đơn lẻ sử dụng dữ liệu QA hội thoại do họ biên soạn, mang lại kết quả tương đương mà không cần thêm thời gian tính toán và chi phí API có thể phát sinh từ việc viết lại câu hỏi.
  • ChatQA là bước tiến vượt bậc trong việc xử lý các tình huống mà câu trả lời không rõ ràng, đặc biệt khi đưa vào một số mẫu "không thể trả lời" đã cải thiện đáng kể khả năng của mô hình.
  • Ngoài NVIDIA, nhiều mô hình cơ bản khác cũng đã đạt được khả năng tương đương GPT-4. Google có thể ra mắt Gemini Ultra bất cứ lúc nào, trong khi Mistral sẽ giới thiệu mô hình nguồn mở cấp độ GPT-4 vào năm 2024.

📌 ChatQA-70B của NVIDIA chứng minh khả năng vượt qua GPT-3.5-turbo và sánh ngang GPT-4 qua việc đạt điểm trung bình 54,14 so với 53,90 của GPT-4 trên 10 bộ dữ liệu QA hội thoại. Mô hình này, được tinh chỉnh mà không cần dữ liệu tổng hợp từ ChatGPT, đặt ra tiêu chuẩn mới trong lĩnh vực AI với chi phí triển khai giảm và hiệu suất cao, cùng với kỳ vọng các mô hình cấp độ GPT-4 nguồn mở sẽ xuất hiện trong tương lai gần.

Stability AI releases Stable Code 3B to fill in blanks of AI-powered code generation

  • Stability AI công bố mô hình Stable Code 3B, với khả năng hoàn thiện mã nguồn trong lập trình phần mềm.
  • Stable Code 3B là mô hình 3 tỷ tham số, có thể chạy trên laptop không cần GPU riêng biệt với hiệu suất cạnh tranh.
  • Mô hình này hỗ trợ việc hoàn thành mã nguồn, bao gồm cả việc điền vào các phần còn thiếu lớn trong mã có sẵn.
  • Công nghệ Fill in the Middle (FIM) cho phép mô hình hoàn thiện những phần thiếu giữa các đoạn mã.
  • Stable Code 3B được tối ưu hóa với kích thước ngữ cảnh mở rộng, sử dụng kỹ thuật Rotary Position Embeddings (RoPE).
  • Mô hình được huấn luyện trên cơ sở dữ liệu bao gồm kho code, diễn đàn lập trình viên và nguồn kỹ thuật khác.
  • Stable Code 3B đã được huấn luyện trên 18 ngôn ngữ lập trình và đạt hiệu suất cao trên các bài test đánh giá với nhiều ngôn ngữ.
  • Mô hình này là một phần của dịch vụ đăng ký thành viên mới của Stability AI, cung cấp truy cập vào các công cụ AI như Stable Code 3B.

📌 Stability AI đã định hình lại khả năng của công cụ phát triển phần mềm hỗ trợ bởi AI với việc giới thiệu Stable Code 3B. Mô hình này nổi bật với khả năng chạy trên thiết bị cá nhân mà không cần đến GPU chuyên dụng, đồng thời vẫn duy trì hiệu suất tốt so với các mô hình lớn hơn như CodeLLaMA 7B của Meta. Sự cải tiến trong việc hoàn thiện mã giúp Stable Code 3B không chỉ đề xuất dòng code mới mà còn có thể điền vào các đoạn mã còn thiếu lớn. Trong một thị trường cạnh tranh, Stability AI tự tin rằng mô hình của họ vượt trội so với các công cụ khác như StarCoder LLM trong việc hoàn thành các ngôn ngữ lập trình phổ biến như Python, C++, và JavaScript. 

Công cụ AI chụp ảnh màn hình thành mã viết mã trang web từ hình ảnh: HTML, Tailwind CSS, React, Bootstrap hoặc Vue

  • Công cụ AI Screenshot-to-code biến ảnh chụp màn hình thành mã lập trình cho website, hỗ trợ nhiều framework và thư viện như HTML, Tailwind CSS, React, Bootstrap và Vue.
  • Sản phẩm này sử dụng GPT-4 Vision để tạo mã và DALL-E 3 để tạo hình ảnh tương tự, giúp đơn giản hóa quá trình phát triển các thành phần giao diện người dùng từ thiết kế hình ảnh.
  • Tính năng mới cho phép nhập URL của một trang web cụ thể để nhân bản, nhằm mục đích giáo dục.
  • Công cụ sử dụng React/Vite ở phía frontend và FastAPI ở backend, yêu cầu khóa API từ OpenAI với quyền truy cập vào GPT-4 Vision API.
  • Dịch vụ cung cấp các kế hoạch đăng ký và truy cập khóa API, cho phép người dùng tùy chỉnh trải nghiệm theo yêu cầu phát triển cụ thể của họ.
  • Công cụ được thiết kế thân thiện với người dùng, phù hợp cho cả nhà phát triển mới và giàu kinh nghiệm, có sẵn trực tuyến và cũng cung cấp phiên bản cục bộ cho những người muốn làm việc ngoại tuyến.

📌 Công cụ AI Screenshot-to-code là một bước đột phá trong lĩnh vực phát triển web, cho phép chuyển đổi ảnh chụp màn hình thành mã nguồn cho các website một cách nhanh chóng và chính xác. Sử dụng công nghệ tiên tiến như GPT-4 Vision và DALL-E 3, công cụ này hỗ trợ nhiều framework và thư viện phổ biến, từ HTML đến React. Có thể nhân bản layout của bất kỳ website nào chỉ qua URL, giảm bớt công việc lập trình thủ công. Với giao diện React/Vite và backend FastAPI, người dùng cần có khóa API từ OpenAI để truy cập. Công cụ này có sẵn trực tuyến và cũng cung cấp phiên bản cục bộ, cùng với các kế hoạch đăng ký và API key, đáp ứng nhu cầu đa dạng của người phát triển. 

Nút thắt lớn nhất trong các mô hình ngôn ngữ lớn

  • Các Mô hình ngôn ngữ lớn (LLMs) như GPT-4 của OpenAI và Claude 2 của Anthropic đang gây chú ý với khả năng tạo ra văn bản giống như con người.
  • Doanh nghiệp tìm cách sử dụng LLMs để cải thiện sản phẩm và dịch vụ nhưng gặp phải rào cản từ giới hạn tốc độ xử lý - rate limits.
  • API công cộng của LLMs đặt giới hạn số token xử lý mỗi phút, số yêu cầu mỗi phút và mỗi ngày, làm khó việc sử dụng LLMs trong môi trường sản xuất.
  • Các startup và doanh nghiệp lớn đều chịu ảnh hưởng bởi giới hạn này, không có quyền truy cập đặc biệt thì ứng dụng không hoạt động.
  • Một số giải pháp là sử dụng các mô hình AI tạo sinh không bị giới hạn bởi LLMs, hoặc yêu cầu tăng giới hạn tốc độ từ nhà cung cấp.
  • Thiếu GPU là nguyên nhân chính, do không đủ chip để đáp ứng nhu cầu, và xây dựng nhà máy sản xuất bán dẫn mới đòi hỏi chi phí và thời gian lớn.
  • Các công ty tìm kiếm mô hình AI thay thế và kỹ thuật làm suy luận rẻ hơn, nhanh hơn như quantization và mô hình rời rạc.

📌 Giới hạn rate limit là trở ngại lớn cho việc triển khai LLMs trong doanh nghiệp, với các giới hạn như 3 yêu cầu/phút và 10.000 tokens/phút từ OpenAI. Sự thiếu hụt GPU, cần cho việc xử lý dữ liệu LLMs, do không đủ chip làm tăng cạnh tranh cho nguồn lực này. Các giải pháp như mô hình AI tạo sinh không bị giới hạn và yêu cầu tăng giới hạn tốc độ xử lý đang được khám phá. Để giải quyết vấn đề một cách triệt để, cần cải tiến phần cứng và phát triển LLMs mới yêu cầu ít tài nguyên tính toán hơn.

Nghiên cứu AI của JPMorgan giới thiệu DocGraphLM

  • JPMorgan AI Research và Dartmouth College Hanover đã giới thiệu một khung công nghệ AI mới tên là DocGraphLM.
  • DocGraphLM kết hợp sức mạnh của các mô hình ngôn ngữ được huấn luyện sẵn và ngữ nghĩa đồ thị để cải thiện việc biểu diễn tài liệu trong việc trích xuất thông tin và QA.
  • Đặc điểm nổi bật của DocGraphLM là khả năng tích hợp cấu trúc của GNNs và sức mạnh của ngôn ngữ mô hình, cung cấp một biểu diễn tài liệu mạnh mẽ hơn.
  • Khung công nghệ này sử dụng một kiến trúc mã hóa chung cho biểu diễn tài liệu và một phương pháp tiên đoán liên kết mới để tái tạo đồ thị tài liệu.
  • Mô hình này có khả năng dự đoán hướng và khoảng cách giữa các nút trong đồ thị tài liệu, với một hàm mất mát chung mới giúp cân bằng giữa phân loại và mất mát hồi quy.
  • DocGraphLM áp dụng một biến đổi logarit để chuẩn hóa khoảng cách, xử lý các nút cách nhau bởi khoảng cách cấp số nhận được như là tương đương về ngữ nghĩa.
  • Mô hình đã cải thiện đáng kể việc trích xuất thông tin và nhiệm vụ trả lời câu hỏi khi được thử nghiệm trên các bộ dữ liệu chuẩn như FUNSD, CORD, và DocVQA.
  • Sự tích hợp của các đặc trưng đồ thị giúp tăng độ chính xác và tăng tốc quá trình học trong quá trình đào tạo.

📌 DocGraphLM từ JPMorgan AI Research đánh dấu một bước tiến quan trọng trong việc hiểu và biểu diễn tài liệu. DocGraphLM mở ra hướng mới trong việc biểu diễn và xử lý thông tin từ tài liệu phức tạp, với kết quả thử nghiệm ấn tượng trên các bộ dữ liệu chuẩn. Sự hợp nhất giữa ngữ nghĩa đồ thị và mô hình ngôn ngữ huấn luyện sẵn cho thấy tiềm năng lớn trong việc cải thiện các hệ thống trích xuất thông tin và trả lời câu hỏi tự động, hứa hẹn sự ứng dụng rộng rãi trong ngành công nghiệp và nghiên cứu AI.

LLaMA Pro AI LLaMA sử dụng kỹ thuật mới

  • LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới.
  • LLaMA Pro bổ sung thêm các lớp cho phép học tác vụ mới mà không mất kiến thức đã có.
  • Kỹ thuật block expansion giúp tối ưu hóa việc học của AI, tiết kiệm tài nguyên tính toán.
  • LLaMA Pro-8.3B, khởi đầu từ LLaMA2-7B, thể hiện khả năng xuất sắc trong các tác vụ chung, lập trình và toán học.
  • LLaMA Pro chứng minh tiềm năng trong việc xử lý nhiều tác vụ đa dạng và hội tụ ngôn ngữ tự nhiên và lập trình​

📌 LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới. Sự cải tiến này không chỉ nâng cao khả năng của AI trong việc xử lý nhiều tác vụ cùng lúc mà còn giúp tiết kiệm tài nguyên tính toán. LLaMA Pro đặt nền móng cho việc phát triển các hệ thống AI hiệu quả hơn, mở ra cánh cửa cho các ứng dụng AI phức tạp và đa dạng trong tương lai.

Có thể chuyển khả năng của LLM như LLaMA từ tiếng Anh sang ngôn ngữ không phải tiếng Anh không?

  • Các mô hình Ngôn ngữ Lớn (LLMs) như ChatGPT, PaLM, và LLaMA đã đạt được những bước tiến quan trọng trong việc xử lý ngôn ngữ phức tạp và học tập trải nghiệm. Tuy nhiên, hầu hết các LLMs chính thống như LLaMA được huấn luyện trên cơ sở dữ liệu chủ yếu bằng tiếng Anh, hạn chế hiệu suất khi xử lý các ngôn ngữ khác.
  • Mặc dù nhiều LLMs có khả năng hiểu nhiều ngôn ngữ, sự mất cân đối trong nguồn tài nguyên ngôn ngữ vẫn là một thách thức. Ví dụ, BLOOM được tiền huấn luyện trên 46 ngôn ngữ nhưng vẫn thiếu đa dạng, và LLaMA gặp khó khăn với ngôn ngữ không phải tiếng Anh.
  • Các nhà nghiên cứu tại Trường Khoa học Máy tính, Đại học Fudan, đã tập trung vào việc chuyển giao khả năng tạo ngôn ngữ và tuân theo hướng dẫn sang các ngôn ngữ không phải tiếng Anh. Họ đã phân tích ảnh hưởng của các yếu tố như mở rộng từ vựng, tiền huấn luyện thêm, và chỉnh sửa hướng dẫn.
  • Nghiên cứu này khám phá việc chuyển giao khả năng tạo ngôn ngữ và tuân theo hướng dẫn sang ngôn ngữ không phải tiếng Anh sử dụng LLaMA. Sử dụng tiếng Trung làm điểm xuất phát, nghiên cứu mở rộng kết quả sang hơn mười ngôn ngữ ít tài nguyên. Các mô hình bao gồm LLaMA, LLaMA2, Chinese LLaMA, Chinese LLaMA2, và Open Chinese LLaMA.
  • Nghiên cứu này điều tra việc chuyển ngôn ngữ sang các ngôn ngữ không phải tiếng Anh sử dụng LLaMA, tập trung vào việc mở rộng từ vựng, ảnh hưởng của quy mô huấn luyện, và khả năng đa ngôn ngữ. Việc mở rộng từ vựng làm giảm hiệu suất trong tiếng Trung. Đánh giá trên 13 ngôn ngữ ít tài nguyên cho thấy dữ liệu SFT nâng cao chất lượng phản hồi.
  • Nghiên cứu này tập trung vào việc chuyển giao khả năng tạo ngôn ngữ và tuân theo hướng dẫn sang một ngôn ngữ không phải tiếng Anh. Họ phát hiện ra rằng việc mở rộng từ vựng không cần thiết và hiệu suất chuyển giao tương đương với các mô hình tiên tiến có thể đạt được với ít hơn 1% dữ liệu tiền huấn luyện thêm. Kết quả tương tự được quan sát từ các thí nghiệm mở rộng trên 13 ngôn ngữ ít tài nguyên.

📌 Các Mô hình Ngôn ngữ Lớn (LLMs) như ChatGPT, PaLM, và LLaMA đã thể hiện sự tiến bộ đáng kể trong xử lý ngôn ngữ phức tạp và học tập từ kinh nghiệm. Tuy nhiên, hạn chế về nguồn ngôn ngữ, với sự chiếm ưu thế của tiếng Anh trong dữ liệu huấn luyện, đã làm giảm hiệu suất của các LLMs khi xử lý các ngôn ngữ khác. Nghiên cứu gần đây tại Đại học Phục Đán tập trung vào việc chuyển giao khả năng tạo ngôn ngữ và tuân theo hướng dẫn sang các ngôn ngữ không phải tiếng Anh. Họ khám phá việc mở rộng từ vựng, tiền huấn luyện thêm, và chỉnh sửa hướng dẫn, đạt được kết quả ấn tượng với ít dữ liệu huấn luyện thêm. Nghiên cứu này cho thấy tiềm năng lớn trong việc phát triển LLMs đa ngôn ngữ, giúp cải thiện độ chính xác và đa dạng trong xử lý ngôn ngữ, mở ra cơ hội mới cho người dùng không nói tiếng Anh trên toàn cầu.

Invest Qatar ra mắt Ai.SHA, chatbot hỗ trợ Azure Open AI GPT

  • Invest Qatar hợp tác với Microsoft để phát triển Ai.SHA, một trợ lý AI sử dụng công nghệ GPT thông qua dịch vụ Azure OpenAI.
  • Ai.SHA đánh dấu sự cam kết của Invest Qatar trong việc tiên phong áp dụng công nghệ tiên tiến, tạo nên sự thay đổi lớn trong tương tác giữa nhà đầu tư và doanh nghiệp tại Qatar.
  • Trợ lý ảo này cung cấp thông tin quan trọng giúp đưa ra quyết định kinh doanh, trả lời câu hỏi về cơ hội kinh doanh, hệ thống đầu tư, thiết lập và mở rộng doanh nghiệp tại Qatar.
  • Ai.SHA tích hợp dữ liệu từ các đối tác như Bộ Thương mại và Công nghiệp, Trung tâm Tài chính Qatar, Công viên Khoa học và Công nghệ Qatar, và Cơ quan Khu vực Tự do Qatar.
  • Sáng kiến này dựa trên Bản ghi nhớ hợp tác giữa Invest Qatar và Microsoft, nhằm thúc đẩy sự đổi mới trong lĩnh vực số hóa tại Qatar và phát triển nền kinh tế dựa trên tri thức theo Tầm nhìn Quốc gia Qatar 2030.
  • Ai.SHA là minh chứng cho cam kết không ngừng của Invest Qatar trong việc tạo điều kiện thuận lợi cho các nhà đầu tư.

📌 Invest Qatar hợp tác với Microsoft để phát triển Ai.SHA, một trợ lý AI sử dụng công nghệ GPT thông qua dịch vụ Azure OpenAI. Trợ lý ảo này cung cấp thông tin quan trọng giúp đưa ra quyết định kinh doanh, trả lời câu hỏi về cơ hội kinh doanh, hệ thống đầu tư, thiết lập và mở rộng doanh nghiệp tại Qatar. Ai.SHA tích hợp dữ liệu từ các đối tác như Bộ Thương mại và Công nghiệp, Trung tâm Tài chính Qatar, Công viên Khoa học và Công nghệ Qatar, và Cơ quan Khu vực Tự do Qatar. Sự ra đời của "Invest Qatar Gateway" - một nền tảng số hóa cho nhà đầu tư, cùng với sự hỗ trợ từ Ai.SHA, tạo điều kiện cho việc kết nối và phát triển các doanh nghiệp tại Qatar, từ đó củng cố vị thế của Qatar như một trung tâm đầu tư toàn cầu.

VINBIGDATA RA MẮT VIGPT: TRỢ LÝ AI TÙY CHỈNH CỦA VIỆT NAM

  • VinBigdata, công ty hàng đầu trong ngành công nghệ Việt Nam, đã công bố ra mắt ViGPT, phiên bản Việt hóa của ChatGPT dành cho người dùng cuối.
  • ViGPT được thiết kế để phục vụ nhu cầu đặc biệt của cộng đồng Việt Nam, cung cấp kiến thức rộng lớn về pháp lý, lịch sử và văn hóa, đồng thời ưu tiên an ninh dữ liệu và sở hữu trí tuệ quốc gia.
  • ViGPT được xây dựng trên nền tảng vững chắc với cơ sở dữ liệu hơn 600GB dữ liệu tiếng Việt tinh lọc, hỗ trợ xuất sắc trong tạo nội dung, tìm kiếm thông tin và trả lời các truy vấn chung.
  • VinBigdata đang triển khai ViGPT trong các sản phẩm như trợ lý ảo pháp lý cho các cơ quan nhà nước và có kế hoạch tích hợp vào các ngành như giao thông, ngân hàng, tài chính và bảo hiểm.
  • GS. Vũ Hà Văn, Giám đốc Khoa học tại VinBigdata, nhấn mạnh tầm quan trọng của việc ra mắt ViGPT, coi đó là minh chứng cho khả năng tự chủ và bảo vệ tiến bộ công nghệ của Việt Nam.
  • Việc ra mắt ViGPT không chỉ thúc đẩy lĩnh vực trí tuệ nhân tạo mà còn là bước tiến lớn hướng tới sự tự lập công nghệ của Việt Nam.

📌 ViGPT, sản phẩm của VinBigdata, đánh dấu một bước tiến quan trọng trong việc phát triển trí tuệ nhân tạo tại Việt Nam. ViGPT được xây dựng trên nền tảng vững chắc với cơ sở dữ liệu hơn 600GB dữ liệu tiếng Việt tinh lọc, hỗ trợ xuất sắc trong tạo nội dung, tìm kiếm thông tin và trả lời các truy vấn chung. VinBigdata đang triển khai ViGPT trong các sản phẩm như trợ lý ảo pháp lý cho các cơ quan nhà nước và có kế hoạch tích hợp vào các ngành như giao thông, ngân hàng, tài chính và bảo hiểm. GS. Vũ Hà Văn, Giám đốc Khoa học tại VinBigdata, nhấn mạnh tầm quan trọng của việc ra mắt ViGPT, coi đó là minh chứng cho khả năng tự chủ và bảo vệ tiến bộ công nghệ của Việt Nam. 

Ernie bot của Baidu có hơn 100 triệu người dùng

  • Baidu's Ernie Bot, tương tự như ChatGPT, đã đạt mốc 100 triệu người dùng, theo thông báo của Wang Haifeng - CTO công ty Internet Trung Quốc.
  • Thành tựu này được công bố tại hội nghị về học sâu ở Bắc Kinh, sau khi Baidu mở cửa Ernie Bot cho công chúng vào tháng 8, tiếp nối sau đợt ra mắt hạn chế và quá trình thử nghiệm kéo dài hơn năm tháng cho một số người dùng được chọn lọc.
  • Các nhà phân tích nhận định, mặc dù sự ra mắt ban đầu vào tháng 3 không đáp ứng được kỳ vọng nhưng vẫn mang lại lợi thế đi đầu quan trọng cho công ty trong thị trường sau này trở nên đông đúc với hàng chục công ty công nghệ Trung Quốc phát triển các chatbot dùng AI tạo sinh.
  • Sự thành công này diễn ra sau khi OpenAI của Mỹ ra mắt ChatGPT vào cuối năm 2022, trở thành ứng dụng phần mềm phát triển nhanh nhất thế giới chỉ sau sáu tháng.
  • Kể từ đó, nhà đầu tư định giá OpenAI hơn 80 tỷ đô la. Mặc dù công ty mẹ của OpenAI là tổ chức phi lợi nhuận, Microsoft đã đầu tư 13 tỷ đô la vào một công ty con có lợi nhuận, chiếm 49% cổ phần.
  • CEO của Baidu, Robin Li, trong năm nay đã nhiều lần nhấn mạnh tiềm năng của Ernie Bot và các sản phẩm liên quan trong việc giành thị phần cho công ty trong các lĩnh vực kinh doanh chính bao gồm công cụ tìm kiếm, đám mây và xe thông minh.

📌 Baidu đã đạt được bước tiến quan trọng với Ernie Bot, thu hút hơn 100 triệu người dùng, và ghi dấu ấn đáng kể trong cuộc đua AI tạo sinh, một lĩnh vực đang ngày càng được nhiều công ty công nghệ Trung Quốc đầu tư phát triển.

ALEKSA GORDIC RA MẮT YUGOGPT: BẢN SAO CHATGPT HÀNG ĐẦU CHO CÁC NGÔN NGỮ NAM SLAV

  • Bài viết trên Cryptopolitan đề cập đến việc Aleksa Gordic, một nhà phát triển phần mềm, đã tạo ra Yugogpt, một mô hình ngôn ngữ AI.
  • Yugogpt được thiết kế để phục vụ cộng đồng nói tiếng Serbo-Croatian, bao gồm cả Serbia, Croatia, Bosnia và Herzegovina, và Montenegro.
  • Mô hình ngôn ngữ này tập trung vào việc cung cấp dịch vụ AI phù hợp với ngữ cảnh văn hóa và ngôn ngữ đặc trưng của khu vực Balkan.
  • Yugogpt sử dụng công nghệ tương tự như các mô hình ngôn ngữ lớn khác, nhưng được tinh chỉnh để phù hợp với ngữ pháp và từ vựng đặc thù của tiếng Serbo-Croatian.
  • Gordic nhấn mạnh tầm quan trọng của việc phát triển công nghệ AI theo ngôn ngữ và văn hóa địa phương, giúp tăng cường sự tiếp cận và hiệu quả sử dụng.
  • Yugogpt mở ra cơ hội cho người dùng ở khu vực Balkan tiếp cận với công nghệ AI tiên tiến, phục vụ nhu cầu thông tin, giáo dục, và giải trí.
  • Bài viết cũng nhấn mạnh rằng sáng kiến như Yugogpt là bước tiến quan trọng trong việc làm cho AI trở nên phổ biến và hữu ích cho mọi người trên toàn cầu.

📌 Yugogpt, mô hình ngôn ngữ AI mới của Aleksa Gordic, là một ví dụ điển hình của việc phát triển công nghệ AI theo ngôn ngữ và văn hóa địa phương, mở ra cơ hội tiếp cận với AI cho cộng đồng nói tiếng Serbo-Croatian, góp phần làm cho AI trở nên hữu ích và phổ biến hơn trên toàn cầu.

Đối thủ Gemini của Google có thể mở GPT-4V của AI theo cách hiểu trực quan không?: Bài viết này khám phá Trận chiến của những người khổng lồ trong AI đa phương thức

  • Sự phát triển của các Mô hình Ngôn ngữ Lớn Đa-modal (MLLMs) đánh dấu một bước ngoặt trong lĩnh vực AI đang phát triển nhanh chóng.
  • MLLMs kết hợp khả năng mạnh mẽ của các Mô hình Ngôn ngữ Lớn (LLMs) với các dữ liệu cảm quan như hình ảnh, mở rộng giới hạn của máy học và AI.
  • Sự quan tâm tăng lên đối với MLLMs, được thể hiện qua GPT-4V của OpenAI, là một xu hướng đáng chú ý trong cả môi trường học thuật và công nghiệp.
  • Mô hình mới của Google, Gemini, được giới thiệu là đối thủ tiềm năng của GPT-4V, đặc biệt trong lĩnh vực hiểu biết hình ảnh và suy luận đa-modal.
  • Nghiên cứu so sánh khả năng của Gemini với GPT-4V và mô hình Sphinx, một MLLM mã nguồn mở hàng đầu, để hiểu rõ sự khác biệt trong hiệu suất giữa các hệ thống mã nguồn mở và mã nguồn kín.
  • Gemini cho thấy khả năng cạnh tranh với GPT-4V, vượt trội hoặc ngang hàng trong một số khía cạnh của suy luận hình ảnh.
  • Phân tích định lượng cho thấy Gemini có hiểu biết đa-modal ấn tượng, cho thấy tiềm năng cạnh tranh với GPT-4V trong lĩnh vực MLLM.

📌 Nghiên cứu này cung cấp cái nhìn sâu sắc về thế giới đang phát triển của MLLMs. Gemini, cùng với GPT-4V và Sphinx, đẩy mạnh giới hạn của sự hiểu biết đa-modal, làm nổi bật sự tiến bộ liên tục trong lĩnh vực này và hướng tới việc đạt được hình thức trí tuệ nhân tạo toàn diện hơn.

Bài viết AI này của Trung Quốc giới thiệu Emu2: Mô hình đa phương thức 37 tỷ tham số xác định lại việc giải quyết nhiệm vụ và lý luận thích ứng

  • Bài viết trên MarkTechPost giới thiệu EMU2, một mô hình multimodal AI mới từ Trung Quốc với 37 tỷ tham số, tái định nghĩa cách giải quyết nhiệm vụ và suy luận thích nghi.
  • EMU2 kết hợp các kỹ thuật học sâu và học máy để xử lý và phân tích dữ liệu từ nhiều nguồn khác nhau như văn bản, hình ảnh và âm thanh.
  • Mô hình này có khả năng thực hiện một loạt các nhiệm vụ phức tạp, từ hiểu ngôn ngữ tự nhiên đến nhận dạng hình ảnh và xử lý âm thanh.
  • EMU2 được thiết kế để cải thiện khả năng suy luận và thích nghi trong các tình huống thực tế, giúp tăng cường hiệu suất trong giải quyết các vấn đề.
  • Mô hình này cũng mở ra khả năng mới trong việc phát triển ứng dụng AI, từ hỗ trợ quyết định cho đến tương tác người-máy tự nhiên hơn.
  • Các nhà nghiên cứu từ Trung Quốc nhấn mạnh rằng EMU2 có thể đóng vai trò quan trọng trong việc định hình tương lai của AI, với khả năng xử lý và kết hợp dữ liệu từ nhiều nguồn khác nhau.
  • Bài viết kết luận rằng EMU2 là một minh chứng cho sự tiến bộ trong lĩnh vực AI multimodal, có tiềm năng tạo ra những đột phá trong cách chúng ta xử lý và hiểu dữ liệu phức tạp.

📌 Sự ra đời của EMU2, mô hình multimodal AI với 37 tỷ tham số, không chỉ mở ra hướng mới trong xử lý và phân tích dữ liệu đa dạng mà còn tăng cường khả năng suy luận và thích nghi của AI, hứa hẹn mang lại những cải tiến đáng kể trong nhiều lĩnh vực ứng dụng.

Các nhà nghiên cứu của Alibaba đề xuất I2VGen-xl: Mô hình AI tổng hợp video xếp tầng có khả năng tạo video chất lượng cao từ một hình ảnh tĩnh duy nhất

.

  • Bài viết trên MarkTechPost giới thiệu về I2VGen-XL, một mô hình AI tổng hợp video phân cấp mới được đề xuất bởi các nhà nghiên cứu tại Alibaba.
  • I2VGen-XL có khả năng tạo ra video chất lượng cao từ một hình ảnh tĩnh đơn lẻ, mở ra khả năng chuyển đổi ảnh thành video sinh động.
  • Mô hình này sử dụng kỹ thuật học sâu để phân tích và tái tạo chuyển động, môi trường và ngữ cảnh dựa trên hình ảnh đầu vào.
  • Công nghệ AI này có tiềm năng ứng dụng rộng rãi, từ quảng cáo đến giải trí, và thậm chí trong lĩnh vực giáo dục và đào tạo.
  • I2VGen-XL được kỳ vọng sẽ cải thiện đáng kể quy trình sản xuất video, giảm thiểu thời gian và chi phí liên quan đến quay phim và chỉnh sửa.
  • Bài viết cũng nhấn mạnh sự độc đáo của mô hình này trong việc xử lý và tái tạo chuyển động phức tạp, mang lại video có độ phân giải cao và chất lượng ấn tượng.
  • Alibaba nhấn mạnh rằng I2VGen-XL là một bước tiến trong lĩnh vực tổng hợp video, hứa hẹn mở ra cơ hội mới trong cách chúng ta tạo và tương tác với nội dung video.

📌 Sự ra đời của I2VGen-XL, mô hình AI phân cấp tổng hợp video của Alibaba, không chỉ là bước đột phá trong việc tạo video từ ảnh tĩnh mà còn mở ra khả năng mới cho ngành công nghiệp sản xuất video, giảm thiểu chi phí và thời gian sản xuất.

 

Các nhà nghiên cứu của Tencent giới thiệu AppAgent: Khung tác nhân đa phương thức dựa trên LLM mới được thiết kế để vận hành các ứng dụng điện thoại thông minh

  • Bài viết trên MarkTechPost giới thiệu về AppAgent, một khung (framework) agent mới dựa trên LLM (Mô hình Ngôn ngữ Lớn) và multimodal được phát triển bởi các nhà nghiên cứu tại Tencent.
  • AppAgent được thiết kế để vận hành các ứng dụng điện thoại thông minh, kết hợp khả năng hiểu ngôn ngữ tự nhiên và xử lý hình ảnh để tương tác với các ứng dụng một cách hiệu quả.
  • Framework này cho phép tự động hóa các tác vụ phức tạp trên smartphone, như đặt hàng trực tuyến hoặc quản lý lịch trình, thông qua chỉ thị bằng lời nói hoặc văn bản.
  • AppAgent sử dụng công nghệ AI để hiểu và thực hiện các yêu cầu của người dùng, tạo ra một giao diện tương tác người-máy tự nhiên và trực quan.
  • Bài viết nhấn mạnh tầm quan trọng của việc kết hợp nhiều modalities như ngôn ngữ và hình ảnh trong việc tạo ra agent thông minh, có khả năng tương tác với môi trường số phức tạp.
  • Đây là một bước tiến trong việc tích hợp AI vào cuộc sống hàng ngày, giúp người dùng dễ dàng tương tác và sử dụng các ứng dụng thông minh mà không cần kỹ năng kỹ thuật phức tạp.
  • Bài báo kết luận rằng AppAgent mở ra triển vọng mới trong việc phát triển các ứng dụng thông minh hơn và thân thiện với người dùng, thông qua việc áp dụng công nghệ AI tiên tiến.

📌 Sự ra đời của AppAgent, một framework agent dựa trên LLM và multimodal của Tencent, là một minh chứng cho sự tiến bộ trong công nghệ AI, hứa hẹn mang lại sự tiện lợi và trải nghiệm người dùng tốt hơn trong việc tương tác với ứng dụng smartphone.

OpenAI RAG so với RAG tùy chỉnh của bạn: Cái nào tốt hơn?

  • Bài viết so sánh hiệu suất giữa hệ thống RAG (Retrieval-Augmented Generation) có sẵn trong OpenAI Assistants và phiên bản RAG tùy chỉnh sử dụng cơ sở dữ liệu vector Milvus.

  • Các hệ thống RAG được đánh giá dựa trên các chỉ số đo lường chất lượng câu trả lời được tạo ra bởi công cụ Ragas.

  • Hệ thống RAG tùy chỉnh dựa trên Milvus có chỉ số Ragas cao hơn so với RAG của OpenAI Assistants, đặc biệt về độ chính xác và liên quan của câu trả lời.

  • Lý do chính là RAG của OpenAI dựa nhiều vào kiến thức tiền huấn luyện hơn là kiến thức được tải lên, trong khi RAG tùy chỉnh tích hợp tốt hơn với kiến thức bên ngoài.

  • 📌 Tóm lại, với khả năng tùy chỉnh và hiệu suất cao hơn, RAG dựa trên cơ sở dữ liệu vector là lựa chọn tốt hơn cho các ứng dụng RAG.

Đào tạo LLM nhanh hơn bằng cách sử dụng Unsloth – đào tạo AI ChatGPT tùy chỉnh trong 24 giờ chứ không phải 30 ngày

  • Unsloth by Moonshot là một phần mềm mới cho phép đào tạo các mô hình ngôn ngữ lớn (LLMs) nhanh hơn 30 lần so với trước.
  • Unsloth giảm thời gian đào tạo từ 85 giờ xuống còn 3 giờ và từ 30 ngày xuống còn 24 giờ cho một ChatGPT tùy chỉnh.
  • Phần mềm này sử dụng ít bộ nhớ hơn 60%, cho phép xử lý lô dữ liệu lớn hơn 6 lần.
  • Độ chính xác không thay đổi hoặc tăng 20% với gói Max.
  • Không cần cập nhật phần cứng, chỉ cần thay đổi phần mềm, hỗ trợ GPU của NVIDIA, Intel và AMD.
  • Tối ưu hóa bằng cách sử dụng autograd thủ công, nhân ma trận chuỗi và viết lại toàn bộ kernel bằng ngôn ngữ Triton của OpenAI.
  • Sử dụng cơ chế Flash Attention từ xformers và Tri Dao.
  • Phiên bản nguồn mở miễn phí giúp tinh chỉnh nhanh hơn 2 lần với bộ nhớ giảm 50%.

📌 Unsloth by Moonshot cung cấp giải pháp đột phá, giúp đào tạo các mô hình ngôn ngữ lớn nhanh chóng và hiệu quả, từ đó thúc đẩy sự phát triển trong lĩnh vực AI. Phần mềm này là một công cụ quan trọng, cho phép các nhà phát triển AI tiết kiệm thời gian và tài nguyên khi đào tạo mô hình, mở ra kỷ nguyên mới cho việc đào tạo mô hình AI.

Báo cáo AI này đi sâu vào 'Sao chép và thích ứng tự động' (ARA): Giải mã khả năng tương lai của các tác nhân mô hình ngôn ngữ

  • Báo cáo AI mới nghiên cứu khả năng 'Tự sao chép và Thích nghi Tự động' (ARA) của các agent mô hình ngôn ngữ, mở rộng hiểu biết về khả năng tương lai của chúng.
  • Nghiên cứu bởi Trung tâm Nghiên cứu Sắp xếp và Đội Đánh giá, khám phá khả năng các agent có thể tự lấy nguồn lực, tự sao chép và thích nghi với thách thức mới.
  • Các agent thể hiện khả năng xuất sắc trong nhiệm vụ đơn giản nhưng gặp hạn chế khi đối mặt với thách thức phức tạp hơn.
  • Đánh giá hiệu suất của các agent trong thực hiện nhiệm vụ thực tế trên website, thực thi mã, và tích hợp với dịch vụ như AWS.
  • Nghiên cứu nhấn mạnh tầm quan trọng của việc đánh giá trung gian trong quá trình trước khi đào tạo để giảm thiểu phát triển năng lực ARA không mong muốn trong các mô hình ngôn ngữ tương lai.
  • Các agent được đánh giá trong nghiên cứu chỉ thể hiện khả năng ARA hạn chế, thành công ở các nhiệm vụ thử nghiệm đơn giản và thất bại liên tục ở thách thức phức tạp hơn.
  • Các nhà nghiên cứu cảnh báo không loại trừ khả năng các agent trong tương lai phát triển khả năng ARA, và nhấn mạnh việc đánh giá trung gian quan trọng trong quá trình đào tạo.

📌 Báo cáo này khẳng định việc đánh giá năng lực ARA của các agent mô hình ngôn ngữ là cần thiết để dự đoán biện pháp an ninh và sắp xếp. Nó cung cấp một nền tảng cho việc tiếp tục khám phá và đánh giá trong ARA, đồng thời nhấn mạnh khả năng cải thiện mô hình hiện có thông qua việc điều chỉnh tinh tế.

CÁC NHÀ NGHIÊN CỨU KHÁM PHÁ CÁC VẤN ĐỀ VỀ ĐỘ TIN CẬY TRONG CÁC MÔ HÌNH NGÔN NGỮ AI

  • Một nghiên cứu của Đại học Waterloo đã nêu bật mối quan ngại về độ chính xác và đáng tin cậy của các mô hình ngôn ngữ lớn, đặc biệt là phiên bản đầu tiên của ChatGPT.
  • Nghiên cứu phân tích cách ChatGPT xử lý các tuyên bố trong sáu lĩnh vực khác nhau, bao gồm sự thật, âm mưu, tranh cãi, quan niệm sai lầm, định kiến, và hư cấu.
  • Kết quả cho thấy những mô hình này thường mắc lỗi, mâu thuẫn và lan truyền thông tin sai lệch.

📌 Nghiên cứu này mở ra những thách thức lớn đối với việc sử dụng rộng rãi các mô hình ngôn ngữ lớn như ChatGPT, đặc biệt là khi xem xét khả năng của chúng trong việc phân biệt sự thật và thông tin sai lệch. Với những phát hiện này, cần phải có sự cẩn trọng trong việc áp dụng và tin tưởng vào các mô hình này, đặc biệt là trong việc chống lại sự lan truyền thông tin sai lệch trên môi trường số.

Apple tối ưu hóa LLM cho các trường hợp sử dụng Edge

  • Apple công bố bài báo "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", mô tả phương pháp chạy LLMs trên thiết bị vượt quá dung lượng DRAM hiện có. Phương pháp này dựa vào việc lưu trữ tham số mô hình trên bộ nhớ flash và chuyển chúng theo nhu cầu đến DRAM.
  • Phương pháp của Apple bao gồm xây dựng mô hình chi phí suy luận phù hợp với hành vi của bộ nhớ flash, tập trung vào hai lĩnh vực quan trọng: giảm lượng dữ liệu chuyển từ flash và đọc dữ liệu trong các khối lớn, liền mạch hơn.
  • Trong khuôn khổ này, Apple áp dụng hai kỹ thuật chính: "windowing" giảm lượng dữ liệu chuyển bằng cách tái sử dụng các nơ-ron đã kích hoạt trước đó và "row-column bundling", tận dụng ưu điểm truy cập dữ liệu tuần tự của bộ nhớ flash, tăng kích thước của các khối dữ liệu đọc từ flash.
  • Các phương pháp này cho phép chạy mô hình gấp đôi kích thước DRAM có sẵn, với tốc độ suy luận tăng 4-5 lần và 20-25 lần so với phương pháp tải thông thường trên CPU và GPU.
  • Nghiên cứu này có ý nghĩa quan trọng khi Apple dự định tích hợp khả năng AI tạo sinh vào iOS 18. Hệ điều hành mới sẽ tận dụng công nghệ AI tạo sinh để cải thiện Siri và ứng dụng Tin nhắn, giúp chúng trả lời câu hỏi và tự động hoàn thành câu với hiệu quả hơn. Apple cũng khám phá khả năng sử dụng AI tạo sinh trong các ứng dụng như Apple Music, Pages, Keynote và Xcode.
  • Ngoài ra, Samsung gần đây đã giới thiệu Gauss, LLM của riêng mình cho thiết bị. Gauss dự kiến sẽ được tích hợp vào điện thoại Galaxy S24 sắp ra mắt vào đầu năm 2024. Công ty dự định tích hợp mô hình ngôn ngữ này vào thiết bị như điện thoại, máy tính xách tay và máy tính bảng.
  • Google cũng đã công bố LLM của mình cho thiết bị, có tên Gemini Nano, sẽ được giới thiệu trong điện thoại Google Pixel 8 sắp tới, với các khả năng như "Summarize" trong ứng dụng Recorder và "Smart Reply" trong Gboard.

📌 Nghiên cứu của Apple về cách chạy LLMs trên thiết bị với bộ nhớ hạn chế mở ra hướng mới trong việc tích hợp AI tạo sinh vào các thiết bị thông minh. Các phương pháp "windowing" và "row-column bundling" đóng vai trò quan trọng trong việc tăng cường tốc độ và hiệu suất, đồng thời hỗ trợ Apple và các công ty công nghệ khác trong việc mở rộng ứng dụng của AI tạo sinh.

Gặp Finn - chatbot GenAI mới của bunq

  • Bunq, ngân hàng số Hà Lan, đã giới thiệu Finn, chatbot AI tạo sinh mới của mình, hỗ trợ người dùng quản lý tài chính cá nhân.
  • Finn được xây dựng dựa trên mô hình ngôn ngữ lớn (LLMs) của OpenAI và Meta, có khả năng cung cấp câu trả lời phức tạp hơn so với các truy vấn tìm kiếm thông thường.
  • Theo Ali Niknam, CEO của bunq, Finn giống như một kế toán cá nhân, có thể trả lời các câu hỏi liên quan đến giao dịch và hoạt động tài chính của người dùng.
  • Bunq dự kiến ​​các ngân hàng cổ điển sẽ mất nhiều thời gian để có thể phát triển và triển khai các chatbot AI tương tự do cấu trúc dữ liệu lạc hậu.
  • Niknam nhấn mạnh rằng bunq đã đầu tư vào AI từ sớm và đã xây dựng cơ sở dữ liệu tối ưu cho việc sử dụng AI.
  • Bunq cũng giới thiệu các tính năng mới như tab ngân sách, hoàn tiền gấp đôi cho thành viên cùng "đội trồng cây xanh", thẻ tín dụng miễn phí và tính năng thanh toán chạm bằng điện thoại cho người dùng doanh nghiệp.

📌 Finn không chỉ là một bước tiến của bunq trong việc áp dụng AI tạo sinh vào ngành ngân hàng, mà còn là dấu hiệu cho thấy sự chuyển mình của các ngân hàng số trong việc cung cấp dịch vụ tài chính thông minh, cá nhân hóa và thuận tiện hơn cho người dùng. Đồng thời, việc này cũng cho thấy sự khác biệt trong cách tiếp cận công nghệ giữa các ngân hàng mới nổi và ngân hàng truyền thống.

Bạn muốn tận dụng sức mạnh của AI? Nó bắt đầu với nền tảng dữ liệu vững chắc

  • Bài viết nhấn mạnh tầm quan trọng của nền tảng dữ liệu vững chắc trong việc tận dụng sức mạnh của AI.
  • Đề cập đến các thách thức khi xây dựng cơ sở dữ liệu chất lượng cao, bao gồm việc thu thập, lưu trữ và xử lý dữ liệu.
  • Giới thiệu các chiến lược để cải thiện chất lượng dữ liệu, như làm sạch dữ liệu, tích hợp và chuẩn hóa dữ liệu.
  • Đề xuất rằng việc quản lý dữ liệu hiệu quả có thể cải thiện khả năng phân tích và dự đoán của AI, từ đó đem lại lợi ích kinh doanh.
  • Bài viết cũng nhấn mạnh sự cần thiết của việc bảo mật dữ liệu, đặc biệt trong bối cảnh tăng cường sử dụng dữ liệu trong các doanh nghiệp.
  • Cuối cùng, bài viết kết luận rằng một nền tảng dữ liệu vững chắc là chìa khóa để mở khóa tiềm năng của AI, góp phần vào sự thành công của doanh nghiệp.

📌 Bài viết nhấn mạnh rằng việc xây dựng một nền tảng dữ liệu vững chắc là yếu tố cơ bản để tận dụng sức mạnh của AI. Cải thiện chất lượng và bảo mật dữ liệu có thể thúc đẩy khả năng phân tích và dự đoán, từ đó mang lại lợi ích cho doanh nghiệp.

Bài viết OpenAI này khám phá sự khái quát hóa từ yếu đến mạnh: Chìa khóa để mở khóa toàn bộ khả năng của AI siêu phàm

  • Các nhà nghiên cứu từ OpenAI đã đề xuất một phương pháp mới để giải quyết vấn đề căn chỉnh mô hình AI siêu phàm thông qua quá trình tổng quát hóa từ yếu tới mạnh.
  • Phương pháp này liên quan tới việc sử dụng mô hình nhỏ hơn để giám sát mô hình lớn hơn trong huấn luyện, qua đó cải thiện hiệu suất của mô hình mạnh hơn.
  • Các nhà nghiên cứu đã thực hiện thí nghiệm trên ba lĩnh vực: nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP), giải đố cờ vua và mô hình hóa phần thưởng cho ChatGPT.
  • Kết quả cho thấy sự tổng quát hóa từ yếu tới mạnh có hiệu quả với mô hình GPT-4 khi được giám sát bởi mô hình cấp độ GPT-2, đặc biệt sau khi áp dụng kỹ thuật phụ trợ tổn thất tin cậy.
  • Nghiên cứu cũng chỉ ra rằng việc sử dụng mô hình trung gian có thể cải thiện khả năng tổng quát từ yếu tới mạnh trên các bài toán cờ vua.
  • Tuy nhiên, cách tiếp cận này vẫn còn hạn chế và được xem như bằng chứng khái niệm hơn là giải pháp thực tế có thể triển khai.

Nghiên cứu của OpenAI mở ra một hướng tiếp cận mới để giải quyết vấn đề căn chỉnh mô hình AI siêu phàm, qua đó tận dụng khả năng của mô hình yếu để cải thiện mô hình mạnh. Kết quả thú vị từ việc áp dụng phương pháp này trên NLP và cờ vua cho thấy tiềm năng lớn, mặc dù còn nhiều thách thức để vượt qua và nghiên cứu cần được mở rộng hơn nữa.

Microsoft ra mắt GPT-RAG: Thư viện máy học cung cấp Kiến trúc tham chiếu cấp doanh nghiệp để triển khai sản xuất LLM bằng cách sử dụng Mẫu RAG trên Azure OpenAI

  • Bài viết trên MarkTechPost thông báo về việc Microsoft ra mắt GPT-RAG, một thư viện học máy mới.
  • GPT-RAG cung cấp một kiến trúc tham chiếu doanh nghiệp cho việc triển khai mô hình ngôn ngữ lớn (LLMs) sử dụng mẫu RAG trên Azure OpenAI.
  • Kiến trúc này hướng đến việc tối ưu hóa hiệu suất và quản lý tài nguyên hiệu quả trong môi trường đám mây.
  • GPT-RAG giúp các doanh nghiệp dễ dàng tích hợp và triển khai LLMs vào các ứng dụng và dịch vụ của họ.
  • Mục tiêu là giúp các tổ chức tận dụng sức mạnh của AI, đồng thời đảm bảo tính bảo mật và tuân thủ.
  • Bài viết cũng nhấn mạnh sự cần thiết của việc có một hệ thống quản lý tài nguyên linh hoạt và mạnh mẽ cho các ứng dụng AI.
  • GPT-RAG được xây dựng để hỗ trợ các công ty trong việc mở rộng quy mô và tối ưu hóa các dự án AI của họ.

Bài viết từ MarkTechPost giới thiệu GPT-RAG của Microsoft, một thư viện học máy mới hướng đến việc triển khai mô hình ngôn ngữ lớn một cách hiệu quả trên Azure OpenAI, giúp các tổ chức tận dụng AI một cách an toàn và hiệu quả.

Mozilla muốn giúp bạn tạo AI của riêng mình nhưng không có đám mây

  • Bài viết trên Android Police báo cáo về dự án mới của Mozilla với AI, tập trung vào việc lưu trữ dữ liệu AI trên đám mây cục bộ.
  • Mozilla phát triển hệ thống cho phép người dùng tận dụng AI mà không cần chia sẻ dữ liệu cá nhân lên đám mây công cộng.
  • Dự án này nhằm tăng cường quyền riêng tư và an toàn dữ liệu cho người dùng khi sử dụng các dịch vụ AI.
  • Hệ thống của Mozilla cho phép xử lý và phân tích dữ liệu ngay tại thiết bị của người dùng, giảm thiểu rủi ro về an ninh mạng.
  • Điều này cũng giúp giảm sự phụ thuộc vào các máy chủ trung tâm và cung cấp giải pháp an toàn hơn cho dữ liệu nhạy cảm.
  • Bài viết cũng nhấn mạnh sự cần thiết của việc phát triển các công nghệ AI tôn trọng quyền riêng tư của người dùng.
  • Mozilla đang nỗ lực tạo ra một mô hình AI có khả năng tự học và cải thiện mà không cần truy cập vào dữ liệu lớn từ máy chủ.

Bài viết từ Android Police giới thiệu dự án của Mozilla về lưu trữ dữ liệu AI trên đám mây cục bộ, nhằm tăng cường quyền riêng tư và an ninh dữ liệu, giảm sự phụ thuộc vào đám mây công cộng và phát triển công nghệ AI tôn trọng quyền riêng tư người dùng.

Nghiên cứu AI của ByteDance giới thiệu StemGen: Mô hình học sâu về thế hệ âm nhạc từ đầu đến cuối được đào tạo để nghe bối cảnh âm nhạc và phản hồi phù hợp

  • Bài viết trên MarkTechPost giới thiệu StemGen, mô hình học sâu mới của ByteDance AI Research, chuyên về tạo ra âm nhạc.
  • StemGen được đào tạo để lắng nghe bối cảnh âm nhạc và phản hồi phù hợp, mang lại khả năng sáng tác âm nhạc độc đáo.
  • Mô hình này sử dụng kỹ thuật học sâu để phân tích và tạo ra các đoạn nhạc theo yêu cầu cụ thể.
  • StemGen có thể hỗ trợ nghệ sĩ trong quá trình sáng tác, cung cấp ý tưởng và phong cách âm nhạc mới.
  • Mô hình còn giúp tự động hóa quá trình sản xuất âm nhạc, giảm thiểu thời gian và công sức.
  • Bài viết cũng đề cập đến khả năng của StemGen trong việc tạo ra âm nhạc phù hợp với các sự kiện và môi trường cụ thể.
  • Có những thách thức về bản quyền và sáng tạo khi sử dụng AI trong tạo ra âm nhạc.

Bài viết từ MarkTechPost mô tả StemGen của ByteDance AI Research, một mô hình học sâu tạo ra âm nhạc, có khả năng lắng nghe và phản hồi bối cảnh âm nhạc, hỗ trợ nghệ sĩ trong sáng tác và tự động hóa sản xuất âm nhạc, mặc dù vẫn tồn tại thách thức về bản quyền và sáng tạo.

Mistral AI chuyển sang Mô hình cấp độ GPT-4 mã nguồn mở vào năm 2024

  • Bài viết trên Analytics India Magazine thông báo về kế hoạch của Mistral AI phát hành một mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024.
  • Mistral AI nhấn mạnh sự cần thiết của việc cung cấp công nghệ AI tiên tiến cho cộng đồng.
  • Mô hình nguồn mở này hứa hẹn mang lại lợi ích cho các nhà nghiên cứu và phát triển, cho phép họ tùy chỉnh và cải tiến mô hình.
  • Sự kiện này đánh dấu một bước tiến quan trọng trong lĩnh vực AI, với việc chia sẻ công nghệ mạnh mẽ với cộng đồng rộng lớn.
  • Mistral AI hy vọng mô hình của họ sẽ thúc đẩy đổi mới và sự sáng tạo trong nhiều lĩnh vực khác nhau.
  • Có những lo ngại về việc sử dụng không kiểm soát của công nghệ AI nguồn mở này, đặc biệt là về an toàn và đạo đức.
  • Mistral AI dự định triển khai các biện pháp để đảm bảo an toàn và tuân thủ đạo đức trong sử dụng mô hình của họ.

Bài viết từ Analytics India Magazine giới thiệu kế hoạch của Mistral AI về việc phát hành mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024, một sự kiện đánh dấu bước tiến quan trọng trong việc chia sẻ công nghệ AI với cộng đồng, mặc dù vẫn còn lo ngại về các vấn đề an toàn và đạo đức.

Google AI đề xuất PixelLLM: Mô hình ngôn ngữ tầm nhìn có khả năng bản địa hóa chi tiết và căn chỉnh ngôn ngữ tầm nhìn

  • Bài viết trên MarkTechPost giới thiệu PixelL-LM, mô hình ngôn ngữ hình ảnh mới của Google AI.
  • PixelL-LM có khả năng xác định vị trí tinh tế và căn chỉnh ngôn ngữ-hình ảnh.
  • Mô hình kết hợp hiệu quả giữa xử lý ngôn ngữ tự nhiên và nhận dạng hình ảnh.
  • Sử dụng kỹ thuật học sâu để phân tích và hiểu hình ảnh dựa trên mô tả ngôn ngữ.
  • PixelL-LM cải thiện đáng kể khả năng tương tác giữa máy tính và người dùng thông qua hình ảnh và ngôn ngữ.
  • Mô hình này có tiềm năng trong nhiều lĩnh vực như y tế, an ninh và giáo dục.
  • Bài viết cũng đề cập đến những thách thức liên quan đến độ chính xác và độ tin cậy của mô hình.

Bài viết từ MarkTechPost giới thiệu PixelL-LM của Google AI, một mô hình ngôn ngữ hình ảnh tiên tiến với khả năng xác định vị trí và căn chỉnh ngôn ngữ-hình ảnh một cách tinh tế, mở ra nhiều ứng dụng tiềm năng trong các ngành như y tế và giáo dục.

Microsoft ra mắt Mô hình ngôn ngữ nhỏ Phi-2: SLM là gì, chúng khác với LLM như ChatGPT như thế nào?

  • Bài viết trên Firstpost nói về việc Microsoft ra mắt mô hình ngôn ngữ nhỏ gọi là Phi-2 và giải thích sự khác biệt giữa Mô hình Ngôn ngữ Nhỏ (SLMs) và Mô hình Ngôn ngữ Lớn (LLMs) như ChatGPT.
  • Phi-2 là một phần của dự án mô hình ngôn ngữ nhỏ (SLM) của Microsoft, nhằm mục đích cung cấp các giải pháp AI tối ưu hóa về hiệu suất và chi phí.
  • SLMs như Phi-2 thường yêu cầu ít tài nguyên hơn để vận hành so với LLMs, làm cho chúng trở nên lý tưởng cho các ứng dụng có quy mô nhỏ hơn hoặc có ngân sách hạn chế.
  • Phi-2 được thiết kế để hoạt động hiệu quả hơn trong việc xử lý các tác vụ ngôn ngữ cụ thể, với khả năng tối ưu hóa dành cho các ngữ cảnh và yêu cầu cụ thể.
  • Bài viết cũng so sánh với LLMs như ChatGPT, chỉ ra rằng trong khi LLMs cung cấp khả năng xử lý ngôn ngữ phong phú và phức tạp, chúng đòi hỏi nhiều tài nguyên hơn và có thể không hiệu quả về chi phí cho tất cả các ứng dụng.
  • Microsoft hy vọng rằng việc ra mắt Phi-2 sẽ mở rộng khả năng tiếp cận của công nghệ AI, đặc biệt là cho các doanh nghiệp nhỏ và vừa, và những ứng dụng cần giải pháp AI linh hoạt và tiết kiệm chi phí.
  • Bài viết cũng nhấn mạnh sự cần thiết của việc phát triển các giải pháp AI đa dạng để đáp ứng nhu cầu cụ thể của người dùng và doanh nghiệp khác nhau.

Kết luận: Microsoft ra mắt Phi-2, một mô hình ngôn ngữ nhỏ (SLM), làm sáng tỏ sự khác biệt giữa SLMs và LLMs như ChatGPT. Phi-2 được thiết kế để cung cấp giải pháp AI hiệu quả về chi phí và tối ưu hóa, nhắm vào các doanh nghiệp nhỏ và vừa và ứng dụng cần giải pháp linh hoạt. Sự phát triển này mở rộng khả năng tiếp cận của công nghệ AI, đồng thời nhấn mạnh tầm quan trọng của việc phát triển các loại mô hình AI đa dạng để phục vụ nhu cầu đa dạng.

LLM được giải phóng: Điều hướng sự hỗn loạn của thử nghiệm trực tuyến

- Các công ty AI tạo sinh như OpenAI và Anthropic đã phát hành các mô hình ngôn ngữ lớn (LLM) như GPT-3 (175 tỷ tham số) và LLaMA (540 tỷ tham số) trực tiếp ra công chúng mà chưa qua kiểm thử chi tiết.

 

- Đây được coi là thử nghiệm sử dụng cộng đồng mạng với hàng tỷ người dùng để phát hiện lỗi, thay vì kiểm thử hàng nghìn giờ như truyền thống.

 

- Có lo ngại về khả năng lạm dụng và thiếu chính xác do LLM thiếu hướng dẫn đạo đức và kiểm soát chất lượng. Các LLM có thể thiên vị dựa trên dữ liệu huấn luyện.

 

- 60% dữ liệu huấn luyện GPT-3 và 67% LLaMA đến từ CommonCrawl - dữ liệu web thiếu kiểm soát chất lượng. Trách nhiệm nằm ở nhà phát triển khi lựa chọn dữ liệu. 

 

- Điều khoản dịch vụ của LLM không đảm bảo độ chính xác, không chịu trách nhiệm pháp lý và dựa vào sự cân nhắc của người dùng.

 

- Chưa rõ ràng về trách nhiệm pháp lý khi lỗi xảy ra - nhà cung cấp LLM, hay người dùng? 

 

- Người sáng tạo nội dung nên có quyền từ chối LLM sử dụng dữ liệu của họ mà không xin phép.

 

- Luật hiện hành về bản quyền và quyền riêng tư dữ liệu chưa theo kịp tác động của LLM. Đã có các vụ kiện xảy ra.

 

Kết luận:

- Cần sớm có các quy định và kiểm soát chặt chẽ hơn đối với LLM, tránh lạm dụng và đảm bảo sử dụng đạo đức. Các công ty công nghệ cần cân nhắc kỹ trước khi phát hành công nghệ mới có thể gây hậu quả nghiêm trọng.

 

Các mô hình AI lớn giờ đây có thể tạo ra các công cụ AI nhỏ hơn mà không cần con người và huấn luyện chúng như một 'anh cả'

- Các mô hình AI lớn hiện có khả năng tự tạo ra các công cụ AI nhỏ hơn mà không cần sự can thiệp của con người, theo nhóm nghiên cứu từ MIT và một số trường Đại học California cùng công ty công nghệ AI Aizip.
- Mô hình AI lớn như ChatGPT chạy trên nền tảng có thể tự sao chép một cách tự động. Yan Sun, CEO của Aizip, so sánh việc này như "anh trai lớn giúp anh trai nhỏ phát triển". Đây được coi là bước đầu tiên hướng tới sự tự phát triển của AI.
- Công nghệ mới này cho phép thiết kế một mô hình AI hoàn toàn tự động mà không cần sự tham gia của con người trong quy trình, theo nhà nghiên cứu Yubei Chen.
- Trong khi mô hình ngôn ngữ lớn như ChatGPT tốn chi phí lên đến $700,000 mỗi ngày để vận hành, các mô hình AI nhỏ hơn - thường được gọi là tiny machine learning (TinyML) - có thể vận hành với chi phí thấp và có thể được tích hợp trong các thiết bị di động.
- TinyML có thể được sử dụng cho các nhiệm vụ cụ thể từ nhận diện khuôn mặt đến thiết bị trợ thính và đồ dùng gia đình. Sun nhấn mạnh rằng họ đang làm việc để đưa trí thông minh vào cuộc sống hàng ngày, làm cho cuộc sống an toàn hơn.
- Nhóm nghiên cứu tập trung vào việc tạo ra các AI nhỏ nhưng cho rằng quá trình thiết kế hiện có thể được thực hiện tự động bởi AI thông minh hơn. Họ tin rằng trong tương lai, AI lớn và nhỏ sẽ hợp tác và xây dựng một hệ sinh thái trí tuệ đầy đủ.

Kết luận: Các nhà khoa học đã phát triển một công nghệ mới cho phép các mô hình AI lớn tự tạo ra và huấn luyện các mô hình AI nhỏ mà không cần sự can thiệp của con người. Điều này mở ra khả năng triển khai AI trong nhiều lĩnh vực với chi phí thấp hơn và quy mô nhỏ gọn, hướng tới việc tạo ra một hệ sinh thái trí tuệ toàn diện.

 

Bài báo khảo sát AI đề cập đến vai trò của các mô hình ngôn ngữ lớn (LLM) trong y học: Những thách thức, nguyên tắc và ứng dụng của chúng

- Bài viết trên MarkTechPost của Tanya Malhotra ngày 17 tháng 12 năm 2023 phân tích vai trò của các mô hình ngôn ngữ lớn (LLMs) trong y tế, thách thức và ứng dụng của chúng. 

- LLMs như GPT, PaLM, LLaMA được sử dụng trong nhiều nhiệm vụ NLP và đang được thử nghiệm trong lĩnh vực y tế với các mô hình như ChatDoctor, MedAlpaca, PMC-LLaMA.

- Các thách thức bao gồm thiếu dữ liệu đánh giá chung và sự tập trung quá mức vào các câu hỏi y khoa mà bỏ qua các nhiệm vụ khác như truy xuất thông tin, tóm tắt văn bản.

- Nghiên cứu đưa ra 5 câu hỏi chính để khám phá việc tạo, đánh giá, sử dụng, vấn đề và cải thiện các mô hình LLMs y tế.

- Đề xuất nghiên cứu nhấn mạnh sự cần thiết của việc phát triển và áp dụng LLMs một cách có trách nhiệm trong ngành y.

 

Kết luận, nghiên cứu của Tanya Malhotra cung cấp cái nhìn toàn diện về sự tích hợp của AI tạo sinh trong y học, qua đó mở ra hướng tiếp cận mới cho việc cải thiện chăm sóc sức khỏe và hỗ trợ y khoa thông qua việc sử dụng các mô hình ngôn ngữ lớn.

 

Mục tiêu của Google dành cho Gemini AI trong những năm tới là gì?

- Google hướng đến phát triển AI tạo sinh Gemini với các mục tiêu chính: phát triển AI đạo đức, cải thiện trải nghiệm người dùng, đổi mới nghiên cứu, tích hợp sản phẩm, tiếp cận toàn cầu, phát triển bền vững, hợp tác, giải quyết thách thức toàn cầu, bảo mật dữ liệu và thích ứng với quy định.

- Google nhấn mạnh vào việc xây dựng nguyên tắc sử dụng AI đạo đức, bao gồm việc thiết lập hướng dẫn chi tiết, đảm bảo công bằng và bảo mật thông tin cá nhân.

- Gemini AI nhằm nâng cao trải nghiệm người dùng qua khả năng xử lý ngôn ngữ tự nhiên, tích hợp chặt chẽ với các dịch vụ của Google.

- Google cam kết đổi mới trong nghiên cứu AI, phát triển các thuật toán ML tiên tiến và nâng cao công nghệ nhận dạng hình ảnh và hiểu ngôn ngữ tự nhiên.

- Gemini AI được tích hợp vào nhiều sản phẩm và dịch vụ, nhằm mục tiêu làm cho AI trở thành phần không thể thiếu trong trải nghiệm người dùng.

- Google tập trung vào mục tiêu tiếp cận và hòa nhập toàn cầu, làm cho AI phù hợp với nhu cầu đa dạng của người dùng trên khắp thế giới.

- Phát triển AI bền vững và giảm thiểu tác động môi trường là một phần trong cam kết của Google.

- Google tìm kiếm cơ hội hợp tác với các tổ chức giáo dục, công nghiệp và chính phủ để cùng nhau thúc đẩy sự phát triển của AI.

- Google sử dụng AI để giải quyết các vấn đề lớn như chăm sóc sức khỏe, giáo dục và biến đổi khí hậu.

- Đảm bảo an toàn dữ liệu và quyền riêng tư là một phần không thể thiếu trong quá trình phát triển Gemini AI.

 

Tóm lại, Google đặt ra các mục tiêu quan trọng cho Gemini AI nhằm định hình tương lai của công nghệ AI. Với những cam kết về đạo đức, trải nghiệm người dùng, đổi mới nghiên cứu, tích hợp sản phẩm, tiếp cận toàn cầu, phát triển bền vững, hợp tác, giải quyết thách thức toàn cầu và bảo mật dữ liệu, Google không chỉ muốn cải tiến các dịch vụ của mình mà còn nhắm đến việc tạo ra ảnh hưởng tích cực đối với xã hội và môi trường.

Giám đốc Ola Bhavish Aggrawal ra mắt Mô hình AI đầu tiên của Ấn Độ Krutrim: Kiểm tra chi tiết

- Ola, công ty gọi xe hàng đầu Ấn Độ, vừa ra mắt Krutrim - một trong những mô hình AI đầu tiên của Ấn Độ.

- Krutrim hỗ trợ hiểu và tạo nội dung bằng 20 ngôn ngữ Ấn Độ, bao gồm Marathi, Hindi, Telugu, Kannada và Odia.

- Sản phẩm này đang ở giai đoạn beta và dự kiến sẽ mở rộng sang một hệ sinh thái AI toàn diện.

- Krutrim có hai phiên bản, cơ bản và Pro, với phiên bản Pro sẽ ra mắt trong quý tiếp theo.

- Bhavish Aggarwal, CEO của Ola, nhấn mạnh về sự đơn giản và giao diện thân thiện với người dùng của Krutrim.

- Ola hướng tới việc thúc đẩy người tiêu dùng chuyển từ sản phẩm AI phương Tây sang sử dụng sản phẩm AI bản địa.

 

Krutrim là bước tiến quan trọng của Ola trong việc tạo dựng một nền tảng AI mang đậm bản sắc Ấn Độ, hướng đến việc chấp nhận rộng rãi trong cộng đồng nói 20 ngôn ngữ Ấn Độ và sẽ là một phần mở rộng của hệ sinh thái AI bao gồm cả chip AI, cloud AI bền vững và ứng dụng dành cho người dùng. Phát triển này không chỉ đánh dấu một bước tiến trong lĩnh vực công nghệ của Ấn Độ mà còn phù hợp với các sáng kiến của chính phủ, nhằm định hình hướng đi của Ấn Độ trong lĩnh vực AI.

 

Tại sao Anthropic và OpenAI bị ám ảnh bởi việc đảm bảo trọng lượng mô hình LLM

- Anthropic và OpenAI tập trung bảo mật trọng số mô hình AI tạo sinh do giá trị quan trọng của chúng: chúng đại diện cho kết quả của quá trình học và dự đoán.

- Jason Clinton, CISO của Anthropic, dành nửa thời gian làm việc để bảo vệ trọng số của Claude, một tệp dữ liệu terabyte.

- Rand Corporation nhấn mạnh rằng trọng số mô hình cần được bảo vệ như là thành phần quan trọng, có thể bị lợi dụng nếu rơi vào tay kẻ xấu.

- White House Executive Order yêu cầu các công ty mô hình nền tảng cung cấp thông tin về bảo mật trọng số mô hình.

- OpenAI không phân phối trọng số mô hình ngoại trừ qua API để kiểm soát thông tin.

- Nghiên cứu của Rand chỉ ra 40 phương thức tấn công khác nhau nhằm đánh cắp trọng số mô hình AI.

- Có quan điểm khác biệt về mức độ rủi ro của việc lộ trọng số mô hình AI nguồn mở và cách thức hạn chế chúng.

 

Kết luận: Bảo mật trọng số mô hình AI là một vấn đề cấp thiết cho cả Anthropic và OpenAI. Các tổ chức này dành nhiều nguồn lực và thời gian để bảo vệ chúng khỏi nguy cơ rơi vào tay kẻ xấu, với những hậu quả không lường trước được. Các chính sách và nghiên cứu hiện hành như của Rand Corporation và White House Executive Order ủng hộ quan điểm này, trong khi vẫn còn những tranh luận về lợi ích của mô hình AI nguồn mở.

Grok của Elon Musk đại diện cho mối đe dọa nghiêm trọng đối với ChatGPT

- Tóm tắt nội dung bài viết:

 

- Grok - chatbot AI mới của Elon Musk - là mối đe dọa nghiêm trọng đối với ChatGPT.

 

- Grok vượt trội so với một số đối thủ ở khả năng tóm tắt tin tức thời gian thực. 

 

- Grok có thể đọc và tóm tắt các bài báo, cung cấp cái nhìn tổng quan nhanh chóng.

 

- Điều này là thách thức lớn với ChatGPT do hạn chế về khả năng hiểu và tóm tắt văn bản.

 

- Grok có tiềm năng mở rộng khả năng AI vào các lĩnh vực như tóm tắt tin tức, trợ lý ảo.

Salesforce tăng cường hoạt động AI với sự hỗ trợ cơ sở dữ liệu vector, Einstein Copilot nâng cao

- Salesforce nâng cấp khả năng AI bằng cách hỗ trợ cơ sở dữ liệu vector và cải tiến trợ lý AI tạo sinh Einstein Copilot.

- Trước sự kiện World Tour NYC, công ty thông báo tích hợp cơ sở dữ liệu vector vào Einstein 1 Platform, giúp các đội ngũ dễ dàng áp dụng AI vào quy trình làm việc.

- Salesforce Data Cloud, nền tảng dữ liệu nội bộ, kết hợp dữ liệu từ nhiều điểm tiếp xúc với khách hàng để tạo hồ sơ khách hàng thống nhất theo thời gian thực.

- Hỗ trợ cơ sở dữ liệu vector cho phép chuyển đổi dữ liệu không cấu trúc như PDF, email, văn bản, và bản ghi thành định dạng vector để sử dụng trong AI tạo sinh và phân tích dữ liệu trong CRM.

- Einstein Copilot sẽ tích hợp khả năng tìm kiếm dựa trên AI, cho phép truy vấn dữ liệu kinh doanh, cả cấu trúc và không cấu trúc, và cung cấp thông tin chính xác trong quy trình làm việc.

- Dịch vụ sẽ được phát hành chung vào tháng 2 năm 2024, với việc triển khai thử nghiệm hỗ trợ cơ sở dữ liệu vector và tìm kiếm AI cùng tháng.

 

Kết luận: Salesforce đang tiến một bước lớn trong việc cải tiến nền tảng AI của mình bằng việc hỗ trợ cơ sở dữ liệu vector và cải thiện Einstein Copilot, triển khai vào tháng 2 năm 2024. Sự kết hợp giữa dữ liệu cấu trúc và không cấu trúc được dự đoán sẽ biến đổi cách doanh nghiệp sử dụng dữ liệu để tạo ra trí tuệ nhân tạo, phân tích dữ liệu và tự động hóa trong CRM.

 

GOOGLE CUNG CẤP QUYỀN TRUY CẬP MIỄN PHÍ VÀO GEMINI PRO CHO NHÀ PHÁT TRIỂN PHẦN MỀM

- Google giới thiệu mô hình AI mới là Gemini Pro dành cho các nhà phát triển, cung cấp miễn phí.

- Gemini Pro hỗ trợ 38 ngôn ngữ và có thể sử dụng trong hơn 180 quốc gia và lãnh thổ.

- Mô hình này có khả năng xử lý văn bản và tạo ra đầu ra văn bản, đồng thời cung cấp điểm cuối multimodal cho cả văn bản và hình ảnh.

- SDKs được cung cấp cho Python, Android (Kotlin), Node.js, Swift và JavaScript, giúp tích hợp dễ dàng vào môi trường lập trình sẵn có.

- Gemini Pro được tích hợp vào sản phẩm của Google như Pixel 8 Pro và Bard, một nền tảng sáng tạo.

- Google AI Studio là công cụ phát triển dựa trên web, cung cấp 60 yêu cầu mỗi phút miễn phí.

- Các dự án có thể chuyển đổi mượt mà từ Google AI Studio sang Vertex AI trên Google Cloud để đáp ứng nhu cầu cá nhận hóa và tính năng doanh nghiệp.

 

Kết luận: Google mang đến cơ hội lớn cho cộng đồng phát triển với việc cung cấp quyền truy cập miễn phí vào Gemini Pro, một mô hình AI mạnh mẽ với khả năng xử lý ngôn ngữ đa dạng và hỗ trợ multimodal. Sự hỗ trợ rộng khắp với 38 ngôn ngữ và tích hợp SDKs đa ngôn ngữ, cùng với việc hòa nhập vào các sản phẩm của Google và sự chuyển tiếp linh hoạt sang Vertex AI trên Google Cloud, mở ra triển vọng mới trong việc phát triển ứng dụng AI toàn cầu.

 

Google Gemini Pro: Mô hình AI mới miễn phí cho nhà phát triển

Google AI Studio và Vertex AI: Công cụ phát triển và tùy chỉnh cho các dự án AI

SDKs cho AI: Hỗ trợ đa ngôn ngữ trong lập trình với Gemini Pro by Google

Google ra mắt Gemini Pro miễn phí cho nhà phát triển, hỗ trợ đa ngôn ngữ và tích hợp SDK

AI tạo sinh, nguồn mở, multimodal, thủy vân, phơi nhiễm, vô danh, agent, framework

Google Unveils Free Access to Gemini Pro for Developers with Multimodal AI Support

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo